Karpathy新视频又火了:从头构建GPT Tokenizer(parkour视频)

AIGC动态欢迎阅读

原标题:Karpathy新视频又火了:从头构建GPT Tokenizer

关键字:分词,腾讯,模型,字节,算法

文章来源:量子位

内容字数:5240字

内容摘要:

丰色 鱼羊 发自 凹非寺量子位 | 公众号 QbitAI技术大神卡帕西离职OpenAI

以后,营业可谓相当积极啊。

这不,前脚新项目刚上线,后脚全新的教学视频又给大伙整出来了:

这次,是手把手教咱构建一个GPT Tokenizer(分词器),还是熟悉的时长(足足2小时13分钟)。

Ps. 上次讲课还是俩月前的大模型科普。

所谓“卡帕西出手,必属精品”,大伙火速码码码:

今晚的约会取消,卡帕西来了我要去上课(狗头)

再说一遍,付费都买不到的这样高质量的课程,冲。

具体都有哪些干货?

“太长不看版”已为大家准备好。

为什么要关注Tokenizer如大神介绍:

Tokenizer即分词器是大语言模型pipeline中一个完全独立的阶段。

它们有自己的训练集、算法(比如BPE,字节对编码),并在训练完成后实现两个功能:从字符串编码到token,以及从token解码回字符串。

为什么我们需要关注它?

卡帕西指出:

因为LLM中的很多奇怪行为和问题都可以追溯到它。

比如:

为什么大模型不能处理简单的字符串处理任务,例如反转?

为什么大模型在非英语语言任务方面的性能更差?

为什么大模型不擅长简单的算术

原文链接:Karpathy新视频又火了:从头构建GPT Tokenizer

联系作者

文章来源:量子位

作者微信:QbitAI

作者简介:追踪人工智能新趋势,关注科技行业新突破

0
分享到:
没有账号? 忘记密码?