讨论下一个token预测时,我们可能正在走进陷阱(中储粮供应商入围招标公告)

AIGC动态欢迎阅读

原标题:讨论下一个token预测时,我们可能正在走进陷阱

关键字:模型,本文,问题,任务,作者

文章来源:机器之心

内容字数:8852字

内容摘要:

机器之心报道

编辑:赵阳自香农在《通信的数学原理》一书中提出「下一个 token 预测任务」之后,这一概念逐渐成为现代语言模型的核心部分。最近,围绕下一个 token 预测的讨论日趋激烈。

然而,越来越多的人认为,以下一个 token 的预测为目标只能得到一个优秀的「即兴表演艺术家」,并不能真正模拟人类思维。人类会在执行计划之前在头脑中进行细致的想象、策划和回溯。遗憾的是,这种策略并没有明确地构建在当今语言模型的框架中。对此,部分学者如 LeCun,在其论文中已有所评判。

在一篇论文中,来自苏黎世联邦理工学院的 Gregor Bachmann 和谷歌研究院的 Vaishnavh Nagarajan 对这个话题进行了深入分析,指出了当前争论没有关注到的本质问题:即没有将训练阶段的 teacher forcing 模式和推理阶段的自回归模式加以区分。论文标题:THE PITFALLS OF NEXT-TOKEN PREDICTION

论文地址:https://arxiv.org/pdf/2403.06963.pdf

项目地址:https://github.com/gregorbachman

原文链接:讨论下一个token预测时,我们可能正在走进陷阱

联系作者

文章来源:机器之心

作者微信:almosthuman2014

作者简介:专业的人工智能媒体和产业服务平台

0
分享到:
没有账号? 忘记密码?