谷歌更新Transformer架构,更节省计算资源!50%性能提升(GooglePlay应用商店最新版本更新内容介绍)

AIGC动态欢迎阅读

原标题:谷歌更新Transformer架构,更节省计算资源

!50%性能提升

关键字:模型,基线,更多,资源,方法

文章来源:量子位

内容字数:4091字

内容摘要:

明敏 发自 凹非寺量子位 | 公众号 QbitAI谷歌终于更新了Transformer架构。

最新发布的Mixture-of-Depths(MoD),改变了以往Transformer计算模式。

它通过动态分配大模型中的计算资源,跳过一些不必要计算,显著提高训练效率和推理速度。

结果显示,在等效计算量和训练时间上,MoD每次向前传播所需的计算量更小,而且后训练采样过程中步进速度提高50%。

这一方法刚刚发布,就马上引发关注。

MoE风头正盛,MoD已经来后浪拍前浪了?

还有人开始“算账”:

听说GPT-4

Turbo在Blackwell上提速30倍,再加上这个方法和其他各种加速,下一代生成模型可以走多远?

所以MoD如何实现?

迫使大模型关注真正重要信息这项研究提出,现在的大模型训练和推理中,有很多计算是没必要的。

比如预测下一个句子很难,但是预测句子结束的标点符号很简单。如果给它们分配同样的计算资源,那么后者明显浪费了。

在理想情况下, 模型应该只给需要准确预测的token分配更多计算资源。

所以研究人员提出了MoD。

它在输入序列中的特定位置动态分配FLOPs(运算次数或计算资源),

原文链接:谷歌更新Transformer架构,更节省计算资源!50%性能提升

联系作者

文章来源:量子位

作者微信:QbitAI

作者简介:追踪人工智能新趋势,关注科技行业新突破

0
分享到:
没有账号? 忘记密码?