DeepMind携Mamba华人作者推Transformer革命之作！性能暴涨媲美Llama 2，推理能效大幅碾压（deepmoss品牌简介）

原标题：DeepMind携Mamba华人作者推Transformer革命之作！性能暴涨媲美Llama 2，推理能效大幅碾压

文章来源：新智元

内容字数：10158字

新智元报道编辑：编辑部

【新智元导读】线性RNN赢了？近日，谷歌DeepMind一口气推出两大新架构，在d基准测试中超越了Transformer。新架构不仅保证了高效的训练和推理速度，并且成功扩展到了14B。Transformer又又又被挑战了！

这次的挑战者来自大名鼎鼎的谷歌DeepMind，并且一口气推出了两种新架构，——Hawk和Griffin。

论文地址：https://arxiv.org/abs/2402.19427

这种将门控线性RNN与局部注意力混合在一起的模型新架构的表现相当亮眼。

首先，同为线性RNN架构的Griffin，凭借着1/2的训练数据，在所有评测中全面优于之前大火的Mamba。

更重要的是，Griffin将模型成功扩展到了14B，做到了Mamba想做却没能做的事。

其次，面对基于Transformer架构的模型，Griffin则凭借着1/6的训练数据，打平甚至超越了同等参数量的Llama 2！

同时，模型能够利用很长的上下文来改进其预测，表明线性RNN的外推能力可以远远超出它们训练的序列长度。

此外，团队还证明了这种组合构架保留了Transformer在合

文章来源：新智元

作者微信：AI_era

作者简介：智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。