Mamba超强进化体一举颠覆Transformer!单张A100跑140K上下文(最强mega宝可梦)

AIGC动态欢迎阅读

原标题:Mamba超强进化体一举颠覆Transformer!单张A100跑140K上下文关键字:模型,上下文,架构,吞吐量,长上

文章来源:新智元

内容字数:5489字

内容摘要:

新智元报道编辑:编辑部

【新智元导读】52B的生产级Mamba大模型来了!这个超强变体Jamba刚刚打破世界纪录,它能正面硬刚Transformer,256K超长上下文窗口,吞吐量提升3倍,权重免费下载。之前引爆了AI圈的Mamba架构,今天又推出了一版超强变体!

人工智能独角兽AI21 Labs刚刚开源了Jamba,世界上第一个生产级的Mamba大模型!

Jamba在多项基准测试中表现亮眼,与目前最强的几个开源Transformer平起平坐。

特别是对比性能最好的、同为MoE架构的Mixtral 8x7B,也互有胜负。

具体来说它——

是基于全新SSM-Transformer混合架构的首个生产级Mamba模型

与Mixtral 8x7B相比,长文本处理吞吐量提高了3倍

实现了256K超长上下文窗口

是同等规模中,唯一一个能在单张GPU上处理140K上下文的模型

以Apache 2.0开源许可协议发布,开放权重

之前的Mamba因为各种限制,只做到了3B,还被人质疑能否接过Transformer的大旗,而同为线性RNN家族的RWKV、Griffin等也只扩展到了14B。

——Jamb

原文链接:Mamba超强进化体一举颠覆Transformer!单张A100跑140K上下文

联系作者

文章来源:新智元

作者微信:AI_era

作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。

0
分享到:
没有账号? 忘记密码?