Mamba架构第一次做大!混合Transformer,打败Transformer(bma基础模块架构)

AIGC动态欢迎阅读

原标题:Mamba架构第一次做大!混合Transformer,打败Transformer

关键字:腾讯,吞吐量,模型,高效,上下文

文章来源:量子位

内容字数:3955字

内容摘要:

丰色 发自 凹非寺量子位 | 公众号 QbitAI精彩精彩,第一个把爆火Mamba架构真正扩展到足够大的工作来了。

520亿参数,还是Mamba+Transformer混合架构。

它的名字叫Jamba。

取两种架构之长,模型质量和效率兼得,要吞吐量有吞吐量,要低内存有低内存。

初步跑分显示:

Jamba性能总体接近Mixtral 8x-7B,处理128k长上下文时吞吐量却是其3倍。

一共支持256k上下文,而单张A100 GPU即可处理140k,直接拿下同等规模模型之最,高效又经济。

这项成果,来自以色列AI公司AI21labs。

Mamba原作者看了之后都激动转发:

绝对的“大新闻”。

Mamba、Transformer,合体由CMU和普林斯顿大学提出的Mamba,解决了Transformer的局限性(随着推理上下文越长,模型内存占用量越大,同时推理速度变慢,由此导致算力消耗巨大)。

但它也有自己的缺点——

在不关注整个上下文的情况下,Mamba的输出质量很差,尤其是在召回相关的任务上。

本着“既要也要”的原则,Jamba站出来提供两全其美之作。

Jamba由Transformer、

原文链接:Mamba架构第一次做大!混合Transformer,打败Transformer

联系作者

文章来源:量子位

作者微信:QbitAI

作者简介:追踪人工智能新趋势,关注科技行业新突破

0
分享到:
没有账号? 忘记密码?