10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观(贾扬清老婆)

AIGC动态欢迎阅读

原标题:10万美元训出Llama-2级大模型

!全华人打造新型MoE,贾扬清SD前CEO围观

关键字:模型,数据,嘉宾,峰会,博士

文章来源:量子位

内容字数:3602字

内容摘要:

丰色 发自 凹非寺量子位 | 公众号 QbitAI“只需”10万美元,训练Llama-2级别的大模型。

尺寸更小但性能不减的MoE模型来了:

它叫JetMoE,来自MIT、普林斯顿等研究机构。

性能妥妥超过同等规模的Llama-2。

△贾扬清转发要知道,后者可是数十亿美元级别的投入成本。

JetMoE发布即完全开源,且学术界友好:仅使用公开数据集和开源代码,用消费级GPU就能进行微调。

不得说,大模型的打造成本,真的比人们想的要便宜更多了。

Ps. Stable Diffusion前老板Emad也点了赞:

10万美刀实现Llama-2性能JetMoE启发于ModuleFormer的稀疏激活架构。

(ModuleFormer,一种基于稀疏专家混合(SMoE)的模块化架构,可提高大模型效率和灵活性,去年6月提出)

它的注意力层中仍然使用了MoE:

80亿参数的JetMoE一共有24个区块,每块包含2个MoE层,分别是注意力头混合 (MoA) 和MLP专家混合 (MoE)。

每个MoA和MoE层又有8个专家,每次输入token激活2个。

JetMoE-8B使用公开数据集中的1.25T tok

原文链接:10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

联系作者

文章来源:量子位

作者微信:QbitAI

作者简介:追踪人工智能新趋势,关注科技行业新突破

0
分享到:
没有账号? 忘记密码?