10万美元训出Llama-2级大模型！全华人打造新型MoE，贾扬清SD前CEO围观（贾扬清老婆）

原标题：10万美元训出Llama-2级大模型

！全华人打造新型MoE，贾扬清SD前CEO围观

关键字：模型,数据,嘉宾,峰会,博士

文章来源：量子位

内容字数：3602字

丰色发自凹非寺量子位 | 公众号 QbitAI“只需”10万美元，训练Llama-2级别的大模型。

尺寸更小但性能不减的MoE模型来了：

它叫JetMoE，来自MIT、普林斯顿等研究机构。

性能妥妥超过同等规模的Llama-2。

△贾扬清转发要知道，后者可是数十亿美元级别的投入成本。

JetMoE发布即完全开源，且学术界友好：仅使用公开数据集和开源代码，用消费级GPU就能进行微调。

不得说，大模型的打造成本，真的比人们想的要便宜更多了。

Ps. Stable Diffusion前老板Emad也点了赞：

10万美刀实现Llama-2性能JetMoE启发于ModuleFormer的稀疏激活架构。

（ModuleFormer，一种基于稀疏专家混合(SMoE)的模块化架构，可提高大模型效率和灵活性，去年6月提出）

它的注意力层中仍然使用了MoE：

80亿参数的JetMoE一共有24个区块，每块包含2个MoE层，分别是注意力头混合 (MoA) 和MLP专家混合 (MoE）。

每个MoA和MoE层又有8个专家，每次输入token激活2个。

JetMoE-8B使用公开数据集中的1.25T tok

原文链接：10万美元训出Llama-2级大模型！全华人打造新型MoE，贾扬清SD前CEO围观

文章来源：量子位

作者微信：QbitAI

作者简介：追踪人工智能新趋势，关注科技行业新突破