新开源之王来了!1320亿参数,逻辑数理全面打赢Grok,还比Llama2-70B快1倍(新开源做什么的)

AIGC动态欢迎阅读

原标题:新开源之王来了!1320亿参数,逻辑数理全面打赢Grok,还比Llama2-70B快1倍

关键字:腾讯,模型,团队,基准,专家

文章来源:量子位

内容字数:3515字

内容摘要:

鱼羊 发自 凹非寺量子位 | 公众号 QbitAI“最强”开源大模型之争,又有新王入局:

大数据巨头Databricks,刚刚发布MoE大模型DBRX,并宣称:

它在基准测试中击败了此前所有开源模型。

包括同为混合专家模型的Grok-1和Mixtral。

新王搅局,迅速引发了开源社区的热议。

毕竟,仅从纸面数据来看,DBRX颇具特点:总参数量为1320亿,但因为是混合专家模型,每次激活参数量仅为360亿。

就是说,在总参数量接近Llama2-70B的2倍的情况下,DBRX的生成速度也比Llama2-70B快1倍。

△DBRX vs Llama2-70B另外,DBRX是在12T token上从头训练的,训练数据量是Llama2的6倍,远高于Chinchilla定律推荐量。

网友们的第一反应be like:

首席科学家:打赌输了就把头发染蓝来看DBRX的具体细节。

DBRX由16个专家模型组成,每次训练推理会有4个专家处于激活状态。其上下文长度为32K。

为了训练DBRX,Databricks团队从云厂商那里租用了3072个H100。

一个细节是,团队向Wired透露,经过两个月的训练之后

原文链接:新开源之王来了!1320亿参数,逻辑数理全面打赢Grok,还比Llama2-70B快1倍

联系作者

文章来源:量子位

作者微信:QbitAI

作者简介:追踪人工智能新趋势,关注科技行业新突破

0
分享到:
没有账号? 忘记密码?