Llama3训练集群揭秘,共24,576 个 GPU(模型大师开箱a380)

AIGC动态欢迎阅读

原标题:Llama3训练集群

揭秘,共24,576 个 GPU

关键字:集群,公司,基础设施,模型,网络

文章来源:AI范儿

内容字数:1996字

内容摘要:

点击上方蓝字关注我们“Meta 公司透露了其专为 AI 训练设计的先进硬件基础设施细节。这些集群包括 24,576 个 GPU,采用了创新的网络结构解决方案,为支持当前和未来的 AI 模型打下了坚实基础。Meta 公司日前揭示了其先进硬件基础设施的关键细节,这些硬件专门为 AI 训练而设计,Meta首席科学家Yann LeCun所指出的,重点之一是为 Llama 3 训练而设计。该公司披露了其拥有 24,576 个 GPU 的数据中心规模集群的内部机制,这些集群对支持当前和即将推出的 AI 模型至关重要,包括 Llama 3,以及 Llama 2 的后续版本。

这些集群代表了 Meta 公司在 AI 硬件领域的巨大投资,凸显了基础设施在塑造 AI 未来中的关键作用。这些集群的设计旨在支持 Meta 公司的长期愿景,即以开放和负责任的方式创建AGI,并致力于实现广泛可访问性。

根据最新进展,Meta 的 24,576-GPU 集群中部署了两种型号,每个集群配备不同的网络结构解决方案。其中一个集群采用了远程直接内存访问(RDMA)在收敛以太网(RoCE)网络结构上,而另一个则采用了 NVI

原文链接:Llama3训练集群揭秘,共24,576 个 GPU

联系作者

文章来源:AI范儿

作者微信:AI_Insights

作者简介:AI领域四大媒体之一。 智能未来,始于Prompt!

0
分享到:
没有账号? 忘记密码?