字节万卡集群技术细节公开:2天搞定GPT-3训练,算力利用率超英伟达Megatron-LM(字节ka部门)

AIGC动态欢迎阅读

原标题:字节万卡集群

技术细节公开:2天搞定GPT-3训练,算力利用率超英伟达Megatron-LM

关键字:腾讯,字节跳动,模型

,集群,字节

文章来源:量子位

内容字数:4070字

内容摘要:

鱼羊 发自 凹非寺量子位 | 公众号 QbitAI随着对Sora技术分析的展开,AI基础设施的重要性愈发凸显。

来自字节和北大的一篇新论文在此时吸引关注:

文章披露,字节搭建起的万卡集群,能在1.75天内完成GPT-3规模模型(175B)的训练。

具体来说,字节提出了一个名为MegaScale的生产系统,旨在解决在万卡集群上训练大模型时面临的效率和稳定性挑战。

在12288块GPU上训练1750亿参数大语言模型时,MegaScale实现了55.2%的算力利用率(MFU),是英伟达Megatron-LM的1.34倍。

论文还透露,截止2023年9月,字节已建立起超过1万张卡的Ampere架构GPU(A100/A800)集群,目前正在建设大规模Hopper架构(H100/H800)集群。

适用于万卡集群的生产系统大模型时代,GPU的重要性已无需赘述。

但大模型的训练,并不是把卡的数量拉满就能直接开干的——当GPU集群的规模来到“万”字级别,如何实现高效、稳定的训练,本身就是一个颇具挑战的工程问题。

第一重挑战:效率。

训练大语言模型并非简单的并行任务,需要在多个GPU之间分布模型,并且这些

原文链接:字节万卡集群技术细节公开:2天搞定GPT-3训练,算力利用率超英伟达Megatron-LM

联系作者

文章来源:量子位

作者微信:QbitAI

作者简介:追踪人工智能新趋势,关注科技行业新突破

0
分享到:
没有账号? 忘记密码?