英伟达最强通用大模型Nemotron-4登场!15B击败62B,目标单张A100/H100可跑(英伟达n16s)

AIGC动态欢迎阅读

原标题:英伟达最强通用大模型

Nemotron-4登场!15B击败62B,目标单张A100/H100可跑

关键字:模型,数据,性能,研究人员,任务

文章来源:新智元

内容字数:5956字

内容摘要:

新智元报道编辑:桃子

【新智元导读】许久未更新大模型的英伟达推出了150亿参数的Nemotron-4,目标是打造一个能在单个A100/H100可跑的通用大模型。最近,英伟达团队推出了全新的模型Nemotron-4,150亿参数,在8T token上完成了训练。

值得一提的是,Nemotron-4在英语、多语言和编码任务方面令人印象深刻。

论文地址:https://arxiv.org/abs/2402.16819

在7个评估基准上,与同等参数规模的模型相比,Nemotron-4 15B表现出色。

甚至,其性能超过了4倍大的模型,以及专用于多语言任务的模型。

如今LLM已经非常多了,英伟达新发布的语言模型,有何不同?

打造最强通用LLM,单个A100/H100可跑最近发表的LLM研究受到了Chinchilla模型「缩放定律」的启发——给定固定计算预算,数据和模型大小一同优化。

而过去,研究主要针对模型大小进行缩放。

研究表明,给定两个数据分布类似的IsoFLOP GPT模型,一个是在1.4万亿token上的65亿参数模型,另一个是3000亿token上的2800亿参数模型。

显然,65B

原文链接:英伟达最强通用大模型Nemotron-4登场!15B击败62B,目标单张A100/H100可跑

联系作者

文章来源:新智元

作者微信:AI_era

作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。

0
分享到:
没有账号? 忘记密码?