一块钱100万token,超强MoE模型开源,性能直逼GPT-4-Turbo(开源教程)

AIGC动态欢迎阅读

原标题:一块钱100万token,超强MoE模型开源,性能直逼GPT-4

-Turbo

关键字:模型,中文,基准,语料库,方面

文章来源:机器之心

内容字数:4811字

内容摘要:

机器之心报道

编辑:陈萍、小舟开源大模型领域,又迎来一位强有力的竞争者。

近日,探索通用人工智能(AGI)本质的 DeepSeek AI 公司开源了一款强大的混合专家 (MoE) 语言模型 DeepSeek-V2,主打训练成本更低、推理更加高效。项目地址:https://github.com/deepseek-ai/DeepSeek-V2

论文标题:DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

DeepSeek-V2 参数量达 236B,其中每个 token 激活 21B 参数,支持 128K token 的上下文长度。与 DeepSeek 67B (该模型去年上线)相比,DeepSeek-V2 实现了更强的性能,同时节省了 42.5% 的训练成本,减少了 93.3% 的 KV 缓存,并将最大生成吞吐量提升 5.76 倍。DeepSeek-V2 的模型表现非常亮眼:在 AlignBench 基准上超过 GPT-4,接近 GPT-4- turbo;在 MT-Bench

原文链接:一块钱100万token,超强MoE模型开源,性能直逼GPT-4-Turbo

联系作者

文章来源:机器之心

作者微信:almosthuman2014

作者简介:专业的人工智能媒体和产业服务平台

0
分享到:
没有账号? 忘记密码?