模型合并就进化,直接拿下SOTA!Transformer作者创业新成果火了(模型融合方法)

AIGC动态欢迎阅读

原标题:模型

合并就进化,直接拿下SOTA!Transformer作者创业新成果火了

关键字:模型,日语,腾讯,方法,参数

文章来源:量子位

内容字数:5429字

内容摘要:

丰色 发自 凹非寺量子位 | 公众号 QbitAI把Huggingface上的现成模型拿来“攒一攒”——

直接就能组合出新的强大模型?!

日本大模型公司sakana.ai脑洞大开(正是“Transformer八子”之一所创办的公司),想出了这么一个进化合并模型的妙招。

该方法不仅能自动生成新的基础模型,而且性能绝不赖:

他们得到的一个70亿参数的日语数学大模型,直接在相关基准测试上取得了SOTA,打败了700亿参数的Llama-2等前辈。

最重要的是,得出这样的模型不需要任何梯度训练,因此需要的计算资源大大减少。

英伟达科学家Jim Fan看完大赞:

这是我最近读过的最有想象力的论文之一。

合并进化,自动生成新基础模型从开源大模型排行榜上表现最好的模型,大多不再是LLaMA或Mistral这种“原始”模型,而是一些微调或合并模型之后,我们就能看出:

一种新的趋势出现了。

Sakana.ai介绍,开源基础模型很容易在数百个不同的方向上进行扩展和微调,然后产生在新的领域表现出色的新模型。

而在这之中,模型合并显现出了巨大前景。

但,它可能是一种“黑魔法”,严重依赖直觉和专业知识。

因此,我

原文链接:模型合并就进化,直接拿下SOTA!Transformer作者创业新成果火了

联系作者

文章来源:量子位

作者微信:QbitAI

作者简介:追踪人工智能新趋势,关注科技行业新突破

0
分享到:
没有账号? 忘记密码?