模型合并就进化，直接拿下SOTA！Transformer作者创业新成果火了（模型融合方法）

原标题：模型

合并就进化，直接拿下SOTA！Transformer作者创业新成果火了

关键字：模型,日语,腾讯,方法,参数

文章来源：量子位

内容字数：5429字

丰色发自凹非寺量子位 | 公众号 QbitAI把Huggingface上的现成模型拿来“攒一攒”——

直接就能组合出新的强大模型？！

日本大模型公司sakana.ai脑洞大开（正是“Transformer八子”之一所创办的公司），想出了这么一个进化合并模型的妙招。

该方法不仅能自动生成新的基础模型，而且性能绝不赖：

他们得到的一个70亿参数的日语数学大模型，直接在相关基准测试上取得了SOTA，打败了700亿参数的Llama-2等前辈。

最重要的是，得出这样的模型不需要任何梯度训练，因此需要的计算资源大大减少。

英伟达科学家Jim Fan看完大赞：

这是我最近读过的最有想象力的论文之一。

合并进化，自动生成新基础模型从开源大模型排行榜上表现最好的模型，大多不再是LLaMA或Mistral这种“原始”模型，而是一些微调或合并模型之后，我们就能看出：

一种新的趋势出现了。

Sakana.ai介绍，开源基础模型很容易在数百个不同的方向上进行扩展和微调，然后产生在新的领域表现出色的新模型。

而在这之中，模型合并显现出了巨大前景。

但，它可能是一种“黑魔法”，严重依赖直觉和专业知识。

因此，我

原文链接：模型合并就进化，直接拿下SOTA！Transformer作者创业新成果火了

文章来源：量子位

作者微信：QbitAI

作者简介：追踪人工智能新趋势，关注科技行业新突破