大模型Scaling Law同样适用于下游任务性能?斯坦福、谷歌最新研究揭秘(slab模型是什么意思)

AIGC动态欢迎阅读

原标题:大模型Scaling Law同样适用于下游任务

性能?斯坦福、谷歌最新研究揭秘

关键字:数据,得分,任务,研究者

,下游

文章来源:机器之心

内容字数:10473字

内容摘要:

机器之心报道

编辑:蛋酱、张倩大模型的成功很大程度上要归因于 Scaling Law 的存在,这一定律量化了模型性能与训练数据规模、模型架构等设计要素之间的关系,为模型开发、资源分配和选择合适的训练数据提供了宝贵的指导。

以往的大量研究集中于上游复杂度或交叉熵损失的 Scaling law(即在预训练数据上进行评估),但在实际应用中,模型通常要经历一个迁移学习的过程:首先在无监督数据上进行预训练,然后针对特定的下游任务(如编码或翻译)进行微调。

那么,Scaling Law 能不能用于预测下游任务性能?这个关键问题很大程度上仍未得到解答。在最近的一项工作中,斯坦福大学和谷歌的研究者探索了迁移学习的 Scaling Law。论文标题:Scaling Laws for Downstream Task Performance of Large Language Models

论文链接:https://arxiv.org/pdf/2402.04177.pdf

任务性能指的是准确率和 BLEU 得分等衡量任务相关的指标,这些指标不同于交叉熵等下一个 token 预测指标。研究者聚焦于机器翻译任务

原文链接:大模型Scaling Law同样适用于下游任务性能?斯坦福、谷歌最新研究揭秘

联系作者

文章来源:机器之心

作者微信:almosthuman2014

作者简介:专业的人工智能媒体和产业服务平台

0
分享到:
没有账号? 忘记密码?