UCLA华人提出全新自我对弈机制!LLM自己训自己,效果碾压GPT-4专家指导(ucla itoh)

AIGC动态欢迎阅读

原标题:UCLA华人提出全新自我对弈机制!LLM自己训自己,效果碾压GPT-4

专家指导

关键字:模型,数据,研究人员,对手

,自我

文章来源:新智元

内容字数:5347字

内容摘要:

新智元报道编辑:润

【新智元导读】来自UCLA的华人团队提出一种全新的LLM自我对弈系统,能够让LLM自我合成数据,自我微调提升性能,甚至超过了用GPT-4作为专家模型指导的效果。合成数据已经成为了大语言模型进化之路上最重要的一块基石了。

在去年底,有网友扒出前OpenAI

首席科学家Ilya曾经在很多场合表示过,LLM的发展不存在数据瓶颈,合成数据可以解决大部分的问题。

英伟达高级科学家Jim Fan在看了最近的一批论文后也认为,使用合成数据,再加上传统用于游戏和图像生成的技术思路,可以让LLM完成大幅度的自我进化。

而正式提出这个方法的论文,是由来自UCLA的华人团队。

论文地址:https://arxiv.org/abs/2401.01335v1

他们通过自我对弈机制(SPIN)生成合成数据,再通过自我微调的方法,不使用新的数据集,让性能较弱的LLM在Open LLM Leaderboard Benchmark上将平均分从58.14提升至63.16。

研究人员提出了一种名为SPIN的自我微调的方法,通过自我对弈的方式——LLM与其前一轮迭代版本进行对抗,从而逐步提升语言模型的性能

原文链接:UCLA华人提出全新自我对弈机制!LLM自己训自己,效果碾压GPT-4专家指导

联系作者

文章来源:新智元

作者微信:AI_era

作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。

0
分享到:
没有账号? 忘记密码?