GPT-4、Gemini同时被曝重大缺陷,逻辑推理大翻车!DeepMind上交校友团队发现LLM严重降智(gemini solution)

AIGC动态欢迎阅读

原标题:GPT-4

、Gemini同时被曝重大缺陷,逻辑推理大翻车!DeepMind上交校友团队发现LLM严重降智

关键字:顺序,问题,前提,模型,研究人员

文章来源:新智元

内容字数:10483字

内容摘要:

新智元报道编辑:编辑部

【新智元导读】谷歌DeepMind最新研究发现,问题中前提条件的呈现顺序,对于大模型的推理性能有着决定性的影响,打乱顺序能让模型表现下降30%。最近,谷歌DeepMind和斯坦福的研究人员发现:大模型在处理逻辑推理任务时,问题中信息呈现的顺序对模型的表现有着决定性的影响。

论文地址:https://arxiv.org/abs/2402.08939

具体来说,当信息按照逻辑上的自然顺序排列时,模型的表现会更好。这一发现不仅适用于一般的逻辑推理问题,对于数学问题也同样有效。

比如,如果某个证明任务的条件是:

1. 如果A,那么B;

2. 如果B,那么C;

3. A为真。

要求大模型证明C为真,如果条件按照1,2,3的顺序呈现,那么大模型的成功率会比2,1,3的条件呈现顺序高出很多。

所以,以后用大模型,言简意赅,符合逻辑地提出问题能让它性能更强。

上图展示了一个失败的案例,GPT-4,Gemini Pro,GPT-3.5在改变相关规则的顺序后都未能成功生成证明。

上图可以看出,对于当前主流的几个大模型,改变前提的叙述顺序都会导致性能大幅下降。

有趣的是,谷歌的新型

原文链接:GPT-4、Gemini同时被曝重大缺陷,逻辑推理大翻车!DeepMind上交校友团队发现LLM严重降智

联系作者

文章来源:新智元

作者微信:AI_era

作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。

0
分享到:
没有账号? 忘记密码?