GPT-4、Gemini同时被曝重大缺陷，逻辑推理大翻车！DeepMind上交校友团队发现LLM严重降智（gemini solution）

原标题：GPT-4

、Gemini同时被曝重大缺陷，逻辑推理大翻车！DeepMind上交校友团队发现LLM严重降智

文章来源：新智元

内容字数：10483字

新智元报道编辑：编辑部

【新智元导读】谷歌DeepMind最新研究发现，问题中前提条件的呈现顺序，对于大模型的推理性能有着决定性的影响，打乱顺序能让模型表现下降30%。最近，谷歌DeepMind和斯坦福的研究人员发现：大模型在处理逻辑推理任务时，问题中信息呈现的顺序对模型的表现有着决定性的影响。

论文地址：https://arxiv.org/abs/2402.08939

具体来说，当信息按照逻辑上的自然顺序排列时，模型的表现会更好。这一发现不仅适用于一般的逻辑推理问题，对于数学问题也同样有效。

比如，如果某个证明任务的条件是：

1. 如果A，那么B；

2. 如果B，那么C；

3. A为真。

要求大模型证明C为真，如果条件按照1，2，3的顺序呈现，那么大模型的成功率会比2，1，3的条件呈现顺序高出很多。

所以，以后用大模型，言简意赅，符合逻辑地提出问题能让它性能更强。

上图展示了一个失败的案例，GPT-4，Gemini Pro，GPT-3.5在改变相关规则的顺序后都未能成功生成证明。

上图可以看出，对于当前主流的几个大模型，改变前提的叙述顺序都会导致性能大幅下降。

有趣的是，谷歌的新型

文章来源：新智元

作者微信：AI_era

作者简介：智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。