GPT-4单项仅得7.1分，揭露大模型代码能力三大短板，最新基准测试来了（gp模型是什么）

原标题：GPT-4单项仅得7.1分，揭露大模型代码

能力三大短板，最新基准测试来了

关键字：模型,代码,腾讯,报告,字节跳动

文章来源：量子位

内容字数：7296字

DevBench团队投稿量子位 | 公众号 QbitAI首个AI软件工程师Devin正式亮相，立即引爆了整个技术界。

Devin不仅能够轻松解决编码任务，更可以自主完成软件开发的整个周期——从项目规划到部署，涵盖但不限于构建网站、自主寻找并修复 BUG、训练以及微调AI模型等。

这种 “强到逆天” 的软件开发能力，让一众码农纷纷绝望，直呼：“程序员的末日真来了？”

在一众测试成绩中，Devin在SWE-Bench基准测试中的表现尤为引人注目。

SWE-Bench是一个评估AI软件工程能力的测试，重点考察大模型解决实际 GitHub 问题的能力。

Devin以独立解决13.86%的问题率高居榜首，“秒杀”了GPT-4仅有的 1.74%得分，将一众AI大模型远远甩在后面。

这强大的性能让人不禁浮想联翩：“未来的软件开发中，AI将扮演怎样的角色？”

上海人工智能实验室联合字节跳动SE Lab的研究人员以及SWE-Bench团队，提出了一个新测试基准DevBench，首次揭秘大模型在多大程度上可以从PRD出发，完成一个完整项目的设计、开发、测试。

具体地说，DevBench首次对大模型进行了

原文链接：GPT-4单项仅得7.1分，揭露大模型代码能力三大短板，最新基准测试来了

文章来源：量子位

作者微信：QbitAI

作者简介：追踪人工智能新趋势，关注科技行业新突破