GPT-4单项仅得7.1分,揭露大模型代码能力三大短板,最新基准测试来了(gp模型是什么)

AIGC动态欢迎阅读

原标题:GPT-4单项仅得7.1分,揭露大模型代码

能力三大短板,最新基准测试来了

关键字:模型,代码,腾讯,报告,字节跳动

文章来源:量子位

内容字数:7296字

内容摘要:

DevBench团队 投稿量子位 | 公众号 QbitAI首个AI软件工程师Devin正式亮相,立即引爆了整个技术界。

Devin不仅能够轻松解决编码任务,更可以自主完成软件开发的整个周期——从项目规划到部署,涵盖但不限于构建网站、自主寻找并修复 BUG、训练以及微调AI模型等。

这种 “强到逆天” 的软件开发能力,让一众码农纷纷绝望,直呼:“程序员的末日真来了?”

在一众测试成绩中,Devin在SWE-Bench基准测试中的表现尤为引人注目。

SWE-Bench是一个评估AI软件工程能力的测试,重点考察大模型解决实际 GitHub 问题的能力。

Devin以独立解决13.86%的问题率高居榜首,“秒杀”了GPT-4仅有的 1.74%得分,将一众AI大模型远远甩在后面。

这强大的性能让人不禁浮想联翩:“未来的软件开发中,AI将扮演怎样的角色?”

上海人工智能实验室联合字节跳动SE Lab的研究人员以及SWE-Bench团队,提出了一个新测试基准DevBench,首次揭秘大模型在多大程度上可以从PRD出发,完成一个完整项目的设计、开发、测试。

具体地说,DevBench首次对大模型进行了

原文链接:GPT-4单项仅得7.1分,揭露大模型代码能力三大短板,最新基准测试来了

联系作者

文章来源:量子位

作者微信:QbitAI

作者简介:追踪人工智能新趋势,关注科技行业新突破

0
分享到:
没有账号? 忘记密码?