“大海捞针”out!“数星星”成测长文本能力更精准方法,来自鹅厂(数星星怎么画才可爱)

AIGC动态欢迎阅读

原标题:“大海捞针”out!“数星星

”成测长文本能力更精准方法,来自鹅厂

关键字:模型,腾讯,星星,测试,研究人员

文章来源:量子位

内容字数:4579字

内容摘要:

克雷西 发自 凹非寺量子位 | 公众号 QbitAI大模型长文本能力测试,又有新方法了!

腾讯MLPD实验室,用全新开源的“数星星”方法替代了传统的“大海捞针”测试。

相比之下,新方法更注重对模型处理长依赖关系能力的考察,对模型的评估更加全面精准。

利用这种方法,研究人员对GPT-4

和国内知名的Kimi Chat进行了“数星星”测试。

结果,在不同的实验条件下,两款模型各有胜负,但都体现出了很强的长文本能力。

△横轴系以2为底的对数坐标那么,“数星星”究竟是怎样的一种测试呢?

比“大海捞针”更加精准首先,研究人员选择了一段长文本做为上下文,测试过程中长度逐渐递增,最大为128k。

然后,根据不同的测试难度需求,整段文本会被划分成N段,并向其中插入M个包含“星星”的句子。

实验过程中,研究人员选择了《红楼梦》作为上下文文本,向其中加入了“小企鹅数了x颗星星”这样的句子,每个句子中的x都各不相同。

然后,模型会被要求找到所有这样的句子,并以JSON格式输出其中所有的数字,且只输出数字。

得到模型的输出之后,研究人员会将这些数字和Ground Truth进行对比,最终计算出模型输出的正确率。

原文链接:“大海捞针”out!“数星星”成测长文本能力更精准方法,来自鹅厂

联系作者

文章来源:量子位

作者微信:QbitAI

作者简介:追踪人工智能新趋势,关注科技行业新突破

0
分享到:
没有账号? 忘记密码?