“大海捞针”out！“数星星”成测长文本能力更精准方法，来自鹅厂（数星星怎么画才可爱）

原标题：“大海捞针”out！“数星星

”成测长文本能力更精准方法，来自鹅厂

关键字：模型,腾讯,星星,测试,研究人员

文章来源：量子位

内容字数：4579字

克雷西发自凹非寺量子位 | 公众号 QbitAI大模型长文本能力测试，又有新方法了！

腾讯MLPD实验室，用全新开源的“数星星”方法替代了传统的“大海捞针”测试。

相比之下，新方法更注重对模型处理长依赖关系能力的考察，对模型的评估更加全面精准。

利用这种方法，研究人员对GPT-4

和国内知名的Kimi Chat进行了“数星星”测试。

结果，在不同的实验条件下，两款模型各有胜负，但都体现出了很强的长文本能力。

△横轴系以2为底的对数坐标那么，“数星星”究竟是怎样的一种测试呢？

比“大海捞针”更加精准首先，研究人员选择了一段长文本做为上下文，测试过程中长度逐渐递增，最大为128k。

然后，根据不同的测试难度需求，整段文本会被划分成N段，并向其中插入M个包含“星星”的句子。

实验过程中，研究人员选择了《红楼梦》作为上下文文本，向其中加入了“小企鹅数了x颗星星”这样的句子，每个句子中的x都各不相同。

然后，模型会被要求找到所有这样的句子，并以JSON格式输出其中所有的数字，且只输出数字。

得到模型的输出之后，研究人员会将这些数字和Ground Truth进行对比，最终计算出模型输出的正确率。

原文链接：“大海捞针”out！“数星星”成测长文本能力更精准方法，来自鹅厂

文章来源：量子位

作者微信：QbitAI

作者简介：追踪人工智能新趋势，关注科技行业新突破