今日arXiv最热NLP大模型论文：天津大学发布大模型数学能力细粒度评价基准FineMath（天津大学nature论文）

AIGC动态欢迎阅读

原标题：今日arXiv最热NLP大模型论文：天津大学发布大模型数学能力

细粒度评价基准FineMath

关键字：数学,模型,数据,问题

,能力

文章来源：夕小瑶科技说

内容字数：7936字

内容摘要：

夕小瑶科技说原创作者 | Tscom

引言：大语言模型数学能力评估的重要性数学能力的评估对于理解和发展大语言模型（LLMs）至关重要。数学问题不仅涉及对数字的理解和操作，还包括了抽象概念化、逻辑推理等核心能力的考察。因此，一个高质量的数学评估基准对于全面评估LLMs的能力具有重大意义。

传统的数学问题数据集，如AddSub和MultiArith（下图），提供了基础的数学词汇问题库，但这些通常只能评估模型在特定数学问题上的准确性。随着中文LLMs的迅速发展，相应的中文数学评估数据集也应运而生。然而，简单的准确率评估并不能充分揭示模型掌握了哪些数学概念或技能。因此，迫切需要一个更全面的测试集，能够细致地评估LLMs在不同难度级别的数学问题上的推理能力。

▲FineMath能够从三个方面评估LLMs的数学能力：理解抽象数学概念的准确性、推理的准确性以及整体的准确性。为了解决这一问题，我们提出了FineMath，这是一个针对中文LLMs的细粒度数学评估基准数据集（参见上图）。该数据集包含小学数学的核心概念，分为17类数学词汇问题，用以深入分析LLMs的数学推理能力。所有数学词汇问题均经手工标

原文链接：今日arXiv最热NLP大模型论文：天津大学发布大模型数学能力细粒度评价基准FineMath