数字比你想得更复杂——一文带你了解大模型数字处理能力的方方面面

摘要：目前大语言模型（Large Language Models, LLMs）的推理能力备受关注。从思维链（Chain of Thought，CoT）技术提出，到以 o1 为代表的长思考模型发布，大模型正在展现出接近人类甚至领域专家的水平，其中数学推理是一个典型任务

目前大语言模型（Large Language Models, LLMs）的推理能力备受关注。从思维链（Chain of Thought，CoT）技术提出，到以 o1 为代表的长思考模型发布，大模型正在展现出接近人类甚至领域专家的水平，其中数学推理是一个典型任务。然而，与大模型能够理解和求解各种复杂数学问题相对的，是其羸弱的数字处理能力。尽管大模型能够提出看似合理的解决方案，但在实际运算之中，却常常难以在不借助工具的情况下计算出准确的数值结果。此前引发广泛讨论的 “9.11>9.9” 就是典型例子。这种 “事实幻觉” 已经成为制约大模型实际应用的一个重大障碍。过去的研究工作很少将 “数字理解和处理能力”（Number Understanding and Processing，NUPA）作为独立任务进行研究。以往的研究更多聚焦于数学推理，涉及数学工具和定理应用，例如 GSM8K。对于数字本身的基础理解和处理，如四则运算、比较大小、数位提取等，鲜有研究将其单独衡量。同时，在现有的数学数据集中，数字相关的部分往往被简化处理。许多数据集中的数字通常仅限于简单的整数和小数，而较长的整数、小数和分数等较复杂的数字形式往往被忽视，这与现实中复杂多变的应用场景存在较大差距。实际应用中，若遇到涉及更复杂任务的情况，如金融、物理等领域的应用，这种简化后的数字能力可能无法有效应对。尽管大模型可以通过调用外部计算器一定程度上弥补数字处理能力的不足，这个问题本身仍然值得深入探讨。首先，考虑到数字处理作为各种复杂推理的基础，在涉及高频数字处理的情况下频繁调用外部工具会显著减慢模型响应，模型应当具备自我解决较为简单问题的能力（如判断 9.11