摘要:这项由谷歌、耶鲁大学、哥伦比亚大学等22所顶尖院校和研究机构联合发布的研究成果发表于2025年6月,研究团队开发了名为MultiFinBen的全球首个多语言多模态金融评测基准。有兴趣深入了解的读者可以通过论文官网https://huggingface.co/s
在当今这个信息爆炸的时代,金融世界的复杂性正在以前所未有的速度增长。每天,全球各地的公司都会发布财务报告,各种语言的金融新闻铺天盖地,而投资者和分析师需要在这海量信息中快速找到关键洞察。人工智能技术本应成为这个领域的得力助手,但现实却并非如此简单。
以往的AI金融助手就像只会说英语的翻译官,面对中文、日语、西班牙语的财务文件时常常束手无策。更糟糕的是,它们通常只能处理纯文字信息,对于包含图表、表格的财务报表和音频形式的财报电话会议却无能为力。这就好比让一个只会阅读文字的人去理解一本充满图表和音频解说的百科全书,显然力不从心。
研究团队发现了现有评测体系的三个致命缺陷。首先是语言局限性问题,现有的金融AI评测几乎都是英语单一语言的,这就像用只会英语的考官去测试需要处理全球多语言业务的银行家,结果必然不准确。其次是模态单一性问题,传统评测只关注文字处理能力,忽略了现实金融工作中大量存在的图表分析和语音交流需求。最后是难度筛选粗糙的问题,许多评测简单地把所有任务堆在一起,没有根据难度进行科学分类,导致简单任务的高分掩盖了AI在复杂任务上的不足。
为了解决这些问题,研究团队开发了MultiFinBen这个革命性的评测基准。这个系统就像是为金融AI设计的"全能型考试",不仅要求AI能够熟练掌握英语、中文、日语、西班牙语和希腊语这五种主要语言,还要能够同时处理文字、图像和音频三种不同形式的信息。更重要的是,这个评测系统采用了科学的难度分级机制,确保能够准确识别AI的真实能力水平。
一、突破性的多语言金融理解能力测试
MultiFinBen最令人印象深刻的创新之一,就是它首次引入了真正的多语言金融推理任务。研究团队创建了两个全新的数据集:PolyFiQA-Easy和PolyFiQA-Expert,这就像是为AI设计的"联合国财务分析师考试"。
在这个测试中,AI需要同时阅读和理解来自不同国家、不同语言的财务信息。比如,AI可能需要阅读一份英文的苹果公司10-K年度财务报告,同时分析中文的财经新闻报道、日文的市场分析、西班牙语的行业评论,以及希腊语的经济政策解读,然后综合这些多语言信息来回答复杂的财务问题。
这种设计的巧妙之处在于,它真实地模拟了现代跨国企业和投资机构面临的实际工作场景。当一个美国投资银行要分析一家在中国有大量业务、在日本有重要合作伙伴、在西班牙有分支机构的跨国公司时,分析师确实需要整合来自各个市场的不同语言信息。
为了确保数据质量,研究团队采用了"专家在环"的构建流程。三位具有深厚金融背景的专业人士全程参与了数据集的构建过程,他们不仅包括华尔街的资深分析师,还有学术界的金融学者和亚洲开发银行的研究人员。这个团队在Label Studio平台上投入了57个小时的专业标注工作,确保每个问题都符合真实的金融分析需求。
更值得一提的是,研究团队设计了严格的质量验证机制。每个答案都需要从相关性和一致性两个维度进行评分,只有累计得分超过8分的高质量答案才会被纳入最终数据集。通过这种严格的筛选,PolyFiQA-Easy和PolyFiQA-Expert数据集的标注一致性分别达到了89.38%和91.21%,这在学术界是相当高的水准。
有趣的是,当研究团队用这个多语言测试来评估目前最先进的AI模型时,发现了一个令人震惊的现象。即使是表现最好的GPT-4o模型,在处理纯英语任务时可以达到17.79%的准确率,但面对多语言混合任务时,准确率骤降到仅有7.50%。这个10.29个百分点的巨大差距揭示了当前AI技术在跨语言金融理解方面存在的严重不足。
二、开创性的多模态金融信息处理测试
除了语言能力的挑战,MultiFinBen还首次将视觉和听觉信息处理能力纳入金融AI的评测范围。这个设计源于一个朴素但重要的观察:现实中的金融工作绝不仅仅是阅读文字那么简单。
在视觉处理方面,研究团队开发了两个突破性的OCR(光学字符识别)数据集:EnglishOCR和SpanishOCR。这些数据集专门针对金融文档的特殊挑战而设计。金融文档往往包含复杂的表格、图表和特殊格式,这就好比要求AI不仅能读懂文字,还能理解复杂的会计报表结构和数据可视化图形。
EnglishOCR数据集基于美国证券交易委员会的真实企业申报文件构建,包含7961个页面级图像和对应的HTML格式文本。SpanishOCR数据集则使用了秘鲁公开监管文件,包含13845个页面。这些数据集要求AI不仅能识别图像中的文字,还要能够理解文档的结构层次,将扫描的财务报表转换为结构化的HTML格式。
在音频处理方面,研究团队选择了财报电话会议这个极具挑战性的场景。财报电话会议是上市公司与投资者沟通的重要渠道,但这种音频内容包含大量的金融专业术语、数字信息和即兴表达,对AI的语音理解能力提出了极高要求。测试包括两个任务:一个是将22208个短音频片段(总计87小时)转录为文字,另一个是将64个长音频记录(总计55小时)总结为关键信息。
当研究团队测试目前最先进的多模态AI模型时,结果同样令人忧虑。在视觉任务上,即使是表现最好的GPT-4o也只能达到55.54%的准确率,而在音频任务上的表现是55.56%。更让人担心的是,那些专门针对单一模态设计的模型,比如专门的视觉模型或音频模型,在面对这些真实的金融场景时表现得更加糟糕。
这个发现揭示了一个重要问题:目前的AI技术在处理真实世界的复杂金融信息时,还远远达不到实用的水平。就像一个只会读纸质文件的会计师突然被要求同时处理电子表格、分析图表并听取电话会议一样,当前的AI在面对多模态金融信息时显得力不从心。
三、科学严谨的难度分级评测机制
MultiFinBen的另一个重要创新是引入了"难度感知"的动态筛选机制。传统的评测基准往往简单地将所有可用的数据集堆积在一起,这就像把小学数学题和研究生数学题混在一张试卷上,结果既不能准确评估基础能力,也无法识别高级技能的差异。
研究团队设计了一个精巧的难度评估系统。他们选择了GPT-4o和LLaMA3.1-70B-Instruct这两个具有代表性的模型作为"参考标杆",一个代表当前最先进的闭源模型,另一个代表最优秀的开源模型。通过计算这两个模型在各个任务上的平均标准化性能,研究团队将所有任务分为三个难度等级:简单(平均得分大于60分)、中等(20-60分)和困难(小于20分)。
这种分级方法的巧妙之处在于,它不是基于人工主观判断,而是基于实际的模型性能表现。简单任务通常是那些当前AI已经基本掌握的技能,中等任务是AI开始显现差异的领域,而困难任务则是AI普遍表现不佳的挑战性问题。
在确定了难度等级之后,研究团队进一步引入了"模型区分度"的概念。对于同一难度级别的多个候选数据集,他们会选择那些能够最大化区分不同模型能力的数据集。这就像在设计考试时,不仅要考虑题目的难度,还要选择那些最能区分不同水平考生的题目。
通过这种精心设计的筛选机制,MultiFinBen最终形成了一个包含34个不同数据集的紧凑而全面的评测体系。这个体系覆盖了文本、视觉、音频三种模态,英语、中文、日语、西班牙语、希腊语五种语言,以及信息提取、文本分析、问答、文本生成、风险管理、预测和决策制定七个核心任务类别。
当研究团队用这个分级评测系统测试各种AI模型时,发现了一个清晰的性能梯度。在简单任务上,大多数模型都能达到相对不错的表现,比如FinMA-7B在简单任务上可以达到49.48%的准确率。但随着难度的增加,模型性能出现了急剧下降:在中等任务上降至22.01%,在困难任务上更是跌至9.49%。即使是最强的GPT-4o模型,也呈现出从简单任务的31.24%到困难任务的6.63%的急剧下降趋势。
四、令人震惊的AI能力现状揭示
当研究团队用MultiFinBen对22个当前最先进的AI模型进行全面测试时,结果让整个学术界和产业界都感到震惊。即使是当前被誉为最强大的GPT-4o模型,在这个综合评测中也只能达到50.67%的总体准确率,这意味着它在一半以上的金融任务中都无法给出正确答案。
更令人担忧的是不同类型模型之间的巨大性能差距。排名第二的是一个7B参数的多模态模型Qwen-2.5-Omni,得分为35.39%,与GPT-4o相差超过15个百分点。而那些专门为单一任务设计的模型表现得更加糟糕:最好的纯文本模型LLaMA-3.1-70B只能达到14.07%,专门的音频模型Whisper-V3达到17.19%,视觉模型DeepSeek-VL-7B只有6.37%。
这些数字背后隐藏着一个深刻的技术现实:当前的AI技术在处理真实世界的复杂金融场景时,距离实用还有很长的路要走。就像一个只学过理论知识的实习生突然被派到华尔街的交易大厅一样,这些AI模型在面对真实的金融挑战时显得捉襟见肘。
研究团队还发现了一个有趣的权衡现象。那些号称"多模态"的通用模型虽然在整体评测中表现较好,但在某些特定的文本任务上反而不如专门的文本模型。比如GPT-4o在整体排名中位居第一,但在纯文本任务的排名中却降到了第二位,被专门的文本模型LLaMA-3.1-70B超越。这揭示了AI技术发展中的一个基本矛盾:要么专精于某个特定领域,要么追求全面能力但在单项上有所妥协。
特别值得关注的是,研究团队新引入的多语言数据集PolyFiQA-Easy和PolyFiQA-Expert竟然成为了所有测试任务中最困难的挑战之一。即使是表现最好的DeepSeek-V3模型,在PolyFiQA-Easy上也只能达到42.58%的准确率,在PolyFiQA-Expert上更是降至31.40%。所有模型的平均表现分别只有7.50%和5.61%,这说明真正的多语言金融理解对当前的AI技术来说仍然是一个几乎无法逾越的障碍。
五、对未来金融AI发展的深远影响
MultiFinBen的发布不仅仅是一个新的评测基准,更像是给整个AI金融应用领域敲响的一记警钟。它以无可辩驳的数据告诉我们,当前被媒体大肆宣传的"AI金融革命"可能还只是刚刚起步,距离真正实用的金融AI助手还有很长的路要走。
从技术发展的角度来看,MultiFinBen指出了三个关键的改进方向。首先是跨语言理解能力的提升,这对于服务全球化金融市场至关重要。其次是多模态信息融合技术的发展,因为真实的金融工作需要同时处理文字、图表和语音信息。最后是复杂推理能力的增强,特别是在面对需要综合多源信息进行分析判断的高级任务时。
对于金融机构来说,这项研究提供了一个清醒的现实检查。那些正在大力投资AI技术的银行、投资公司和保险机构需要重新评估他们对AI能力的预期,避免过度依赖尚不成熟的技术而造成业务风险。同时,这也为金融科技公司指明了产品开发的重点方向,即应该专注于提升AI在多语言、多模态场景下的实际应用能力。
从学术研究的角度,MultiFinBen为AI研究社区提供了一个具有挑战性的新基准。研究团队已经将所有数据集和评测代码开源发布,并建立了一个持续更新的在线排行榜,这将促进全球研究者在这个重要领域的合作与竞争。更重要的是,这个基准的动态筛选机制确保了它能够随着AI技术的发展而不断演进,避免了传统基准容易过时的问题。
研究团队特别强调了他们工作的开放性和包容性。所有的数据集都采用了宽松的开源许可证,评测代码在GitHub上公开可用,而且在线排行榜对所有研究者免费开放。这种开放的态度有助于建立一个更加透明和公平的AI评测生态系统,让来自世界各地的研究者都能够参与到金融AI技术的发展中来。
此外,研究团队还引入了"模型开放性框架"(MOF)来评估不同模型的开放程度。这个框架将模型分为三个级别:Class III(开放模型)、Class II(开放工具)和Class I(开放科学),从模型权重的可获得性到训练数据的透明度进行全面评估。令人遗憾的是,在被测试的22个模型中,大多数都只能达到最低的Class III水平,只有一个模型达到了Class II水平,这说明AI技术的开放性还有很大的提升空间。
说到底,MultiFinBen的真正价值不在于它揭示了当前AI技术的不足,而在于它为整个行业指明了前进的方向。就像GPS不仅能告诉你现在在哪里,更重要的是能指引你如何到达目的地一样,这个评测基准为金融AI的发展提供了清晰的路线图。随着技术的不断进步,我们有理由相信,未来的AI将能够真正成为金融专业人士的得力助手,帮助他们在这个日益复杂的全球化金融世界中做出更加明智的决策。对于普通投资者来说,这也意味着未来可能会有更加智能和可靠的金融服务工具,让每个人都能够更好地管理自己的财富和投资。
Q&A
Q1:MultiFinBen是什么?它能测试AI的哪些能力? A:MultiFinBen是全球首个多语言多模态金融AI评测基准,由谷歌等22所顶尖机构联合开发。它能同时测试AI处理英语、中文、日语、西班牙语、希腊语五种语言的能力,以及处理文字、图像、音频三种不同信息形式的能力,涵盖信息提取、问答、风险管理等七大金融任务类别。
Q2:目前最强的AI在金融任务上表现如何?会不会很快取代金融分析师? A:测试结果令人震惊。即使是最强的GPT-4o模型,在综合评测中也只能达到50.67%的准确率,在多语言任务上更是只有7.50%。这说明当前AI技术距离真正实用的金融应用还有很大差距,短期内不太可能完全取代专业的金融分析师。
Q3:普通投资者能从这项研究中获得什么启示? A:这项研究提醒我们要理性看待AI金融工具的能力。虽然AI技术在某些简单任务上表现不错,但在复杂的跨语言、多模态金融分析上还很不成熟。投资者在使用AI理财工具时应该保持谨慎,不要过度依赖,仍需要结合专业知识和人工判断来做投资决策。
来源:至顶网一点号