整体准确率超GPT-4o两成,百川发布金融大模型

摘要:12月23日,总部位于北京的百川智能发布全链路领域增强大模型Baichuan4-Finance。通过行业首创的领域自约束训练方案,其实现了金融能力和通用能力同步提升的效果,能够大幅度提高大模型在金融场景的可用性。在中国人民大学财政金融学院新近发布的评测体系FL

12月23日,总部位于北京的百川智能发布全链路领域增强大模型Baichuan4-Finance。通过行业首创的领域自约束训练方案,其实现了金融能力和通用能力同步提升的效果,能够大幅度提高大模型在金融场景的可用性。在中国人民大学财政金融学院新近发布的评测体系FLAME以及国内主流开源金融评测基准FinancelQ上,其金融专业能力和场景应用能力大幅领先GPT-4o,登上榜首。

FLAME(Financial Large-Language Model Assessment and Metrics Evaluation)是中国人民大学财政金融学院12月17日发布的金融评测体系。该评测由两个方向的评测基准组成,其中FLAME-Cer主要面向模型的专业金融能力评测,覆盖了CPA、CFA、FRM等14类权威金融资格认证;FLAME-Sce则侧重模型的场景应用能力,包含10个一级核心金融业务场景,21个二级细分金融业务场景,近百个三级金融应用任务。

FLAME-Cer评测结果显示,Baichuan4-Finance在银行、保险、基金、证券等多个资格认证领域的准确率均突破了95%,整体准确率93.62%,大幅领先GPT-4o和XuanYuan3-70B-Chat,超出GPT-4o近20%。据悉,GPT-4o是金融领域公认的综合实力最强的通用模型之一,而XuanYuan3-70B-Chat则是国内首个开源中文金融大模型。

如何让模型在提升专业能力的同时不损失通用能力,是当下大模型落地具体场景最大的阻碍。为解决这一问题,百川智能研发团队打造了一套覆盖了高质量数据集构建、模型预训练、微调、强化学习等从模型研发到场景应用全流程的解决方案。

具体而言,Baichuan4-Finance的金融数据集既包含金融专业教材与学术著作、顶级金融期刊论文、监管机构政策文件、金融法律法规等核心专业金融知识数据,也覆盖了金融专业问答集、企业财报与年度报告、金融类研究分析报告等实践应用类数据,为提升模型金融能力提供底层支撑。研发人员介绍,在此基础上,Baichuan4-Finance还在领域自约束训练过程中引入了更高精的通用数据,与高质量金融数据一起进行混合训练,最终实现了模型通用能力不下降,金融能力稳定增长的效果。

以“大模型六小虎”(智谱、零一万物、MiniMax、百川智能、月之暗面、阶跃星辰)为代表的大模型创业企业的商业化落地情况备受行业关注。百川智能相关负责人透露,其大模型技术和产品目前已经在北电数智、完美世界游戏、爱奇艺、360集团、生学教育、爱学堂等上千家企业机构客户落地应用。

记者:孙奇茹

来源:京报网

相关推荐