超deepseek r1 的 Fin-R1:面向金融推理的大型语言模型

360影视 动漫周边 2025-03-22 23:07 3

摘要:开源数据集(占79%):Ant_Finance(支付宝团队,2023):侧重支付与风控场景。FinancelQ(独小漫DI团队,2023b):金融常识问答。FinanceQT(Malik, 2024):量化交易指令解析。ConvFinQA(Chen et al

对大模型,AI Agent有研究的朋友可以加入

开源数据集(占79%):Ant_Finance(支付宝团队,2023):侧重支付与风控场景。FinancelQ(独小漫DI团队,2023b):金融常识问答。FinanceQT(Malik, 2024):量化交易指令解析。ConvFinQA(Chen et al., 2022):对话式金融推理。FinQA(Chen et al., 2021):数值计算与单位转换。TFNS(匿名,2024):社交媒体舆情分析。Finance-Instruct-500K(Flowers, 2025):指令跟随任务。FinCorpus(独小漫DI团队,2023a):金融事件抽取。FinCUGE(Lu et al., 2023):跨文化金融理解。
专有数据集(FinPEE,占21%):350道金融硕士入学考试计算题,涵盖经济学指标(如加拿大2011年人均GDP=379美元)、利率敏感性分析等。两阶段训练框架监督微调(SFT):基于Fin-R1-Data优化基础模型(如Qwen2.5-7B-Instruct)。强化学习(RL):采用组相对策略优化(GRPO)提升推理连贯性与准确性。基准测试结果案例分析高质量推理轨迹(图4示例):textStep 1: Calculate NPV using formula NPV = CF/(1+r)^t. Step 2: Compare NPV with initial investment. Step 3: Conclude feasibility based on NPV > 0. \boxed{Project is feasible}低质量轨迹缺陷:跳过NPV计算直接得出结论,未展示利率折现过程。

来源:HuggingFace

相关推荐