摘要:导读在当前人工智能与金融科技深度融合的趋势下,如何高效部署和应用大模型成为业界关注的焦点。本文围绕大模型在金融投研、资产配置及交易策略中的应用展开探讨,重点介绍了模型部署的不同方案、私有化部署的硬件需求、DeepSeek-R1 的技术优势,以及如何通过 API
导读在当前人工智能与金融科技深度融合的趋势下,如何高效部署和应用大模型成为业界关注的焦点。本文围绕大模型在金融投研、资产配置及交易策略中的应用展开探讨,重点介绍了模型部署的不同方案、私有化部署的硬件需求、DeepSeek-R1 的技术优势,以及如何通过 API 映射与向量数据库优化数据召回。文章还分享了行业合作案例,探讨了与其他金融投研助手的对比优势,并分析了智能 Agent 在金融场景中的实际应用及挑战。希望通过本篇文章,为读者深入了解金融大模型应用技术路径和行业实践提供参考。
今天的介绍会围绕下面五点展开:
1. 引言
2. 技术亮点
3. 产品场景
4. 部署应用
5. Q&A
分享嘉宾|白雪 丹渥智能 总经理
编辑整理|陈思永
内容校对|李瑶
出品社区|DataFun
01
引言
今年 1 月以来,DeepSeek V3 和 R1 的发布,在深度推理领域展现出非凡能力。
短短七天时间,该模型的用户增长速度创下纪录,成为全球增长最快的 AI 应用之一。
其推理效果可与 OpenAI o1 及 Qwen 32B 的蒸馏小模型相媲美,并达到了 Open o1 -mini 的水平。
此外,在开源周期间,DeepSeek R1 还推出了大幅优惠,为后续广泛应用提供了极具竞争力的价格。
DeepSeek R1 的技术普惠性及其带来的生产力提升,正在引发行业重构与生产关系变革。与此同时,它也进一步加速了Agent 应用的落地。
02
技术亮点
1. DeepSeek 技术演进及核心特性
许多研究者可能已经通过论文或技术视频了解过 DeepSeek R1 的核心技术演进。从 V2、V3,逐步发展到 R1,模型架构不断升级。例如,近年来广受关注的 MoE(Mixture of Experts)技术在 V2 版本中已有涉及,而在 V3和 R1 之后的 MTP(Mixture of Tokens Processing)以及 R1 的强化学习优化,更进一步提升了模型的长推理能力与深度思考能力。
DeepSeek R1 主要具备以下技术特点:
新的强化学习范式(GRPO)DeepSeek R1 采用了GRPO(Generalized Reinforcement Policy Optimization)取代 OpenAI 常用的 PPO(Proximal Policy Optimization)。传统 PPO 需要 Reward Model(奖励模型)和 Critic Model(评估模型)来优化策略,而 GRPO 用更高效的方式进行了替换。具体而言,GRPO 用规则和格式化奖励机制取代了 Reward Model,并利用自适应方法优化 Critic Model,使得强化学习的标注数据需求大幅下降,同时算力消耗也远低于 PPO。新的学习流程DeepSeek R1 通过创新的训练流程,实现了更高效的模型优化。采用 SFT(Supervised Fine-Tuning)与强化学习交替迭代的方式,相较于传统直接训练的方法,更容易控制模型的学习方向。通过多轮 SFT 训练,使得模型在更短的时间内掌握大规模推理数据。创新的蒸馏模式DeepSeek R1 采用了一种新的蒸馏方法,将大参数模型生成的训练数据蒸馏到 SFT 训练的小模型(如 7B、32B),使得这些小模型的性能达到甚至超越传统强化学习训练的 7B 和 32B 模型。DeepSeek-R1 训练流程如上图所示。模型的冷启动阶段,仅使用了数千条人工标注的高质量数据。第一轮 SFT+ 强化学习生成阶段性模型,用于生成下一轮 SFT+强化学习所需的大规模推理数据(约 60 万条)。通过 AGC(Adaptive Gradient Clipping)等方法,扩展了数据源,有效减少了人工标注需求。这一优化策略在算力受限、成本有限的情况下,实现了训练数据的高效扩展,并促进了模型能力的快速提升。
2. DeepSeek 在金融场景应用面临的挑战
尽管 DeepSeek-R1 通过一系列技术创新在数据利用与模型提升上获得了显著成效,但在将其应用于金融场景中时,仍面临诸多挑战。
这些问题的根本在于:如何使大模型能够做到精准取数。
金融数据主要分为两大类:
非结构化数据:研报、公告、Word 文档等。结构化数据:行情数据、EDB(经济数据库)数据等,通常以时间序列存储。这两类数据与大模型结合时,采用的技术方案有所不同。非结构化数据通常利用 RAG 技术,基于私有化知识库进行多路召回。而针对结构化数据,通常有两种处理方式,一种是 NL2API,即基于数据地图和 Agent 平台,在已经封装好的 API 上取数,以获得更高的效率;另一种是 NL2SQL,技术已趋于成熟,但应用于金融领域时面临数据量庞大的问题,为了提升查询效率,底层数据库需要升级为更适配AI的数据库。
接下来详细探讨 RAG 技术。
3. Advanced RAG
RAG 是金融垂类中实时大批量数据与大模型结合的常用方式。
当接收到用户 query 后,首先对问题进行拆解,将原始 query 拆成多个子 query。以“恒生电子基本面分析”为例,该问题可拆解为“恒生电子当前股价”和“恒生电子 AI 产品前景”,前者对应结构化数据,后者对应非结构化数据,需要分别到结构化数据库和非结构化数据库中进行查询,召回 30-40 个候选数据。下一步做 double-check,对候选数据进行相关性评估,剔除相关性较低的数据,减少信息混淆。仅保留高度相关的数据输入大模型,做最终答案的生成。
4. 语控万数 Agent 中台
在金融领域,智能 Agent 的应用日益广泛,尤其是在财富投顾、投研、市场分析等子场景中,如何合理地选择和调用数据,如何优化 Agent 的配置,以提高金融数据分析和决策的精准度,成为一个关键问题。
为此,我们构建了语控万数 Agent 中台,旨在为产品经理和技术专家提供统一、灵活的配置调试界面,实现场景端 Agent 的精准配置。
点击“添加数据 API”后呈现的界面如上图所示。
针对某些金融子场景(如财富投顾),存在固定的业务流程需求。平台支持:
流程配置:产品经理可以通过图形化界面编排数据解析、抽取、比对等步骤;报告生成:依据预设的多个维度,自动生成指定格式的报告,从而确保数据处理过程规范且高效;低代码化:即便是不熟悉编程的人员,也能通过该平台轻松配置和部署应用。03
产品场景
我们针对金融垂直领域,开发了一款投研平台。该平台融合了WarrenQ 与 DeepSeek,实现了深度推理与实时数据的有机结合,并全方位地融入到各类业务场景之中 。
1. 投研场景
2. 投顾场景
再来看一下在投顾场景的应用。投顾场景的主要客户群体包括理财顾问、营业部人员等,他们需要面对大量散户提供服务,如当天热点解读、财经早报、异动提醒等。
3. 其它场景
除了以上介绍的投研投顾主要场景之外,大模型还在不断拓展应用边界。例如AI 写作领域,对于大纲-全文型自由写作框架可以显著提升生成效果,高效搭建大纲、找寻内容。
4. 其它场景
随着大量 Agent 的生产,如何将碎片化的 Agent 融入整体工作流程成为关键。我们正在探索构建一体化工作台,将大模型能力与日常使用的 Office 工具、文档、表格及分析工具结合起来,实现“All-in-one”。
基于线上一体化知识库,在这个一站式智能工作台上,即可完成搜、读、算、写、听等全部日常工作。
知识库支持多模态信息(如录音、视频、图片等)的融合管理,进而构建出柔性数据容器。例如,一个白酒研究员可以将所有与白酒相关的录音、视频、报告及指标数据按主题汇聚,便于随时整理、溯源和归档。
04
部署应用
近年来,金融领域对于智能模型和大数据应用的需求不断增长。在金融垂直领域中,从 SaaS 化应用到私有化部署、从大模型能力升级到 API 数据映射,以及智能Agent 的共创应用等一系列实践与经验。
在部署满血版本的智能应用时,发现对 GPU 卡资源的需求较大。如果对数据隐私要求不高,推荐直接调用大厂的 API 接口,从而实现 SaaS 化部署。这种方式不仅可以快速上线,还能降低初期投资成本。
另一方面,对于需要将应用嵌入机构内网、确保数据私密性的场景,则适合采用私有化部署。此时,机构需要自备 GPU 卡和服务器。
根据实际资金情况,我们提供了高算力和低算力两种服务器方案。例如,如果资金充足(大约 200 多万的预算),可以考虑选用华为昇腾或英伟达的高性能设备,从而支持整套服务的稳定运行。
05
Q&A
Q1:能否再详细介绍一下 DeepSeek-R1 在提升复杂数据推理能力方面的表现?
A1:随着升级到 DeepSeek-R1,基座模型能力得到了大幅提升,尤其是在投顾和资产配置等领域,自带了一系列强大功能。升级后的模型能够借助实时、全面、精准的金融数据,实现优秀的效果。产品经理不再需要编写冗长的 Prompt,只需秉持发现的思路,去思考如何结合数据去挖掘模型能力。总而言之,DeepSeek-R1 是一款对金融垂域非常友好的,带深度思考的大模型。
Q2:是否有交易策略方面的应用?
A2:我们与上海某基金公司合作,对网格交易策略 Agent 进行了尝试,目前已进入初步验证阶段。
Q3:是否封装了大部分 API 场景,大模型主要负责匹配 API?
A3:是的。聚源已有 20 多年历史,长期专注于金融咨询数据,封装了大量 API(数百至上千个)。主要的工作聚焦于优化 API 的元数据描述,使大模型能够精准匹配查询请求,从而提高数据召回的准确性。
以上就是本次分享的内容,谢谢大家。
来源:DataFunTalk