中金|大模型系列(3):主动投研LLM应用手册

360影视 国产动漫 2025-05-16 13:51 2

摘要:随着互联网和新媒体的发展,信息以前所未有的速度和规模增长,主动投资者面临着“信息过载”的挑战。传统投研方法在处理海量、复杂、非结构化且真伪难辨的金融信息时,容易存在效率低下的情况。大语言模型(LLM)凭借其强大的自然语言理解、模式识别及信息抽取能力,为应对这一

中金研究

随着互联网和新媒体的发展,信息以前所未有的速度和规模增长,主动投资者面临着“信息过载”的挑战。传统投研方法在处理海量、复杂、非结构化且真伪难辨的金融信息时,容易存在效率低下的情况。大语言模型(LLM)凭借其强大的自然语言理解、模式识别及信息抽取能力,为应对这一挑战带来了新的解决方案。全球领先资管机构已积极布局LLM应用,覆盖信息处理、情绪分析、主题投资等多个环节,预示着LLM正从实验探索迈向实战化应用。 本文将深入探讨LLM在信息获取与处理、深度分析与挖掘、策略生成与验证等核心投研环节的具体应用,对比多个大模型平台的使用效果,并展望大模型的应用前景及面临的挑战。

Abstract

摘要

信息获取与处理:从“大海捞针”到“精准筛选”。

LLM通过自动化信息追踪、研报分析对比及业绩会纪要分析,能够极大地提升分析师处理海量信息的效率,加速认知形成,并从中发掘关键信息。

(1)自动化市场信息跟踪: LLM能够接入多源数据(新闻API、财经网站、政府公告),实时抓取并根据关键词或主题进行过滤分类。提取关键实体、事件、数据点,自动生成结构化、简洁的摘要报告。

(2)分析师报告聚合与对比: LLM能自动解析不同格式的研报,提取评级、目标价、盈利预测等关键信息。它能理解语义,归类相似观点,识别市场共识与分析师分歧点,并形成量化的关键指标,评估分析师报告中包含的情绪。

(3)上市公司业绩电话会纪要分析: LLM可快速处理会议内容,生成摘要,提取财务更新、战略重点、业绩解释与展望。LLM还能对比历史会议内容,识别管理层在表达方式口径上的变化;LLM也可以总结分析师提问热点,评估管理层回应质量,并捕捉异常表述。

深度分析与挖掘:“提炼精华”。

LLM能够量化和解析传统方法难以捕捉的市场情绪和非结构化信息,识别新兴主题,并从文本信息中挖掘多维度风险,为投资决策提供独特视角,也可以协助分析师增强风险管理的前瞻性与全面性。

(1)情绪量化与深度分析: LLM能识别文本中细微情感色彩,对新闻、社交媒体、研报等进行量化评估。通过持续追踪,可绘制情绪变化曲线,识别情绪拐点及驱动因素。应用于管理层沟通文本,可评估其信心、压力状态,提供财务分析外的视角。

(2)辅助组合分析与多维风险识别: 情境化的业绩归因解释: LLM能分析组合持仓在特定时期相关的重大新闻、行业动态、政策变化等文本信息,为传统量化归因模型(如Brinson模型)的结果提供更丰富、具体的叙事性解释。 基于文本的多维风险识别: 包括实时事件监控(法律诉讼、产品安全、供应链中断等负面新闻)、风险评估,以及通过分析公司间联动关系(供应链、客户)挖掘关联风险。

策略生成与验证:“从思想到实践”。

LLM不仅能辅助挖掘具有可解释性的创新Alpha因子,还能通过自然语言到代码的转换,大幅降低量化策略回测的门槛,加速投资方法的验证与优化。

(1)启发式因子挖掘: LLM在基本面因子挖掘方面具有三大优势: 思路广度与跨领域融合;逻辑自洽与可解释性;高度可定制化。

(2)加速策略回测,从自然语言到量化验证: LLM能显著降低将定性投资策略转化为可执行回测代码的门槛。基金经理可用自然语言描述策略逻辑,LLM理解并自动生成相应的代码,完成包括数据调用、逻辑实现、作图等任务。

应用前景展望:机遇与挑战并存。

LLM的优势在于速度、广度,适合执行大规模数据处理和初步分析;人类的优势在于领域知识、经验、批判性思维、价值判断和风险控制,适合目标设定、逻辑构建,因此二者结合是关键。LLM在主动投资领域的应用前景光明,但其大规模成功应用的前提是构建高效的人机协作模式,并积极应对数据准确性、可解释性、数据偏见等方面的挑战。

人机协作模式的深化,也对投研人员提出了新的能力要求,例如 更精准地向AI提问的能力(Prompt Engineering)、批判性评估AI输出结果的能力等。

风险提示: LLM是一种生成式模型,其生成的结果具有一定的随机性,LLM针对同一提示词的返回结果可能存在不稳定性。

Text

正文

大语言模型(LLM):主动投资的新机遇

信息井喷与LLM的核心能力

主动投资的基石在于信息优势和认知优势。然而,数字时代信息的生成速度和规模呈指数级增长,涵盖新闻资讯、社交媒体、公司公告、研究报告、经济数据、另类数据等多元化来源,其复杂性、非结构化特性以及真伪难辨的特点,给依赖信息处理和深度分析的主动投资者带来了前所未有的“信息过载”挑战。

大语言模型(LLM)的出现为此带来了破局的希望。LLM基于深度学习技术,通过在海量文本数据上进行预训练,掌握了强大的自然语言理解(NLU)和自然语言生成(NLG)能力。它们不仅能读懂文本,还能理解上下文、识别实体关系、把握语义逻辑、甚至捕捉情感倾向。其核心能力还包括模式识别和信息抽取,能够从非结构化文本中高效提取关键信息,并根据指令生成结构化的摘要、报告或代码。这些能力使得LLM成为应对信息井喷、提升投研效率和深度的理想工具。

人机协作:通往Alpha的新路径

尽管LLM能力强大,但将其视为取代基金经理的“完美”替代是不切实际的。金融市场充满复杂性、非线性和不确定性,投资决策不仅需要数据分析,更依赖于经验、直觉、风险判断以及对宏观环境和市场博弈的深刻理解。因此,LLM在主动投资领域最现实、也最具价值的应用模式是“人机协作”(Human-AI Collaboration)。

值得注意的是,人机协作模式的深化,也对投研人员提出了新的能力要求,例如 更精准地向AI提问(Prompt Engineering)的能力、批判性评估AI输出结果的能力,以及整合信息(包括AI分析内容)的综合能力。

其中,我们认为,精准地向AI提问(Prompt Engineering)的能力是主动投研高效结合LLM的关键能力。总体上看,Prompt Engineering的要点可以总结为 RTGO 框架,我们在后文的具体案例中也会分别突出强调不同场景下Prompt Engineering的重点:

► R(Role角色): 明确赋予LLM的角色。例如“你是一位经验丰富的策略分析师”、“你是一位经验丰富半导体行业研究员”,角色设定能帮助LLM调动相关的知识来回答问题。

► T(Task任务): 具体地描述LLM需要完成的核心任务。例如“总结分析师对于XX公司的主要观点”。

► G(Goal目标): 说明该任务最终希望达成的目标或解决的问题。例如 “目标是全面了解市场对该公司的预期及主要分歧点”,明确目标有助于LLM理解任务的深层意图。

► O(Operational Requirements操作要求): 这是Prompt中最需要细化的部分,包含对LLM操作过程和输出结果的各项具体要求,例如:1)上下文与背景信息(提供必要的背景知识、数据范围、假设条件等;2)信息来源(指定模型参考的信息来源,如特定数据库、新闻机构);3)输出格式(明确要求输出的结构、语言风格等);4)约束与限制(提出类似数据准确性要求和篇幅限制等)。

信息获取与处理:从大海捞针到精准筛选

在主动投资研究领域,大型语言模型(LLM)正在改变研究摘要和知识管理的方式。投资经理和研究员每天需要处理海量的市场信息、分析师报告和公司公告,LLM能够高效地整合、分析和总结这些信息,帮助他们快速把握公司和行业的关键动态。

自动化市场信息跟踪:把握市场脉搏

每日快速了解全球市场表现、重要经济数据发布、政策变动及关键事件是投资决策的基础。传统情况下这需要人工浏览大量新闻源和数据。而借助LLM,我们可以自动化这一过程:

为了引导LLM获取准确的市场简报,可以参考以下prompt优化技巧:

1)明确时间范围: 在prompt中明确指定需要分析的时间段,例如"请分析2025年4月9日全球主要市场的表现"; 2)指定信息来源: 明确要求模型使用可靠的金融信息来源,如"基于彭博社、路透社和金融时报的报道"; 3)结构化输出: 要求模型以特定结构输出信息,例如"请分别从股市、债市、商品和宏观经济四个方面进行分析"; 4)要求引用来源: 要求模型在提供市场数据时引用信息来源,增强可信度; 5)设置核查机制: 要求模型在不确定的信息前标注,避免错误信息的传播。

以下是一个优化的每日市场简报prompt示例:

图表1:每日市场简报prompt示例

资料来源:中金公司研究部

图表2:每日简报生成结果(基于腾讯ima)

资料来源:腾讯ima,中金公司研究部

值得一提的是,在利用LLM生成包含全球多市场数据的简报时,需要特别注意时区差异的问题。如上图中所示的“2025年5月6日”市场日报,LLM默认基于其服务器所在地的本地时间进行信息检索,因此海外市场数据(如欧洲、美国市场)实际上反映的是前一个交易日收盘价的情况,隔夜重要信息中包含的才是当地时间5月6日的数据。

高效消化公司与行业研究:加速认知形成

主动投资依赖于对公司和行业的深度理解。分析师报告和上市公司业绩发布是获取这些信息的关键渠道,但其数量庞大、篇幅冗长、格式各异,且可能带有分析师的主观偏见。我们认为LLM在处理此类信息中也可以发挥重要作用:

分析师报告聚合与对比

由于不同券商报告的结构、术语、关注点各不相同,人工对比耗时且易出错。因此纯依靠人力来进行分析师报告的汇总和整理效率较低。

LLM可以自动解析PDF或文本格式的研报,提取关键信息,如:研究机构、分析师、发布日期、股票评级(买入/增持/中性/减持/卖出)、目标价、盈利预测(EPS、收入等)、核心推荐逻辑、主要风险提示。更进一步,LLM能理解语义,将不同报告中相似的观点进行归类,识别出市场共识和分析师之间的分歧点。

利用LLM对海量分析师报告进行自动化处理和汇总,基本面投研团队可以在以下几个方面得到效率的提升:

► 快速建立认知: 在短时间内迅速了解市场对公司的看法和关注焦点,尤其对于新覆盖或信息跟踪频率不高的标的,能够显著加快了解核心关键信息的速度。

► 识别市场共识: 掌握分析师的一致预期,有助于判断当前市场定价中已反映的因素,或识别潜在“拥挤交易”风险。

► 定位预期分歧点: 这也是我们认为LLM赋能的关键所在。通过找出不同分析师在关键假设或风险认知上的差异点,LLM能够帮助基金经理快速找到值得深入研究的“预期差”部分。这些分歧点往往是产生超额收益Alpha的来源。

上市公司业绩电话会纪要

会议记录通常长达数小时,信息密度不均,关键信息可能散落在QA环节,且管理层的语气、态度等软信息难以捕捉。融入LLM后,可以将分析师从冗长、低效的会议纪要阅读中解放出来,实现对核心信息、管理层观点、市场预期及潜在信号的快速、结构化、多维度把握,提升个股研究的效率和深度。

图表3:业绩电话会分析prompt示例

资料来源:中金公司研究部

图表4:业绩电话会内容分析结果

资料来源:Alpha engine,中金公司研究部

深度分析与挖掘:提炼精华

在完成信息的初步处理和结构化之后,LLM能进一步辅助分析师进行更深层次的分析,挖掘隐藏在海量文本和数据背后的潜在价值信号。

挖掘文本中的情绪、主题与非结构化信号

金融市场的波动不仅受基本面驱动,也深刻受到投资者情绪、市场叙事和非结构化信息的影响。LLM在解析这些复杂信号方面具有独特优势:

情绪量化与深度分析

超越简单正负面: LLM不仅能判断文本的整体情绪(积极、中性、消极),还能识别更细微的情感色彩,如乐观、担忧、犹豫、愤怒等。通过设定更精细的情绪评分体系(例如从-1到+1,或1到10分),可以对新闻报道、社交媒体帖子、股吧评论、分析师报告等进行量化评估。

情绪动态与驱动因素: 通过对特定标的或主题相关的文本进行持续追踪,LLM可以绘制情绪随时间变化的曲线,识别情绪的突然升温或降温点,并尝试找出导致情绪变化的关键事件或信息来源(例如,某项政策发布、产品发布等)。分析情绪得分与资产价格之间的领先/滞后关系,可能发现交易信号。

管理层沟通的“微表情”: 应用于业绩电话会或管理层访谈的文本(甚至结合语音识别的声学特征分析,如高盛的实践),LLM可以更精细地评估管理层在讨论不同时的信心水平、压力状态或回避程度,为判断公司前景和管理层可信度提供传统财务分析之外的视角。

辅助组合分析与多维风险识别

理解投资组合的表现来源和潜在风险是投后管理的核心。LLM可以从新的维度提供支持,提供超越传统风险模型(例如Brinson模型)的、基于实时事件和非结构化信息的风险分析,增强组合风险管理的前瞻性和全面性,并为业绩归因提供更深层次的解释。

策略生成与验证:从思想到实践

LLM的能力边界正从信息处理向更高阶的任务拓展,在启发策略思路和加速策略验证方面也能体现出较强的作用。

启发式因子挖掘

寻找新的、有效的Alpha因子是量化投资和基本面量化研究的核心追求。基于大语言模型(LLM)的基本面因子挖掘的优势,相较于传统人工方法与强化学习、深度学习方法,具有以下三大核心优势: 思路广度与跨领域融合;逻辑自洽与可解释性;高度可定制化。

加速策略回测:从自然语言到量化验证

将一个定性的投资策略想法(例如,“选择低估值、高成长且近期有分析师上调评级的股票”)转化为可以执行和回测的量化代码,是许多基本面研究员面临的痛点。要完成这一回测通常需要较强的编程能力,也要求熟悉相关的数据接口。利用LLM能够显著降低这一门槛。

图表5:沪深300价值动量策略的自然语言描述prompt

资料来源:中金公司研究部

图表6:大模型基于自然语言策略描述生成的python回测代码(部分)

资料来源:Deepseek-R1,中金公司研究部

上述代码可以在接入了Wind API的情况下顺利地运行并完成全部测试,并输出策略的各种绩效指标。因此,不具有代码撰写能力的基金经理也可以使用大模型来完成基本面策略思路的回测和优化。

来源:财富智囊

相关推荐