摘要:长期以来,财务报表上的“数字”被视为估值的核心。然而,随着投资者对信息结构与语义表达的理解逐步深入,“文本”正成为资本市场中不可忽视的另一种信息载体。尤其是在财报发布季节中,企业新闻稿、管理层讲话、电话会议纪要等大量文本信息,蕴含着对未来现金流和风险预期的关键
01
导读
长期以来,财务报表上的“数字”被视为估值的核心。然而,随着投资者对信息结构与语义表达的理解逐步深入,“文本”正成为资本市场中不可忽视的另一种信息载体。尤其是在财报发布季节中,企业新闻稿、管理层讲话、电话会议纪要等大量文本信息,蕴含着对未来现金流和风险预期的关键线索。
尽管如此,现有研究却屡屡发现:文本披露对短期市场反应的解释力依然有限,一个重要原因是,传统文本分析方法往往采用“词袋模型”,忽视了词语之间的上下文关系与语义结构,无法捕捉复杂语言中的“潜台词”。
这正是Federico Siano在其发表于 Management Science 的新作《The News in Earnings Announcement Disclosures: Capturing Word Context Using LLM Methods》切入的突破口。作者通过微调BERT大型语言模型,首次将企业财报文本中的“词语+语境”一体建模,并直接预测公告窗口内的异常股票收益,成功重构了文本信息与市场反应之间的映射关系。研究发现,该方法不仅显著提升了模型对股价反应的解释力(R²提升三倍),还揭示出最具信息含量的文本往往出现在披露开头、涉及财务数字的解释、或相较前期内容存在重大变化的段落——也就是说,市场的定价机制更在意你“怎么说”而非你“说了什么”。这项研究为会计文本分析打开了一条全新的技术路径,也为投资者、监管者与企业管理者提供了理解财报“话语权”的新视角。
02
数据与方法
本文基于一项大规模的企业盈余公告文本与金融市场数据集,研究企业财报语言在资本市场中的作用机制。具体而言,作者以美国上市公司2006年至2023年间提交至SEC的8-K文件中共计253727份季度财报新闻稿为起点,构建了一个结构清晰、信息密集的研究样本。为了确保文本质量与财务数据的完备性,研究在样本构建过程中实施了多项筛选标准:剔除句子数少于10句或总词数不足250词的简略文本,去除无法匹配CRSP或TAQ市场数据的观测值,并排除了价格低于1美元的“便士股”、日均交易量位于样本分布最底1%的低流动性股票,以及总资产处于最底1%的微型公司。这一系列处理将样本规模收敛至229905份具有完整市场数据的财报文本。
在此基础上,作者进一步划分出模型训练期与样本外预测期:其中2006至2013年间的109687份财报文本用于微调语言模型,2014至2023年间剩余的120218份文本作为样本外检验数据。考虑到部分观测值存在匹配不到财务变量的情况,最终用于实证分析的核心样本为98171份完整的财报公告文本。这一构建过程详见论文的表1,清晰展示了样本从原始公告到最终可用于建模分析的筛选路径,不仅体现了数据处理的严谨性,也保障了研究结果的可重复性与可解释性。值得一提的是,在最终样本中,还有56670个观测值同时拥有同期财报电话会议纪要文本,为后续拓展不同文本类型信息增量的分析提供了条件。
基于上述数据,本文以BERT架构的大型语言模型为核心建模工具,通过监督学习的方式,使模型能够学习财报文本中语言表达与公告窗口内股价异常波动之间的映射关系。与传统基于关键词频率或情感词典的文本分析方法不同,BERT模型能够识别词语在上下文中的语义角色,从而捕捉企业表述中更为复杂的语言结构与潜在信号。为克服模型在单次输入长度方面的技术限制,作者将每篇财报文本划分为多个512词片段,分别输入模型处理,最终对所有片段的预测结果进行加权整合,生成一个单一的、可用于回归分析的变量,即 CAR_LLM_EA ,用以衡量该文本在语义—语境层面所携带的市场相关信息。
本文方法的另一个技术创新在于,作者将BERT模型从常见的文本分类任务扩展为连续变量回归任务,使其直接输出一个反映市场反应程度的数值指标,而非简单地判断“好消息”或“坏消息”。这种设定更符合金融市场的连续性与异质性特征,也为后续衡量模型解释力奠定基础。需要强调的是,本节为后文分析文本信息对市场反应的解释能力提供了坚实基础,并为文本建模在财务会计领域的进一步应用提供了方法论上的拓展空间。
03
研究结果
在构建完可用于样本外预测的财报文本指标之后,本文通过一系列回归分析检验了BERT语言模型提取出的文本变量是否能够有效解释股票在盈余公告窗口内的异常收益。作者采用的核心回归框架以CAR[0,1]为被解释变量,重点考察模型输出的 CAR_LLM_EA 变量是否在跨公司与公司内部层面上具备显著解释力。在控制公司特定因素与财务信息后,结果显示 CAR_LLM_EA 的解释力显著强于现有主流文本分析方法,甚至超过传统的财务“预期差”指标,凸显了语言模型对复杂语境结构的捕捉能力。
具体而言,表4展示了不同模型对公告期异常收益的解释力。结果表明, CAR_LLM_EA 单独使用时便可解释约15%的跨公司异动,以及15%的公司内部变化,远高于此前文献中4%-5%的平均水平。例如,Frankel et al.(2022)使用非LLM方法对财报文本建模,仅能解释4.5%的公告期异常收益,而本研究中的语言模型实现了三倍以上的提升。这一结果说明,大模型对文本上下文的理解能力显著弥补了传统“词袋”模型的结构缺陷,为文本信息在资本市场中的估值功能提供了实证支持。
图1展示了不同信息源与建模方式对异常收益的解释效果。在四类回归设定中,无论是公司间的横截面分析还是公司内部的固定效应分析,基于大语言模型提取的文本变量始终具有最高的解释力,平均达到15%~18%,显著高于传统的财务预期差与词典类文本属性。同时,即便在纳入财务与文本控制变量后, CAR_LLM_EA 仍带来高达175%的增量解释力。更重要的是,即使使用非线性机器学习方法对传统变量进行建模,其预测力也仍不及单独使用LLM变量的效果。这一结果表明,语境层面的表述方式才是投资者反应的关键触发器,从而强调了“读语境”相较于“看词频”更具前沿价值。
此外,为确保实证结果的稳健性,作者还进行了多项敏感性分析,包括剔除公告文本中的数字、仅使用非电话会议场景、以及控制分析师预测与管理层指引的协同影响等。结果表明,模型性能依然保持一致,说明大模型所捕捉的信息主要来源于文本的语言结构和表述方式,而非仅仅依赖于财务数据的简单解释。
在确认 CAR_LLM_EA 在总体样本上具有强解释力之后,作者进一步探讨了文本信息含量的异质性,即在什么样的经济或公司情境下,盈余公告文本中的信息最为重要?这一问题对于理解文本在投资者决策中的边际价值至关重要。通过交互回归分析,研究发现,在以下几类企业或情境下,文本的解释力显著增强。
首先,在盈利能力较差或亏损的企业中,文本的重要性更高。这一结果与理论预期一致:当“数字”本身难以传递稳定预期时,语言表述就成为市场理解企业状况的重要补充。其次,当企业资产结构中无形资产占比较高时,文本变量的解释力同样增强。因为会计准则对无形资产计量较为保守,市场需借助管理层的叙述判断其未来盈利能力。此外,在宏观层面,当市场处于高度不确定状态时(如疫情初期、金融危机、政策冲突期等),公告文本的信息含量明显提升。这说明,在面对未来不确定性时,投资者更依赖主观叙述来填补“数字盲区”。
这些结论在表5中得到了系统验证。该表列示了在不同分组下, CAR_LLM_EA 对异常收益的解释力变化。例如,亏损公司组别的解释力可提升至18%以上,而在盈利稳定的公司中则相对较低。表中还展示了无形资产比例、自有资本比率、行业技术密集度等与文本价值之间的关系,均呈现出结构性差异。这为文本分析的适用边界提供了经验参考:文本的估值功能在“传统指标失效”的情境下尤为突出。
进一步,作者试图回答另一个关键问题:盈余公告中究竟哪些文本段落最容易引发市场反应?为此,研究将文本内容从三个维度进行了结构性拆分,并以微调后的BERT模型分别对不同片段进行回归预测,结果汇总于表8中。分析显示,具有以下三种特征的文本段落最具“新闻含量”:第一,出现在公告开头部分的内容,尤其是前15句话中的解释性语言,其解释力达到15.1%,远高于结尾部分的2.4%;第二,直接对财务数字进行解释、归因或比较的语句(如销售下滑原因分析),相比于不含数字的段落,其预测力更强(11.7% vs. 6.1%);第三,与上季度公告文本相比出现措辞变化的新内容,被赋予更高的重要性评分(12.7% vs. 3.9%)。这些结果揭示出:投资者更关注企业“怎么说”而非单纯“说了什么”,语言中的结构、上下文位置与变化幅度,构成了影响市场行为的关键触发器。
04
结论
本文通过引入大语言模型BERT,重新审视了财报文本在资本市场中的定价作用。研究表明,相较于传统方法,LLM不仅显著提升了财报文本对短期股价反应的解释力,更揭示出文本“开头段落”“数字解释语句”以及“语义变化”才是真正影响市场的核心所在。在数字难以传达全部信息的时代,语言的力量正日益成为投资者解读公司价值的重要依据。也许,未来的市场理解不再只是“看报表”,更是“读语境”。
来源:老夏看商业一点号