【香樟推文3647】“TheMatrixhasyou”:自动化引致的创新转向

360影视 欧美动漫 2025-09-19 10:50 1

摘要:近年来,随着自动化技术的迅速普及——常被业界与媒体称为“第四次工业革命”——全球生产体系正在经历深刻的变革。这一浪潮不仅引发了关于劳动力替代、工资结构与收入不平等的大量研究,也带来了关于企业创新研发的激烈讨论。然而,相较于对创新产出、质量层面的关注,现有研究鲜

01 引言

近年来,随着自动化技术的迅速普及——常被业界与媒体称为“第四次工业革命”——全球生产体系正在经历深刻的变革。这一浪潮不仅引发了关于劳动力替代、工资结构与收入不平等的大量研究,也带来了关于企业创新研发的激烈讨论。然而,相较于对创新产出、质量层面的关注,现有研究鲜少探讨自动化会对企业创新的方向与构成产生何种影响。换言之,企业在面对自动化浪潮时,是选择继续深耕既有技术领域,还是选择战略性转向全新的技术前沿?这一问题不仅关系到企业的竞争力与生存策略,也直接影响产业结构升级和整体技术进步的路径选择。

在一篇NBER近期发布的工作论文中,康奈尔大学商学院丛林教授及其合作者基于文本的微观指标,系统评估了 自动化浪潮对企业创新方向的影响。 他们结合美国上市企业的10-K报告(类似企业年报,前者更为正式)、人工智能专利数据和机器人暴露度指标,发现当企业的自动化程度上升时,其创新方向和构成出现显著调整:企业逐渐将研发重心从传统技术领域转向人工智能等与自动化高度互补的前沿领域。进一步的实证结果表明,这一转向并非没有代价。自动化的加深最初导致专利产出数量下降、研发成本上升,但与此同时,所产生的专利在原创性与普适性方面显著增强,最终呈现出一种“J曲线”效应。换言之,自动化在短期内带来转型压力与成本,但在长期则推动了更具突破性的创新。这一发现不仅揭示了企业如何在技术冲击下重新配置创新资源,也为理解自动化与人工智能的互补关系提供了新的证据。

02 数据、变量构建与识别策略

2.1 核心数据

本文使用了多种来源的数据,核心数据包括:

文本数据: 美国上市公司10-K文件。10-K文件由企业定期向投资者、美国证券交易委员会全面披露,包含其业务活动、风险因素与未来发展战略,具备法律效力,被广泛用于衡量企业特征和战略取向。

专利数据: 来源于美国专利商标局(USPTO),覆盖1976年以来所有在美国获得授权的的专利记录,包括专利摘要、分类号(CPC)、申请年份、引文数量等信息。

企业财务数据: 来源于Compustat North America,涵盖样本企业的研发强度、总资产、销售额、负债、企业年龄等财务变量。

行业层面数据: 一方面来源于Bureau of Labor Statistics (BLS),包含工资、就业人数及价格指数等行业层面变量;另一方面来源于Bureau of Economic Analysis (BEA),包含投资与生产数据。此外,文章构建工具变量还使用了来源于EU KLEMS Growth and Productivity Accounts的行业层面数据,包含欧洲各经济体在行业层面的劳动、资本、原材料、能源和服务投入等指标。

2.2 核心变量

2.2.1 机器人暴露程度(应用程度)

文章分别介绍了既有文献中对机器人暴露程度指标的构造方法,以及实际采用的构造方法。既有文献将机器人暴露程度定义为各行业中每千名工人对应的工业机器人数量,并根据企业在各细分行业的销售结构加权得到。具体而言,企业i在年份t的机器人暴露度可表示为:

其中, Sales ikt 为企业 i 在年份t的细分行业k的销售额 ; Sales ikt 为企业 i 在年份 t 的总销售额; Robots kt / Worke rs kt 为行业为行业k在年份t的机器人密度。

由于Compustat数据库中许多上市公司仅在单一行业中开展业务,这种方法可能忽视行业内部差异 ,从而将行业 整体趋势与企业自身采用行为混淆,难以精确捕捉企业的异质性特征。为克服这一不足 ,文章基于 美国上市公司10-K文件的文本分析 ,构建了企业层面的机器人暴露度指标。具体包括三个步骤。 首先,关键词筛选与修订。 作者参考现有文献,并结合IFR报告中对于工业机器人的定义,整理出一套与机器人应用相关的关键词。在此基础上,作者进一步剔除了与机器人销售有关的表述,以确保度量聚焦于企业的采用与整合行为而非商业交易。最终整理出一套与机器人应用相关的关键词列表。 其次,语境验证(基于GPT)。 作者在10-K文件中提取包含关键词的句子,并使用ChatGPT(GPT-4o)进行语境验证。作者通过设计提示词,要求模型判断句子是否表明企业存在实际的机器人使用行为,仅保留被GPT识别为相关的句子,从而保证样本中的文本确实反映了 企业的机器人暴露程度 。最后,指标构建。 作者以关键词在企业年度10-K文件中出现的频率作为机器人暴露度的度量,并根据文档总字数进行标准化,以控制报告长度的差异。具体如下:

其中, RobotWordCount wit 为企业 i 在年份 t 中关键词 w 的出现次数。 TotalWordCount it 为企业 i 在年份 t 的10-k文件总字数。

2.2.2 整体创新方向

文章从两个维度度量企业创新方向的变化,分别是基于专利分类的技术相似度和基于文本语义的语义相似度。 在技术相似度的度量上 ,文章基于美国专利商标局(USPTO)的联合专利分类体系(CPC),使用三位数层级的技术分类来平衡细致度和可解释性。企业在年份t的专利分布由向量 T ij =( T i1,t ,T i2,t ,...,T iN,t ) 表示,其中 T ij,t 表示企业i在年份t申请并归属于类别j的专利占比。为平滑年度波动,作者将t-4至t的五年窗口内的专利均纳入计算,并将每个专利的权重平均分配到其所有所属类别。技术相似度定义为企业i在年份t与t+5两期的专利分布向量的余弦相似度:

较高的相似度意味着企业在技术领域的持续性,而较低的相似度则反映了创新方向的转移。

在语义相似度的度量上 ,文章基于专利文本的自然语言处理方法,使用PatentBERT模型将每一篇专利摘要转化为768维嵌入向量。在企业层面,企业i在[t-5, t]时间窗口内所有获得授权的专利的词向量取加权平均,其中权重为专利的被引证次数。

2.2.3 AI创新方向

为直观展示企业AI创新方向的时变趋势,作者 首先将企业按机器人暴露程度分为高、低两组,并基于专利摘要计算年度n-gram相对频率,利用词云图进行可视化比较,从而也为后续分析机制提供了直观证据。 结果表明,相较于低暴露企业,高暴露企业的创新逐步集中于软件、电子、机械与能源等与人工智能紧密相关的领域。这一演化路径凸显了AI在不同产业中的逐步渗透,并表明高机器人暴露企业的创新方向正由传统领域转向 AI驱动的跨领域融合。 进一步分析显示,这一趋势可能由两个相互强化的机制驱动:一方面,AI技术提升和优化了机器人系统的功能;另一方面,机器人应用又持续生成海量数据,为AI模型训练提供基础,形成了 AI与自动化之间的自我强化循环。

其次,作者对AI相关专利进行定量识别。 具体而言,作者采用关键词与CPC分类号结合的方式提取AI专利,同时采用机器学习方法对AI专利进行预测。

最后,文章在识别出AI专利之后,进一步度量任意专利与AI专利之间的接近程度 。核心思路是通过引文分布的相似性来度量,即比较某一专利的引用分布与当年所有AI专利整体的引用分布之间的相似度。具体如下:

首先构造AI专利引文分布向量(构造后还需进行归一化操作)。

其次构造目标专利引文分布向量Citesp,t(方法同上)。

最后计算两者的余弦相似度。

此外,作者还采用欧几里得距离测算了任意专利与AI专利的接近程度。

2.3 实证策略

文章使用两阶段最小二乘法(2SLS)进行了实证分析,同时参考Acemoglu和Restrepo(2020)的做法构造工具变量。

03 主要结果

3.1 基准结果

文章分两步估计了机器人暴露程度对企业创新方向的影响。首先,作者以机器人暴露程度为解释变量,以企业总体创新方向(构建方法可见上文2.2.2)为被解释变量进行了估计。结果如下表所示。可以看到,企业的机器人暴露程度越高,其总体创新方向的变动幅度越大。

表1 基准回归结果:机器人暴露程度与总体创新方向

其次,作者以机器人暴露程度为解释变量,以企业与AI专利的接近程度(构建方法可见上文2.2.3)为被解释变量进行了估计。结果如下表所示(Panel A和PanelB分别是汇总z至企业层面和不汇总的估计结果;Panel C和Panel D分别考察了机器人暴露对企业AI创新的动态效应)。可以看到,企业的机器人暴露程度越高,其创新方向越趋向于 AI 领域,且 AI 专利的产出数量在随后的几年内持续增加。

表2 基准回归结果:机器人暴露程度与AI专利接近程度

3.2 机制分析

是什么原因驱动了上述的实证结果? 本文提出了一个可能的机制:机器人暴露增加了企业对数据的获取,从而促进了AI创新。具体而言,增加的机器人暴露使得企业可以生成更多的与AI相关的数据,这些数据对于推动AI技术和应用的进步至关重要(文章以亚马逊收购Kiva系统为案例,展示了机器人暴露如何使企业获得大量的数据流,进而推动AI创新)。为了检验这一机制,文章通过关键词选择、GPT验证和10-K年报中文本分析,定义了“数据生成”指标,并以之为机制变量进行了回归。 结果表明,机器人暴露显著增加了企业的数据生成量,尤其是在大规模企业中,数据生成的增幅更为显著。

04 进一步分析

在就企业机器人暴露程度对企业创新方向的影响进行充分讨论之后,作者继续发问:这种结构化转变对企业创新产出的整体影响是什么样的?具体而言,作者分别考察了企业机器人暴露程度对企业创新数量和质量的影响。下表结果表明,机器人暴露可能带来短期内专利数量和质量的下降,但随着时间的推移,这些负面影响逐渐消失,呈现出“J型曲线”效应。

表3 进一步分析:机器人暴露程度与企业创新产出(长期)

进一步地,作者还检验了机器人暴露程度对企业创新投入的影响(显著促进了创新投入),并提出了3条可能的机制。 其一, 随着机器人暴露的增加,企业可能将更多的资源投入到基础研究中,这导致短期内专利数量的下降,但却提升了专利的原创性和普适性。更高的基础研究投入意味着更高质量的创新输出,特别是在AI领域中,推动了AI创新的持续发展。 其二, 对于具有较强AI研究经验的企业来说,过渡成本较低,他们能够更快地适应和吸收AI技术进步,从而更加高效地进行创新。这一机制表明,积累的知识和经验能够减少过渡成本,帮助企业在AI领域取得更大的突破。 其三, AI创新相较于非AI创新,具有更高的研发成本,尤其是在团队规模、劳动力投入、发明人原创性和专利价值等方面。文章通过测量相对成本,指出AI创新通常需要更大规模的团队、更多的劳动力投入、更高的发明人原创性以及更具经济价值的专利,这些因素导致了AI创新的资源密集性和高成本。

05 文章评述

该文通过对企业机器人暴露程度的分析,揭示了自动化对AI创新的多维度影响。首先,文章指出企业随着机器人暴露程度的提高,逐步将创新焦点转向AI相关领域,尤其是在数据生成、AI专利数量和技术原理等方面的重大转变。伴随着这种转型的发生,企业能够在保持创新产出的同时,提升AI技术的多样性与原始性,这种趋势在AI相关专利的原创性和泛化性上得到了验证。

总体而言,这篇文章内容详实严谨且富有故事性,我确信且祝福作者一定能取得很好且顺利的发表。当然,我认为文章还是存在一些有待完善之处(仅个人感受):其一,文章在阐释第一个机制(数据生成)时同样采用了文本分析构建指标的策略,但给我最直接的感受是例子的说服力远大于这个回归(PS:毕竟解释变量也是基于10-k文本生成的变量,都是一个师傅教的破不了招啊~);其二,文章主要讨论了两个问题,分别是创新方向的转变和J曲线效应,但读罢感觉J曲线效应更像是创新方向转变过程中所诱发的一系列美丽的“意外”。

声明: 评述仅代表推文作者意见,不代表论文作者观点与“香樟经济学术圈”意见。

来源:古畔听史

相关推荐