中信建投 | 30Y国债到期收益率走势预测——基于随机森林模型的机器

360影视 国产动漫 2025-03-25 16:28 5

摘要:机器学习正成为研究中的热点方法,以较高的准确率、较好的稳健性受到关注。本研究采用机器学习中的随机森林分类方法,结合周度数据,对30Y国债的中短期走势构建模型进行预判。

机器学习正成为研究中的热点方法,以较高的准确率、较好的稳健性受到关注。本研究采用机器学习中的随机森林分类方法,结合周度数据,对30Y国债的中短期走势构建模型进行预判。

研究发现,模型预测效果较好。以“涨/跌”做二分类预测,样本内准确率可达79%,样本外准确率可达62%,近期回测准确率82%;以“涨/跌/基本持平”做三分类预测,样本内准确率可达86%,样本外准确率可达48%,近期回测准确率76%。

本模型以预测为核心出发点,有效避免了结构化模型“善于解释历史、弱于预测未来”的问题,并通过调节超参数避免“过拟合”问题,提升了实践价值。综合来看,本模型对于辅助判断市场情绪、预判短期波动有一定意义。

近期,机器学习方法的关注度有所提升。

机器学习正成为近期研究中的热点方法,以其较高的准确率、较好的稳健性而受到关注。本研究采用机器学习中的随机森林分类方法,从时间序列的角度出发,结合周度数据,对30Y国债的中短期走势构建模型进行预判,效果较好。模型有效避免了结构化模型“善于解释历史、弱于预测未来”的问题,提升了实践价值。

1、 模型取舍:机器学习方法与时间序列模型的结合

一个好的模型是研究的重要出发点。不同模型的选择对于模型的用途有较为明显的影响。本研究从时间序列的角度出发,结合随机森林分类的方法进行模型构建。

1)时间序列模型、结构化模型的选择:前者善于预测未来,而后者善于解释历史。

时间序列模型假设某一变量的历史走势是一切影响变量共同作用的结果,涵盖了全部有价值的信息。通过对较长时间序列的挖掘,能够捕捉到其隐含的变动趋势,并通过自我迭代预测未来的数值。由于债券市场并非弱有效市场,时间序列分析仍有可用性。

结构化模型通过重要因子的筛选,能够较好解释目前的变化是由哪些因素影响的,在解释历史变动、捕捉结构变化方面有优势,但弱于预测未来。因为就未来某一时期T而言,结构化模型的因子的具体数值也是未知的,需引入人工预测值或滞后值再进行模型计算,导致预测效力降低。

如果从实用的角度出发,如果以预测为核心目标,就债券市场而言,时间序列的范式更有优势。

2)常见机器学习方法的选择:随机森林模型更适用于金融数据。

目前常见的监督学习模型有支持向量机(Support Vector Machine)、神经网络模型(Neural Networks)、随机森林模型(Random Forest)等几类。

支持向量机(Support Vector Machine)是一个广义线性分类器,通过拟合超平面对样本点进行分类,多用于文本分类、手写识别、生物信息学、医学等领域。其特征是可以接受较高维度的小样本数据。一个经典的案例是医学分类,对于罕见病病例,单一病人的医学指标很多,但病人数量很少,此时支持向量机(Support Vector Machine)模型可以较好的进行区分和识别。

神经网络模型(Neural Networks)是一个高度非线性动力学系统,以模拟人脑为出发点,一个处理单元类似于人脑的一个神经元。该模型适用于计算机视觉、语音处理、自动驾驶等领域,但要求高维度的大样本数据。以一个常见的的图像识别案例为例,28个像素点的数字图像展开即后有784个维度,稍高分辨率的图像展开后数据维度可有十几万个,同几十个维度的经济金融数据的特征明显有差异。此外,神经网络模型需要规模做支撑,由几个或几十个“神经元”构成的模型价值较低。

随机森林模型(Random Forests)是一个集成分类器,通过自助法和集成的方式进行非线性分类,多用于数据挖掘、工业生产,金融等领域。随机森林模型对样本数据的容忍度较高,对缺失值、异常值有较强的抗干扰能力,适用于金融数据。其采用了Boostrap Aggregating的方法,集成了大量独立判断决策树。每一棵决策树都只包含一部分样本和一部分特征,极端值、异常值构成的决策树会在集成过程中作为“少数”被吸收,有效提升模型的稳健性和可靠性。同时,内含的自助法也降低了对样本容量的要求。

综合来看,为服务于预测目标,决定采用随机森林方法进行时间序列研究,以求得到较好的预测结果。

2、 模型构建、结论与预测:可以得到具有稳健性的结果

选取了30Y国债到期收益率数据进行建模研究。选取2007年以来的长时间序列数据,并按照周度均值的方式降频为周度。

1)数据选取

解释变量选择为向前滞后20期的滞后值,并外加时间趋势T。将上述数据进行二维展开,即每个被解释变量及期滞后20期数值外加时间标量构成一个样本组合,共得到不依赖于时间顺序的样本组合878个。

被解释变量方面,根据差分值进行赋值,进而得到两个模型。“涨/跌”的二分模型中,如本周数值比上周高,赋值为“3”,本周数值比上周低,赋值为“2”。“涨/跌/基本持平”的三分模型中,如本周数值比上周高1BP以上,赋值为“3”,如本周数值比上周低1BP以上,赋值为“2”,如本周数值较上周变化在正负1BP之间,赋值为“1”,即捕捉“基本持平”的情况。

2)样本划分

在此基础上,对样本按照70%、30%的比例随机划分,用于训练和测试。样本的划分有两个注意点。第一,需要随机划分,而不是按照时间顺序划分。如按照前70%训练,后30%测试的方式划分,容易发生基于趋势的伪结果。第二,划分比例不能过于失衡。例如,假设按照95%、5%的比例进行划分,其容易发生过拟合,亦容易得到“凑巧”的好测试结果。

3)模型训练及结果

将上述随机划分的70%部分数据作为训练集合训练模型,30%的部分作为测试集合进行验证,训练随机森林分类模型。同时,对超参数进行适当调整以避免“过拟合”问题。模型可以得到如下训练结果。

第一,就“涨/跌”的二分类预测模型来看,训练集(样本内)准确率可达79%,测试集合(样本外)准确率可达62%,近50期回测准确率82%。二分类模型的混淆矩阵如下图所示。

第二,就“涨/跌/基本持平”做三分类预测模型来看,训练集(样本内)准确率可达86%,测试集(样本外准确率)准确率可达48%,近50期回测准确率76%。三分类模型的混淆矩阵如下图所示。

4)结论与预测

综合来看,模型具有较高的样本外预测效力,具有一定的实践价值,对于辅助判断市场情绪、预判短期波动有一定参考意义。

另需要说明,样本在划分的时候是随机的,与时间T无关,即不存在近期数据、历史数据的偏差问题。叠加最开始处理样本数据时的二维展开,模型在设计上即具有稳定性。

在此基础上,可以通过自我迭代的方式,对未来的变化进行预测,而无需人工赋值。回顾模型的构成,假设当前时间为t,对于未来的第t+1期而言,其解释变量为向前滞后20期的数值均已知,时间趋势项可以确定性推算,因而可以计算出t+1期的数值。拟合的t+1期数据又可以作为t+2期的解释变量。进而,t+3、t+4等未来n期的数据均可以推算。尽管这种自我迭代会牺牲一些准确率,但其可预测性仍较强,较结构化模型有明显优势。

同时,利用随机森林模型进行预判的同时,还可以计算每种类型的概率,这也是模型的优势所在。以二分模型对未来一周中枢预测为例,模型认为收益率下行概率为61.51%,上行的概率为38.48%,具有较好的实际应用价值。

海外市场波动风险:长时间通胀对美欧市场造成一定负面影响,企业成本上升,居民需求下降,工业品和消费品价格上涨。为应对通胀问题,美联储降息进程一再延后,客观上带来了海外市场衰退的风险。随着特朗普的上台,海外逆全球化思想在海外有所抬头,我国科技发展及对外贸易带来一定的压力。

地缘冲突风险:俄乌冲突及巴以冲突仍存在较大不确定性。随着北约对乌克兰的持续支持和俄方立场的持续强硬,俄乌战争局势仍不平稳。同时,巴以冲突持续,周边国家有卷入冲突、扩大冲突的风险。受此影响,全球金融市场可能出现一定的波动,甚至出现区域性系统风险。需要考虑到风险在全球的传导并加以防范。

宽信用加速风险:随着稳增长政策的持续出台,宽信用进程不断推进,政府债供给充裕。随着基建、投资拉动的推进,宽信用存在加速的可能,将使得市场风险偏好升高。考虑到当前流动性局面较近年更为复杂,信用走宽叠加流动性的加速转向或推动市场转向,造成债券收益率上行,价格下跌。

曾羽:中信建投证券固定收益首席分析师,研究发展部总监。四川大学经济学学士、硕士,金融硕导。曾从事房地产监管及市场分析工作,现深耕固定收益研究领域,对地方政府债务及房地产债务有长期深入研究。多年新财富、水晶球等评比最佳上榜分析师,其中2016年新财富固定收益第一名。

曲远源:中信建投固定收益分析师,南开大学金融学硕士、经济学学士。主要研究经济基本面、产业债。

证券研究报告名称:《30Y国债到期收益率走势预测——基于随机森林模型的机器学习方法》

对外发布时间:2025年3月23日

报告发布机构:中信建投证券股份有限公司

本报告分析师:

来源:点滴财学

相关推荐