重大升级预告!板块匹配度将迎来重大升级

360影视 动漫周边 2025-04-19 17:22 2

摘要:经常看我文章的朋友,肯定都是知道,我们有一个最底层的数据,也是我们最核心的数据,就是板块匹配度数据。这是最核心的。我先给大家看一个数据,通达信的概念板块数据一共268个。而且把含H股、含B股这样的概念板块,也混在一起。大家可以想想,这种把各种分类方式混在一起,

经常看我文章的朋友,肯定都是知道,我们有一个最底层的数据,也是我们最核心的数据,就是板块匹配度数据。这是最核心的。我先给大家看一个数据,通达信的概念板块数据一共268个。而且把含H股、含B股这样的概念板块,也混在一起。大家可以想想,这种把各种分类方式混在一起,这种分类的精准度如何?

那么同花顺有多少种概念分类,我告诉你是397种,同样这种分类方式里也同样存在各种分类方式混杂的问题。

那经过升级好的,我们的概念板块有多少个呢?867个。我们在上一个版本的基础上,增加到了867个,而且我们的分类方式,不是静态的,而是根据市场热点、市场实实在在被认可过的实战板块。所以,我们的数据,突出一个实战价值。

为什么说这次是重大升级呢?如果只是数量上的增加,那肯定不能算是重大升级。这次我们每个概念板块选出8-10个最核心的个股中,我们首次引入了随机森林(Random Forest)的集成学习算法,通过结合多个决策树的预测结果来提升分类精度和泛化能力。

引入这个算法,主要是为了解决过拟合的问题,我们以前实战中,会发现一个问题,根据历史数据,某一个股票,在历史上确实是这个概念最核心的股票,只有这个概念一启动,那这个股票就是急先锋,妥妥的根红苗正,但是这里面就存在一个问题,这个相关性,是不是一成不变的呢?随着市场的不断变化,他会不会由原来的强相关,慢慢弱化为弱相关呢?如果过度拟合,是不是就会出现刻舟求剑的僵化思维呢?

我们这个重大版本升级,就是为了解决这个问题, 减少过拟合,提高泛化能力核心机制:随机森林通过构建多棵决策树(“森林”),并对结果进行投票或平均,有效降低了单棵决策树因过拟合训练数据而导致的分类偏差。Bagging(自助采样):每棵树基于不同的训练子集(有放回抽样)构建,减少了模型对训练数据噪声的敏感性,从而提升稳定性。随机特征选择:每棵树在节点分裂时仅使用随机子集的特征,增加了树之间的多样性,避免所有树对某些噪声特征过度敏感。

以上是本次升级的说明,这个升级需要花费15天左右的时间,工作量巨大。

新来的朋友可能对我们的概念匹配度不太了解,可以看看我们下面的文字。

目前实战炒股,一共有2大痛点。第一个痛点,一个热门板块真正走出来之前,我们如何尽早识别出来。等这个板块成为了大热门板块之后,你再买进去,那就失去了最肥美、也是最安全的一个上升段。这里面的最核心问题,就是板块匹配度问题

我们再具体说说,目前市面上所有的看盘软件,对于板块分类最存在一个严重问题,根本不管板块匹配度,只要跟这个板块稍微沾点边的,都给这个股票赋予这个概念,这就是导致一个板块里面的成分个股往往几十只,甚至上百只,这里面鱼龙混杂,有根红苗正的,也就是匹配度非常高的,也有纯粹趁概念的小杂毛,这样也会赋予这个概念,而且更要命的,由于缺乏板块匹配度这个指标,你根本看不出,哪个是根红苗正的,哪个是小杂毛。

我们举个大家熟悉的例子,我们就拿CPO概念来举例子,我们可以看到TDX软件里,CPO概念一共74个股票。这时候,你是不是头大了,到底那个根红苗正的,那个是小杂毛?你这么多股票里,你完全没有办法找出最核心的标的。

这就回到了我们的第一个痛点,一个板块要启动,一开始肯定是他最核心的几个板块开始异动,我们再举个例子,比如这个74个股票的概念中,其中最核心的5-6个股票异动,但是由于编制板块指数的时候,是没有区分匹配度这个权重的,所以,你这5-6个股票异动,但是放在整个板块指数里,就很难被发现。等这几个主流个股连续上涨几天后,那些板块中的小杂毛们开始集体跟风上涨,由于数量众多,就会带动整个概念指数大幅上涨,这时候,被你发现了。你看看,这种方式,是不是很难在第一时间就发现主流个股的异动。

所以,我们要做的,就是如何第一时间就发现CPO板块在潜力暴动,如果这个问题能解决好,我们是不是就比普通人早几天介入,吃到最安全、也是最肥美的一段。 我们可以想一想,如果做到这一点,这就是要考验我们数据挖掘的能力。我们发现,其实CPO板块,最核心的就是易中天等几个最主流的股票,新易盛、中际旭创、天孚通信这些中流砥柱。简单点说,如果CPO要异动,这几个股票一定会是最先发动的。那我们的思路就是我们研究这个板块,我们不会想主流板块那样,把小杂毛也放在这个板块里,导致整个板块74个成分个股,这种庞大臃肿的身躯,很难满足实战要求。 那我们的做法是不选74个成分股,而且通过大数据挖掘,选择跟这个概念匹配度最高的8-10个股票,由这些股票来代表CPO概念,这样的精锐部队,只要一异动,我们在第一时间就能发现,并第一时间介入。

这个思路很容易想到,最难的就是如何选择出匹配度最高的那几只股票来,这是最核心也是最困难的。这里面有两种做法,一种是静态的,一种是动态的,我在这里也稍微多讲几句,所谓的静态做法,就是你去研究公司的基本面,通过他的主营业务结构,来静态的判断跟这个概念的匹配度,这种是比较低端的,也是跟实战脱节的。第二种就是动态做法,我们从实战出发,当一个概念出现异动的时候,你这个个股是冲锋陷阵、作为主力部队奋勇杀敌,跟板块同呼吸共命运,还是畏畏缩缩跟板块联动性不强。我们就是通过大数据挖掘,找出在历史大战中,跟这个板块同生共死的英雄,他是这个板块的长机僚机、是这个板块的中军和先锋。这个动态的方式,就非常考验大数据挖掘能力和数理统计的功底了,因为这个不断迭代的,不是一成不变的,去年你是主力部队,今天由于业务调整了,今年在各种大战,你都不参与,那今年你就被踢出这个主流圈子了。你不再有资格代表这个板块。赛德尔迭代算法在这种过程中,有比较重要的应用。

下面我们再来举个例子,就来举锂矿这个概念吧,同样的我们看到通达信里,大家可以看到一共有43个股票的庞大数量。还是那句话,如果在最早期,只有几个最核心的股票在异动,你通过这个板块指数,你是很难发现的。

那下面我们来看看我们的研究成果,我们筛选出锂矿概念,同样的,一共只有8个股票,我们都知道,最能代表锂矿的,其实就是天齐锂业、赣锋锂业、西藏矿业等几个最核心的标的。

总结一下,这就好比钓鱼一样,你觉得那种方式,鱼漂的灵敏度会更高点呢?好了,今天我们就先讲了炒股的第一个痛点,如何在最早期就提前发现。

再预告下,第二个痛点,我们明天详细说,其实就是概念板块的分类合理性问题,有按资金类型分的,比如外资背景,有按市盈率分的,比如低市盈率,又按省份地域分的,比如陕西板块,又按增减持分的。所以这种分类方式五花马门,强行把这些混乱的分类放在一起研究,得出的结论可想而知.另外还有一点,从统计学的角度来说,因为你的样本量不够,一共才200-300个这样统计出来的。

这份研究成果,可以联系我,实战永远是我们的目标,一切的研究都是为实战服务,纸上谈兵,就让那些嘴炮大V去吧。

我们的文章,希望大家多多转发,你们的支持,是我继续写作的动力。转发和点赞的,我们在后台都能够看到的,我们会进行记录,会筛选我们的核心读者。未来有一天,你们就是我的特推读者。

来源:初云大数据量化

相关推荐