规模法则触顶，国内视频模型落地忙

摘要：近期，AI行业正站在一个关键的转折点上。曾经引领大模型发展的规模法则（Scaling Law）似乎已触及其天花板，即便是像OpenAI这样的行业巨头，在推进GPT系列模型的迭代时也遭遇了前所未有的挑战。GPT-5的一再推迟发布，让业界开始重新审视规模法则的有效

国产AI视频模型的快速发展和应用，将为整个行业开辟新的增长空间。

文｜动点科技

作者｜黄尘

排版｜恩惠

本文预计阅读时长7分钟

近期，AI行业正站在一个关键的转折点上。曾经引领大模型发展的规模法则（Scaling Law）似乎已触及其天花板，即便是像OpenAI这样的行业巨头，在推进GPT系列模型的迭代时也遭遇了前所未有的挑战。GPT-5的一再推迟发布，让业界开始重新审视规模法则的有效性。与此同时，高质量文本数据的稀缺、算力成本的居高不下，以及硬件和算法优化速度的滞后，共同构成了当前AI大模型发展的困境。面对这一现状，行业内外都在积极探索新的出路，以期在规模法则之外找到推动AI技术持续进步的新动力。

规模法则瓶颈？

很长一段时间以来，规模法则就是通往AGI的指路明灯。2020 年，OpenAI通过《Scaling Laws for Neural Language Models》这篇论文让大家熟知了规模法则并逐渐奉为圭臬。

然而GPT-5的一再跳票，让大家开始怀疑规模法则是否能继续引领大模型成长。

The Information指出，OpenAI下一代ChatGPT 5的训练出现了重大瓶颈，原因之一是高质量文本数据越来越少。据OpneAI内部人员透露，GPT系列模型更新缓慢，即将推出的下一代旗舰模型Orion并没有实现质的飞跃，虽然性能上超过了以往模型，但相较于从GPT-3到GPT-4的迭代，改进幅度缩小，OpenAI正在转变策略。

当规模法则遭遇瓶颈，即扩大模型的规模和增加算力无法再像大模型发展初期那样显著提升模型的能力时，这表明我们已触及了当前技术框架下的极限。这一现象的原因可能在于，随着模型规模的增大，所需处理的数据量和计算复杂度呈指数级增长，而硬件和算法的优化速度却未能与之匹配，导致边际效益递减。

据了解，被称为“AI六小虎”的六家中国大模型独角兽中，已有两家逐步放弃预训练（依赖规模法则，成本高昂）模型，缩减预训练算法团队，转而聚焦AI应用的发展。

瑞银证券中国科技软件分析师张维璇告诉动点科技：“大模型后面的发展，确实看到不同的创业公司采取更加差异化的经营方式。现在还在做大模型参数量进一步扩展的公司，其实数量在慢慢变少。确实有更强的算力储备、人才密度、成本优势的云厂，他们可能会在后面扩展阶段做更多的努力。但对于AI创业公司来讲更加聚焦于产品层面，对算力需求不是很强的前提背景下，他们也可以通过对于一些检索增强生成的技术，监督微调、强化学习，通过后训练阶段，对算力要求并不大的背景下，他们也依然可以把自己的模型在垂直领域做更好的适配，包括To C的产品做更好的打磨。从底层大模型的发展来讲，后面看到各个厂商的差异化会做更多不一样的尝试。”

她指出在未来数据这个“金矿”会被更多的挖掘，就向大模型厂商最开始聚焦规模法则一样，后训练也有很大的“金山”可挖掘。

另外，她表示，从最近跟进的一些国内大模型厂商的进展来看，“他们目前还是在多模态方面会做更多的努力。因为之前还是文生图或者文生视频，从单一模态到多模态的情况，后面他们希望可以做到从多模态（放图片或者视频进去生成）到多模态，这样不管是输入还是输出，用多模态这个场景都可以做。所以我觉得对于中国包括海外来讲，这也是后面大模型进展的新方向。”

视频模型开卷

在规模法则逐渐触顶的关头，居高不下的算力成本使厂商们开始紧锣密鼓寻找合适的大模型落地场景。事实上，在AI视频模型的赛道上，已经开始百花齐放。目前，快手可灵、生数科技Vidu、智谱清影、阿里通义万相等国产AI视频模型，都在逐步面向C端用户开放。

快手视频生成大模型“可灵”视频生成大模型于6月初发布。6月21日，“可灵”正式推出图生视频功能，支持将任意静态图像转化为生动的5秒视频，搭配创作者输入的不同文本，可生成多种运动效果。可灵还同步发布了视频续写功能，支持对已生成的视频一键续写和多次续写，单次可让视频延续约5秒，最长可生成约3分钟视频。

8月31日，MiniMax发布了其首款AI高清视频生成模型技术abab-video-1。据MiniMax官方公众号披露，在视频模型上线海螺AI的首月，海螺AI网页版访问量增速超800%，用户覆盖全球超180个国家和地区。

当月，字节跳动在苹果、安卓等应用商店上架“即梦AI”APP，面向用户下载使用，并上线付费会员服务。9月24日，字节跳动旗下火山引擎在深圳又发布了两款视频生成大模型：豆包视频生成-PixelDance和豆包视频生成-Seaweed。

11月8日，经过智谱升级后的清影支持任意比例的图像生成视频，并且具备多通道生成能力，同一指令或图片可以一次性生成4个视频，还可以生成与画面匹配的音效。

即便如此，张维璇不认为上一代AI视觉公司会被新的时代所颠覆，她指出，很多视频类的公司可以通过AI更好的降低自己的视频制作成本，把AI当作生产工具，帮助自身更好的在未来获得更多收入的可能性。

东吴证券在今年8月发布的研报也提到，在AI渗透率为15%的中性假设下，中国AI视频生成行业的潜在空间为3178亿元；在全AI模式下，电影、长剧、动画片和短剧的制作成本，相较传统模式将下降超95%。

张维璇认为AI给这些视觉类的公司打开了一个新的增长空间，也是他们很好的效率工具。“最近也可以看到领先的头部短视频平台、厂商，他们也通过很多文生视频等等新的工具，也可以看到他们在相对较低和可控的成本下就可以生产出来，并且快速地生产出来很多高质量的视频。特别对于一些UGC，平台上面有很多个人或者KOL小团队的平台，他们利用AI的制作工具可以很快地生产相应作品。”