大模型下半场,阶跃凭什么领跑多模态之战

360影视 欧美动漫 2025-05-12 19:38 1

摘要:一是以大厂为代表的资源派,他们手握充足资本,能在基础模型和落地应用上持续烧钱;二是以 DeepSeek 为代表的技术派,专注于基座模型的突破和投入,在推理、数理或多模态等单点技术上见长;三是以阶跃星辰、智谱为代表的国家队,获得地方政府的大力支持,能够潜心做技术

图为:阶跃AI生成

坚定理解生成一体化的多模态路线,发力智能终端 Agent。

作者丨王悦

编辑丨陈彩娴

DeepSeek “掀桌”三个月后,国内大模型的竞争格局大致可划分为三大阵营:

一是以大厂为代表的资源派,他们手握充足资本,能在基础模型和落地应用上持续烧钱;二是以 DeepSeek 为代表的技术派,专注于基座模型的突破和投入,在推理、数理或多模态等单点技术上见长;三是以阶跃星辰、智谱为代表的国家队,获得地方政府的大力支持,能够潜心做技术积累以追求全面发展。

虽然 DeepSeek 有着明显优势,但三股力量都在基础模型上发力同时又各有长处。而其中,多模态被视为 AGI 进程中的关键跃迁点,逐渐成为大模型下一阶段竞争的分水岭。现阶段多模态能力突出的独角兽公司屈指可数,有着“多模态卷王”称号的阶跃星辰作为一个重要玩家得到了很多关注。

成立两年的时间以来,阶跃星辰累计发布了22款自研基座模型,覆盖文字、语音、图像、视频、音乐、推理等全系列,其中 16 款都是多模态模型,占比超 7 成。

外界有一种质疑,阶跃平均每个月都发布一款新模型是卷王在冲 KPI,但剖析阶跃的研发条线来看就会发现,答案是否定的。多模态的每个条线都是经过了几个月或者半年的积累才迭代出一个新的产品,这种情况下如果同时看所有模态条线,自然就形成了一两个月就出一个新成果的局面。

和其他家不同的是,阶跃从一开始就坚定地走理解生成一体化的路线,这也预判了当下 AI 发展从多模态融合到多模态理解生成一体化的趋势,并且提前做出动作。纵观国内大模型公司,像阶跃这样重视模态的全覆盖、并且坚持原生多模理念的公司并不多。

阶跃星辰创始人、CEO 姜大昕告诉 AI 科技评论,当下 AI 行业的技术趋势处于非常陡峭的发展区间,追求智能的上限仍然是一件很重要的事,阶跃会继续在基础大模型上投入,不错过这个机会。

1 多模态是下阶段基模竞争的技术决胜点

和多位阶跃星辰的核心成员交流过后,AI 科技评论发现,他们对多模态的坚信、重视和紧迫程度要高于其他的大模型公司。姜大昕认为,AGI 的终局不仅包括语言符号,还包括视觉、空间、运动智能等,因此在多模态领域的任何一个方向出现短板,都会延缓实现 AGI 的进程。

自Sora 实现视频生成效果的突破之后,行业内视觉模型整体发展的绝对水平都较为有限,虽然各家在不同方面各有长处,然而均在 Sora 的大框架中,未曾迎来下一个发生质变的奇点时刻。

类比 NLP 的进化过程会发现,自然语言处理经历了从不能规模化预训练,到 Transformer 这一 Scalable 的文本理解生成一体化架构,再到GPT-3 实现大规模文本训练和指令跟随的过程。而在视觉领域,这一进程甚至尚未能实现第一步——视觉理解生成一体化架构。

姜大昕也坦言,知道 Sora 的 DiT 技术路线没有按照预期中走生成理解一体化路线时,第一反应有些期待落空。但回头一想也有道理,因为从多模态融合做到生成理解一体化,中间需要走的路着实很难。

多模态的复杂程度相较于语言来讲要高得多。于文字而言,至多有十几万个 token,并且呈低维离散分布的状态,因此易于进行表达从而实现 next token prediction。于多模态而言,仅是一张1024×1024 的图片就可以达到 100 万维,且每个维度都是高维的连续空间,难以实现很好的表征,从而无法实现 next frame prediction。

如果跟随自然语言的发展路径,第一步要做的就是具备一个可以 scalable 的理解生成一体化的架构,之后才能实现 predict next frame 、完成指令跟随,迎来真正的“多模态大模型”。

而多模态大模型之所以关键,是因为人、机器与世界交互的形式是多模态的,Agent、具身智能等一切进一步的人工智能实现形式都需要以多模态能力为基础。以智能体为例,其实时的周围感知就相当于长视频,最终的目标是理解世界、预测行为。

在理解生成一体化、统一表征问题的基础上,多模态大模型即可以利用海量视频数据做视觉预训练,再泛化到理解生成的各个视觉任务中。随后在视觉领域引入强化学习和推理能力,再增加时空推理、3D模型、自然语言的能力,从而建模物理世界的交互,训练能预测行为的 VLA 模型,至此世界模型的雏形就清晰可见。“如果能实现世界模型,我眼中的 AGI 就几乎实现了。”姜大昕告诉 AI 科技评论。

要突破视频生成模型局限性,光靠在现有技术水平下继续迭代是难以解决的,必须在学习范式上有所改变,理解和生成的一体化是其中绕不开的问题。而阶跃星辰从一开始,就确定了理解生成一体化的路线,采用原生多模的方式,在多模态融合技术上跑通了一条路。

当下,视觉领域的 GPT-4 时刻还远远未到来,但清晰可见的是多模态能力将成为 AI 大模型下一阶段基础模型竞争的技术决胜点。阶跃星辰仍然按照模拟世界——探索世界——归纳世界的节奏进行技术积累,继续提升基础大模型的“智能上限”和多模态能力。

2 阶跃星辰的多模态竞争力解剖

行业内对阶跃星辰的评价,一是低调,二是技术“数一数二”的强悍。反观阶跃星辰的技术发展路线,一直都能在火爆现象浮出水面之前,就踩在趋势的前沿上。

半年多的时间以来,大模型技术上有两个趋势,一是强化学习的重要性越来越凸显,从 o1 preview 将推理模型从趋势变成范式,到 DeepSeek 摒弃监督微调,都说明了推理能力正在打开更大空间;二是从多模融合到多模理解生成一体化。

而在强化学习和多模态这两个条线,阶跃星辰均早有布局。在推理模型方面,今年1月份发布的Step R-Mini速度快、能力强,预计未来三个月左右的时间将会推出满血版推理模型Step R1;在多模态方面,坚持走理解和生成统一路线,搭建了覆盖图片、视频、语音的多模态模型矩阵。

阶跃星辰之所以能对技术路线如此坚定清晰,与核心成员是密不可分的。他们亲历了过去十年 AI 发展的历程,有着深刻的实战经验和技术洞察。

创始人、CEO 姜大昕出身于微软亚洲研究院 NLP 组,近 20 年的研发经验使他把握住了阶跃基础大模态矩阵的正确的方向;首席科学家张祥雨对多模态模型的技术架构颇有思考,参与著作的《用于图像识别的深度残差学习》论文(ResNet)是 21 世纪以来全球被引用次数最多的论文;系统负责人朱亦博也是 AI 系统方向的顶级专家,曾任字节跳动任 AI Infra 负责人,从零开始建设国内最大规模的 AI Infra。

除核心领军人物之外,人才密度高也是阶跃星辰的一大优势,目前公司研发人员占比 80% 以上,拥有多位计算机视觉和自然语言处理领域的顶尖研究员。

在过去一年左右的时间里,阶跃星辰持续领跑多模态领域,收割国内外多个权威榜单的第一名。不仅是技术的沉淀,在“超级模型加超级应用”的双轮驱动策略中,阶跃也基于自身的基础模型矩阵优势,差异化地寻找合适的应用形态。

而 Agent 所需要的多模态和慢思考能力,是阶跃的长处所在。因此,阶跃水到渠成地将智能终端 Agent 视为大模型技术落地的核心突破点,最终形成一个从模型到 Agent,从云侧到端侧的生态体系。

当下,汽车、手机、具身智能、IoT 等关键应用场景是阶跃突破的重点。面向手机终端,阶跃星辰与OPPO等手机厂商推出了“一键问屏”、“一键全能搜”功能;面向具身智能,阶跃星辰与智元机器人、原力灵机达成战略合作,共同探索 AI+具身机器人应用场景。

除了技术和应用,阶跃星辰在商业化上也是实践派。有开发者反馈,阶跃多模态模型的用户付费率最高。其中,头部茶饮品牌茶百道全国数千家门店已经接入阶跃星辰 Step-1V 多模态理解大模型,完成智能巡检、AIGC 营销等工作。

3 基模竞争中的关键一极

当前国内大模型的竞争已从“百模大战”进入“精耕细作”阶段,应用层的创新绕不过基础模型的能力边界,无论是复杂推理、长上下文理解,还是跨领域知识迁移,均依赖底层模型的智能上限。

多模态能力是突破智能上限的关键路径——通过融合文本、图像、音频等多维信号,模型对世界的理解更接近人类认知范式,也更靠近 AGI。随着 AI 技术的进一步发展可以见得,多模态能力已从“可选项”到“必争项”。要想在下一轮竞争中取得优势,多模态是一块必争之地。

身为多模态卷王的阶跃星辰,凭借清晰的技术路线和坚定的持续投入,已经积累了多模态方面的差异化优势。多模态能力的提升也反哺了阶跃的基础大模型矩阵,在未来可见的具身智能、世界模型等前沿方向阶跃也会“近水楼台先得月”,成为基座大模型竞争中的关键一极。

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

//

来源:AI科技评论一点号

相关推荐