摘要:昆仑万维SkyWork AI技术发布周今日正式启动。在持续5天的活动中,昆仑万维将每天发布一款新模型,音频驱动视频生成数字人模型SkyReels-A3作为“第一弹”率先亮相,后续还将发布世界模型、生图一体化模型、智能体(Agent)模型及AI音乐创作模型。
作者 | 李水青
编辑 | 漠影
智东西8月11日报道,昆仑万维SkyWork AI技术发布周今日正式启动。在持续5天的活动中,昆仑万维将每天发布一款新模型,音频驱动视频生成数字人模型SkyReels-A3作为“第一弹”率先亮相,后续还将发布世界模型、生图一体化模型、智能体(Agent)模型及AI音乐创作模型。
当下市面上的数字人层出不穷,但因机械感、AI味儿重等问题广受诟病。SkyReels-A3直击数字人行业痛点,生成的视频“真人感”肉眼可见,几乎看不出来AI痕迹,支持多种精细动作及运镜方式,而且生成时长“感人”,超60秒保持完全顺畅一致。
比如,下面这个视频,你能看出完全是我们用SkyReels-A3在几分钟之内一次生成的吗?
基于SkyReels-A3生成的小猫带货视频(源自:智东西)
在昆仑万维公布的初步人工测试中,Skyreels-A3对于面部和主体的稳定性、口型同步、动作自然性等方面都取得了最好的效果,堪称“五边形战士”——这些能力满足时下热门的数字人直播的业务需求,人人0门槛自创数字人开直播的时代真的来临了!
在定量评估中,Skyreels-A3在不同的音频驱动场景的大多数指标上,超越了先进的开源模型omniavatar和闭源模型omnihuman等方法,达到该赛道多项测评的SOTA(行业最佳)的水准。
当下,SkyReels-A3已经面向所有人开放可用,智东西第一时间进行了实测。
在试用体验后,智东西的真实感受是:这款模型堪称“魔法”级别,准确和自然度、画质及动感、时长都让人眼前一亮。而且,从输入所需的图片、文案、音频到最终生成的视频,智东西基本都采用昆仑万维的大模型及Skywork Super Agent来生成,从而体验到了“从0到1”的创作快感。
不得不说,今天的生成式AI已经是Next Level了。
一、不止于“对嘴型”,表情动作达“真人级”昆仑万维的团队观察到,当下音频驱动的人像视频生成技术已经显著进步,但在自然的环境互动、长时间高质量生成以及执行精准复杂指令等方面,仍难以胜任。
为此,其最新模型SkyReels-A3针对这些问题进行了优化。
用户输入一张照片、一条音频以及一句提示词,SkyReels-A3就能输出如以下视频中的真人级的直播卖货视频。视频中,金发碧眼的女主播在讲解手中的防晒霜,防晒霜自然地晃动,背后艳阳高照、泳池水光波动,真实感很强。
基于SkyReels-A3生成的主播卖货视频(源自:昆仑万维)
实测效果如何?智东西从多语种口型同步、手部动作自然度、表情动作与场景贴合度、动态运镜控制、长视频稳定性、多风格多主体等方面,对SkyReels-A3的视频生成效果进行了实际体验。
如果我不说,相信大多数人看到下面的视频后都会惊讶:这些视频都是AI生成的?没错,从文案、角色、声音到最终视频,都是AI。
实测1:多语种口型同步。智东西输入了中文、中文方言粤语、英文3种语言的音频片段(各30秒),以及三张不同肖像图,生成了三个数字人视频,合而为一呈现。可以看到,视频中的人物的表情稳定,不同语种发音的嘴部运动自然连贯,口型与语音精准匹配。
基于SkyReels-A3生成的女性宣言视频(源自:智东西)
实测2:手部动作自然度。开篇智东西展示了生成的猫咪卖货视频,现在当我把输入的照片换成AI生成的人物肖像,只见视频生成也十分声脸贴合。更重要的是,手指生成正常且动作流畅,没有出现“六个手指”这样的恐怖谷效应以及重影现象。
基于SkyReels-A3生成的男子带货视频(源自:智东西)
此前7月,多家媒体报道,从Grok4到OpenAI o3等顶尖AI都数不清六根手指,引发人们关注。SkyReels-A3则在本次实测生成的多个视频中都避开了这个bug。这种能力对广告主播等业务场景非常重要,因为他们经常需要手部和物品交互来达成商品成交。
实测3:表情动作与场景贴合度。首先是一个演讲场景的案例,当我输入一个演讲场景的图片和对应音频,SkyReels-A3似乎理解了这一场景的设定,生成视频中的女孩自信地进行演讲,并时不时向左下角看稿子,符合场景设定。
基于SkyReels-A3生成的演讲场景视频(源自:智东西)
下面这一视频设定的场景为演唱会MV,可以看到生成视频中小姐姐专注演唱,状态“女团”活力十足,作为虚拟偶像立马出道也不为过。而这一视频生成仅仅花了1分钟不到,加上照片和歌曲生成前后也不到10分钟。
基于SkyReels-A3生成的MV场景视频(源自:智东西)
实测4:动态运镜控制体验。首先看一个昆仑万维的官方Demo,镜头呈现了下降的动态运作,让旷野中的男士逐渐逼近,展现出磅礴的大片感。
基于SkyReels-A3生成的下降镜头视频截取gif片段(源自:昆仑万维)
智东西对案例难度进行了升级,输入一张带有两个人的照片,并输入了一小段音乐音频,以及“push in,女孩看向前方唱歌,男孩开心地看向女孩”文字指令,SkyReels-A3为我生成了一段采用了运镜技巧的视频。
基于SkyReels-A3生成的拉近镜头视频(源自:智东西)
从视频效果来看,镜头的推进比较平滑,视角变化符合指令。不过,两个人的嘴型隐约看到都在跟着动,与只要求女孩唱歌的提示指令略有出入。
据悉,昆仑万维研发团队目前预设了8种常见的运镜参数,包含: 固定镜头(static)、推镜 (push in)、拉镜 (push out)、左摇(pan left)、右摇(pan right)、抬升(crane up)、下降(crane down)和手持镜头(swing),用户可以根据需要选择相应运镜,并且每个运镜的强度可0–100%连续调节。
实测5:长视频稳定性效果。下面这是一段围绕“《悉达多》与内卷还是躺平”主题生成的长视频,时长接近1分钟,画面没有出现崩坏、闪烁或人物变形,动作、表情也比较连贯。
基于SkyReels-A3生成的长视频镜头视频(源自:智东西)
当前市面上的模型主要专注于生成3-5秒的短视频,但这对于广告、直播带货等实际应用场景还不够,1分钟以上长视频稳定生成解决了市场的需求痛点。虽然SkyReels-A3视频生成长度仍然有限,但已经超出大多竞品,通过多段视频组合的方式,可以在保证时长的同时实现更精准控制。
实测6:多风格多主体效果。为了体验不同风格生成,下面这是智东西用SkyReels-A3生成的一段3D卡通动漫视频,画面中的小松鼠声情并茂地在讲述它的经历,活泼而富有童真,这或许在儿童教育场景有可观的商用价值。
基于SkyReels-A3生成的多风格主体视频(源自:智东西)
基于上述体验和案例鉴赏,我们认为音频驱动数字人可想象的落地场景大大扩展了,包括虚拟偶像、虚拟人直播、线上教师、面试官数字人、游戏助手等,SkyReels-A3生成的数字人都将能够胜任。
在体验的过程中,最令我震撼的还是从文案、音频、图案到视频的全链条AI生成。每一步都只需要一个头脑中的点子以及鼠标键盘简单操作,到最后一步视频生成“集大成”,或许只要几分钟,而且免费。这不禁让人赞叹:内容生产者的“创造力爆发”时代真的要来了。
二、横扫开闭源SOTA,人工测评“五边形战士”魔法般的生成效果背后,是昆仑万维AI视频大模型技术的又一次迭代。
目前,Skyreels-A3的性能通过广泛的实验进行了验证,包括现有最先进模型(开源和闭源)的定量和定性比较,多项指标实现了SOTA(行业表现最佳)。
据悉,在定量评估中,Skyreels-A3在不同的音频驱动场景的大多数指标上,超越了先进的开源模型omniavatar和闭源模型omnihuman等方法。
Skyreels-A3定量测评情况
其尤其是在唇形同步(sync-c)方面表现出卓越的性能。同时,研发团队引入了step蒸馏,采用了更少的步数 (40步减少为4步),效果几乎没有损失。
在人工测试中,Skyreels-A3对于面部和主体的稳定性,动作自然性都取得了最好的效果,同时在口型同步和人脸取得最好比较接近的结果,可以说是一个“五边形战士”。
Skyreels-A3人工测试情况
右图则是对于retalking进行了评测,结果显示音画同步和视频质量都有明显的优势。
在定性分析中,Skyreels-A3模型在不同的应用场景中与OmniHuman、OmniAvatar、HunyuanAvatar等主流模型对比,都取得了不错的生成效果。
据悉,Skyreels-A3生成的视频,视觉伪影(手部和动作扭曲)比较少,整体视觉质量更高,画面更加自然。同时,对于半身复杂交互场景表现也更加优秀。
三、基于DiT视频扩散模型,破解累计误差痛点当前数字人生成技术尚未达到市场要求的精准度。 以直播带货为例,大量数字人主播在讲解口红时,口型难精准匹配,拿起口红时手部动作僵硬或“穿模”,运镜呆板使得展示效果大打折扣,也难以长时间不卡顿跳帧……
市场迫切需要更精准的AI视频生成能力——能实现跨场景精准口型同步、稳定长时输出、更自然的交互生成和增强艺术化的运镜控制。 昆仑万维的Skyreels-A3正是瞄准这些核心痛点。
自2024年起昆仑万维就推出AI视频模型SkyReels,而后瞄准电商直播等典型落地方向迭代模型。其本次推出的Skyreels-A3模型基于DiT(Diffusion Transformer)视频扩散架构,架构能有效建模长时序依赖关系,擅长处理时间很长、前后关联紧密的视频内容,让生成的视频前后画面连贯、有逻辑;
同时Skyreels-A3引入3D变分自编码器(3D-VAE)进行隐空间表征学习,在此空间内完成生成任务。这相当于把视频压缩成一个更小、更精炼的“核心版本”,就像把一部电影压缩成一个很小的精华文件;然后在这个压缩后的“核心空间” 里进行主要的视频生成工作,从而显著降低扩散模型计算复杂度,同时确保关键视觉特征的完整性。
Skyreels-A3模型采用DiT架构
如何生成高一致性的长视频?传统的延展方法由于生成误差的累计,容易造成画面逐渐崩坏。这就如同“走钢丝”:依赖逐帧生成时,每一帧的微小误差持续累积,导致画面从细节失真逐步演变为全面崩坏——就像反复复印的图纸,最终模糊成一团墨迹。
昆仑万维研发团队采用全新的对齐训练策略来进行视频延展。通过历史帧提供连续信息和参考图提供画面一致信息,如同架起一座稳固的桥梁支柱,来减少误差累计,从而消除画面崩坏,持续地生成连续且画面不崩坏的分钟级别的长视频。
Skyreels-A3基于插帧模型来进行视频延展
在手与物品的交互方面,研发团队针对手部动作自然度和清晰度,构造了针对线上直播等场景的数据,并采用了不同seed和训练过程checkpoints来生成大量候选,从而让手上动作更自然和符合物理规律。
此外值得一提的是,为了让镜头语言更加灵动,研发团队构造了一种基于ControlNet结构的镜头控制模块,通过精细化镜头参数的输入,实现帧级别精准运镜控制。
具体来说,这就好比给数字人所在场景做一个“3D深度扫描”,镜头控制模块提取参考图的深度信息,配合相机参数,渲染目标运镜轨迹的参考视频。而后AI就能生成运镜示范视频当模板,让数字人视频逐帧复刻电影级丝滑的运镜效果。
结语:AI视频生成走向精细化竞赛,加速产业落地步伐当下,AI视频生成正深入表情与物理交互的微观战场,昆仑万维SkyReels-A3以唇动毫米级同步、符合动力学的肢体交互、长视频零崩坏等优势突破精准卡位,推动视频生成大模型迅速走向产业化。
昆仑万维在AI生成视频领域的积累由来已久。早在2024年其就开始布局,而后相继开源中国首个面向AI短剧创作的视频生成模型SkyReels-V1,以及全球首个无限时长视频生成模型SkyReels-V2。
此次推出的Skyreels-A3则聚焦数字人赛道,展现了“技术到生产力”的强大穿透力,有助于视频生成模型应用到直播、电商、教育、广告等多个领域。
作为昆仑万维技术周首发成果,SkyReels-A3不仅为数字人领域立标,更预告着AI视频生成将引爆内容产业效能革命,才刚刚开始。昆仑万维技术周还有更多更新,我们将持续关注。
来源:智东西