猫咪也能“123上链接”！超强数字人模型SkyReels-A3来了，人人皆可零帧起手玩转直播带货

摘要：昆仑万维SkyWork AI技术发布周今日正式启动。在持续5天的活动中，昆仑万维将每天发布一款新模型，音频驱动视频生成数字人模型SkyReels-A3作为“第一弹”率先亮相，后续还将发布世界模型、生图一体化模型、智能体（Agent）模型及AI音乐创作模型。

作者 | 李水青

编辑 | 漠影

智东西8月11日报道，昆仑万维SkyWork AI技术发布周今日正式启动。在持续5天的活动中，昆仑万维将每天发布一款新模型，音频驱动视频生成数字人模型SkyReels-A3作为“第一弹”率先亮相，后续还将发布世界模型、生图一体化模型、智能体（Agent）模型及AI音乐创作模型。

当下市面上的数字人层出不穷，但因机械感、AI味儿重等问题广受诟病。SkyReels-A3直击数字人行业痛点，生成的视频“真人感”肉眼可见，几乎看不出来AI痕迹，支持多种精细动作及运镜方式，而且生成时长“感人”，超60秒保持完全顺畅一致。

比如，下面这个视频，你能看出完全是我们用SkyReels-A3在几分钟之内一次生成的吗？

基于SkyReels-A3生成的小猫带货视频（源自：智东西）

在昆仑万维公布的初步人工测试中，Skyreels-A3对于面部和主体的稳定性、口型同步、动作自然性等方面都取得了最好的效果，堪称“五边形战士”——这些能力满足时下热门的数字人直播的业务需求，人人0门槛自创数字人开直播的时代真的来临了！

在定量评估中，Skyreels-A3在不同的音频驱动场景的大多数指标上，超越了先进的开源模型omniavatar和闭源模型omnihuman等方法，达到该赛道多项测评的SOTA（行业最佳）的水准。

当下，SkyReels-A3已经面向所有人开放可用，智东西第一时间进行了实测。

在试用体验后，智东西的真实感受是：这款模型堪称“魔法”级别，准确和自然度、画质及动感、时长都让人眼前一亮。而且，从输入所需的图片、文案、音频到最终生成的视频，智东西基本都采用昆仑万维的大模型及Skywork Super Agent来生成，从而体验到了“从0到1”的创作快感。

不得不说，今天的生成式AI已经是Next Level了。

一、不止于“对嘴型”，表情动作达“真人级”

昆仑万维的团队观察到，当下音频驱动的人像视频生成技术已经显著进步，但在自然的环境互动、长时间高质量生成以及执行精准复杂指令等方面，仍难以胜任。

为此，其最新模型SkyReels-A3针对这些问题进行了优化。

用户输入一张照片、一条音频以及一句提示词，SkyReels-A3就能输出如以下视频中的真人级的直播卖货视频。视频中，金发碧眼的女主播在讲解手中的防晒霜，防晒霜自然地晃动，背后艳阳高照、泳池水光波动，真实感很强。

基于SkyReels-A3生成的主播卖货视频（源自：昆仑万维）

实测效果如何？智东西从多语种口型同步、手部动作自然度、表情动作与场景贴合度、动态运镜控制、长视频稳定性、多风格多主体等方面，对SkyReels-A3的视频生成效果进行了实际体验。

如果我不说，相信大多数人看到下面的视频后都会惊讶：这些视频都是AI生成的？没错，从文案、角色、声音到最终视频，都是AI。

实测1：多语种口型同步。智东西输入了中文、中文方言粤语、英文3种语言的音频片段（各30秒），以及三张不同肖像图，生成了三个数字人视频，合而为一呈现。可以看到，视频中的人物的表情稳定，不同语种发音的嘴部运动自然连贯，口型与语音精准匹配。

基于SkyReels-A3生成的女性宣言视频（源自：智东西）

实测2：手部动作自然度。开篇智东西展示了生成的猫咪卖货视频，现在当我把输入的照片换成AI生成的人物肖像，只见视频生成也十分声脸贴合。更重要的是，手指生成正常且动作流畅，没有出现“六个手指”这样的恐怖谷效应以及重影现象。

基于SkyReels-A3生成的男子带货视频（源自：智东西）

此前7月，多家媒体报道，从Grok4到OpenAI o3等顶尖AI都数不清六根手指，引发人们关注。SkyReels-A3则在本次实测生成的多个视频中都避开了这个bug。这种能力对广告主播等业务场景非常重要，因为他们经常需要手部和物品交互来达成商品成交。

实测3：表情动作与场景贴合度。首先是一个演讲场景的案例，当我输入一个演讲场景的图片和对应音频，SkyReels-A3似乎理解了这一场景的设定，生成视频中的女孩自信地进行演讲，并时不时向左下角看稿子，符合场景设定。

基于SkyReels-A3生成的演讲场景视频（源自：智东西）

下面这一视频设定的场景为演唱会MV，可以看到生成视频中小姐姐专注演唱，状态“女团”活力十足，作为虚拟偶像立马出道也不为过。而这一视频生成仅仅花了1分钟不到，加上照片和歌曲生成前后也不到10分钟。

基于SkyReels-A3生成的MV场景视频（源自：智东西）

实测4：动态运镜控制体验。首先看一个昆仑万维的官方Demo，镜头呈现了下降的动态运作，让旷野中的男士逐渐逼近，展现出磅礴的大片感。

基于SkyReels-A3生成的下降镜头视频截取gif片段（源自：昆仑万维）

智东西对案例难度进行了升级，输入一张带有两个人的照片，并输入了一小段音乐音频，以及“push in，女孩看向前方唱歌，男孩开心地看向女孩”文字指令，SkyReels-A3为我生成了一段采用了运镜技巧的视频。

基于SkyReels-A3生成的拉近镜头视频（源自：智东西）

从视频效果来看，镜头的推进比较平滑，视角变化符合指令。不过，两个人的嘴型隐约看到都在跟着动，与只要求女孩唱歌的提示指令略有出入。

据悉，昆仑万维研发团队目前预设了8种常见的运镜参数，包含: 固定镜头（static)、推镜（push in）、拉镜（push out）、左摇（pan left）、右摇（pan right）、抬升（crane up）、下降（crane down）和手持镜头（swing），用户可以根据需要选择相应运镜，并且每个运镜的强度可0–100%连续调节。

实测5：长视频稳定性效果。下面这是一段围绕“《悉达多》与内卷还是躺平”主题生成的长视频，时长接近1分钟，画面没有出现崩坏、闪烁或人物变形，动作、表情也比较连贯。

基于SkyReels-A3生成的长视频镜头视频（源自：智东西）

当前市面上的模型主要专注于生成3-5秒的短视频，但这对于广告、直播带货等实际应用场景还不够，1分钟以上长视频稳定生成解决了市场的需求痛点。虽然SkyReels-A3视频生成长度仍然有限，但已经超出大多竞品，通过多段视频组合的方式，可以在保证时长的同时实现更精准控制。

实测6：多风格多主体效果。为了体验不同风格生成，下面这是智东西用SkyReels-A3生成的一段3D卡通动漫视频，画面中的小松鼠声情并茂地在讲述它的经历，活泼而富有童真，这或许在儿童教育场景有可观的商用价值。

基于SkyReels-A3生成的多风格主体视频（源自：智东西）

基于上述体验和案例鉴赏，我们认为音频驱动数字人可想象的落地场景大大扩展了，包括虚拟偶像、虚拟人直播、线上教师、面试官数字人、游戏助手等，SkyReels-A3生成的数字人都将能够胜任。

在体验的过程中，最令我震撼的还是从文案、音频、图案到视频的全链条AI生成。每一步都只需要一个头脑中的点子以及鼠标键盘简单操作，到最后一步视频生成“集大成”，或许只要几分钟，而且免费。这不禁让人赞叹：内容生产者的“创造力爆发”时代真的要来了。

二、横扫开闭源SOTA，人工测评“五边形战士”

魔法般的生成效果背后，是昆仑万维AI视频大模型技术的又一次迭代。

目前，Skyreels-A3的性能通过广泛的实验进行了验证，包括现有最先进模型（开源和闭源）的定量和定性比较，多项指标实现了SOTA（行业表现最佳）。

据悉，在定量评估中，Skyreels-A3在不同的音频驱动场景的大多数指标上，超越了先进的开源模型omniavatar和闭源模型omnihuman等方法。

Skyreels-A3定量测评情况

其尤其是在唇形同步（sync-c）方面表现出卓越的性能。同时，研发团队引入了step蒸馏，采用了更少的步数（40步减少为4步），效果几乎没有损失。

在人工测试中，Skyreels-A3对于面部和主体的稳定性，动作自然性都取得了最好的效果，同时在口型同步和人脸取得最好比较接近的结果，可以说是一个“五边形战士”。

Skyreels-A3人工测试情况

右图则是对于retalking进行了评测，结果显示音画同步和视频质量都有明显的优势。

在定性分析中，Skyreels-A3模型在不同的应用场景中与OmniHuman、OmniAvatar、HunyuanAvatar等主流模型对比，都取得了不错的生成效果。

据悉，Skyreels-A3生成的视频，视觉伪影（手部和动作扭曲）比较少，整体视觉质量更高，画面更加自然。同时，对于半身复杂交互场景表现也更加优秀。

三、基于DiT视频扩散模型，破解累计误差痛点

当前数字人生成技术尚未达到市场要求的精准度。以直播带货为例，大量数字人主播在讲解口红时，口型难精准匹配，拿起口红时手部动作僵硬或“穿模”，运镜呆板使得展示效果大打折扣，也难以长时间不卡顿跳帧……

市场迫切需要更精准的AI视频生成能力——能实现跨场景精准口型同步、稳定长时输出、更自然的交互生成和增强艺术化的运镜控制。昆仑万维的Skyreels-A3正是瞄准这些核心痛点。

自2024年起昆仑万维就推出AI视频模型SkyReels，而后瞄准电商直播等典型落地方向迭代模型。其本次推出的Skyreels-A3模型基于DiT（Diffusion Transformer）视频扩散架构，架构能有效建模长时序依赖关系，擅长处理时间很长、前后关联紧密的视频内容，让生成的视频前后画面连贯、有逻辑；

同时Skyreels-A3引入3D变分自编码器（3D-VAE）进行隐空间表征学习，在此空间内完成生成任务。这相当于把视频压缩成一个更小、更精炼的“核心版本”，就像把一部电影压缩成一个很小的精华文件；然后在这个压缩后的“核心空间” 里进行主要的视频生成工作，从而显著降低扩散模型计算复杂度，同时确保关键视觉特征的完整性。

Skyreels-A3模型采用DiT架构

如何生成高一致性的长视频？传统的延展方法由于生成误差的累计，容易造成画面逐渐崩坏。这就如同“走钢丝”：依赖逐帧生成时，每一帧的微小误差持续累积，导致画面从细节失真逐步演变为全面崩坏——就像反复复印的图纸，最终模糊成一团墨迹。

昆仑万维研发团队采用全新的对齐训练策略来进行视频延展。通过历史帧提供连续信息和参考图提供画面一致信息，如同架起一座稳固的桥梁支柱，来减少误差累计，从而消除画面崩坏，持续地生成连续且画面不崩坏的分钟级别的长视频。

Skyreels-A3基于插帧模型来进行视频延展

在手与物品的交互方面，研发团队针对手部动作自然度和清晰度，构造了针对线上直播等场景的数据，并采用了不同seed和训练过程checkpoints来生成大量候选，从而让手上动作更自然和符合物理规律。

此外值得一提的是，为了让镜头语言更加灵动，研发团队构造了一种基于ControlNet结构的镜头控制模块，通过精细化镜头参数的输入，实现帧级别精准运镜控制。

具体来说，这就好比给数字人所在场景做一个“3D深度扫描”，镜头控制模块提取参考图的深度信息，配合相机参数，渲染目标运镜轨迹的参考视频。而后AI就能生成运镜示范视频当模板，让数字人视频逐帧复刻电影级丝滑的运镜效果。

结语：AI视频生成走向精细化竞赛，加速产业落地步伐

当下，AI视频生成正深入表情与物理交互的微观战场，昆仑万维SkyReels-A3以唇动毫米级同步、符合动力学的肢体交互、长视频零崩坏等优势突破精准卡位，推动视频生成大模型迅速走向产业化。

昆仑万维在AI生成视频领域的积累由来已久。早在2024年其就开始布局，而后相继开源中国首个面向AI短剧创作的视频生成模型SkyReels-V1，以及全球首个无限时长视频生成模型SkyReels-V2。

此次推出的Skyreels-A3则聚焦数字人赛道，展现了“技术到生产力”的强大穿透力，有助于视频生成模型应用到直播、电商、教育、广告等多个领域。

作为昆仑万维技术周首发成果，SkyReels-A3不仅为数字人领域立标，更预告着AI视频生成将引爆内容产业效能革命，才刚刚开始。昆仑万维技术周还有更多更新，我们将持续关注。

来源：智东西

标签：直播模型昆仑万维猫咪起手

本文地址：https://news.43u.com.cn/a/2167970.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐