Sora 之后,又一“王炸”?字节跳动 OmniHuman 掀起数字人新风暴?

360影视 2025-02-06 17:18 2

摘要:当所有人的目光还聚焦在 Sora 的惊艳亮相,惊叹于 OpenAI 在视频生成领域的 “核爆级” 突破时,国内互联网巨头字节跳动却悄然祭出 “杀手锏” —— OmniHuman。

当所有人的目光还聚焦在 Sora 的惊艳亮相,惊叹于 OpenAI 在视频生成领域的 “核爆级” 突破时,国内互联网巨头字节跳动却悄然祭出 “杀手锏” —— OmniHuman。

这款号称能从单张照片生成逼真全身动态视频的 AI 数字人模型, 如同在平静的湖面投下一颗巨石, 激起的不只是技术层面的涟漪, 更是对整个数字人产业,乃至更宏大的 AI 竞争格局的深度冲击。

字节跳动, 这家以算法和流量见长的公司, 这一次, 似乎要用 OmniHuman 宣告其在 AI “硬科技” 领域的野心, 并正式加入这场由 OpenAI 点燃的 AI 新军备竞赛。

“一张照片,舞动全身”, 这句略带夸张的描述, 却精准地概括了 OmniHuman 最核心, 也是最令人震撼的功能。 过去, 我们看到的 AI 数字人, 大多停留在 “头” 部层面, 精细的面部表情, 自然的口型同步, 已经足以让人惊叹。 但 OmniHuman 的出现, 直接将数字人的 “战场” 从面部 “卷” 向了全身。

OmniHuman 的核心能力在于, 它能够 “对任意尺寸和人物占比的单张图片结合一段输入的音频进行视频生成, 生成的人物视频效果生动, 具有非常高的自然度。” 这意味着, 你只需要一张人物照片, 再配上一段音频, OmniHuman 就能为你生成一段 “真假难辨” 的全身动态视频。 视频中的人物, 不仅能开口说话, 还能唱歌、跳舞, 甚至是做出各种复杂的肢体动作, 仿佛照片中的人瞬间 “复活” , 在你眼前翩翩起舞。

这种技术的突破, 绝非仅仅是 “锦上添花” , 而是 “质的飞跃”。 过去的数字人技术, 往往受限于动作捕捉设备的昂贵和复杂性, 以及数据采集的局限性, 难以实现全身动作的自然和流畅。 而 OmniHuman 的出现, 则巧妙地绕开了这些 “硬骨头” , 直接从单张照片入手, 利用 AI 的强大生成能力, 实现了 “无中生有” 的 “魔法”。

更值得关注的是, OmniHuman 并非仅仅是 “能动” , 更重要的是 “动得真”

OmniHuman “能够精确捕捉到人类的面部表情、身体动作、手势变化、物体交互等细节。” 这意味着, OmniHuman 生成的视频, 不仅仅是简单的 “动画” , 而是 高度逼真, 甚至难以分辨真假的 “真人视频”。 这种 “以假乱真” 的能力, 无疑为数字人技术的应用打开了更广阔的想象空间。

显然不是。 OmniHuman 的背后, 隐藏着字节跳动更深远的战略 “野心” 。

OmniHuman 是字节跳动 “内容生态” 的重要拼图。

字节跳动的核心业务是内容, 无论是抖音、 今日头条, 还是西瓜视频, 都离不开海量的内容供给。 而 OmniHuman 的出现, 无疑为字节跳动的内容生态注入了新的活力。 它可以极大地降低内容创作的门槛, 让更多人能够轻松创作出高质量的数字人视频内容。 无论是个人用户, 还是 MCN 机构, 都可以利用 OmniHuman 快速生成各种形式的数字人内容, 例如虚拟主播、 虚拟偶像、 虚拟客服、 虚拟教育等等。 这无疑将极大地丰富字节跳动的内容生态, 提升用户粘性, 并为商业化变现提供更多可能性。

其次, OmniHuman 是字节跳动 “AI 战略” 的关键落子。

在 AI 领域, 字节跳动一直保持着高度的关注和投入。 但相比于百度、 阿里、 腾讯等互联网巨头, 字节跳动在 AI 基础研究和底层技术积累方面, 似乎略显 “低调”。 而 OmniHuman 的推出, 则可以看作是字节跳动在 AI “硬科技” 领域的一次 “高调” 亮相。 它表明, 字节跳动不仅仅满足于 AI 技术的应用层面, 更开始 “向上攀登” , 进军 AI 模型和算法的研发。 OmniHuman 的成功, 无疑将提升字节跳动在 AI 领域的 “话语权” 和 “竞争力” , 并为其未来的 AI 战略布局奠定坚实的基础。

最后, OmniHuman 是字节跳动 “元宇宙” 布局的重要一步。

元宇宙的概念虽然一度 “退潮” , 但其长期发展潜力依然不容忽视。 数字人作为元宇宙的重要组成部分, 在构建虚拟世界和虚拟身份方面扮演着关键角色。 OmniHuman 的逼真度和易用性, 使其成为构建 “沉浸式” 元宇宙体验的理想工具。 未来, 我们可以想象, 用户可以通过 OmniHuman 创建自己的虚拟化身, 在元宇宙中进行社交、 娱乐、 购物、 工作等等。 OmniHuman 的推出, 无疑是字节跳动在 “元宇宙” 领域 “抢占先机” 的重要一步。

OmniHuman 之所以能够实现如此惊艳的效果, 背后离不开一系列关键技术的支撑。

OmniHuman 采用了 “基于 DiT 架构的多模态运动条件混合训练策略”。 这听起来有些 “高深莫测” , 但我们可以尝试将其 “解剖” , 一窥其背后的技术 “奥秘” 。

DiT 架构: “解耦” 的艺术

DiT (Diffusion Transformer) 架构, 是近年来在图像生成领域备受关注的一种新型架构。 其核心思想在于将 扩散模型 (Diffusion Model)Transformer 相结合, 充分发挥两者的优势。 扩散模型擅长生成高质量的图像, 而 Transformer 则擅长处理序列数据和建立长程依赖关系。 DiT 架构通过 解耦 图像生成过程, 将图像生成任务分解为多个 “去噪” 步骤, 并利用 Transformer 来控制和引导 “去噪” 过程, 从而实现高质量、 可控的图像生成。

在 OmniHuman 中, DiT 架构的应用, 可能体现在以下几个方面:

高质量图像生成: DiT 架构能够生成高质量的数字人图像, 保证视频画面的清晰度和逼真度。细节控制: DiT 架构的可控性, 使得 OmniHuman 能够精确控制数字人的面部表情、 身体动作、 手势变化等细节, 从而提升视频的自然度和真实感。多模态融合: DiT 架构可以方便地融合多种模态的信息, 例如文本、 音频、 姿势等等, 为 OmniHuman 的多模态运动条件混合训练策略提供了技术基础。

多模态运动条件混合训练策略: “全条件” 学习

OmniHuman 的另一个关键技术是 “多模态运动条件混合训练策略”, 也被称为 “全条件” 训练。 这项策略的核心在于, 它将 文本、 音频、 人体动作 等多种输入信息 “融合” 在一起, 作为模型的训练条件, 让 AI 能够从更广泛、 更丰富的数据集中学习。

传统的数字人模型训练, 往往只依赖于单一模态的数据, 例如只有视频数据, 或者只有音频数据。 这种 “单模态” 的训练方式, 容易导致模型学习到的信息有限, 泛化能力不足。 而 “全条件” 训练策略, 则打破了这种局限, 让模型能够同时学习来自不同模态的信息, 从而更全面、 更深入地理解人类的动作和表情, 并生成更逼真、 更自然的数字人视频。

OmniHuman “经过超过 18700 小时的人类视频数据训练”。 如此庞大的数据量, 无疑是 OmniHuman 能够取得如此出色效果的重要保障。 同时, “全条件” 训练策略, 也使得这些数据得到了更充分的利用, 减少了数据浪费, 提升了训练效率。

解决高质量数据稀缺问题: “数据扩充” 与 “泛化能力”

高质量数据稀缺, 一直是 AI 领域面临的普遍难题, 尤其是在视频生成领域。 高质量的视频数据, 往往需要耗费大量的人力物力进行采集和标注, 成本极高。 而 OmniHuman 的 “全条件” 训练策略, 在一定程度上缓解了这一难题。

通过引入多模态条件驱动, OmniHuman 能够利用更广泛的数据集进行训练, 例如可以利用音频数据和文本数据来辅助视频数据的学习, 从而在一定程度上 “扩充” 了训练数据, 提升了模型的 “泛化能力”。 这意味着, OmniHuman 不仅能够生成训练数据集中出现过的动作和表情, 还能生成训练数据集中 未曾出现过 的动作和表情, 从而具备更强的 “创造力” 和 “适应性” 。

OmniHuman 的发布, 无疑为数字人产业注入了一剂 “强心针” 。

根据 IDC 的最新报告, 中国虚拟数字人市场规模呈现高速增长趋势, 预计到 2026 年将达 102.4 亿元。 而智研咨询则认为, 随着 AI 技术的不断进步, 智能驱动型虚拟数字人将成为市场主流。

数字人 “赛道” 拥挤, 互联网巨头 “争相入局”

除了字节跳动, 百度、 腾讯、 阿里巴巴、 华为云、 京东云、 科大讯飞、 商汤科技、 小冰公司 等众多互联网巨头和 AI 厂商, 都已纷纷加入到虚拟数字人生产的 “战局” 之中。

天眼查数据显示, 截至 2024 年 9 月底, 中国与数字人相关的企业数量已达 114.4 万家, 仅 2024 年前五个月就新增注册企业 17.4 万余家, 显示出数字人产业的 “市场潜力与活力”。

智研咨询认为, “未来随着自然语言处理、 深度学习算法等 AI 技术的不断发展与突破, 智能驱动型虚拟数字人感知能力、 表达能力与认知能力都将得到大幅提升, 且成本也将进一步下滑。” 这意味着, 未来的数字人, 将不再仅仅是 “花瓶” , 而是具备 “灵魂” 的智能体。 它们能够自主思考、 主动交互、 甚至进行情感表达, 真正成为人类的 “虚拟伙伴” 。

AIGC (AI-Generated Content) 技术的兴起, 无疑将为智能驱动型数字人的发展提供 “加速器” 。 AIGC 技术能够让数字人具备更强大的内容生成能力, 例如自动生成文本、 图像、 音频、 视频等等。 这将极大地提升数字人的 “个性化定制” 和 “智能化交互能力” , 使其能够更好地满足用户的个性化需求, 并提供更丰富、 更自然的交互体验。

OmniHuman 的发布, 预示着数字人领域的 “军备竞赛” 已经全面升级。 从最初的 “面部精细化” , 到现在的 “全身动态化” , 数字人技术的竞争正在不断深入, 也越来越 “白热化” 。

在这场 “军备竞赛” 中, 谁能 “笑到最后” ?

或许, 技术实力、 数据积累、 应用场景、 生态构建, 都将成为决定胜负的关键因素。

毋庸置疑, 技术实力是 “硬道理” 。 谁掌握了更先进的 AI 算法和模型, 谁就能在技术竞争中占据领先地位。 OmniHuman 的 DiT 架构和 “全条件” 训练策略, 无疑展现了字节跳动在技术方面的 “肌肉” 。

AI 模型训练离不开海量的数据。 谁拥有更庞大、 更高质量的数据集, 谁就能训练出更强大的 AI 模型。 字节跳动在内容平台运营方面积累了海量用户数据, 这无疑是其发展 AI 技术的 “天然优势” 。

技术最终要落地应用才能产生价值。 谁能找到更广泛、 更有价值的应用场景, 谁就能在市场竞争中获得更大的 “蛋糕” 。 字节跳动在内容、 电商、 教育、 娱乐等领域都拥有丰富的应用场景, 这为其数字人技术的应用提供了广阔的空间。

“AI 浪潮” 下的 “新变量”

OmniHuman 的发布, 不仅仅是一款新的 AI 产品, 更像是 “AI 浪潮” 下涌现的一个 “新变量” 。 它预示着, AI 技术正在加速渗透到我们生活的方方面面, 数字人将成为 “人机交互” 的重要桥梁, 甚至可能 “重塑” 人与人之间的社交方式。

字节跳动 “炸场” OmniHuman, 或许只是这场 AI 新军备竞赛的 “序幕” 。

未来, 我们或许会看到更多 “颠覆性” 的 AI 数字人技术涌现, 数字人产业也将迎来更加 “精彩纷呈” 的 “战国时代” 。

来源:暴走的柚子君

相关推荐