Lightricks最新视频生成模型,速度快30倍,普通电脑就能跑!

360影视 动漫周边 2025-05-10 18:41 1

摘要:或许你对 Lightricks 这个名字并不熟悉,但对于活跃在社交媒体上、熟悉P图的用户来说,它旗下的 Facetune 几乎是家喻户晓的存在。这家总部位于以色列的公司,凭借 Facetune、Videoleap 等一系列横跨图片编辑和短视频制作的成功产品,在

或许你对 Lightricks 这个名字并不熟悉,但对于活跃在社交媒体上、熟悉P图的用户来说,它旗下的 Facetune 几乎是家喻户晓的存在。这家总部位于以色列的公司,凭借 Facetune、Videoleap 等一系列横跨图片编辑和短视频制作的成功产品,在全球消费级创意应用市场积累了深厚的技术实力和用户基础。

就在前两天,Lightricks 正式发布了他们最新的AI视频生成模型—— LTX Video 130亿参数模型 (LTXV-13B)。模型一经发布,便迅速在网络上引起了热潮。

LTXV-13B最引人注目的有两点:第一,它在生成高质量 AI 视频方面的效率显著提升,速度比现有同类模型快达 30 倍;第二也是更关键的是,它打破了高端硬件的桎梏,声称能够运行在消费级 GPU 上,无需依赖昂贵的企业级设备。

这意味着什么?Lightricks 联合创始人兼 CEO Zeev Farbman 在接受采访时给出了他的解读:“130 亿参数的 LTX Video 模型是 AI 视频生成领域的一个重要进展,它让在消费级 GPU 上快速生成高质量视频成为可能。” 他进一步指出,这将使用户能够以更高的一致性、更好的质量和更精细的控制来创作内容。

突破“显存”瓶颈:AI视频普惠化的关键一步

我们不妨先回顾一下 AI 视频生成当前面临的核心技术挑战。长期以来,高性能 GPU,尤其是其配备的大容量显存(VRAM),一直是横亘在普通用户面前的一道“高墙”。像 Runway、Pika、Luma 等在文生视频领域走在前沿的模型,通常需要依赖于配备 80GB 甚至更高显存的企业级 GPU 集群进行训练和推理。

对计算资源的极度依赖,导致这些模型大多部署在云端。对于绝大多数个体创作者或小型团队而言,本地部署几乎不现实,他们不得不依赖昂贵的云服务。这不仅推高了使用成本,按时计费的模式也在一定程度上限制了创作者自由探索和快速迭代的灵活性。

LTXV-13B 的核心价值,恰恰在于其对这一硬件瓶颈的突破性尝试。Farbman 解释说,消费级和企业级 GPU 最主要的分界线就在于显存容量。例如,英伟达面向普通消费者的 RTX 3090 和 4090 最高显存为 24GB,最新的 5090 也只有 32GB,与企业级显卡动辄 80GB+ 的显存相去甚远。

Lightricks 的新模型,正是设计来在这些相对有限的显存条件下高效运作。“即使是完整模型,无需任何量化或近似处理,也能在 RTX 3090、4090、5090 等顶级消费级 GPU 及其笔记本版本上运行。” Farbman 确认。这无疑是 AI 视频生成走向“民主化”、降低门槛的关键一步。

“多尺度渲染”:从艺术家流程中汲取灵感

那么,LTXV-13B 是如何做到在有限显存下实现高效运行的?其背后的技术“秘密武器”,是 Lightricks 称之为“多尺度渲染”的创新方法。Farbman 将其描述为“本次发布中最大的技术突破”。

他解释说:“这一技术使得模型能够逐步细化生成过程。模型并非一次性渲染完整画面,而是模仿艺术家的创作流程:先在粗略的网格上构建场景和物体运动的初步框架,随后将画面分解成一个个区域或‘图块’,并对每个图块逐步添加高精度的细节。”

这种“分而治之”、逐层细化的渲染策略,巧妙地将模型的峰值显存需求限制在处理单个“图块”所需的内存,而非一次性处理整个最终输出分辨率所需的内存。显存的占用峰值被有效控制在较低水平。

此外,模型采用了更紧凑的潜在空间(latent space)表示,进一步优化了内存使用效率,在保证生成质量的同时,进一步减少了显存需求。Lightricks 提供的性能数据显示,LTXV-13B 生成一段视频仅需 37.59 秒,相比竞品动辄上千秒的耗时,速度提升近 40 倍,这正是其底层高效架构和创新技术带来的直接成果。

图片来源:Lightricks

技术之外的棋局:开源、合规与独特的商业模式

在技术层面实现突破的同时,Lightricks 在商业和生态策略上也走出了一条差异化路径。在当前不少顶尖 AI 模型走向闭源或 API 收费的趋势下,Lightricks 却选择将 LTXV-13B 完全开源,代码托管在 Hugging Face 和 GitHub。

Farbman 对此的解释是,开源能有效降低自身的研发成本,并借助全球开发者社区的力量加速模型迭代。通过社区的广泛使用和贡献,Lightricks 能够更专注于模型的整体规划和“策展”,发现和整合最有价值的改进方向。

另一个关键点是数据合规。随着针对抓取数据训练模型引发的法律争议增多,模型的“纯净度”对商业应用至关重要。Lightricks 选择与内容巨头 Getty Images 和 Shutterstock 建立合作,获取授权数据进行模型训练。

Farbman 坦言,尽管数据收集仍存在法律灰色地带,但对于有严格合规要求的企业客户而言,提供基于“干净”数据的模型至关重要。这些合作旨在确保模型用于商业应用的法律合规性,尤其是在对版权要求严格的企业级市场,这构成了 Lightricks 的差异化竞争优势。

在商业化模式上,Lightricks 更是采取了分层策略:对年收入低于 1000 万美元的企业,提供免费许可。

Farbman 坦言,这不是为了直接从小型创作者那里赚钱,而是为了快速扩大模型使用范围,积累用户和生态,证明模型价值。真正的商业化目标是那些通过模型取得显著商业成功(年收入超过 1000 万美元)的大公司,届时将参照游戏引擎等模式协商许可协议。这是一种典型的平台或生态型商业策略,通过前端免费或低门槛,吸引海量用户和应用,再从顶部的商业化项目中获取回报。

AI 视频生成正影响动画制作领域

尽管 LTXV-13B 在硬件兼容性和效率上取得了显著进展,Farbman 仍坦承,AI 视频生成距离“好莱坞电影级”水准尚有距离。当前的生成效果可能在细节、一致性等方面仍有提升空间,但它已经能在特定领域发挥价值。

LTXV-13B 模型在单个消费级 GPU 上渲染的两只兔子 | 图片来源:Lightricks

例如,模型当前就能在例如动画制作中,大幅提升效率、降低成本。在高端动画生产中,创意和故事构思只占预算一小部分,而耗时耗力的关键帧绘制则消耗大量资源。AI 辅助关键帧生成,正是 AI 在实际生产流程中“降本增效”的典型应用场景。

展望未来,Farbman 预测下一代 AI 视频模型将是“多模态”的,能够整合视频、音频、音乐等不同数据类型,并在统一的潜在空间中协同工作。这将使得如唇语同步等复杂任务变得更加容易处理,实现更自然、更全面的内容生成。

Lightricks LTXV-13B 模型作为其在这一领域的重要探索,现已开源,并计划逐步集成到 Lightricks 旗下的创意应用平台,比如面向故事创作的 LTX Studio。这一系列动作,不仅是技术上的迭代,更是 Lightricks 试图在 AI 视频生成这个新兴赛道上,通过技术突破、开源策略和独特的商业模式,重塑硬件边界,构建自身生态的关键棋步。

来源:至顶网一点号

相关推荐