摘要:MAGI-1是由中国团队Sand.ai推出的全球首个开源自回归视频生成大模型,其核心技术基于扩散模型和Transformer架构,支持文本到视频、图像到视频、视频续写等多种任务,并在物理规律预测、时间轴控制等核心能力上实现了突破性进展。以下是其关键信息与技术亮
阅读提醒:1、如果想在本地运行至少需要4090显卡。2、官网是收费的,官网是英文的。
MAGI-1是由中国团队Sand.ai推出的全球首个开源自回归视频生成大模型,其核心技术基于扩散模型和Transformer架构,支持文本到视频、图像到视频、视频续写等多种任务,并在物理规律预测、时间轴控制等核心能力上实现了突破性进展。以下是其关键信息与技术亮点:
自回归分块生成机制 MAGI-1将视频拆分为24帧的固定长度片段(chunk),通过自回归方式逐块生成。每个片段独立去噪并通过流式传输拼接,实现无限长视频生成和实时预览。这种设计保留了时间因果性,使视频动作更符合现实物理规律(如先有因后有果)。创新的注意力机制块因果注意力(Block-Causal Attention):确保当前片段生成时仅关注历史信息,避免未来信息泄露。
并行注意力块(Parallel Attention Block):优化空间和时间维度的信息交互,提升生成效率。
QK归一化与分组查询注意力(GQA):增强训练稳定性,减少显存消耗。训练与推理优化
采用**流匹配(Flow-Matching)**训练目标,分阶段提升数据分辨率和视频长度,强化复杂运动的生成能力。
结合扩散步骤蒸馏技术,通过自一致性约束减少推理步骤,支持低资源部署(如单张RTX 4090运行4.5B模型)。物理规律预测能力 在Physics-IQ基准测试中,MAGI-1以56.02%的准确率超越Sora、可灵等模型,尤其在物体运动轨迹、流体力学模拟等场景表现突出。例如,生成“海浪冲击帆船”时能精准预测船体倾斜角度和水流动。秒级时间轴控制 用户可通过文本指令精确调整每一秒的镜头细节,如“前5秒聚焦人物面部,后3秒镜头缓慢拉远”,实现影视级分镜控。无限长度与流畅性 支持流式生成和视频无限续写,生成的长视频(如10分钟以上)场景过渡自然,无画面撕裂或逻辑断层。基准测试表现
VBench-I2V:在提示保真度、主体完整性等指标上达到SOTA水。
人类评估:在运动质量、指令遵循等维度优于HunyuanVideo、Wan-2.1等开源模型,接近闭源商业模型(如Kling)。生成效率
24B模型生成1秒视频需约4分钟(RTX 4090),4.5B蒸馏版速度提升3倍,且画质损失可控。应用领域
影视创作:快速生成分镜脚本或动态预览。
实时交互:游戏NPC动态响应、虚拟主播实时动作生成。
工业仿真:模拟机械运动、流体动力学测试。开源与部署
已开源24B和4.5B参数模型,支持HuggingFace下载及本地部署。
提供在线体验平台(sand.ai/magi),新用户免费获500积分(可生成50秒视频)。当前限制
画面稳定性在快速运动场景中仍有提升空间。
推理延迟受自回归架构耦合性影响,长视频生成需优化。未来计划
探索解耦设计,分离内容生成与物理模拟模块以降低延迟。
推出更高清版本(如720p)及多模态交互功能。
MAGI-1通过自回归架构和算法创新,填补了高质量生成与实时应用之间的鸿沟,为开源视频生成领域树立了新标杆。其技术细节可参考技术报告和GitHub仓库。
技术报告的PDF:https://static.magi.world/static/files/MAGI_1.pdf
GitHub仓库:https://github.com/SandAI-org/MAGI-1/tree/main
来源:孙晏欣