摘要:它通过压缩输入上下文,使生成工作量与视频长度无关,能在笔记本 GPU 上用 13B 模型处理大量帧,且可采用大批次训练,类似图像扩散训练。比如在 RTX 4090 桌面端,未优化时 2.5 秒 / 帧,使用 teacache 时 1.5 秒 / 帧 。
它通过压缩输入上下文,使生成工作量与视频长度无关,能在笔记本 GPU 上用 13B 模型处理大量帧,且可采用大批次训练,类似图像扩散训练。比如在 RTX 4090 桌面端,未优化时 2.5 秒 / 帧,使用 teacache 时 1.5 秒 / 帧 。
用途:将静态图生成视频,基于文字提示逐帧预测画面。操作:上传图片,输入文字描述(如 “男孩骑自行车”),通过 GUI 界面生成视频。特点:对硬件要求低,笔记本 GPU 即可运行;生成进度可视化,支持大批次训练 。体验:https://huggingface.co/spaces/lisonallen/framepack-i2v开源:https://github.com/lllyasviel/FramePack主页:https://lllyasviel.github.io/frame_pack_gitpage来源:AI工具箱一点号