Ruyi-Mini-7B模型部署教程

摘要：发布与开源：Ruyi-Mini-7B 是图森未来发布 Ruyi 图生视频大模型时同步开源的版本，用户可以在 huggingface 平台上轻松下载和使用。技术基础：该模型基于 DiT（可能是指一种专门用于图像到视频生成的架构）架构，结合了先进的视频生成技术，专

Ruyi-Mini-7B 是由图森未来发布并开源的一款图生视频模型，以下是关于 Ruyi-Mini-7B 的详细介绍：

发布与开源 ：Ruyi-Mini-7B 是图森未来发布 Ruyi 图生视频大模型时同步开源的版本，用户可以在 huggingface 平台上轻松下载和使用。

技术基础 ：该模型基于 DiT（可能是指一种专门用于图像到视频生成的架构）架构，结合了先进的视频生成技术，专为消费级显卡（如 NVIDIA RTX 4090）设计，以降低视频生成的门槛。

二、模型架构

Ruyi-Mini-7B 的模型架构是其强大功能的核心，主要包括以下几个部分：

Casual VAE 模块 ：负责视频数据的压缩和解压。它能够将空间分辨率降低至 1/8，时间分辨率降低至 1/4，并以 16 通道的 BF16 格式高效表示每个像素点，从而实现视频数据在处理过程中的高效性和准确性。

Diffusion Transformer 模块 ：利用 3D 全注意力机制生成压缩后的视频数据。在空间维度上使用 2D 归一化 RoPE 进行处理，在时间维度上使用 Sin-cos 位置嵌入。该模块的训练过程基于 DDPM（去噪扩散概率模型），使模型能够学习到丰富的视觉特征和动态变化，实现从输入到高质量视频输出的复杂转换。

CLIP 模型 ：Ruyi-Mini-7B 还集成了 CLIP 模型，用于从输入图像中提取语义特征，并通过交叉注意力机制将这些特征引入到变换器中，以指导视频的生成过程，为视频生成提供更具语义相关性和逻辑性的引导。

三、功能特点

多分辨率支持 ：Ruyi-Mini-7B 支持从最小 384×384 到最大 1024×1024 的分辨率，长宽比任意，为用户提供灵活的视频生成选项。

多时长生成 ：能够生成最长 120 帧（约 5 秒）的视频，满足多种应用场景的需求。

首帧、首尾帧控制生成 ：支持基于最多 5 个起始帧和 5 个结束帧的视频生成，通过循环叠加可以生成任意长度的视频，极大地丰富了创作的灵活性。

运动幅度控制 ：提供 4 档运动幅度控制，方便用户对整体画面的变化程度进行精准掌控。

镜头控制 ：提供上、下、左、右及静止共 5 种镜头控制选项，使用户能够根据剧情需求进行创意尝试。

git clone https://github.com/IamCreateAI/Ruyi-Models