摘要:发布与开源:Ruyi-Mini-7B 是图森未来发布 Ruyi 图生视频大模型时同步开源的版本,用户可以在 huggingface 平台上轻松下载和使用。技术基础:该模型基于 DiT(可能是指一种专门用于图像到视频生成的架构)架构,结合了先进的视频生成技术,专
Ruyi-Mini-7B 是由图森未来发布并开源的一款图生视频模型,以下是关于 Ruyi-Mini-7B 的详细介绍:
发布与开源 :Ruyi-Mini-7B 是图森未来发布 Ruyi 图生视频大模型时同步开源的版本,用户可以在 huggingface 平台上轻松下载和使用。
技术基础 :该模型基于 DiT(可能是指一种专门用于图像到视频生成的架构)架构,结合了先进的视频生成技术,专为消费级显卡(如 NVIDIA RTX 4090)设计,以降低视频生成的门槛。
二、模型架构Ruyi-Mini-7B 的模型架构是其强大功能的核心,主要包括以下几个部分:
Casual VAE 模块 :负责视频数据的压缩和解压。它能够将空间分辨率降低至 1/8,时间分辨率降低至 1/4,并以 16 通道的 BF16 格式高效表示每个像素点,从而实现视频数据在处理过程中的高效性和准确性。
Diffusion Transformer 模块 :利用 3D 全注意力机制生成压缩后的视频数据。在空间维度上使用 2D 归一化 RoPE 进行处理,在时间维度上使用 Sin-cos 位置嵌入。该模块的训练过程基于 DDPM(去噪扩散概率模型),使模型能够学习到丰富的视觉特征和动态变化,实现从输入到高质量视频输出的复杂转换。
CLIP 模型 :Ruyi-Mini-7B 还集成了 CLIP 模型,用于从输入图像中提取语义特征,并通过交叉注意力机制将这些特征引入到变换器中,以指导视频的生成过程,为视频生成提供更具语义相关性和逻辑性的引导。
三、功能特点多分辨率支持 :Ruyi-Mini-7B 支持从最小 384×384 到最大 1024×1024 的分辨率,长宽比任意,为用户提供灵活的视频生成选项。
多时长生成 :能够生成最长 120 帧(约 5 秒)的视频,满足多种应用场景的需求。
首帧、首尾帧控制生成 :支持基于最多 5 个起始帧和 5 个结束帧的视频生成,通过循环叠加可以生成任意长度的视频,极大地丰富了创作的灵活性。
运动幅度控制 :提供 4 档运动幅度控制,方便用户对整体画面的变化程度进行精准掌控。
镜头控制 :提供上、下、左、右及静止共 5 种镜头控制选项,使用户能够根据剧情需求进行创意尝试。
git clone https://github.com/IamCreateAI/Ruyi-Models
来源:带雨的风coolboy