图森未来发布“Ruyi”图生视频大模型，开源 Mini 版并支持消费级显卡运行

ITCOW牛新网 12月17日消息，图森未来今日发布了其首款“图生视频”大模型——Ruyi，并开源了轻量化版本 Ruyi-Mini-7B。用户可以通过 Huggingface 平台免费下载和使用，Ruyi 专为消费级硬件（如 RTX 4090 显卡）设计，极大降低了视频生成模型的使用门槛。

Ruyi 模型核心架构与特点

Ruyi 基于 DiT（Diffusion Transformer） 架构，模型参数量约为 7.1B，训练数据涵盖 约2亿个视频片段。模型结构包括两大模块：

Casual VAE 模块：负责视频数据的压缩与解压。
Diffusion Transformer：在压缩后的视频数据上进行生成。

主要功能与优势

分辨率与时长控制
- 支持多分辨率生成：最小 384×384，最大 1024×1024，任意长宽比。
- 视频时长最长可达 120帧 / 5秒，支持视频生成的灵活扩展。
首帧与首尾帧控制
- 支持最多 5个起始帧 和 5个结束帧 的视频生成，可通过循环叠加技术生成更长的视频内容。
运动幅度控制
- 提供 4档运动幅度控制，用户可灵活控制画面的动态变化程度，满足不同创意需求。
镜头控制功能
- 支持 上、下、左、右、静止 共 5种镜头控制，实现更精准的视频场景生成。

图森未来表示，Ruyi 目前仍存在一些生成问题，例如：

手部畸形。
多人生成时面部细节失真。
转场效果不可控等问题。

公司已将这些问题列入优化计划，未来将在版本更新中逐步修复，以提升生成效果的精度与稳定性。

Ruyi 模型的发布旨在降低动漫、游戏内容制作的开发周期与成本，特别是在关键帧动画生成与过渡内容制作方面。

关键帧生成：输入单个或多个关键帧后，模型可生成未来5秒的视频内容。
过渡内容生成：通过提供两个关键帧，模型自动生成自然流畅的中间过渡内容。

图森未来还透露，下一次发布将提供两个不同版本，分别满足轻量级用户与专业创作者的需求，进一步提升模型的灵活性和应用范围。

Ruyi-Mini-7B 版本现已开源，用户可以通过 Huggingface 平台下载体验：
Ruyi-Mini-7B 开源链接

图森未来发布“Ruyi”图生视频大模型，开源 Mini 版并支持消费级显卡运行

Ruyi 模型核心架构与特点

主要功能与优势

相关文章

深度求索数据采集新专利公布解决大模型训练数据获取难题效率提升40%

Runway发布Gen-4视频生成模型保真度、一致性创新高

ChatGPT图像生成功能向免费用户开放每日限3次使用机会

更多资讯

京东再推薪酬改革：达达员工将享20薪优秀者获集团股票奖励

乐道汽车总裁艾铁成离职蔚来创始成员沈斐接任重整销售体系

宁德时代澄清：高速爆燃事故SU7未使用其电池

真我GT7官宣首批搭载天玑9400+ 3.7GHz主频创联发科芯片新纪录