ITCOW牛新网 12月17日消息,图森未来今日发布了其首款“图生视频”大模型——Ruyi,并开源了轻量化版本 Ruyi-Mini-7B。用户可以通过 Huggingface 平台免费下载和使用,Ruyi 专为消费级硬件(如 RTX 4090 显卡)设计,极大降低了视频生成模型的使用门槛。
Ruyi 模型核心架构与特点
Ruyi 基于 DiT(Diffusion Transformer) 架构,模型参数量约为 7.1B,训练数据涵盖 约2亿个视频片段。模型结构包括两大模块:
- Casual VAE 模块:负责视频数据的压缩与解压。
- Diffusion Transformer:在压缩后的视频数据上进行生成。
主要功能与优势
- 分辨率与时长控制
- 支持多分辨率生成:最小 384×384,最大 1024×1024,任意长宽比。
- 视频时长最长可达 120帧 / 5秒,支持视频生成的灵活扩展。
- 首帧与首尾帧控制
- 支持最多 5个起始帧 和 5个结束帧 的视频生成,可通过循环叠加技术生成更长的视频内容。
- 运动幅度控制
- 提供 4档运动幅度控制,用户可灵活控制画面的动态变化程度,满足不同创意需求。
- 镜头控制功能
- 支持 上、下、左、右、静止 共 5种镜头控制,实现更精准的视频场景生成。
图森未来表示,Ruyi 目前仍存在一些生成问题,例如:
- 手部畸形。
- 多人生成时面部细节失真。
- 转场效果不可控等问题。
公司已将这些问题列入优化计划,未来将在版本更新中逐步修复,以提升生成效果的精度与稳定性。
Ruyi 模型的发布旨在降低动漫、游戏内容制作的开发周期与成本,特别是在关键帧动画生成与过渡内容制作方面。
- 关键帧生成:输入单个或多个关键帧后,模型可生成未来5秒的视频内容。
- 过渡内容生成:通过提供两个关键帧,模型自动生成自然流畅的中间过渡内容。
图森未来还透露,下一次发布将提供两个不同版本,分别满足轻量级用户与专业创作者的需求,进一步提升模型的灵活性和应用范围。
Ruyi-Mini-7B 版本现已开源,用户可以通过 Huggingface 平台下载体验:
Ruyi-Mini-7B 开源链接