ITCOW牛新网 12月17日消息,图森未来今日发布了其首款“图生视频”大模型——Ruyi,并开源了轻量化版本 Ruyi-Mini-7B。用户可以通过 Huggingface 平台免费下载和使用,Ruyi 专为消费级硬件(如 RTX 4090 显卡)设计,极大降低了视频生成模型的使用门槛。

图森未来 Ruyi 大模型

Ruyi 模型核心架构与特点

Ruyi 基于 DiT(Diffusion Transformer) 架构,模型参数量约为 7.1B,训练数据涵盖 约2亿个视频片段。模型结构包括两大模块:

  1. Casual VAE 模块:负责视频数据的压缩与解压。
  2. Diffusion Transformer:在压缩后的视频数据上进行生成。

主要功能与优势

  1. 分辨率与时长控制
    • 支持多分辨率生成:最小 384×384,最大 1024×1024,任意长宽比。
    • 视频时长最长可达 120帧 / 5秒,支持视频生成的灵活扩展。
  2. 首帧与首尾帧控制
    • 支持最多 5个起始帧5个结束帧 的视频生成,可通过循环叠加技术生成更长的视频内容。
  3. 运动幅度控制
    • 提供 4档运动幅度控制,用户可灵活控制画面的动态变化程度,满足不同创意需求。
  4. 镜头控制功能
    • 支持 上、下、左、右、静止5种镜头控制,实现更精准的视频场景生成。
图森未来 Ruyi 大模型生成视频演示
图森未来 Ruyi 大模型生成视频演示

图森未来表示,Ruyi 目前仍存在一些生成问题,例如:

  • 手部畸形。
  • 多人生成时面部细节失真。
  • 转场效果不可控等问题。

公司已将这些问题列入优化计划,未来将在版本更新中逐步修复,以提升生成效果的精度与稳定性。

Ruyi 模型的发布旨在降低动漫、游戏内容制作的开发周期与成本,特别是在关键帧动画生成与过渡内容制作方面。

  • 关键帧生成:输入单个或多个关键帧后,模型可生成未来5秒的视频内容。
  • 过渡内容生成:通过提供两个关键帧,模型自动生成自然流畅的中间过渡内容。

图森未来还透露,下一次发布将提供两个不同版本,分别满足轻量级用户与专业创作者的需求,进一步提升模型的灵活性和应用范围。

Ruyi-Mini-7B 版本现已开源,用户可以通过 Huggingface 平台下载体验:
Ruyi-Mini-7B 开源链接