ITCOW牛新网11月22日消息,专注于人工智能产品开发的初创公司 Stability AI 宣布发布了其最新的 AI 模型——Stable Video Diffusion。这一创新模型标志着视频生成技术的一大飞跃,它能够基于现有图片生成视频,延续了之前发布的 Stable Diffusion 文本转图片模型的先进技术。目前市面上能够生成视频的 AI 模型不多,Stable Video Diffusion 成为其中的佼佼者。
当前,Stable Video Diffusion 处于所谓的“研究预览”阶段,尚未对所有用户开放。有兴趣使用这款模型的用户需要遵守特定使用条款,这些条款界定了模型的预期应用场景,如“教育或创意工具”和“设计及其他艺术过程”,同时也指明了一些非预期场景,例如“对人或事件的事实或真实的表达”。
Stable Video Diffusion 实质上包括两个模型:SVD 和 SVD-XT。SVD 能将静态图片转化为 14 帧、576×1024 分辨率的视频,而 SVD-XT 在相同架构下将帧数提升至 24 帧。这两个模型都能以每秒 3 到 30 帧的速度生成高质量视频。
根据 Stability AI 发布的白皮书,SVD 和 SVD-XT 最初在包含数百万视频的大型数据集上进行训练,随后在一个规模较小、包含数十万到一百万视频片段的数据集上进行微调。虽然这些视频的具体来源尚不明确,但白皮书暗示许多视频来自公开的研究数据集,因此版权问题仍有待评估。
这两款模型能生成质量相当高的四秒钟视频。Stability AI 博客上展示的样本显示,其视频生成能力可与 Meta 的最新模型及谷歌和其他 AI 初创公司如 Runway 和 Pika Labs 的相媲美。
虽然 Stable Video Diffusion 显著推进了视频生成技术,但也存在一些局限。Stability AI 坦承,目前这些模型无法生成无运动或缓慢的摄像机平移视频,不能通过文本控制,难以清晰渲染文字,且在生成人脸和人物时并不总是准确。
尽管技术尚处于早期阶段,Stability AI 指出这些模型具有极高的扩展性,可适用于生成物体的 360 度视图等多种用途。
Stability AI 有意将 Stable Video Diffusion 商业化,认为其在广告、教育、娱乐等领域具有巨大潜力。