Stability AI 发布革命性 AI 模型 Stable Video Diffusion，开创视频生成新时代

ITCOW牛新网11月22日消息，专注于人工智能产品开发的初创公司 Stability AI 宣布发布了其最新的 AI 模型——Stable Video Diffusion。这一创新模型标志着视频生成技术的一大飞跃，它能够基于现有图片生成视频，延续了之前发布的 Stable Diffusion 文本转图片模型的先进技术。目前市面上能够生成视频的 AI 模型不多，Stable Video Diffusion 成为其中的佼佼者。

当前，Stable Video Diffusion 处于所谓的“研究预览”阶段，尚未对所有用户开放。有兴趣使用这款模型的用户需要遵守特定使用条款，这些条款界定了模型的预期应用场景，如“教育或创意工具”和“设计及其他艺术过程”，同时也指明了一些非预期场景，例如“对人或事件的事实或真实的表达”。

Stable Video Diffusion 实质上包括两个模型：SVD 和 SVD-XT。SVD 能将静态图片转化为 14 帧、576×1024 分辨率的视频，而 SVD-XT 在相同架构下将帧数提升至 24 帧。这两个模型都能以每秒 3 到 30 帧的速度生成高质量视频。

根据 Stability AI 发布的白皮书，SVD 和 SVD-XT 最初在包含数百万视频的大型数据集上进行训练，随后在一个规模较小、包含数十万到一百万视频片段的数据集上进行微调。虽然这些视频的具体来源尚不明确，但白皮书暗示许多视频来自公开的研究数据集，因此版权问题仍有待评估。

这两款模型能生成质量相当高的四秒钟视频。Stability AI 博客上展示的样本显示，其视频生成能力可与 Meta 的最新模型及谷歌和其他 AI 初创公司如 Runway 和 Pika Labs 的相媲美。

虽然 Stable Video Diffusion 显著推进了视频生成技术，但也存在一些局限。Stability AI 坦承，目前这些模型无法生成无运动或缓慢的摄像机平移视频，不能通过文本控制，难以清晰渲染文字，且在生成人脸和人物时并不总是准确。

尽管技术尚处于早期阶段，Stability AI 指出这些模型具有极高的扩展性，可适用于生成物体的 360 度视图等多种用途。

Stability AI 有意将 Stable Video Diffusion 商业化，认为其在广告、教育、娱乐等领域具有巨大潜力。

Stability AI 发布革命性 AI 模型 Stable Video Diffusion，开创视频生成新时代

相关文章

OpenAI推出Flex API模式：响应速度换价格优惠，最高降费50%

火山引擎发布豆包1.5大模型：2000亿参数MoE架构，推理成本降低50%

OpenAI发布革命性o3/o4-mini模型：多模态AI实现图像深度推理，专业性能提升40%

更多资讯

一加13T影像系统官宣：双5000万主摄+4倍无损变焦

ColorOS现已支持朋友圈Live图，OPPO / 一加超70款机型将陆续升级

DeepSeek 创始人梁文锋登上《时代》周刊“全球最具影响力 100 人”榜单

比亚迪秦L/宋L DM-i智驾版置换补贴最高2万