OpenAI发布首个视频生成模型Sora，可根据文字生成1分钟高清视频

2 月 16, 2024 #OpenAI

ITCOW牛新网 2月16日消息，OpenAI今日宣布推出了其首个视频生成模型——Sora。这一创新模型不仅完美继承了DALL·E 3的优质画质和遵循指令的能力，更能够生成长达1分钟的高清视频。Sora的发布标志着人工智能在视频生成领域的又一重大突破。

OpenAI一直致力于教授AI理解和模拟运动中的物理世界，旨在训练出能够帮助人们解决与现实世界互动的问题的模型。Sora的推出正是这一努力的最新成果。该模型能够生成包含复杂场景、多个角色以及精确的主体和背景细节的视频。不仅如此，Sora还能理解用户在提示中所要求的内容，并将这些事物在现实世界中的存在方式进行模拟。

Sora的强大之处在于其对语言的深刻理解。它能够准确解读用户提供的提示，并生成表达丰富情感的引人入胜的角色。此外，Sora还能在单个生成的视频中创建多个镜头，并确保角色和视觉风格的一致性。这使得Sora不仅是一个视频生成工具，更是一个创意工作者的得力助手。

然而，尽管Sora在视频生成方面表现出色，但它仍然存在一些弱点。OpenAI坦诚地指出，模型在准确模拟复杂场景的物理特性方面可能会遇到困难，也可能无法理解具体的因果关系实例。此外，Sora在处理空间细节和随时间发生的事件的精确描述方面也可能存在挑战。尽管如此，OpenAI仍然对Sora的未来发展充满信心，并相信这一功能将成为实现通用人工智能的重要里程碑。

从技术角度来看，Sora采用了扩散模型的方式，能够从噪声开始生成整个视频或扩展视频的长度。它的关键之处在于一次生成多帧的预测，确保画面主体在视野中保持一致。

与GPT模型类似，Sora也使用了Transformer架构，这使得它具有很强的扩展性。在数据处理方面，OpenAI将视频和图像表示为patch，类似于GPT中的token。这种统一的数据表示方式使得Sora能够在更广泛的视觉数据上进行训练，涵盖不同的持续时间、分辨率和纵横比。

总的来说，Sora的发布为人工智能在视频生成领域的发展开辟了新的道路。尽管它还存在一些局限性，但随着技术的不断进步和研究的深入，我们有理由相信未来的视频生成模型将会更加强大和精准。

OpenAI发布首个视频生成模型Sora，可根据文字生成1分钟高清视频

相关文章

OpenAI官宣GPT-4将于4月底退役全面升级GPT-4o多模态模型

OpenAI启动”先锋者计划”：打造行业专属AI评估体系与专家模型

三星球形AI管家Ballie即将亮相：激光投影+智能跟随黑科技曝光

更多资讯

OpenAI官宣GPT-4将于4月底退役全面升级GPT-4o多模态模型

京东启动2000亿外贸扶持计划：设专属频道助出口企业转内销

京东欧洲战略再升级：Joybuy伦敦试运营年底将推”211当日达”服务

小米回应SU7湛江交通事故：两轮电动车锂电池起火引燃肇事司机已被逮捕