腾讯混元大模型上线开源文生视频能力，支持高质量视频生成

12 月 3, 2024 #文生视频, #混元大模型

ITCOW牛新网 12月3日消息，腾讯今日发布混元大模型开源文生视频功能。该模型参数量达130亿，支持中英文双语输入，具备生成高质量、超写实视频的能力，为行业带来全新的生成式AI体验。

混元大模型开源文生视频

腾讯官方介绍，混元视频生成大模型采用DiT架构，配备新一代文本编码器，有效提升语义遵循能力，支持多主体的复杂描绘。模型生成的视频不仅画面高质量、不易变形，还能在光影、镜面反射等场景下实现高度逼真的物理效果。例如：

镜面反射同步：在镜面或镜子场景中，反射动作与外部动作完全同步。
光影符合物理规律：场景光影的反射和动态变化呈现出自然、真实的视觉效果。

混元大模型文生视频 — 混元大模型生成视频下同

混元大模型文生视频

混元大模型文生视频

这一能力让用户可以通过简单的文本指令生成细致入微的高质量视频，满足多种应用需求。

腾讯宣布，此次开源包括模型权重、推理代码以及完整的模型算法。企业和个人开发者可以免费使用，并基于模型开发生态插件或应用，推动生成式AI技术的普及与落地。

相关资源获取途径：

此外，用户可通过“腾讯元宝App”进入“AI应用”模块选择“AI视频”功能，申请试用混元大模型的生成能力。

混元大模型文生视频

混元大模型的技术架构采用先进的DiT（Diffusion Transformer）方案，结合优化的文本编码器，有以下显著优势：

精准语义遵循：能够深刻理解输入文本的复杂语义，精准映射至视频生成内容。
多主体处理：适配多主体场景，支持复杂叙述中的细节表达与动态协调。
高保真画质：生成画面精细逼真，减少变形或模糊现象。

混元大模型文生视频

混元大模型文生视频

混元视频生成大模型的能力适用于多种场景：

影视与广告：快速生成特效短片或广告视频，缩短制作周期。
教育与培训：制作仿真教学视频，提升学习体验。
游戏与虚拟现实：生成动态场景或角色动作，丰富沉浸式体验。

相关文章

微软Copilot结束Beta测试：原生架构提速3倍新增截图问答等实用功能

天津中小学今年秋季新增《人工智能基础》课程，每周1课时

深度求索数据采集新专利公布解决大模型训练数据获取难题效率提升40%

更多资讯

美团启动骑手养老保险试点：两城先行覆盖月补50%参保费用未来将推广全国

2025年 4月 3日

微软Copilot结束Beta测试：原生架构提速3倍新增截图问答等实用功能

2025年 4月 3日

全新智己L6定档4月18日发布：全系800V+激光雷达马蒂斯红新色亮相

2025年 4月 3日

招行加入银行ATM扫码存款”下线潮” 4月9日起全面停用该功能

2025年 4月 3日