阿里云通义APP上线EMO模型，照片 + 音频可生成视频

4 月 25, 2024 #AI, #EMO模型, #通义千问

ITCOW牛新网 4月25日消息，阿里巴巴集团智能计算研究院近日推出了一款创新的AI技术产品——EMO（Emote Portrait Alive）框架。这一系统能够将单一的参考图像和语音音频转化为具有丰富表情和多样头部动作的视频，标志着人工智能在表情捕捉和视频生成领域的新突破。

阿里云通义APP上线EMO模型

EMO技术的核心在于其音频驱动的视频生成能力，它能够直接根据输入的音频生成视频，无需依赖预先录制的视频片段或3D面部模型。阿里云今日宣布，这一AI模型已正式在通义App上线，并对所有用户免费开放。用户只需选择一个模板，上传一张肖像照片，即可让EMO合成出一段生动的唱歌或表演视频。

据ITCOW牛新网了解，通义App首批推出了80多个EMO模板，覆盖了包括《上春山》、《野狼Disco》在内的热门歌曲，以及网络热梗“钵钵鸡”、“回手掏”等。不过，目前该功能尚未开放自定义音频的选项。

阿里云通义APP上线EMO模型

EMO的特点在于其高表现力和逼真度，能够精准捕捉并再现人类面部表情的微妙变化，以及与音频节奏同步的头部动作。此外，EMO的视频帧过渡自然流畅，避免了面部扭曲或帧间抖动的问题，确保了视频的高质量输出。通过FrameEncoding模块，EMO在视频生成过程中能够保持角色身份的一致性，确保角色外观与输入的参考图像相符。

EMO还采用了速度控制器和面部区域控制器等稳定控制机制，增强了视频生成的稳定性，避免了视频崩溃等问题。此外，EMO能够根据输入音频的长度灵活生成任意时长的视频，为用户提供了广阔的创作空间。其训练数据集覆盖了多种语言和风格，包括中文、英文，以及现实主义、动漫和3D风格，使得EMO能够适应多元的文化和艺术需求。

相关文章

微软Copilot结束Beta测试：原生架构提速3倍新增截图问答等实用功能

天津中小学今年秋季新增《人工智能基础》课程，每周1课时

深度求索数据采集新专利公布解决大模型训练数据获取难题效率提升40%

更多资讯

美团启动骑手养老保险试点：两城先行覆盖月补50%参保费用未来将推广全国

2025年 4月 3日

微软Copilot结束Beta测试：原生架构提速3倍新增截图问答等实用功能

2025年 4月 3日

全新智己L6定档4月18日发布：全系800V+激光雷达马蒂斯红新色亮相

2025年 4月 3日

招行加入银行ATM扫码存款”下线潮” 4月9日起全面停用该功能

2025年 4月 3日