ITCOW牛新网11月16日消息,微软在Ignite大会中推出了名为“Azure AI Speech text to speech (TTS) avatar”的AI工具,宣称可以生成逼真的虚拟人物(数字人),目前这款工具已经开放给公众进行预览试用。
微软表示,用户使用Azure AI Speech text to speech (TTS) avatar可以创建基于文本输入的虚拟人物,并结合真实人物的照片进行训练,从而创建基于真实人物的“互动式聊天机器人”,可用于企业的营销、业务或客户服务等各种场景。
Azure AI Speech text to speech (TTS) avatar主要包括三个模块,分别是文本分析器、TTS声音合成器和TTS虚拟人物合成器。
文字分析器会先分析用户输入的文字内容,产生音素序列(phoneme sequence)。接着 TTS 声音合成器中的 TTS 语音模型会预测用户输入文字的声学特征,再合成声音。最后,由神经网络声音合成模型 Avatar,根据上述声学特征预测人物的唇形影像,最终形成虚拟化身影像。
传统的虚拟人物制作过程通常费时费工,需要建立专用的拍摄环境,并且后期剪辑也需要大量成本。但是使用微软最新的Azure AI Speech text to speech (TTS) avatar服务,用户只需输入文本就可以制作各种产品介绍、互动视频等内容。结合微软的Azure OpenAI服务和神经网络TTS功能,还可以呈现更自然的互动体验。
微软举例称,用户可以使用Azure AI Speech TTS avatar批量制作各种视频内容,例如企业文化影片、产品介绍视频,或者CEO在大会上的数字化代表。这还可以制作虚拟直播的数字人物、聊天机器人、业务机器人,或在线教育中的AI教师等。
Azure AI Speech text to speech (TTS) avatar已经推出并向Azure订阅用户开放,支持多种语言。用户可以从预设的虚拟人物选项中选择所需的角色,也可以自定义虚拟人物。如果用户想要自定义虚拟人物,他们需要上传一系列真人视频片段,Azure平台将在线处理这些视频,从而生成虚拟人物。虚拟人物的角色和音源是分开的,用户可以选择使用官方提供的默认音源,也可以上传并训练自定义音源。