ITCOW牛新网 7月9日消息,阿里云旗下的通义千问团队近日宣布开源两款先进的语音基座模型,分别为SenseVoice和CosyVoice,这两款模型分别针对语音识别和语音生成领域,展现了阿里云在人工智能语音技术方面的最新进展。
SenseVoice:高精度多语言语音识别的先锋
SenseVoice模型以其高精度的多语言语音识别能力脱颖而出,其特点如下:
- 多语言识别:基于超过40万小时的数据训练,支持超过50种语言,识别精度超越了业界知名的Whisper模型。
- 富文本识别:在情感识别方面表现出色,测试数据上达到了业界领先水平,同时具备声音事件检测能力,能够识别多种人机交互声音事件。
- 高效推理:特别优化的SenseVoice-Small模型采用非自回归端到端框架,推理速度极快,10秒音频的推理时间仅为70毫秒,性能是Whisper-Large模型的15倍。
- 微调定制:提供了便捷的微调脚本和策略,使用户能够针对特定业务场景进行优化。
- 服务部署:具备完整的服务部署解决方案,支持高并发请求,并支持多种客户端语言。
CosyVoice:多语言语音生成的创新者
CosyVoice模型在语音生成领域同样展现出其创新能力:
- 多语言支持:能够生成多种语言的语音,满足不同语言环境的需求。
- 音色和情感控制:用户可以控制语音的音色和情感,以适应不同的应用场景。
- 零样本语音生成:在没有样本的情况下也能生成语音,拓宽了应用范围。
- 跨语言语音克隆:能够实现跨语言的语音风格克隆,增强个性化体验。
- 指令跟随:模型能够理解和执行用户的指令,提供更加智能化的交互体验。
据ITCOW牛新网了解,SenseVoice-Large模型在几乎所有数据集上都达到了最佳效果,而SenseVoice-Small模型在多数数据集上也超越了其他开源模型。