通义千问开源语音识别与生成模型：SenseVoice与CosyVoice

ITCOW牛新网 7月9日消息，阿里云旗下的通义千问团队近日宣布开源两款先进的语音基座模型，分别为SenseVoice和CosyVoice，这两款模型分别针对语音识别和语音生成领域，展现了阿里云在人工智能语音技术方面的最新进展。

SenseVoice模型以其高精度的多语言语音识别能力脱颖而出，其特点如下：

多语言识别：基于超过40万小时的数据训练，支持超过50种语言，识别精度超越了业界知名的Whisper模型。
富文本识别：在情感识别方面表现出色，测试数据上达到了业界领先水平，同时具备声音事件检测能力，能够识别多种人机交互声音事件。
高效推理：特别优化的SenseVoice-Small模型采用非自回归端到端框架，推理速度极快，10秒音频的推理时间仅为70毫秒，性能是Whisper-Large模型的15倍。
微调定制：提供了便捷的微调脚本和策略，使用户能够针对特定业务场景进行优化。
服务部署：具备完整的服务部署解决方案，支持高并发请求，并支持多种客户端语言。

CosyVoice模型在语音生成领域同样展现出其创新能力：

据ITCOW牛新网了解，SenseVoice-Large模型在几乎所有数据集上都达到了最佳效果，而SenseVoice-Small模型在多数数据集上也超越了其他开源模型。