ITCOW牛新网 1月20日消息,豆包官方今日宣布,旗下最新研发的实时语音大模型正式上线,并在豆包 App 的 7.2.0 新春版中全量开放。据了解,豆包语音大模型的语音理解与生成能力已达到端到端对话的高度统一。
豆包实时语音大模型采用全新的端到端框架,将语音与文本模态深度融合,全面优化了语音交互体验,展现出以下核心特点:
- 语音理解与生成一体化
模型摒弃了传统的级联处理方式,通过端到端的技术路径,使语音对话的表现力、控制力以及情绪承接能力显著提升。 - 低时延与可打断性
用户在对话过程中可以随时打断并重新调整交互内容,响应速度几乎无延迟,适配实时互动场景。 - 情绪表现与语音真实感
官方表示,更新后的豆包语音对话能力近乎“人机难辨”,在表达“喜怒哀乐”等情绪时高度自然,甚至可以模拟不同声线和角色,达到极高的情感代入感。 - 场景化定制与多模态输出
在实时语音通话功能中,系统能够根据不同场景精准调整语速、音量、气音、儿化音等细节,甚至可以以“悄悄话”形式进行私密交流。此外,还支持部分方言、英语对话以及歌曲演唱能力,展现了多模态 AI 交互的强大潜力。
豆包 App 7.2.0 新春版面向所有用户开放的实时语音通话功能,全面应用了上述语音大模型。该功能不仅在语音真实感上实现突破,还结合 AI 的逻辑思考与情绪感知能力,赋予语音对话更高的智能与拟人化表现。
豆包实时语音大模型通过多模态统一建模,将语音、文本等多种信息形式深度整合,直接实现从输入到输出的高效转换。官方将其形容为“赋予 AI 语音对话‘灵魂’”,不仅提升了对话质量,也为语音交互的未来发展提供了全新范式。