OpenAI推出全新语音转文本与文本转语音模型，推动语音交互技术商业化

ITCOW牛新网 3月21日消息，OpenAI于当地时间3月20日发布博文，宣布推出全新的语音转文本（speech-to-text）和文本转语音（text-to-speech）模型，旨在提升语音处理能力，支持开发者构建更精准、可定制的语音交互系统，进一步推动人工智能语音技术的商业化应用。

在语音转文本领域，OpenAI推出了两款新模型：gpt-4o-transcribe和gpt-4o-mini-transcribe。官方表示，这两款模型在单词错误率（WER）、语言识别和准确性上均超越了现有的Whisper系列。这两款模型支持超过100种语言，通过强化学习和多样化高质量音频数据集训练，能够捕捉细微的语音特征，减少误识别，尤其在嘈杂环境、口音及不同语速下表现更加稳定。

在文本转语音方面，OpenAI推出了gpt-4o-mini-tts模型。开发者可以通过指令（如“模拟耐心客服”或“生动故事叙述”）控制语音风格，适用于客服场景（合成更具同理心的语音，提升用户体验）和创意内容领域（为有声书或游戏角色设计个性化声音）。

模型API费用详情如下：

gpt-4o-transcribe：

音频输入：每100万tokens费用6美元
文本输入：每100万tokens费用2.5美元
输出：每100万tokens费用10美元
每分钟成本：0.6美分

gpt-4o-mini-transcribe：

音频输入：每100万tokens费用3美元
文本输入：每100万tokens费用1.25美元
输出：每100万tokens费用5美元
每分钟成本：0.3美分

gpt-4o-mini-tts：

输入：每100万tokens费用0.60美元
输出：每100万tokens费用12美元
每分钟成本：1.5美分

此次推出的新模型不仅提升了语音处理的精准度和适应性，还为开发者提供了更多定制化选项，有望在客服、教育、娱乐等多个领域推动语音交互技术的广泛应用。随着人工智能语音技术的不断进步，OpenAI正在为语音交互的未来开辟更多可能性。

OpenAI推出全新语音转文本与文本转语音模型，推动语音交互技术商业化

相关文章

Manus收费方案公布：月费39美元起，实现全流程自动化任务处理

阿里通义千问发布QVQ-Max视觉推理大模型：实现从图像识别到逻辑推理的跨越

OpenAI推出AI”USB接口”MCP协议智能体开发迎来标准化时代

更多资讯

福特中国召回近7万辆进口车涉及林肯领航员安全带/探险者A柱饰条安全隐患

北京奔驰召回1.2万辆EQA/EQB电动车高压电池存安全隐患

谷歌调整Android开发流程：转用内部分支但坚持开源承诺

中央网信办等四部门发布《关于开展2025年个人信息保护系列专项行动的公告》