ITCOW牛新网 3月21日消息,OpenAI于当地时间3月20日发布博文,宣布推出全新的语音转文本(speech-to-text)和文本转语音(text-to-speech)模型,旨在提升语音处理能力,支持开发者构建更精准、可定制的语音交互系统,进一步推动人工智能语音技术的商业化应用。

OpenAI推出全新语音转文本与文本转语音模型

在语音转文本领域,OpenAI推出了两款新模型:gpt-4o-transcribegpt-4o-mini-transcribe。官方表示,这两款模型在单词错误率(WER)、语言识别和准确性上均超越了现有的Whisper系列。这两款模型支持超过100种语言,通过强化学习和多样化高质量音频数据集训练,能够捕捉细微的语音特征,减少误识别,尤其在嘈杂环境、口音及不同语速下表现更加稳定。

OpenAI推出全新语音转文本与文本转语音模型
OpenAI推出全新语音转文本与文本转语音模型

在文本转语音方面,OpenAI推出了gpt-4o-mini-tts模型。开发者可以通过指令(如“模拟耐心客服”或“生动故事叙述”)控制语音风格,适用于客服场景(合成更具同理心的语音,提升用户体验)和创意内容领域(为有声书或游戏角色设计个性化声音)。

模型API费用详情如下:

gpt-4o-transcribe

  • 音频输入:每100万tokens费用6美元
  • 文本输入:每100万tokens费用2.5美元
  • 输出:每100万tokens费用10美元
  • 每分钟成本:0.6美分

gpt-4o-mini-transcribe

  • 音频输入:每100万tokens费用3美元
  • 文本输入:每100万tokens费用1.25美元
  • 输出:每100万tokens费用5美元
  • 每分钟成本:0.3美分

gpt-4o-mini-tts

  • 输入:每100万tokens费用0.60美元
  • 输出:每100万tokens费用12美元
  • 每分钟成本:1.5美分

此次推出的新模型不仅提升了语音处理的精准度和适应性,还为开发者提供了更多定制化选项,有望在客服、教育、娱乐等多个领域推动语音交互技术的广泛应用。随着人工智能语音技术的不断进步,OpenAI正在为语音交互的未来开辟更多可能性。