OpenAI升级语音文本互转模型,精准识别口音和语调、指定说话风格

360影视 动漫周边 2025-03-21 18:33 3

摘要:OpenAI新推出的文本转语音模型“gpt-4o‑mini‑tts”不仅能产生细腻、自然的语音,且比上一代更容易“指导”,也就是说开发者可用自然语言指令指定说话风格,例如“用疯狂科学家的口吻说话”或“以正念(mindfulness)老师的语调说话”。

OpenAI借API推出全新文本转语音和语音转文本模型,这些模型性能相较先前版本有显著提升。

OpenAI新推出的文本转语音模型“gpt-4o‑mini‑tts”不仅能产生细腻、自然的语音,且比上一代更容易“指导”,也就是说开发者可用自然语言指令指定说话风格,例如“用疯狂科学家的口吻说话”或“以正念(mindfulness)老师的语调说话”。

这项技术可让开发者同时自订声音体验和语境情感,“在不同场景下,你不希望只听到单调平稳的语音。若客服系统犯错,需要表达歉意,就能让语音带有相应的情绪⋯⋯我们相信,企业客户想要掌控的不只是说什么,而是怎么说”,OpenAI API产品经理Jeff Harris表示。

还有推出新的语音转文本模型“gpt-4o-transcribe”和“gpt-4o-mini-transcribe”,将取代Open首席人工智能官期使用的Whisper模型。

新模型以多样且高品质的语音数据集训练而成,在嘈杂环境也能精准识别各种口音和语调,同时大幅降低“幻觉”带来的错误,过去Whisper曾因误植字词乃至整段内容错误遭用户诟病。

“这些模型在准确度方面相较Whisper有明显提升,确保模型输出精准无误,是打造可靠语音体验的关键——准确度意味着模型只听见实际讲出的字词,而不会自行填充未曾听到的内容”,Jeff Harris表示。

对OpenAI而言,新的文本转语音和语音转文本模型符合更广泛的AI代理愿景,即打造能够自主代替用户执行任务的AI系统。OpenAI平台产品负责人Olivier Godement表示,尽管AI代理的定义尚有争议,但有一种可行的解释是:能以语音与用户互动的AI聊天机器人。

“未来几个月,我们将看到越来越多的AI代理问世。我们的核心目标是协助企业客户和开发者利用这些有用、可用且准确的AI代理”,Olivier Godement表示。

来源:十轮网

相关推荐