OpenAI升级语音文本互转模型，精准识别口音和语调、指定说话风格

摘要：OpenAI新推出的文本转语音模型“gpt-4o‑mini‑tts”不仅能产生细腻、自然的语音，且比上一代更容易“指导”，也就是说开发者可用自然语言指令指定说话风格，例如“用疯狂科学家的口吻说话”或“以正念（mindfulness）老师的语调说话”。

OpenAI借API推出全新文本转语音和语音转文本模型，这些模型性能相较先前版本有显著提升。

OpenAI新推出的文本转语音模型“gpt-4o‑mini‑tts”不仅能产生细腻、自然的语音，且比上一代更容易“指导”，也就是说开发者可用自然语言指令指定说话风格，例如“用疯狂科学家的口吻说话”或“以正念（mindfulness）老师的语调说话”。

这项技术可让开发者同时自订声音体验和语境情感，“在不同场景下，你不希望只听到单调平稳的语音。若客服系统犯错，需要表达歉意，就能让语音带有相应的情绪⋯⋯我们相信，企业客户想要掌控的不只是说什么，而是怎么说”，OpenAI API产品经理Jeff Harris表示。

还有推出新的语音转文本模型“gpt-4o-transcribe”和“gpt-4o-mini-transcribe”，将取代Open首席人工智能官期使用的Whisper模型。

新模型以多样且高品质的语音数据集训练而成，在嘈杂环境也能精准识别各种口音和语调，同时大幅降低“幻觉”带来的错误，过去Whisper曾因误植字词乃至整段内容错误遭用户诟病。

“这些模型在准确度方面相较Whisper有明显提升，确保模型输出精准无误，是打造可靠语音体验的关键——准确度意味着模型只听见实际讲出的字词，而不会自行填充未曾听到的内容”，Jeff Harris表示。

对OpenAI而言，新的文本转语音和语音转文本模型符合更广泛的AI代理愿景，即打造能够自主代替用户执行任务的AI系统。OpenAI平台产品负责人Olivier Godement表示，尽管AI代理的定义尚有争议，但有一种可行的解释是：能以语音与用户互动的AI聊天机器人。

“未来几个月，我们将看到越来越多的AI代理问世。我们的核心目标是协助企业客户和开发者利用这些有用、可用且准确的AI代理”，Olivier Godement表示。

来源：十轮网

标签：说话模型语音 openai whisper

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!