摘要:语聊社交中总是陷入尬聊冷场?教学直播提问太多难以逐一回复?话未说完就被AI误打断?在与AI实时语音交互的过程中,总会遭遇各种“尴尬时刻”。为解决这些直接影响用户体验的痛点,即构科技实时互动AI Agent更新至2.1版本,新增两项重点能力,进一步优化语音交互体
语聊社交中总是陷入尬聊冷场?教学直播提问太多难以逐一回复?话未说完就被AI误打断?在与AI实时语音交互的过程中,总会遭遇各种“尴尬时刻”。为解决这些直接影响用户体验的痛点,即构科技实时互动AI Agent更新至2.1版本,新增两项重点能力,进一步优化语音交互体验。
支持多用户同时与一个智能体语音互动
传统AI互动引擎,仅支持1v1的语音通话。本次ZEGO实时互动AI Agent 2.1版本支持多个用户同时与一个AI智能体语音互动,同时支持语音打断、手动打断、智能体主动说话等能力,且智能体可区分用户进行回应。
实时互动AI Agent 2.1能够主动调节房间氛围。当用户需要AI提供灵感时,AI随叫随到;房间用户都不主动发声时,智能体则会主动提出话题引导用户继续聊天,避免冷场的局面。
无论是在语聊房场景中多人分享生活点滴、头脑风暴,还是在AI狼人杀、AI剧本杀里推动游戏进程,又或是在AI教学中学生们向AI助教提问,方案均可实现全场景适配与高效运行。
语音断句效果全新升级
智能体在识别用户语音时,会根据停顿时长判断用户是否结束说话。在不同的应用场景下,用户与AI的语音互动也有着不同的方式和习惯。
• 如使用AI陪伴的用户更倾向于与智能体分享日常,说话内容短、频、快,调低阈值可实现AI极速响应;
• 使用AI客服时,用户说话内容有长有短,且对智能体的延迟较为敏感,可使用推荐配置,打造更自然的交互体验;
• 使用AI心理咨询的用户可能更倾向于用大段的语句来倾诉自己遇到的问题,需要避免AI误打断,才能保证良好的用户体验,可提高阈值确保用户表达不受打断。
即构实时互动AI Agent 2.1语音断句效果全新升级,支持人声检测的断句阈值设置、停顿时长设置,可以根据业务需求和用户习惯调整数值,从而实现延迟和语音断句之间的平衡。
除了更新以上两项重点功能,2.1版本还在兼容性、交互灵活性、性能优化等方面进行了多项迭代:
• 支持更多TTS(文字转语音)厂商:支持MiniMax、阿里云语音合成,支持火山大模型版本TTS双向流式。
• 可关闭语音打断功能,支持手动打断,可适配手动打断、Push-to-talk对讲机等语音互动场景。
• 支持智能体实例级上下文管理,包括查询上下文、重置上下文等。
• 支持针对LLM大语言模型的输出过滤器,从而实现emoji过滤、特定词语替换等功能。
• 支持服务端回调分别获取智能体实例、用户的开始说话、结束说话的状态回调,同时支持获取智能体说话被打断状态。
• 全面优化接入示例,提供业务服务控制页面及配套客户端示例代码。
• 优化语音识别与打断逻辑,提升打断准确率,并对外部环境的音乐声进行针对性优化。
• 进一步优化语音端到端延迟,降低了200ms+延迟。
• 支持实时音视频RTC设置token鉴权的同时,不影响AI Agent的语音互动功能,增强互动的安全性。
未来,即构实时互动AI Agent 2.2版本还将提供声纹识别等能力,并支持一个用户与多个AI智能体同时进行互动。
来源:小王科技观