实时音视频交互领域，商汤日日新第一！

摘要：近日，实时音视频中文测评基准SuperCLUE-Live首测结果出炉了，商汤日日新融合大模型交互版（SenseNova-5o，以下简称“日日新5o”）以总分68.59排名国内第一。

商汤日日新融合大模型又拿了个第一，还是在现在最火的实时音视频交互领域！

近日，实时音视频中文测评基准SuperCLUE-Live首测结果出炉了，商汤日日新融合大模型交互版（SenseNova-5o，以下简称“日日新5o”）以总分68.59排名国内第一。

AI的交互方式已经从简单的文字形式进化到真人级别的实时语音视频形式，体验好又实用的AI交互到底应该是什么样的？

融合模态能力“特训”，实时音视频交互“日日新5o”斩获第一

SuperCLUE-Live是中国首个音视频评测基准，前瞻性面向新一代实时音视频交互产品的综合能力。

“日日新5o”之所以斩获第一、成为综合性选手，源自于商汤科技采用原生融合的方式，深度融合了视频、图片、语音和文本等模态，并结合多模态交错数据联合训练。所以“日日新5o”可以实现对多模态信息的感知和理解及记忆。同时，通过结合实时的RTC网络，可以提供实时的音视频交互体验。

记忆强、交互佳，“日日新”基础认知全球领先

底座大模型的强大性能，让商汤“日日新5o”全方位能力业内领先：基础认知能力超越ChatGPT位列第一，记忆能力、语音交互能力稳居国内第一。

基础认知能力维度方面，“日日新5o”以77分超越ChatGPT的70.5分排名第一，SuperCLUE报告显示，在实际测评中“日日新5o”识别物体准确性方面略优于ChatGPT。

在商汤“日日新”融合大模型训练过程中，由训练采样的数据范围（domain）场景覆盖极为丰富，具备足够的多样性（diversity），通过结合视频及图片文本的交错数据进行融合后训练，确保了模型对于各类场景及物体，都具备强大的理解和识别能力。

在应用场景测试中，“日日新5o”表现出通过海量训练积累的深厚知识储备，这让它脱颖而出，展现出强大的竞争优势。例如，在SuperCLUE官方测评例证中，在医疗场景下“日日新5o”展现出卓越的理解与推理能力，精准把握场景中的关键信息。

在记忆能力维度方面，商汤“日日新5o”同样大幅领先其他国内产品。在测试中，它能够很好地记住用户偏好和需求，以及场景信息。

通过采用先进的不同模态信息的压缩技术，大幅度提升了“日日新5o”的信息记忆效率，让5o在相同的context windows下，展现出比其他模型更强的记忆力。

同时在训练过程中，商汤还精心构建了音视频交错的多轮会话数据，进一步强化模型的记忆能力。最终，结合多模态对话系统中的session管理机制，“日日新5o”能够在长时间、多模态音视频对话场景中，展现强大记忆能力，能准确回溯对话内容，为用户提供连贯、高效的交互体验。

在语音交互能力维度上，商汤拥有在拟人对话场景的丰富研发积累，构造了大量拟人化的对话数据及语音会话数据，使“日日新5o”在语音的对话回复上更加自然。同时结合全双工能力，在对话中也可实时打断，使交互体验更接近人与人之间的交流。

此外，在训练过程中，商汤还融入了多语言能力，因此在SuperCLUE测试中能够完美实现“信雅达”的英文翻译。

在落地应用与维护层面，商汤“日日新5o”构建了一套完备的多模态交互系统。通过融入了商汤自研的高效推理框架lightllm，搭配模型量化及推理Cache等综合解决方案，确保高性能的同时，极大降低推理成本。

目前，商汤已就「日日新5o」与超过50家企业客户展开商务沟通，将模型技术和场景深度结合，实现交互优化，不断提升用户体验。

来源：CQ智播汇

标签：日日新商汤音视频交互

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!