商汤发布多模态推理大模型，AI交互进入“全感官”时代

摘要：近日，商汤科技在技术交流日上发布了全新多模态大模型**“日日新SenseNova V6”**，突破性地将AI推理能力拓展至多模态长思维链领域，支持10分钟视频深度分析，成为国内首个原生融合多模态大模型。这一技术革新不仅打破“数据墙”瓶颈，更让AI从工具升级为“

近日，商汤科技在技术交流日上发布了全新多模态大模型**“日日新SenseNova V6”**，突破性地将AI推理能力拓展至多模态长思维链领域，支持10分钟视频深度分析，成为国内首个原生融合多模态大模型。这一技术革新不仅打破“数据墙”瓶颈，更让AI从工具升级为“全感官助手”，开启交互新范式。

一、技术突破：跨越模态边界，重构AI“智力”
1. 64K长思维链，6万字深度推理
通过多模态主引擎串联语音、图像、视频数据，日日新V6可生成长达64K（约6万字）的思维链，相当于让AI在回答问题前完成一本短篇小说的思考量。其独有的跨模态桥接技术，解决了视频数据量暴增400倍的输入难题，实现10分钟长视频的实时解析与逻辑推演。

2. 原生多模态预训练，突破数据墙
面对互联网文本数据即将枯竭的挑战，商汤选择“另辟蹊径”：将人类90%的知识载体——图像、声音、视频纳入训练体系。通过独创的多维信息压缩算法，让大模型消化海量非结构化数据，在视频理解、情感识别等维度超越传统文本模型的认知边界。

3. 实时交互升级，响应速度倍增
相比5.5版本，V6在多模态推理能力上提升104%，纯文本处理提速55%。现场演示中，一段《黑神话：悟空》战斗片段仅需10秒即可生成专业解说，同步完成高光剪辑与战术分析。

二、场景革命：从城市大脑到家庭教师
1. 教育领域：AI纠错辅导
颠覆传统拍照搜题模式，V6可精准定位孩子解题错误环节，模拟真人教师进行分步讲解。其“看图编故事”功能更能将无字绘本转化为生动叙事，睡前故事从此告别家长“自由发挥”。

2. 文旅创新：手机即导游
在上海西岸等文旅场景，用户无需扫码，用手机镜头对准展品即可触发AI解说。输入游玩时间与兴趣标签，大模型自动生成个性化路线，并实时将随手拍素材剪辑成旅行Vlog。

3. 游戏生态：智能内容创作
游戏主播可使用V6自动生成战斗解说词与高光集锦，10秒产出专业级视频素材。未来该能力或将改变UGC内容生产模式，让每位玩家都能轻松制作赛事级复盘视频。

三、战略转型：从“日日新”到“日日用”
商汤宣布将推动V6大模型全面开源，通过“大装置-大模型-应用”三位一体战略，降低多模态技术应用门槛。其CEO徐立强调：“当大模型足够通用，技术就会变成日用品。”目前V6已在教育辅导、家庭陪伴、商业决策等场景落地测试，预计2024年内开放企业级API接口，让“全感官AI”真正融入大众生活。

来源：宁教授网络空间元宇宙

标签：模型模态推理商汤模态推理

本文地址：https://news.43u.com.cn/a/1199968.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!