摘要:第31届中国国际广播电视信息网络展览会期间,在国家广播电视总局科技司指导、中国广播电视网络集团有限公司、国家广播电视总局广播电视科学研究院主办的人工智能论坛,科大讯飞股份有限公司(以下简称“科大讯飞”)与国家广播电视总局广播电视科学研究院(以下简称 “广科院”
第31届中国国际广播电视信息网络展览会期间,在国家广播电视总局科技司指导、中国广播电视网络集团有限公司、国家广播电视总局广播电视科学研究院主办的人工智能论坛,科大讯飞股份有限公司(以下简称“科大讯飞”)与国家广播电视总局广播电视科学研究院(以下简称 “广科院”)共同发布家庭视听大模型。这一创新成果将为家庭视听领域带来颠覆性变革,重塑用户体验。
当前,全球大模型技术进入效率优化与成本平权阶段,多模态大模型在视频生成、跨模态理解等方面取得显著突破,推动着内容生产范式的重塑。在广电行业,“大模型 + 视听” 的实践不断深入,AI 技术贯穿内容生产、分发、审核全链路,驱动行业向 “数据智能” 转型。与此同时,《政府工作报告》对大模型应用的支持,以及用户对个性化视听内容的强烈需求,都为技术创新带来了新机遇。但行业也面临着内容安全风险和技术碎片化等痛点,亟需通过创新技术与标准规范来解决。
国家广播电视总局广播电视科学研究院一直在积极开展生成式人工智能技术应用研究,集成文本、图像、视频、音频等人工智能大模型,研发了广电视听智能体(AI Agent)开发工具,已完成多个国产开源大模型的集成,为广播电视和网络视听行业高质量发展贡献力量。
科大讯飞在人工智能领域一直处于行业领先地位,其讯飞星火大模型具备强大的文本生成、语言理解等核心能力。此次与广科院联合发布的家庭视听大模型,更是融合了双方优势。基于语音遥控器便捷操作的特点,模型对大屏语音交互进行了深度升级,通过大模型 + 智能体的组合,精准响应用户需求,将自然语言与衣食住行文娱购等多元场景服务高效连接。该模型还支持多模态多终端交互入口,致力于打造开放、灵活的统一家庭信息服务中心。
在技术能力方面,家庭视听大模型亮点突出。通过海量语料训练,实现语音交互的感知能力全面升级,能更准确地推理用户意图,为增强搜索、对话闲聊和场景拓展提供有力支撑;打造拟人化虚拟人服务,从多个维度提升共情能力,激发用户对话意愿,增强交互活跃度;借助对话主题分析、内容需求识别和大模型增强检索能力,实现规划能力升级,主动为用户提供个性化大屏内容服务推荐;生态能力进一步拓展,在影视娱乐基础上,融入知识教育、运动健康、生活服务、智能家居服务等,构建 “一人千面” 的 AI 交互体验。
围绕家庭视听大模型下,面向家庭场景,科大讯飞本次重点推出场景服务智能体,围绕一老一小群体,推出居家康养智能体、家庭教育智能体、生活服务智能体等众多智能体,首发面向家庭场景的混域泛意图识别技术精准连接智能体服务,实现入口即服务的个性化调度,涵盖家庭主流场景与长尾场景服务。后续将依智能体生产开放平台, MaaS平台,对接众多互联网服务商和信源伙伴。通过每个合作伙伴自己的能力编排,以及MCP 协议,通过多轮上下文大模型对话以及科大讯飞原子能力的扩充与开放,希望通过这样开放的平台和接口联合更多行业开发者的共同打造家庭大屏的智能体生态。
在安全保障上,模型采用 “机审 + 人审” 多层级审核机制,配备专职风险运营团队,实施全方位风险监控和分级处理闭环流程。对用户输入和模型输出严格审核,支持对涉政、色情等多类风险内容的分类分级审核。通过专业领域知识微调与检索增强生成(RAG)技术,有效缓解模型幻觉问题,确保内容安全可控,提升模型可信度与用户体验。
此次家庭视听大模型的发布,意义深远。它加速了智能语音技术在大屏终端的规模化部署,提升了老年及儿童用户的无障碍使用体验,完善了大屏内容安全管理规范。在创新应用方面,推动了 AI 剧本创作、智能剪辑等工具在家庭影视制作中的应用,探索了 AI 与 VR/AR 融合的沉浸式交互体验。在产业协同上,明确了 API 接口等标准,支持第三方开发者接入,形成协同生态,并有助于国产大模型技术与国际接轨,抢占全球标准制定先机。
来源:流媒体网