摘要:视频是现代数字行业的标志性特征之一,占全球数据流量的 50% 以上。它不仅在媒体行业占据主导地位,对各行业的企业也日趋重要,是全球规模最大、最普遍的数据源之一。然而,其中只有不到 1% 的视频数据会被用于深入分析。
视频分析 AI 智能体的时代已经到来。
视频是现代数字行业的标志性特征之一,占全球数据流量的 50% 以上。它不仅在媒体行业占据主导地位,对各行业的企业也日趋重要,是全球规模最大、最普遍的数据源之一。然而,其中只有不到 1% 的视频数据会被用于深入分析。
全球近一半的 GDP 产生自实体行业,包括能源、汽车和电子产品。由于劳动力短缺、制造业回流以及自动化需求的增长,视频分析 AI 智能体将发挥更重要的作用,在物理世界和数字世界之间搭建桥梁。
为了加速这些智能体的开发,NVIDIA 打造了用于视频搜索与总结 (VSS) 的 AI Blueprint,该蓝图由 NVIDIA Metropolis 平台驱动,现已全面推出,可为开发者提供构建和部署高性能 AI 智能体的工具,用于分析大量实时和存档视频。
由视觉语言模型 (VLM) 驱动的一系列视觉 AI 智能体和生产力助手即将上线。结合强大的计算机视觉模型与超智能大语言模型 (LLM),这些视频分析 AI 智能体可助力企业轻松查看、搜索并总结海量视频。通过实时分析视频或处理 TB (terabytes) 级录制视频,视频分析 AI 智能体正在众多行业释放前所未有的价值和机遇。
制造业和仓储企业正在通过 AI 智能体提高人员安全性和生产效率。例如,智能体可以帮助分配叉车资源和调配人员岗位,实现效率最大化。在智慧城市领域,视频分析 AI 智能体被用于缓解交通拥堵并提升安全性,其应用场景还在持续扩展。
用于创建多样化视频分析
AI 智能体群的 Blueprint
VSS 蓝图基于 NVIDIA Metropolis 平台构建,由 NVIDIA VILA 和 NVIDIA Llama Nemotron 等 VLM 和 LLM、NVIDIA NeMo Retriever 微服务以及检索增强生成 (RAG) 驱动,RAG 可将 LLM 与公司的企业数据结合起来。
VSS 蓝图集成了 NVIDIA AI Enterprise 软件平台,包括用于 VLM、LLM 的 NVIDIA NIM 微服务,以及用于 RAG 的先进 AI 框架。通过 VSS 蓝图,用户总结视频的速度比实时观看快 100 倍。例如,60 分钟的视频可在不到 1 分钟的时间内用文字总结出来。
VSS 蓝图具有一系列强大的功能,旨在提供强大的视频理解能力、性能和可扩展能力。
它可以同时处理数百个实时视频流或多组视频片段。除了视觉理解,它还支持音频转录。在音频至关重要的场景中,将语音转换为文本可增强理解,例如训练视频、主题演讲或团队会议等。
行业领导者部署视频分析 AI 智能体,
推动实现商业价值
从全球领先制造商到智慧城市和体育赛事联盟,所有组织都在使用 VSS 蓝图开发 AI 智能体以优化运营。
领先的电子制造公司 Pegatron 使用 VSS 蓝图来研究运营程序并对员工进行最佳实践培训。公司还将该蓝图集成到 PEGAAi 平台中,以便组织构建 AI 智能体,从而优化制造流程。
这些智能体可以提取并分析大量视频,实现自动监控、异常检测、视频搜索和事件报告等高级功能。Pegatron 的 Visual Analytics Agent 可用于理解印刷电路板组装的操作程序,并识别正确或错误的操作。迄今为止,这些智能体将 Pegatron 的人力成本降低了 7%,并将不良率降低了 67%。
其他领先的半导体和电子制造商正在构建 AI 智能体和数字孪生,从而优化其规划和运营应用。
高雄市正在使用由其合作伙伴 Linker Vision 开发的统一智慧城市视觉 AI 应用,以缩短事件响应时间。此前,废物管理、交通运输和应急响应等城市部门因孤岛式基础设施相互隔离,关键信息无法互通导致响应速度延迟。
Linker Vision 的 AI 应用由 VSS 蓝图驱动,其智能体能够结合实时视频分析与生成式 AI 技术,不仅可以检测视觉元素,还能够解析并生成对洪水、交通事故等复杂城市事件的态势描述。
目前,Linker Vision 为 12 个城市部门提供及时洞察,并计划在 2026 年前将城市摄像头从 3 万台增加至超 5 万台。这些洞察正在提升城市服务的态势感知能力和数据驱动决策水平,并将事件响应时间缩短高达 80%。
北美职业冰球联盟 (NHL) 将 VAST InsightEngine 与 VSS 蓝图相结合,可简化并加速视觉 AI 工作流,管理大量比赛视频。
通过 VAST InsightEngine,NHL 能够实现在亚秒级时间内对 PB (petabytes) 级视频的检索,支持对比赛精彩瞬间和高光时刻的近实时提取。AI 驱动的代理式工作流通过自动剪辑、标记和组合视频内容,进一步提高了内容创作效率,确保素材的便捷访问与高效利用。
NHL 未来或将启用实时 AI 逻辑推理功能,在比赛时动态生成定制化洞察,例如选手运动数据、比赛战术分析或预想建议。这种全流程自动化体系或将彻底改变赛事内容的生成、编排以及分发方式,为 AI 体育内容制作树立新标杆。
西门子正在使用其 Industrial copilot for Operations 帮助工厂车间人员执行设备维护任务、故障处理和能效调优。这一生成式 AI 助手可根据运营和技术文档数据,对设备错误进行实时解析。
该 copilot 融合了 VSS 组件,如 VLM、LLM 和 NVIDIA NeMo 微服务。Industrial Copilot 实现了快速决策,减少了宕机时间。西门子报告中显示其生产率提高了 30%,并有望达到 50%。
由不断扩展的合作伙伴生态系统
提供支持,创建复杂的 AI 智能体
NVIDIA 的合作伙伴正在使用 VSS 蓝图为其工作流加速构建代理式 AI 视频分析功能,将开发时间从数月缩短到数周。
智能视频分析领域的领导者 Superb AI 在仁川机场部署了一个智能化机场运营方案,以实现在几周内缩短乘客等候时间。在马来西亚,解决方案提供商 ITMAX 正在借助 VSS 蓝图为吉隆坡构建先进的视觉 AI 智能体,以改善城市整体管理水平并缩短事件响应时间。
在广告领域,PYLER 仅在几周内就将 VSS 蓝图集成到其品牌安全 (AiD) 和广告定向投放 (AiM) 解决方案中。三星电子通过 AiD 和 AiM 解决方案,实现了与品牌调性和产品定位精准匹配的高价值广告投放,显著提升了广告效益。比亚迪通过定向投放情境关联且内容积极的广告,将广告点击率提高了 4 倍,而韩亚金融集团 (Hana Financial Group) 则超额达成了多个品牌活动目标。
Fingermark 是 Eyecue 的应用提供商,后者是快餐店使用的实时计算机视觉平台。Fingermark 正在将 VSS 蓝图添加到 Eyecue 中,通过规模化视频片段分析生成清晰且可操作的洞察,从而洞悉得来速 (Drive-Thru) 等待时间、服务瓶颈或员工相关事件。
访问 NVIDIA 官网了解 VSS 蓝图:
阅读技术博客,了解更多详细信息:
观看 NVIDIA 创始人兼首席执行官黄仁勋的 COMPUTEX 主题演讲,了解更多 NVIDIA GTC 台北会议详情。
来源:NVIDIA英伟达中国