摘要:NVIDIA AI Blueprint 使开发者和企业可创建能够理解、搜索和总结视频的视频分析 AI 代理。了解 NVIDIA Metropolis 如何为视频分析 AI 代理提供支持,以提高各个行业的生产力,共同探索视觉感知的 AI Agent、最新的视觉
NVIDIA AI Blueprint 使开发者和企业可创建能够理解、搜索和总结视频的视频分析 AI 代理。了解 NVIDIA Metropolis 如何为视频分析 AI 代理提供支持,以提高各个行业的生产力,共同探索视觉感知的 AI Agent、最新的视觉 AI 技术和部署经验分享等。
NVIDIA 视觉语言模型
会议时间:3 月 20 日早上 7:00 - 7:40(北京时间)
演讲嘉宾:
Andrew Tao| NVIDIA
会议内容:
视觉语言模型(VLM)正开始在机器人、自动驾驶汽车等领域发挥重要作用。本会议将讨论 NVIDIA 开发的 VLM。
适用于实时视频理解和摘要的 AI 智能体
会议代码:S72784
会议时间:3 月 20 日凌晨 2:00 - 2:40(北京时间)
演讲嘉宾:
Adam Ryason | NVIDIA Visual Insight Agent(VIA)微服务产品经理
会议内容:
适用于视频搜索和摘要的 NVIDIA AI Blueprint 能够创建交互式分析智能体。这些智能体可以对海量视频进行推理、评估物理流程并提供简化运营的决策洞察。该蓝图将强大的视觉语言模型(VLM)、大语言模型(LLM)和 NeMo Retriever 组合成一整套用于构建、微调和部署各种视觉理解智能体的软件。这些交互式 AI 智能体运用实时多摄像头流式传输技术以及对工厂、仓库、机场和城市的长上下文理解,帮助运营团队通过更丰富的洞察和更自然的交互,更快做出更好的决策。与会者将进一步了解用于视频搜索和摘要的 NVIDIA AI Blueprint 以及如何在本地或云端进行定制和部署。
在数字孪生上构建适用于物理 AI 的新一代视觉AI 应用
会议代码:S72902
会议时间:3 月 21 日凌晨 12:00 - 12:40 (北京时间)
演讲嘉宾:
Louise Huang | NVIDIA 产品经理
Carlos Garcia-Sierra | NVIDIA Metropolis AI 工作流产品经理
Daniel Yu | MetAI Technology 联合创始人兼首席执行官
会议内容:
物理 AI 能够使用摄像头和先进的计算机视觉模型促进基于空间洞察的追踪和动态响应,以此提高工厂和仓库等大型空间环境的效率和安全性。但在为此类环境开发视觉 AI 应用的过程中往往会遇到各种挑战,包括可用的数据有限、数据来源不可用、基础设施受到限制等,因此很难准确感知和解释复杂的大规模环境。本场会议将探讨 NVIDIA Metropolis、Omniverse 和合成数据生成如何应对这些挑战。本会议将通过一个仓库用例了解如何创建物理环境的高保真数字副本、模拟假设场景和生成用于微调视觉语言模型(VLM)的合成数据,进而构建准确、可靠的定制应用。最后,与会者还将了解如何使用 Metropolis NIM 和 AI Blueprint 部署解决方案,实现适用于物理 AI 并且可用于现实世界的可扩展视觉 AI 应用。无论是视觉 AI 应用领域的新手还是经验丰富的从业者,这场讲座都将提供全面的指导,帮助简化从模拟、训练到运行的整个应用部署过程。
加速 AI 管线:提高视觉搜索效率
会议代码:S71676
会议时间:3 月 18 日上午 7:00 - 7:40(北京时间)
演讲嘉宾:
William Raveane | NVIDIA AI 开发者技术高级工程师
Andrew Stewart | 微软高级数据和应用科学家
会议内容:
本会议将探讨如何使用 NVIDIA 的TensorRT 和 CV-CUDA 库优化微软必应视觉搜索,将大规模图像处理流程的性能提升 5 倍。会上将讨论当需要处理数十亿张图像时,如何使用关键的 AI 模型优化技术提高效率、减少延迟和降低总体拥有成本(TCO)。除此之外,还将深入研究 CV-CUDA、nvImageCodec、TensorRT和 ONNXRuntime 如何共同实现这一优化,讨论批量图像解码和预处理、高效 I/O 绑定、推理处理简化等主题。
使用 NVIDIA AI 堆栈实现先进人群管理(由 LTTS 呈现)
会议代码:S74392
演讲嘉宾:
Akshaya Babu |L&T Technology Services 技术负责人
JVS Ramakrishna | L&T Technology Services 可持续发展和智能化服务全球负责人
会议内容:
在没有实时洞察的情况下管理大型活动十分困难,而且往往会导致潜在的安全风险。本会议将探讨如何使用 NVIDIA 技术将基于视频的人群分析与集中式仪表板整合成可操作的人群密度报告,以此有效管理大型活动,同时依靠迅速、明智的响应维护拥挤空间的安全和秩序。
适用于物理运营的代理式 AI
会议代码:S72758
会议时间:3 月 21 日凌晨 5:00 - 5:40(北京时间)
演讲嘉宾:
Roopa Prabhu | NVIDIA 工程总监
会议内容:
仓库是一个包含自主机器人、潜在危险和工人的复杂物流环境。想象一下,如果有一个专为与仓库进行交互而设计的 AI 智能体会怎样?本场会议将展示如何发挥空间 AI 智能体的力量。这些使用自然语言的智能体能够为运营团队提供对运营环境的深入了解和基于推理的流程优化。会上将深入探讨如何在 NVIDIA NIM、NVIDIA Llama Nemotron LLM 和 NVIDIA Cosmos Nemotron VLM 的助力下构建帮助人类操作员管理复杂运营空间的 AI 智能体。这些智能体可以快速分析和理解 3D 空间中的物体、空间、几何形状和空间关系,然后通过生成可操作的实时智能管理货物流、优化空间利用、提高流程效率和保障工人的安全。
将 AI 引入雷达:深入探讨用于感知的神经网络
会议代码:S71595
会议时间:3 月 20 日晚上 8:00 - 8:40(北京时间)
演讲嘉宾:
Dane Mitrev | Provizio 高级机器学习工程师
会议内容:
雷达数据本身内容丰富,可提供有关环境的详细信息,但传统算法难以充分挖掘其潜力。参与本会将了解 AI 如何提供合适的雷达感知解决方案,充分利用雷达特有的速度数据提高感知精度。会上还将讨论如何利用行驶数据的时间特性,借助 SLAM 和贝叶斯算法通过即时生成 ground truth 数据实现纯雷达自由空间估计。
设计基于 VLM 的大规模视频分析 AI 智能体
会议代码:S71611
会议时间:3 月 22 日凌晨 12:00 - 12:40(北京时间)
演讲嘉宾:
Oran Shayer | AppsFlyer AI 研究负责人
会议内容:
本场会议将深入探讨为大规模视频处理流程构建基于视觉语言模型(VLM)的 AI 智能体所需的创新架构,还将探索如何在兼顾计算效率的情况下,最大程度地发挥 VLM 的优势及其全面的视觉理解能力。
使用生成式 AI 实现人类远程呈现
会议代码:S72755
会议时间:3 月 22 日凌晨 1:00 - 1:40(北京时间)
演讲嘉宾:
Shalini De Mello | NVIDIA 新体验研究部门研究总监兼杰出研究科学家
会议内容:
本会议将介绍在实现高度逼真的数字人类合成方面所面临的主要研究难题。与业界普遍采用的昂贵的多视角人体数据捕捉方法不同,本会议将展示 NVIDIA 的创新技术如何成功运用生成式 AI、大型互联网数据和先进的神经 3D 场景表示法的力量,为高度逼真的 3D 数字人类合成创建基于 AI 的基础模型。会上还将介绍这些数字人类基础技术所带来的众多下游应用,包括以 AI 为媒介的远程呈现、电影和游戏内容创作以及数字智能体等。我们将深入探讨以 AI 为媒介的远程呈现,并着重介绍在为此类远程呈现解决方案构建实时云端流式传输系统时所遇到的诸多实际问题。最后,会议还将重点讨论为进一步研究数字人类理解和创造开辟途径的开放前沿领域。
使用视频分析 AI 智能体提高装配线流程的运行效率(由 TCS 呈现)
会议代码:S74614
演讲嘉宾:
Apurba Das | Tata Consultancy Services 计算机视觉和生成式 AI 技术主管
Rawnak Kumar | TCS 认知 AI 技术负责人
会议内容:
TCS 将充分利用 NVIDIA 的视频分析 AI 智能体检查定制图形用户界面的实现情况,这种界面用于提高标准操作程序的遵守率和装配线效率。该智能体能够提供更加准确、更有意义的解释,从而提高视频分析应用和分析的功能。与会者将了解这一先进的活动识别视觉智能体如何在装配线上对笔记本电脑的组装和拆卸进行细致的监控。TCS 将讨论用于这一复杂内容生成的技术骨干以及如何使用 AI 模型提供准确、深入的分析。会上还将了解如何通过精准的活动追踪和准确的部件放置提高运营效率和实现严格的质量控制,以及如何解锁可能的新应用。
使用视频分析 AI 智能体提升零售店安保和客户洞察
会议时间:3 月 19 日晚上 11:00 - 11:40(北京时间)
演讲嘉宾:
Vijay Mehta | Infosys 行业负责人
Gaurav Saxena | Infosys 首席顾问
会议内容:
本会议将介绍如何使用 Infosys 视频分析平台部署 AI 智能体,通过大幅提升零售店的安保级别和深入了解客户行为提高客户的忠诚度、满意度与安全性。这套联合解决方案使用商店发送的安全数据对客户和员工的行为进行持续分析,实时检测异常行为、潜在的破坏行为和安全隐患。会上将展示该解决方案如何使用适用于视频搜索和摘要的 NVIDIA AI Blueprint,创建关于顾客流量模式的深入洞察、与产品展示进行交互和在关键商店区域进行演练。通过查询界面,员工可以在遵守隐私法规的前提下,检索有关过去事件的详细报告并追踪一段时间内的购物趋势。这种对 AI 智能体的综合应用将提高购物环境的安全性和智能化水平,防止盗窃造成的损失,并使零售商能够基于可操作的洞察优化商店布局和营销策略。
使用计算机视觉实现高保真场景检测和可操作的洞察
会议时间:3 月 19 日晚上 11:00 - 11:40(北京时间)
演讲嘉宾:
Jay Prasad | Relo Metrics 首席执行官
Matthew Goodman | GoodGame Advisory 创始人兼负责人
会议内容:
Relo Metrics 将在本场会议上介绍其计算机视觉模型如何使用 NVIDIA NV-CLIP NIMS(一套适用于图像和文本的多模态嵌入模型)。这套模型可以对各版权持有人和体育项目进行品牌植入分析,而 Relo Metrics 进一步通过徽标检测评估品牌和影响力,为品牌、代理商和版权持有人提供重要的投资回报指标。Relo Metrics 还将演示公司的下一代代理式 AI 用例,探讨视频摘要、AI 智能体和机器学习智能等主题。
如何注册 GTC 2025 线上大会
点击链接查看 GTC 2025 注册教程,提前完成线上注册,便于后续预约和观看更多 GTC 精彩会议。
如何登录和预约计算机视觉和视频分析精选会议
来源:NVIDIA英伟达中国