CVPR 2025 | TeleAI 牵头举办“反无人机挑战赛”,多项研究成果入选

360影视 欧美动漫 2025-06-05 13:51 6

摘要:近日,由中国电信人工智能研究院(TeleAI)牵头,联合奥卢大学、香港理工大学、阿姆斯特丹大学、东京大学等单位,依托 CCF-A 类会议、计算机视觉领域顶级国际会议 CVPR 2025 组织的“第四届反无人机挑战赛”成功举办。

近日,由中国电信人工智能研究院(TeleAI)牵头,联合奥卢大学、香港理工大学、阿姆斯特丹大学、东京大学等单位,依托 CCF-A 类会议、计算机视觉领域顶级国际会议 CVPR 2025 组织的“第四届反无人机挑战赛”成功举办。

这项赛事基于“反无人机”和“低空经济”等重大需求,结合实际应用提炼关键科学问题,旨在促进复杂环境中低慢小目标检测跟踪的理论研究与应用创新。中国电信集团 CTO、首席科学家、中国电信人工智能研究院(TeleAI)院长李学龙教授任赛事顾问委员会主席。

本届 CVPR 将于 6 月 11 日至 15 日正式举行。根据此前公布的结果,今年共有 13008 篇有效论文提交,再创往年新高,而录取率仅为 22.1%,较前几年有所下降。在李学龙教授的指导下,TeleAI 的 6 篇论文入选,覆盖视觉理解、目标检索、图像生成、姿态估计、Mamba 等多个热门领域,其中三篇分别入选 Highlight、Oral、Poster。

建全无人机反制技术体系

随着无人机应用场景的多元化,在带来诸多便利的同时,也存在着严峻的隐私与安全隐患,为临地空间核心区域的安防管理引发诸多挑战。因此,建立完善的无人机反制技术体系就成为推进现代边海空防建设、维护国家安全的重要课题之一。

由于运动速度快、隐蔽性强、环境复杂度高,传统的检测和跟踪算法难以满足实际需求对无人机的精准定位。同时,在多目标场景中,无人机集群的复杂运动轨迹更容易导致跟踪失效。

本届“反无人机挑战赛”在延续往届高质量基准数据集的基础上,首次增设“多目标跟踪”任务,模拟真实场景中多达 30 个目标的密集干扰,鼓励参赛者开发轻量化、高鲁棒的解决方案,为构建智能、安全的低空管理体系提供持续动力。

作为挑战赛的牵头单位,TeleAI 深耕智能光电技术研究,为推动反无人机的创新和应用提供理论基础。TeleAI 通过智能光电与 AI 治理、智传网(AI Flow)、智能体,形成“一治+三智”的完整科研布局,致力于打通“AI 驱动的三大空间经济”,全面覆盖赛博空间、临地空间和广域空间。

在本次 CVPR 期间,TeleAI 团队提出了一项针对无人机反制的新任务,即“无人机追踪与意图理解(UTIU)”,旨在实现对无人机的精确追踪,同时推断并描述其运动状态与行为意图。

这项任务的创新点在于突破了传统反无人机技术仅关注位置跟踪的局限性,通过结合行为分析和意图推断,提供更全面的监控方案,从而能够适用于复杂场景,提升系统的决策能力。

JTD-UAV 模型框架

针对该任务,TeleAI 还提出了首个“基于大语言模型的联合追踪与意图描述框架(JTD-UAV)”。此框架采用双分支架构,将无人机追踪与视觉问答(VQA)相结合,在实现无人机精准定位的同时,生成对其行为与意图的自然语言描述。

为推进该任务的研究,TeleAI 构建了目前规模最大的无人机追踪与意图理解数据集 TDUAV,涵盖 1328 段高难度视频序列、超过 16.3 万标注的热成像帧以及 3000 组 VQA 样本。实验结果表明,JTD-UAV 框架在该任务中展现了卓越的性能与显著优势。

加速推进具身智能创新应用

智能光电的另一个重要方向是具身智能的创新和应用,同样也成为 CVPR2025 的热门赛道之一。随着计算机视觉、大语言模型等技术的不断突破,机器人对外部世界的感知和交互迎来了新一轮的发展,但在真实场景的复杂操作中仍然面临着诸多挑战。

与传统的自动化设备相比,人形机器人在一些特定场景下具备更强的适应性和灵活性,例如在生产制造中进行零件装配,在物流场景拣选和搬运货物,在家具环境中完成打造和清洁等等。这其中核心的技术能力之一是对物品的精准识别、理解和抓取。

然而,过往基于图像的抓取方法在精确操作和样本效率上存在局限性。由于其对几何关系的捕捉能力有限,难以实现高精度的操作任务,在需要精确定位和控制的场景中表现不佳。当面对语义相似但几何差异显著的物体时,这种方法难以进行区分和处理。

针对 3D 机器人的抓取任务,TeleAI 团队提出了基于 3D 语言流的“G3Flow 框架”,通过整合 3D 生成模型、视觉基础模型和稳健的姿态跟踪,实现以对象为中心的动态 3D 语义表示,无需手动注释且在遮挡下也能保持完整语义理解。

G3Flow 模型框架

TeleAI 还针对机器人在环境中的位姿估计和运动轨迹判断提出了一种新的算法“MambaVO”,从而解决在复杂场景下的误差问题,提升精度和鲁棒性。在 TartanAir、EuRoC、TUM-RGBD 数据集的测试中,MambaVO 在平均绝对轨迹误差(ATE)上比现有方法平均降低了19%-22%。

MambaVO 模型框架

这项成果为高精度视觉里程计的发展提供了新思路,在保持实时性的前提下显著提升了精度。未来,TeleAI 将使用更稠密的视觉信息提升建图的质量,并结合 3D 高斯等技术进一步提升定位和建图的准确性,为机器人的发展和应用提供基础保障。

多项技术突破瞄定应用落地

作为计算机视觉领域最具影响力的学术会议之一,CVPR 的研究方向覆盖针对图像的识别、理解、检测、分析、增强和生成等多个细分领域。同时,伴随多模态理解模型越来越广泛的应用前景,视觉技术的潜力正进一步被挖掘。

在本次 CVPR NTIRE 的“真实场景图像复原挑战赛(RAIM Challenge)”中,TeleAI 团队从近 30 支来自国内外的参赛队伍中脱颖而出,获得图像细节增强和生成赛道的主观打分第一,综合分数第二的成绩。该赛道围绕真实场景下的高效图像画质增强问题展开,覆盖模型从设计调优、定量测试到最终主观评估的完整流程。

图像复原增强技术在低质量图像向高质量图像的转换过程中起着关键作用,然而实际应用中图像往往受到多种复杂未知退化因素影响。以往方法在处理这些真实世界的退化时,常常面临效果不佳、模型庞大和推理速度慢的问题。

为此,TeleAI 团队进行了两个阶段的模型设计优化。团队首先采用性能优先策略,先以 HAT-GAN 模型作为教师模型,利用其强大的特征表示能力完成高质量图像复原,然后通过知识蒸馏技术,以较轻量的 HAT-S 模型作为学生模型完成高效复原。随后,团队采用效率优先策略,以更轻量的 Real-SPAN 作为模型架构,结合高质量合成数据,实现了模型在保持复原性能的同时,大幅提升了运行效率与部署友好性。

从左至右依次为低质量图像(LQ)、Real-ESRGAN 的修复结果以及 TeleAI 团队模型的修复结果。可以看出,Real-ESRGAN 在某些情况下会产生伪影,且在一些细节处理上略显过于平滑;相比之下,TeleAI 团队的模型能够还原更多真实细节,整体效果更加自然可信。

这项技术在包括 AI 眼镜在内的智能可穿戴设备中能够发挥巨大价值。它能够应对由于摄像头受限于传感器尺寸和功耗而拍摄的图像噪声水平过高、细节模糊不清等实际问题。基于高效轻量、泛化能力强等特性,团队所提方法效能更强,且易于部署。

除了图像增强,TeleAI 团队联合武汉大学在图像检索方面也提出了新方法,即 CCIN(Compositional Conflict Identification and Neutralization)框架,以更为可控的方式识别和消解组合图像检索任务中的冲突问题。

相较于传统基于单一模态的检索范式,组合图像检索任务通过结合参考图像与文本修改指令构建组合查询,能够显著提升复杂场景下的搜索适应性。然而,在多模态融合过程中,容易出现图像和文本表达存在冲突的情况,造成用户意图的曲解。

CCIN 模型框架

CCIN 框架能准确识别并可控中和合成图像检索任务中的组合冲突,从而提高图像检索的准确性和有效性,使其更符合用户意图。这项技术在家装设计、电商购物等领域有着广泛的应用前景。

此外,TeleAI 团队还提出 Adv-CPG 定制肖像生成框架,首次实现在定制肖像生成的同时完成面部隐私保护。该框架包含 ID 加密器、加密增强器和多模态图像定制器三个关键模块,能渐进式保护隐私并生成高保真、细粒度的肖像。

Adv-CPG 模型框架

在动作生成方面,TeleAI 联合北京邮电大学共同提出一种人体姿态生成方法“StickMotion”,通过引入“火柴人Stickman”条件来精确控制人体运动细节,为数字内容创作、虚拟交互等行业带来新的发展机遇。

第四届反无人机挑战赛:

相关论文:

JTD-UAV: MLLM-Enhanced Joint Tracking and Description Framework for Anti-UAV Systems

G3Flow: Generative 3D Semantic Flow for Pose-aware and Generalizable Object Manipulation

MambaVO: Deep Visual Odometry Based on Sequential Matching Refinement and Training Smoothing

CCIN: Compositional Conflict Identification and Neutralization for Composed Image Retrieval

Adv-CPG: A Customized Portrait Generation Framework with Facial Adversarial Attacks

StickMotion: Generating 3D Human Motions by Drawing a Stickman

来源:TeleAI

相关推荐