零开销消除图像幻觉!基于零空间投影挖掘正常样本特征 | CVPR 2025
当前大型视觉语言模型(LVLMs)存在物体幻觉问题,即会生成图像中不存在的物体描述。西安交通大学研究团队提出了一种名为Nullu的方法,通过提取「幻觉子空间」(HalluSpace)并进行零空间投影来编辑模型权重,从而有效消除幻觉,且不增加额外推理成本。
投影 图像 幻觉 cvpr halluspace 2025-06-27 20:21 3
当前大型视觉语言模型(LVLMs)存在物体幻觉问题,即会生成图像中不存在的物体描述。西安交通大学研究团队提出了一种名为Nullu的方法,通过提取「幻觉子空间」(HalluSpace)并进行零空间投影来编辑模型权重,从而有效消除幻觉,且不增加额外推理成本。
投影 图像 幻觉 cvpr halluspace 2025-06-27 20:21 3
中科院自动化所提出BridgeVLA模型,通过将3D输入投影为2D图像并利用2D热图进行动作预测,实现了高效且泛化的3D机器人操作学习。实验表明,BridgeVLA在仿真和真实场景中均展现出卓越的性能和数据效率,仅需3条轨迹即可在基础任务中达到96.8%的成功
在全球自动驾驶领域,一项公认的技术挑战是:如何从每日产生的海量、高度冗余的数据中,快速定位并提取出那些对提升系统安全与体验至关重要的特殊驾驶场景。这些关键场景的有效利用,是改进路径规划和决策算法的核心。
2024年,因为大模型以及Sora等的横空出世,全球计算机视觉届三大顶会之一的CVPR涌入了破纪录的1.2万人(可以回顾一下我们去年的现场报道)。而2025年,这种火热继续,虽然关注度没有上一届那么夸张,但我们今年在现场参会的观感,以及与诸多研究者交流的感受是
作为计算机视觉领域最具影响力的国际会议之一,CVPR(IEEE Conference on Computer Vision and Pattern Recognition)每年都汇聚了全球顶尖高校、研究机构与产业界的最新突破与前沿成果。CVPR 2025 将于
CVPR 2025,这一国际计算机视觉与模式识别领域的顶级盛会,即将于6月11日至15日在美国田纳西州的纳什维尔拉开帷幕。作为全球瞩目的学术论坛,CVPR每年都会吸引众多顶尖研究机构和科技企业的积极参与。
近日,由中国电信人工智能研究院(TeleAI)牵头,联合奥卢大学、香港理工大学、阿姆斯特丹大学、东京大学等单位,依托 CCF-A 类会议、计算机视觉领域顶级国际会议 CVPR 2025 组织的“第四届反无人机挑战赛”成功举办。
近日,AI领域再度传来重磅消息。新型社交平台Soul App的技术论文《Teller: Real-Time Streaming Audio-Driven Portrait Animation with Autoregressive Motion Generat
前几天,谷歌在 I/O 2025 大会上正式发布了其最新一代 AI 视频生成模型 Veo 3,在生成高质量视频的同时首次实现了音画同步。对于 Veo 3 的震撼效果,有人高度评价称,「它会是不亚于 OpenAI Sora 的跨时代产品」,标志着 AI 视频进入
近日,国际计算机视觉与模式识别会议CVPR 2025召开。西安交通大学电子与信息学部计算机科学与技术学院、陕西省大数据知识工程实验室曹相湧副教授团队取得多项重要突破。
本文介绍工作由中国人民大学高瓴人工智能学院宋睿华团队、李崇轩、许洪腾与值得买科技 AI 团队共同完成。第一作者王希华是人大高瓴博士生(导师:宋睿华),他的研究兴趣主要在多模态生成,之前提出利用音频布局(audio layout)为视频生成同步声音的TiVA模型
这份统计是基于全球 4 万多名作者 13008 份投稿结果产生的。相比往年,今年的投稿数量增长了 13%,最终有 2878 篇论文被接收,整体接收率为 22.1%。
前几天,谷歌在 I/O 2025 大会上正式发布了其最新一代 AI 视频生成模型 Veo 3,在生成高质量视频的同时首次实现了音画同步。对于 Veo 3 的震撼效果,有人高度评价称,「它会是不亚于 OpenAI Sora 的跨时代产品」,标志着 AI 视频进入
通过引入一个辅助的神经网络,只需一块6年前的2080Ti,就能做大模型数据蒸馏。与前SOTA相比,新方法的显存占用只有1/300,并且速度提升了20倍。
在计算机视觉领域,显著对象检测(SOD)任务已经取得了显著进展,旨在识别和分割图像中最视觉突出的对象。然而,一个更具挑战性的任务是显著对象排名检测(SRD),它不仅要求识别显著对象,还需要根据它们的显著程度进行排名。现有的SRD数据集大多基于鼠标轨迹数据构建,
接受率约0.7% (96/13008≈0.7%),并且是今年该会议96篇口头报告中唯一聚焦遥感图像处理领域的工作。
论文第一作者林宏彬来自香港中文大学(深圳)理工学院的Deep Bit 实验室、深圳市未来智联网络研究院,导师为李镇老师。目前实验室的研究方向包括:自动驾驶、医学成像和分子理解的多模态数据分析和生成等。
在沉浸式 XR 体验中,使用少量追踪点还原全身真实动作,是实现自然交互与高度沉浸感的关键能力之一。在游戏娱乐、虚拟社交和具身智能等领域,高精度的人体运动估计技术正成为支撑高质量交互体验的核心要素。然而,市面主流的HMD设备(如PICO、Quest)往往只提供头
赵骁骐,大连理工大学信息与通信工程学院2021级博士研究生,研究方向为计算机视觉。曾两度荣获博士国家奖学金,并获华为奖学金、沈飞罗阳励志奖学金等20余项荣誉。
岳翔宇博士是香港中文大学多媒体实验室(MMLab),和信息工程系的助理教授。他于加州大学伯克利分校获得电子计算机博士学位,在 Berkeley AI Research 师从美国工程院院士,Cadence 和 Synopsys 的创始人,Berkeley EEC