摘要:论文概述作者提出了一种针对信号分类任务的自监督学习方法——SGSSC。该方法利用具有调制语义的频域信息作为模型的先验知识,设计了一种尚未被探索过的全新预训练任务。该任务通过预测掩码时域信号的频谱信息,使模型能够通过跨域模式转换学习隐式信号特征。此外,SGSSC
近日
国际人工智能领域顶级会议
International Joint Conference on Artificial Intelligence (IJCAI) 2025
公布了论文接收结果
来自西安电子科技大学
IPIU智能感知与图像理解实验室的
5篇论文被IJCAI 2025录用
和小西小电一起来看~
Predicting Spectral Information for
Self-Supervised Signal Classification
徐熠,王爽(通讯作者),邢汉桐,王晨旭,权豆,杨瑞,赵栋,梅路洋
论文概述作者提出了一种针对信号分类任务的自监督学习方法——SGSSC。该方法利用具有调制语义的频域信息作为模型的先验知识,设计了一种尚未被探索过的全新预训练任务。该任务通过预测掩码时域信号的频谱信息,使模型能够通过跨域模式转换学习隐式信号特征。此外,SGSSC考虑到其预训练任务与下游分类任务具有强相关性,而在下游任务上使用传统的微调策略会导致与预训练任务相关的特征出现丢失。因此,作者还提出了一种基于注意力机制的微调策略,能够自适应地整合不同层次的预训练特征。大量实验结果表明,SGSSC在时序数据领域和信号领域都超越了当前最优越的自监督方法。
朱晓倩,张向荣(通讯作者),张天扬,方超伟,唐旭,焦李成
论文概述半监督语义分割在减轻劳动密集型数据标注负担方面展现出显著潜力。然而,现有方法主要依赖于像素级信息,忽略了遥感图像固有的强区域一致性,这限制了它们在处理遥感图像中复杂多变的背景的有效性。为了解决这个问题,提出了一种新颖的方法RegionMatch,它从全新的对象级角度来利用无标记数据,更适合语义分割的本质。具体来说,设计了像素-区域协同伪标记策略,该策略将对象级上下文信息显式地注入半监督语义分割的管道中,并通过促进像素和区域视角之间的知识合作,为模型训练提供高质量的伪标签。此外,为了进一步激发无标记数据的利用潜力,提出了区域结构感知相关性一致性策略。它通过建立跨图像的区域间相关性和区域内的像素相关性来建模对象级关系,为无标记数据提供更有效的监督信号。实验结果表明,RegionMatch 在多个权威遥感数据集上的表现优于最先进的方法,凸显了其在遥感图像上的优势。
梁哲淳,黄韬(通讯作者),毋芳芳,薛侍文,汪振宇,董伟生,李欣,石光明
论文概述遥感图像组合检索(RSCIR)是一项新的视觉-语言任务,它接受一张图像和一段文本的组合查询,旨在从复杂的遥感影像中寻找满足两个条件的目标遥感图像。然而,现有的基于属性的基准测试Patterncom在遥感图像组合检索任务中存在显著缺陷,包括缺乏查询文本句子和配对三元组,这使得它无法评估最新方法。为了解决这一问题,提出了零样本查询文本生成器(ZS-QTG),该生成器可以根据属性生成完整的查询文本句子,利用ZS-QTG,开发了PatternCIR数据集。PatternCIR补充了Patterncom的不足,并能够评估最新的遥感图像组合检索方法。此外,探索了零样本组合图像检索方法,这些方法不依赖于大量预收集的三元组进行训练。现有的方法仅在检索过程中使用文本,在遥感图像组合检索上表现不佳。为了改进这一点,提出了组合图像检索的文本-图像顺序训练(TisCIR)。TisCIR进行了多个自掩模投影和细粒度图像注意力模块的顺序训练,这赋予了它过滤图像与文本之间冲突信息的能力,通过和谐地利用两种模态来增强检索效果。TisCIR在PatternCIR上比现有方法提高了22.95%到62.03%,在RSCIR上达到了最先进的性能。
Language-Guided Hybrid Representation Learning for Visual Grounding on Remote Sensing Images
刘彪,刘旭(通讯作者),李玲玲,焦李成,刘芳,孙欣雨,黄佑霖
论文概述视觉定位是指基于语言表达检测图像中的特定目标,在视觉图像的高级解译中具有深远意义。在遥感图像解译中,视觉定位受到场景复杂、目标尺寸多样等特点的限制。基于此,本文提出一种新的遥感视觉定位框架,即语言引导的混合表征学习Transformer。具体地,设计了一种多模态双编码器Transformer结构,称为自适应多模态特征融合模块。该结构创新地将文本和视觉特征融合为混合查询,使早期解码查询能够在丰富先验知识的指引下准确感知目标位置。然后,通过混合查询聚合来自双编码器的不同模态信息,获得最终的对象嵌入用于坐标回归。此外,设计了一种多尺度跨模态特征增强模块来增强所提取的文本和视觉特征的自表征能力,并在语义空间上实现对齐。对于混合查询的构建,提出了一种视觉特征过滤方法,通过语言指导来选择合适的视觉特征作为视觉部分,并选取句子级文本特征作为文本部分。最后,设计的模型与现有模型在DIOR-RSVG和OPT-RSVG数据集上相比,展现出了最优越的性能。
方超伟,马航飞,李志豪,程德(通讯作者),张玥,李冠彬
论文概述预先训练的视觉语言模型已经显示出下游任务的非凡潜力。然而,由于自我确认偏差和传统小损失标准的限制等挑战,它们在噪声标签下的微调仍然是一个公开的问题。在本文中,提出了一个统一的框架来解决这些问题,包括三个关键步骤:筛选,校正和重新筛选。首先,提出了一种新颖的双层语义匹配机制,其通过利用宏观和微观两个层级的文本提示,将样本分为干净、模糊和有噪声的样本。其次,设计特定的伪标签策略来校正噪声和模糊样本的标签,使它们能够有效地融入到训练过程中。最后,再筛选步骤,利用交叉验证和辅助视觉语言模型,减轻自我确认偏差,提高框架的鲁棒性。在十个数据集上的大量实验表明,所提出的方法明显优于现有的带有噪声标签的视觉语言预训练模型调优方法。
西安电子科技大学智能感知与图像理解教育部重点实验室成立于2007年。实验室秉承崇尚学术、服务国家的宗旨,面向国家重大战略发展和国际前沿发展需求,致力于智能感知与计算、图像理解与目标识别、深度学习与类脑计算等方面的研究工作,三次荣获国家自然科学奖二等奖,研制成功多项重大产品及国际标准,如秦岭•西电遥感脑 、基于面阵CCD的光谱视频成像系统、人脸画像识别系统、遥感影像大数据类脑解译系统、语义通信参考架构国际标准等,建成人工智能教育创新实验室,相关工作为北斗/高分综合运营服务、国家装备建设等多个领域赋能。为推动人工智能技术更快落地,抢占人工智能应用先机,为我国人工智能技术的发展与行业应用提供了强有力的支撑。
同时也是中国计算机学会(CCF)
推荐的A类国际学术会议
其论文录取率常年低于20%
为西电人点赞!
责编 / 王 格
出品 / 党委宣传部〔融媒体中心〕
小提琴?会!数学?强!跆拳道?踢!——这位学姐的技能满了!
有被燃到!这是西电青年与央视CCTV的十年之约!
今日立夏,于晚照骊山中,见霞色漫天
来源:西安电子科技大学