大工赵骁骐,登上《人民日报》!
赵骁骐,大连理工大学信息与通信工程学院2021级博士研究生,研究方向为计算机视觉。曾两度荣获博士国家奖学金,并获华为奖学金、沈飞罗阳励志奖学金等20余项荣誉。
赵骁骐,大连理工大学信息与通信工程学院2021级博士研究生,研究方向为计算机视觉。曾两度荣获博士国家奖学金,并获华为奖学金、沈飞罗阳励志奖学金等20余项荣誉。
岳翔宇博士是香港中文大学多媒体实验室(MMLab),和信息工程系的助理教授。他于加州大学伯克利分校获得电子计算机博士学位,在 Berkeley AI Research 师从美国工程院院士,Cadence 和 Synopsys 的创始人,Berkeley EEC
本文提出了一种名为HINT的基于层次化多头注意力机制的Transformer模型,用于图像恢复任务。HINT通过引入层次化多头注意力(HMHA)和查询-键缓存更新(QKCU)模块,解决了传统多头注意力(MHA)中的冗余问题,提高了图像恢复的质量和效率。
近年来,视觉语言模型(Vision-Language Models, VLMs)在多模态 AI 领域展现了重要的研究价值和应用潜力,但其安全性问题也逐渐受到关注。例如,攻击者可能通过对抗样本操控模型输出,导致模型生成错误信息或内容被篡改等风险。传统对抗攻击方法
传统的卷积操作中,卷积核的形状是固定的(通常是正方形),而 ARConv 能够自适应地学习卷积核的高度和宽度,使其能够根据图像中不同物体的大小动态调整卷积核的形状。这种灵活性使得卷积操作能够更好地适应遥感图像中物体的多样性和尺度变化。ARNet 是基于 U-N
论文有两位共同一作。汪晗阳,清华大学计算机系本科四年级,研究方向为三维视觉、生成模型,已在CVPR、ECCV、NeurIPS等会议发表论文。刘芳甫,清华大学电子工程系直博二年级,研究方向为生成模型 (3D AIGC和Video Generation等),已在C
视频 模型 清华 cvpr videoscene 2025-04-09 16:26 5
基于当前观察,预测铰链物体的的运动,尤其是 part-level 级别的运动,是实现世界模型的关键一步。尽管现在基于 Diffusion 的方法取得了很多进展,但是这些方法存在处理效率低,同时缺乏三维感知等问题,难以投入真实环境中使用。
近日,由我校信息与通信工程学院广播电视工程系史萍教授指导,2023级通信与信息系统专业硕士研究生亓泽鲁、王书琪,2024级信息与通信工程专业博士研究生张朝阳组成的学生团队,在计算机视觉国际顶级会议——国际计算机视觉与模式识别会议(CVPR)2025 NTIRE
在自动驾驶场景中,往往不仅只有一条最优的轨迹。例如对于某些场景,车辆可以选择超车或者跟车策略。以往的驾驶方法聚焦在用判别式的方法来生成轨迹,通过直接对轨迹进行回归学习来建模轨迹的分布。这种学习方式非常高效,且能生成安全精准的轨迹,但是很难对多模态轨迹进行有效的
美图旗下美图影像研究院(MT Lab)联合清华大学、新加坡国立大学、北京理工大学、北京交通大学等知名高校发布的5篇论文入选CVPR 2025,均聚焦于图像编辑领域,分布在生成式AI、交互式分割、3D重建三个方面。
本文的主要作者来自 VAST、北京航空航天大学、清华大学和香港大学。本文的第一作者为北京航空航天大学硕士生黄泽桓,主要研究方向为生成式人工智能和三维视觉。本文的通讯作者为 VAST 首席科学家曹炎培和北京航空航天大学副教授盛律。
1 MambaOut:在视觉任务中,我们真的需要 Mamba 吗?(来自 NUS,MetaFormer 原作者)1 MambaOut 论文解读1.1 在视觉任务中,我们真的需要 Mamba 吗?1.2 本文有哪些新的发现?1.3 概念讨论1.4 视觉任务有长序
近日,西安电子科技大学计算机科学与技术学院多篇论文成果分别被国际顶级会议SIGMOD、VLDB、CVPR、ICLR、WWW、ICDE录用。其中,智能媒体与数据工程研究所6篇论文分别被国际会议SIGMOD、VLDB、CVPR、ICLR、ICDE录用,计算机网络与
刚刚,一年一度的AI顶会ICLR和CVPR开始公布录用和审稿结果了!中稿的网友们纷纷晒出了自己的成绩单。
靠强硬规定来禁止大模型并不具备可操作性,只能起到威慑作用,即便引入所谓的「大模型数字签名」,甚至是用分类模型来判断审稿意见是否由AI生成,只要提交者自己重新编辑一下审稿意见,是否使用大模型也就无从判断了。关于大模型审稿,你怎么看?或者说,你希望自己的论文被大模
在水下检测方面:扩散模型提供了新的解决方案,尤其在处理水下图像质量差和可见度低的挑战时。水下环境通常受制于光线不足、浑浊水体和光散射等影响,使得目标物体识别和检测变得复杂。