摘要:值得一提的是,这些顶流论文并非聚焦于mRNA疫苗、CRISPR基因编辑技术等重大科学突破,而是集中在人工智能(AI)发展、癌症统计分析和研究软件应用等领域。
2025年4月15日,《Nature》杂志新闻团队发布了一项独家统计——21世纪被引用次数最多的25篇论文(文章点赞后私信后台,获取报告全文)。
值得一提的是,这些顶流论文并非聚焦于mRNA疫苗、CRISPR基因编辑技术等重大科学突破,而是集中在人工智能(AI)发展、癌症统计分析和研究软件应用等领域。
其中,华人作者何恺明等关于“深度残差学习网络(ResNets)”的论文拔得头筹,成为21世纪被引用最多的论文。众多AI论文凭借跨领域的广泛相关性、开源共享的特性等优势,在学术界收获了极高的引用量。
这不禁让我们好奇,为何这些论文能在千万篇研究中脱颖而出?高引用论文主要扎堆在哪些领域和年份?更进一步讲,高引用是否就代表高质量?学术界是否存在不同的声音?
为了确保统计的全面性,《Nature》团队选择了五个覆盖数千万篇21世纪论文的数据库 ——Dimensions、Scopus、OpenAlex、Web of Science(WoS)和 Google Scholar,并采用中位数排名法,避免因数据库差异而带来的统计误差。
经过层层筛选,华人研究员何恺明、张祥雨、任少卿和孙剑在2016年发表的《Deep Residual Learning for Image Recognition》拔得头筹,在两个数据库中排名第一,两个数据库中排名第二,一个数据库中排名第三,凭借稳定的表现登顶中位数排名榜首。
这篇论文是一篇计算机视觉领域的经典论文,如今我们熟知的 AlphaGo、AlphaFold,乃至 ChatGPT,都受益于论文中所提出ResNets架构(一种人工神经网络),该结构对深度学习和后续AI的进步都产生了重要的影响。2016年,ResNets 原始论文获得了计算机视觉顶会CVPR最佳论文奖。
值得一提的是,论文作者何恺明曾是广东省高考满分状元,本科就读于清华大学物理系基础科学班,毕业后到香港中文大学读研,还曾在微软亚洲研究院、Facebook工作,现任职于美国麻省理工(MIT),是全球人工智能领域顶尖科学家。
截至目前,《Deep Residual Learning for Image Recognition》论文引用量高达264071次,何恺明个人论文引用量高达588620次,H指数达到71。
榜单中还有多篇明星论文值得关注。
21世纪被引用量最高的十篇论文
例如,2001年发表的《Random forests》(随机森林,排名第6)提出了一种高效的机器学习算法,在后来成为了数据科学家的标配工具。
Geoff Hinton等人合著的《ImageNet Classification with Deep Convolutional Neural Networks》(排名第8),让人们看到了深度学习在图像识别领域的巨大潜力。Hinton也因为在AI领域的卓越贡献,在去年荣获诺贝尔物理学奖。
2017年谷歌研究人员 Vaswani 等人发表的《Attention is all you need》(排名第7)引入 Transformer架构,成为此GPT等大语言模型的核心技术支撑。截至目前,论文的引用量已经高达175604次。
在25篇高引用论文中,AI论文表现亮眼,ResNets、Transformer、Random forests、Deep Learning等论文均在列。
问题是,为何AI论文能成为引用“宠儿”?
这其实是由于AI具有交叉学科的百搭属性,AI技术如神经网络、机器学习算法,可应用于生物医学(如蛋白质结构预测)、社会科学(如经济趋势分析)、工程(如自动驾驶)等几乎所有学科。
例如,Transformer被引入气候模型,优化长期气候数据的序列分析。AI把不同领域联合在一起,因此AI论文的引用自然广泛。
此外,开源文化功不可没,许多AI论文伴随开源代码或工具发布,如随机森林算法(排名第6)、scikit-learn 库(排名第15的《scikit-learn: Machine learning in Python》),降低了使用门槛。
开源就意味着知识可以共享,研究人员在使用这些成果的同时,也会引用相关论文,形成了一个良好的学术循环。
再者,许多人工智能论文在正式同行评审前就已经通过预印本发布,让AI研究成果提前进入公众视野,以2015年已经发布预印本的ResNets为例,在正式发表前,就已经积累了大量的引用。
除AI领域外,研究软件、癌症与健康研究领域也有不少论文获得高引用量。
如世界卫生组织 GLOBOCAN 项目发布的 2018年和 2020 年全球癌症统计报告(排名第9和第10),为研究人员、倡导者和政策制定者提供了特定癌症类型的发病率和死亡率数据,对癌症研究和防控意义重大。
此外,还有位于榜单第四名、被称为“精神病学圣经”的《精神障碍诊断和统计手册》(DSM-5)。该手册描述了对成瘾和抑郁症等精神障碍进行分类和诊断的标准,并被世界各地的医疗专业人士广泛使用。
研究方法或软件相关的论文也占据了榜单的重要位置。例如英国化学家George Sheldrick关于 SHELX 计算机程序套件的论文(排名第五),该程序用于分析分子晶体结构,推动了化学研究的发展。Sheldrick已于今年二月离世。
从年份分布来看,2010 年之后的论文在榜单上占比较大。近年来学术资源获得变得更加便捷,研究人员之间的交流合作更加频繁,科研成果的传播速度也更快,新的研究成果能更快地被学术界关注和引用。
《自然》的这份统计,无疑为我们展现了 21 世纪学术研究的影响力版图,但也引发了学术界的诸多思考。
争议的核心在于:高引用是否等同于高价值?例如,部分学者指出,许多高引用论文是评论综述类,例如排名第三的《Using thematic analysis in psychology(2006)》,本质上是对定性研究方法的梳理,而非突破性发现。
另一个争议点是领域偏见。为何重大科学突破的论文未能上榜?
这与引用机制的 “马太效应” 有关 —— 方法类论文频繁被作为基础工具引用,而突破性研究由于研究难度大、研究周期长,相关论文的引用量在短期内难以快速增长。
另外,学术引用文化和记录本身也存在一些问题,比如不同数据库对论文的收录和引用统计标准不一,这也可能影响了论文引用量的真实性和可靠性。
但我们也不能否认这些高引用论文的价值。《Nature》发布的这项榜单,其实是一面镜子,它让我们看到了AI等领域的蓬勃发展,也让我们反思学术评价体系中存在的问题。
来源:永不落的红黑心