摘要:瑞典布罗斯大学学院近期发布了一篇文章,称研究人员在谷歌学术平台中发现了上百篇疑似由AI生成的文章,研究人员认为,由AI生成的“垃圾科学”正在侵蚀学术平台,给同行评审系统带来压力,也对科研人员的信息素养提出更高要求。
生成式AI在学术领域正在加快科学发现,甚至因此登上了诺贝尔奖台,但技术的另一面是,学术造假越来越方便,学术界近期开始担忧,AI垃圾或许会充斥论文库。
瑞典布罗斯大学学院近期发布了一篇文章,称研究人员在谷歌学术平台中发现了上百篇疑似由AI生成的文章,研究人员认为,由AI生成的“垃圾科学”正在侵蚀学术平台,给同行评审系统带来压力,也对科研人员的信息素养提出更高要求。
第一财经记者留意到,近一年来,学术界出现了不少被质疑使用AI生成的论文,甚至被撤稿,也出现了使用AI技术“润色”论文被认为是学术不端的事件。
记者梳理发现,目前可以将AI可能导致的学术垃圾分成两类,一是用AI翻译或生成部分文字表达,二是利用生成式AI学术造假,前者AI主要起到辅助写作的作用,但可能因为论文作者不仔细检查生成的内容导致论文出错,后者的主要问题在于AI使学术造假变得更便利。
“我还没有发现大量明显由AI生成的论文,如果作者将AI的痕迹删除干净就难以发现。但理论上AI确实能用于辅助论文写作,也出现了被怀疑使用了AI生成的论文。”一名高校科研工作者告诉记者。记者采访的多名在读博士或科研工作者认为,他们还没有发现AI导致学术垃圾充斥论文库,但AI已经能用于做一些学术辅助工作,在不同研究领域使用AI学术造假的可能性则有所不同。
AI垃圾充斥论文库了吗?
担心AI垃圾充斥论文库的不只瑞典布罗斯大学学院研究人员。
去年9月,莫那什大学研究人员Julian Koplin发表在The Conversation上的一篇文章称,随着类似ChatGPT的生成式AI工具出现,越来越多论文疑似使用了AI辅助写作,一些论文出现了AI经常使用的表达,例如commendable(值得称赞)、meticulously(小心翼翼)。
还有一篇关于农业技术的论文出现了明显使用AI工具的表述:“作为AI语言模型,我无法直接访问当前的研究文章或研究。但是,我可以为您提供一些最新趋势和进展的概述……”。Julian Koplin表示,AI存在幻觉问题,有时会犯严重的错误,而论文作者需要确保学术论文没有严重错误。
去年5月,也有消息称,一篇未经同行评议的预印本论文估计,通过分析写作风格,有上万篇论文可能被AI以某种方式润色了,一些论文留下了使用AI的迹象,例如出现了以“作为人工智能模型语言模型”开头的句子,有研究人员认为,滥用AI工具可能会损害公众对科学研究的信任。
学术论文出现AI常见表达还发酵成一些舆论事件。早在2023年,就有一篇发表在《Physica Scripta》期刊上的论文被发现使用了AI惯用的短语,随后该论文被撤稿。去年,有论文出现一句疑似ChatGPT惯用回答“Certainly, here is a possible introduction for your topic:” (当然,这里有一个关于你的主题的可参考介绍:),也被质疑用了AI写论文,引起了学界和媒体的关注。
由于目前学术界已有不少存在AI痕迹的论文出现,传播学在读博士李庭对第一财经表示,某种意义上,AI生成的学术垃圾是存在的,例如加剧了模式化的表达,导致虚假的事实与论据污染数据库。
不过,需要注意的是,瑞典布罗斯大学研究人员强调,出现了AI垃圾的谷歌学术平台并不等同于专业学术数据库,该平台缺少必要的质量保证流程。
记者采访的一些学术界人士认为,不使用谷歌学术平台而使用专业学术数据库,可以有效筛掉低质量论文和“AI垃圾”。不过,用AI润色或翻译论文变得较为普遍,使用AI或也难以发现其痕迹。
一名新闻学在读博士生告诉记者,她平时搜集中文文献主要使用知网,限定搜索范围为CSSCI,搜集英文文献主要使用web of science,限定搜索范围为SSCI,这样搜索到的只有国内外相对较认可的期刊文献,她并未发现学术论文库出现被AI污染的情况。
中科院生物学博士、科研工作者刘耀文则担心,还是会有一些研究者使用AI写论文,并且AI痕迹可能难以发现。他去年就留意到一篇学术论文带有AI生成痕迹,“可能是AI生成,审稿人还没发现。这个事件曝出后,后续使用AI写论文的人就会更注意删掉AI痕迹了。”
用AI写论文背后,可能是作者用AI翻译或润色已经写好的论文,也可能是使用AI辅助后直接采用AI生成内容。就用AI翻译论文的需求,刘耀文表示,国内研究者在海外期刊发表论文经常会面临语言问题,通常会寻求翻译软件的帮助,但根据经验,AI的效果比翻译软件、人工翻译的效果更好。现在已经有很多人采用这种方式润色论文。问题在于,AI可能生成有歧义的表达,翻译后作者需要纠正一遍,如果不修改可能导致论文出现垃圾信息。
至于直接使用AI写作论文,一些受访者认为,AI生成的内容表达能力尚可,但思辨性不足。上述新闻学在读博士表示,用Kimi生成的文本应付本科课程论文还行,写其他论文不太行。从生成文本质量看,AI生成的内容逻辑和表达基本可以,但思辨性不够,缺乏深度,缺少让人眼前一亮的东西。刘耀文则注意到,用AI生成论文中的文字,看起来具备相当的专业性,AI生成的文字确实缺少思辨性,不过,并不是论文中所有内容表述都需要思辨性。
同样是传播学博士的殷文则表示,AI确实可以补充学术写作,例如帮助翻译、润色文字、整合文献、激发思维。“当你想做一个题还没什么思路的时候,AI可以给你提供一些关键词,或者整合一些前沿研究,你再看着去找自己感兴趣的点,有时候你没想到的但是AI更系统地去帮你想了。”殷文称。
“但全靠AI是别指望了,全靠它我觉得对话也挺费劲的,一点一点教它,我不如自己写完了。”殷文认为,如果AI是用来应付作业确实会生产很多学术垃圾,但如果真想做点实质性的研究,目前的大模型还是写不出有创新性的内容的。
即便用AI做文献综述这类不需要太多创新的工作,殷文觉得“也挺鸡肋的“。“给AI一个关键词,它会选高引用的几篇论文给你堆一堆,但分不清楚哪些是前沿,也分不清楚哪篇优秀,另外在文献来源上,AI还会引用一些平时根本不会用的文章,例如百家号上的。”
殷文认为,AI筛选的数据库还是有很大的问题,此外AI的写法也很笨,“谁谁谁说了什么这样的,或者是列几个点,反正需要作者加工的还是很多,每次折腾完了还是要自己写。”
有研究者认为,目前还不用太担心AI垃圾影响学术研究。“学术圈一直是优胜劣汰的机制,真正能留下来、被反复引用和讨论的文章不多。AI生成的文章如果没有实质内容,很快就会被淘汰出局。不用太担心AI垃圾充斥论文库或滋生学术不端。” 一名理论物理学博士告诉记者。
AI学术造假有多大空间?
对学术而言,生成式AI有其高光时刻。
2024年诺贝尔物理学奖和化学奖都颁发给了AI领域的科学家,将AI for Science(AI驱动科学研究)的关注度提升到空前的水平。诺奖得主中,既包括用物理学工具开发机器学习基础方法的学者,也包括用AI模型预测蛋白质复杂结构的学者。越来越多科学家考虑用AI辅助科学研究了。
一名化学研究者告诉记者,他在紫杉醇生物合成研究中全面应用AI,例如用AI判定实验是否生成紫杉烷类分子。一名数学物理学研究者表示,她也让学生尝试用AI识别少层石墨烯的层厚和转角。
研究者们用AI加速科学研究和使用现有AI工具生成论文、进行学术造假,是这个技术的一体两面,但有着本质的区别。
例如,要做出像上述能辅助学术研究的AI工具,门槛颇高。从2018年推出可预测蛋白质结构的AlphaFold1到2024年推出AlphaFold3,谷歌DeepMind团队花了近6年时间。记者了解到,要训练出可加速科学研究的AI工具,也需要研究者花费精力获取AI训练所需的数据,这个过程并不容易。
而使用AI工具造假,则是更快的一条捷径。学术界更受关注的事件似乎还是用AI辅助写作而未将AI的痕迹删除干净,不过,使用AI技术进行学术造假也引起了一些担忧。前段时间,一名中国学生使用ChatGPT润色论文、修改部分用户访谈内容涉嫌学术造假而被麻省理工学院退学的事件也引起舆论关注。
记者了解到,使用AI进行学术造假的可能性在不同研究领域存在区别。在一些文科研究领域,AI的思辨性不足可能无法让其代替人工做学术。上述理论物理学博士告诉记者,在理论物理方向,也几乎没有学术造假的空间,因为论文中的推导层层递进,如果有问题可以比较直接地看出来。
一名在读计算机博士也告诉记者,对计算机科研工作者来说,用AI造假似乎不太可行,要发顶级会议、顶级期刊的研究者无法用AI造假。学术论文要求的研究动机、方法设计、实验验证和分析相互对应,目前AI还不太可能符合要求。不过,他也承认,在审稿质量低的会议或期刊上,AI技术可能让学术不端事件容易发生。
对于一些较依赖实验,且实验存在较多不确定性的学科,学术造假可能有更多潜在空间,AI也可能成为学术造假的帮手。刘耀文告诉记者,学术造假一直是问题,AI只是加重了对造假的担忧,原因在于AI生成速度更快、生成内容更真实。
刘耀文表示,以往一些学术造假事件被发现,往往是因为论文出现低级错误,例如多篇文章使用同一张图、数据单位出错,又或是数据存在人为痕迹(如66.7是100的2/3,可能人为编造),而不是因为其他研究者尝试复现实验。其背后,学术界重视个人声誉,对学术权威一般不予质疑,复现实验也需要成本,生物医学领域复现实验的成本就非常高。即便复现实验,一些研究领域也存在很大变量空间,就像“9点取的样本和10点取的样本不同”,研究者可能很难确认无法复现实验的原因,特别是在一些起步比较晚、缺少公理的研究领域。
刘耀文表示,学术造假后果可以参考“心肌干细胞”论文造假事件。2018年,哈佛大学医学院教授、心肌再生领域开创者皮耶罗·安韦萨被发现有31篇学术论文造假,几乎使整个研究领域遭受毁灭性打击。
刘耀文担心的是,有了AI技术后,论文作者可能会用AI生成看上去更专业、更真实的数据,例如数据更加随机,数据造假更难被发现。如果用AI生成实验图,看上去也更真实,实验图造假可能导致实验结果出错。他认为,个人研究者很难辨别他人的论文是否造假,一个原因是很多学术论文库不开源,难以找到足够的论文比对判断。
2023年,查尔斯特大学教授Geoffrey M. Currie也在一篇论文中指出Al伪造的监测难点。他表示,“深度伪造”或带来图像虚构,比如生成对抗网络GAN可以去除噪点使医学图像更清晰,但也可能被用于生成高仿真的医学图像。此外,AI生成的文本可能会通过“扭曲短语(Tortured phrases)”的方式绕过抄袭软件的监测,AI可能会修改某些文本导致文本变味。
学术期刊如何规定AI技术使用?
就是否接收使用了AI辅助的论文、是否采取措施辨别论文是否使用AI辅助或造假、措施是否有效,第一财经记者向知名学术期刊Natrue、Cell、The Lancet、Science、ACM、IEEE和中国图象图形学报发送邮件,截至发稿前未获回复。
不过,2023年底,来自美国加州大学和英国的团队用文献计量学的方法统计了Top 100出版社和Top 100期刊针对AI的使用规范和声明,其分析结论发表在了《英国医学杂志》(TheBMJ)上。
上述研究者发现,在前100大出版商中,24%提供了关于生成式AI使用的指导,在前100名高排名期刊中,87%提供了生成式AI使用指导。在提供指导的出版商和期刊中,只有1%的期刊明确禁止在手稿生成过程中使用生成式AI,但96%和98%的出版商和期刊分别禁止将生成式AI作为作者。
关于该如何声明生成式AI的使用,不同的期刊和出版社存在差异,包括在方法部分致谢等部分,但总体他们认为,作者应对AI生成的内容仔细核对,并负有全部责任。
一名新闻学在读博士生告诉记者,目前她只注意到新闻传播学领域较知名的国际会议IAMCR对投稿论文使用AI生成技术提出要求,大致意思是可以使用AI技术,但作者需要说明使用AI工具的用途等。记者也留意到,一些知名期刊要求作者说明AI工具的使用情况。Nature对论文使用AI技术的要求包括,作者需要说明文章使用了AI工具,用AI辅助文案编辑则不需声明,但作者须对最终文本负责。Science也要求作者披露AI工具的使用,并要求作者对文章的准确性负责。IEEE要求作者在致谢部分说明文章使用AI生成内容的情况。
由中国科学技术信息研究所牵头制订并于2024年9月发布的《学术出版中AIGC使用边界指南2.0》在论文图表制作、文字撰写、语言润色、同行评审等方面也提出规范做法。例如,蛋白质印迹实验图、组织细胞染色图等实验生成类图像不可通过AIGC直接生成,不应用AIGC产生研究假设、直接撰写整篇论文文本或解释数据,但可用于提高文本可读性、总结其他学术出版物或生成文献综述部分。研究人员对AIGC提供的资料需验证真实性和准确性,并充分、正确披露和声明AIGC使用情况。
据李庭观察,学界现在对AI的态度是,不反对用来辅助写作,但是写作的结果不能让人发现用了AI。
“目前行业有AI检测网站,如果检测结果显示使用AI的可能性过高,会对学术声誉造成影响。如果论文中出现了明显是AI生成的错误,论文肯定是要被撤稿的,如果是学位论文甚至可能会拿不到学位。”李庭表示,期刊目前对AI使用没有明确的标准,不同的刊物和学术机构对于AI有支持有禁止,但是在实际操作中往往难以证明使用了AI。
来源:第一财经