摘要:“我的毕业论文丢给了AI,让它帮我将一些想法直接写成代码,的确比我写得好。”蔡蔡(化名),山西中部某高校的一名计算机专业大四学生,不准备花太多时间在毕业设计上。
不少高校标配AIGC检测
作者/ IT时报记者 郝俊慧 孙永会
编辑/ 郝俊慧 孙妍
“我的毕业论文丢给了AI,让它帮我将一些想法直接写成代码,的确比我写得好。”蔡蔡(化名),山西中部某高校的一名计算机专业大四学生,不准备花太多时间在毕业设计上。
AI飓风席卷全球,最先被冲击的,无疑是教育。
自2022年底OpenAI发布ChatGPT后,美国马里兰州陶森大学(Towson University)英语系助理教授陈剑芬在每学期所授“商务写作和科技写作”的第一课,都会和学生展开一场公开讨论——“你在写作时如何使用AI?”“AI算作弊吗?”“AI会导致教育不公平吗?”……
这些问题还没有标准答案。然而,临近毕业季,不少国内高校已开始对AI使用“立规矩”:对毕业论文同时进行“查重”和“AIGC检测”,如果超过规定上限,论文将不得参加盲审和答辩。
《IT时报》记者发现,相较于传统的“学术查重”,AIGC检测率的数值“难以捉摸”,如何“降AI”成为玄学,而毕业生要为此支付不少“检测费”,更有争议的是,AI真的不能用吗?
“一千字两元,好贵啊!”看到知网上列出的“个人AIGC检测”费用,江西某高校研二毕业生小伟发出一声“哀号”。
2024年开始,小伟所在的高校发出一纸通知,对毕业论文(设计)开始试行AIGC检测,检测结果的上限是30%,学校合作的AIGC检测平台是知网。知网页面显示,AIGC检测费用是2元/千字符,这意味着小伟这篇近5万字的毕业论文,如果想提前自己查AIGC率,一次费用将近100元。
AIGC检测正在逐渐成为毕业标配。中国传媒大学、湖北大学、南京工业大学、福州大学、天津科技大学等高校在去年相继宣布,将同步对本科生毕业论文进行查重和AIGC双重检测。今年,类似的检测开始普及。
“今年毕业生都是双重查重。”四川省社会科学院的一位硕士导师告诉《IT时报》记者,截至目前,虽然学校还没有明确上限是多少,但一般超过10%会被认为是比较高的数值。
知网、维普、格子达是高校经常合作的三个学术检测网站,为了安全“上岸”,毕业生大多会提前自费在这些网站上先行检测。双重检测意味着,这笔费用“double(翻倍)”了,更重要的是,相比已实行多年的“查重”检测,AIGC检测的结果“飘忽不定”,为了“降AI”,毕业生往往要多次检测,花费不菲。
《IT时报》记者分别登录三家网站发现,各家双重检测费用不等,维普AIGC检测最便宜,38元/篇,不论字数,但查重费却高达3.5元/千字符;格子达的双重检测费分别为3元/千字符和2元/千字符;知网价格居中,AIGC检测费为2元/千字符,查重费为1.5元/千字符。
以本科生论文1万字、研究生论文3万字、博士生论文10万字的普遍字数要求计算,一次双重检测的费用在35元到500元不等。
一些“精明”的网站和个人甚至做起了“降AI”的生意,而且要价更高。PaperYY官网显示,AIGC降重服务的价格为5元/千字符,即一篇3万字论文需150元。
困惑学生的不仅仅是费用,还有“神秘莫测”的检测指标。
2023年开始,陆续有网站开始提供AIGC检测服务,但同一篇文章的检测结果却可能千差万别。
“PaperYY是50%,PaperPass是30%,知网是25%。”浙江某高校的陈同学一篇论文得到了三个结果,而更令她“无语”的是,点开检测报告一看,一大堆被标红“疑似AI”的文字是自己写的。
类似的吐槽在各类社交网站上层出不穷:“我是AI吗?改了一晚上,从63%升到了65%”“一个字一个字自己码的摘要,说全是AI”“救命!查重15%,知网AIGC率却有99%,PaperYY才40%”“我的论文(在)维普没更新前是6%,更新后变成了74%,之前的120元白花了”……
《IT时报》记者从采访中得知,尽管正式发布通知要求毕业论文进行双重检测的学校还不多,但在很多高校中,这几乎已成为半公开的要求,只是各家高校标准不一,或者并无明示,这也让毕业生们感到很苦恼。
2024年6月,华东师范大学与北京师范大学联合推出《生成式人工智能学生使用指南》,要求确保AI生成内容不超过全文的20%;天津科技大学2024年的要求是AIGC检测不得超过40%;江苏师范大学美术学院的通知写明,如果超过30%,将通报并督促整改……
“AIGC检测工具本身也是预训练过的小模型,一篇论文输入之后,它会先提取文本特征,然后和各类大模型生成的文本特征作比对,也可以和自己生成的AI文本进行比对,最后形成一个AI来源的概率。”上海计算机软件技术开发中心人工智能研究与测评部副部长马泽宇告诉记者。
这种方式蕴藏的风险是,一方面大多数检测算法是黑箱模型,无法给出具体判定依据,结果的可信度无法保证,前文中出现不同检测结果便因如此;另一方面,AI大模型的快速迭代也给检测带来挑战,新模型如果改变了语言模式,旧工具可能会无法识别。
“我们不对学生的论文进行AIGC检测,事实上,我们不鼓励这样做。”陈剑芬告诉记者,由于当前AI检测工具并不稳定,教师们也不知道AIGC的检测率是如何得出的,一旦以此为准,很可能和学生产生不必要的争端。
去年以来,多所美国大学也表达了对AIGC检测的担忧。范德堡大学关闭了知名检测工具Turnitin的AI检测功能,理由是对其准确性和误判风险表示担忧,密歇根大学也建议谨慎使用,声明“AI检测工具不应被视为作弊的最终判定依据”。
在AIGC检测率引发争议的背后,另一个潜在问题是——“使用AI算不算作弊”?
作为一名在美国高校从事专业写作和沟通教学与研究的学者,陈剑芬最近正和同事开展一项AI驱动下写作项目样本的研究,在她与学生访谈中,“AIGC是否属于抄袭”并没有形成共识。
“抄袭对我来说是直接盗用他人文字,而AI生成的内容更像工具产物。”一名数学系研究生告诉陈剑芬,尽管有的课程老师也提出“禁止使用AI”,但这并没有拦住他,“我先自己写初稿,再用ChatGPT润色,成品还是我的,谁能查出来?我还常常上传自己的旧文章,让AI模仿我的风格生成新内容,这算不算‘自我抄袭’?”
另一位信息技术专业的学生则对AI后的自己感到一丝“陌生”,“我的论文草稿被ChatGPT润色后,语法很流畅,但那种感觉很奇怪,内容是我的想法,可语言太完美,不是我,我担心这算不算抄袭。”于是,她删掉了那些不像自己风格的部分。
对于这个问题,同济大学法学院互联网与人工智能法律研究中心主任张韬略在一篇《何以透明,以何透明:高等教育的AIGC剽窃与技术之治》的文章中提到,合理使用AIGC与剽窃之间最根本的边界在于,是否确保学生使用GAI(生成式人工智能)的过程是透明的。
因此,也有一些高校并没有明确将AIGC检测率作为论文是否合格或者答辩的“硬指标”,而是提出了AI使用和标注规范。
3月5日,上海交通大学在发布的《上海交通大学关于在教育教学中使用AI的规范》中明确,学生应坚持人工智能辅助学习的价值定位,自觉标注与引用人工智能工具的必要信息。
技术治理的脚步也在加快。近日,国家互联网信息办公室、工业和信息化部、公安部、国家广播电视总局联合发布《人工智能生成合成内容标识办法》以及配套的强制性国家标准《网络安全技术人工智能生成合成内容标识方法》中,明确可以采用数字水印作为内容隐式标识。也即在AI生成过程中注入特定信息,从而帮助被输入的系统可直接辨识出人工智能合成的数据。
法规的完善和技术的迭代,将有望改善当前AIGC检测率的“黑箱”难题,但这并不意味着高校应采取更为严苛的AI禁用政策。
相反,张韬略认为,“只有违反透明度原则的AIGC使用行为才不应被允许,也即使用AIGC而隐瞒来源的行为才应当被视作剽窃或者是‘代写’”。
“学生使用AI并不只是应付差事,他们更希望老师能够明确关于AI的使用规则和建议,希望能在清晰的指导下合理合规和有效地使用AI。”陈剑芬告诉记者,两年多来,她一直在写作、写作教学、科研中使用和测试AI,并设计新的教学任务,核心是“帮助学生反思自己使用AI的过程和结果,从中获得策略性知识,培养批判思维能力,而这种能力可以迁移,并帮助他们解决类似问题”。
蔡蔡的思考则更为实际。作为一名计算机专业的本科生,她所有教材中最新的一本出版于2014年。四年的大学生涯,除了“体验生活”并没有带给她更多的收获,对于双重检测的要求,她不觉得有太大压力。
“现在有不用AI的毕业生吗?如果真的不用,毕业后他能适应社会吗?其实用AI就可以打败AI。”根据社交网站上大量网友的“经验分享”,利用各种“提示词”,她耗了一个晚上的时间,用另一个AI工具修改了论文,并将它的AIGC检测率降到了20%以下。
来源:IT时报一点号