摘要:最近,我时常在社交媒体看到形形色色的“野史段子”。尽管这类内容早已是互联网上的“固定节目”,但是,和许多传来传去、在历史讨论圈早已“包浆”的老梗相比,最近我看到的这类内容,明显出现了大规模的“升级创新”,一方面出现了许多前所未见的新内容,另一方面在翔实程度、细
最近,我时常在社交媒体看到形形色色的“野史段子”。尽管这类内容早已是互联网上的“固定节目”,但是,和许多传来传去、在历史讨论圈早已“包浆”的老梗相比,最近我看到的这类内容,明显出现了大规模的“升级创新”,一方面出现了许多前所未见的新内容,另一方面在翔实程度、细节水平上也有很大“提高”。
从“明朝使臣质问帖木儿为何不进贡”,到“钱大钧枪击军统湖北站副站长”……乍看之下,这些直戳网民“爽点”的说法既生动又有趣,配图配字、煞有介事,有时还会附带原始出处和参考文献。然而,简单查证之后不难发现,这些说法要么凭空编造,要么对史实有着严重曲解,而其列出的“出处”和“文献”,同样是子虚乌有的存在。更让人吃惊的是,当我尝试向某些AI工具问询这些内容时,它们居然给出了一本正经的解释,仿佛这些内容不是段子,而是信史的一部分。
当前,这种现象早已不是孤例,以至于引发了学界的关注。近日,知名历史学者于赓哲便在微博上吐槽:“历史粉圈就是善于曲解史料,自嗨,中文语料库就这样被污染了,AI搜到之后常把这类东西作为信史,这才是现在值得担忧的。”在这条微博的转发区,另一位研究者也提到:“最近听朋友说,已经发生过几次,‘聪明的’本科生用AI写历史类毕业论文,结果里面的史料是AI编的。”
问题的关键,不在于AI偶尔会编造或弄错一些信息,而在于这一整套路径正在形成一个令人担忧的闭环:人编-AI润色-网传-AI吸收-AI输出-人再信。编造者为吸引眼球而生发内容,平台靠互动和流量放大传播,AI模型将其纳入语料,再输出给用户形成“答案”,最终被更多人采信、引用,甚至写入正式文本。这个循环一旦建立,虚假信息便完成了“洗白”,很难再被非专业人士辨别出来。
更麻烦的是,AI生成内容的“可信感”来自其表述形式,而不是真实可靠的资料来源。很多人之所以会相信这些内容,是因为它语义连贯、语气肯定、措辞准确,看上去“像是对的”。但AI的本质是模式识别与语料拼接,它并不具备对历史真伪的判断能力。如果训练语料中掺杂了太多未经验证乃至纯属杜撰的内容,那么输出的文本再“合理”,也可能是在传递谬误。正如计算机领域的那句名言:“Garbage in, garbage out”(输入是垃圾,输出就是垃圾)。
这一问题的长期影响,无疑值得正视。与现实新闻不同,历史话题的可验证性较差,普通大众很难判断这件事到底有没有发生过。而当虚假内容一再重复,甚至出现在AI搜索结果或论文生成中,它所带来的认知偏差也会更深更持久。
而相较于现实中的虚假信息,人们对“历史段子”的警惕心理往往弱得多。很多人觉得,历史本就久远复杂,真假难辨;就算段子不是真的,只要有趣,未尝不可。甚至有观点认为,能激发大众对历史的兴趣就行,不必太纠结于真实性。这种看法表面上轻松,实则忽视了此类乱象的长远影响。
我们为什么必须对历史语料污染保持警惕?因为历史不是段子的素材库。历史是一种社会共同记忆,是国家叙事、文化认同、价值传承的基础。如果我们默认“野史娱乐”可以无限延伸、无须考证,甚至让AI将这些误导内容当成正史加以再生产,最终结果将是公共认知的系统性滑坡。一代人不查出处,下一代可能就找不到真正的出处了。今天当成笑话看,明天可能就成了“事实依据”被写进演讲稿、考试题、纪实类视频,乃至AI生成的教辅书中。
更现实的问题是,当AI工具成为越来越多用户获取知识的第一入口时,它的语料污染就意味着认知污染。而这一污染不是单点式的,更像是系统性下沉:段子替代文献,主观代替证据,想象替代考证。这种趋势一旦普遍化,不仅会影响学习者、写作者的判断力,也会挑战史学研究与教育本身的权威性和信任度。
应对这一问题,既需要技术介入,又需要制度建设。平台方和模型训练者应建立明确的内容筛选标准,对历史领域的语料设定更高的可信度门槛,避免流量导向主导内容输入。同时,教育和研究机构也要主动介入AI语料体系的建设,而不能只是事后辟谣。
普通用户在使用AI工具获取历史信息时,也要培养基本的判断力。别轻易相信那些“听起来很真”的内容,更不要把AI说的当作唯一答案。历史不怕被讨论,怕的是未经验证的“复制-放大-再信任”。只有当我们意识到AI参与创建“知识闭环”的风险,才有可能打破这个“闭环”,重新找回自己获取专业知识的“认知自主权”。
来源:济南时报-新黄河一点号