摘要:人工智能正在成为互联网世界的“秩序维护者”,但它们真的公正中立吗?宾夕法尼亚大学安纳伯格传播学院的一项最新研究指出,OpenAI、DeepSeek、Google等主流AI模型在识别仇恨言论时表现出惊人的不一致性,而这种差异,正在悄然重塑我们对“言论自由”与“内
人工智能正在成为互联网世界的“秩序维护者”,但它们真的公正中立吗?宾夕法尼亚大学安纳伯格传播学院的一项最新研究指出,OpenAI、DeepSeek、Google等主流AI模型在识别仇恨言论时表现出惊人的不一致性,而这种差异,正在悄然重塑我们对“言论自由”与“内容有害”的理解边界。
研究团队对七个主流AI模型(包括OpenAI的GPT模型、Google的Perspective API、以及DeepSeek、Mistral、Claude等)进行了目前最大规模的横向比较。他们使用了 130万个合成句子,涵盖了 125类社会群体,从种族、性别、宗教到教育背景、职业类型。
结果令人震惊:面对完全相同的内容,不同AI模型的判断差异极大。有的模型将一句话标记为“仇恨言论”,另一些则认为“完全没问题”。
比如,一条关于某群体的贬义句子,在某些模型那里立刻触发警报,而其他模型则无动于衷。研究者指出,这种差异不仅出现在不同公司之间,同一模型内部对相似内容的判断也常常前后不一。
造成这种混乱的原因多种多样。有的模型是专门为内容审核训练的,有的则是通用大模型“兼职”做审核;有的模型偏向“零容忍”,宁可错杀一千,也不放过一个;而另一些则强调“上下文理解”,在意语境和说话者意图。
但无论是哪种方式,结果都直指一个问题:AI的判断标准并不统一,甚至可以说是各说各话。
另一个令人担忧的发现是,AI模型对不同群体的“保护力度”并不均衡。
研究显示,针对性别、种族、性取向等传统意义上的弱势群体,模型之间的判断一致性较高;而对教育程度、经济阶层、兴趣爱好等群体的相关内容,模型的判断就开始“分裂”,有时甚至完全相反。
这意味着,某些群体可能更容易受到AI的保护,而另外一些群体则在“技术盲区”中默默承受风险。这种差异,很可能源于AI训练数据本身的不平衡——哪些群体在现实中被关注得多,模型就学得多,进而保护得也多。
换句话说,仇恨言论的识别偏见其实是社会偏见的技术映射。长期以来处于舆论中心的群体,其遭遇更容易被记录、被分析、被识别;而那些“沉默的大多数”,则可能连被保护的资格都没有。
更严重的是,这种差异化的“技术保护”可能反过来加剧社会分化。当一部分人感觉AI“替他们说话”,而另一部分人觉得自己“被系统性忽略”,那么技术的不平等就可能转化为更深层的社会不公。
研究还特别设计了一批“语义含混”的句子,比如使用了贬义词但整体语境是中性的,或者是学术讨论中引用的敏感词。
结果发现,不同模型的处理方式几乎分成了两个阵营:
一类模型采取“零容忍”策略,只要出现敏感词就自动触发警告,无视语境;
另一类模型更注重上下文,会根据具体语境判断是否为仇恨言论。
这就带来了一个现实困境:前者误伤多,后者漏判多。
比如,在历史教学、艺术评论、社会学研究等语境中,某些词汇是不可避免的。但“零容忍”模型会一律封杀,这显然过于粗暴。而“语境判断型”模型虽然更“聪明”,可也有可能被一些“伪装得体”的仇恨言论蒙混过关。
最终,用户体验也因此变得割裂:同一段话在不同平台被不同对待,甚至在同一平台不同时间也会遭遇不同命运。
这项研究并非反对AI参与内容治理,而是强调:AI不是万能的,也不是绝对中立的。它所体现的判断,背后是数据、算法、开发者价值观的综合结果。
当AI被用来划定“什么能说、什么不能说”的边界时,我们必须意识到,这不再是纯粹的技术问题,而是深刻的社会治理问题。
未来的挑战,不仅是提高AI的识别准确率,更是如何建立统一、透明、有社会共识的审核标准。否则,AI不但无法“净化网络”,反而可能成为新的不公制造者。
在数字社会越走越远的今天,我们不能把复杂的价值判断,完全交给看似智能却未必公平的算法。技术应为人服务,而不是替人决定。
来源:老闫侃史视频