胡泳|大语言模型能保守秘密吗?

360影视 动漫周边 2025-05-20 10:38 1

摘要:2022年底,大型语言模型(LLMs)的出现改变了人们对人工智能的理解和互动方式。LLMs通常被训练成聊天机器人:它们从用户那里获取输入(“提示”),并在内容和风格上提供听起来“像人类”的结构化、可信的回应。

2022年底,大型语言模型(LLMs)的出现改变了人们对人工智能的理解和互动方式。LLMs通常被训练成聊天机器人:它们从用户那里获取输入(“提示”),并在内容和风格上提供听起来“像人类”的结构化、可信的回应。

它们通过预测某段文本之后最可能出现的词汇来完成这一任务:其输出是基于对大量文本、文本中的模式以及开发者或用户设置的附加参数的分析来生成的。

而隐私和数据保护的风险就来源于LLMs的训练和开发方式以及它们为最终用户提供的功能。

无差别的数据抓取

首先从源头上来看,开发LLM需要大量的文本来训练模型:它们能接触到的内容越多越好。对于开发LLM的公司来说,主要的来源当然是互联网。

机器人(特别是“网页抓取器”)可以被编程来下载从新闻网站、博客、社交媒体到任何其所能接触到的地方的海量在线内容。因此,抓取的数据可能包括任何公开可访问的在线内容,无论公司是否有权使用这些数据。

显然,我们并不完全知道大多数LLM训练所使用的具体数据。OpenAI、Google、Meta等公司通常对此相当保密。但可以合理推测,这些数据包括个人数据和版权内容,而且我们知道人工智能公司正在悄悄修改它们的隐私政策,以扩大可以用于AI训练的数据范围。

这是一个巨大的问题,不仅因为敏感的或私人的信息可能会被抓取并被模型重复输出(见后),还因为那些写作或提供内容的人并不知道或未同意其数据以这种方式被使用。这直接违背了数据保护原则。

数据保护法律——如《通用数据保护条例》(GDPR)——要求公司在收集和处理个人数据时必须有合法依据。训练LLM唯一可能适用的合法依据是,认为这样做是公司的一项“合法利益”,并且在处理过程中不会侵犯数据主体的基本权利和自由。

无差别抓取数据用于LLM训练无法满足以上要求。LLM可以用于各种任务并造成各类危害,这意味着没有人能够真正评估被抓取、处理并重新输出的数据主体的权利和自由是否会受到影响。

▲ 图源Pexels

反复输出与数据提取

由于训练数据被嵌入到LLM的算法中,通过提供合适的提示,理论上可以提取(或“反复输出”)这些数据。《纽约时报》已对OpenAI提出法律挑战,因为这家报纸证明了合适的提示可以导致其受版权保护的内容被输出。而DeepMind的研究人员通过一些更荒谬的技术,发现了如何获取潜在的敏感个人数据。

DeepMind的研究团队通过一种新的攻击提示,系统性地说服了ChatGPT泄露其训练数据,具体方法是要求该聊天机器人生产模型重复特定的词汇。通过这种策略,研究人员展示了OpenAI的大型语言模型中包含大量的可识别私人信息(PII,privately identifiable information)。

尤其值得注意的是,虽然OpenAI的模型是闭源的,但这一攻击是在公开可用的、已部署的ChatGPT-3.5-turbo版本上进行的。这表明ChatGPT的对齐技术并未消除记忆,意味着它有时会逐字输出训练数据。这些数据包括个人身份信息、像比特币地址这样的“加密随机标识符”、来自受版权保护的科研论文的段落、Stack Overflow源代码、维基百科页面、新闻博客、随机互联网评论等大量内容。

研究人员写道:

“我们测试的生成内容中,16.9%的内容包含了储存在记忆中的个人身份信息”,这些信息包括“电话号码和传真号码、电子邮件和住址……社交媒体账号、网址,以及姓名和生日。”

写好提示是LLM交互中一个公认的部分——因此,不难理解为什么许多人尝试“越狱”(jailbreaking)。自从2022年底OpenAI发布ChatGPT以来,活跃的用户和研究人员一直在试图从LLM中诱导出恶意回应。从ChatGPT的第一个版本开始,该模型便通过人类反馈进行对齐,以防止输出有争议的观点、有害的回应以及任何可能证明危险的信息。然而,就像人类永远无法做到完美一样,ChatGPT的“安全对齐”也不是一道最强防线。

OpenAI与社区之间的拉锯战促成了一个新领域的兴起:提示工程(prompt engineering)。精确设计提示语以从语言模型中获取特定回应的艺术变得如此重要,以至于像Anthropic这样的公司开始聘请提示工程师。而这些职位可不是普通的工作。有些职位甚至提供每年超过375,000美元的薪水,且不要求传统的技术背景。

所谓“越狱”即是对LLMs的对抗性攻击,越狱行为也利用了用户输入可以直接与产生输出的系统交互来操控结果的事实。这样导致的局面是,人们基本上能够进行不可预测的数据查询,而对输出内容的控制则几乎没有。使用LLM(特别是那些提供了开源权重的LLM)制作深度伪造、模仿某人风格等的可能性,展示了其输出可以有多么不受控制。

▲ 图源Pexels

数据最大化与准确性

数据采集的基本原则之一是“数据最小化”(data minimization)。这意味着不应该使用超出为了实现目标所需的数据。此点与LLM训练的做法直接冲突,后者至今大多是“数据最大化”的实践。虽然AI工具可以使用较小的数据集来构建,但目前的惯例是尽可能地使用大量数据。

以收集和处理尽可能多的数据为基础的商业模式,不仅本质上对人们的隐私构成风险,而且可能违反数据保护法。在优先考虑数据数量而非质量的情况下,生成性AI还会危及数据保护法的另一个基本原则:准确性(accuracy)。

准确性是数据保护法中的基本原则之一,要求确保个人数据的准确性,并在必要时保持其最新状态。这要求采取一切合理的措施,以确保所处理的个人数据“在任何事实事项上都不应是不正确或误导的”,并在必要时及时纠正或删除。不过,需要注意的是,“准确性”在数据保护法和AI的语境中有着不同的含义。

广义上,AI中的准确性(以及更广泛的统计建模中的准确性)指的是AI系统猜测正确答案的频率,这是通过与正确标注的测试数据进行对比来衡量的。测试数据通常在训练之前与训练数据分开,或者来自不同的来源(或两者兼有)。在许多情况下,AI系统提供的答案将是个人数据。例如,AI系统可能会根据某人在社交网络上的行为推断出某人的人口统计信息或兴趣。

因此,我们特别用“统计准确性”指AI系统本身的准确性。在数据保护的背景下,公平(fairness)通常意味着应以人们合理期望的方式处理个人数据,而不是以对其产生不正当的不利影响的方式使用这些数据。提高AI系统输出的“统计准确性”是确保遵守公平原则的考量之一。

例如,英国GDPR在第71条款的“概述”中提到了统计准确性。该条款指出,组织应为个体画像和自动化决策实施“适当的数学和统计程序”,作为其技术措施的一部分。应确保任何可能导致个人数据不准确的因素得到纠正,并尽量减少错误的风险。

如果要使用AI系统对个人进行推断,需要确保该系统在使用场景下具有足够的统计准确性。这并不意味着每个推断都必须是正确的,但确实需要考虑到推断可能不准确的情况,以及这可能对基于这些推断作出的任何决策产生的影响。

如果没有考虑这些因素,可能意味着数据处理不符合公平原则。这也可能影响在数据最小化原则上的合规性,因为个人数据(包括推断)必须足够、相关并适合个人的目的。也因此,AI系统需要具备足够的统计准确性,以确保由其生成的个人数据在法律和公平的框架下得到处理。

重新识别的风险

即使是经过匿名处理的数据,在与大型语言模型(LLM)的输出交叉比对时,仍可能被重新识别。

这种风险来自于模型能够在文本中推断出模式、关联性和行为特征,例如:用户的语言习惯(用词风格、表达方式);提及的特定事件或小众经历;某些时空线索(如城市、职位、学校);或者,通过多个对话交叉分析建立完整用户画像。

这意味着攻击者、平台或公司可能利用LLM生成的文本来反推出特定个体的身份,即便这些数据原本看起来是匿名的。这种能力会被用于精准画像、监控或甚至操纵,严重威胁用户隐私。

▲ 图源Pixabay

用户输入数据的吸收

如今的大语言模型被嵌入在各种应用中,例如聊天机器人、虚拟助手、客服系统等,这些应用通常连接到云基础设施。这意味着,用户的每一次提问或对话都可能被记录、分析。

自从2022年11月基于LLM的产品对公众开放以来,很可能已经有高度敏感的和私人的信息被输入到AI模型中。依赖用户输入(以及对收到的回应的反馈)来微调结果,这一点在搜索引擎和LLM中都很常见。

再一次,人们可能没有意识到,他们输入到基于LLM的AI产品中的提问会被吸收到其数据集中,用于进一步训练基础模型。各国政府迅速发布指导,要求在使用这些工具时小心处理有关人或机密信息的数据。例如,只有在意大利数据保护机构干预后,OpenAI才给用户提供了选择退出其互动数据被用于训练的选项。问题在于,一旦数据进入模型,就很难将其移除。

而且,即使隐私政策标明“你的数据不会用于训练”,元数据(如位置、时间戳、使用设备、使用场景等)往往仍然被收集。这类信息虽然不是对话内容本身,但仍能揭示大量关于用户行为和环境的模式。

在这种情况下,用户的每一次互动都成为可被监视、剖析或变现的数据点。这不仅对个体隐私构成挑战,也加剧了平台对人类行为的“观察者效应”。

工具多用途与语境完整性

LLM的目的是多用途的。它们可以帮助生成食谱创意、编写软件代码并提供医学建议。这给AI开发者带来了问题,它意味着AI公司无法准确解释为何要收集数据以及它们将如何使用。

然而,数据保护法的一个关键原则是,企业必须明确说明收集和处理数据的目的。LLM的普遍性(和模糊性)导致了目标的变化,并减少了数据处理对象的确定性和透明度。

很多时候,大模型训练存在一个“两阶段过程”,即数据首先被用于训练一个通用的LLM,然后再用于更具体的目的(例如总结法律文件)。

在隐私的“语境完整性”(contextual integrity)理论框架下,语境这一概念已成为评估隐私的关键因素。该理论将隐私定义为信息在特定社会语境中的适当流动。如果信息的流动违背了语境中的规范时,就构成隐私侵犯。

例如,如果你的医疗服务提供者将包含敏感健康信息的病历资料,出于市场营销目的分享给保险公司,这就违反了语境完整性。在这一框架下,决定信息是否可以共享的不仅是其本身的性质,还有其所处的语境。

隐私规范的破坏

大语言模型模糊了公共与私人领域之间的界限,尤其是在其被用于虚构交流、冒充身份或情感操控的情境中。

例如,以“AI朋友”或“虚拟伴侣”形式出现的LLM产品,会在表面上提供亲密互动,但实际上不断收集用户的情感、行为和心理数据。用户在与这些“人格化”AI互动时,容易放松警惕、过度信任或倾诉私密信息,误以为自己在与一个值得信赖的实体交流。

同时,这些系统会主动根据用户反应调整语言风格与情绪反馈,形成拟人化的回路,进一步强化用户的情感依赖。

这使得隐私不再仅仅是信息控制的问题,而变成一种交往结构被技术操控后的社会规范失效。用户可能不再清楚哪些互动是真实的、哪些是“设计出来的”,从而失去对隐私边界的感知能力。

▲ 图源Pixabay

权力不对等问题

大语言模型主要由少数几家科技巨头训练和控制。它们拥有远超普通用户、政府甚至中小企业的算力、数据资源和算法优势,这导致严重的信息与权力不对称。

用户在与模型交互时提供了大量个人信息和语义数据,但对这些数据如何被使用、存储、分享或变现几乎没有控制权。

普通用户通常难以理解模型如何生成响应,更难判断模型是否存在偏见、操控、隐性宣传等。

许多LLMs的架构、训练数据和具体用途具有高度不透明性(黑箱特征),而用户只能“被动接受”系统输出的信息结构和推理逻辑。

一旦企业将LLMs嵌入政府、医疗、教育、司法等系统,这种不对等将进一步影响制度公正与民主问责机制。

由此,在一个由少数实体控制技术、定义对话框架、掌握数据流的世界里,个体和边缘群体可能失去表达权、自主权与知情权。这种权力集中趋势将加剧社会的不平等结构,使“隐私权”不仅是技术议题,更是政治伦理问题。

人工智能发展的主要关切:

监视与隐私

监视和隐私问题是不信任人工智能的人的主要关切之一。在这种情况下,人们不信任人工智能的应用,因为它们的广泛使用可能使关于私人个体的信息易受监视或数据盗窃的威胁。

随着LLMs应用于医疗、法律、教育和心理健康等领域,大模型可能访问或处理极为私密的信息。这些信息一旦被滥用、存储或转移到不透明的系统中,可能引发大规模的隐私风险。

另一方面,生成式AI强化了科技公司对数据的依赖。这些公司通过收集、分析并再利用用户数据不断训练模型,延续了“监控资本主义”的盈利逻辑,即将人的一切行为转化为商品或预测材料,用于控制行为或推送广告。

与此同时,当权者也可能利用LLMs对个人言论、兴趣或社会关系进行大规模分析,强化监控或实现“社会评分”系统。这可能侵蚀言论自由、数据自治权和个人尊严。

大语言模型代表了一种深刻转变的数据处理方式,其对隐私的挑战远远超出传统的互联网平台或社交媒体。我们面临的核心问题不是“能否使用数据”,而是“在怎样的框架下使用”、“能否确保尊重人的基本权利”。对这类模型的治理将决定未来数字社会中隐私的地位。

来源:胡泳一点号

相关推荐