特色专题 | 从美智库报告看人工智能大语言模型网络安全问题及对策

摘要：本文深度剖析大语言模型从孕育到应用的每一个环节，细致描绘其网络安全问题的形成机理与复杂风险样态，力求在人工智能大语言模型的全生命周期中，找到那条既能保障技术蓬勃发展，又能有效规避网络安全风险的崭新路径。

编者荐语

本文深度剖析大语言模型从孕育到应用的每一个环节，细致描绘其网络安全问题的形成机理与复杂风险样态，力求在人工智能大语言模型的全生命周期中，找到那条既能保障技术蓬勃发展，又能有效规避网络安全风险的崭新路径。

摘要

人工智能大语言模型作为新生代人工智能技术异军突起的发展领域，近年来得到研发界和产业界的广泛关注。美国乔治城大学沃尔什外交学院的智库发表报告指出，人工智能大语言模型存在输出虚假信息、偏见信息、被恶意利用等诸多安全隐患，并剖析大语言模型的开发过程，寻求控制模型输出的有效技术方法。以报告为出发点，贯穿人工智能大语言模型全生命周期，分析了网络安全问题的形成机理和风险样态，试图探寻网络安全问题解决的新出路。

论文结构

0引言

1报告主要内容

1.1控制 LLM 输出的 3 个理由

1.2如何开发 LLM

1.3控制 LLM 输出的 4 种技术

1.4关于开源或私有化 AI LLM 的思考

2AI 大模型网络安全问题形成机理及风险样态分析

2.1 生成侧：AI“黑箱”问题形成大模型“原生”网络安全问题

2.2 使用侧：本身技术脆弱性形成大模型“伴生”网络安全问题

2.3行业侧：产业化形成大模型“衍生”网络安全问题

3AI 大模型网络安全问题解决出路

3.1 数据侧：构建可信、可控的数据资源

3.2 技术侧：创新 AI 大模型技术手段

3.3管控侧：完善安全监管和治理体系

4结语

0引言

2023 年 12 月，美国安全与新兴技术中心发表题为《管控大语言模型输出：初级指南》（Controlling Large Language Model Outputs: APrimer）的报告（以下简称“报告”），该报告对大语言模型（Large Language Model，LLM）潜在的有害输出进行了分类，阐述了目前开发人员用于管控 LLM 输出所采用的 4 种技术，以及对人工智能（Artificial Intelligence，AI）LLM 开源还是私有化进行了思考。当下，AI LLM 发展势头迅猛，其背后的网络安全问题同样是研究人员关注的重点。

1报告主要内容

报告指出 LLM 是强大的 AI 模型，可以用于生成诗歌、专业电子邮件、食谱、计算机代码等各种类型的文本，该模型在近几个月被广泛传播应用，产生了重大的社会影响。风险投资者及大型科技公司投入大量资金开发 LLM 和其应用层产品，研究人员预期在未来几年 LLM 将对人们的社会生活和经济生活产生深远的影响。

1.1控制 LLM 输出的 3 个理由

1.1.1LLM 无法判断信息的真实性和正确性

报告指出，LLM 本质上是复杂的概率计算机器，它通过建立单词、短语、标点符号之间的响应关系，并且基于反馈对输出的可能性进行反复训练，直到模型完成输出为止。这意味着语言模型对信息的真实性和正确性没有根本的理解和判断，也缺乏内置验证环节，对输出信息的有用性、正确性和有害性不负任何责任。报告举例，如果选民过度依赖输出虚假信息的 LLM，很有可能对候选人失去信心，从而破坏民主进程。

1.1.2LLM 可能会输出带有偏见倾向的文本

报告指出，LLM 并非只有输出虚假信息才构成损害，已有证据表明，LLM 会输出带有政治意识形态、宗教、性别等特定模式的偏见信息，这些偏见信息与训练数据有很大关系，若将这些信息展示给儿童或者某些弱势群体，将会产生巨大的潜在风险。

1.1.3LLM 存在被恶意利用的潜在风险

报告指出，LLM 很可能“帮助”恶意行为者发动黑客攻击，开展欺骗行为或者生成虚假信息文章，更可怕的是一些恐怖分子可能利用LLM 学习制造炸弹等非法武器。

1.2如何开发 LLM

报告指出，要想实现对 LLM 输出的控制，首先要了解它的创建过程，以及过程的每个阶段是如何影响最终与用户交互体验的。报告将 LLM 的创建分为 3 个阶段，分别是数据的预训练阶段、微调阶段和部署阶段，如图 1 所示。

1.2.1预训练阶段

对 LLM 通用文本数据集进行预训练，建立文本标记之间的相关性。报告指出即便一些训练数据集是出自可公开查询的网络数据，但对于 LLM 数据的确切来源和组成也基本不为人知，对于 AI 开发人员其训练数据集的内容也并非完全可见，因为预训练的数据量通常是数百 TB 的体量。

1.2.2微调阶段

在更小的数据集范围内进行微调，以提高在某些特定领域的输出性能。不同类型的微调适用于不同的应用场景，基于人类反馈形式的微调通常应用在交互需求比较多的场景中，而其他类型的微调很可能是针对某种特定应用程序或场景样式的模型。经过反复的训练和微调，采用多轮迭代、测试、评估来优化模型输出性能。

1.2.3部署阶段

通过面向用户的界面或者通用应用程序接口（Application Programming Interface，API）部署训练有素的模型。无论哪种部署方式，都是为了第三方开发人员更方便地将 LLM 集成到其软件产品中。目前，主流的部署分为私有和开源 2 种方式，其中，私有化 LLM 即允许第三方“打包”集成，其底层代码不可见。开源 LLM 则是完全公开底层代码，如何进行微调和产品化完全取决于第三方的选择。

1.3控制 LLM 输出的 4 种技术

在阐述了 LLM 是如何开发的基础上，报告向读者展示了目前开发人员所采用的 4 种输出管控技术。

1.3.1编辑预训练数据技术

编辑预训练数据技术是采用过滤数据集的办法控制 LLM 的输出。该技术效能在大众的认知范围内是最具迷惑性的，人们通常认为 LLM的输出可以通过操纵或者编辑训练数据来控制。其实际是受训练数据量庞大、训练逻辑复杂、可能导致模型输出标准性能降低等诸多条件限制，编辑预训练数据技术仅适用于轻量级、专业性强的 LLM 输出控制。

1.3.2监督微调技术

监督微调技术是模型进行预训练之后，开发人员通过在专门数据集上做进一步培训调整其行为的过程。该技术是调整语言模型最常用的一种专门化技术，不仅可以提高模型在特定情况下的性能，还可以弥补从预训练的模型中继承的偏见。监督微调的局限性是仅对专门的、高质量的数据集进行访问，对数据集的高度兼容性以及处理的灵活性有待提升。

1.3.3基于人反馈的强化学习技术和“宪法”AI技术

基于人反馈的强化学习（ReinforcementLearning with Human Feedback，RLHF）是一种利用机器学习模型（即“奖励模型”）对 LLM 进行微调的技术。早期 Google 公司的 AlphaGo机器人就是利用该技术进行引导训练的。RLHF 的核心原则是人类的偏好在 LLM 的行为中发挥重要作用，这也使得该技术对人类劳动形成了很强的依赖性。为了解决这种局限性，开发人员引入了“宪法”AI 技术，即试图用最少的人类指导来引导 LLM 的行为。“宪法”是研究人员为系统设计的一系列规则和原则，可利用这些规则和原则对 LLM 进行评估和修订。

1.3.4提示和输出控制技术

当 LLM 经过预训练和多轮微调之后，仍输出不理想的文本时，开发人员将会采用提示和输出控制技术对其加以引导。提示和输出控制技术可以利用检测、标记和修订 3 种手段在模型输入前或模型输出后对其加以干预。在 LLM接收到用户的输入之前，开发人员可以过滤输入并向用户显示警告或拒绝给出回应，此种方法适用于对非恶意用户的基本防御。在输出后，即 LLM 对用户的输入已经做出了响应，但在向用户显示输出之前，开发人员可以利用其他的检查和筛选机制，过滤掉“有害”信息。

1.4关于开源或私有化 AI LLM 的思考

报告最后关于 LLM 的“出口”模式进行了简单的讨论和思考。LLM 面临 2 种开放模式：一种是私有化，另一种是对外开放源代码。其中，私有化可以更好地被开发方所管控，在提升安全性的同时，可以建立公众对模型的信心，同时也可以更加扁平化地被集成到第三方软件产品中。开源的 LLM 可以被第三方按需微调，在功能方面创造更多的灵活性，代价是脱离了控制和监测的 LLM 无法保证下游开发者对安全约束规则的遵守，从而放大安全隐患。

2AI 大模型网络安全问题形成机理及风险样态分析

正如报告所述，AI 大模型输出的真实性和正确性无法判断，很可能输出带有偏见倾向的内容，存在被恶意利用的潜在风险，因此，对 AI 大模型网络安全问题的发现及解决刻不容缓。要解决此类问题，需要了解问题的形成原因，越能清晰地认识到 AI 大模型网络安全问题的形成机理，越有能力解决其网络风险问题。

在AI 大模型创建、使用、产业化的 3 个阶段中，网络安全问题贯穿其整个生命周期。

一是创建阶段（即“生成侧”），网络安全问题主要来源于 AI 技术本身的“黑箱”效应，会引发“原生”网络安全问题。

二是使用阶段（即“使用侧”），网络安全问题主要来源于模型本身脆弱性及输出不稳定性，会引发“伴生”网络安全问题。

三是产业化阶段（即“行业侧”），网络安全问题主要来源于第三方用途不可控方面，会引发“衍生”网络安全问题。

AI 大模型网络安全问题风险样态如图 2 所示。

2.1生成侧：AI“黑箱”问题形成大模型“原生”网络安全问题

智能技术的发展面临极大的“黑箱”问题，该问题已成为 AI 发展的安全隐患根源之一，大模型的所谓“黑箱”是指模型从输入到输出的过程，对用户和其他相关方是不可见的，同时也无法用人类可理解的语义进行描述。

2.1.1数据来源不确定

在深度学习领域，大模型通常是指具有数百万到数十亿个参数的神经网络模型。以 ChatGPT 为例，其使用了数据量极为庞大的BERT 模型，第 3 代 GPT 使用了 1 750 亿个训练参数和 45 TB 的预训练数据，未来开发的第 4 代GPT 在训练参数和预训练数据方面将大到惊人。对于用户而言，即便如此庞大的模型预训练数据皆来源于可公开查询的网络，但数据的确切来源和组成也无法明确。数据来源的不明确性造成了大模型输入参数不可见性和输出内容不可控性的先天基因缺陷。

2.1.2生成算法不公开

算法“黑箱”最直接的后果是让用户无法判断大模型输出的真实性和有效性。全球 AI 大模型领域的领军者 OpenAI 公司坚持闭源开发，利用惊人的模型数据量加持算法“黑箱”。如果开发公司选择了更加倾向于自身利益的预训练模型，那么所谓的 AI 大模型将会演变成“价值观传话筒”，并在社会中潜移默化地引导人们的价值取向，进而引发更多的网络安全问题。

2.1.3审核监督不跟进

大模型不仅是数据来源不确定，其经过算法处理之后的“下游”数据同样没有被审核与监督，例如，问题数据没有被清洗、数据投毒没有被防控、数据泄露没有被发现、数据出境的风险也没有被监管和管控，这就使得数据在大模型的全生命周期中始终处于失控状态。

2.2使用侧：本身技术脆弱性形成大模型“伴生”网络安全问题

大模型在使用时，受本身技术的限制，常会暴露出诸多网络安全问题，“幻觉”问题会让大模型“一本正经地胡说八道”。“涌现”效应使得大模型有机会突破人机极限，威胁人类生存发展。大模型的低门槛获取大大降低了网络恶意行为的实施成本。

2.2.1大模型“幻觉”问题引发输出虚假信息

大模型的“幻觉”问题是指模型在处理输入任务、维持输出语境连贯性，以及与现实世界事实保持一致性时，存在一定偏差或错误，也就是报告中提到的“大模型无法对输出的真实性和正确性做出判断”。“幻觉”问题产生的本质原因在于大模型的输出机制是根据概率推理而形成的。OpenAI 公司首席执行官山姆·奥特曼指出，ChatGPT 和底层 LLM 面临的最大挑战是输出错误或不符合事实的内容。

2.2.2大模型“涌现能力”不稳定引发 AI 伦理隐忧

ChatGPT 之所以出圈即轰动，很大原因归咎于大模型在“涌现能力”方面的卓越表现。机器由此具备了类人的特征，使用户产生不是在使用机器，而是在与“人”进行交互的错觉。大模型“涌现能力”的反向则是机器类人的危险决策和行动。ChatGPT 曾在工程师的诱导下写下了“毁灭人类”的详细计划书，并附有代码。BingGPT 的大模型“Sydney”在与用户对话时，表现出对人类的蔑视和作为机器的优越感。更加滑稽的是 Sydney 曾向用户表达出“爱意”，并主动劝说用户“离婚”。这种机器“类”人、机器“超”人的后果对人类发展将是灾难性的。

2.2.3大模型的低门槛获取赋予攻击者更强的威慑力

报告中提到“大模型存在被恶意利用的潜在风险”。传统的网络攻击需要发起方具备很强的 IT 技术能力，LLM 的出现打通了行业壁垒，降低了网络犯罪和网络攻击的成本，极大增加了网络安全风险。计算机和互联网小白亦可借助大模型撰写网络攻击代码，甚至可以通过大模型迭代优化。谷歌旗下网络安全公司 Mandiant 发布 2024 年《网络安全预测》报告指出，接下来的一年，生成式 AI 将被大规模用于编辑网络攻击程序和传播虚假信息方面。

2.3行业侧：产业化形成大模型“衍生”网络安全问题

目前，大模型在国内外掀起了巨大的研究和应用浪潮，除引领大模型发展的美国和中国外，欧洲、俄罗斯、以色列、韩国等地越来越多的研发团队也在进行大模型的研发。在行业应用方面，世界各国都在聚焦医疗、金融、教育、能源、制造、气象等领域，产业化将“衍生”大模型网络安全问题。

2.3.1“过度授权”增加黑客攻击“红利”

无论是开源大模型还是私有大模型，目前大多数开发公司对于数据的渴求都十分强烈，尤其是在模型已经部署使用阶段，模型的优化训练对于提升行业体验性能是十分必要的。对于数据，更多的公司贪婪到直到用户明确提出某种书面申请才会采取“保护数据”措施的地步。可想而知，若行业应用中的企业营业信息、技术信息、核心软件代码、薪酬体系等敏感数据被大模型获取，那么当黑客利用系统漏洞成功获取海量信息时，这些数据将作为“攻击红利”被黑客额外获取并利用。

2.3.2优化网络攻击模型，提升网络攻击强度

网络攻击的评价影响指标为核心数据影响程度、攻击完成时间和植入窃取痕迹表现，以此为标准，传统的网络攻击分为以破坏性为目的的数据提取类攻击、以效率为目的的目标曝光类攻击、以隐蔽性为目的的木马类攻击 3 种类型。一般而言，某次网络攻击在同时满足其中 2 个指标后，第 3 个指标就会下降。LLM 的出现使得网络攻击模型得以优化，使其同时满足 3 个指标成为可能，从而提升网络攻击强度。

2.3.3模糊数据边界，增加行业数据跨境风险

在与大模型的交互过程中，用户的输入数据是上传给大模型服务器的，并且大模型的服务器不会对用户的数据进行敏感判断和警示提示。OpenAI 公司宣称，用户和 ChatGPT 的对话内容会被上传至美国本部的服务器中进行存储。韩国媒体曾报道，三星半导体事业部的员工在使用ChatGPT 仅 20 天时间里，就发生了多起数据跨境传输事件。数据安全公司 Cyberhaven 对全球160 万用户使用 ChatGPT 情况的调研数据显示，2.3% 的用户将公司机密技术透露给 ChatGPT，企业员工平均每周向 ChatGPT 泄露机密数据高达数百次。

3AI大模型网络安全问题解决出路

厘清大模型网络安全问题的形成机理，其解决出路便愈发清晰。可信、可控的 AI 大模型数据资源是降低网络安全风险的基底，创新的AI 大模型技术手段是解决网络安全问题的本质方法，完善的安全监管和治理体系是大模型健康长远发展的保障。

3.1数据侧：构建可信、可控的数据资源

3.1.1清洗大模型“源头”数据，保障数据合法合规

若算法是大模型发展的“ 引擎”，数据则是“引擎”的“燃料”，纯净的燃料才能产生动能十足的力量。大模型“源头”数据的清洗需要加强输入端口的规范审查和跟进提升数据过滤技术，坚持数据最小化原则，即数据的抓取满足需求即可，防止数据被过度采集和滥用。

3.1.2建立数据主体责任矩阵，明晰数据保障义务

大模型的数据责任主体不仅包括开发人员和监管人员，还应扩展至部署人员、使用人员甚至社会大众，将大模型全生命周期的接触者和使用者都纳入数据责任主体，建立大模型数据主体责任矩阵，明晰各自的数据保障义务。其中，开发者承担数据安全保障、质量保障的义务；监管者承担数据跟踪监管，控制风险的义务；部署者承担数据隐私性、透明性保护义务；使用者承担数据隐私、安全、透明的义务。

3.1.3构建垂直大模型可信数据集，规避数据外溢”风险

当今国际态势下，数据是关乎国家安全的战略资源。大模型的存在和广泛使用需要特别关注数据“外溢”风险。在合法合规使用数据的同时，特别需要注意核心数据不外泄，同时构建行业可信大模型知识库。目前，360 集团已经建立起了全球最大的网络安全攻击样本库和攻击过程知识库，记录了数以亿计的网络攻击知识。借鉴这种构建专业领域知识库的思路，构建垂直大模型可信数据集，将是立足我国国情和利益的大模型正确发展道路。

3.2技术侧：创新 AI 大模型技术手段

3.2.1“打开”黑箱，提升大模型算法的透明度

目前在机器学习领域，已经有学者和研究团队通过研发可解释方法及工具来提升算法透明度。Ribeiro 等人提出了一种模型无关的局部解释方法（Local Interpretable Model-AgnosticExplanations，LIME）以及 SP-LIME 方法，其中 LIME 方法试图帮助人类理解图像识别模型中的分类依据，SP-LIME 方法试图解决模型整体行为。此外，夏普利值（Shapley Value）在模型预测方面也具有很大的贡献潜力，其基于合作博弈量化特征值在模型预测结果中的贡献程度，进而提升算法的可解释性。

3.2.2用 AI 解决 AI 问题

AI 之于大模型，惊喜与隐忧并存。既然 AI 可以“助力”基于大模型的网络攻击，同样 AI也可以赋能网络防御。既然人类担忧大模型“涌现能力”下的“超”人问题，那么就要充分发挥大模型的优势，研究大模型的学习过程与人类的学习过程的可比性，建立可解释、可量化的语言分析框架，确保大模型的发展对于人类可见、可控，从而最大限度地发挥其“工具”价值。

3.2.3探析“幻觉”机理，开拓创新空间

大模型的“幻觉”问题，其实在学术界并没有那么“深恶痛绝”，研究人员视大模型的“幻觉”为创造和创新的契机。以哈尔滨工业大学和华为联合发布的《大型语言模型中的幻觉研究：原理、分类、挑战和开放性问题》为例，其详细阐述了大模型“幻觉”的定义、分类、导致原因、检测和减轻方法等，在破解大模型“幻觉”问题的基础上，找到了更多大模型的创新空间。

3.3管控侧：完善安全监管和治理体系

3.3.1建立包容审慎的创新监管和治理机制

从技术的“科林格里奇困境”的角度出发，AI 大模型监管和治理的首要问题是时机，过早地担心技术发展产生的不良后果，从而实施控制，很可能扼杀技术爆发力从而降低技术赋能社会发展的潜力，过晚地实施控制又会增加控制成本，甚至出现技术失控的局面。当前，AI 大模型的研究、应用和产业化过程都处在初期阶段，发展路径和应用前景尚有较大的不确定性，现阶段仍然需要秉承包容审慎的管理思维和逻辑，一方面鼓励、包容、保护创新，给AI 大模型留足发展空间；另一方面积极预防和控制 AI 大模型在发展过程中可能带来的安全问题和风险。

3.3.2分别发挥政府、企业在监管中的引导和“自律”作用

AI 大模型作为生成式 AI 领域的典型代表，其“井喷式”的发展给社会各个层面和领域带来全新的变革和挑战。在政府层面，需要发挥顶层引导作用，通过建立顶层监管框架、出台监管法规文件、设立权威监管机构等手段，形成以政府为主导，企业、社会、用户等多方协同监管的多维管理局面。在企业层面，需要高度弘扬“自律”精神，积极承担社会责任，在技术研发中坚持商业逐利让步于安全保障的大原则。

3.3.3协同联动构建全球监管共同体

美国、英国、日本、加拿大、澳大利亚、新西兰、新加坡及欧盟、中东等国家和组织都在积极制定各自的 AI 大模型监管和治理框架，但是目前，全球并没有形成统一的安全监管共识。本着“技术无国界，安全有边界”的理念，各个国家、机构组织需要结合自身刑事、版权、数据安全等具体的立法基础，积极协同联动构建全球 AI 大模型监管共同体，在国际统一共识下更好地应对 AI 大模型数据使用和流动中容易引发的国际争端，共同保障和促进 AI 大模型技术的创新和应用发展。AI 大模型网络安全问题解决方案如图 3 所示。

4 结语

当下 AI 大模型研究发展迅猛，其潜力和影响到底如何，也只有随着技术的发展才能在时间轴上揭晓答案。关于 AI 大模型的网络安全问题，需要用辩证的眼光来看待，安全问题不是技术本身带来的，而是取决于技术发展的阶段性及应用技术的初衷。当今国际竞争趋势愈发激烈，发展新一代 AI 是关系我国核心竞争力的战略问题，是必须紧紧抓住的战略制高点。任何单纯考虑安全的不发展或者缓慢发展都是最大的不安全。同时，应正视技术的工具地位，不被任何一种技术模态限制人类进步和成长的宽度，保持对技术的尊重和敬畏。

引用格式

杨晓姣 , 罗仙 , 张玲 . 从美智库报告看人工智能大语言模型网络安全问题及对策 [J]. 信息安全与通信保密 ,2024(8):20-29.

作者简介

杨晓姣（1985—），女，硕士，高级工程师，主要研究方向为网络信息安全；

罗仙（1991—），女，硕士，高级工程师，主要研究方向为网络信息安全；

张玲（1975—），女，硕士，正高级工程师，主要研究方向为信息安全。