摘要:人工智能技术作为一项应用赋能技术,具有显著的“双刃剑”特点。当前,人工智能发展尚处不成熟阶段,从技术层面还未完全解决安全隐患,若被不负责任地使用,则会给国家政治、军事和社会安全带来诸多风险。为使人工智能安全、可信、可靠地发展,亟须加速人工智能安全技术的研发。基
编者荐语
本文深入剖析国外人工智能安全技术热点,涵盖可信大语言模型、可解释性及可信评估测试等关键领域,强调安全性为未来人工智能发展的核心方向。
党亚娟 , 李茜楠 . 国外人工智能热点安全技术发展情况研究[J]. 信息安全与通信保密 ,2024(12):1-8.
摘要
人工智能技术作为一项应用赋能技术,具有显著的“双刃剑”特点。当前,人工智能发展尚处不成熟阶段,从技术层面还未完全解决安全隐患,若被不负责任地使用,则会给国家政治、军事和社会安全带来诸多风险。为使人工智能安全、可信、可靠地发展,亟须加速人工智能安全技术的研发。基于对人工智能带来的现实与潜在安全风险的认识,从人工智能技术发展所面临的内在风险和应用风险方面总结了近年来国外人工智能发展的热点安全技术,对可信大语言模型、可解释、可信评估与测试等技术的发展情况进行了深入研究,提出了安全性是人工智能技术未来发展的重要方向,应加速研发相应技术,谨防人工智能的“野蛮生长”,推进“人工智能向善”。
论文结构
0引言
1人工智能技术安全风险
1.1人工智能技术内在风险
1.2人工智能技术应用风险
2人工智能安全热点技术发展情况
2.1可信大语言模型
2.2可解释
2.3可信评估与测试
3几点认识
3.1人工智能发展已从“野蛮生长”转向“负责任发展”
3.2规制人工智能健康发展的指导性文件将持续完善
3.3发展安全的人工智能是全球面临的共同课题
4结语
0引言
近期,ChatGPT等生成式人工智能引起了人们对智能系统安全性的担忧,同时致命性自主武器的使用问题在国际社会也一直存在巨大争议,这对于人工智能技术的长期持续性创新发展带来了巨大的阻力,人工智能安全问题越来越受到重视。国外正积极推动人工智能安全技术研发,在可信、可解释、评估与测试等技术方面开展了大量研究,旨在缓解人工智能应用风险,提升智能系统的可靠性,加速人工智能与各领域的深度融合,特别是国防关键领域,从而在各应用领域实现技术领先。
1人工智能技术安全风险
作为新一代信息技术,人工智能的赋能效应和应用潜力,正推动着多领域技术和产业变革,使其迅速成为提升国家综合实力、获取未来竞争优势的关键要素。同时,随着人工智能技术的广泛应用,越来越多的人意识到其带来的安全问题,对人工智能的应用焦虑有所上升。根据Ipsos调查,约有49%的受访者担心人工智能恶意使用及滥用,约有24%的受访者担心人工智能潜在的偏见和歧视问题。
1.1人工智能技术内在风险
当前,人工智能技术发展尚处不成熟阶段,技术层面还未完全解决内在风险隐患,自身存在的缺陷与弱点可能为使用人员带来不可预测的后果。例如,人工智能算法在执行过程中通过自动更新操作参数及规则,执行过程不透明,导致决策结果变得难以理解,可解释性差,造成使用人员对结果的信任度低。而且,人工智能算法由设计人员编制,其主观偏见与歧视将被带入算法程序设计中,同时,算法在与用户交互过程中,如果用户恶意输入涉及误导性的语言,致使智能系统“无意”中学习到这些内容,也将影响系统输出结果。为此,国外研究人员聚力加强算法可解释性,如可信大语言模型框架、新型卷积神经网络等,提升算法“可读性”,保障算法可信力,以期降低人工智能技术内在安全风险。
1.2人工智能技术应用风险
人工智能技术的应用过程中对政治、经济、军事、社会伦理道德等方面带来诸多挑战,尤其是在军事领域。人工智能赋能的系统,当其所处的使用环境与试验环境偏差较大或被恐怖分子、极端组织等利用时,可能出现决策错误、系统控制权夺取等问题,从而引发战场情报信息错误,无人机等自主化武器系统捕获目标失败、攻击时间不当、自主武器对己方或平民目标发动攻击等后果,给战场有效打击、维护国家安全等带来巨大风险。例如,巴以冲突中,以色列军队使用“薰衣草(Lavender)”人工智能软件来识别武装人员与平民,并确定轰炸目标。但在战时环境中,“薰衣草”系统软件受到各种影响,出现了平民及民用场所被打击损伤的意外事件。为此,在人工智能赋能应用场景过程中,应加强前瞻预防与约束引导,对人工智能系统开展评估与测试,增强系统对复杂使用环境的适配性以及对恶意攻击的防御能力。
2人工智能安全热点技术发展情况
为保障人工智能技术安全、向善发展,世界各国积极探索安全技术发展,聚焦可信大语言模型、可解释、可信评估与测试等热点技术,以期约束人工智能技术在其可控范围内快速发展。
2.1可信大语言模型
大语言模型因其出色的自然语言处理能力而获得了极大的关注,以大语言模型为代表的人工智能技术,正成为引领新一代产业变革的核心驱动力,众多国家针对大模型技术研发与应用陆续出台相关政策举措、整合创新资源、布局新兴赛道。然而,大语言模型也面临许多挑战,尤其是在可信度方面。根据斯坦福大学以人为中心的人工智能研究所发布的《2024 年人工智能指数报告》(Artificial Intelligence Index Report2024),研究人员利用DecodingTrust基准对现有大语言模型进行可信度评估,GPT-4得分只有69.24。
可信大语言模型技术聚力保障大语言模型的研发过程与使用过程对相关人员足够透明,防止人工智能系统对人造成无意伤害,以提升大语言模型的可信度的一系列相关技术。
2.1.1人工智能龙头企业利用多种技术优化大模型的可靠性
OpenAI公司已采取措施确保大语言模型在训练数据、训练方法和下游应用中的可信度。在预训练数据方面,OpenAI实现管理、过滤删除有害数据。在训练方法方面,对WebGPT模型添加了引用来源的功能,使得模型回应来源准确,帮助评估者及时识别模型中不准确信息。在下游应用方面,2023年12月,OpenAI在其官网发布引入“准备框架”,用于跟踪、评估、预测和防范日益强大的大语言模型可能出现的安全问题。
Meta公司致力于发展负责任的人工智能,提出了隐私、公平、稳健性、透明性和问责制5大发展支柱。在大语言模型方面,该公司针对Llama2使用了有监督的微调和强化学习机制,同时结合人类反馈,使模型符合人类对有用性和安全性的要求,提高了模型的安全性。
2.1.2全球研究人员积极探索大语言模型的可信基准等问题
当前,国外大型龙头企业测试大语言模型可信度的基准缺乏一致性,使得大语言模型可信度的评估变得更难、更复杂。欧洲于2023年11月启动可信大语言模型地平线计划,旨在开发开放、可信、真实的最值得信赖的欧洲大型语言模型。该项目将解决大型语言模型开发面临的诸多挑战,包括确保多语言训练数据的质量和数量足够、保障模型训练的效率和有效性、确定多维目标的整体评估验证基准、增强和改进透明度等。
此外,2024年,来自40个机构的近70位研究者合作提出了涵盖真实性、安全性、公平性、鲁棒性、隐私安全、机器伦理、透明度、问责性8个不同维度的可信大语言模型框架 ,用于对大语言模型可信度的全面分析。同时,研究人员提出大语言模型的可信度与模型能力有着密切关系,尤其是在特定任务中;商业大语言模型在可信度方面优于大多数开源大语言模型;大语言模型存在过度校准问题,它们会错误地将无害信息提示视为有害,从而影响其有效性。最后,研究人员强调不仅要确保模型本身的透明度,还要确保支持可信度的技术的透明度。
2.1.3建立大语言模型监管机构保障其可信度
2023年4月, 欧洲数据保护委员会成立ChatGPT特别工作组,制定人工智能监管通用政策。欧洲数据保护委员会成员讨论了意大利数据保护机构近期因ChatGPT服务对OpenAI采取的执法行动,决定成立特别工作组来加强与监管机构的合作,并就数据保护机构可能采取的执法行动交换信息。2024年5月,该机构发布了《ChatGPT工作组工作报告》,初步评估了ChatGPT相关的《通用数据保护条例》合规性问题。同时,2023年11月,美国商务部宣布美国国家标准与技术研究院(National Institute of Standards and Technology,NIST)成立人工智能安全研究所,领导政府人工智能安全和信息方面的工作,以应对快速发展的生成式人工智能所带来的风险。该研究所将招募来自私营或公共部门的志愿者和技术专家,重点关注与生成式人工智能相关的风险,并制定了短期、中期和长期目标,帮助解决生成式人工智能相关的机遇和挑战,以确保在人工智能应用程序开发及使用前、中和后阶段规避和管理风险。此外,英国也成立了首个专门研究人工智能安全的研究机构,探讨人工智能风险,提高人们对人工智能安全性的认识。
2.2可解释
人工智能技术很大程度上得益于相关算法的进步,尤其是基于神经网络的深度学习算法已成为人工智能技术最为热门的研究领域之一。但同时,巨量参数的人工智能算法在运行过程中会自动更新算法参数及规则,执行过程不透明,进而导致输出结果难以解释,从而严重影响人们对人工智能的信任度。
可解释技术主要是帮助人类理解模型是如何工作的,理解模型内的决策过程,能够最大限度地使人工智能系统的行为对人类更透明、更容易理解、更可信。
2.2.1利用新型卷积神经网络改进多层感知器的可解释性
2024年4月,美国国家科学基金会人工智能与基础交互研究所、麻省理工学院等机构研究人员提出了KAN(Kolmogorov-Arnold)全新神经网络框架。当前,多层感知器是深度学习算法中较为常用的模型,但是其在解释性和计算效率方面存在一定局限。KAN将多层感知器的神经元固定激活函数,调整为可学习的权重激活函数。同时,研究人员通过大量实验证明了该框架具有作为基础模型的潜力,在实际应用过程中,KAN可以通过可视化的方式直观地展现多层感知器无法提供的可解释性和交互性。KAN为未来深度学习算法提供了新的解决方案。
2.2.2利用词典学习分解语言模型探索人工智能可解释技术
2023年9月,Anthropic公司发表了其在可解释领域的相关工作,将人工智能模型中最基本的神经元分解成特征元素 。这些特征元素代表了不同的含义且具有可解释性,如脱氧核糖核酸序列、超文本传输协议请求、专业术语等,也为理解模型神经网络工作模式提供了思路。研究团队通过采用稀疏自动编码器的弱字典学习算法,从512个神经元中提取出来4 000多个可解释特征。同时,经过盲审评估系统,单个特征的行为比神经元行为更容易解释且可控。
2.2.3利用大语言模型探索人工智能可解释技术
2023年5月, 美国OpenAI公司提出了利用大模型自动化对语言模型本身的原理进行解释。在该过程中,OpenAI公司使用GPT-4来生成和评分GPT-2中每个神经元的行为。虽然GPT-4生成的解释并不完美,尤其在解释比GPT-2规模更大的模型时,效果更是不佳。但是,OpenAI公司也提出了3种提高解释性的方法,以期在未来改善可解释技术。
2.3可信评估与测试
可信评估与测试技术主要是通过监管、技术保护等手段评估人工智能技术的安全性,确保人工智能在应用过程中的安全。人工智能评估与测试技术通过设立一定的安全检测标准,使人工智能技术的安全性可以度量,可有效缓解风险,而实现分类分级管理。
2.3.1头部企业对其人工智能模型开展公开安全与风险评估
大模型系统的安全测评对于确保模型的安全性和稳定性至关重要,OpenAI公司在推出其最新人工智能模型之前均会进行安全措施和风险评估,如GPT-4、DALL-E3等模型在发布前都进行了类似的安全测试与评估。2024年8月,OpenAI公司对GPT-4o执行了内部团队和外部测试人员的风险评估,认为该模型总体风险等级为“中等”。其中,模型在自身风险框架中的网络安全、生物威胁、模型自主性方面的风险等级为低风险,但在说服力方面的风险等级为“中等”。同时,OpenAI公司也利用模型评估与威胁研究(Model Evaluation and Threat Research,METR)和Apollo研究,进行了第三方风险评估。作为模型迭代部署过程的一部分,OpenAI公司将继续评估结果并更新相应缓解措施。
2.3.2NIST 发布人工智能模型风险测试平台
2024年7月,NIST发布了名为Dioptra1.0的人工智能模型风险测试平台,支持NIST人工智能风险管理框架,可评估、分析、追踪人工智能模型风险和恶意攻击,尤其是针对AI模型训练数据的“投毒攻击”。该工具是一款开源工具,是提供人工智能基准测试和模拟威胁的平台。当前,该模型只适用于可以下载到本地运行的人工智能模型,不适用于在线模型。
2.3.3发布针对人工智能模型安全性的评估框架
2023年6月,DeepMind、剑桥大学、牛津大学、多伦多大学、蒙特利尔大学、OpenAI、Anthropic等多所顶尖高校和研究机构联合发布了一个用于评估人工智能模型安全性的框架,有望成为未来人工智能模型开发和部署的关键组件。研究指出,通用人工智能系统的开发人员必须评估模型风险,尽早识别,从而保障模型训练、部署等过程更安全。新提出的框架可评估模型在多大程度上具有实施危险行为的能力,有助于让决策者和其他利益相关者了解详情,以及对模型训练、部署和安全做出负责任的决定,降低人工智能风险。
3几点认识
当前,世界各国开始重视人工智能安全问题,开展人工智能安全技术的探索和广泛合作交流,旨在推动人工智能技术的合理合规应用。
3.1人工智能发展已从“野蛮生长”转向“负责任发展”
人工智能技术是一把“双刃剑”,在带来机遇的同时也引发了众多风险。近年来,主要国家注重开展负责任的人工智能建设,纷纷制定监管措施来规制其“野蛮生长”,如欧盟《人工智能监管法案》立法,为严格监管人工智能发展迈出了关键性的一步;美国总统拜登于2023年10月签署首份关于人工智能安全发展的总统令——第14110号行政命令“关于安全、可靠和值得信赖的人工智能”,对白宫一系列措施提供总体指导,保障人工智能在美国长期创新安全发展。
3.2规制人工智能健康发展的指导性文件将持续完善
人工智能技术在未来发展中充满了不确定性。当前,各国基于自身发展现状,制定了人工智能发展技术及管理框架。美国总统拜登于2023年4月在白宫人工智能讨论会上表示,“要抓住人工智能技术带来的机遇,必须先管理它的风险”,相关政策法规的完善对于发展至关重要。预计未来,针对人工智能安全技术发展的指导方针、监管措施等文件将持续出台,各国将在如何规制人工智能安全发展方面提出具体实施路径,约束人工智能技术在其可控范围内快速发展。
3.3发展安全的人工智能是全球面临的共同课题
当前,人工智能技术在各领域实现了快速应用,但并未在国际上形成统一的安全标准与使用规则,这可能导致各国对安全的界定出现分歧,致使技术应用引起国际纷争。目前,国际社会意识到人工智能安全发展的重要性,频繁举办国际会议,共同制定使用规则,促进基础性人工智能技术研究的进步,加速研究成果向应用转化。仅2024年,国际社会就针对人工智能安全问题举行了数次会议,如人工智能首尔峰会、2024世界人工智能大会等。预计未来,国际社会关于人工智能技术的安全使用将展开更多的讨论,各国将表明自身立场,国际性的公约将陆续推出,促使各国尽快达成共识,确保人工智能技术始终处于人类控制之下,防止人工智能军事应用加剧战略误判、损害全球战略平衡与稳定。
4结语
当前,世界各国已确立了以安全、可靠、可控为重点的人工智能技术发展方向,积极推进新技术研发,降低人工智能技术应用风险,切实解决人工智能技术引发的安全问题。然而,人工智能技术的发展仍然面临计算资源有限、数据质量差、应用成本高、伦理道德挑战、人才短缺等问题,需要世界各国相互协助,加强技术交流、共享研究资源,确保人工智能技术发展符合所有国家的价值观,促进人工智能技术的高速发展。
作者简介
党亚娟(1990—),女,硕士,高级工程师,主要研究方向为军事电子科技情报;李茜楠(1990—),男,硕士,工程师,主要研究方向为军事电子科技情报。来源:信息安全与通信保密