摘要:本文深入浅出地剖析了涉密信息系统的核心安全要点,并巧妙地将之与生成式人工智能的最新进展相融合,揭示了大数据与智能技术如何为网络攻防带来新的机遇与挑战。
编者荐语
本文深入浅出地剖析了涉密信息系统的核心安全要点,并巧妙地将之与生成式人工智能的最新进展相融合,揭示了大数据与智能技术如何为网络攻防带来新的机遇与挑战。
摘要
涉密信息系统是存储、处理国家秘密的计算机信息系统。近年来,随着生成式人工智能的快速发展,其通过已有知识快速推断生成大量数据的“涌现”能力被应用在网络攻防的各个领域,促进了网络安全技术的加速迭代。从涉密信息系统安全要点出发,结合生成式人工智能的现有能力和应用场景,系统地阐述了以大语言模型为代表的生成式人工智能技术给涉密信息系统安全带来的促进作用和挑战。此外,从实践角度出发,针对涉密信息系统管理人员,从生成式人工智能的使用和防护 2 个方面给出了针对性建议。
论文结构
0引言
1涉密信息系统的安全要点
1.1安全审计
1.1.1应用审计
1.1.2终端审计
1.2出入口控制
1.3态势监控
2生成式人工智能给涉密信息系统安全带来的促进作用
2.1 服务安全审计
2.1.1自动化生成审计报告
2.1.2基于审计日志的人物画像
2.2 强化出入口控制
2.2.1出口防夹带审查
2.2.2恶意软件输入管控
2.3强化态势监控
3生成式人工智能给涉密信息系统安全带来的挑战
3.1 安全要素伪造
3.1.1审计记录伪造
3.1.2网络节点伪造
3.1.3安防监控伪造
3.2 敏感信息挖掘
4对涉密信息系统管理人员的建议
4.1发挥生成式人工智能促进作用的建议
4.1.1根植数据资产理念
4.1.2统筹应用服务接口
4.2预防生成式人工智能危害的建议
4.2.1引入先进识别技术
4.2.2规范信息脱敏流程
5结语
0 引言
涉密信息系统是存储、处理国家秘密的计算机信息系统,其安全性与国家安全息息相关。受提升安全监管效率的正向激励和外部攻击升级的反向倒逼等因素的影响,在涉密信息系统内引入生成式人工智能技术已是大势所趋。在这一背景下,本文结合涉密信息系统特点,充分调研大语言模型技术及其应用,系统性地梳理并分析了生成式人工智能对涉密信息系统安全的促进和挑战作用。
1涉密信息系统的安全要点
不同于互联网,涉密信息系统与外界网络系统进行物理隔离,从根本上杜绝了被外界直接网络攻击的风险。因此,涉密信息系统安全的核心要点与其他网络系统有着较大差异。生成式人工智能给涉密信息系统安全带来的促进作用如表 1 所示,展现了涉密信息系统内安全审计、出入口控制和态势监控 3 个安全要点的细分需求、难点、基于生成式人工智能的促进方案及可选技术。
1.1安全审计
涉密信息系统需要严格控制用户身份和行为,因此有着严格的安全审计机制,进而保证用户在涉密信息系统内的各类操作均能做到记录留痕。涉密信息系统内的安全审计主要分为应用审计和终端审计 2 类。
1.1.1应用审计
应用审计是指在应用系统内对用户行为进行的审计,其通常会记录用户在应用系统内登录、注销及对数据访问等操作行为。应用审计可以帮助检测和防止未经授权的访问或活动。通过审计用户操作,可以及时发现可能存在的安全漏洞或攻击行为,并采取相应的措施加以防范和修复。此外,应用审计还可以用于确定应用系统内特定操作或事件的责任人,辅助事故责任追究和处理。
1.1.2终端审计
终端审计是指监控和记录终端设备上的用户活动和行为的过程。主要涉及收集和分析用户登录、命令执行、文件访问、网络连接等数据,以提供对用户操作的可追溯和可验证过程。终端审计能够监控用户活动,检测用户的异常行为,从而识别潜在的安全威胁。例如,未经授权的访问、恶意软件的部署或潜在的数据泄露。因此,终端审计同样是安全审计的重要组成部分。
出于对操作日志保留和行为可追溯的考虑,涉密信息系统内往往存在大量自然语言格式和多来源的审计日志。人工解读审计日志并从中寻找异常行为不仅耗费时间精力,还难以保证结果的准确性和全面性,因此系统管理员需要配备能够批量智能化解读审计日志的辅助工具。生成式人工智能对自然语言处理、分析和总结的能力与批量审计的响应需求相匹配,可用于提高审计报告的全面性和审计日志中的信息挖掘效率,让繁杂的审计工作智能化。
1.2出入口控制
出入口控制是涉密信息系统本质安全的关键环节,其有效性决定了对涉密信息系统的防护是否成立。涉密信息系统在网络结构上与外界实施了物理隔离,但仍保留了摆渡中心作为网络内数据的集中输入输出部位。摆渡中心的系统管理员需要严格审查输入、输出信息,以避免恶意信息的渗透和涉密信息的泄露。
涉密信息系统的出入口控制主要面临着 2 大难题:一是大规模的涉密信息系统每天产生的敏感信息量和出入口数据流量很大,人工很难判定出网数据是否包含敏感信息;二是随着加密和混淆技术的发展,恶意用户除简单地将不合规信息加密出入网外,还有可能通过少量、多次的方式,在不显示字段或图片部分夹带敏感信息分批出网。对于这种分批夹带的方式,仅对其中某个文件进行单独审核很难发现问题,审查员也很难从文件的大小等元属性上判断是否有额外夹带的情况,需要使用其他文件分析技术辅助判断。
受限于时间复杂度高和语义理解能力缺失,传统的基于字符串匹配的算法很难解决出入口控制所面临的难题。与之相对的,具有语义理解能力并可处理复杂任务的生成式人工智能技术则有潜力带来更具可行性的解决方案。
1.3态势监控
涉密信息系统遭受任何破坏都可能导致严重的失泄密事件发生,因此系统管理员需要具备对全系统安全态势监控的能力。态势监控的主要载体是态势评估报告,系统管理员通过解读人工编写或系统自动化生成的安全态势评估报告来监控当前系统的状态。
涉密信息系统态势评估是对系统的可用性和安全性的判别。在态势评估初始阶段就能够发现网络未授权变更和敏感信息不合理汇聚等异常行为,避免敏感信息从物理层面发生泄露。态势评估的一项重要指标是系统内终端的病毒感染情况,物理隔离极大地降低了涉密信息系统被病毒感染的概率,但也增大了系统对病毒的防治成本。涉密信息系统无法实时更新病毒库,无法进行云病毒查杀,一旦终端被感染,病毒会快速蔓延到全网,进而造成信息系统瘫痪等严重后果。
相较于互联网,涉密信息系统病毒防控的准确定位和传播切断更为重要。在不能及时更新病毒特征库的情况下,防病毒系统需要具备及时发现、汇总涉密信息系统内终端异常行为的能力。生成式人工智能预先学习和快速响应的特点可以对提升全局态势监控有效性起到至关重要的作用。
2生成式人工智能涉密信息系统安全带来的促进作用
通过简单的调试,生成式人工智能驱动工具就可以自动且高效地分析、处理任务,达到解放人力的目的。涉密信息系统内目前存在诸多依赖人力的低效工作,本文围绕人工智能对这些工作的促进作用进行分类介绍。
2.1服务安全审计
得益于大语言模型技术和多模态技术的发展,生成式人工智能可以全方面、多角度赋能涉密信息系统的安全审计。
2.1.1自动化生成审计报告
生成式人工智能在审计上最直接的用途即为自动化生成审计报告。审计报告的生成本质上是对一系列审计日志进行信息抽取、分章总结和重新组合的任务,属于大语言模型擅长处理的任务类别。
基于生成式人工智能的自动审计系统如图 1 所示,该系统的工作流程如下:
首先,轮询模块通过定时任务,从各应用系统接口定期获取审计日志信息,并将其存储于中台数据库内。
其次,中台数据库会按照审计报告所关注的段落规则对审计日志进行分区、数据清洗和历史校对,提取出有异常的条目。提示词工程模块会根据输入的异常条目和历史审计报告模板数据,并将其组合成提示词,交给大语言模型进行各段落的撰写工作。
最后,拼接模块会将大模型生成的各段落进行重组,生成本期完整的审计报告,并存放在历史报告数据库内。
除初期投放历史审计报告和编写分区规则外,审计报告自动生成系统不需要额外的人工投入,审计员只需要校对生成的审计报告内容与审计日志的一致性,并依据报告中的各章节内容给出结论即可。报告的分区、组合部分需要由分区和组合模块实现,而非全部交由大语言模型实现,其原因在于目前多数大语言模型的上下文长度受限,在审计报告长度较长的情况下,无法在保证语义一致性的前提下一次性生成审计报告。
随着大语言模型技术的发展,未来通过提示词、思维链、外挂审计日志数据库就可以生成完整的审计报告,进一步减少系统构建过程中的人工工作量。
2.1.2基于审计日志的人物画像
基于审计日志对涉密信息系统内人物进行画像是生成式人工智能对用户审计的主要应用,其应用领域为用户画像的数据源处理和结果解读。例如,由于审计日志的自然语言形态和多来源的特性,很难直接将其用作训练语料,需要管理员对审计日志做额外的加工处理。此外,涉密信息系统内的用户画像通常被作为辅助管理员进行用户监察的工具,其需求的可解释性也远超一般推荐系统。生成式人工智能可以在画像的过程中发现异常信息,从而为管理员提供报警信息。
2.2强化出入口控制
涉密信息系统的出入口控制需要管理人员在短时间内判别大量数据的涉密情况,而应用生成式人工智能技术可以大幅提高涉密信息系统的出入口控制效率和准确性。
2.2.1出口防夹带审查
一直以来,防夹带就是涉密信息系统出口控制的一大难题。审查人员能发现以明文方式混杂在非密文档内的敏感信息,但不具备对超长文档和特殊文件格式的处理能力,因此,推出与之相关的人工智能技术应用显得非常必要。
涉密信息系统的防夹带可以使用敏感信息知识库和夹带文件库 2 类特征库。其中,敏感信息知识库可以用于训练自然语言嵌入式模型。在信息出口点,监管人员可对能直接解析出内容信息的 DOCX、PDF 等格式文件进行分段分句,并将分句依次通过特征库训练出的嵌入式模型转化为知识向量,并与敏感信息进行相似度比对。对于高危的文句,系统给出定位并生成警告信息,以便于审查人员进行进一步校验。夹带文件库可以用于生成式对抗网络判别器的训练。相较于基于知识特征的判别方案,基于二进制编码预训练的生成式对抗网络不限定判别文件的原始格式,但更难以特定的文段信息为依据给出解释性较强的结论。对于涉密信息系统的出口控制而言,漏报造成的潜在危害远高于误报,因此被对抗网络判断为有高危风险的二进制文件,有必要通过尝试解密和转码等其他技术手段再次进行防夹带检验。
基于生成式人工智能的防夹带判别系统如图 2 所示。该系统的核心组件是敏感信息知识库和夹带文件库。其中,敏感信息知识库是由相关规范性文件中的关键文段组成的,可结合通用嵌入层就敏感信息识别任务进行特异化实验。夹带文件库是由过往夹带文件组成的,可以直接用于判别器训练。当防夹带判别系统读取到出网文件时,系统会汇总特征比对信息和判别信息,为审批人员出具综合的夹带情况分析报告。
2.2.2恶意软件输入管控
在物理隔离条件不被破坏的前提下,涉密信息系统入口是恶意软件渗透的唯一媒介。目前,绝大多数的涉密信息系统在输入端都配备了多维度的病毒查杀引擎,但这种引擎对加密后的恶意程序的查杀却无能为力。为杜绝攻击者绕过查杀向涉密信息系统输入恶意程序,涉密信息系统管理员通常会告知用户不得从外部向涉密网络内摆渡加密压缩包,并要求摆渡人员禁止摆渡加密压缩包文件。但仍会有用户试图通过嵌套压缩,即在加密压缩包外再进行一次非加密压缩的方式绕过摆渡员的审查。
摆渡人员需要快速检查出不合规(如含有加密压缩包)及含有病毒的文件,并使用杀毒软件加以处理。因此,摆渡人员需要使用具有智能判别功能且具备能够调用其他软件的工具。大语言模型可以较好地解决此类问题。大语言模型可通过智能体调用文件系统接口和杀毒软件,因此具备独立完成文件合规性判别、病毒查找、病毒杀除全流程的能力。此外,大语言模型还可以调用文件系统接口,依次检查输入文件的合规性,然后查找病毒,在发现病毒后,生成解决方案,调用杀毒组件完成杀毒。对于无法打开文件的情况(如权限问题、操作冲突问题或异常扩展名),大模型也可以按照其储备的知识进行扩展处理,如将明显有被混淆痕迹的非法扩展名文件单独隔离提请人工判断等。总体而言,生成式人工智能可以有效地提升涉密信息系统入口处恶意软件输入管控的效果和效率。
2.3强化态势监控
传统涉密网态势管控的核心是提取信息、数据挖掘和展示。生成式人工智能具备的自然语言解析能力和涌现能力,可以令态势监控的自动化组件不再局限于“先收集,再重组”流程,而是能分析并总结态势管控信息,为监管者提供可读性更强的信息。
传统的系统全局状态监控系统采用从局域网各终端和应用系统内收集信息、集中统计,最终汇总成数字看板的模式。这样的模式初步实现了“数据重组”,但存在以下几个弊端:
(1)数据收集维度单一。传统的态势监控系统往往依赖于应用系统和终端相关推流组件,无法和安防系统联动打通物理和网络监控的壁垒。
(2)监控数据的可用性低,用户难以通过数据直接得出结论。虽然通过统计学手段提取了信息的特征并压缩了整体数据量,但管理员依旧不知道哪些数据是关键数据,数据阈值和系统状态的正常与异常边界在哪里,因此实际并未做到对数据的有效应用。
(3)事件处置存在滞后性。对于需要应急响应的危险情况,由于监控系统自身没有分析和处理的能力,从报警到人工响应的过程有一定的时延。例如,当检测到网络拓扑结构存在异常变化时,无法对其进行快速定位和阻断,而这短暂的时间差就会对保密工作造成难以挽回的后果。
为解决以上弊端,可借助生成式人工智能的多类数据处理能力和自学习能力,建立基于生成式人工智能的态势监控平台。在解决数据收集维度单一问题上,生成式人工智能可以通过计算机视觉,结合图生文技术,实现服务器硬件情况、应用变更情况与监控安防系统的联动,进而确保数据的有效性。在解决监控数据的可用性低问题上,系统通过既往知识的学习,辅以一定的人工规则定义,可以实时判别各指标的状态,并利用自然语言生成组件,基于特定模板生成某时刻的状态报告。在解决事件处置滞后性问题上,态势监控系统可以通过智能体的方式与交换机、防火墙等安全产品的管理软件进行联通,一旦出现重大安全报警,系统可以调用管理端口,对异常部位迅速阻断,防止涉密文件泄露或恶性病毒蔓延等严重后果的发生。总体而言,生成式人工智能可以让涉密信息系统的态势监控更加全局化、合理化、及时化。
3生成式人工智能给涉密信息系统安全带来的挑战
生成式人工智能给涉密信息系统安全带来的挑战如表 2 所示。该挑战主要分为 2 个方面:
一是生成式人工智能极大地便利了攻击者对涉密信息系统内各类安全要素的伪造;
二是生成式人工智能极大地便利了攻击者通过推理等手段从特定信息系统的大量公开文件中挖掘涉密信息。
综合来说,生成式人工智能降低了攻击者的攻击门槛,提高了涉密信息系统的安全防护难度。
3.1安全要素伪造
涉密信息系统依赖多方安全要素交叉验证的方式来保证其安全性。然而,如今几乎所有的安全要素均有被攻击者使用生成式人工智能进行伪造的风险。
3.1.1审计记录伪造
在涉密信息系统中,伪造的日志之间很容易在时间等要素上产生矛盾。然而,对大语言模型而言,对用户行为进行数理建模,通过对历史数据的学习并生成无矛盾的多方审计数据并非难事;对审计要素不全的应用系统更是如此。
3.1.2网络节点伪造
目前,在互联网内,对于使用生成式人工智能学习模拟网络节点行为以绕过监控,已有诸多应用案例。涉密信息系统由于其封闭的特性,网络节点的行为更加简单,也更容易被仿造。一旦攻击者成功伪造网络节点,就可以在管理员没有察觉的情况下持续收集系统内信息,其危害比一次性的数据窃取更大。
3.1.3安防监控伪造
通过应用生成对抗网络组件和神经网络扩散技术,生成式人工智能能够高效、高质量地伪造包含图片、视频在内的多模态数据。攻击者利用生成式人工智能产出的高仿真伪造数据不仅会给安防系统的生物特征识别带来挑战,还可用于替换监控视频信息,危害涉密信息系统的物理硬件安全。
3.2敏感信息挖掘
涉密信息系统与外界具有物理隔离,但出于信息传递的需要,每天仍会有大量数据通过信息摆渡和外界交互。考虑到多数涉密信息系统的公开输出数据都会流向互联网,攻击者有很大概率可以截获和收集这些公开信息。
涉密应用系统向外界传递的数据需进行脱密操作,常用手段是删去部分词汇和段落。对于单独的一篇文档而 言, 以 Transformer 结构预训练模型为代表的 Text2text 生成式人工智能尤其擅长根据上下文内容填空,推测被简单全局替换的信息。对于有时序的、多篇的、从涉密信息系统输入输出的文章而言,攻击者可以对其进行关联分析,将碎片化的内容集中补全,并用垂直领域大模型推理涉密应用系统内的工作内容。总体而言,生成式人工智能极大地增强了攻击者通过公开数据推断敏感信息的能力。
4对涉密信息系统管理人员的建议
通常来说,涉密信息系统更倾向于选用更成熟稳定的、安全系数更高的技术。然而随着生成式人工智能浪潮的到来,受承载业务效率提升需要和外部攻击者倒逼等多重因素的多重影响,涉密信息系统不得不完成整体升级,拥抱技术革新。根据本文论述,发挥生成式人工智能技术促进作用的核心在于利用好其推理涌现能力,而防范生成式人工智能带来危害的关键在于减少系统内派生数据的负面影响。因此,本文对涉密信息系统管理员给出如下建议。
4.1发挥生成式人工智能促进作用的建议
在发挥生成式人工智能的促进作用上,涉密信息系统管理员应做到根植数据资产理念和统筹应用服务接口。
4.1.1根植数据资产理念
无论是在审计、出入口控制还是态势监控上,生成式人工智能能够发挥作用的前提仍是标准化且有时序逻辑的输入数据。对于自然语言解读能力强的大语言模型而言,有逻辑、条理清晰的信息也是指令微调和构建思维链的关键。对于生成式人工智能技术而言,数据是根源,没有数据便无以生存。由于涉密信息系统只能依赖系统内部产生的数据,管理员需要根植数据资产理念,把系统每时每刻产生的各项数据均视为数据资产加以管理,力求保证其完整性,形成从局部到全局的数据清理和汇聚链条,才能使生成式人工智能真正转化为有效生产力。
4.1.2统筹应用服务接口
如果说数据资产是生成式人工智能的根源,那么应用接口就是生成式人工智能的枝叶,其决定了生成式人工智能能否茁壮成长。以大语言模型为代表的新一代生成式人工智能的显著优势在于其能够通过智能体,利用外部资源,补足生成式人工智能在精确推理和实时信息获取方面的短板。因此,若希望在涉密信息系统内发挥生成式人工智能及时决策和处理的优势,管理员需统筹规划应用接口,充分发挥智能体调用外部应用的能力,并利用回滚等机制减少智能体因误操作引发的危害。
4.2预防生成式人工智能危害的建议
在预防生成式人工智能给涉密信息系统安全造成的危害上,管理员须做到引入先进识别技术和规范信息脱敏流程。
4.2.1引入先进识别技术
识别人工智能伪造信息的最优方法就是使用人工智能。在技术快速发展的今天,涉密信息系统管理员应未雨绸缪,参考学术界和工业界的优秀方案,先于攻击者在涉密信息系统内部引入先进识别技术。如利用语言模型的概率曲率分析技术对抗基于主流大语言模型的伪造,综合利用多种技术加快识别速度等。
4.2.2规范信息脱敏流程
最有效防范伪造和推理的方式是不让攻击者获取到涉密信息系统的有关数据。如今,传统涉密信息系统在出口处主要以防范涉密文档外流为主,对文档的脱密主要采用关键字消除等手段,并未做到从语义上消除所有敏感内容。因此,管理员应加强互联网出口侧的防护,规范信息脱敏流程,通过对抗学习添加混淆等方式,加大攻击者获取和利用涉密信息系统相关信息的难度,使其难以获得大量有效语料实施攻击。
5结语
本文介绍了涉密信息系统的安全要点,梳理了生成式人工智能为涉密系统带来的促进作用和挑战。在促进作用上,生成式人工智能具备理解能力、学习能力、智能体操作能力,可以代替人工处理很多涉密信息系统内的任务,并做得更好。在挑战上,生成式人工智能解放了攻击者的生产力,让他们能够更容易地进行数据伪造和数据挖掘,提高了涉密信息系统的安全防护难度。
由于生成式人工智能的发展快、分支多,本文主要调研了目前主流的生成式人工智能模型,还有许多模型未能详尽列出。建议生成式人工智能应用秉承“发现问题,解决问题”的模式,为涉密信息系统内的具体问题寻找对应的生成式人工智能方案,并在合规的前提下展开试点应用。相信随着技术的成熟、相关法律法规的健全和制度的规范,生成式人工智能和其应用产品会融入现有涉密信息系统安全体系,在“对抗为主”的网络安全理念下革新体系内多环节的运作模式。
引用格式
王昊 , 曾思良 , 薛振伟 , 等 . 生成式人工智能对涉密信息系统安全的促进与挑战 [J]. 信息安全与通信保密 ,2024(8):30-40.
作者简介
王昊(1997—),男,硕士,研究实习员,主要研究方向为人工智能、区块链技术、软件工程;曾思良(1978—),男,博士,副研究员,主要研究方向为信息化管理、人工智能、数值模拟;薛振伟(1978—),男,硕士,高级工程师,主要研究方向为信息化管理、网络安全、软件工程;朱行林(1982—),男,硕士,高级工程师,主要研究方向为软件工程、信息化管理、网络安全;温博远(1992—),男,硕士,助理研究员,主要研究方向为信息化管理、网络安全。来源:信息安全与通信保密