【论文速读】| 评估并提高大语言模型生成的安全攻击探测器的鲁棒性

摘要：原文作者：Samuele Pasini, Jinhan Kim, Tommaso Aiello, Rocío Cabrera Lozoya, Antonino Sabetta, Paolo Tonella

基本信息

原文标题：Evaluating and Improving the Robustness of Security Attack Detectors Generated by LLMs

原文作者：Samuele Pasini, Jinhan Kim, Tommaso Aiello, Rocío Cabrera Lozoya, Antonino Sabetta, Paolo Tonella

作者单位：

Università della Svizzera italiana, Switzerland

SAP Labs France, France

关键词：Large Language Models (LLMs), Security, Attack Detectors, Retrieval Augmented Generation (RAG), Self-Ranking, Injection Attacks, Cross-Site Scripting (XSS), SQL Injection

原文链接：https://arxiv.org/pdf/2411.18216

论文要点

论文简介： 本文研究了大语言模型（LLMs）在生成安全攻击检测器中的鲁棒性问题。尽管LLMs在生成代码方面具有显著的优势，尤其是在自动化编程和软件开发中，LLMs在生成有效的安全功能（如攻击检测器）时却存在困难，可能会遗漏一些已知的攻击。文章提出了一种新方法，结合了检索增强生成（RAG）和自我排名（Self-Ranking）技术，以增强LLMs生成的攻击检测器的鲁棒性。通过这种方法，模型能够引入外部知识，生成多个推理路径并进行排序，从而提高攻击检测的准确性。实验结果表明，该方法在检测跨站脚本攻击（XSS）和SQL注入攻击时，比传统方法表现出了显著的性能提升。

研究目的：本研究旨在解决LLMs在生成攻击检测器时遇到的鲁棒性问题。特别是，LLMs在缺乏对一些已知攻击的全面理解的情况下，生成的攻击检测器可能无法准确地识别这些攻击。通过提出并验证一种新方法，结合了检索增强生成（RAG）和自我排名技术，本文希望能够提升LLMs生成的攻击检测器在实际应用中的准确性和有效性。最终目标是让LLMs能够更好地满足安全需求，减少在实际应用中可能出现的安全漏洞。

研究贡献：本文的贡献主要体现在以下几个方面：

1. 引入了一种新颖的方法，该方法将检索增强生成（RAG）与自排序相结合，用于评估和提高大语言模型（LLM）生成的攻击检测器的稳健性。

2. 使用九个大语言模型和两种攻击方式进行了广泛的实证实验，证明了方法的有效性。

3. 探索了两个任务之间最优参数的可迁移性，为确保大语言模型生成的代码的安全性提供了一种可推广的方法。

引言

引言部分详细描述了大语言模型（LLMs）在现代软件开发中的应用，尤其是在自动化编程和生成攻击检测器等方面的优势。然而，随着LLMs被越来越多地用于生成与安全相关的功能，开发者开始面临新的挑战和风险。尽管LLMs在处理自然语言和生成代码方面非常强大，但它们在生成安全相关代码时可能会忽略一些复杂的安全需求，或者生成的代码可能缺乏对已知攻击的有效防范。例如，生成的攻击检测器可能错过一些常见的安全漏洞，这主要是因为LLMs缺乏对现有攻击的深入理解，且生成的代码未经过真实环境的评估。

为了解决这一问题，本文提出了一种创新的方法，结合了检索增强生成（RAG）和自我排名（Self-Ranking）技术。这一方法旨在增强LLMs生成攻击检测器的鲁棒性，尤其是在处理复杂的网络安全问题时。例如，在Web安全领域，XSS和SQL注入攻击是最常见的两种攻击方式，但现有的LLMs生成的代码往往无法有效地检测这些攻击。因此，本文通过引入外部知识和优化生成过程，提升了检测性能。

研究背景

随着人工智能技术，特别是大语言模型（LLMs）的发展，自动化编程的潜力得到了极大的发挥。开发者如今能够借助GitHub Copilot等AI编程助手快速生成代码并进行初步的功能实现。然而，这些AI助手生成的代码可能带来潜在的安全隐患。尤其是在涉及到攻击检测器和其他安全功能时，LLMs往往无法生成符合严格安全需求的代码，导致安全漏洞的出现。

现有研究表明，LLMs缺乏对攻击模式的全面理解，且生成的代码在真实场景中未经过充分测试。基于这一问题，本文提出了一种新的方法，通过结合RAG和自我排名技术，来增强LLMs生成的攻击检测器的性能和鲁棒性。通过这种方法，模型能够更好地适应复杂的安全需求，减少错误的发生。

研究方法

本文的研究方法主要集中在如何提高由LLMs生成的攻击检测器的准确性和鲁棒性。为此，研究者提出了一种集成了检索增强生成（RAG）和自我排名（Self-Ranking）的创新方法。

检索增强生成（RAG）：通过结合外部知识库，RAG使得模型在生成代码时能够借助来自更广泛的资源的信息，从而提高对攻击模式的识别能力。具体而言，RAG通过检索相关的信息并将其结合进生成过程，帮助LLMs在生成攻击检测器时获得更全面的知识，增强代码的安全性和准确性。

自我排名（Self-Ranking）：借鉴自我一致性（Self-Consistency）的方法，自我排名技术通过生成多个推理路径并对它们进行排序，从中选取出表现最优的路径。具体应用到攻击检测器生成上时，模型会生成多个可能的解决方案，并通过评估它们的鲁棒性，最终选出最有效的检测器。

这些方法的结合，旨在解决LLMs生成攻击检测器时存在的局限性，尤其是在面对复杂的网络安全问题时，能够有效提高检测器的表现。

实证研究

实证研究部分的核心是验证LLMs生成的攻击检测器在实际场景中的表现，尤其是在Web安全中最常见的两种攻击方式——跨站脚本攻击（XSS）和SQL注入攻击（SQLi）中的检测效果。研究者设计了一系列实验，以评估通过结合检索增强生成（RAG）和自我排名（Self-Ranking）技术的LLMs生成的检测器，是否能够显著提高对这些攻击的识别能力。

1. 实验场景设计

为了全面评估LLMs生成的攻击检测器性能，研究者采用了两种主要的实验场景：

· NTD（New Task Detection）场景：该场景侧重于评估在不同配置下，使用RAG和自我排名技术是否能够提升LLMs在新任务中的性能。具体来说，NTD场景评估了不同LLM配置（例如模型、温度、少量示例等）对生成攻击检测器的影响，并比较了有无使用RAG和自我排名技术的检测效果。

· TDA（Task Domain Adaptation）场景：该场景关注的是LLMs生成的检测器的迁移能力，即能否将针对某一特定任务（例如XSS）优化的配置应用于另一个任务（例如SQLi）。在TDA场景中，研究者检查了最佳的LLM配置在不同任务间的适应性，探索配置的可迁移性。

2. 实验配置和模型选择

在实证研究中，研究者使用了多种流行的LLM模型进行对比，具体包括：

GPT-3.5 Turbo、GPT-4、Claude 3、Llama3、Mixtral 8x7b等。每个模型的性能通过HumanEval的Pass@1得分进行了初步评估。Pass@1分数反映了这些模型在推理和生成复杂算法方面的能力，为后续的攻击检测任务提供了一个基本的参考标准。

在每个模型中，研究者分别测试了不同的上下文窗口大小（Context Window）、训练日期（Up To）以及参数数量，以便对不同配置下的模型性能进行全面比较。

3. 实验过程

NTD场景实验：在NTD场景中，研究团队使用了不同的配置，包括不同的LLM模型类型、温度值（控制生成内容的多样性）、以及少量示例的使用等，来生成攻击检测器。每次生成后，都会进行实际测试，验证该检测器是否能够准确识别XSS和SQLi攻击。

研究的重点是分析引入RAG和自我排名技术后，模型性能的提升幅度。通过这种设置，研究者能够量化RAG和自我排名对生成检测器鲁棒性的影响。

TDA场景实验：TDA场景中，研究者希望检验经过NTD优化的配置是否能够成功转移到其他安全任务中。在这种情况下，研究者将通过在一个任务（例如XSS）中选择最佳配置，并将其迁移到另一个任务（例如SQLi）的测试中，来评估其迁移效果。

例如，如果在XSS检测任务中获得的最佳配置能够有效应用于SQLi检测任务，那么这表明LLM模型在跨任务适应方面的表现良好。

4. 实验结果

实验结果展示了结合RAG和自我排名技术的LLMs在攻击检测任务中的显著优势，特别是在跨站脚本攻击（XSS）和SQL注入攻击（SQLi）这两种常见攻击方式的检测上，取得了显著的性能提升。具体而言：

· XSS检测性能：通过引入RAG和自我排名技术，生成的检测器在XSS攻击检测中相较于传统方法提高了71个百分点（F2-Score）。这一结果显示，RAG技术通过引入外部知识，提高了模型对XSS攻击模式的理解，而自我排名技术则通过多重推理路径的生成，提高了检测的准确性。

· SQLi检测性能：在SQL注入攻击（SQLi）的检测中，使用了相同的技术后，性能提升了37个百分点（F2-Score）。这一提升表明，RAG和自我排名技术不仅能提高对XSS的检测能力，同样对SQLi等注入攻击也有显著的效果。

5. 可迁移性分析

通过对TDA场景的评估，实验进一步验证了模型配置的可迁移性。具体来说，研究团队发现，在XSS任务中获得的最佳LLM配置能够有效地应用于SQLi任务，且未出现性能下降的情况。这一结果证明了该方法具有较好的迁移能力，可以在不同安全任务之间共享优化的配置。

6. 与现有技术的对比

除了以上的实验，研究者还将LLMs生成的攻击检测器与现有的最先进（SOTA）的机器学习方法进行了对比。研究结果表明，LLMs生成的检测器在检测准确率和性能上与专门训练的机器学习模型相当，甚至在某些任务中超过了现有技术。特别是在生成攻击检测器的过程中，LLMs结合了外部知识（RAG）和多路径推理（自我排名），使得其检测能力超过了传统的深度学习模型。

研究结果

本文的实验结果主要通过对比不同配置的LLMs生成的攻击检测器，在两种典型的Web安全攻击任务（跨站脚本攻击（XSS）和SQL注入攻击（SQLi））中的表现来评估所提出方法的有效性。研究聚焦于将检索增强生成（RAG）和自我排名（Self-Ranking）技术应用于LLMs的生成流程，评估这些技术在提升攻击检测器鲁棒性方面的作用。以下是具体的实验结果。

1. XSS攻击检测性能提升

实验首先测试了LLMs生成的检测器在**跨站脚本攻击（XSS）**检测中的表现。XSS攻击通常利用漏洞在Web应用中注入恶意脚本代码，而这一类攻击的检测是现代Web安全防护中的一个重要任务。由于XSS攻击的多样性和复杂性，生成的攻击检测器需要具备较强的泛化能力。

对比基线模型：实验中使用的基线模型是传统的基于规则和机器学习的检测器。结果表明，在未应用RAG和自我排名技术的情况下，LLMs生成的XSS检测器在准确性上远低于现有的机器学习方法，容易漏检一些常见的XSS攻击。

引入RAG和自我排名后的效果：当结合RAG和自我排名技术后，生成的XSS攻击检测器性能显著提高。特别是在F2-Score（衡量精准度和召回率平衡的指标）上，性能提升了71个百分点。这种提升主要归功于RAG技术引入了外部知识源，使得模型能够在训练过程中获得更多关于XSS攻击的信息，并且自我排名技术通过生成多个推理路径并选择最鲁棒的检测器，有效提高了检测器的准确性和可靠性。

2. SQLi攻击检测性能提升

实验的第二部分测试了LLMs生成的检测器在**SQL注入攻击（SQLi）**检测中的表现。SQL注入是攻击者通过注入恶意SQL代码来操作数据库的常见攻击方式，其检测难度较高，尤其是在复杂的Web应用中，攻击模式的多样性和隐蔽性使得SQLi攻击的检测变得更加困难。

对比基线模型：与XSS检测类似，使用基线模型生成的SQLi检测器也表现出了较低的准确性。传统方法虽然能够识别一些基本的SQL注入攻击，但在面对变种攻击时，容易产生较高的误报率和漏报率。

引入RAG和自我排名后的效果：经过优化的LLMs在SQLi检测任务中的表现有所提升，F2-Score提高了37个百分点。RAG技术帮助模型引入了更多与SQL注入相关的外部知识，使得生成的检测器能够识别更多类型的SQL注入攻击。同时，使用自我排名技术，模型能够生成多个检测路径，最终选出最有效的检测器，减少了误报和漏报。

3. 与现有SOTA方法的对比

为了验证所提出方法的有效性，研究者还将LLMs生成的攻击检测器与当前最先进（SOTA）的机器学习方法进行了对比。SOTA方法是专门训练的深度学习模型，通常在安全任务中表现出色。

· 性能对比：实验表明，尽管传统SOTA方法在一些任务中有着较强的表现，但在XSS和SQLi攻击检测任务中，结合RAG和自我排名的LLMs生成的检测器在性能上不逊色于这些传统方法。尤其在XSS攻击的检测中，LLMs模型凭借RAG和自我排名技术实现了显著的性能提升，超越了部分基于深度学习的SOTA模型。

· 优势与不足：LLMs的优势主要体现在对外部知识的灵活整合和多路径推理能力，能够应对更复杂的攻击场景。然而，与SOTA方法相比，LLMs在处理一些极其复杂或特殊的攻击模式时，仍有一定的差距，特别是在对攻击模式的完全理解和生成能力上存在一定的局限性。

4. 实验结果的统计分析

为了更加精确地评估所提出方法的效果，研究者还进行了统计分析，重点考察了模型在不同实验条件下的表现。

· 配置对比：通过调节模型的配置（如上下文窗口大小、少量示例的使用等），研究发现不同的配置对LLMs生成攻击检测器的性能有较大影响。具体而言，在上下文窗口较大且温度值适中的配置下，LLMs能够生成更有效的攻击检测器。

· 训练集和验证集的影响：研究者还分析了不同训练集和验证集的配置对实验结果的影响。研究发现，使用不同任务的训练数据和验证集时，RAG和自我排名技术在不同安全任务中的表现差异较大，这进一步证明了该方法在不同安全场景中的适应性。

5. 任务迁移性（Transferability）

在TDA（任务领域适应）实验中，研究者测试了LLMs生成的最佳配置能否在不同的安全任务中迁移。实验结果显示，基于XSS任务优化的LLM配置能够在SQLi任务中保持较好的性能，且未发生性能显著下降。这表明所提出的方法具有较好的任务迁移能力，可以将针对某一攻击任务优化的检测器应用到其他攻击任务中，提升了模型的通用性和灵活性。

6. 优化建议与未来研究方向

在实验结果的讨论中，研究者提出了对未来工作的优化建议，包括：

· 扩展外部知识源：尽管RAG技术已经取得了显著的效果，但可以进一步扩展外部知识库的内容，使得模型能够获取更丰富的知识来提升检测性能。

· 多任务学习的潜力：未来可以探索将多种攻击类型（例如XSS、SQLi、CSRF等）同时纳入训练，从而提升模型的多任务学习能力。

· 动态调整生成过程：根据实时安全威胁的变化，动态调整生成的检测器，使其能更及时地响应新的攻击模式。