【论文速读】| CleanVul：利用大语言模型启发式方法在代码提交中进行自动的函数级漏洞检测

摘要：论文简介：当前，软件漏洞的检测与修复是网络安全领域的重要议题之一，而训练机器学习模型以自动化检测漏洞是现代网络安全的趋势。本文发现现有的数据集（如从国家漏洞数据库 NVD 或 GitHub 中提取的数据）中存在大量噪声，噪声比例高达40%-75%。这些噪声主要

基本信息

原文标题：CleanVul: Automatic Function-Level Vulnerability Detection in Code Commits Using LLM Heuristics

原文作者：Yikun Li, Ting Zhang, Ratnadira Widyasari 等

作者单位：新加坡管理大学

关键词：漏洞检测、函数级分析、大语言模型（LLM）、代码提交、数据集

原文链接：https://arxiv.org/pdf/2411.17274

开源代码：https://github.com/yikun-li/CleanVul

论文要点

论文简介：当前，软件漏洞的检测与修复是网络安全领域的重要议题之一，而训练机器学习模型以自动化检测漏洞是现代网络安全的趋势。本文发现现有的数据集（如从国家漏洞数据库 NVD 或 GitHub 中提取的数据）中存在大量噪声，噪声比例高达40%-75%。这些噪声主要源于自动标注方法将所有漏洞修复提交（VFCs）的修改均视为漏洞相关，而实际上，这些更改中许多与安全无关。

为了应对这一问题，作者提出了一种新方法：结合大语言模型（LLM）和启发式规则来自动识别真正的漏洞修复修改，并构建了一个高质量的数据集CleanVul。实验表明，CleanVul的数据质量显著优于传统数据集（如PrimeVul和SVEN），并大幅提升了机器学习模型的性能和泛化能力。

研究目的：研究的主要目的是解决现有漏洞数据集噪声过高的问题。这些噪声不仅影响模型的训练效果，还可能导致误报和漏报的增加，从而降低漏洞检测系统的实际可靠性。本论文的目标在于：

1. 显著减少数据集中的噪声，通过过滤非漏洞相关的代码更改，改善训练数据的纯净度。

2. 提高漏洞检测数据集的可用性，尤其是能从GitHub等非结构化来源中提取高质量数据，而非依赖于传统的NVD链接或手工标注。

3. 为漏洞检测模型提供泛化能力更强的训练数据，以支持多种编程语言和复杂场景下的漏洞检测任务。

研究贡献：本文的核心贡献包括以下几点：

1. 漏洞修复提交的代码变更分类：通过手动分析，系统性地对漏洞修复提交中的非漏洞相关更改进行分类，提出了一种新的分类法，包括测试相关、错误修复、支持更改、代码重构和文档更新等类别，揭示了这些更改对数据集纯净度的影响。

2. VulSifter方法：开发了一种结合LLM和启发式规则的全新方法，用于函数级漏洞修复更改的自动识别和过滤。在此过程中，LLM负责理解代码语义，启发式规则则用于排除无关的代码更改（如测试代码）。

3. CleanVul数据集：构建了一个包含11,632个函数的高质量数据集，漏洞识别准确性（Correctness）高达90.6%，显著优于现有主流数据集，如SVEN（94.0%）和PrimeVul（86.0%）。

4. 性能评估与对比：通过一系列实验验证，表明在CleanVul上训练的模型在准确性和泛化能力上均优于其他高质量数据集。

引言

在网络安全领域，漏洞的准确检测与修复至关重要。漏洞数据集是训练机器学习模型的关键资源，但现有数据集普遍存在噪声问题。例如，大量的GitHub代码提交被错误地标记为漏洞修复，更改中包含的测试代码、代码重构和文档更新等非漏洞相关内容干扰了模型的训练。这种噪声的存在严重降低了数据集的实际有效性，阻碍了自动化漏洞检测技术的发展。

作者指出，当前的方法在处理GitHub代码库中的漏洞修复提交时面临显著挑战。传统方法依赖NVD描述的链接信息，但许多漏洞修复提交并未关联NVD记录，导致这些方法的适用范围受限。此外，自动标注方法缺乏对代码语义和上下文的理解能力，无法正确识别真正的漏洞修复更改。本文通过引入LLM和启发式规则的结合方法，从根本上改善了这一问题。

启发示例

作者以一个实际的GitHub提交为例，展示了现有方法难以区分漏洞修复和无关更改的复杂性。例如，ThingsBoard项目中的一个提交修复了XSS漏洞，但同时还包括了一些无关的代码修改，如删除冗余导入和更新许可证。这类“纠缠提交”往往包含多个目的的更改，这对传统的自动标注方法构成了挑战。通过该案例，作者进一步说明了需要精确区分漏洞相关与无关更改的必要性。