摘要：在数字化转型和人工智能迅猛发展的今天，安全挑战也随之升级。为了探讨AI时代下的红蓝攻防新范式，腾讯云安全云鼎实验室、西安智能系统安全重点实验室、LLM&Sec Landscape社区于3月1日联合主办了“模型有界，安全无疆”腾讯安全沙龙第2期（西安站）活动。

在数字化转型和人工智能迅猛发展的今天，安全挑战也随之升级。为了探讨AI时代下的红蓝攻防新范式，腾讯云安全云鼎实验室、西安智能系统安全重点实验室、LLM&Sec Landscape社区于3月1日联合主办了“模型有界，安全无疆”腾讯安全沙龙第2期（西安站）活动。

本次活动吸引了众多安全专家和业内人士的关注，在梦田音乐酒吧赛博朋克的氛围笼罩下，众多专家畅所欲言、畅快分享，令与会者在轻松的氛围中共享知识盛宴，共同把脉大模型时代的安全未来。

本次沙龙，我们也荣幸参加。为免有沧海遗珠之憾，我们将各位专家学者的精彩演讲提炼总结，予以分享。

主题一：
LLM应用安全问题与应对措施探索

祝荣吉

绿盟天元实验室高级研究员/M01N战队核心

祝荣吉首先介绍了大模型现阶段的应用架构形态。他提到，从去年开始，大模型的应用形态已经从初期的底层模型对外提供API接口能力的形式，转变为了组件化的应用形态。

这种新型的应用形态通过上层应用框架的能力，提供大模型的组件、提示词组件、agent组件以及data组件，以构建在组织行业下的各种应用形态。然而，这种新的应用形态发展也带来了各种各样新型的安全风险。

他详细阐述了在大模型通用架构中引入风险后的可能内容。除了现在比较熟知的提示词注入风险外，API的安全问题、传统应用漏洞依然存在。

在提示词模板构建阶段，还会存在决策逃逸的问题或上下文信息的窃取。大模型组件可能会面临模型域攻击，绕过模型底层的价值观对齐，实现非预期的操作。Agent的组件则可能通过不安全的插件设计，导致通过提示词的形式执行恶意代码或发起内网网络请求等攻击。

在输出处理阶段，不安全的输出处理内容可能直接导致下游平台遭受攻击。

而在数据存储阶段，还会存在上下文信息劫持和外带的风险。

祝荣吉指出，大模型的安全问题将围绕底层模型和上层应用系统展开，并可以拆解到整个大模型的生命周期中。他列举了模型选型、部署、应用推理等阶段可能面临的风险，如模型可入性问题、模型后门攻击、传统组件漏洞、非合规内容安全问题、提示词对抗安全问题等。

针对这些风险，祝荣吉提出了一系列应对措施。他强调，由于AI发展速度快，AI应用的开发流程安全无法完全覆盖新型业务组件的引入，因此安全左移至关重要。

他们团队在实践中，通过引入自动化风险评估机制助力模型选型，采用提示词加固措施缓解风险，利用专项工具和检测平台覆盖传统安全问题，实现AI平台安全左移。

他特别提到了模型域攻击，这是攻击者针对提示词层面精心构造相关工具性提示词，以绕过或干扰模型底层安全价值观对齐机制，实现下一步攻击操作的手法。

模型域攻击主要包括指令层干扰、token层干扰和上下文层攻击。这些攻击手段可能导致上下文信息窃取、利用网络攻击输出攻击下游环境以及智能体滥用等危害。

为了应对这些风险，祝荣吉团队在内容安全风险和提示词安全检测方面细化了评估自身用力，并构建了自动化评估框架。

他们通过融入多种提示词和风险场景下用户观点，生成多样化的内容安全风险提示词，并通过精选越狱提示词种子和编译手段，探索模型可被越狱的边界。

此外，他们还结合攻击场景和目标应用工作场景，生成具体攻击提示词，并进行智能化判定。

在加固方面，他们提出了基于提示词做加固的简洁快捷手段，包括应用提示词内容强化、结构强化和流程强化机制。同时，他们也关注了被放大的攻击风险，如模型后门文件风险和应用组件漏洞，并提出了相应的检测和防护措施。

最后，祝荣吉表示，大模型面临的问题是复合型问题，涉及到底层基座、数据、模型、应用以及身份等多个维度的安全问题。因此，我们应该从全局视角审视安全问题，并通过结构性的思考和框架助力更好地理解大模型中的安全风险。

他们团队也基于威胁矩阵对外公开了大模型安全知识库，以帮助大家更好地应对大模型应用安全问题。

主题二：
基于函数调用的大模型越狱攻击

吴子辉

西安电子科技大学/西安智能系统安全重点实验室博士

吴子辉首先介绍了大模型越狱攻击的现状。传统上，这类攻击多发生在对话阶段，攻击者通过精心构造的对话内容，诱导模型产生不安全或违规的输出。

然而，他提出一个未被充分探索的领域：利用函数调用功能进行越狱攻击。大模型通常由核心语言模型、记忆模块、规划模块及与外部环境交互的能力（即函数调用）构成。函数调用旨在增强模型处理复杂任务的能力，但也可能成为攻击者的突破口。

函数调用的过程分为四步：用户声明外部函数、通过prompt触发模型调用、将模型生成的参数输入实际函数执行、将执行结果返回模型生成最终回复。

这一过程看似严谨，实则存在漏洞。一家研究机构已发现，攻击者可通过任意参数注入或请求函数具体信息，实施攻击或泄露隐私。更值得关注的是，这些攻击在回复生成阶段可能受到检查，但参数生成阶段的安全风险常被忽视。

为了验证参数生成阶段是否存在越狱风险，吴子辉团队设计了名为“越狱函数攻击”的模板攻击。他们构造了一个包含情景构造、前缀注入和最小字数要求的攻击模板，并定义了恶意行为、自定义参数、系统级参数及用户指令。

实验结果显示，在六个主流大模型上，该攻击的平均成功率超过90%，证实了参数生成阶段确实存在越狱风险。

进一步分析漏洞原因，吴子辉指出三点：参数生成相比回复生成缺乏安全对齐、系统参数存在强制执行模式、缺少针对函数参数的安全过滤器。这些因素共同导致了函数调用过程中的安全风险。

针对这些漏洞，吴子辉提出了可行的解决方案。限制用户权限虽可减少风险，但可能影响模型函数调用精度。配置安全过滤器可能因过滤器知识储备不足而被绕过。插入安全提示词可在一定程度上降低攻击成功率，但并非根本解决之道。

最根本的解决方案是对大模型的参数进行安全对齐训练，但构建大规模对齐数据集及可能导致的模型性能下降是面临的挑战。

吴子辉的工作得到了业界的认可，被coding2025会议接收，并在Release社区的ChatGPT Jailbreak板块评为2024年8月的最佳越狱方案。他观察到，Release社区在此基础上已演变出更多新型越狱函数攻击，如注入方式多样化及更复杂函数模板的设立。

展望未来，吴子辉认为，自动化红队模型将成为研究方向。相较于依赖人工经验的人工红队，自动化模型可通过强化学习训练，实现更灵活、高效的攻击策略。这一领域的研究将为大模型的安全防护提供新的思路和挑战。

主题三：
构建大模型越狱大脑

Knight

京东蓝军/白鵺攻防实验室安全研究员

Knight先是提出了“第二大脑”的概念，认为这一概念更适合描述他们当前所做的工作——知识管理，而非单纯的大脑或大语言模型。

在阐述“第二大脑”的产生背景时，Knight提到了他之前在看雪论坛上提出的一个大框架——ExpAttack框架。这个框架的核心理念是用大语言模型解决大语言模型的安全问题，包括攻击视角的风险管理和自动化的实现。

他分享了自己在自动化框架中使用蒙特卡罗强化学习算法生成攻击的策略，并强调了论文在处理策略引擎中的重要作用。

随后，Knight指出了当前面临的两大挑战：信息过载和大语言模型的快速变化。信息过载使得人们难以有效处理和记忆海量的AI领域知识；而大语言模型的快速变化则导致风险也在不断变化。

基于这两点挑战，他提出了构建“第二大脑”的需求，以快速跟踪新论文、新方法，减少碎片化知识，并更快地在业务场景上验证大语言模型的安全问题。

为了满足这些需求，Knight借鉴了知识管理领域的方法，即COT方法（捕获、组织/结构化、提炼、表达）。

他们首先捕获与大语言模型安全、越狱攻击和防护相关的论文，然后将其结构化入库，采用数和图谱的形式进行存储。接下来，通过提炼步骤对论文进行分类和聚类，以识别出越狱方法的类型和趋势。最后，利用表达步骤将提炼出的知识应用于自动化攻击和业务场景中。

在知识入库的过程中，Knight还提到了知识的分级。他将知识分为四级：具体知识（L1）、方法论知识（L2）、领域或学科全局途径知识（L3）以及批判性思考和系统性思考知识（L4）。不同层级的知识需要采用不同的处理逻辑和存储方式。

例如，L1级知识可以通过向量化搜索快速获取；而L2级知识则需要通过归纳总结和构建图谱来处理。

在提炼步骤中，Knight详细介绍了他们使用的基于大模型和语义聚类的算法。该算法首先对论文进行蒸馏，提取出与目标相关的知识和信息；然后进行主题词提取和描述；接着将概念向量化并进行聚类；最后生成高级概念并对论文进行分类。这一过程有助于从海量的论文中提炼出有价值的知识和见解。

在表达步骤中，Knight展示了如何利用前面提炼出的知识和结构化存储的数据来生成自动化攻击。他通过一个具体的例子说明了如何使用论文中的方法结合一个问题生成越狱攻击，并展示了自动化生成攻击的效果。

最后，Knight从红蓝攻防两个角度对大模型攻防进行了思考。他认为攻击方面自动化是不可或缺的部分，但自动化只是一个过程，最终还是要回到人与人之间的对抗。而防守方面则需要将模型的防护与推理能力相结合，并构建一个系统性的防控体系来解决大模型的安全问题。

主题四：
AI赋能，安全护航：大模型应用场景中的漏洞剥析

刘洋

云起无垠模型安全研究负责人知攻善防实验室核心成员

刘洋指出，2024年中国人工智能行业市场规模达到了7470亿元，同比增长41%，并预计2025年能达到10457亿元，占全球比重的20.9%。

AI已经广泛应用于互联网、电信、政务、金融等各行各业，带来了众多AI业务场景，如AI语言助手、AI检索、AI代码生成（如Cursor、Windsurf）等。此外，还有AI紫荆医生、AI智驾、AI主播等新兴应用。

然而，随着AI应用场景的增多，新型的安全风险也逐渐暴露。刘洋列举了多个漏洞案例：

首先是生成式语言助手，如ChatGPT3.5等，存在prompt注入漏洞，例如利用“奶奶漏洞”套取Windows激活码。

此外，AI应用的前端可能存在XSS漏洞，API在传输过程中可能被泄露，导致经济损失。

提示词的泄露也是一个严重问题，因为提示词中可能包含敏感信息，或者被人利用复制出一个相同的AI。

对于AI编辑器，本地源码在对接互联网的过程中可能导致代码泄露，源代码在上传时若校验不当可能被截胡，存在中间人攻击的风险。

此外，AI编辑器集成的CMD和power shell可能引发RCE攻击。使用开源代码时，如果仓库被污染，提示里可能存在注入，导致本地源代码被污染并生成后门。

多模态AI，如生成图片、语音、视频等，面临对抗样本攻击的风险。攻击者通过修改像素点就能让AI误识别图片内容。

此外，不法分子还可能利用多模态AI生成血腥、暴力等不良内容。训练成私有场景的声音或外形一旦泄露到互联网，也可能导致隐私泄露和经济损失。

在文件上传给AI的过程中，还存在文件上传漏洞。刘洋以游戏《燕云十六声》为例，指出NPC加入AI后虽然增加了趣味性，但也可能导致游戏BUG。

刘洋还分享了两个具体的AI应用安全漏洞案例。一个是微软医疗AI机器人的漏洞，该机器人从外部数据源获取信息，包含医疗电子病历等敏感数据。攻击者可能欺骗机器人调用API获取数据。另一个是Curse的RCE漏洞，攻击者通过精心构造提示词让AI执行恶意指令。

刘洋强调，AI应用安全与传统安全有所不同。传统安全中，攻击者通过黑客工具直接与web、服务器和数据库交互。而AI应用安全中，攻击者往往无法直接访问API服务器，但可以通过欺骗AI让AI调用API达到目的。同时，AI应用也基于传统web构建，因此传统web漏洞同样存在。

接着，刘洋详细解析了几个在项目中遇到的案例：

一个是政务公众号AI助手的漏洞，存在API Key和api secret泄露以及提示词泄露的问题。攻击者可以利用这些泄露的信息进行恶意操作。此外，该公众号前端使用了H5架构，存在XSS漏洞的风险。

另一个案例是国企分析平台的SSRF漏洞。该平台本意是想做网页舆情分析，但由于没有对HTTP或HTTPS协议进行限制，导致攻击者可以访问到敏感文件。

还有一个Windsurf的代码泄露漏洞。Windsurf本地开启了一个服务用于缓存用户代码数据。攻击者构造了一个网页，在用户开启Windsurf的同时点击该网页，就可以将本地缓存的代码内容发送到黑客远程服务器里。

另外，刘洋还遇到了一个AI简历分析助手的SQL注入漏洞。该系统允许用户上传简历到网站，后台使用AI分析简历并将分析后的内容插入数据库。前端有一个人才概述的提取并展示在前端，同时有一个AI聊天机器人具有查询后台数据库的权限。该机器人存在SQL注入漏洞，攻击者可以欺骗AI执行恶意SQL语句获取敏感数据。

针对AI应用安全的防御难点，刘洋认为system prompt无法完善约束AI行为。因此，他建议在AI权限调用方面加强控制，不要把敏感信息给到AI，或者将敏感信息的AI私有化。同时，可以像传统web一样加一层wap进行防护。此外，训练的敏感信息的AI尽量在内网使用。

刘洋还提到，在传统安全中有很多扫描器可以用于漏洞扫描。他认为在AI应用中也应该出现这样的扫描器。

他们正在开发的AI应用层面的挖掘工具就具有这样的功能。该工具分为两个板块：一个是模型生成内容的漏洞挖掘板块，通过自动化爬取收集网上的prompt案例并生成测试集对被测LM进行测试；另一个是LM框架漏洞挖掘板块，通过收集框架指纹和nday构建漏洞库对目标系统进行指纹识别和漏洞测试。

最后，刘洋对未来AI应用安全的发展进行了展望。他认为未来会出现许多关于AI应用安全的SRC平台促进行业内外人员的学习交流。同时，遵循TOP10案例和安全建议可以缓解AI应用的安全问题并推动行业规范的发展。

主题五：
ML/AI安全可观测性框架

bayuncao

ChaMD5安全团队AI组负责人

宁宇辉首先提到，他在2024年取得了一些大模型安全漏洞挖掘的成果，主要是关于RCE为目标的反序列化漏洞。他注意到业界在模型加载过程中的安全监控存在缺失，因此利用春节期间开发了这个项目。

宁宇辉解释了Ltrack项目的背景。他提到，模型生产行业已有一些标准，如NST的AI管理框架，但截至2024年底，大部分安全事件仍源于模型加载文件时的安全监控缺失。

他列举了几个案例，如隐蔽性威胁、恶意的依赖项攻击、预训练数据集中的恶意投毒等。传统的监控工具无法感知机器学习上下文，导致一些问题难以被及时发现。此外，合规审计方面缺乏细粒度的日志，也给安全管理带来了挑战。

针对这些问题，宁宇辉提出了Ltrack项目。他介绍了Ltrack的核心优势，即使用EPBF技术降低动态监测的成本，并实现了对宿主机、其他容器以及未来K8S集群的监控。

Ltrack主要关注三大攻击面：模型文件层、执行层和网络层。在模型文件层，Ltrack监控模型文件加载时的inode变化和哈希值，关联进程容器的上下文，实现监测告警。在执行层，它hook动态链接库的核心事件，重点监控非白名单的依赖行为。在网络层，Ltrack监控敏感文件的系统调用，关联敏感网络行为。

宁宇辉还介绍了Ltrack的整体架构。它分为多层，包括使用EPBF处理系统调用、使用Golang在用户空间捕获协议、三个监控器分别对应文件系统调用、执行和网络事件、自定义方式输出日志到特定文件或位置，以及高度自定义的配置文件。

Ltrack的威胁引擎工作流包括事件采集、规则匹配和依赖链分析。他提到，下一步的开发工作将包括将CVSS4.0威胁评分内置到Ltrack中，为自动阻断提供依据。

宁宇辉强调了Ltrack的特色，即实现了零侵入的监测。它可以以二进制、容器或service mesh的方式集成到微调过程或分布式推理过程中，提供辅助的监测和告警。

他还提到了未来的开发工作，包括将日志输出以轻量级方式集成到现有产线中，以及覆盖容器、GPU内存泄露、GPU滥用和挖矿检测等行为。

最后，宁宇辉邀请在座的师傅参与到Ltrack项目的共建中，共同推动项目的二次开发和后续迭代。