摘要:注:本文由“人工智能技术与咨询”发布,若有无法显示完全的情况,请搜索“人工智能技术与咨询”查看完整文章相关学习:人工智能、大数据、多模态大模型、计算机视觉、自然语言处理、数字孪生、深度强化学习······
源自: 启元洞见
注:本文由“人工智能技术与咨询”发布,若有无法显示完全的情况,请搜索“人工智能技术与咨询”查看完整文章相关学习:人工智能、大数据、多模态大模型、计算机视觉、自然语言处理、数字孪生、深度强化学习······
在网络安全领域,知识共享对于抵御新兴技术引发的风险至关重要。这一共享机制不仅促进了信息的流通与整合,还加速了应对策略的创新性发展。研究人员已开发出从文本源(如Twitter)中提取网络情报的方法。在此背景下,大语言模型(LLM)凭借其强大的自然语言处理能力和对复杂信息的深度理解能力,在众多人工智能技术中脱颖而出。它为安全研究人员、企业防御团队以及政府机构等提供了前所未有的机遇窗口,使他们能够更加高效地识别、分析并应对各类网络威胁,推动了整个网络安全生态的协同发展,为构建更加安全、稳定的网络环境奠定了坚实的基础。本文通过对GPT4ALL、Dolly、Stanford Alpaca、ChatGPT等多个聊天机器人在二元分类和利用开源网络情报(OSINT)执行任务中的能力进行分析,评估LLM目前的局限性和不足,有助于研究人员和技术开发者改进LLM,以更加高效的方式将机器学习集成到以开源网络情报为基础的网络安全威胁情报工具中。
一、基于LLM的聊天机器人
基于LLM的聊天机器人通过文本或语音交互来模拟与用户之间的类人对话,通过LLM的语言理解和生成能力,为用户提供智能且快速的响应和反馈。它们可以分为两类:通过API作为服务提供的付费聊天机器人,以及构建为在本地GPU上运行的开源聊天机器人。本文涉及基于LLM的聊天机器人包括LLaMA、Vicuna、GPT4ALL、Dolly、Stanford Alpaca、Alpaca-LoRA、ChatGPT、Falcon等。
(一)LLaMA模型
LLaMA模型是Meta公司开发的基于参数的基础语言模型的汇编,参数数量从70亿到700亿不等,具有多种版本和变体。这些数据在数万亿个词元(token)上进行训练,证明了仅使用公开可访问的数据集来训练前沿模型的可能性。
(二)Vicuna
Vicuna模型是由多个高校的研究人员在LLaMA模型的基础上微调后联合发布的,通过从70K ShareGPT(其主要功能是方便用户分享对话)上收集的用户共享数据进行训练,提升了模型的效果。其拥有性能高、占内存少、训练成本低等多个优势,但在执行逻辑或数学任务方面结果不甚理想。
(三)GPT4ALL
GPT4ALL是一个开源项目,允许用户在本地计算机上运行GPT模型,提供高度的隐私和可定制性。其来自于OpenAI公司开发的GPT-3.5-turbo,参数数量从70亿到130亿不等。
(四)Dolly
Dolly模型是由Databricks公司开发的一款LLM,基于Pythia-12b并在Databricks的机器学习平台上进行训练。Dolly拥有高质量的指令跟踪能力,能够更好地理解用户的意图并动态调整回复策略。
(五)Stanford Alpaca
Stanford Alpaca是由斯坦福大学研究团队开发,对LLaMA模型进行指令调优的结果模型,其具有高效、准确、易用的特点。该模型在处理语言理解、文本生成、文本分类等任务时表现出色,还具有丰富的预训练功能,能够根据不同的任务进行微调,从而满足不同领域的需求。
(六)Alpaca-LoRA
Alpaca-LoRA是基于Transfor-mer架构的预训练模型,其特点在于采用了轻量级的参数调整策略,即LoRA(Low-Rank Adaptation)。这种策略允许模型在微调过程中仅更新一小部分参数,减少了计算资源和存储空间的需求。Alpaca-LoRA在保持高性能的同时,实现了更高效的训练过程。
(七)ChatGPT
OpenAI开发的ChatGPT已经引起了人们极大的兴趣,并在自然语言处理社区以及其他各个领域引发了广泛的讨论。ChatGPT的培训过程和架构规范缺乏清晰度,这对该领域的研究和开源创新的进步构成了重要的挑战。
(八)Falcon
Falcon系列由两个模型组成:Falcon-40B和对应的较小模型Falcon-7B,它们分别基于1万亿和1.5万亿词元数据训练而得,其架构在设计时就充分考虑了推理优化。Falcon模型的独到之处是其使用了多查询注意力(multiquery attention)机制。普通多头(vanilla multihead head)注意力机制在每个头都分别有一个查询(query)、键(key)以及值(value),而多查询注意力机制改为在所有头上共享同一个键和值。
二、评估基于LLM的聊天机器人
本研究的核心是对基于LLM的聊天机器人在基于开源网络情报的网络安全威胁任务中的性能进行评估。评估过程分为以下几个步骤:
(一)数据集准备
为了准确评估聊天机器人在真实网络威胁情报场景中的表现,实验使用了一个从Twitter收集的公开可用的注释数据集,该数据集涵盖了两个不同时期收集的31281条推文,其中包含了推文的时间戳、在推文中找到的特定关键字、原始推文、从某些特殊字符中清除的经过预处理的推文、标记与网络安全相关推文的二进制标签,以及标识预处理的推文中命名实体的字符串。在这项工作中,使用预处理的推文、安全相关性和命名完整标签的序列,创建了一个定制的数据集,用于二元分类和命名实体识别(NER)实验,通过这些实验将对聊天机器人在准确识别与网络安全相关推文方面的能力进行评估。
(二)评估指标
在评估聊天机器人时,采用了多种指标来衡量其性能,包括准确性、精确性、召回率等。这些指标有助于全面评估聊天机器人在二进制分类和NER任务中的表现。
(三)二进制分类评估
二进制分类任务的目标是识别与网络安全相关的推文。对于推文是否属于网络安全领域,实验将响应设计成包含“是”或“否”的选项,并专注于聊天机器人提供的“是”或“否”的答案,而不是提供的解释。这个设计简化了从响应中提取二进制标签(0或1)的过程。实验评估了聊天机器人对用户输入的分类能力,并比较了它们的性能。结果表明,开源和付费聊天机器人在这一任务上的表现与专门训练的模型相当,经常达到相同的准确性水平。
(四)NER评估
NER任务的目标是提取与网络安全相关的实体。该任务采用了两种方法来评估聊天机器人在NER任务中的性能:实体特定提示(Entity-Specific Prompting,ESP)和指导提示(Guide-Line Prompting,GLP)。通过比较这两种方法的结果发现,聊天机器人在NER任务上的性能低于人们可接受的水平,这表明基于LLM的聊天机器人在提取网络安全相关信息的精确性和完整性方面仍有待提高。
在ESP方法中,通过设计精确的问题来提取推文中的关键实体信息,以评估聊天机器人在提取与网络安全相关的具体信息方面的性能。此外,研究者还探索了不同的提示工程方法和文本长度控制策略,以优化聊天机器人的响应质量和执行时间。在打乱顺序的数据集中,研究者进一步考察了问题顺序对聊天机器人性能的影响。结果表明,聊天机器人在提取某些实体类型时表现较好,而在提取其他实体类型时则表现较差,这可能与聊天机器人的原始训练数据和模型架构有关。
在GLP方法中,使用了更通用的提示来评估聊天机器人在NER任务中的性能。这种方法更加灵活,可以适应不同的实体类型。然而,与ESP方法相比,GLP方法在提取特定实体类型时的性能较差。这可能是因为GLP方法没有针对特定实体类型进行优化,导致聊天机器人在提取这些实体时遇到困难。
三、结论
本研究评估了8个开源和付费的基于LLM的聊天机器人识别网络安全相关推文并从中提取相关信息的能力。开源和付费两种类型的模型都可以执行与专门为识别网络安全相关推文的模型类似的操作,通常可以达到相同的性能水平。相反,聊天机器人模型在NER(从推文中提取安全元素)方面的表现不尽如人意。即使在大量数据集上进行训练,这些模型在测试数据上的表现也无法与专用模型相提并论。此外,现阶段LLM聊天机器人在及时性和成本方面仍无法与专用模型竞争。
声明:公众号转载的文章及图片出于非商业性的教育和科研目的供大家参考和探讨,并不意味着支持其观点或证实其内容的真实性。版权归原作者所有,如转载稿涉及版权等问题,请立即联系我们删除。
注:本文由“人工智能技术与咨询”发布,若有无法显示完全的情况,请搜索“人工智能技术与咨询”查看完整文章相关学习:人工智能、大数据、多模态大模型、计算机视觉、自然语言处理、数字孪生、深度强化学习······
来源:龙腾AI