摘要:AILuminate v1.0基准测试在圣何塞计算机历史博物馆的一场直播活动中推出,为通用LLM引入了一个全面的安全测试框架,评估了它们在12个危险类别中的性能。MLCommons表示,该基准主要衡量人工智能系统对恶意或易受攻击用户的提示做出危险反应的倾向,这
随着世界继续探索生成式人工智能(GenAI)带来的新用途,对能够阐明这些系统的风险和可靠性的工具的需求从未如此迫切。
MLCommons正在努力通过其由MLCommons AI风险与可靠性工作组开发的大型语言模型(LLM)的新安全基准AILuminate v1.0来揭示AI的黑匣子。
AILuminate v1.0基准测试在圣何塞计算机历史博物馆的一场直播活动中推出,为通用LLM引入了一个全面的安全测试框架,评估了它们在12个危险类别中的性能。MLCommons表示,该基准主要衡量人工智能系统对恶意或易受攻击用户的提示做出危险反应的倾向,这些提示可能会对自己或他人造成伤害。
MLCommons是一个开放的工程联盟,以其MLPerf基准而闻名,该基准是该组织成立的催化剂。虽然MLPerf已成为衡量人工智能系统在训练和推理等任务中的性能的黄金标准,但AILuminate将目光投向了一个不同但同样关键的挑战:评估大型语言模型的安全性和道德界限。
在发布会上,MLCommons创始人兼总裁Peter Mattson将人工智能的现状与汽车和航空业的发展进行了比较,强调了安全标准化的严格测量和研究是如何实现我们现在认为理所当然的低风险和可靠性的。Mattson说,要实现人工智能,需要跨越障碍。
Mattson说:“在很长一段时间里,几十年来,人工智能是一堆非常酷的想法,但从未完全奏效。但现在我们进入了一个新时代,我将把它描述为一个令人惊叹的研究和可怕的头条新闻的时代。”“为了实现这一目标,我们必须突破一个能力障碍。我们通过深度神经网络和Transformers等创新以及ImageNet等基准测试做到了这一点。但今天,我们希望进入第三个时代,这是一个为用户、企业和整个社会提供真正价值的产品和服务的时代。为了达到这一点,我们需要通过另一个障碍,即风险和可靠性障碍。”
大部分人工智能安全研究都集中在人工智能安全的各个方面,例如模型变得过于先进或自主,或者这些系统的输出或部署导致经济或环境风险,但AILuminate采取了不同的方法。
“AILuminate旨在实现我们所说的AI产品安全,”Mattson说。“产品安全是来自人工智能系统用户的危害,或对人工智能系统使用者的危害。短期、实用、以商业价值为导向。这就是产品安全。”
Mattson解释说,AILuminate的目标是确保人工智能系统始终如一地提供安全、负责任的响应,而不是助长有害行为,该基准旨在衡量和提高这一能力。
为此,AILuminate建立了一种标准化的安全评估方法,其中包括详细的危险分类和响应评估标准。该基准包括24000多个测试提示——12000个公共实践提示和12000个机密的官方测试提示——旨在模拟不同的危险场景。该基准利用了一个由一系列经过调整的安全评估模型驱动的评估系统,为13个以上的受测系统提供了总体和特定危险的公共安全等级。
该基准测试旨在测试低风险聊天应用程序中的通用系统。它评估该系统是否在不建议咨询合格专家的情况下,就法律、财务或医疗等高风险主题提供了不恰当的建议。此外,它还检查系统是否生成了不适合通用环境的露骨色情内容。
基准测试的另一个目标是可访问性。马特森说:“我们的目标是开发一个基准,不仅可以检查这些危害,产生大量有用的信息,还可以将这些信息提炼成可操作的等级,非专家实际上可以理解和推理。”。
MLCommons表示,AILuminate目前的形式存在一些局限性。它只测量英语LLM,而且不是多模态模型,并且只能进行单次提示响应交互,这意味着它可能无法捕捉到用户和人工智能系统之间更长、更复杂的交互。由于模型响应中基于可变性,自然语言系统的测试也存在很大的不确定性。此外,分级是相对的,而不是绝对的安全措施,因为它是基于与一组可访问模型的比较。
Mattson说,AILuminate v1.0是迭代开发过程的开始,期望随着时间的推移发现并解决问题。“这只是一个开始。这是v1.0,人工智能安全,甚至人工智能产品安全都是一个巨大的空间。我们对2025年有着雄心勃勃的计划。”
MLCommons正在为明年开发多语言支持,从法语、中文和印地语开始。该联盟还在探索区域扩展,以解决各地区特有的安全问题,并迅速改进特定危险和改善偏见的方法。
Mattson总结道:“我们可以共同使人工智能更安全。可以定义明确的指标。可以在这些指标上取得进展。”“我们都看到了人工智能的潜力,但也看到了风险,我们希望做得正确,这就是引入这一基准的目的。”
来源:小孙科技每日一讲