摘要:是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。
社区的愿景
是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。2025年的IJCAI(International Joint Conference on Artificial Intelligence)将于8月16日至8月22日在加拿大蒙特利尔召开。IJCAI是中国计算机学会推荐的A类国际学术会议,是人工智能领域最具权威性和影响力的学术会议之一。本次IJCAI 2025一共有5404篇投稿,录用1042篇,录用率19.3%。
来自IBM和耶鲁的研究人员给出《评估基于LLM的智能体:基础、最佳实践与开放挑战》教程,值得的关注!
大型语言模型(LLM)智能体的快速发展引发了对其评估的日益关注,带来了诸多挑战与机遇。本教程提供了对LLM智能体评估的全面介绍,适合各类背景的参与者,即使他们之前对智能体、LLM、度量标准或基准测试了解较少。
我们将建立基础概念,探讨衡量关键智能体能力的主要基准,包括规划、工具使用、自我反思和记忆。我们将讨论针对不同类型智能体的评估策略,涵盖从基于Web和软件工程到对话式和科学应用的各类智能体。同时,我们还会介绍评估通用智能体的基准和排行榜,涵盖不同技能集。此外,我们还会回顾一些主流的智能体评估开发框架。最后,我们将展示该领域的新兴趋势,识别当前的局限性,并提出未来研究方向。
教程大纲(暂定)
本教程的时长为半天(3.5小时)。
第一部分:LLM智能体评估介绍(20分钟)
前置知识:LLM、智能体、LLM作为评估者、基准测试
什么是LLM智能体?它们为什么重要?
从静态LLM到自主交互系统的转变。
为什么可靠的评估对实际部署至关重要?
第二部分:评估基础智能体能力(40分钟)
我们将讨论四大核心智能体能力:规划与多步骤推理、函数调用与工具使用、自我反思和记忆。每项能力的评估内容包括:
能力概述及其重要性
评估该能力的挑战
常见评估方法(数据集、度量标准、基准测试)
基准测试示例:
规划与多步骤推理:GSM8K、HotpotQA、PlanBench
函数调用与工具使用:ToolBench、API-Bank、BFCL
自我反思:LLF-Bench、LLM-Evolve
记忆:ReadAgent、MemGPT、StreamBench
第三部分:评估应用特定智能体(45分钟)
我们将回顾一些主要的应用特定智能体。每种类型的智能体评估包括:
智能体类型概述、范围、任务及其现实应用
评估该类型智能体的挑战
常见评估方法(数据集、度量标准、环境)
基准测试示例:
Web智能体:MiniWob、WebShop、WebArena
软件工程智能体:HumanEval、SWE-bench、IT-Bench
科学智能体:ScienceQA、AAAR-1.0、CORE-Bench
对话智能体:MultiWOZ、ABCD、τ-Bench
第四部分:通用智能体评估(25分钟)
评估不同技能的智能体,不仅限于特定应用
基准测试:GAIA、AgentBench、OSWorld
聚焦多步骤推理、问题解决与工具使用
第五部分:智能体评估框架(40分钟)
框架作为开发、完善和持续监控的工具
当前框架中的评估特性与能力:
多层次粒度
数据生成
A/B比较
当前能力中的主要缺口
类Gym环境:控制的动态仿真环境
第六部分:关键见解与未来方向(25分钟)
当前趋势:向具有挑战性、现实和实时的基准测试转变
未来方向:
使用标准化度量标准进行细粒度评估
成本与效率度量
扩展与自动化评估
安全性与合规性
可靠智能体评估在各行业中的应用
负责任的AI开发与部署的重要性
第七部分:开放讨论(15分钟)
目标受众与前提条件
本教程将展示当前的最新进展与前沿研究,但也适合入门级听众。
前提条件:
熟悉大型语言模型(LLM)及其能力
对智能体的基本了解,包括其角色与功能
本教程最适合以下人群:
对智能体评估不熟悉的研究人员
曾在智能体评估的某个方面有所研究,但不熟悉整体框架的研究人员
处理评估挑战的基准开发人员
在特定领域应用中部署智能体的从业人员
广泛研究LLM智能体当前能力、风险与局限性的研究人员
来源:寂寞的咖啡