【IJCAI2025教程】评估基于LLM的智能体:基础、最佳实践与开放挑战,226页ppt

360影视 动漫周边 2025-09-04 11:41 1

摘要:是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。

社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景

是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。

2025年的IJCAI(International Joint Conference on Artificial Intelligence)将于8月16日至8月22日在加拿大蒙特利尔召开。IJCAI是中国计算机学会推荐的A类国际学术会议,是人工智能领域最具权威性和影响力的学术会议之一。本次IJCAI 2025一共有5404篇投稿,录用1042篇,录用率19.3%。

来自IBM和耶鲁的研究人员给出《评估基于LLM的智能体:基础、最佳实践与开放挑战》教程,值得的关注!

大型语言模型(LLM)智能体的快速发展引发了对其评估的日益关注,带来了诸多挑战与机遇。本教程提供了对LLM智能体评估的全面介绍,适合各类背景的参与者,即使他们之前对智能体、LLM、度量标准或基准测试了解较少。

我们将建立基础概念,探讨衡量关键智能体能力的主要基准,包括规划、工具使用、自我反思和记忆。我们将讨论针对不同类型智能体的评估策略,涵盖从基于Web和软件工程到对话式和科学应用的各类智能体。同时,我们还会介绍评估通用智能体的基准和排行榜,涵盖不同技能集。此外,我们还会回顾一些主流的智能体评估开发框架。最后,我们将展示该领域的新兴趋势,识别当前的局限性,并提出未来研究方向。

教程大纲(暂定)

本教程的时长为半天(3.5小时)。

第一部分:LLM智能体评估介绍(20分钟)

前置知识:LLM、智能体、LLM作为评估者、基准测试

什么是LLM智能体?它们为什么重要?

从静态LLM到自主交互系统的转变。

为什么可靠的评估对实际部署至关重要?

第二部分:评估基础智能体能力(40分钟)

我们将讨论四大核心智能体能力:规划与多步骤推理、函数调用与工具使用、自我反思和记忆。每项能力的评估内容包括:

能力概述及其重要性

评估该能力的挑战

常见评估方法(数据集、度量标准、基准测试)

基准测试示例:

规划与多步骤推理:GSM8K、HotpotQA、PlanBench

函数调用与工具使用:ToolBench、API-Bank、BFCL

自我反思:LLF-Bench、LLM-Evolve

记忆:ReadAgent、MemGPT、StreamBench

第三部分:评估应用特定智能体(45分钟)

我们将回顾一些主要的应用特定智能体。每种类型的智能体评估包括:

智能体类型概述、范围、任务及其现实应用

评估该类型智能体的挑战

常见评估方法(数据集、度量标准、环境)

基准测试示例:

Web智能体:MiniWob、WebShop、WebArena

软件工程智能体:HumanEval、SWE-bench、IT-Bench

科学智能体:ScienceQA、AAAR-1.0、CORE-Bench

对话智能体:MultiWOZ、ABCD、τ-Bench

第四部分:通用智能体评估(25分钟)

评估不同技能的智能体,不仅限于特定应用

基准测试:GAIA、AgentBench、OSWorld

聚焦多步骤推理、问题解决与工具使用

第五部分:智能体评估框架(40分钟)

框架作为开发、完善和持续监控的工具

当前框架中的评估特性与能力:

多层次粒度

数据生成

A/B比较

当前能力中的主要缺口

类Gym环境:控制的动态仿真环境

第六部分:关键见解与未来方向(25分钟)

当前趋势:向具有挑战性、现实和实时的基准测试转变

未来方向:

使用标准化度量标准进行细粒度评估

成本与效率度量

扩展与自动化评估

安全性与合规性

可靠智能体评估在各行业中的应用

负责任的AI开发与部署的重要性

第七部分:开放讨论(15分钟)

目标受众与前提条件

本教程将展示当前的最新进展与前沿研究,但也适合入门级听众。

前提条件:

熟悉大型语言模型(LLM)及其能力

对智能体的基本了解,包括其角色与功能

本教程最适合以下人群:

对智能体评估不熟悉的研究人员

曾在智能体评估的某个方面有所研究,但不熟悉整体框架的研究人员

处理评估挑战的基准开发人员

在特定领域应用中部署智能体的从业人员

广泛研究LLM智能体当前能力、风险与局限性的研究人员

社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名的机器学习与自然语言处理社区,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

来源:寂寞的咖啡

相关推荐