麻省理工科技评论:一种训练更可靠人工智能智能体的有效方法

摘要:从机器人技术到医学再到政治学,各个领域都在尝试训练人工智能系统做出各种有意义的决策。例如,使用人工智能系统智能控制拥堵城市的交通可以帮助驾车者更快到达目的地,同时提高安全性或可持续性。

研究人员开发了一种有效的方法来训练更可靠的强化学习模型,专注于涉及可变性的复杂任务。这可以使强化学习在广泛的应用中发挥作用。

从机器人技术到医学再到政治学,各个领域都在尝试训练人工智能系统做出各种有意义的决策。例如,使用人工智能系统智能控制拥堵城市的交通可以帮助驾车者更快到达目的地,同时提高安全性或可持续性。

不幸的是,教会人工智能系统做出正确的决策并非易事。

强化学习模型是这些 AI 决策系统的基础,但在面对其所训练任务的微小变化时,它们仍然经常会失败。以交通为例,模型可能难以控制一组具有不同速度限制、车道数量或交通模式的交叉路口。

为了提高强化学习模型对于具有多变性的复杂任务的可靠性,麻省理工学院的研究人员引入了一种更有效的算法来训练它们。

该算法策略性地选择最佳任务来训练 AI 代理,以便它能够有效地执行相关任务集合中的所有任务。在交通信号控制的情况下,每个任务可能是包含城市所有交叉路口的任务空间中的一个交叉路口。

通过关注对算法整体有效性贡献最大的较少数量的交叉点,该方法可最大限度地提高性能,同时保持较低的训练成本。

研究人员发现,在一系列模拟任务中,他们的技术比标准方法效率高出 5 到 50 倍。效率的提高有助于算法以更快的方式学习更好的解决方案,最终提高 AI 代理的性能。

“通过打破思维局限,我们能够看到使用非常简单的算法就能实现令人难以置信的性能提升。不太复杂的算法更有可能被社区采用,因为它更容易实现,也更容易被他人理解,”资深作者 Cathy Wu 说道。她是土木与环境工程 (CEE) 和数据、系统与社会研究所 (IDSS) 的 Thomas D. 和 Virginia W. Cabot 职业发展副教授,也是信息与决策系统实验室 (LIDS) 的成员。

与她一起参与撰写这篇论文的还有 CEE 研究生 Jung-Hoon Cho、电气工程与计算机科学系 (EECS) 研究生 Vindula Jayawardana 和 IDSS 研究生 Sirui Li。这项研究将在神经信息处理系统会议上发表。

寻找中间立场

为了训练一种算法来控制城市中许多路口的交通信号灯,工程师通常会在两种主要方法之间做出选择。她可以为每个路口单独训练一种算法,只使用该路口的数据,或者使用来自所有路口的数据训练一个更大的算法,然后将其应用于每个路口。

但每种方法都有其缺点。为每项任务(例如给定的交叉路口)训练单独的算法是一个耗时的过程,需要大量数据和计算,而为所有任务训练一种算法通常会导致性能不佳。

吴和她的同事们在这两种方法之间寻找一个最佳平衡点。

对于他们的方法,他们选择任务子集并为每个任务单独训练一个算法。重要的是,他们策略性地选择最有可能提高算法在所有任务上的整体性能的单个任务。

他们利用了强化学习领域的一种常见技巧,即零样本迁移学习,即将已训练好的模型应用于新任务,而无需进一步训练。通过迁移学习,模型通常在新的相邻任务上表现非常出色。

“我们知道对所有任务进行训练是理想的,但我们想知道是否可以只对其中一部分任务进行训练,将结果应用到所有任务中,并且仍然看到性能的提升,”吴说。

为了确定应该选择哪些任务来最大化预期性能,研究人员开发了一种称为基于模型的迁移学习(MBTL)的算法。

MBTL 算法由两部分组成。首先,它模拟了如果在一项任务上对每个算法进行独立训练,它们的表现会有多好。然后,它模拟了如果将每个算法转移到其他任务上,它们的性能会下降多少,这个概念被称为泛化性能。

明确地建模泛化性能允许 MBTL 估计训练对新任务的价值。

MBTL 按顺序执行此操作,首先选择可带来最高性能提升的任务,然后选择可为整体性能带来最大后续边际改善的其他任务。

由于 MBTL 只关注最有前景的任务,因此它可以显著提高训练过程的效率。

降低培训成本

当研究人员在模拟任务上测试该技术时,包括控制交通信号、管理实时速度咨询和执行几个经典的控制任务,它的效率比其他方法高出 5 到 50 倍。

这意味着他们可以通过训练更少的数据来获得相同的解决方案。例如,MBTL 算法的效率提高了 50 倍,仅用两个任务就可以进行训练,并实现与使用 100 个任务的数据的标准方法相同的性能。

“从两种主要方法的角度来看,这意味着其他 98 项任务的数据是不必要的,或者对所有 100 项任务进行训练会让算法感到困惑,因此最终的性能会比我们的更差,”吴说。

通过 MBT​L,即使增加少量的额外训练时间也能带来更好的表现。

未来,研究人员计划设计能够扩展到更复杂问题(例如高维任务空间)的 MBTL 算法。他们还有兴趣将自己的方法应用于现实世界的问题,尤其是下一代移动系统。

这项研究的部分资金来自国家科学基金会 CAREER 奖、韩国关正教育基金会博士奖学金项目和亚马逊机器人博士奖学金。

来源:人工智能学家

相关推荐