摘要:从计算机诞生以来,人类就一直在想象如何让它们变得像科幻电影里那样聪明。从《2001:太空漫游》中的 HAL 9000,到《流浪地球》中的 Moss,人工智能在屏幕中往往高效、理性、逻辑缜密,给人留下深刻的印象。
文 | 追问nextquestion
从计算机诞生以来,人类就一直在想象如何让它们变得像科幻电影里那样聪明。从《2001:太空漫游》中的 HAL 9000,到《流浪地球》中的 Moss,人工智能在屏幕中往往高效、理性、逻辑缜密,给人留下深刻的印象。
现如今,大语言模型和深度学习让我们对“超级AI”的可能性有了更多期待。但要实现像 Moss 那种“全能助手”的智能,我们还需要跨越很多障碍,最重要的一点就是:如何让 AI 迅速理解并应对各种复杂场景,而不必依赖“海量”数据的疯狂堆积?
▷ 图1. 电影《流浪地球》中的Moss。图源:宇宙社会学
当前,机器学习已广泛应用于数据分类、预测、规划与生成等诸多领域,这些任务无不需要理解和应对复杂多变的情境。然而,传统的机器学习方法往往依赖海量的数据和庞大的计算资源,在处理高维度和大规模数据时,难免举步维艰。
为解决这些问题, Karl Friston近日在arxiv发表了题为“Renormalising generative models:From pixels to planning: scale-free active inference” 的论文。他通过主动推理(Active Inference)构建了尺度不变的生成模型(Renormalising Generative Model, RGM),将分类、预测与规划等问题转化为推理问题,并借助最大化模型证据这一统一框架,有效解决了视觉数据、时序数据分类及强化学习中的多种挑战。得益于该框架中引入的重整化群技术,这一方法能够高效地处理大规模数据集。
▷图2. 本文来源:Friston, Karl, et al. "From pixels to planning: scale-free active inference." arXiv preprint arXiv:2407.20292 (2024).
01 主动推理主动推理(active inference),指的是一种基于我们当前观察到的现象来预测未来的模型。为什么称这种推理为“主动”呢?因为这种推理不仅仅是被动地等待发生的事情,而是通过主动的观察来推断事件的原因。也就是说,虽然事件的发生路径有些是看不见的,但有些路径是我们可以通过自己的行动来影响的,此外,还有一些结果是我们采取行动后才会得到的,所以在推理的过程中,我们不仅要推测事件可能会如何发生,还需要通过行动来推动这些事件的发生。
举例来说,在网球比赛中,球的飞行轨迹如同在一棵不断展开的“可能树”上延展,每一次击球都为这棵树增添一条新的分支(比如截击、抽球、扣杀、放小球……)。赛场上的选手需在众多可能的路径中做出选择,这不仅取决于自身的技术,也受制于对手的策略。在主动推理中,这种“对未来有所猜测但不可确定的程度”被称作自由能。它可以理解为模型对所处环境(观测数据)“没看明白”的程度。自由能越高,就代表系统对当前或未来状况越“没底”。
其中,预判与现实的差距,便是预期自由能。而推理的目的,正是将这种自由能降至最低。即选手可以通过观察(对手球风、站位)和主动行动(比如试探性地将球打到对手不擅长的区域)来减少这种不确定性。最终,自由能降到一定程度,选手就能做出料敌先机、击败对手的最佳决策。
▷ 图3.该研究中生成模型,不论是决策还是分类,生成模型都是通过两个主要部分来表示:似然性(likelihood)给定原因的结果概率和先验A。似然性表示在每种状态(s)组合下,某个结果发生的概率。而先验A则依赖于随机变量,反映了我们对结果的初步假设。隐藏状态之间转换的先验 B 由先验B决定,这些转换依赖于特定的路径(u),其转换概率则在C中进行了编码。如果某些路径能够最小化预期自由能(G),那么这些路径在先验上就更有可能被选择。
具体来说,我们可以基于上图3,梳理出生成模型具体工作流程:
(1)策略选择:通过预期自由能的 softmax 函数来选择策略,这决定了后续隐藏状态的生成方式。策略选择过程中,最后一行的第一项表示近似后验分布(模型预测的状态分布)与真实后验分布(实际状态分布)之间的 KL 散度,这一项衡量了近似后验分布与真实分布的差异,反映了模型的复杂度(越小越好)。模型的复杂度较高可能意味着它过于拟合训练数据,无法很好地泛化。第二项表示在近似后验分布下,观测数据的对数似然的期望,它衡量了模型对观测数据的解释能力,解释能力越强,说明模型能够较好地描述和预测数据,代表了模型的准确性。
(2)隐藏状态生成:根据所选路径组合指定的概率转换,生成隐藏状态序列。这些隐藏状态代表了模型在不同时间点或步骤中的内部状态,帮助模型理解和预测数据的变化。
(3)结果生成:隐藏状态通过一个或多个模态生成最终的结果。在这个过程中,隐藏状态的推断是基于观测到的结果序列,通过反推生成模型来估计隐藏状态。学习则是通过更新模型参数来实现。其中推断的过程是以过在(可控制的)路径上设置先验,来最小化预期自由能实现的。
为了便于理解,我们还是以网球比赛为例进行说明。其中第一项是指通过模型参数的改变,提高对对手行动的预测能力;第二项是指通过自身的行动来限制对手的选择;第三项是这些行动由于观察不确定性带来的损失。主动推理模型通过最小化自由能G(u)来优化策略,从而在比赛中占据有利位置,最终赢得胜利。
02 主动选择与重整化群传统的机器学习方法大多是:拿一堆数据去“训练”模型的参数,然后用这些参数来预测或分类。但有时候,模型太庞大或者数据分布太复杂,我们就需要从多个模型中挑选出最合适的那个,让它能既准确又高效地处理数据。
在贝叶斯学派看来,这叫做“贝叶斯模型选择”。其中拥有所有可能性的“父模型”可能很复杂,包含海量假设;但我们也可以删掉一些不必要的假设,让模型更简化,成为更易计算、更易泛化的“子模型”;我们通过比较父模型与子模型对数据的解释程度(即自由能、边际似然等指标),来判断哪个更“精简而有力”。当面对新数据时,这个框架可以通过为每个独特观测添加新的潜在原因,来实现快速结构学习。
在模型选择过程中,通过比较父模型和增强模型下参数的后验期望,可计算预期自由能的差异。这一差异反映了选择一个模型相较于另一个模型所带来的信息增益,体现了模型在解释数据时的“负担”。根据对数优势比的大小,可以决定保留或拒绝父模型。只有当预期自由能降低时才保留或拒绝父模型。
当数据集规模扩大时,模型通过重整化群技术,在更大的尺度上生成对更细微尺度的近似描述,从而高效应对数据量的增长。拿图像为例,你可以先看一整张大的场景(比如一个城市鸟瞰图),然后再不断放大某个局部去看街道,最后对街道里的某一栋建筑继续放大……在不同的缩放比例下,你关心的信息不一样,但它们其实是同一个场景,不同尺度间可以互相映射。
重整化群就是利用了这种多层次、多尺度的思想:在每一层,模型都对上一层的结果进行简化、再加工(如把某些像素合并成一个块,或者把连续的语音信号离散成若干音符),形成一个更高层次、更抽象的描述;这样,数据集再庞大,也被一层一层地“压缩”成简单的要素和关系,大大减轻了计算负担。而且,这些高层次的“概念”或“状态”能够跨时间、跨空间地进行运算,模型不必在每一个微小的维度上“纠缠”,就可以做出有效推断。
在 RGM 中,这种重整化还会体现在时间上:对低层次的模型而言,你可能只关心“下一秒会发生什么”。对更高层次的模型,你关心的是“这一幕戏的剧情走向”或“下一个章节的主题”,所以时间跨度更大。这就像看电影时,你不会在意每一帧的细节,只要把握整体情节即可。
在连续时间的极限情况下,模型的重整化可以处理速度的变化(即加速度),甚至更高阶的变化,类似于连续状态空间模型中在广义运动坐标下的运作方式。从更直观的角度看,更高层次编码的序列可以看作是事件的组合或情节,在深层结构中,一个状态可以生成序列的序列的序列,从而破坏了在最低层次生成的内容的马尔可夫性质(即系统的当前状态只与前一个状态相关,而与更早的状态无关)。举个例子,一个低层次的天气模型,可以只关注今天的温度与昨天的温度的关联。但在更高层次,可能要引入“季节”这一概念,关注长期变化的趋势。
▷图5. 模型重整化过程示意
此外,模型在状态空间上也需要进行重整化,如图5所示,较低层次的状态组由较高层次的单个状态生成,且任何层次的状态都不会共享较低层次的子状态,这使得潜在因素在每个层次上都是条件独立的,从而保证了模型在不同层次之间可以进行高效的求和积运算。
最终,RGM 通过多层次的时间和空间尺度,把一个复杂的视频、声音或者游戏场景进行抽象,让模型可以在更“宏观”的层次上解决问题,并把微观层的预测(比如像素级别的变化)交给更底层去处理。
03 图像,视频及音频数据的压缩和重建重整化生成模型可应用于不同类型的数据,例如进行图像分类和识别。我们都知道图像是由连续的像素组成的,模型首先会将这些连续的像素值转化为一组离散的值,称为量化;然后对图像进行分割,将图像划分为小方块,这些小方块可以被看作“自旋”,通过这种变换,可以让模型集中处理图像的小区域,而不是整个大图像,这种方法称为“块自旋变换”(Block-Spin Transformation);接着进行奇异值分解(SVD),提取最重要的信息。通过减少不重要的成分(即小的奇异值),模型实现了图像的初步压缩。
重复对图像进行这种分块处理和变换,直到达到一个更高的层次。每次变换会创建一个从高层次到低层次的似然映射,即从全局的角度到局部的细节的转换,然后,通过快速结构学习(Fast Structure Learning),模型就能根据不同层次之间的结构关系来学习如何生成图像。在训练过程中,模型通过递归应用阻塞变换来学习图像的多层次结构,并不断调整参数,以最大化互信息。互信息反映了模型能从数据中提取到的有用信息量,优化模型时就是在尽量提高这一信息量。
以 MNIST 数字分类问题为例,模型通过对 MNIST 图像进行预处理,使用少量示例图像进行快速结构学习,生成具有四个层次的 RGM。然后,通过主动学习优化模型参数,使互信息最大化。
▷ 图6. MNIST 图像的量化过程,左图为原始图像,右图为重建图像。
▷图7. RGM 的似然映射(图像的一个层次映射到另一个层次),上排展示了经转置后的映射,以说明状态在不同层次之间的生成关系。重整化生成模型在学习像素空间中用于对象识别和生成的生成模型结构的应用。模型使用少量示例图像来学习适用于无损压缩的重整化结构。
重整化之后,模型通过主动学习对所得结果进行泛化;即在学习过程中,通过优化它的参数(例如压缩方法和选择的块变换方式),从大量图像中选取一些数据进行训练。然后,模型通过计算这些数据如何压缩(即通过块变换),找到最有效的压缩方式,使得压缩后的图像仍然保留尽可能多的关键信息。这种主动学习确保了从像素到对象或数字类别的尺度不变映射,保留了像素间的互信息。
▷ 图8. RGM 在不同层次上的投射场(模型在不同层次上所学习到的结构),从上到下层次逐渐降低,投射场逐渐从全局变为局部,类似于视觉系统中从简单的感受野到复杂感受野(神经元响应的图像区域)的变化。
除了进行数据压缩,RGM会使用预计最可能的数字类别的方式来对测试图像进行分类。主动推理中的监督依赖于模型已经具备的一些关于内容原因的知识,这与一些在学习中使用类别标签的目标函数形成对比。
在主动推理中,目标函数是用来衡量证据的“可能性”或者“边际可能性”的一种数学工具。通过优化这个目标函数,模型能够推测出某个现象最可能的原因(比如数字的类别),同时判断这个现象是否是由某个特定的原因(比如数字类别)引起的。简而言之,模型试图通过最小化这种目标函数,来找到最合适的解释,帮助它更准确地理解和推测数据背后的原因。
上述RGM在接触 10,000 个训练图像后,在自行选择的测试数据子集上达到了最先进的分类准确性。每个训练图像在训练过程中只被呈现给模型一次,并采用连续学习方式。重要的是,主动学习只选择那些能带来最大信息量的图像进行训练,因此实际用于学习的图像数量大大少于10,000个。这种为学习选择正确数据,将会是后续部分的反复出现的主题。
▷ 图9. 展示了 MNIST 数据集的主动学习过程,包括互信息和变分自由能的变化。
▷ 图10 RGM模型产生了错误分类的图像示例。
RGM模型还可被用于识别和生成有序的图像序列,即视频。具体来说,为了生成视频,RGM模型会考虑时间的变化,把时间分成不同的“尺度”,并在每个时间层次上进行转换,确保每一帧之间的过渡是独特的、自然的。
接下来,RGM模型会对图像进行处理,把图像的空间(位置)、颜色和时间信息都转化为一个标准的格式,即时间 - 颜色 - 像素体素(time - colour - pixel voxels),并记录相邻体素之间的变化。
然后,模型会把这些处理过的图像按时间分成等长的段,通过比较不同时间点之间的差异来估算每段视频的开始状态,并基于这些估算结果生成一个新的时间段序列。通过重复这个过程,模型最终可以生成一个视频序列的整体结构,且每个时间段的变化都可以用一个简单的模式来表示。
以鸽子扇动翅膀的视频为例,图 11 展示了鸽子视频的原始帧和离散化后的重建帧,以及RGM 生成电影的过程,包括状态和路径的后验预测以及生成的图像。
▷ 图11 预测模型生成的鸽子飞行视频。上图,RGM如何把一帧原始图像“卷”进模型里、进行离散化后的重构示例。它说明模型能在保证主要信息不丢的情况下,完成从高维到低维的压缩。中图:RGM如何在学到视频结构后,通过高层的“事件序列”生成新的、更多的帧序列。它重点体现了模型的“视频生成”功能——不只重构,还能合成新的动态内容。下图:RGM在面对部分(不完整)输入时,如何利用已经学到的统计结构来推断、补全并实时更新对整幅图像的猜测。它说明了模型具有“基于经验的预测和填补”能力。
将RGM应用于声音文件时,可将像素替换为频率和时间上的体素(voxels),构成时间序列,例如使用连续小波变换(CWT),并通过逆变换将 CWT 表征转换为线性声音文件进行播放。重整化生成模型对于声音比视频内容更简单,因为需要处理的数据伴随时间只有一个维度。
以鸟叫声和爵士音乐为例,RGM 可对声音进行压缩并复现。图12展示了鸟叫声的训练数据,包括连续小波变换和离散表示。
▷ 图12. RGM 对鸟叫声的重整化和生成,将鸟叫声压缩为一系列事件,并生成了类似鸟叫的声音。
▷ 图13.RGM 对爵士音乐的生成,将音乐压缩为 16 个事件,每个事件对应一个音乐小节。▷ 图14. 展示了 RGM 在有原始声音文件输入时的同步预测能力,类似于音乐中的同步合奏。
RGM还可应用于规划推理(强化学习),从而训练智能体使其能够在不确定性下进行决策。在主动推理框架下,使用RGM进行决策的过程比单纯的预测更为直接。这一过程基于自由能原理以及与之相关的具身认知理论。从自由能原理的角度看,智能体被视为具有特征状态的自组织系统,特征状态描述了智能体的类型。吸引集(attracting set)的存在意味着可以用先验偏好来描述,是关于智能体如何自组织的信息论解释。
从仿生学的角度看,RGM不直接发出运动指令,而是通过预测运动来控制智能体的行为,类似于人类通过外周运动反射来控制身体动作。这种想法源于自由能原理对状态的划分,内部状态和外部状态通过控制和感觉状态分开,这产生了主动推理,即控制行为本身就是推理的一部分。
▷ 图15:主动推理和强化学习(即奖励学习)范式之间的区别。
主动推理结合了控制理论和仿生学,它与强化学习之间的基本区别在于,主动推理中,行动是基于对行动结果的后验预测来决定的,即通过贝叶斯规划来进行推理,这些预测来源于最小化预期自由能的策略或计划,展示了行动的后果,减少了不确定性。主动推理中的信念更新(即感知)和运动控制(即行动)都可以被视为最小化不确定性的过程。这与强化学习有很大不同。在强化学习中,智能体依赖于一个预设的奖励函数,通过训练来更新输入和输出(感觉到控制)之间的函数(通常是深度神经网络的参数)。
RGM 还可用于规划推理。以 Atari 类游戏(如Pong和Breakout)为例,RGM 可以从随机动作的结果序列中自动组装出能够以专家水平进行游戏的智能体。
▷ 图16. 在 Pong 游戏应用RGM所产生中的路径和轨道以及如何压缩训练序列,并处理事件之间的转换。
04 数据的“炼金术”,如何带来AI的进一步发展?通过上述一系列实验和理论分析,Friston 及其同事在多种场景下证明了基于重整化群的离散状态空间模型(RGM)非常有效。在这些应用中,都通过最小化预期自由能来进行选择、学习和反转生成模型。重整化群的应用解决了大规模数据处理的问题,并且由于主动推理方法依赖于自由能原理,使用重整化群时相对容易实现。此外,自由能原理本身是一种尺度不变的变分原理,天生适用于不同尺度的系统。
因此,我们可以说,RGM在多个领域中具有巨大的潜力。例如,在图像和视频处理中,它可以实现更高效的压缩和生成,有助于节省存储空间和提高数据传输效率。在声音处理方面,能够对声音进行有效的压缩和生成,对于音频数据的存储和传输具有重要意义,同时也为音乐创作和声音识别等领域提供了新的思路。在游戏和规划领域,该模型可以帮助智能体学习专家的策略,实现更智能的决策和行动,这对于人工智能在游戏、机器人控制和决策制定等方面的应用具有重要的推动作用。
RGM 模型结构简单、效率高,能够快速学习模型结构,但目前可能不适合用于复杂系统建模。未来的研究可以考虑将连续状态空间模型转换为离散状态空间模型,并使用重整化程序进行学习,同时改进模型的参数化以适应更多的应用场景。从更广泛的角度看,这种基于重整化群的方法为理解和处理复杂系统提供了一种新的框架,有助于揭示自然界中普遍存在的尺度不变性和结构学习的原理,对物理学、生物学和计算机科学等多个领域的研究都具有一定的启发意义。
现有的绝大多数人工智能都依赖于大量的数据,如何更高效地学习和运用这些数据,决定了人工智能解决问题的效率和能力。回顾历史,古代炼金术在某种程度上推动了冶金术的发展,让我们能够更好地提炼和使用金属。今天,我们同样在尝试将原始、未经处理的数据作为“原料”,从中挖掘出深层次的结构、规律和模式,进而提取出有价值的洞见。也许,在不久的将来,具备更强数据处理能力的人工智能能够像《流浪地球》中的Moss一样,为我们的生活提供更强大的决策支持,成为我们在应对复杂问题时推断最优解的得力助手。
*本文参考来源:Friston, Karl, et al. "From pixels to planning: scale-free active inference." arXiv preprint arXiv:2407.20292 (2024).
来源:钛媒体