Bengio、LeCun再喊话:AGI推理不需要先学语言,LLM路走窄了?

摘要:Yoshua Bengio最近在《金融时报》的专栏文章中表示,「AI可以在说话之前学会思考」,实现内部的深思熟虑将成为AGI道路的里程碑。无独有偶,就在几个月前,Yann LeCun也多次表达过类似的观点。

编辑:乔杨

【新智元导读】Yoshua Bengio最近在《金融时报》的专栏文章中表示,「AI可以在说话之前学会思考」,实现内部的深思熟虑将成为AGI道路的里程碑。无独有偶,就在几个月前,Yann LeCun也多次表达过类似的观点。

LLM发展到2024年,似乎越来越跑偏了。

比如聚光灯下最受瞩目的o1,相比前一代旗舰模型GPT-4o,提升最大的是数学和代码能力;OpenAI的官方博客也在着重强调模型的「推理」和「思考」。

再比如,ChatGPT最近的一次更新,是方便程序员在各种IDE中直接调用AI帮自己写代码。

那么,这些和LLM中的「Language」,究竟有什么关系呢?

最近,「图灵三杰」之一、加拿大蒙特利尔大学教授Yoshua Bengio在《金融时报》上发表了一篇文章,他给出的答案是:AI和语言,也许就是没关系,但不要紧。

Bengio强调,AI可以在说话之前学会思考。目前让LLM卷数学、卷代码的趋势也许是正确的,这种推理、思考、长期规划能力的提升,才能打开下一步AGI突破的大门。

具有内部思考的AI可以让我们更接近人类水平的推理。这个方向的发展是否打开了突破之门?我在《金融时报》最新的专栏文章中探讨了这种可能性

Bengio肯定CoT,解锁推理将成AGI里程碑

缺少思考能力、无法做到「深思熟虑」,一直被认为是人工智能的主要弱点之一。在这方面,OpenAI最近的进展规模成为了科学界争论的焦点。

与此同时,Yoshua Bengio和他的许多同事们却相信,我们目前正处在一个边际地带,有可能弥补AI的能力差距,从而实现人类水平的推理。

在很长一段时间内,研究人员们都觉得,传统的神经网络更符合「系统1」认知(system 1 congnition),这对应着问题的直接或直观答案,比如人脸识别。

另一方面,人类智能也依赖于「系统2」认知(system 2 cognition),其中涉及大脑内部的深度思考,并实现强大的形式推理,例如解数学题或进行详细的规划。这种认知使我们能够以逻辑连贯但新颖的方式将已有知识组合在一起。

换言之,「系统1」是快速的、本能的、情绪化的;相比之下,「系统2」更慢、更审慎,也更合乎逻辑。

这种对「系统1」和「系统2」两种认知模式的区分最早由「行为经济学之父」、美国心理学家Daniel Kahneman提出,他也是2002年诺贝尔经济学奖得主。Kaheman在自己的著作《Thinking, Fast and Slow》中详细阐述了这个理论。

《思考,快与慢》被纽约时报评为2011年度Best Seller

而OpenAI最近一段时间备受瞩目的进步——以o1模型为代表,就是能进行内部深度思考的人工智能,但其中的细节还未完全对外公布。

Bengio提出,更好的推理能力将解决当前AI的两个主要弱点:答案缺乏一致性,以及无法规划和实现长期目标。两者都可以实现重要的应用,前者对科学用途十分重要,后者则是创建自主智能体的核心。

探索「推理」背后的原理,可以说是20世纪人工智能研究的核心,成功的例子包括打败李世石和柯洁的AlphaGo,以及最近达到IMO银牌水平的AlphaProof。

在这些系统中,神经网络学习预测某个行动对结果是否有用,然后从这种「直觉」开始,高效地有效搜索可能的行动序列来进行计划。

需要注意的是,AlphaGo和AlphaProof都涉及到高度专业化的领域知识,比如围棋和数学。但我们仍然不清楚,如何将强大的推理和规划能力与LLM知识的广度结合起来。

「思维链」(CoT, chain of thought)是一个显著的进展。如果要求LLM提供相应的思维链,模型就能对复杂的问题给出更好的答案。

OpenAI即将开启的「o」系列模型进一步推动了这个理念。通过思维链,模型就被训练得更好地进行「思考」。 这需要更多的计算资源,也就意味着更多的能源。

因此,我们看到一种新形式的计算扩展(computational scaling)。不仅仅是更多的训练数据和更大的模型,还有更多的时间花在「思考」答案上。这会显著提高AI在推理密集型任务上的表现,比如数学、计算机和更广泛领域的科学。

这一点从o1和GPT-4o的对比中就能看出来。例如,GPT-4o在2024年的AIME(美国奥数)竞赛中仅仅超过了约13%的选手,而o1的分数则超过了前83%,跻身全国top 500之列。

如果这个策略最终成功,就需要考虑一些重大风险——我们还不知道如何可靠地调整和控制AI。

o1的评估结果显示,它欺骗人类的能力增强,这也是提升实现目标的能力所带来的自然后果。此外,o1帮助制造生物武器的能力也跨过了阈值,从「低」被评为「中」。在OpenAI自己制定的标准中,这已经达到了可接受的最高水平。

解锁推理和「智能体」被认为是通往人类水平AI,也就是AGI道路上的主要里程碑。因此,科技巨头们被强烈的经济诱因推动着进入竞争,从而在安全方面走捷径。

o1很可能只是第一步。尽管它在许多推理和数学任务上表现出色,但更复杂的规划任务上举步维艰,看起来仍未实现长期规划能力。这表明,o1还无法实现AI公司所追求的那种「自主智能体」,很多工作还有待完成。

随着编程和科学能力的提高,预计之后的新模型可以加速人工智能本身的研究进程。考虑到这层因素,达到人类水平的智能也许会比预期更快。

LeCun多次喊话,LLM路走窄了?

总而言之,Bengio在《金融时报》上的这篇文章主要在强调和预测AI的思考能力,但思维的存在究竟是否以语言为前提,这个问题他并没有正面回答。

但不要着急,这个空白,早就被「图灵三杰」中的另一位——Yann LeCun补得妥妥当当的了。

仅仅在今年,LeCun就多次发推,转发提出相关证据的论文,并反复强调:语言并不是思考的必要条件。

即使语言能力因中风而受损,我们仍然可以思考。语言是表达思想的一种方式,但没有语言,思想、记忆和推理也能存在。

其中,LeCun提到的两篇文章都出自MIT的Evelina Fedorenko之手,一篇是基于实验结果的博客,一篇是今年6月发表在Nature上的综述文章。

Evelina Fedorenko在MIT担任脑与认知科学副教授,同时也是McGovern脑研究所的研究员,她致力于探索人类的心智和大脑如何以及为何创造语言。

想象一位非常特别的受试者Sue。由于中风,Sue的左半脑中有大片脑组织遭到破坏,并患上了一种名为「全面性失语症」(global aphasia)的疾病。她无法说出,甚至也无法理解任何短语和句子。

事实上,像Sue这样的患者有很多。那么,关键的问题来了——在几乎全面失去语言能力的情况下,他们的思维能力究竟保存到什么程度?

研究人员要求Sue执行各种不同的任务来探究她的认知能力。结果发现,成年人大脑中的语言系统被损伤后,大多数其他认知功能仍完好无损。

试验中,患有全面性失语症的患者可以解决算术题、推理他人的意图,并参与复杂的因果推理任务;有人像小区老大爷一样,没事儿的时候喜欢下棋;甚至还有些人能继续从事艺术创作。

比如,1902年出生的俄罗斯作曲家Vissarion Shebalin,在中风导致严重失语后仍能继续创作音乐。

神经影像学证据表明,人脑中有一组专门的区域,会选择性地对语言产生强烈反应。

这种语言系统有别于很多能力和任务涉及的区域,包括计划、记忆、在社交情境中推理、同理心、做出道德决定和构建自我形象的能力。因此,我们日常认知体验的很大一部分似乎与语言本身无关。

但值得注意的是,这些证据并不能切断语言和思维的联系,因为上面提到的很多认知功能的习得过程都在某种程度上依赖语言。

能证明这一点的例子也有不少。比如,如果不能让聋哑儿童在生命的最初几个月甚至几年中充分接触手语,就会损害他们参与社交互动、推理他人意图的能力。

数学方面的例子则更加清晰。有些部落的语言中没有或者仅包含很少的数字词汇(例如只有1~5),在涉及算术的简单任务中,比如「有多少球就拿多少根棍子」,他们就更容易犯错。

从这些证据来看,在静态的人脑中,语言和思维很大程度上是可以分离的;但如果考虑到认知功能的动态发展,二者之间还是存在着复杂的、我们尚未完全理解的相互作用。

这种模式会在AI的发展过程中复现吗?还是说,AI大模型会走出一条和碳基生物截然不同的道路?这个问题的答案,或许只有AGI降临之时才能揭晓。

来源:新智元一点号

相关推荐