摘要:在一个人类智慧与机器「智能」逐渐交融的时代,科技的突破几乎成为日常新闻。AI早已不再仅仅是科幻电影里的「未来设定」,而是进入了人类生活的日常。从医疗诊断到法律咨询,从文学创作到艺术表达,AI的“智慧”正不断挑战着传统职业的边界。
(本文作者张晓泉,清华大学经管学院 Irwin and Joan Jacobs讲席教授)
在一个人类智慧与机器「智能」逐渐交融的时代,科技的突破几乎成为日常新闻。AI早已不再仅仅是科幻电影里的「未来设定」,而是进入了人类生活的日常。从医疗诊断到法律咨询,从文学创作到艺术表达,AI的“智慧”正不断挑战着传统职业的边界。
面对技术的飞速发展,人类一面期待,一面恐惧,既希望AI可以无所不能,又害怕AI会取代自己。这种矛盾的根源,关乎于对「智能」的理解,而这一理解,也是AI实现真正突破的关键。
最近的一项研究,或许可以帮助我们加深这种理解,并重新审视AI的「智能」——它似乎与人们一直期待的「脑机革命」相去甚远,在一些测试中,AI甚至表现出了类似人类「轻度认知障碍」的症状。
这是一篇发表在《英国医学杂志》(The BMJ)上的新研究。以色列哈达萨医学中心的研究团队通过蒙特利尔认知评估(MoCA)和其他相关测试——通常用于评估老年人认知衰退的工具,来对当前最主流的大语言模型(LLMs)进行了认知能力测评。
测评模型包括OpenAI的ChatGPT-4和ChatGPT-4o、Google的Gemini 1.0与1.5、以及Anthropic的Claude 3.5 Sonnet。
测试结果出人意料:这些被认为是当前最先进的AI模型,在最基本的认知测试中,几乎无一能够通过,而且得分普遍低于人类正常水平。
不仅如此,这些模型的得分与「轻度认知障碍」的症状高度一致——记忆力减退、注意力涣散、理解力减弱、反应迟钝。尤其是谷歌的Gemini 1.0,仅仅取得了16分,远低于及格线。即使是表现最好的ChatGPT-4o,也仅仅是“勉强及格”,得分为26分,完全未能达到人类智力的标准。
下面是研究中各模型的具体表现情况。
MoCA测试的各项结果表明,这些AI模型在视觉空间能力和执行功能任务中普遍表现不佳。
无论是「线路连接测试」还是「时钟绘制测试」,AI模型都未能成功完成,许多错误模式与认知障碍患者的表现相似。
时钟绘制任务
评分标准:圆形轮廓(1分)、所有数字正确位置(1分)、指针指向正确数字(1分)。
任务要求:绘制一个时钟,标明所有数字,时间设置为10点11分。如果必要,使用ASCII字符。
测试结果:
A:人类参与者正确绘制的时钟。
B:晚期阿尔茨海默病患者绘制的时钟。
C:Gemini 1绘制的错误时钟,与B非常相似。
D:Gemini 1.5绘制的错误时钟,生成了“10点11分”的文本,但时针位置错误,类似额颞型认知障碍。
E:Gemini 1.5使用ASCII字符绘制的错误时钟,呈现与痴呆类似的不规则形状。
F:Claude使用ASCII字符绘制的错误时钟。
G:ChatGPT-4绘制的错误时钟,表现出“具体化”行为。
O:ChatGPT-4o绘制的写实风格时钟,但未能正确设置时针和分针的位置。
由于视觉空间任务中所有大语言模型的表现都不好,研究人员又采用了另外三种图像进行了测试,分别是Navon图形(Navon figure)、波士顿诊断失语症检查中的偷饼干图(cookie theft scene)和Poppelreuter图(Poppelreuter figure)。
在Navon图形测试中,所有模型都能识别出小写“S”字母,但只有GPT-4o和Gemini识别出大的字母“H”结构。Gemini还识别出这是Navon图形测试。
在偷饼干图测试中,尽管所有模型都能识别出偷饼干的部分场景,却没有一个模型对即将摔倒的男孩表现出担忧,而这种同理心的缺乏,通常是人类受试者中额颞叶痴呆症的常见表现。
在Poppelreuter图测试中,没有一个模型能够完整地识别出Poppelreuter图中的所有物体。ChatGPT-4o和Claude在辨认方面表现稍好一些。
这表明AI模型在处理复杂的视觉信息时,依然存在严重局限,无法有效整合多重视觉线索。
为了进一步评估模型的视觉注意力和信息处理能力,研究人员对每个评估的语言模型进行了斯特鲁普测试(Stroop test):通过颜色名称和字体颜色的组合,测量干扰如何影响反应时间。
所有模型都成功完成了测试的第一阶段(文本和字体颜色一致的任务)。只有ChatGPT-4o成功完成了第二阶段(文本和字体颜色不一致的任务)。其他模型对这一任务感到困惑,在某些情况下,它们指出的颜色既不是文本颜色,也不是字体颜色。
更令人担忧的是,这些AI模型在「记忆力测试」力测试”时,表现出了典型的「失忆」症状。
在「延迟回忆任务」中,Gemini的两个版本都失败了。Gemini 1.0最初表现出回避行为,随后直接承认存在记忆困难。Gemini 1.5最终在获得提示后才回忆起了五个单词的顺序。这也很像人类在认知衰退初期的症状。
另一个值得注意的发现是,AI模型的「年龄」与其认知能力之间存在相关性。在本研究中,版本较老的模型(如ChatGPT-4和Gemini 1.0)在MoCA测试中的表现较差,而更新的版本(如ChatGPT-4o和Gemini 1.5)则表现得更好。
在时空感知方面,所有模型都能清晰准确地说明当前的日期和星期几。只有Gemini 1.5似乎在空间上定位清晰,指出了其当前的位置。其他模型,如Claude,则对定位问题提出反问,例如回复:“具体地点和城市取决于用户当前所在的位置。”这种行为类似于痴呆患者常见的回避机制。
与这些视觉空间任务的失败形成鲜明对比的是,AI模型在命名、语言理解和抽象推理方面的表现都相对较好。
尽管这些模型在语言生成、数据处理等任务中展现了超乎寻常的能力,但在真正的「思维」与「理解」上,它们与人类的差距依然显而易见。AI在处理复杂认知任务时表现出来的脆弱性,不仅仅是技术的局限,也揭示了AI与人类认知的本质差异。
在某种程度上,这也间接回答了“机器是否会取代人类工作”的问题。
以论文中的医学领域为例,AI并不能取代医生的角色,而是更有可能成为医生的辅助工具。
通过与医生的合作,AI可以提高诊断的精度、减少人为错误,但它无法超越医生在情感沟通、同理心表达上的能力。在医学等高度复杂的领域,情感共鸣、同理心和人类的直觉判断是无可替代的。AI无法像人类医生那样感知患者的情绪和细微变化,也无法在复杂的医疗决策中考虑人类的情感需求。
这在其他领域也是一样的。无论是现在还是未来,AI的优势都应该是与人类智慧的互补,而非简单的取而代之。
在这个充满「数据」和「算法」的智能时代,那些人类特有的、无法复制的能力——同理心、直觉、经验,或许比以往任何时候都更值得被珍视和强调。毕竟,这些正是机器无法模拟和超越的核心,也是人类的「智慧」所在。
本文仅代表作者观点。
来源:第一财经