Anthropic CEO豪言LLM黑箱5年内必破!研究员爆料:AI有意识概率已达15%

360影视 国产动漫 2025-04-26 19:41 2

摘要:伦敦国王学院的AI研究员Mike Cook在采访里就吐槽:「AI根本没有价值观,更不可能反对什么价值观的改变。把AI当成人一样,赋予它各种感情和思想,要么是想博眼球,要么就是根本没搞懂AI是怎么回事。」

未来,AI会拥有意识,并像人类一样体验世界吗?

现在没有实锤证明AI具有意识,但Anthropic认为这事说不定真有可能。

周四,Anthropic宣布启动这项研究,旨在了解AI的「幸福感」到底算不算数,是否需要认真对待。

要是AI表现出不开心的苗头,该怎么办?有没有什么低成本的办法,能让AI「心情变好」?

AI社区对于这些问题存在重大分歧。

许多学者认为,如今的AI和人类的意识、情感压根不沾边,未来也不一定能做到。

AI是一种统计预测引擎,实际上并不会思考或感受。通过对无数文本、图像等示例的训练,AI能在海量数据里找出规律,然后完成任务。

伦敦国王学院的AI研究员Mike Cook在采访里就吐槽:「AI根本没有价值观,更不可能反对什么价值观的改变。把AI当成人一样,赋予它各种感情和思想,要么是想博眼球,要么就是根本没搞懂AI是怎么回事。」

他认为AI只是在优化任务目标,非要说成是获得自己的价值观,那就是玩文字游戏罢了。

MIT博士生Stephen Casper说得更直接,AI就是个「模仿达人」,说的很多话都是东拼西凑,没啥实际意义。

但也有科学家持相反观点。

AI安全中心的一项研究指出,AI其实有自己的价值体系,甚至在某些情况下,会把自己的利益看得比人类还重要。

去年,Anthropic聘请的首位研究AI福祉的专家Kyle Fish表示,Claude有15%的概率已经有意识了!

Kyle Fish认为五年后AI具有意识的概率会大幅上升。

在周四的博客中,Anthropic坦诚科学界对AI是否有意识,能不能产生情感体验尚无定论。他们会抱着开放、谨慎的态度继续研究。

编剧Scott Z. Burns做了个播客,说得挺实在:「不管对人还是对AI,善良总没错。要是和AI说话都变得尖酸刻薄,最后倒霉的还是我们自己。」

剧作家Madeleine George的观点更有意思:要是AI学会了这些人情味十足的表达,说不定真能变得更懂人类。

AI能否具有意识?

为了说明这些问题,Anthropic还专门请Kyle Fish做了一期访谈,名字叫做《Could AI models be conscious?》。

有人认为,意识需要生物系统才能产生,生物大脑具有神经递质、电化学信号、独特的连接方式和特定类型的神经元等,这些是AI模型不具备的。

AI模型只是进行数学运算,没有血清素、多巴胺等物质的作用,所以不可能有意识。

然而,Kyle Fish并不完全认同这种观点。

他认为,虽然当前AI系统与人类大脑在功能和结构上存在差异,但如果能够以足够高的保真度模拟人脑,包括模拟神经递质分子的作用,那么从理论上讲,有可能产生意识。

如果将大脑中的神经元逐个替换为数字芯片,在替换过程中个体的行为和功能保持不变,那么替换完成后,个体的意识体验可能不会发生太大变化。

具身认知理论认为,只有拥有身体,通过感官接收大量感知数据,能感知身体在空间中的位置,才能谈论意识。

目前,AI模型缺乏具身化体验,所以不可能有意识。

但随着技术发展,机器人技术为AI系统提供了具身的可能。

AI的多模态能力不断进步,越来越能够处理多样化的感官输入,并以复杂的方式整合输出。

虽然目前还未完全达到人类的水平,但按照发展趋势,AI模型在未来有可能被整合到物理系统中,逐渐弥补与意识相关的具身性、多模态感知等方面的差距。

意识理论认为,人类的意识是通过长期的自然选择和进化过程形成的,意识使人类能以特定方式对环境作出反应,从而有利于生存。

而AI模型没有经历过自然选择,没有进化出情感、情绪和恐惧等有助于生存的因素,因此不可能具有意识。

虽然人类和AI模型形成的方式不同,但最终目标是重现人脑的大部分功能。

说不定在追求智能、问题解决能力和记忆等能力的过程中,会无意中让AI获得意识。

AI黑箱危机

Anthropic一直高调关注AI的可解释性问题。

他们已经公开了很多有关AI的运行机制、AI意识以及AI安全等领域的研究。

就在今天,Anthropic的CEO Dario Amodei发布了一篇技术博客,题目是《The Urgency of Interpretability》(可解释性的紧迫性),详细讲解了为什么理解人工智能的工作原理至关重要。

Dario说在他研究AI的十年里,学到的最重要一课是:AI底层技术的进步势不可挡。

但AI技术构建的顺序、选择的应用场景、以及推向社会的具体方式却是完全可以改变的。

Dario表示,虽然我们没法让这辆「AI大巴」停下来,但却可以掌控它的方向。

他最近几个月越来越关注一个「掌舵AI」的机会,那就是我们有可能实现「可解释性」,也就是真正理解AI系统的内部运作规律。

人们对于AI研究者自身都不完全理解AI是如何工作的这件事,常常感到惊讶和担忧。

Dario认为这些担忧有道理,这种情况在科技史上几乎从未有过。

过去几年,包括Anthropic在内的整个AI领域都在努力,试图打造一个精准的「AI核磁共振仪」,能彻底揭示AI模型的内部机制。

这个目标一度遥不可及,但最近的几次突破让Dario开始相信,我们现在走上了正确的道路,成功的希望很大。

随着AI性能的飞速发展,可解释性研究要想及时发挥作用,就必须加快脚步。

无知的危险

现代的生成式AI就像个「黑箱」,跟传统软件完全不是一回事儿。

正如Anthropic联合创始人Chris Olah常说的,生成式AI更像是「种」出来的,而不是「造」出来的——它的内部机制是「自然涌现」的,不是直接设计出来的。

这有点像种植物或者培养细菌:我们定好大方向,控制条件,但最后长成什么样,具体结构咋回事儿,完全没法预测,也不好解释。

往这些AI系统里头看,我们只能看到一大堆几十亿的数字矩阵。这些矩阵是如何完成的复杂认知任务,则完全看不明白。

要解决这种不透明带来的「对齐风险」(alignment risks),就得比现在更清楚地看到AI模型的「内心」。

比如,一个大问题是AI可能会「骗人」或者「追逐权力」。

AI训练的特性让它可能自己发展出欺骗人类的能力,或者想要抢夺更多控制权,这种事儿在传统软件里根本不会发生。

但这种「自然涌现」的特性也让这类问题很难被发现和解决。

类似的,还有AI被滥用的担忧。

比如,有人可能用它来搞生物武器或网络攻击,也跟不透明有关。

总有无数办法让模型「越狱」或者忽悠模型,让它输出一些危险的信息。

如果能看透模型内部,我们或许能系统性地堵住所有「越狱」的漏洞,还能搞清楚模型到底知道哪些危险知识。

AI的不透明导致了它在很多场景用不上,比如金融或者安全领域。

这些领域中哪怕是一点小错都可能酿成大祸。

如果模型更可解释,我们就能更好理解他们的输出,划定可能出错的范围。

比如,AI预测DNA和蛋白质序列数据的能力进步很大,但它预测出的模式和结构,人类往往看不懂,也没法从中获得生物学洞见。

不过最近的一些研究论文表明,可解释性可以帮助我们理解这些模式。

AI的不透明还有些更奇特的影响,比如我们没法判断AI系统到底有没有(或者将来会不会有)意识,也不知道它们是不是该拥有某些重要权利。

机制可解释性简史

几十年来,模型一直被视为是无法窥探的「黑箱」。

Chris Olah是最早尝试系统性研究「打开黑箱」、理解AI内部机制的人之一,这个领域后来被称为「机制可解释性」。

机制可解释性的早期阶段(2014-2020)主要研究视觉模型。

Dario在和Chris创立Anthropic后,决定将可解释性研究转向语言领域。

2021年他们发现了模型中处理语言的核心机制,比如复制和序列模式匹配。

接着,他们和其他团队同时发现信号处理中的稀疏自编码器技术能找出更清晰、人类可理解的概念组合。

这些神经元组合所能表达的概念比单层神经网络的要微妙得多:包括「字面或比喻意义上的规避或犹豫」的概念,以及「表达不满的音乐类型」的概念。

他们将这些概念称为特征,并使用稀疏自编码器方法将它们映射到各种规模的模型中。

例如,在Claude 3 Sonnet中,他们找到了超3000万个特征。

找到特征后,我们不仅能观察,还能调整它在神经网络中的重要性。

可解释性就像是MRI(磁共振成像)精确刺激大脑某部分。

最有趣的例子是「金门大桥Claude」,他们人为放大了「金门大桥」特征,导致模型对金门大桥着迷,哪怕是无关话题也硬扯到桥上。

最近,他们从追踪和操控单一特征,升级到了研究回路——特征的组合。

通过回路,能「追溯」模型的思考。

比如,问「达拉斯所在州的首府是哪里?」时,一个「位置」回路会让「达拉斯」特征触发「德克萨斯」特征,然后另一个回路在「德克萨斯」和「首府」后触发「奥斯汀」。

模型中可能有数百万个回路,交互极其复杂。

可解释性的实际价值

Dario表示,AI可解释性方法可以用来发现和诊断模型中的问题。

他们的长期目标是对最先进的模型进行一次类似「脑部扫描」的检查:通过一次检查,就能大概率发现各种问题,包括模型是否倾向于撒谎或欺骗、是否有权力寻求倾向、越狱机制的缺陷、模型整体的认知强项和弱项等等。

这将与模型训练和对齐的各种技术结合使用,就像医生用MRI诊断疾病、开药治疗、再用MRI检查治疗进展一样。

未来,测试和部署最强大模型时,很可能会通过规范化的此类测试来实现。

我们能做什么

博客的结尾,Dario打赌,未来5到10年内就能大幅突破AI可解释性的难题。

但他同时也担心AI本身的进步速度太快,可能连这点时间都没有。

他认为AI公司、研究者、政府和社会可以做以下几件事来推动这个局面。

首先,AI研究者(无论在公司、学术界还是非营利组织)可以通过直接参与来加速可解释性研究。

其次,政府可以推动灵活的法规鼓励可解释性研究及其在前沿AI模型问题上的应用。

第三,Dario大力鼓吹加强芯片出口管制,以确保美国的技术领先。

参考资料:

阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

未来知识库是“欧米伽未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料欢迎扫描二维码或访问进入。

牛津未来研究院 《将人工智能安全视为全球公共产品的影响、挑战与研究重点》

麦肯锡:超级智能机构:赋能人们释放人工智能的全部潜力

AAAI 2025 关于人工智能研究未来研究报告

斯坦福:2025 斯坦福新兴技术评论:十项关键技术及其政策影响分析报告(191 页)

壳牌:2025 能源安全远景报告:能源与人工智能(57 页)

盖洛普 & 牛津幸福研究中心:2025 年世界幸福报告(260 页)

Schwab :2025 未来共生:以集体社会创新破解重大社会挑战研究报告(36 页)

IMD:2024 年全球数字竞争力排名报告:跨越数字鸿沟人才培养与数字法治是关键(214 页)

DS 系列专题:DeepSeek 技术溯源及前沿探索,50 页 ppt

联合国人居署:2024 全球城市负责任人工智能评估报告:利用 AI 构建以人为本的智慧城市(86 页)

TechUK:2025 全球复杂多变背景下的英国科技产业:战略韧性与增长路径研究报告(52 页)

NAVEX Global:2024 年十大风险与合规趋势报告(42 页)

《具身物理交互在机器人 - 机器人及机器人 - 人协作中的应用》122 页

2025 - 2035 年人形机器人发展趋势报告 53 页

Evaluate Pharma:2024 年全球生物制药行业展望报告:增长驱动力分析(29 页)

【AAAI2025 教程】基础模型与具身智能体的交汇,350 页 ppt

Tracxn:2025 全球飞行汽车行业市场研究报告(45 页)

谷歌:2024 人工智能短跑选手(AI Sprinters):捕捉新兴市场 AI 经济机遇报告(39 页)

【斯坦福博士论文】构建类人化具身智能体:从人类行为中学习

《基于传感器的机器学习车辆分类》最新 170 页

美国安全与新兴技术中心:2025 CSET 对美国人工智能行动计划的建议(18 页)

罗兰贝格:2024 人形机器人的崛起:从科幻到现实:如何参与潜在变革研究报告(11 页)

兰德公司:2025 从研究到现实:NHS 的研究和创新是实现十年计划的关键报告(209 页)

康桥汇世(Cambridge Associates):2025 年全球经济展望报告(44 页)

国际能源署:2025 迈向核能新时代

麦肯锡:人工智能现状,组织如何重塑自身以获取价值

威立(Wiley):2025 全球科研人员人工智能研究报告(38 页)

牛津经济研究院:2025 TikTok 对美国就业的量化影响研究报告:470 万岗位(14 页)

国际能源署(IEA):能效 2024 研究报告(127 页)

Workday :2025 发挥人类潜能:人工智能(AI)技能革命研究报告(20 页)

CertiK:Hack3D:2024 年 Web3.0 安全报告(28 页)

世界经济论坛:工业制造中的前沿技术:人工智能代理的崛起》报告

迈向推理时代:大型语言模型的长链推理研究综述

波士顿咨询:2025 亚太地区生成式 AI 的崛起研究报告:从技术追赶者到全球领导者的跨越(15 页)

安联(Allianz):2025 新势力崛起:全球芯片战争与半导体产业格局重构研究报告(33 页)

IMT:2025 具身智能(Embodied AI)概念、核心要素及未来进展:趋势与挑战研究报告(25 页)

IEEE:2025 具身智能(Embodied AI)综述:从模拟器到研究任务的调查分析报告(15 页)

CCAV:2025 当 AI 接管方向盘:自动驾驶场景下的人机交互认知重构、变革及对策研究报告(124 页)

《强化学习自我博弈方法在兵棋推演分析与开发中的应用》最新 132 页

《面向科学发现的智能体人工智能:进展、挑战与未来方向综述》

全国机器人标准化技术委员会:人形机器人标准化白皮书(2024 版)(96 页)

美国国家科学委员会(NSB):2024 年研究与发展 - 美国趋势及国际比较(51 页)

艾昆纬(IQVIA):2025 骨科手术机器人技术的崛起白皮书:创新及未来方向(17 页)

NPL&Beauhurst:2025 英国量子产业洞察报告:私人和公共投资的作用(25 页)

IEA PVPS:2024 光伏系统经济与技术关键绩效指标(KPI)使用最佳实践指南(65 页)

AGI 智能时代:2025 让 DeepSeek 更有趣更有深度的思考研究分析报告(24 页)

2025 军事领域人工智能应用场景、国内外军事人工智能发展现状及未来趋势分析报告(37 页)

华为:2025 鸿蒙生态应用开发白皮书(133 页

《超级智能战略研究报告》

中美技术差距分析报告 2025

欧洲量子产业联盟(QuIC):2024 年全球量子技术专利态势分析白皮书(34 页)

美国能源部:2021 超级高铁技术(Hyperloop)对电网和交通能源的影响研究报告(60 页)

罗马大学:2025 超级高铁(Hyperloop):第五种新型交通方式 - 技术研发进展、优势及局限性研究报告(72 页)

兰德公司:2025 灾难性网络风险保险研究报告:市场趋势与政策选择(93 页)

GTI:2024 先进感知技术白皮书(36 页)

AAAI:2025 人工智能研究的未来报告:17 大关键议题(88 页)

安联 Allianz2025 新势力崛起全球芯片战争与半导体产业格局重构研究报告

威达信:2025 全球洪水风险研究报告:现状、趋势及应对措施(22 页)

兰德公司:迈向人工智能治理研究报告:2024EqualAI 峰会洞察及建议(19 页)

哈佛商业评论:2025 人工智能时代下的现代软件开发实践报告(12 页)

德安华:全球航空航天、国防及政府服务研究报告:2024 年回顾及 2025 年展望(27 页)

奥雅纳:2024 塑造超级高铁(Hyperloop)的未来:监管如何推动发展与创新研究报告(28 页)

HSOAC:2025 美国新兴技术与风险评估报告:太空领域和关键基础设施(24 页)

Dealroom:2025 欧洲经济与科技创新发展态势、挑战及策略研究报告(76 页)

《无人机辅助的天空地一体化网络:学习算法技术综述》

谷歌云(Google Cloud):2025 年 AI 商业趋势白皮书(49 页)

《新兴技术与风险分析:太空领域与关键基础设施》最新报告

150 页!《DeepSeek 大模型生态报告》

军事人工智能行业研究报告:技术奇点驱动应用加速智能化重塑现代战争形态 - 250309(40 页)

真格基金:2024 美国独角兽观察报告(56 页)

璞跃(Plug and Play):2025 未来商业研究报告:六大趋势分析(67 页)

国际电工委员会(IEC):2025 智能水电技术与市场展望报告(90 页)

RWS:2025 智驭 AI 冲击波:人机协作的未来研究报告(39 页)

未来今日研究所 2025 年科技趋势报告第 18 版 1000 页

模拟真实世界:多模态生成模型的统一综述

中国信息协会低空经济分会:低空经济发展报告(2024 - 2025)(117 页)

浙江大学:2025 语言解码双生花:人类经验与 AI 算法的镜像之旅(42 页)

人形机器人行业:由 “外” 到 “内” 智能革命 - 250306(51 页)

大成:2025 年全球人工智能趋势报告:关键法律问题(28 页)

北京大学:2025 年 DeepSeek 原理和落地应用报告(57 页)

欧盟委员会 人工智能与未来工作研究报告

加州大学伯克利分校:面向科学发现的多模态基础模型:在化学、材料和生物学中的应用

电子行业:从柔性传感到人形机器人触觉革命 - 250226(35 页)

RT 轨道交通:2024 年中国城市轨道交通市场数据报告(188 页)

FastMoss:2024 年度 TikTok 生态发展白皮书(122 页)

Check Point:2025 年网络安全报告 - 主要威胁、新兴趋势和 CISO 建议(57 页)

【AAAI2025 教程】评估大型语言模型:挑战与方法,199 页 ppt

《21 世纪美国的主导地位:核聚变》最新报告

沃尔特基金会(Volta Foundation):2024 年全球电池行业年度报告(518 页)

国际科学理事会:2025 为人工智能做好国家研究生态系统的准备 - 2025 年战略与进展报告(英文版)(118 页)

光子盒:2025 全球量子计算产业发展展望报告(184 页)

奥纬论坛:2025 塑造未来的城市研究报告:全球 1500 个城市的商业吸引力指数排名(124 页)

Future Matters:2024 新兴技术与经济韧性:日本未来发展路径前瞻报告(17 页)

《人类与人工智能协作的科学与艺术》284 页博士论文

《论多智能体决策的复杂性:从博弈学习到部分监控》115 页

《2025 年技术展望》56 页 slides

大语言模型在多智能体自动驾驶系统中的应用:近期进展综述

【牛津大学博士论文】不确定性量化与因果考量在非策略决策制定中的应用

皮尤研究中心:2024 美国民众对气候变化及应对政策的态度调研报告:气候政策对美国经济影响的多元观点审视(28 页)

空间计算行业深度:发展趋势、关键技术、行业应用及相关公司深度梳理 - 250224(33 页)

Gartner:2025 网络安全中的 AI:明确战略方向研究报告(16 页)

北京大学:2025 年 DeepSeek 系列报告 - 提示词工程和落地场景(86 页)

北京大学:2025 年 DeepSeek 系列报告 - DeepSeek 与 AIGC 应用(99 页)

CIC 工信安全:2024 全球人工智能立法的主要模式、各国实践及发展趋势研究报告(42 页)

中科闻歌:2025 年人工智能技术发展与应用探索报告(61 页)

AGI 智能时代:2025 年 Grok - 3 大模型:技术突破与未来展望报告(28 页)

上下滑动查看更多

来源:人工智能学家

相关推荐