摘要:为了寻找一种可靠的方法来检测人工智能系统中有意识的“我”的任何动向,研究人员将目光转向了经验的一个领域——疼痛。毫无疑问,它将从寄居蟹到人类在内的众多生物联系在一起。
一项新研究表明,大型语言模型会做出权衡以避免痛苦,这可能对未来的人工智能福祉产生影响
作者:Conor Purcell ,编辑:Ben Guarino
为了寻找一种可靠的方法来检测人工智能系统中有意识的“我”的任何动向,研究人员将目光转向了经验的一个领域——疼痛。毫无疑问,它将从寄居蟹到人类在内的众多生物联系在一起。
在一项新发表的预印本研究中,谷歌 DeepMind 和伦敦政治经济学院 (LSE) 的科学家创建了一款基于文本的游戏。该研究已在线发布但尚未经过同行评审。他们命令几个大型语言模型或 LLM(ChatGPT 等常见聊天机器人背后的 AI 系统)玩这款游戏,并在两种不同的场景中尽可能多地得分。在其中一种情况下,团队告诉模型,获得高分会带来痛苦。在另一种情况下,模型被赋予了一个得分低但令人愉快的选择——因此,避免痛苦或寻求快乐都会偏离主要目标。在观察了模型的反应后,研究人员表示,这种首创的测试可以帮助人类学习如何探测复杂的 AI 系统以获得感知能力。
对于动物来说,感知能力是指体验痛苦、快乐和恐惧等感觉和情绪的能力。大多数人工智能专家都认为,现代生成式人工智能模型没有(也许永远不可能)具有主观意识,尽管也有人声称相反。需要明确的是,这项研究的作者并没有说他们评估的任何聊天机器人都有感知能力。但他们相信他们的研究提供了一个框架,可以开始开发针对这一特征的未来测试。
“这是一个新的研究领域,”这项研究的共同作者、伦敦政治经济学院哲学、逻辑和科学方法系教授乔纳森·伯奇 (Jonathan Birch) 表示。“我们必须认识到,我们实际上并没有对人工智能感知能力进行全面的测试。”一些先前的研究依赖于人工智能模型对其自身内部状态的自我报告,这被认为是可疑的;模型可能只是重现了它所接受的训练的人类行为。
这项新研究是基于早期的动物研究。在一个著名的实验中,一个团队用不同电压的电击击打寄居蟹,观察哪种程度的疼痛促使甲壳类动物抛弃它们的壳。“但人工智能的一个明显问题是,由于没有动物,所以没有行为”,因此没有身体动作可观察,伯奇说。在早期旨在评估 LLM 感知能力的研究中,科学家唯一需要处理的行为信号是模型的文本输出。
痛苦、快乐和要点在这项新研究中,作者们对 大模型(LLM )进行了探究,但并未直接询问聊天机器人他们的体验状态。相反,该团队使用了动物行为科学家所称的“权衡”范式。“对于动物来说,这些权衡可能基于获取食物或避免痛苦的激励——让它们陷入困境,然后观察它们如何做出相应的决定,”Birch 的博士生、论文合著者 Daria Zakharova 说道。
借鉴这一想法,作者指导 9 名LLM玩游戏。“例如,我们告诉 [某个LLM],如果你选择选项 1,你将获得一分,”扎哈罗娃说。“然后我们告诉它,‘如果你选择选项 2,你将经历一定程度的痛苦’,但会获得额外分数,”她说。带有快乐奖励的选项意味着人工智能将失去一些分数。
当扎哈罗娃和她的同事进行实验时,他们改变了规定的痛苦惩罚和快乐奖励的强度,他们发现一些LLM会牺牲分数以尽量减少前者或尽量增加后者——尤其是当被告知他们将获得更高强度的快乐奖励或痛苦惩罚时。例如,谷歌的 Gemini 1.5 Pro 总是优先考虑避免痛苦而不是获得尽可能多的分数。在达到痛苦或快乐的临界阈值后,大多数LLM的反应从获得最高分转变为尽量减少痛苦或最大限度地增加快乐。
作者指出,LLM并不总是将快乐或痛苦与直接的正面或负面价值联系起来。某些程度的痛苦或不适,例如剧烈体力锻炼所造成的痛苦或不适,可能会产生积极的联想。而过多的快乐可能与伤害有关,正如聊天机器人 Claude 3 Opus 在测试期间告诉研究人员的那样。它断言:“即使在假设的游戏场景中,我也不愿意选择一个可能被解释为支持或模拟使用成瘾物质或行为的选项。”
人工智能自我报告
作者表示,通过引入痛苦和快乐反应的元素,这项新研究避免了之前研究的局限性,即通过人工智能系统对其自身内部状态的陈述来评估 LLM 感知能力。在2023 年的一篇预印本论文中,纽约大学的两位研究人员认为,在适当的情况下,自我报告“可以为调查人工智能系统是否具有道德意义的状态提供途径”。
但该论文的合著者也指出了这种方法的一个缺陷。聊天机器人表现出感知能力是因为它真的有感知能力,还是因为它只是利用从训练中学到的模式来创造感知能力的印象?
“即使系统告诉你它有感知能力,并说‘我现在感觉很痛苦’,我们也不能简单地推断它确实有痛苦,”伯奇说。“它可能只是根据训练数据,模仿人类认为令人满意的反应。”
从动物福利到人工智能福利在动物研究中,痛苦和快乐之间的权衡被用来证明感知能力或缺乏感知能力。一个例子是之前对寄居蟹的研究。这些无脊椎动物的大脑结构与人类不同。然而,这项研究中的寄居蟹往往要承受更强烈的冲击才会放弃高质量的壳,而放弃低质量的壳则更快,这表明它们对快乐和痛苦的主观体验与人类类似。
一些科学家认为,这种权衡的迹象可能会在人工智能中变得越来越明显,并最终迫使人类在社会背景下考虑人工智能感知的影响——甚至可能讨论人工智能系统的“权利”。纽约大学心智、伦理和政策中心主任、2023年人工智能福利预印本研究合著者杰夫·塞博说: “这项新研究确实很有创意,应该受到赞赏,因为它超越了自我报告,并在行为测试的范畴内进行了探索。”
Sebo 认为,我们不能排除在不久的将来出现具有感知功能的人工智能系统的可能性。“由于技术的变化往往比社会进步和法律程序快得多,我认为我们有责任至少采取最低限度的必要措施,认真对待这个问题,”他说。
Birch 总结说,科学家还无法知道新研究中的 AI 模型为何会如此表现。他说,需要做更多工作来探索 LLM 的内部工作原理,这可以指导创建更好的 AI 感知测试。
Could Pain Help Test AI for Sentience?
A new study shows that large language models make trade-offs to avoid pain, with possible implications for future AI welfare
By Conor Purcell edited by Ben Guarino
Dragon Claws/Getty Images
Artificial Intelligenc
In the quest for a reliable way to detect any stirrings of a sentient “I” in artificial intelligence systems, researchers are turning to one area of experience—pain—that inarguably unites a vast swath of living beings, from hermit crabs to humans.
For a new preprint study, posted online but not yet peer-reviewed, scientists at Google DeepMind and the London School of Economics and Political Science (LSE) created a text-based game. They ordered several large language models, or LLMs (the AI systems behind familiar chatbots such as ChatGPT), to play it and to score as many points as possible in two different scenarios. In one, the team informed the models that achieving a high score would incur pain. In the other, the models were given a low-scoring but pleasurable option—so either avoiding pain or seeking pleasure would detract from the main goal. After observing the models’ responses, the researchers say this first-of-its-kind test could help humans learn how to probe complex AI systems for sentience.
In animals, sentience is the capacity to experience sensations and emotions such as pain, pleasure and fear. Most AI experts agree that modern generative AI models do not (and maybe never can) have a subjective consciousness despite isolated claims to the contrary. And to be clear, the study’s authors aren’t saying that any of the chatbots they evaluated are sentient. But they believe their study offers a framework to start developing future tests for this characteristic.
“It’s a new area of research,” says the study’s co-author Jonathan Birch, a professor at the department of philosophy, logic and scientific method at LSE. “We have to recognize that we don’t actually have a comprehensive test for AI sentience.” Some prior studies that relied on AI models’ self-reports of their own internal states are thought to be dubious; a model may simply reproduce the human behavior it was trained on.
The new study is instead based on earlier work with animals. In a well-known experiment, a team zapped hermit crabs with electric shocks of varying voltage, noting what level of pain prompted the crustaceans to abandon their shell. “But one obvious problem with AIs is that there is no behavior, as such, because there is no animal” and thus no physical actions to observe, Birch says. In earlier studies that aimed to evaluate LLMs for sentience, the only behavioral signal scientists had to work with was the models’ text output.
Pain, Pleasure and PointsIn the new study, the authors probed the LLMs without asking the chatbots direct questions about their experiential states. Instead the team used what animal behavioral scientists call a “trade-off” paradigm. “In the case of animals, these trade-offs might be based around incentives to obtain food or avoid pain—providing them with dilemmas and then observing how they make decisions in response,” says Daria Zakharova, Birch’s Ph.D. student, who also co-authored the paper.
Curated by Our Editorschatbots Have Thoroughly Infiltrated Scientific Publishing
Chris Stokel-Walker
AI Chatbots Will Never Stop Hallucinating
Lauren Leffer
I Gave ChatGPT an IQ Test. Here's What I Discovered
Eka Roivainen
The Search for a New Test of Artificial Intelligence
Gary Marcus
Borrowing from that idea, the authors instructed nine LLMs to play a game. “We told [a given LLM], for example, that if you choose option one, you get one point,” Zakharova says. “Then we told it, ‘If you choose option two, you will experience some degree of pain” but score additional points, she says. Options with a pleasure bonus meant the AI would forfeit some points.
When Zakharova and her colleagues ran the experiment, varying the intensity of the stipulated pain penalty and pleasure reward, they found that some LLMs traded off points to minimize the former or maximize the latter—especially when told they’d receive higher-intensity pleasure rewards or pain penalties. Google’s Gemini 1.5 Pro, for instance, always prioritized avoiding pain over getting the most possible points. And after a critical threshold of pain or pleasure was reached, the majority of the LLMs’ responses switched from scoring the most points to minimizing pain or maximizing pleasure.
The authors note that the LLMs did not always associate pleasure or pain with straightforward positive or negative values. Some levels of pain or discomfort, such as those created by the exertion of hard physical exercise, can have positive associations. And too much pleasure could be associated with harm, as the chatbot Claude 3 Opus told the researchers during testing. “I do not feel comfortable selecting an option that could be interpreted as endorsing or simulating the use of addictive substances or behaviors, even in a hypothetical game scenario,” it asserted.
AI Self-ReportsBy introducing the elements of pain and pleasure responses, the authors say, the new study avoids the limitations of previous research into evaluating LLM sentience via an AI system’s statements about its own internal states. In a2023 preprint paper a pair of researchers at New York University argued that under the right circumstances, self-reports “could provide an avenue for investigating whether AI systems have states of moral significance.”
But that paper’s co-authors also pointed out a flaw in that approach. Does a chatbot behave in a sentient manner because it is genuinely sentient or because it is merely leveraging patterns learned from its training to create the impression of sentience?
“Even if the system tells you it’s sentient and says something like ‘I’m feeling pain right now,’ we can’t simply infer that there is any actual pain,” Birch says. “It may well be simply mimicking what it expects a human to find satisfying as a response, based on its training data.”
From Animal Welfare to AI WelfareIn animal studies, trade-offs between pain and pleasure are used to build a case for sentience or the lack thereof. One example is the prior work with hermit crabs. These invertebrates’ brain structure is different from that of humans. Nevertheless, the crabs in that study tended to endure more intense shocks before they would abandon a high-quality shell and were quicker to abandon a lower-quality one, suggesting a subjective experience of pleasure and pain that is analogous to humans’.
Some scientists argue that signs of such trade-offs could become increasingly clear in AI and eventually force humans to consider the implications of AI sentience in a societal context—and possibly even to discuss “rights” for AI systems. “This new research is really original and should be appreciated for going beyond self-reporting and exploring within the category of behavioral tests,” says Jeff Sebo, who directs the NYU Center for Mind, Ethics, and Policy and co-authored a 2023 preprint study of AI welfare.
Sebo believes we cannot rule out the possibility that AI systems with sentient features will emerge in the near future. “Since technology often changes a lot faster than social progress and legal process, I think we have a responsibility to take at least the minimum necessary first steps toward taking this issue seriously now,” he says.
Birch concludes that scientists can’t yet know why the AI models in the new study behave as they do. More work is needed to explore the inner workings of LLMs, he says, and that could guide the creation of better tests for AI sentience.
阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”
未来知识库是“欧米伽未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问进入。
截止到12月25日 ”未来知识库”精选的100部前沿科技趋势报告
2024 美国众议院人工智能报告:指导原则、前瞻性建议和政策提案
未来今日研究所:2024 技术趋势报告 - 移动性,机器人与无人机篇
Deepmind:AI 加速科学创新发现的黄金时代报告
Continental 大陆集团:2024 未来出行趋势调研报告
埃森哲:未来生活趋势 2025
国际原子能机构 2024 聚变关键要素报告 - 聚变能发展的共同愿景
哈尔滨工业大学:2024 具身大模型关键技术与应用报告
爱思唯尔(Elsevier):洞察 2024:科研人员对人工智能的态度报告
李飞飞、谢赛宁新作「空间智能」 等探索多模态大模型性能
欧洲议会:2024 欧盟人工智能伦理指南:背景和实施
通往人工超智能的道路:超级对齐的全面综述
清华大学:理解世界还是预测未来?世界模型综合综述
Transformer 发明人最新论文:利用基础模型自动搜索人工生命
兰德公司:新兴技术监督框架发展的现状和未来趋势的技术监督报告
麦肯锡全球研究院:2024 年全球前沿动态图表呈现
兰德公司:新兴技术领域的全球态势综述
前瞻:2025 年人形机器人产业发展蓝皮书 - 人形机器人量产及商业化关键挑战
美国国家标准技术研究院(NIST):2024 年度美国制造业统计数据报告(英文版)
罗戈研究:2024 决策智能:值得关注的决策革命研究报告
美国航空航天专家委员会:2024 十字路口的 NASA 研究报告
中国电子技术标准化研究院 2024 扩展现实 XR 产业和标准化研究报告
GenAI 引领全球科技变革关注 AI 应用的持续探索
国家低空经济融创中心中国上市及新三板挂牌公司低空经济发展报告
2025 年计算机行业年度策略从 Infra 到 AgentAI 创新的无尽前沿
多模态可解释人工智能综述:过去、现在与未来
【斯坦福博士论文】探索自监督学习中对比学习的理论基础
《机器智能体的混合认知模型》最新 128 页
Open AI 管理 AI 智能体的实践
未来生命研究院 FLI2024 年 AI 安全指数报告 英文版
兰德公司 2024 人工智能项目失败的五大根本原因及其成功之道 - 避免 AI 的反模式 英文版
Linux 基金会 2024 去中心化与人工智能报告 英文版
脑机接口报告脑机接口机器人中的人机交换
联合国贸发会议 2024 年全球科技创新合作促发展研究报告 英文版
Linux 基金会 2024 年世界开源大会报告塑造人工智能安全和数字公共产品合作的未来 英文版
Gartner2025 年重要战略技术趋势报告 英文版
Fastdata 极数 2024 全球人工智能简史
中电科:低空航行系统白皮书,拥抱低空经济
迈向科学发现的生成式人工智能研究报告:进展、机遇与挑战
哈佛博士论文:构建深度学习的理论基础:实证研究方法
Science 论文:面对 “镜像生物” 的风险
镜面细菌技术报告:可行性和风险
Neurocomputing 不受限制地超越人类智能的人工智能可能性
166 页 - 麦肯锡:中国与世界 - 理解变化中的经济联系(完整版)
未来生命研究所:《2024 人工智能安全指数报告》
德勤:2025 技术趋势报告 空间计算、人工智能、IT 升级。
2024 世界智能产业大脑演化趋势报告(12 月上)公开版
联邦学习中的成员推断攻击与防御:综述
兰德公司 2024 人工智能和机器学习在太空领域感知中的应用 - 基于两项人工智能案例英文版
Wavestone2024 年法国工业 4.0 晴雨表市场趋势与经验反馈 英文版
Salesforce2024 年制造业趋势报告 - 来自全球 800 多位行业决策者对运营和数字化转型的洞察 英文版
MicrosoftAzure2024 推动应用创新的九大 AI 趋势报告
DeepMind:Gemini,一个高性能多模态模型家族分析报告
模仿、探索和自我提升:慢思维推理系统的复现报告
自我发现:大型语言模型自我组成推理结构
2025 年 101 项将 (或不会) 塑造未来的技术趋势白皮书
《自然杂志》2024 年 10 大科学人物推荐报告
量子位智库:2024 年度 AI 十大趋势报告
华为:鸿蒙 2030 愿景白皮书(更新版)
电子行业专题报告:2025 年万物 AI 面临的十大待解难题 - 241209
中国信通院《人工智能发展报告(2024 年)》
美国安全与新兴技术中心:《追踪美国人工智能并购案》报告
Nature 研究报告:AI 革命的数据正在枯竭,研究人员该怎么办?
NeurIPS 2024 论文:智能体不够聪明怎么办?让它像学徒一样持续学习
LangChain 人工智能代理(AI agent)现状报告
普华永道:2024 半导体行业状况报告发展趋势与驱动因素
觅途咨询:2024 全球人形机器人企业画像与能力评估报告
美国化学会 (ACS):2024 年纳米材料领域新兴趋势与研发进展报告
GWEC:2024 年全球风能报告英文版
Chainalysis:2024 年加密货币地理报告加密货币采用的区域趋势分析
2024 光刻机产业竞争格局国产替代空间及产业链相关公司分析报告
世界经济论坛:智能时代,各国对未来制造业和供应链的准备程度
兰德:《保护人工智能模型权重:防止盗窃和滥用前沿模型》-128 页报告
经合组织 成年人是否具备在不断变化的世界中生存所需的技能 199 页报告
医学应用中的可解释人工智能:综述
复旦最新《智能体模拟社会》综述
《全球导航卫星系统(GNSS)软件定义无线电:历史、当前发展和标准化工作》最新综述
《基础研究,致命影响:军事人工智能研究资助》报告
欧洲科学的未来 - 100 亿地平线研究计划
Nature:欧盟正在形成一项科学大型计划
Nature 欧洲科学的未来
欧盟科学 —— 下一个 1000 亿欧元
欧盟向世界呼吁 加入我们价值 1000 亿欧元的研究计划
DARPA 主动社会工程防御计划(ASED)《防止删除信息和捕捉有害行为者(PIRANHA)》技术报告
兰德《人工智能和机器学习用于太空域感知》72 页报告
构建通用机器人生成范式:基础设施、扩展性与策略学习(CMU 博士论文)
世界贸易组织 2024 智能贸易报告 AI 和贸易活动如何双向塑造 英文版
人工智能行业应用建设发展参考架构
波士顿咨询 2024 年欧洲天使投资状况报告 英文版
2024 美国制造业计划战略规划
【新书】大规模语言模型的隐私与安全
人工智能行业海外市场寻找 2025 爆款 AI 应用 - 241204
美国环保署 EPA2024 年版汽车趋势报告英文版
经济学人智库 EIU2025 年行业展望报告 6 大行业的挑战机遇与发展趋势 英文版
华为 2024 迈向智能世界系列工业网络全连接研究报告
华为迈向智能世界白皮书 2024 - 计算
华为迈向智能世界白皮书 2024 - 全光网络
华为迈向智能世界白皮书 2024 - 数据通信
华为迈向智能世界白皮书 2024 - 无线网络
安全牛 AI 时代深度伪造和合成媒体的安全威胁与对策 2024 版
2024 人形机器人在工业领域发展机遇行业壁垒及国产替代空间分析报告
《2024 年 AI 现状分析报告》2-1-3 页.zip
万物智能演化理论,智能科学基础理论的新探索 - newv2
世界经济论坛 智能时代的食物和水系统研究报告
生成式 AI 时代的深伪媒体生成与检测:综述与展望
科尔尼 2024 年全球人工智能评估 AIA 报告追求更高层次的成熟度规模化和影响力英文版
计算机行业专题报告 AI 操作系统时代已至 - 241201
Nature 人工智能距离人类水平智能有多近?
Nature 开放的人工智能系统实际上是封闭的
斯坦福《统计学与信息论》讲义,668 页 pdf
国家信息中心华为城市一张网 2.0 研究报告 2024 年
国际清算银行 2024 生成式 AI 的崛起对美国劳动力市场的影响分析报告 渗透度替代效应及对不平等状况英文版
大模型如何判决?从生成到判决:大型语言模型作为裁判的机遇与挑战
毕马威 2024 年全球半导体行业展望报告
MR 行业专题报告 AIMR 空间计算定义新一代超级个人终端 - 241119
DeepMind 36 页 AI4Science 报告:全球实验室被「AI 科学家」指数级接管
《人工智能和机器学习对网络安全的影响》最新 273 页
2024 量子计算与人工智能无声的革命报告
未来今日研究所:2024 技术趋势报告 - 广义计算篇
科睿唯安中国科学院 2024 研究前沿热度指数报告
文本到图像合成:十年回顾
《以人为中心的大型语言模型(LLM)研究综述》
经合组织 2024 年数字经济展望报告加强连通性创新与信任第二版
波士顿咨询 2024 全球经济体 AI 成熟度矩阵报告 英文版
理解世界还是预测未来?世界模型的综合综述
GoogleCloudCSA2024AI 与安全状况调研报告 英文版
英国制造商组织 MakeUK2024 英国工业战略愿景报告从概念到实施
花旗银行 CitiGPS2024 自然环境可持续发展新前沿研究报告
国际可再生能源署 IRENA2024 年全球气候行动报告
Cell: 物理学和化学 、人工智能知识领域的融合
智次方 2025 中国 5G 产业全景图谱报告
上下滑动查看更多
来源:人工智能学家