摘要:今天将分享发表在Nature Machine Intelligence(计算机、工程技术Q1/IF=18.8)上与AI+心理学相关的文章,共4篇(同样仅筛选研究论文)。研究主题涵盖人类与AI交互、人机协作、人类对大语言模型输出准确性的感知、LLM取代人类被试的
导语
今天将分享发表在Nature Machine Intelligence(计算机、工程技术Q1/IF=18.8)上与AI+心理学相关的文章,共4篇(同样仅筛选研究论文)。研究主题涵盖人类与AI交互、人机协作、人类对大语言模型输出准确性的感知、LLM取代人类被试的风险,都还是比较新颖且热门的,文章的可读性也很高。
论文题目:Human–AI collaboration enables more empathic conversations in text-based peer-to-peer mental health support
人机协作使基于文本的点对点心理健康支持中能够进行更具共情的对话
推荐理由:2023年发表,在Google Scholar上已经被引300多次,是人与AI协作改善人类能力的一篇典型文章
摘要:人工智能 (AI) 的进步使得系统能够增强并与人类协作,执行一些简单的机械任务,例如安排会议和检查文本语法。然而,由于 AI 系统难以理解复杂的人类情感,且这些任务具有开放性,这种人机协作对更复杂的任务(例如进行共情对话)提出了挑战。本文,我们关注点对点心理健康支持,在这个环境中,共情对于成功至关重要。我们研究了 AI 如何与人类协作,在文本式在线支持对话中促进同伴共情。我们开发了 HAILEY,这是一个 AI 在环代理,它提供即时反馈,帮助提供支持的参与者(同伴支持者)以更具共情的方式回应寻求帮助的人(寻求支持者)。我们在大型在线点对点支持平台 TalkLife(N = 300)上开展了一项非临床随机对照试验,对 HAILEY 进行了评估。我们发现,人机协作方法可使同伴间的对话共情整体提升 19.6%。此外,我们发现,在自认为提供支持存在困难的同伴支持者子样本中,共情提升幅度更大,达到了 38.9%。我们系统地分析了人机协作模式,发现同伴支持者能够直接或间接地利用人工智能反馈,而不会过度依赖人工智能,同时反馈后的自我效能感有所提升。我们的研究结果表明,反馈驱动、人工智能在环路的写作系统在赋能人类完成开放式、社交性和高风险任务(例如共情对话)方面具有巨大的潜力。
推荐理由: 2023年发表, Google Scholar上已经被引90多次,探讨人类的信念的作用
摘要: 随着基于大型语言模型的对话代理变得越来越像人类,用户开始将它们视为同伴,而不仅仅是助手。我们的研究探索了人类对人工智能系统心智模型的改变如何影响他们与系统的交互。参与者与同一个对话人工智能进行交互,但受到关于人工智能内在动机的不同启动语句的影响:关爱、操纵或无动机。我们发现,那些感知到人工智能具有关爱动机的人也认为它更值得信赖、更有共情、表现更佳,并且启动和初始心智模型的影响在更复杂的人工智能模型中更强。我们的研究还表明,用户和人工智能在短时间内强化了用户的心智模型,形成了一个反馈回路;未来的研究应该探究其长期影响。这项研究强调了人工智能系统的引入方式的重要性,这将显著影响交互和人工智能的体验。
论文题目:What large language models know and what people think they know ?
大型语言模型知道什么以及人们认为它们知道什么?
推荐理由:2025年1月发表,3月份Nature官方又发布一篇对此论文的评论说明,两篇文章都值得一读
Bridging the gap between machine confidence and human perceptions https://www.nature.com/articles/s42256-025-01013-x摘要: 随着人工智能系统,尤其是大型语言模型 (LLM),越来越多地融入到决策过程中,信任其输出至关重要。为了赢得人类的信任,LLM 必须经过良好的校准,以便能够准确评估并传达其预测正确的可能性。尽管近期的研究主要关注 LLM 的内部置信度,但人们对其如何有效地向用户传达不确定性却知之甚少。本文,我们探讨了校准差距(指人类对 LLM 生成答案的置信度与模型实际置信度之间的差异)和辨别差距(反映人类和模型区分正确答案和错误答案的能力)。我们对多项选择题和简答题的实验表明,当提供默认解释时,用户倾向于高估 LLM 答案的准确性。此外,即使额外的长度并没有提高答案的准确性,更长的解释也会增强用户的信心。通过调整 LLM 解释以更好地反映模型的内部置信度,校准差距和辨别差距均有所缩小,显著提高了用户对 LLM 准确性的感知。这些发现强调了准确的不确定性沟通的重要性,并强调了解释长度对人工智能辅助决策环境中用户信任的影响。
论文题目:Large language models that replace human participants can harmfully misportray and flatten identity groups
取代人类被试的大型语言模型可能会对身份群体造成有害的错误描绘和扁平化
推荐理由: 2025年1月发表
摘要: 大型语言模型 (LLM) 的功能和普及度不断提升,推动了其在新领域的应用——包括在计算社会科学、用户测试、注释任务等领域替代人类被试。在许多情况下,研究人员试图将调查问卷分发给能够代表目标人群的被试样本。这意味着,要成为合适的替代模型,LLM 需要能够捕捉位置性(即性别和种族等社会身份的相关性)的影响。然而,我们表明,当前 LLM 的训练方式存在两个固有的局限性,阻碍了这一点。我们分析性地论证了 LLM 为何容易错误地描绘和扁平化人口群体的代表性,然后通过一系列涉及 16 种人口身份的 3,200 名被试的人类研究,在四个 LLM 上实证证明了这一点。我们还讨论了关于身份提示如何将身份本质化的第三个局限性。自始至终,我们将每一个局限性都与认知不公的历史联系起来,这种不公违背了生活经验的价值,解释了为什么替代性学习对边缘化人口群体有害。总而言之,我们敦促谨慎使用 LLM 来替代身份与当前任务相关的人类被试。同时,如果 LLM 替代的益处大于弊端(例如,让人类被试参与可能会对他们造成损害,或者目标是补充而非完全替代),我们通过实证证明,我们的推理时间技术可以减少(但不会消除)这些弊端。
注:中文标题、摘要由Google Translate直译,缺少严格的校对,部分术语可能并不准确。
「大模型时代下的人机交互与协同」读书会
集智俱乐部联合中国科学技术大学教授赵云波、华东师范大学副教授吴兴蛟两位老师共同发起 「人机协同的智能时代」读书会 。本次读书会将探讨:
人类智能和机器智能各自的优势有哪些?智能边界如何?如何通过更有效的标注策略和数据生成技术来解决数据稀缺问题?如何设计更加高效的人机协作系统,实现高效共赢的效果?如何提高机器决策的可解释性与透明性,确保系统的可信度?如何通过多模态协作融合不同感知通道,应对复杂的决策任务?
读书会计划从6月21日开始,每周六晚19:00-21:00进行,预计持续约8周。诚挚邀请领域内研究者、寻求跨领域融合的研究者加入,共同探讨。
来源:小夭看天下