访谈两小时,AI就能变成“另一个你”?

摘要:想象一下,与一个 AI 模型进行一场为时两小时的语音访谈,一个亲切的声音引导你完成一场对话,内容涵盖你的童年、成长记忆、职业生涯以及你对移民政策的看法。不久之后,一个虚拟的你将能够以令人惊叹的精准度体现你的价值观和偏好。

想象一下,与一个 AI 模型进行一场为时两小时的语音访谈,一个亲切的声音引导你完成一场对话,内容涵盖你的童年、成长记忆、职业生涯以及你对移民政策的看法。不久之后,一个虚拟的你将能够以令人惊叹的精准度体现你的价值观和偏好。

根据来自斯坦福大学和 Google DeepMind 研究团队的一篇新论文,这已经成为可能。该论文已发布在 arXiv 上,但尚未经过同行评审。

由斯坦福大学计算机科学博士生 Joon Sung Park 领导的研究团队招募了 1000 名参与者,他们的年龄、性别、种族、地区、教育程度和政治理念各不相同。参与者可获得最高 100 美元的酬劳。

通过对这些人进行访谈,研究团队创建了与他们个性相仿的代理人模型。为测试这些代理人对人类行为的模拟效果,参与者进行了一系列性格测试、社会调查和逻辑游戏,每人两次,间隔两周完成;随后,代理人也完成了相同的任务。结果显示,二者的表现有 85% 的相似度。

“如果你可以拥有一群‘小你’在不同场景中运行,并且实际上做出你会做的决定——我认为这就是未来。”Park 说。

在论文中,这些复制品被称为“模拟代理”,其创作动机是为了让社会科学及其他领域的研究变得更简单。使用真实人类参与的研究往往成本高昂、不切实际甚至不道德。而通过创造能够表现得像真人一样的 AI 模型,研究人员可以测试从社交媒体干预措施对抗虚假信息的效果,到什么行为会导致交通堵塞等各种问题。

这种“模拟代理”与当前主导领先 AI 公司工作的代理稍有不同。后者被称为“工具型代理”,专为完成任务而设计,而非用于与用户交谈。例如,这些工具型代理可能会输入数据、检索存储信息,或者未来为用户预订旅行和安排会议。据《彭博社》报道,Salesforce 在 9 月发布了自己的工具型代理,紧接着 Anthropic 在 10 月推出了类似产品,而 OpenAI 计划在 1 月发布此类代理。

尽管这两种代理类型存在差异,但也有共同之处。麻省理工学院斯隆管理学院信息技术副教授 John Horton 表示,对模拟代理(如论文中提到的)进行的研究可能会促进整体 AI 智能代理的发展。他创办了一家公司,专门利用 AI 模拟参与者开展研究。

“这篇论文展示了一种混合方法:使用真人生成人物设定,然后以程序化或模拟方式应用,这在现实中是无法实现的。”他在发给 MIT Technology Review 的邮件中写道。

然而,这项研究也伴随着不少警示,尤其是潜在的风险。正如图像生成技术已使得未经授权创建有害深度伪造图像变得容易一样,任何代理生成技术都可能引发关于人们是否可以轻松创建虚拟人物并在线上模仿他人、发表或授权他们本不想表达的言论的担忧。

此外,该团队用于评估 AI 智能代理是否准确复刻其对应人类的方法也较为基础。这些方法包括通用社会调查(General Social Survey),它收集参与者的人口统计信息、幸福感、行为等数据;以及“大五人格特质”评估:包括开放性、责任心、外向性、宜人性和神经质。这些测试虽然在社会科学研究中常用,但并不能完全捕捉我们独特的个性。在行为测试中,比如用于揭示参与者如何看待公平的“独裁者博弈”,AI 智能代理的表现也不如真人。

为了构建能够准确复制人类的 AI 智能代理,研究人员需要将我们的独特性提炼成语言模型能够理解的形式。Park 表示,他们选择了定性访谈来实现这一目标。他提到,在发表了一篇关于生成代理的论文后,他参与了无数的播客访谈,并深受启发。“我可能参加过两小时的播客访谈,结束后我会感慨,人们现在真的很了解我了。”他说,“两小时的时间可能非常有力量。”

这种访谈还可以揭示那些调查问卷中难以体现的独特特征。“想象一下某人去年刚刚战胜癌症,这是一条非常独特的信息,能够反映出你如何看待事物以及行为模式。”他补充说,而设计能够触发这种记忆和反应的调查问卷几乎是不可能的。

不过,访谈并非唯一选项。一些提供用户“数字孪生”服务的公司,如 Tavus,会让他们的 AI 模型摄取客户的电子邮件或其他数据。据 Tavus 首席执行官 Hassaan Raza 透露,这种方法通常需要庞大的数据集来复刻一个人的个性。但这篇新论文表明了一种更高效的途径。

“这里真正令人兴奋的是,他们展示了可能并不需要那么多信息,”Raza 说道,并补充说他的公司将尝试这种方法。“为什么不今天和一个 AI 访谈员聊 30 分钟,明天再聊 30 分钟?然后我们用这些数据构建你的数字分身。”

原文链接:

来源:DeepTech深科技一点号

相关推荐