AI 正在破译动物的声音,人类将迎来动物的通用翻译器

360影视 日韩动漫 2025-05-18 00:28 2

摘要:科学家们正在使用人工智能来破译动物的交流,这带来了一些道德难题。© Gizmodo [插图:St. Lumbroso,照片:TatianaKim,Gulf MG/Shutterstock)

科学家们正在使用人工智能来破译动物的交流,这带来了一些道德难题。© Gizmodo [插图:St. Lumbroso,照片:TatianaKim,Gulf MG/Shutterstock)

啁啾、颤音、咆哮、嚎叫、尖叫。动物以各种方式交谈,但人类只是触及了它们如何相互交流以及与生物世界其他部分交流的皮毛。我们的物种已经训练了一些动物——如果你问猫,动物也训练了我们——但我们还没有真正破解物种间交流的密码。

动物研究人员越来越多地部署人工智能来加速我们对动物交流的研究——无论是在物种内部还是在生命之树的分支之间。随着科学家们逐渐了解动物复杂的交流系统,他们越来越接近理解生物在说什么,甚至可能如何回应。但是,当我们试图弥合人类和动物之间的语言鸿沟时,一些专家提出了合理的担忧,即这种能力是否合适,或者我们是否应该尝试与动物交流。

排在最前面的是 CETI 项目,它使用机器学习分析了 8,000 多头抹香鲸“尾声”——由多米尼克抹香鲸项目记录的结构化点击模式。研究人员发现了鲸鱼点击中的上下文和组合结构,命名了“rubato”和“ornamentation”等特征,以描述鲸鱼在对话中如何巧妙地调整它们的发声。这些模式帮助该团队为动物创造了一种音标——一种富有表现力的结构化系统,它可能不是我们所知道的语言,但揭示了研究人员以前没有意识到的复杂性。CETI 项目还在为该技术制定道德准则,考虑到使用 AI 与动物“交谈”的风险,这是一个关键目标。

与此同时,Google 和 Wild Dolphin Project 最近推出了 DolphinGemma,这是一个大型语言模型 (LLM),经过 40 年的海豚发声训练。正如 ChatGPT 是用于人类输入的 LLM——获取研究论文和图像等视觉信息并生成对相关查询的响应——DolphinGemma 会接收海豚的声音数据并预测接下来的发声。DolphinGemma 甚至可以生成类似海豚的音频,研究人员的原型双向系统,鲸类听力增强遥测(恰如其分地,CHAT),使用基于智能手机的界面,海豚可以使用该界面来请求围巾或海草等物品——可能为未来的物种间对话奠定基础。

“DolphinGemma 本季正在现场使用,以提高我们在 CHAT 系统中的实时声音识别能力,”Wild Dolphin Project 的创始人兼总监 Denise Herzing 说,该项目与 Google DeepMind 的研究人员合作率先开发了 DolphinGemma,在给 Gizmodo 的一封电子邮件中。“今年秋天,我们将花时间摄取已知的海豚发声,让 Gemma 向我们展示它们发现的任何可重复模式,”例如求偶和母幼崽管教中使用的发声。

Herzing 补充说,通过这种方式,AI 应用是双重的:研究人员既可以使用它来探索海豚的自然声音,也可以更好地了解动物对人类模仿海豚声音的反应,这些声音是由 AI CHAT 系统合成产生的。

在海洋之外,研究人员发现人类语音模型也可以重新用于解码陆生动物信号。密歇根大学领导的一个团队使用 Wav2Vec2(一种在人声上训练的语音识别模型)根据狗的吠叫来识别狗的情绪、性别、品种,甚至个体身份。预先训练的人类模型优于仅用狗数据训练的版本,这表明人类语言模型架构在解码动物交流方面可能非常有效。

当然,我们需要考虑这些 AI 模型所针对的不同复杂程度。确定狗的吠叫是具有攻击性的还是顽皮的,或者它是雄性还是雌性——这些对于模型来说可能比抹香鲸语音中编码的细微含义更容易确定,这是可以理解的。尽管如此,每一项研究都使科学家们更接近于理解目前存在的 AI 工具如何最好地应用于如此广阔的领域,并让 AI 有机会训练自己成为研究人员工具包中更有用的部分。

即使是猫——通常被视为冷漠的——似乎也比它们表现出的更善于交流。在巴黎南泰尔大学 2022 年的一项研究中,猫表现出识别主人声音的明显迹象,但除此之外,猫科动物在直接与 “猫语 ”交谈时的反应更强烈。这表明猫不仅注意我们说什么,还注意我们如何说——尤其是当它来自它们认识的人时。

本月早些时候,一对墨鱼研究人员发现证据表明,这些动物有一组四个“波浪”或身体手势,它们会相互之间以及人类播放墨鱼波浪。该小组计划应用一种算法来对波的类型进行分类,自动跟踪生物的运动,并了解动物更快地表达自己的环境。

私营公司(如谷歌)也加入了这一行列。上周,中国最大的搜索引擎百度向中国知识产权局申请了一项专利,提议将动物(特别是猫)的发声翻译成人类语言。这项技术的快速而肮脏之处在于,它会从你的猫咪那里获取大量数据,然后使用人工智能模型来分析数据,确定动物的情绪状态,并输出你的宠物试图传达的明显的人类语言信息。

这些研究共同代表了科学家处理动物交流方式的重大转变。研究团队不是从头开始,而是构建专为人类设计的工具和模型,并取得进展,否则这些进步本来需要更长的时间。最终目标可能(读作:可能)成为一种由 AI 提供支持的动物王国的罗塞塔石碑。

“在过去的五年里,我们已经非常擅长分析人类语言,我们开始完善这种将在一个数据集上训练的模型转移到新数据的做法,”地球物种项目的行为生态学家和电气工程师萨拉·基恩 (Sara Keen) 在与 Gizmodo 的视频通话中说。

地球物种项目计划今年推出其用于动物声音的旗舰音频语言模型 NatureLM,并且 NatureLM 音频的演示已经上线。凭借来自生命之树的输入数据,以及人类语音、环境声音,甚至音乐检测,该模型旨在成为人类语音到动物类似物的转换器。该项目指出,该模型“显示了从人类语音到动物交流的有前途的域转移”,“支持我们的假设,即 AI 中的共享表示可以帮助解码动物语言。

“我们工作的很大一部分实际上是试图改变人们对我们在世界上的位置的看法,”Keen 补充道。“我们在动物交流方面取得了很酷的发现,但最终我们发现其他物种和我们一样复杂和微妙。这个启示非常令人兴奋。

事实上,研究人员普遍同意基于 AI 的工具在改进动物交流数据收集和解释方面的前景。但有些人认为,这种学术上的熟悉程度与公众对如何应用这些工具的看法之间存在沟通中断。

“我认为目前对这个主题的报道存在很多误解——机器学习可以以某种方式从无到有地创造这种上下文知识。只要你有数千小时的录音,一些神奇的机器学习黑匣子就可以以某种方式从中榨取意义,”动物行为和认知专家、国际生物记录协会创始主席克里斯蒂安·鲁茨 (Christian Rutz) 在与 Gizmodo 的视频通话中说。“这不会发生。”

“意义来自上下文注释,这就是我认为对于整个领域来说,在这个兴奋和热情的时期,不要忘记这个注释来自基本的行为生态学和自然历史专业知识,”Rutz 补充道。换句话说,我们不要把马放在车前,特别是因为车——在这种情况下——是马的动力。

但凭借强大的力量......你知道陈词滥调。从本质上讲,人类如何以一种既具有科学启发性又最大限度地减少对动物主题的伤害或干扰的方式开发和应用这些技术?专家们提出了道德标准和护栏,以使用优先考虑生物福祉的技术,因为我们越来越接近——嗯,无论技术走向何方。

随着人工智能的进步,关于动物权利的对话必须不断发展。未来,动物可能会成为这些对话的更积极参与者——法律专家正在探索这一概念作为一种思想练习,但有一天可能会成为现实。

“除了推进机器学习方面之外,我们迫切需要的是在机器学习专家和动物行为研究人员之间建立这些有意义的合作,”Rutz 说,“因为只有当你把我们两个放在一起时,你才有机会。

从完美的草原犬吱吱声到蜗牛黏糊糊的痕迹(是的,真的),不乏可以馈送到数据饥渴的 AI 模型中的通信数据。但是,我们究竟如何利用从这些新方法中收集到的信息,需要彻底考虑与动物“交谈”所涉及的道德规范。

最近一篇关于使用 AI 与鲸鱼交流的道德问题的论文概述了六个主要问题领域。这些包括隐私权、对鲸鱼的文化和情感伤害、拟人化、技术解决方案主义(过度依赖技术来解决问题)、性别偏见以及实际鲸鱼保护的有效性有限。考虑到有多少鲸鱼种群已经受到严重威胁,最后一个问题尤其紧迫。

我们似乎越来越需要更多地了解动物之间的互动方式——事实上,拉开它们交流的帷幕也可以深入了解它们在环境中如何学习、社交和行动。但仍有重大挑战需要克服,例如问自己如何使用目前正在开发的强大技术。

来源:人工智能学家

相关推荐