AI是否会终结传统搜索引擎?

360影视 2025-01-11 18:34 2

摘要:我们都明白“谷歌”一下是什么意思。你只需在搜索框中输入几个关键词,便会得到一系列蓝色链接,指向最相关的结果。页面顶部可能会显示一些简短的解释,或者呈现地图、体育比分、视频内容等。但本质上,这一过程只是从互联网上提取已有的信息,并以某种结构化的方式展示给你。

我们都明白“谷歌”一下是什么意思。你只需在搜索框中输入几个关键词,便会得到一系列蓝色链接,指向最相关的结果。页面顶部可能会显示一些简短的解释,或者呈现地图、体育比分、视频内容等。但本质上,这一过程只是从互联网上提取已有的信息,并以某种结构化的方式展示给你。

然而,这一切正面临变化,我们正处于一个全新的转折点。

自上世纪 90 年代以来,搜索引擎传递信息的方式正在经历前所未有的变革。不再需要依赖关键词搜索,也不必在链接中逐一点击筛选。我们正步入对话式搜索的新时代。这意味着,你无需再输入关键词,而是用自然语言提出真实的问题。你获得的将不再是链接,而是更多直接的答案。这些答案由生成式人工智能实时创作,基于整个互联网的信息,以更加直观的方式呈现给你。

谷歌,这家在过去 25 年中一直主导搜索领域的公司,正努力在这一变革中保持领先。2023 年 5 月,谷歌开始测试利用其 LLM 对搜索查询进行智能回应,提供类似于专家或可信赖朋友所给出的答案。这项功能被称为 AI 概览。谷歌首席执行官 Sundar Pichai 在接受 MIT Technology Review 采访时,将其形容为“我们长期以来对搜索所做的最重大革新之一”。

AI 概览从根本上改变了谷歌可以解答的查询类型。现在,你可以向它提出诸如:“下个月我去日本旅行一周,会住在东京,但想安排一些一日游活动。附近有哪些节庆活动?镰仓的冲浪条件如何?有没有不错的乐队在表演?”这样复杂的问题。谷歌会直接给出答案,而不仅仅是提供 Reddit 等网站的链接,而是整合当前信息的直接解答。

更重要的是,如今你可以尝试那些过去几乎无法找到答案的问题,并获得准确的回应。你无需清晰地表达自己在寻找什么。只需简单描述院子里出现的鸟类、冰箱的异常状况,或汽车发出的奇怪声音,谷歌就能从原本分散在互联网各处的信息中整合出几乎像人类解释般的答案。这种体验令人惊叹,一旦习惯了这种搜索方式,就很难回到以往的模式。

而且,这种变革并不仅限于谷歌。OpenAI 的 ChatGPT 已经可以联网,能够更精准地获取最新的答案。微软在 9 月推出了 Bing 的生成式搜索结果,Meta 也开发了自己的版本。初创公司 Perplexity 同样在推动类似的技术,秉持着“快速行动,打破常规”的理念。这些企业正在竞相成为下一个信息检索的主导者——“下一个谷歌”,这场竞争背后牵涉着数万亿美元的利益。

然而,并非所有人都对这种变化感到兴奋。出版商对此感到极度恐慌。这一趋势加剧了人们对“零点击”未来的担忧——那是一个搜索引荐流量将消失的时代,而这种流量自谷歌诞生前便是互联网的重要支柱。

去年 6 月,当我在手机上收到 Perplexity 应用的推送通知时,我第一次对未来的搜索方式有了直观的感受。Perplexity 是一家试图重塑网络搜索体验的初创公司。除了提供对查询问题的深入解答外,它还会利用来自不同来源的信息,通过人工智能整合成完整的文章,报道当天的新闻。

那天,它向我推送了一篇由埃里克·施密特撰写的关于一家新兴无人机公司的报道。我立刻认出了这篇文章。就在本周早些时候,《福布斯》曾独家报道过这则新闻,但内容是收费的。Perplexity 推送的报道中配图与之的一模一样,文章的语言和结构也极为相似。实际上,这几乎是同一篇报道,只不过现在互联网上的任何人都可以免费阅读。我给一位参与原始报道的编辑朋友发了短信,询问《福布斯》是否与这家初创公司达成了内容转载协议。但答案是否定的。他对此感到震惊、愤怒,当然也很困惑。而他并不是唯一有这种反应的人。目前,《福布斯》、《纽约时报》和康泰纳仕都已向 Perplexity 发出停止侵权的通知。新闻集团更是提起诉讼,要求赔偿由此带来的损失。

人们担心,这些由 LLM 驱动的新技术将对我们共同认知的基本现实产生深远影响,这可能预示着传统权威答案时代的终结。

这正是出版商们最害怕的噩梦场景:人工智能正在吸纳他们精心制作的优质内容,重新包装后推送给用户,而这种呈现方式几乎不给读者任何点击原文的理由。事实上,Perplexity 在其“关于”页面上列出的首要优势之一,正是“跳过链接”,直接提供答案。

然而,这个问题远不止影响出版商的利益,甚至也不仅关乎我个人的关注。

人们同样担心,这些由大型语言模型驱动的新技术会对我们共同认知的基本现实带来怎样的影响。大语言模型有编造信息的倾向——它们可能生成看似真实却毫无根据的内容。此外,生成式人工智能可以针对同一个问题,每次都给出全然不同的答案,甚至会根据对不同用户的理解,提供个性化的回应。这种不确定性可能预示着传统标准答案时代的终结。

但别误会,这正是搜索的未来。只要亲自尝试,你就会明白其中的不同。

当然,我们仍然希望通过搜索引擎浏览网页,发现新的、有趣的信息来源。但链接正在逐渐退居次要位置。人工智能能够利用来自全网的实时数据,为几乎任何问题提供合理、直接的答案,这种方式带来了更优质的用户体验。尤其是相比近年来网络搜索的发展趋势,这一变化显得尤为明显。如果说搜索引擎尚未完全失效,那么至少它变得更加混乱,信息导航也愈发困难。

谁还愿意使用搜索引擎的传统语言来查找信息?当可以直接获得答案时,谁还愿意逐个浏览链接?甚至更进一步地想,当答案触手可及时,谁还愿意主动学习?

最初的搜索工具是 Archie,这是第一个真正意义上的互联网搜索引擎。它能够抓取那些曾经隐藏在远程服务器深处的文件,但它并不会告诉你这些文件的具体内容,只是简单地列出文件名。它无法预览图片,没有结果排序,甚至几乎没有界面。但这是一种突破性的开始,且表现得相当不错。

随后, Tim Berners-Lee 创造了万维网,各种网页如雨后春笋般涌现。Mosaic 主页、互联网电影数据库、Geocities、Hampster Dance、Web Rings、Salon、eBay、CNN、联邦政府网站,甚至还有来自土耳其某个人的个人主页,这些内容丰富了互联网的早期生态。

随着网页内容的激增,我们渐渐发现自己无从下手。面对浩如烟海的信息,我们迫切需要一种更高效的方式来导航,真正找到所需的内容。

于是,1994 年,杨致远创建了雅虎,一个基于网站分类目录的导航平台。它迅速成为数百万人的上网主页。而且……确实还不错。坦白说,回头来看,我们当时可能觉得它比实际效果更好。

然而,互联网仍在快速发展、扩张,每天都有大量新信息涌入网络。此时,我们需要的不再是简单的按类别罗列网站,而是能够真正全面查看和索引所有内容的工具。到了 90 年代末,各类搜索引擎应运而生,用户可以在 AltaVista、AlltheWeb、WebCrawler 和 HotBot 等平台中自由选择。这些搜索引擎的出现无疑是一次巨大的飞跃,至少在最初,它们确实让信息检索变得更加高效。

但随着搜索引擎的兴起,人们开始尝试利用它们带来的巨大流量。这些流量极具价值,网络出版商依靠它来销售广告,零售商则借此吸引消费者关注他们的产品。为了获取更多曝光,有时网站会在页面上堆砌大量关键词或无意义的文字,仅仅是为了让页面在搜索结果中排名更靠前。这样的做法带来了糟糕的用户体验。

直到谷歌的出现,一切才发生了改变。1998 年,谷歌正式推出,其革命性影响不可言喻。谷歌不仅仅是扫描网页内容,它还分析哪些网站链接到某个页面,以此判断内容的相关性。简单来说:一个内容在其他网站被引用得越多,谷歌就越认为它可靠,排名也会随之上升。这一突破性的算法让谷歌在提供相关搜索结果方面远超其他技术。

谷歌首席执行官 Sundar Pichai 将 AI 概览称为“我们长期以来对搜索所做的最重大的革新之一”(来源:MIT Technology Review)

25 年来,谷歌一直主导着搜索市场。对大多数人而言,谷歌几乎就是搜索的代名词。(谷歌的市场主导地位目前也正受到美国和欧盟多项法律调查的关注。)

然而,谷歌首席搜索科学家 Pandu Nayak 指出,谷歌早已不再只是提供一串蓝色链接。

“搜索结果不仅包括传统的网页链接,还有图片、视频和新闻的特别内容。我们提供直接答案、词典释义、体育赛事结果、知识图谱相关的信息,以及精选摘要等功能。”他说。同时他还列举了谷歌多年来为更高效、直接地回答用户问题所采取的一系列创新举措。

确实如此,谷歌随着时间的推移不断演变,越来越像一个集成的问答平台。它不断增加各种工具,让用户可以直接获取答案——无论是比赛的实时比分、咖啡馆的营业时间,还是来自 FDA 网站的内容片段——而不必跳转到可能包含答案的其他网站。

但一旦你使用过 AI 概览,就会立刻意识到它与以往的功能截然不同。

以精选摘要为例,谷歌有时会从网页中提取一段内容,并将其突出显示在搜索结果的顶部。这些内容是直接引用自原始来源的。而知识面板也是如此,它们依托于公共数据库和谷歌的知识图谱生成,后者储存了数万亿条关于世界各类事实的信息。

尽管这些信息可能存在不准确之处,但它们的来源是明确的,也是可追溯和可修正的。这些数据存储在数据库中,用户可以自行查证。然而,如今的情况已经发生了变化:AI 概览每次生成的内容都是全新的,基于大语言模型的文本预测与网络索引动态结合而成。

“我认为这是一个激动人心的时刻。我们显然已经完成了对世界的索引,并在此基础上通过知识图谱建立了深刻的理解。我们一直在利用大型语言模型和生成式人工智能来加深对这些内容的把握。”Sundar Pichai 在接受 MIT Technology Review 采访时表示,“但现在,我们能够利用它进行内容生成和创作。”

因此,搜索体验不再像是在查询一个数据库,而更像是在向一位非常聪明、博览群书的“朋友”请教问题。不过需要注意的是,这位“朋友”如果不知道答案,有时也会随口编造一些内容。

“我们的使命是整合全球信息。”谷歌搜索主管 Liz Reid 在加利福尼亚州山景城总部对我说道,“但实际上,有很长一段时间,我们所做的只是整理网页。这与整合全球信息或让信息真正有用、可供访问并不是一回事。”

这个“可访问性”的概念正是谷歌在 AI 概览中真正关注的重点。在与谷歌高管的对话中,这一观点反复被提及:通过引入语言模型来辅助提供答案,谷歌能够更有效地处理更复杂、更开放式的查询,而且可以通过自然语言来完成。

这种能力对于未来的搜索体验至关重要,尤其是在搜索方式逐渐超越文本查询的趋势下。例如,Google Lens 允许用户通过拍照或上传图片来获取更多信息,它会利用人工智能生成的答案来解释你所看到的内容。谷歌甚至已经展示了对实时视频进行查询的技术能力,这进一步拓宽了信息获取的方式。

当没有确切答案时,人工智能模型依然可能自信地给出看似权威的回答。对于谷歌而言,这可能是一个严峻的问题,毕竟在过去 20 年里,谷歌一直以可靠性著称,而对我们其他人来说,这种情况甚至可能带来真正的风险。

正如 Sundar Pichai 所说:“我们无疑正处于一段旅程的起点。相比过去十年,人们将能够提出更复杂的问题并获得答案。”

然而,这种进步伴随着潜在的危险。最关键的一点是:大型语言模型可能会误导用户。它们会产生“幻觉”,生成错误或虚假的信息。当没有准确答案时,人工智能模型仍可能轻率而自信地提供看似合理的回应。这不仅对谷歌构成挑战,也对所有依赖这些技术的人带来了不小的风险。

2024 年 5 月,AI 概览在全美范围内推出,但效果并不理想。长期以来一直被视为全球“咨询台”的谷歌,竟然向用户建议吃石头、在披萨上涂胶水等荒谬的答案。这些回应大多源于所谓的“对抗性查询”——用户刻意设计的问题,目的是让谷歌出错。然而,无论原因如何,这些结果都显得不尽如人意。

对此,谷歌迅速采取了补救措施,例如停止引用来自 Reddit 等网站的用户生成内容,因为一些离奇的答案正是来源于这些平台。

尽管建议吃石头的荒唐错误引发了广泛关注,但更具潜在危害的是那些不太明显的错误。例如,在为这篇文章做研究时,我询问谷歌 MIT Technology Review 是什么时候创刊的。谷歌很“自信”地回答:“ MIT Technology Review 将于 2022 年底上线。”这个错误对我来说显而易见,但对于一个对这份出版物毫不了解的人来说,这样的信息可能不会引起怀疑。

我在谷歌和 OpenAI 的 ChatGPT 搜索中都遇到过类似的例子。这些回答虽然偏离事实,却不足以立即被识别为错误。谷歌希望,随着时间的推移,它能够依靠对优质信息来源的持续优化,逐步改善这些问题。

“当生成 AI 概览时,我们会从搜索结果中提取确凿的信息,并尽可能确保这些结果来源于可靠渠道。这些机制的实施,旨在确保即使用户只是浏览 AI 概览而不深入点击,我们也希望他们能获得可靠、值得信赖的答案。”Pandu Nayak 表示。

然而,在之前提到的案例中,谷歌错误地回答 MIT Technology Review 将于 2022 年底上线,这一错误信息似乎源于一篇关于该出版物电子邮件通讯的报道——而该通讯确实于 2022 年推出。但大模型从根本上误解了这条信息。这正是谷歌依靠人工评估者来检测其搜索结果准确性的原因之一。尽管评分并不会直接纠正或控制某条 AI 概览的内容,但它们有助于训练模型生成更准确的答案。不过,人类评分者也有可能出错,谷歌正在积极解决这一问题。

Nayak 解释道:“观察实验结果的评估者可能不会发现模型的幻觉(错误信息),因为它听起来很自然。所以在评估设置上必须下功夫,确保当模型产生幻觉时,有人能够识别出来并指出问题。

新的搜索

谷歌已将其 AI 概览推广至全球 100 多个国家,覆盖超过 10 亿用户。然而,它正面临来自新兴企业的激烈竞争,这些公司正在重新思考搜索引擎的运作方式。

当我与 Sundar Pichai 谈论这一问题时,他对谷歌在使用 LLM 生成响应的同时仍能保持准确性表现出乐观态度。这是因为 AI 概览不仅依托于谷歌的旗舰大型语言模型 Gemini,还融合了知识图谱以及谷歌认为在网络上具有高信誉度的信息来源。

Pichai 表示:“这始终是一个概率问题。我们所做的是在可信度、真实性和质量方面达到我所谓的几个‘九’的标准。我会说是 99.5% 的可靠性。我认为这就是我们始终坚持的标准,AI 概览也不例外。”他补充道,“问题在于,我们是否能够再次在大规模上做到这一点?我相信我们可以。”

然而,还有一种潜在风险:用户会向谷歌提出各种奇怪甚至敏感的问题。正如有人说的,如果你想了解一个人最隐秘的秘密,只需查看他们的搜索历史。有时,人们会搜索内容非常阴暗,甚至涉及非法信息。对于谷歌来说,挑战不仅在于在用户需要帮助时准确地提供答案,更在于在面对可能带来危害的查询时谨慎行事,避免通过 AI 概览生成潜在有害的信息。

“如果你问‘我该如何制造炸弹?’,搜索结果中可能会有相关内容,因为这是一个开放的网络,任何人都可以访问各种信息。”谷歌搜索主管 Liz Reid 表示,“但我们不需要一个 AI 概览来告诉你如何制造炸弹,对吧?我们认为这根本不值得提供。”

然而,对于依赖谷歌搜索流量的下游用户而言,真正的风险可能就在他们自身。以出版商为例,几十年来,他们一直依靠搜索引擎将用户引导至自己的网站。如果用户在搜索结果页面就能获得所有想要的信息,他们还有什么理由点击进入原始来源呢?

市场研究公司 SparkToro 的联合创始人 Rand Fishkin 对所谓的“零点击搜索”进行了研究。随着谷歌越来越多地直接提供答案,用户无需点击链接即可满足需求的搜索比例不断上升。菲什金认为,AI 概览将进一步加剧这一趋势。

他表示:“如果你的业务依赖谷歌带来的流量,并且这种流量是业务增长的关键动力,那么你会在短期和长期都陷入困境。”

“不要惊慌。”这是 Sundar Pichai 传达的信息。他认为即便在 AI 概览的时代,人们仍然希望点击链接,深入探索各种类型的信息搜索。

“基本原则是,人们来这里是为了寻找信息。他们并不总是期望谷歌直接给出答案。”Pichai 说,“有时候是这样,但在绝大多数情况下,搜索只是一个起点。”

与此同时,谷歌搜索主管 Liz Reid 认为,AI 概览能够帮助用户提出更复杂的问题,进一步深入了解他们真正需要的信息。这种能力甚至可能对某些出版商和小型企业有所帮助,尤其是那些专注于利基市场的内容创作者和公司。她解释道:“你实际上能够接触到新的受众,因为人们现在可以更具体地表达他们的需求,这样专业领域的从业者就不需要在通用查询中与大型网站竞争排名。”

与此同时,OpenAI 的产品负责人 Nick Turley 在一次 Zoom 会议上展示了即将推出的 ChatGPT 网络搜索工具时说道:“我要从一件有风险的事情开始。”他承认自己通常会提前做准备,但这次决定直接帮我现场搜索。“这总是一个高风险的演示,因为人们通常会对互联网上关于他们的信息很敏感。”

他在搜索框中输入了我的名字,原型搜索引擎随即返回了几句话,类似于演讲者的简历。它准确识别了我的身份和当前角色,甚至突出显示了我几年前撰写的一篇可能是我最著名的文章。简而言之,这次的回答是正确的。

几周后,OpenAI 将搜索功能正式整合进了 ChatGPT,利用来自网络的信息来丰富语言模型生成的答案。如果模型判断回答会因最新信息而更完整,它会自动进行网络搜索,并将检索到的内容整合到回应中,同时提供相关链接,方便用户深入了解。如果模型没有主动搜索,用户也可以选择手动触发网络搜索。虽然 Open AI 没有透露有多少用户正在使用其网络搜索功能,但它表示,ChatGPT 每周大约有 2.5 亿用户,所有人都有可能接触到这一功能。

“网络上的内容量极其庞大,许多信息都是实时更新的。你当然希望ChatGPT能够利用这些最新的信息来优化答案,成为你更强大的超级助手。”

——OpenAI 首席产品官 Kevin Weil

Rand Fishkin 表示,这些新型人工智能辅助搜索目前尚未对谷歌的搜索主导地位构成真正威胁。“它似乎并没有侵蚀传统网络搜索的市场份额。”他说。

尽管 OpenAI 声称并不打算在搜索领域与谷歌直接竞争——坦白说,这听起来更像是在管理外界的期望——但实际上,它的策略已经有些接近。OpenAI 解释说,网络搜索主要是用来补充语言模型的知识库,因为模型的数据通常有时间限制,可能是几个月甚至更久以前的信息。因此,虽然 ChatGPT 可能擅长解释复杂概念,比如西海岸进攻战术的运作方式,但它长期以来都无法告诉用户旧金山 49 人队的最新比分。现在,这个局限已经被打破。

OpenAI 首席产品官 Kevin Weil 表示:“我一直在思考,我们如何让 ChatGPT 能够回答你提出的每一个问题?我们如何让它在你的日常生活中变得更加有用?这正是搜索的意义所在。”他补充道:“网络上的信息量惊人,很多事情都在实时发生。你当然希望 ChatGPT 能够利用这些实时信息来改进答案,成为你更强大、更贴心的超级助手。”

如今,ChatGPT 已能够针对时事新闻、股票价格等几乎实时的信息生成响应。尽管 ChatGPT的界面一直相对简洁,但整合的搜索结果却为用户带来了丰富的多媒体内容——包括图像、图表,甚至视频。这种信息呈现方式与传统的对话体验相比,显得更加多样化,也带来了截然不同的用户体验。

OpenAI 首席产品官 Kevin Weil 认为,与谷歌等竞争对手相比,ChatGPT 在创新和自主性方面拥有更大的空间,甚至比其合作伙伴微软的 Bing 还要自由。谷歌和 Bing 都依赖广告业务来盈利,而 OpenAI 并不依赖广告。OpenAI 的收入主要来自直接使用其产品的开发者、企业和个人用户。尽管如此,OpenAI 仍处于高额投入阶段。据一些报道,到 2026 年,OpenAI 预计将亏损高达 140 亿美元。

不过,OpenAI 有一个优势:它无需像谷歌那样在搜索结果中插入广告。这让它能够更专注于优化用户体验和信息质量,而不是平衡广告收入与用户需求之间的矛盾。

“有很长一段时间,我们所做的只是整理网页。这与整合全球信息或让信息真正有用并可被轻松获取是两回事,”谷歌搜索主管 Liz Reid 说道(来源:MIT Technology Review)

与谷歌类似,ChatGPT 同样从网络出版商处收集信息,进行总结并整合到其答案中。但不同的是,OpenAI 还与部分出版商达成了财务协议,允许其获取内容并将这些信息纳入生成结果中。

然而,问题在于,为了实现 OpenAI 所设想的比语言模型更实时、更新更快的搜索体验,ChatGPT 仍需从各种出版商和未建立合作关系的信息来源获取数据。对此,OpenAI 的媒体合作负责人 Varun Shetty 向 MIT Technology Review 表示,OpenAI 不会对其合作的出版商给予任何特殊待遇。

OpenAI 解释称,模型会根据具体查询,从网络中筛选出最值得信赖、最有用的来源。可这也会带来一些奇怪的结果。例如,当 OpenAI 产品负责人 Nick Turley 演示名字搜索功能时,ChatGPT 提到了我多年前为 Wired 撰写的一篇关于黑客攻击的文章,这篇文章至今仍是我最广泛阅读的作品之一。但 ChatGPT 并没有链接到 Wired 的原始报道,而是链接到了 The Verge 对该文章的简短改写版。

当我向他询问为何模型会选择特定来源时,他并不能给出明确的解释,因为这些选择完全是模型自主做出的。公司可以通过识别他们认为更优质的答案来引导模型改进,但最终的决策仍然由模型本身完成。

“而且在很多情况下,它会出错,这正是我们正在努力改进的地方,”OpenAI 产品负责人 Nick Turley 说道。“将模型直接融入搜索反馈循环中,这是一种与传统搜索引擎截然不同的工作机制。”

确实如此!无论是 OpenAI 的 GPT-4o、谷歌的 Gemini,还是 Anthropic 的 Claude,这些大型语言模型都在解释复杂问题方面表现得非常出色。但它们为何选择某个特定来源、如何筛选信息,甚至如何组织和表达答案,这些背后的逻辑依然非常神秘。当然,这些模型能够解释很多复杂的概念,但当涉及到解释它们自己如何得出答案时,它们往往无法给出清晰的解释。

大约十年前,也就是 2016 年,谷歌首席执行官Sundar Pichai曾写道,谷歌正从“移动优先”转向“AI 优先”的战略。他预测:“在未来 10 年,我们将迈入一个以人工智能为中心的世界。计算将无处不在——无论是在家中、工作场所、车里还是旅途中——与所有这些设备和界面的互动将变得更加自然和直观,更重要的是,更加智能。”

如今,这一愿景正逐步成为现实,但人工智能在信息筛选和呈现方式上仍存在许多不确定性和亟待解决的问题。

我们已经接近那个未来——几乎触手可及。这是一个既熟悉又陌生的阶段,且只会变得更加复杂和奇异。尤其值得注意的是,原本看似截然不同的行为和需求正逐渐融合:查询搜索引擎、向模型发出提示、查找我们拍摄的照片、决定我们想阅读、观看或聆听的内容,甚至请求查看那些我们从未拍摄但依然渴望看到的照片。所有这些体验正在悄然交汇。

我们现在从生成式人工智能中得到的搜索结果,更应被视为一个起点,而非终点。也许,真正重要的已经不再是“搜索”本身,而是搜索为人工智能模型开发者提供了一条将实时信息融入输入和输出的路径。这一变化开启了无限的可能性,预示着人工智能将更加深入地融入我们的日常生活,塑造我们获取、理解和互动信息的方式。

OpenAI 的首席产品官 Kevin Weil 表示:“能够理解和访问互联网的 ChatGPT 不再只是总结搜索结果。它可能会主动为你完成某些任务。我认为这是一个非常令人兴奋的未来。你可以想象,这个模型能够为你预订航班、下单点餐,甚至在未来自动完成各种日常任务。一旦模型学会如何有效地使用互联网,它就会变得不可或缺。”

这正是人们长期以来谈论的 Agentic Future:人工智能模型通过实时获取和处理互联网数据,正逐步接近全面实现这一愿景。

想象一下,几周后你即将出行。一个实时联网的 AI 智能体可以根据对你个人偏好和行程安排的理解,自动预订航班、酒店,甚至提前安排好餐厅预约,整个过程无需你的干预。另一个 AI 智能体可能实时监测你家中的污水系统,检测潜在的健康风险,并自动为你预约体检和治疗。再比如,你无需费心搜索汽车发出的奇怪噪音,因为你的车载 AI 智能体已经识别出问题并帮你预约了维修服务。

正如 Sundar Pichai 所说:“人工智能并不总是只是搜索并给出答案。有时,它会主动采取行动。有时,你会直接在现实世界中与它互动。这一切都体现了‘普遍援助’的理念。”

与此同时,这些设备提供答案的方式也在快速演变。例如,今天的谷歌不仅能够搜索文本、图片,甚至是视频内容,它还可以生成这些内容。想象一下,如果这种能力与多种格式和设备的搜索功能相结合,将会带来怎样的体验。比如,你可以说:“告诉我眼前树上的汤氏莺长什么样。”或者发出更复杂的请求:“用我现有的家庭照片和视频,制作一部关于我们明年前往波多黎各度假的电影预告片,别忘了包含我们要参观的所有顶级餐厅和地标景点。”

Sundar Pichai 提到:“我们目前主要在输入端进行这方面的工作。”他指的是谷歌目前在图像和视频搜索上的能力。“但你也可以想象,在输出端同样会有这样的发展。”

谷歌已经通过 NotebookLM 展示了这类未来体验的雏形。这款工具允许用户上传大量文本,并将其转换成对话形式的播客内容。他设想,这种将一种输入转化为多种输出的能力,未来将彻底改变人们与信息互动的方式。

在今年夏天的开发者大会上,谷歌展示了一款名为 Project Astra 的工具,这标志着人工智能与现实世界互动的一次重大突破。这款工具利用手机和智能眼镜内置的摄像头和麦克风,能够实时理解用户周围的一切环境——无论是在线还是离线,是声音还是视觉信息。Astra 不仅可以感知环境,还能以多种方式回忆并回应用户的需求。

例如,Astra 可以扫描一张一级方程式赛车的草图,不仅准确识别赛车模型,还能详细解释其各个部件的功能和用途。

但可以想象,这种技术未来会发展得更加先进。设想一下,如果我想观看一段关于如何修理自行车的视频,但这段视频并不存在。理论上,基于人工智能辅助生成搜索,Astra 可以在互联网的各个角落提取相关信息,并即时生成一段教程视频,向我演示如何进行修理,就像今天它可以用文字为我解释问题一样。

当你将整个人类知识体系——那些曾经因语言和格式而彼此隔离的内容,如地图、商业注册信息、产品 SKU、音频、视频、数字数据库、旧书、图片,甚至所有曾被出版、追踪和记录的信息——汇集进一个模型中时,新的可能性便开始显现。这个模型或许无法完全准确地理解所有信息,但它具备整合、重组并以各种方式重新呈现这些内容的能力,力求为用户提供有用的答案。这种能力,远远超越了传统的索引方式。

这正是我们即将面对的现实,也即将亲眼所见的未来。随着谷歌将这种技术推向数十亿用户,许多人将首次体验与对话式人工智能的互动。这将带来什么样的影响?我们将如何改变获取和使用信息的方式?一切都在快速发展,变化正在加速。坚持住,紧跟变化的步伐。

原文链接:

来源:麻省理工科技评论APP

相关推荐