AI是否会取代传统搜索引擎的主导地位

360影视 2025-01-12 19:41 3

摘要:我们都熟知“谷歌一下”的含义:在搜索框键入几个关键词,便能收获一系列蓝色链接,引领我们探索最相关的结果。页面顶端或许还会跳出简短的阐释,或是嵌入地图、体育比分、视频片段等多样内容。但实质上,这一过程不过是将互联网上的既有信息抽取出来,再以某种结构化形式展现给我

我们都熟知“谷歌一下”的含义:在搜索框键入几个关键词,便能收获一系列蓝色链接,引领我们探索最相关的结果。页面顶端或许还会跳出简短的阐释,或是嵌入地图、体育比分、视频片段等多样内容。但实质上,这一过程不过是将互联网上的既有信息抽取出来,再以某种结构化形式展现给我们。

然而,这一切正经历着翻天覆地的变化,我们正站在一个崭新的转折点上。

自上世纪90年代以来,搜索引擎的信息传递模式正遭遇前所未有的革新。无需再依赖关键词搜索,也不必在链接间逐一筛选点击。我们正迈入对话式搜索的新纪元。这意味着,你无需键入关键词,而是用自然语言抛出真实问题。你将收获的不再是链接,而是更为直接的答案。这些答案由生成式人工智能实时创作,植根于整个互联网的信息海洋,以更加直观的方式呈现给你。

谷歌,这家在过去25年间一直领航搜索领域的巨头,正竭力在这场变革中保持领先。2023年5月,谷歌开始测试利用其大型语言模型(LLM)对搜索查询进行智能回应,提供近似于专家或可靠朋友所给出的答案。这项功能被命名为“AI概览”。谷歌首席执行官Sundar Pichai在接受MIT Technology Review采访时,将其誉为“我们长期以来对搜索所做的最重大革新之一”。

AI概览从根本上重塑了谷歌所能解答的查询类型。如今,你可以向它抛出诸如:“下个月我去日本旅行一周,计划住在东京,但想安排一些一日游活动。附近有哪些节庆活动?镰仓的冲浪条件怎样?有没有不错的乐队在表演?”这般复杂的问题。谷歌会直接给出答案,而非仅仅提供Reddit等网站的链接,而是整合当前信息,给出直接且全面的解答。

更甚者,如今你可以尝试那些以往几乎无法觅得答案的问题,并获得精准的回应。你无需清晰表述自己在寻觅什么。只需简单描绘院子里出现的鸟类、冰箱的异常状况,或汽车发出的奇怪声响,谷歌就能从原本散布在互联网各处的信息中整合出近乎人类解释般的答案。这种体验令人称奇,一旦习惯了这种搜索模式,便很难回归以往的方式。

而且,这场变革并不局限于谷歌。OpenAI的ChatGPT已经能够联网,能够更精准地捕获最新的答案。微软在9月推出了Bing的生成式搜索结果,Meta也开发了自己的版本。初创公司Perplexity同样在推动类似的技术,秉持着“快速行动,打破常规”的理念。这些企业正在竞相成为下一个信息检索的主导者——“下一个谷歌”,这场竞争背后牵涉着数万亿美元的庞大利益。

然而,并非所有人都对这场变革欢欣鼓舞。出版商对此深感恐慌。这一趋势加剧了人们对“零点击”未来的忧虑——那是一个搜索引荐流量将消失的时代,而这种流量自谷歌诞生前便是互联网的重要支柱。

去年6月,当我在手机上收到Perplexity应用的推送通知时,我第一次直观感受到了未来的搜索模式。Perplexity是一家试图重塑网络搜索体验的初创公司。除了提供对查询问题的深入解答外,它还会利用来自不同来源的信息,通过人工智能整合成完整的文章,报道当天的新闻。

那天,它向我推送了一篇由埃里克·施密特撰写的关于一家新兴无人机公司的报道。我立刻认出了这篇文章。就在本周早些时候,《福布斯》曾独家报道过这则新闻,但内容是收费的。Perplexity推送的报道中配图与之的一模一样,文章的语言和结构也极为相似。事实上,这几乎是同一篇报道,只不过现在互联网上的任何人都可以免费阅读。我给一位参与原始报道的编辑朋友发了短信,询问《福布斯》是否与这家初创公司达成了内容转载协议。但答案是否定的。他对此感到震惊、愤怒,当然也很困惑。而他并不是唯一有这种反应的人。目前,《福布斯》、《纽约时报》和康泰纳仕都已向Perplexity发出停止侵权的通知。新闻集团更是提起诉讼,要求赔偿由此带来的损失。

人们担忧,这些由LLM驱动的新技术将对我们共同认知的基本现实产生深远影响,这可能预示着传统权威答案时代的终结。

这正是出版商们最惧怕的噩梦场景:人工智能正在吸纳他们精心打造的优质内容,重新包装后推送给用户,而这种呈现方式几乎不给读者任何点击原文的理由。事实上,Perplexity在其“关于”页面上列出的首要优势之一,正是“跳过链接”,直接提供答案。

然而,这个问题的影响远不止于出版商的利益,甚至也不仅关乎我个人的关切。

人们同样担忧,这些由大型语言模型驱动的新技术会对我们共同认知的基本现实带来怎样的冲击。大语言模型有编造信息的倾向——它们可能生成看似真实却毫无根据的内容。此外,生成式人工智能可以针对同一个问题,每次都给出截然不同的答案,甚至会根据对不同用户的理解,提供个性化的回应。这种不确定性可能预示着传统标准答案时代的终结。

但别误会,这正是搜索的未来。只要亲自尝试,你就会感受到其中的迥异。

当然,我们仍然渴望通过搜索引擎浏览网页,发现新的、有趣的信息来源。但链接正在逐渐退居边缘位置。人工智能能够利用来自全网的实时数据,为几乎任何问题提供合理且直接的答案,这种方式带来了更为卓越的用户体验。尤其是相比近年来网络搜索的发展趋势,这一变化显得尤为鲜明。如果说搜索引擎尚未完全失效,那么至少它变得更加纷杂,信息导航也愈发艰难。

谁还愿意使用搜索引擎的传统语言来搜寻信息?当可以直接获得答案时,谁还愿意逐个浏览链接?甚至更进一步地想,当答案触手可及时,谁还愿意主动学习?

最初的搜索工具是Archie,这是第一个真正意义上的互联网搜索引擎。它能够抓取那些曾经隐匿于远程服务器深处的文件,但它并不会告诉你这些文件的具体内容,只是简单地列出文件名。它无法预览图片,没有结果排序,甚至几乎没有界面。但这是一种开创性的起步,且表现得相当不错。

随后,Tim Berners-Lee创造了万维网,各种网页如雨后春笋般涌现。Mosaic主页、互联网电影数据库、Geocities、Hampster Dance、Web Rings、Salon、eBay、CNN、联邦政府网站,甚至还有来自土耳其某个人的个人主页,这些内容丰富了互联网的早期生态。

随着网页内容的激增,我们渐渐发现自己无从下手。面对浩如烟海的信息,我们迫切需要一种更为高效的方式来导航,真正找到所需的内容。

于是,1994年,杨致远创建了雅虎,一个基于网站分类目录的导航平台。它迅速成为数百万人的上网主页。而且……确实还不错。坦白说,回头来看,我们当时可能觉得它比实际效果更好。

然而,互联网仍在迅猛发展和扩张,每天都有海量新信息涌入网络。此时,我们需要的不再是简单的按类别罗列网站,而是能够真正全面查看和索引所有内容的工具。到了90年代末,各类搜索引擎应运而生,用户可以在AltaVista、AlltheWeb、WebCrawler和HotBot等平台中自由选择。这些搜索引擎的出现无疑是一次巨大的飞跃,至少在最初,它们确实让信息检索变得更加高效。

但随着搜索引擎的兴起,人们开始尝试利用它们带来的巨大流量。这些流量极具价值,网络出版商依靠它来销售广告,零售商则借此吸引消费者关注他们的产品。为了获取更多曝光,有时网站会在页面上堆砌大量关键词或无意义的文字,仅仅是为了让页面在搜索结果中排名更靠前。这样的做法带来了糟糕的用户体验。

直到谷歌的出现,一切才发生了改变。1998年,谷歌正式推出,其革命性影响不言而喻。谷歌不仅仅是扫描网页内容,它还分析哪些网站链接到某个页面,以此判断内容的相关性。简单来说:一个内容在其他网站被引用得越多,谷歌就越认为它可靠,排名也会随之上升。这一突破性的算法让谷歌在提供相关搜索结果方面远超其他技术。

谷歌首席执行官Sundar Pichai将AI概览称为“我们长期以来对搜索所做的最重大的革新之一”。25年来,谷歌一直主导着搜索市场。对大多数人而言,谷歌几乎就是搜索的代名词。(谷歌的市场主导地位目前也正受到美国和欧盟多项法律调查的关注。)

然而,谷歌首席搜索科学家Pandu Nayak指出,谷歌早已不再只是提供一串蓝色链接。

“搜索结果不仅包括传统的网页链接,还有图片、视频和新闻的特别内容。我们提供直接答案、词典释义、体育赛事结果、知识图谱相关的信息,以及精选摘要等功能。”他说。同时他还列举了谷歌多年来为更高效、直接地回答用户问题所采取的一系列创新举措。

确实如此,谷歌随着时间的推移不断演变,越来越像一个集成的问答平台。它不断增加各种工具,让用户可以直接获取答案——无论是比赛的实时比分、咖啡馆的营业时间,还是来自FDA网站的内容片段——而不必跳转到可能包含答案的其他网站。

但一旦你使用过AI概览,就会立刻意识到它与以往的功能截然不同。

以精选摘要为例,谷歌有时会从网页中提取一段内容,并将其突出显示在搜索结果的顶部。这些内容是直接引用自原始来源的。而知识面板也是如此,它们依托于公共数据库和谷歌的知识图谱生成,后者储存了数万亿条关于世界各类事实的信息。

尽管这些信息可能存在不准确之处,但它们的来源是明确的,也是可追溯和可修正的。这些数据存储在数据库中,用户可以自行查证。然而,如今的情况已经发生了变化:AI概览每次生成的内容都是全新的,基于大语言模型的文本预测与网络索引动态结合而成。

“我认为这是一个激动人心的时刻。我们显然已经完成了对世界的索引,并在此基础上通过知识图谱建立了深刻的理解。我们一直在利用大型语言模型和生成式人工智能来加深对这些内容的把握。”Sundar Pichai在接受MIT Technology Review采访时表示,“但现在,我们能够利用它进行内容生成和创作。”

因此,搜索体验不再像是在查询一个数据库,而更像是在向一位非常聪明、博览群书的“朋友”请教问题。不过需要注意的是,这位“朋友”如果不知道答案,有时也会随口编造一些内容。

“我们的使命是整合全球信息。”谷歌搜索主管Liz Reid在加利福尼亚州山景城(Mountain View)的一次讲话中强调了这一点。这句话通常出现在讨论谷歌公司的愿景、目标或战略方向的语境中。山景城是谷歌总部的所在地,因此在这里发表这样的言论具有特殊的象征意义。

谷歌作为互联网搜索引擎的巨头,其核心业务就是整合并呈现全球范围内的信息,帮助用户快速、准确地找到他们需要的内容。Liz Reid作为谷歌搜索的主管,她的言论无疑体现了公司对这一使命的坚持和追求。

在先前的一个案例中,谷歌错误地预告MIT Technology Review将于2022年底上线,这一误导性信息源自一篇关于该出版物电子邮件通讯的报道,而该通讯确实在当年推出,但谷歌的大模型却误解了这一信息。这一事件凸显了谷歌依赖人工评估者来确保其搜索结果准确性的必要性。尽管评分系统不会直接干预AI概览的内容,但它们对于训练模型以生成更精确答案至关重要。然而,人工评分亦非万无一失,谷歌正致力于解决这一问题。

Nayak解释称:“评估者可能难以察觉模型的‘幻觉’(即错误信息),因为它听起来颇为自然。因此,评估设置必须精心设计,确保当模型产生误导性信息时,能够被人及时发现并指出。”

谷歌已将其AI概览拓展至全球100多个国家,惠及超过10亿用户。然而,它正面临新兴企业的激烈竞争,这些企业正重新构想搜索引擎的运作模式。

在与Sundar Pichai的交谈中,他对谷歌在运用LLM(大型语言模型)生成响应的同时保持准确性表示乐观。这得益于AI概览不仅依托谷歌的旗舰大型语言模型Gemini,还融合了知识图谱及谷歌认为在网络上具有高信誉度的信息源。

Pichai表示:“这始终是概率问题。我们所追求的是在可信度、真实性和质量上达到我所谓的‘几个九’的标准。我将其定义为99.5%的可靠性。这是我们一贯坚持的标准,AI概览也不例外。”他补充道,“问题在于,我们能否在大规模应用中再次达到这一标准?我相信我们能。”

用户可能会向谷歌提出各种奇特甚至敏感的查询。正如所言,搜索历史能揭示一个人最隐秘的秘密。有时,人们的搜索内容极为阴暗,甚至涉及非法信息。对于谷歌而言,挑战不仅在于在用户求助时提供准确答案,更在于在面对可能有害的查询时谨慎行事,避免通过AI概览生成潜在有害的信息。

谷歌搜索主管Liz Reid指出:“如果你询问‘我该如何制造炸弹?’,搜索结果中可能会有相关内容,因为这是一个开放的网络,任何人都能访问各种信息。但我们无需AI概览来告知你如何制造炸弹,对吧?我们认为这根本不值得提供。”

对于依赖谷歌搜索流量的下游用户,尤其是出版商而言,真正的风险可能源自他们自身。几十年来,他们一直依靠搜索引擎将用户引导至自己的网站。如果用户在搜索结果页面就能获取所需信息,他们访问原始来源的动力何在?

市场研究公司SparkToro的联合创始人Rand Fishkin对“零点击搜索”进行了研究。随着谷歌越来越多地直接提供答案,用户无需点击链接即可满足需求的搜索比例不断攀升。Fishkin认为,AI概览将进一步加剧这一趋势。

他表示:“如果你的业务依赖谷歌带来的流量,且这种流量是业务增长的关键驱动力,那么你将面临短期和长期的困境。”

然而,Sundar Pichai传递的信息是“不要惊慌”。他认为即便在AI概览的时代,人们仍然愿意点击链接,深入探索各种类型的信息搜索。

Pichai说:“基本原则是,人们来此是为了寻找信息。他们并不总是期望谷歌直接给出答案。有时确实如此,但在绝大多数情况下,搜索只是一个起点。”

Liz Reid则认为,AI概览能够帮助用户提出更复杂的问题,进一步深入了解他们真正需要的信息。这种能力甚至可能对某些出版商和小型企业有所帮助,尤其是那些专注于利基市场的内容创作者和公司。她解释说:“你实际上能够接触到新的受众,因为人们现在可以更具体地表达他们的需求,这样专业领域的从业者就不需要在通用查询中与大型网站竞争排名。”

OpenAI的产品负责人Nick Turley在一次Zoom会议上展示即将推出的ChatGPT网络搜索工具时表示:“我要从一个有风险的事情开始。”他承认自己通常会提前做准备,但这次决定现场直接搜索。“这总是一个高风险的演示,因为人们通常会对互联网上关于他们的信息很敏感。”

他在搜索框中输入了一个名字,原型搜索引擎随即返回了几句话,类似于演讲者的简历。它准确识别了该人的身份和当前角色,甚至突出显示了他撰写的一篇著名文章。简而言之,这次回答准确无误。

几周后,OpenAI将搜索功能正式整合进ChatGPT,利用网络信息来丰富语言模型生成的答案。如果模型判断回答因最新信息而更完整,它会自动进行网络搜索,并将检索到的内容整合到回应中,同时提供相关链接,方便用户深入了解。用户也可选择手动触发网络搜索。尽管OpenAI未透露有多少用户正在使用其网络搜索功能,但它表示,ChatGPT每周大约有2.5亿用户,所有人都有可能接触到这一功能。

OpenAI首席产品官Kevin Weil表示:“网络上的内容量极其庞大,许多信息都是实时更新的。你当然希望ChatGPT能够利用这些最新信息来优化答案,成为你更强大的超级助手。”

Fishkin认为,这些新型人工智能辅助搜索目前尚未对谷歌的搜索主导地位构成真正威胁。“它似乎并未侵蚀传统网络搜索的市场份额。”他说。

尽管OpenAI声称并不打算在搜索领域与谷歌直接竞争——这听起来更像是在管理外界期望——但实际上,其策略已颇为接近。OpenAI解释说,网络搜索主要用于补充语言模型的知识库,因为模型的数据通常有时间限制,可能是几个月甚至更久以前的信息。因此,虽然ChatGPT可能擅长解释复杂概念,如西海岸进攻战术的运作方式,但它长期以来都无法告诉用户旧金山49人队的最新比分。现在,这一局限已被打破。

Kevin Weil表示:“我一直在思考,我们如何让ChatGPT能够回答你提出的每一个问题?我们如何让它在你的日常生活中变得更加有用?这正是搜索的意义所在。”他补充道:“网络上的信息量惊人,很多事情都在实时发生。你当然希望ChatGPT能够利用这些实时信息来改进答案,成为你更强大、更贴心的超级助手。”

如今,ChatGPT已能够针对时事新闻、股票价格等几乎实时的信息生成响应。尽管ChatGPT的界面一直相对简洁,但整合的搜索结果却为用户带来了丰富的多媒体内容,包括图像、图表,甚至视频。这种信息呈现方式与传统的对话体验相比,显得更加多样化,也带来了截然不同的用户体验。

Kevin Weil认为,与谷歌等竞争对手相比,ChatGPT在创新和自主性方面拥有更大的空间,甚至比其合作伙伴微软的Bing还要自由。谷歌和Bing都依赖广告业务来盈利,而OpenAI并不依赖广告。OpenAI的收入主要来自直接使用其产品的开发者、企业和个人用户。尽管如此,OpenAI仍处于高额投入阶段。据一些报道,到2026年,OpenAI预计将亏损高达140亿美元

然而,OpenAI的一个优势在于,它无需像谷歌那样在搜索结果中插入广告。这让它能够更专注于优化用户体验和信息质量,而不是平衡广告收入与用户需求之间的矛盾。

Liz Reid说道:“有很长一段时间,我们所做的只是整理网页。这与整合全球信息或让信息真正有用并可被轻松获取是两回事。

与谷歌类似,ChatGPT同样从网络出版商处收集信息,进行总结并整合到答案中。但不同的是,OpenAI还与部分出版商达成了财务协议,允许其获取内容并将这些信息纳入生成结果中。

然而,为了实现OpenAI所设想的比语言模型更实时、更新更快的搜索体验,ChatGPT仍需从各种出版商和未建立合作关系的信息来源获取数据。对此,OpenAI的媒体合作负责人Varun Shetty向MIT Technology Review表示,OpenAI不会对其合作的出版商给予任何特殊待遇。

OpenAI解释称,模型会根据具体查询,从网络中筛选出最值得信赖、最有用的来源。但这也会带来一些奇怪的结果。例如,当Nick Turley演示名字搜索功能时,ChatGPT提到了他多年前为Wired撰写的一篇关于黑客攻击的文章,这篇文章至今仍是他广泛阅读的作品之一。但ChatGPT并没有链接到Wired的原始报道,而是链接到了The Verge对该文章的简短改写版。

当他被问及模型为何选择特定来源时,他无法给出明确解释,因为这些选择完全是模型自主做出的。公司可以通过识别他们认为更优质的答案来引导模型改进,但最终的决策仍然由模型本身完成。

Nick Turley说道:“而且在很多情况下,它会出错,这正是我们正在努力改进的地方。将模型直接融入搜索反馈循环中,这是一种与传统搜索引擎截然不同的工作机制。”

确实如此!无论是OpenAI的GPT-4、谷歌的Gemini,还是Anthropic的Claude,这些大型语言模型在解释复杂问题方面都表现出色。但它们为何选择某个特定来源、如何筛选信息,甚至如何组织和表达答案,这些背后的逻辑依然非常神秘。当然,这些模型能够解释很多复杂的概念,但当涉及到解释它们自己如何得出答案时,它们往往无法给出清晰的解释。

大约十年前,即2016年,谷歌首席执行官Sundar Pichai曾写道,谷歌正从“移动优先”转向“AI优先”的战略。他预测:“在未来10年,我们将迈入一个以人工智能为中心的世界。计算将无处不在——无论是在家中、工作场所、车里还是旅途中——与所有这些设备和界面的互动将变得更加自然和直观,更重要的是,更加智能。”

如今,这一愿景正逐步实现,但人工智能在信息筛选和呈现方式上仍存在许多不确定性和亟待解决的问题。

我们已经接近那个未来——触手可及。这是一个既熟悉又陌生的阶段,且只会变得更加复杂和奇异。尤其值得注意的是,原本看似截然不同的行为和需求正逐渐融合:查询搜索引擎、向模型发出提示、查找我们拍摄的照片、决定我们想阅读、观看或聆听的内容,甚至请求查看那些我们从未拍摄但依然渴望看到的照片。所有这些体验正在悄然交汇。

华远系统是致力于人工智能(AI算法以及流媒体技术),信息软件技术,新能源、物联网等领域的集成商,在智慧社区,智慧园区,智慧停车,充电桩(储能充电站/光储充)及充电桩软件管理平台,储能系统集成,车联网有整套解决方案以及成功的项目案例。

来源:华远系统

相关推荐