迈向人工智能赋能万维网的征程:NLWeb 及企业必须了解的事项

360影视 欧美动漫 2025-05-27 23:16 2

摘要:在 1990 年代末期的第一代万维网中,搜索功能虽然勉强过得去,但并不出色,而且查找信息也并不容易。这促使了 2000 年代初聚合协议的发展,Atom 和 RSS (Really Simple Syndication) 提供了一种简化的方法,使网站所有者能够方

在 1990 年代末期的第一代万维网中,搜索功能虽然勉强过得去,但并不出色,而且查找信息也并不容易。这促使了 2000 年代初聚合协议的发展,Atom 和 RSS (Really Simple Syndication) 提供了一种简化的方法,使网站所有者能够方便地发布标题和其他内容,并使其易于检索。

在现代 AI 时代,一系列新协议正在涌现,旨在实现相同的基本目标。这一次,不再是让网站更容易被人类发现,而是让网站更便于 AI 访问。其中包括 Anthropic 的 Model Control Protocol (MCP) 、 Google 的 Agent2Agent 以及 LLMs.txt 等现有尝试。

最新的协议是 Microsoft 开源的 NLWeb (natural language web) 项目,该项目在 Build 2025 大会上宣布。NLWeb 也与第一代万维网聚合标准直接相关,因为其构想和创建者 RV Guha 曾参与创建 RSS、RDF (Resource Description Framework) 和 schema.org。

NLWeb 使网站能够轻松添加由 AI 驱动的对话式接口,从而将任何网站有效地转变为一个 AI 应用,用户可以使用自然语言查询内容。NLWeb 并非旨在与其他协议竞争,而是构建在其之上。这一新协议采用了 RSS 等现有的结构化数据格式,每个 NLWeb 实例都充当着 MCP 服务器。

“ NLWeb 的理念是,任何拥有网站或 API 的人,都能非常轻松地将其网站或 API 变成一个具有代理能力的应用,” Microsoft 首席技术官 Kevin Scott 在 Build 2025 主题演讲中表示。 “你可以将它看作是代理型网络的 HTML。”

NLWeb 如何为企业实现 AI 赋能万维网

NLWeb 通过一个简单的流程,将网站转变为由 AI 驱动的全新体验,该流程在利用现代 AI 技术的同时,构建在现有的网络基础设施之上。

利用现有数据:该系统首先利用网站已发布的结构化数据,包括标记、RSS 源以及常嵌入网页中的其他半结构化格式。这意味着发布者无需完全重建其内容基础设施。

数据处理与存储:NLWeb 包含将这些结构化数据添加到向量数据库中的工具,从而实现高效的语义搜索与检索。系统支持所有主流的向量数据库选项,使开发者能够选择最适合其技术需求和规模的解决方案。

AI 增强层:大型语言模型随后利用外部知识和上下文对存储的数据进行增强。例如,当用户查询餐厅时,系统会自动叠加地理信息、评论及相关信息,通过将向量化内容与大型语言模型的能力相结合,提供全面、智能的响应,而不仅仅是简单的数据检索。

通用接口创建:最终形成了一个既面向人类用户也面向 AI 代理的自然语言接口。访客可以用简单的英语提出问题,并获得对话式的回答,而 AI 系统则可以通过 MCP 框架以编程方式访问和查询网站的信息。

这种方法使得任何网站都能参与到新兴的代理型网络中,而无需进行大规模的技术改造。它使得由 AI 驱动的搜索和交互变得像早期创建网页一样简单易行。

新兴的 AI 协议生态为企业带来了众多选择

在 AI 领域,正涌现出许多不同的协议;然而它们并不全部执行相同的功能。

例如,Google 的 Agent2Agent 完全致力于让代理相互通信。它主要用于协调和传递代理型 AI,并不特别关注让现有网站或 AI 内容获得 AI 赋能。MIT Project NANDA 团队成员、 AIA 创始人兼首席执行官 Maria Gorskikh 向 VentureBeat 解释道,Google 的 A2A 通过采用预定义的 schema 和生命周期模型,实现了代理之间结构化任务的传递。

“虽然该协议本质上是开源且模型无关的,但其当前的实现和工具集与 Google 的 Gemini 技术栈紧密相连,这使得它更像是一个后台协调框架,而不是面向网络服务的一般性接口,”她说道。

另一个新兴的尝试是 LLMs.txt,其目标是帮助大型语言模型更好地访问网页内容。表面上看,它似乎与 NLWeb 类似,但实际上并非如此。

Constellation Research 副总裁兼首席分析师 Michael Ni 在接受 VentureBeat 采访时表示:“ NLWeb 并不与 LLMs.txt 竞争;它更类似于那些试图从网站中推断意图的网页抓取工具。”

Dappier 联合创始人兼首席技术官 Krish Arvapally 向 VentureBeat 解释道,LLMs.txt 提供了一种类似 Markdown 的格式,并附有训练权限,帮助大型语言模型的爬虫适当地摄取内容;而 NLWeb 则侧重于直接在发布者网站上实现实时交互。Dappier 拥有自己的平台,该平台可自动摄取 RSS 源和其他结构化数据,然后提供可嵌入的品牌化对话式接口。发布者可以将其内容分发至数据市场。

另一个重要协议是 MCP,它正日益成为事实标准,也是 NLWeb 的基础元素。基本上,MCP 是用于连接 AI 系统与数据源的开放标准。Ni 解释道,在 Microsoft 看来,MCP 是传输层,MCP 与 NLWeb 共同构成了开放代理型网络的 HTML 和 TCP/IP。

Forrester 高级分析师 Will McKeon-White 认为,NLWeb 相较于其他选择具有诸多优势。

McKeon-White 向 VentureBeat 表示:“ NLWeb 的主要优势在于能够更好地控制 AI 系统如何‘看待’构成网站的各个部分,从而实现更精准的导航和对工具更全面的理解。这既可以减少系统因误解网站内容而产生的错误,也能降低界面重构的成本。”

早期采用者已见证 NLWeb 在企业代理型 AI 方面的潜力

Microsoft 并不是凭空推出 NLWeb 然后寄希望于有人使用。

目前已有多家组织正在使用 NLWeb,包括 Chicago Public Media、Allrecipes、Eventbrite、Hearst (Delish)、O’Reilly Media、Tripadvisor 和 Shopify。

O’Reilly Media 首席技术官 Andrew Odewahn 是早期采用者之一,并看到了 NLWeb 的真实潜力。

Odewahn 向 VentureBeat 表示:“ NLWeb 利用了过去十年在开放网络上开发的最佳实践和标准,并将其应用于大型语言模型。公司长期以来一直致力于针对 SEO 和其他营销目的优化这种元数据,但现在它们可以利用这海量数据,通过 NLWeb 使自己的内部 AI 更智能、更强大。”

在他看来,无论作为公共信息的消费者还是私人信息的发布者,NLWeb 对企业都具有重要价值。他指出,几乎每个公司的销售和营销团队在需要回答“这家公司是做什么的?”或“这个产品是关于什么的?”时,都能从中受益。

Odewahn 表示:“ NLWeb 为你内部的大型语言模型开放这些信息提供了一种极佳的方式,这样就不必费力地逐个寻找。作为发布者,你可以使用 schema.org 标准添加自己的元数据,并将 NLWeb 用作内部的 MCP 服务器,使之供内部使用。”

此外,使用 NLWeb 并不一定会大费周章。Odewahn 指出,许多组织可能已经在使用 NLWeb 所依赖的众多标准。

他表示:“现在尝试使用 NLWeb 没有什么坏处,因为 NLWeb 可以完全在你的基础设施内运行。它是开源软件与最佳开源数据的结合,所以你没有什么可失去的,同时也会获得很多好处。”

企业现在应该立即采用 NLWeb 还是等待?

Constellation Research 分析师 Michael Ni 对 NLWeb 持有较为正面的观点,但这并不意味着企业需要立即采用它。

Ni 指出,NLWeb 目前正处于成熟的初期阶段,企业应预期需要 2-3 年时间才能实现大规模采用。他建议具备特定需求(例如活跃市场)的前沿企业可以率先试点,参与并帮助塑造这一标准。

Ni 表示:“这是一项富有远见的规范,潜力显而易见,但在实现主流企业试点前,它需要生态系统验证、实现工具以及参考集成。”

还有人对采用持更为激进的看法。Gorskikh 建议采取加速方式,以确保企业不被落下。

她说道:“如果你是一家拥有庞大内容体系、内部知识库或结构化数据的企业,现在试点 NLWeb 是一个明智且必要的举措,可以保持领先。这不是一个观望的时刻——更类似于 API 或移动应用早期采用的情形。”

不过她也指出,受监管行业需要谨慎行事。诸如保险、银行和医疗等领域应在建立中立、去中心化的验证与发现系统之前,暂缓投入生产使用。目前已有一些初期工作在解决这一问题——例如 Gorskikh 所参与的 MIT NANDA 项目,该项目正在构建一个开放、去中心化的代理服务注册与信誉系统。

这对企业 AI 领导者意味着什么?

对于企业 AI 领导者而言,NLWeb 是一个分水岭时刻,也是一项不容忽视的技术。

AI 将与您的网站进行交互,而您需要使其具备 AI 赋能。NLWeb 是一种特别吸引发布者的方式,就像 RSS 曾在 2000 年代初成为所有网站的必备功能一样。几年之后,用户会理所当然地期望其存在;他们期望能够搜索和查找信息,同时代理型 AI 系统也需要能够访问这些内容。

这就是 NLWeb 的承诺。

来源:至顶网

相关推荐