摘要:在大模型还没火起来的一年前,Will Bryk 就已经投身于一件听起来有些疯狂的事情:从零开始,构建全新的网络爬虫和搜索引擎。
在大模型还没火起来的一年前,Will Bryk 就已经投身于一件听起来有些疯狂的事情:从零开始,构建全新的网络爬虫和搜索引擎。
他的目标不是简单地复制或改进 Google,而是要创造一个能「智能地」抓取网络、从海量 SEO 垃圾信息中精准找到高质量信源的系统。
也许他自己也没想到,这个系统竟然成为 AI Agent 时代最关键的基础设施之一。
今天,这家名为 Exa AI (曾用名 Metaphor)的初创公司,宣布获得了由 Benchmark 领投,Lightspeed、Nvidia 和 YCombinator 跟投的 8500 万美元 B 轮融资,估值达到 7 亿美元 。
Exa 的客户名单上,已经出现了 Databricks、Cursor、LlamaIndex 这样的明星公司。
他们都在使用 Exa 的 API,为自己的 AI 产品提供信息源。这也正是 Exa 的独到之处:服务于 AI,而非服务于人类。
在 Will Bryk 看来,当前的一个根本性错位在于:当 AI Agent 开始像人类一样思考和工作时,它们用来「看世界」的眼睛——搜索引擎——依然是为我们这些「碳基生物」设计的旧时代产物。
将传统搜索引擎作为 AI 的知识库,就像给 F1 赛车装上了马车的轮子。而 Exa 要做的,就是为这辆 F1 赛车,重新发明轮子。
换句话说: AI 需要全新的搜索引擎,一个为 AI 而非为人类设计的搜索引擎。
故事要从 2021 年说起,那时 ChatGPT 还未诞生,仍是属于 GPT-3 的时代。
当时,Will Bryk 被 GPT-3 的魔力深深吸引。但他也发现了一个矛盾的现象:
一方面,GPT-3 已经能够理解自然语言,只需要详细描述意图,GPT 就能生成符合要求的输出。 另一方面,Google 在执行很多看似简单的查询时,经常难以匹配用户的实际需求。比如,在 Google 上搜索 「shirts without stripes」 (没有条纹的衬衫),返回的结果里却充斥着各种 带有条纹 的衬衫。
这看上去并不是什么大问题,但却暴露了传统搜索引擎的根本性缺陷:它并不真正「理解」语言,本质上是在进行 关键词匹配 。
这种反差让 Will 产生了一个大胆的想法: 为什么不能将 GPT-3 的那种深度语义理解能力,与搜索引擎的广度结合起来,创造一个能真正听懂人话的下一代搜索引擎?
他们当时认为:世界需要一个比 Google 更好的搜索引擎。未来的搜索工具应该能让用户以前所未有的方式获取网络信息。
这个搜索引擎能够满足用户这样的搜索要求:
给我所有在纽约、拥有个人博客的机器学习工程师,并按他们的从业年限排序。这种复杂的、数据库式的查询,在 Google 上是无法实现的。
Will 和他的团队坚信,这就是信息检索的未来。
这是一个非常宏大的想法。如果我们能真正解决这个问题,它将改变世界。2021 年夏天,Will 和他的团队加入了 Y Combinator,并筹集了数百万美元的启动资金。然后,他们做了两件不太一样的事情:
把筹到的一半的钱花在 GPU 集群上。 在长达一年半的时间里,他们没有接触任何用户或客户,而是埋头进行纯粹的算法研究。在 Will 看来,这是必要的。
因为他们必须要解决一个极其困难的问题: 用与 GPT-3 相同的技术——基于 Transformer 的「下一个词元预测」思想,来从零开始重新设计搜索。
核心理念:用「神经方法」取代「关键词索引」传统搜索引擎是如何工作的?
传统搜索引擎的核心是一个巨大的「倒排索引」。它会为海量的网页文档建立一个索引,映射出每个「关键字」出现在哪些文档中。当用户搜索时,系统通过复杂的关键字比较算法,找出最相关的结果。
尽管 Google 的实际算法远比这复杂,包含了 PageRank 等其他信号,但核心依然是 关键词匹配 。
而 Exa 设想的路径则完全不同。
Transformer 带来的最大变革是, 我们不再将文档看作一堆关键词的集合,而是可以将其转化为「嵌入向量」(embeddings)。Embedding 是一个由数字组成的列表(即向量),它可以捕获远比关键词丰富得多的信息。它不仅包含文档中的词语,还包含了词语背后的 含义、思想,甚至是人们在网络上如何引用和讨论这个文档的方式 。一个 embedding 可以任意强大,包含的信息可以任意丰富。
所以,从极限角度来看,embedding 必然会碾压关键词。
这种做法可以看作是 The Bitter Lesson 的实践 —— 强大的、可扩展的计算(比如深度学习)最终总能战胜依赖人类专家知识的系统。
Exa 想做的,就是训练一个巨大的 Transformer 模型,让它学会为网络上的每一个文档生成高质量的 embedding。通过不断地喂给模型更多、更高质量的数据,创造出一个真正「懂你」的搜索引擎。
在搜索时,整个流程也变得不同。当查询「shirts without stripes」输入时,Exa 不会去拆解关键词,而是将这整个句子 也转换成一个 embedding ,然后在由数万亿文档 embedding 构成的向量空间中,寻找语义上最接近的文档。
这个看似简单的例子,背后却是搜索范式的根本性变革。它意味着,搜索引擎终于开始从「匹配字符」走向「理解概念」。
经过一年半的艰苦研发,经历了一次又一次的训练和模型迭代,他们终于成功了。
2022 年 11 月,Exa 的第一个版本正式上线。当用户在 Exa 上搜索「shirts without stripes」时,返回的结果真的就是 不包含条纹的衬衫 。
这在当时的 Twitter 上引起了轰动。用户发现,Exa 可以满足各种以前无法想象的、更长、更复杂的查询。
然而,仅仅两周后,一个「小小的」发布,彻底改变了世界。
ChatGPT 来了。
ChatGPT 的横空出世,让 Exa 团队一度陷入了迷茫:在一个强大的 LLM 可以直接回答问题的世界里,搜索还有存在的必要吗?
LLM 不是搜索引擎的对手,而是未来唯一的客户答案很快就变得清晰: 有,而且至关重要。
原因很简单:因为 LLM 并非无所不知。
一个简单的信息论就能证明这一点:GPT-4 模型的权重参数,即使有数万亿个,其存储的信息量也可能不到 10TB。而整个互联网的数据量,早已超过了百万 TB,如果算上图片和视频,更是进入了 Exabyte 级别。
此外,真实世界的互联网是 持续不断更新 的,而 LLM 的训练是周期性的。
模型的权重不可能存储下不断膨胀互联网,所以 LLM 必须依赖外部搜索来获取知识,这个需求是刚性的,而且是长期的。
未来,搜索引擎主要服务的客户将不再是人类,而是 AI。
这个认知,让 Exa 团队彻底从「被颠覆」的恐慌中走了出来,并找到了自己全新的定位: 如果说 LLM 是未来的通用大脑,那么 Exa 就要成为这个大脑获取外部知识的唯一、也是最好的接口。
当 LLM 与 Exa 这样的搜索引擎结合,它就能回答以前无法回答的问题。
比如,当用户问「帮我找一些在旧金山,对信息检索感兴趣的工程师的个人网站」,LLM 可以调用 Exa 进行搜索,获取相关的网站列表,然后整理出完美的答案。
LLM + Search,在今天看来已经是显而易见的组合。
但 Will 认为,这里仍然存在一个大多数人尚未意识到的秘密:
传统搜索引擎,是为人类设计的,不是为 AI 设计的。
过去几十年来,所有的主流搜索引擎——Google、Bing 等等,都是为一个特定「物种」优化的: 缓慢的、使用血肉之躯的、懒惰的人类。
这些「人类用户」有以下特点:
输入简短的关键词 :因为懒得打字。 只关心少数几个链接 :没有耐心浏览上百个结果。 受页面 UI 和权威性影响 :PageRank 正是为此而生。Google 对于服务人类用户,已经做到了极致,它总能猜到你会点击什么。
但 AI,则是完全不同的「物种」。
AI 吞噬信息的速度快得惊人。作为信息消费者,AI 的特点与人类截然相反:
能使用复杂、精确、冗长的查询 :AI 没有「懒惰」的概念,可以把所有上下文都作为查询条件。 需要海量、全面的知识 :AI 不满足于 10 个链接,它想要 1000 个、10000 个,并有能力在瞬间处理完所有信息。 追求信息密度和原始数据 :AI 不在乎漂亮的 UI,只关心数据本身是否精确、可控。 如果为人类优化的算法,同样也适用于 AI,那才是一件怪事。 现在很多所谓的 AI 搜索工具,只是简单地将传统搜索引擎和 AI 结合,这就像用错误的拼图碎片硬凑在一起,根本不匹配。Exa 真正要思考的,就是为 AI 这个新物种,量身打造一个属于它们的搜索引擎。
AI 需要的搜索:精确、上下文与全面那么,一个专为 AI 设计的搜索引擎,究竟应该是什么样子?Will 举了几个生动的例子:
1. AI 需要精确可控的信息,而不是「人类喜欢点击」的结果。
想象一个风险投资人 (VC) 使用 AI 助手来寻找投资机会。他可能会提出一个非常具体的要求:「寻找那些感觉像是下一个贝尔实验室的初创公司。」
AI 助手接收到这个指令后,会去调用搜索引擎。
如果它调用的是 Google,返回的结果很可能是几篇关于贝尔实验室历史的文章、一些科技新闻报道,或者是那些在 SEO 上做得很好、标题里包含「贝尔实验室」的公司。这些是 人类用户可能会点击 的链接,但信息密度极低,也并非 VC 真正想要的。
而 AI 想要的,是一个 直接返回符合条件的公司列表 。
如果一个搜索引擎,能真正返回你所要求的东西,而不是它猜测你会点击的东西,世界会变成什么样?
在一个 AI Agent 的世界里,用户与 Agent 交互,Agent 会在后台进行成百上千次搜索。它可能先搜索「类似贝尔实验室的初创公司」,然后细化搜索「位于纽约的这类公司」,再加入更多限定条件。
AI Agent 需要的是一个纯粹的、精确的、像数据库查询一样可靠的 API。
2. AI 需要利用海量的上下文进行搜索。
一个优秀的 AI 个人助理,会记录你一整天的对话和偏好。它了解你的职业、你的喜好、你的日程。此时,当你让它帮你找餐厅时,它不应该只用「餐厅」这个词去搜索。
它应该能发起一个包含 多段文字 的复杂查询,例如:
我的用户是一名软件工程师,住在 XX 社区,喜欢安静的环境,偏爱亚洲菜系,预算在人均 50-100 美元之间,请帮我找到符合这些条件的餐厅。传统搜索引擎无法处理这样的查询,因为人类用户永远不会输入这么长的内容。Google 对查询长度有几十个关键词的限制,它们的整个系统都是围绕简短查询优化的。
而 Exa,则可以轻松处理多段落的文本查询。它能将全部的上下文信息编码到查询 Embedding 中,从而实现前所未有的个性化和精确度。
3. AI 需要全面、完整的知识,而非 Top10 链接。
如果你给一个人类 10000 个网页,他会不知所措。但这对于 AI 来说,并行处理可能只需要 3 秒钟。一个 VC 想分析某个赛道的所有公司,他需要的是 真正意义上的「所有」公司 ,而不是 Google 找到的前 10 或 20 个。获取全面的数据,其价值是无可估量的。
这就要求搜索引擎不仅能理解「所有由 YC 资助的、从事 AI 领域的创业公司」这样的语义查询,还要能 一次性返回成千上万条结果 。这在传统搜索引擎中同样是不可想象的。
通过这些例子,Will 勾勒出了一个远比我们想象中更广阔的「查询空间」。
One API to get any information from the web.
Exa 的目标,是提供一个统一的 API,不仅能处理传统的关键词查询,也能处理复杂的语义查询,最终覆盖所有可能的查询类型,成为 AI 系统获取知识的终极入口。
与传统搜索 API 不同,Exa 的 API 提供了大量的 控制开关 。开发者可以精确指定返回结果的数量(10、100、1000)、时间范围、只在特定域名内搜索等等。
你确实需要这些控制选项,因为调用这个 API 的是你的 AI 程序,你需要让它拥有完全的控制权。更关键的是,Exa 允许开发者在 「神经搜索 (neural search)」 和 「关键词搜索 (keyword search)」 之间自由选择。
神经搜索 :适用于那些模糊的、概念性的、需要理解深层语义的查询。例如,「旧金山喜欢信息检索的工程师的个人网站」。 关键词搜索 :适用于那些目标明确、专有名词多的查询。例如,「Will Bryk 的 GitHub 页面」。一个优秀的 AI Agent,应该能够智能地决策在何种场景下使用何种搜索方式。
Will 演示了一个「GitHub Agent」的例子,它需要找到「所有在旧金山喜欢信息检索的工程师的 GitHub 页面」。
这个 Agent 的工作流是:
第一步(神经搜索) :发起一次 神经搜索 ,查询「personal sites of engineers in San Francisco who like information retrieval」,获取一个符合条件的工程师个人网站列表。 第二步(关键词搜索) :从返回的网站中提取出工程师的姓名,然后对每个姓名发起一次 关键词搜索 (例如「John Doe GitHub」),精准地找到他们的 GitHub 链接。这种将不同类型搜索组合起来的能力,赋予了 AI Agent 前所未有的灵活性和强大功能。
此外,Exa 还推出了一个名为 Research 的新功能。它将复杂的搜索流程和 LLM 调用封装在后台,用户只需提出一个研究性问题(比如「给我一份关于美国所有航天公司的报告」),API 就能返回一份结构化的、深度研究后的报告。
这已经超越了「搜索」,更像是 答案引擎 或 研究引擎 。
未来:通往「完美搜索」之路在完成新一轮融资后,Exa 官方进一步介绍了他们作为「AI 的搜索引擎」的独特优势:
高质量知识 :排名算法纯粹为高质量知识优化,没有 SEO 和广告的干扰。 返回完整内容 :API 不仅返回 URL 和标题,还提供完整的页面内容,供 AI 直接处理。 极致的速度 :针对 AI Agent 多工具调用的场景,将 API 延迟优化至 450 毫秒以下。 高算力选项 :为异步、大规模数据获取任务,提供名为 Websets 的高算力产品,实现最全面的搜索。 高度可定制 :支持排除数千个域名、获取数百个结果、或创建自定义分类器等高级功能。 零数据保留 (ZDR) :作为自研的搜索引擎,Exa 可以为企业客户提供真正的查询数据零保留,确保数据隐私。未来,Exa 的目标不止于「比 Google 更好」,而是要实现 完美搜索 。
我们梦想着一个所有信息都被完全组织起来的世界。为了实现这一目标,新的融资将用于:
扩大索引和处理规模 ,以覆盖世界上绝大多数的信息。 购入 5 倍的 GPU 集群 ,以加快研究速度,开发新一代信息组织技术。 扩展世界级的开发团队 。正如 Will 所说,Exa 的本质,是一群非常聪明和有趣的人,在一个大房间里共同解决真正困难的问题。他们正在构建的,是当前世界尚不存在,但对未来社会至关重要的基础设施。
Exa 始于对「关键词匹配」搜索的不满足,在受到 ChatGPT 的冲击后,又立即认识到未来的搜索将「服务于 AI」而非「服务于人类」,这都是 AI 时代带来的大胆判断。
大模型具备了强大的理解和生成能力,Exa 则致力于给大模型装上用于检索的感官器官。当两者完美结合时,AI Agent 的潜力,或许才会真正释放出来。
来源:智慧芯片一点号