Abc谷歌排名信号:什么样的顶级的搜索工程师透露

360影视 国产动漫 2025-05-14 18:12 1

摘要:美国司法部发布了若干新审判的展览的一部分正在进行的 补救办法的听证会 . 这些展品包括面谈两个关键谷歌工程师–潘杜Nayak和HJ金–提供深入了解谷歌的排名信号和系统、搜索功能,以及未来的谷歌。

美国司法部发布了若干新审判的展览的一部分正在进行的 补救办法的听证会 . 这些展品包括面谈两个关键谷歌工程师–潘杜Nayak和HJ金–提供深入了解谷歌的排名信号和系统、搜索功能,以及未来的谷歌。

关键谷歌搜索系统术语排名

Nayak定义的一些关键的谷歌的术语和解释谷歌搜索的结构:

文件:谷歌有什么呼叫一个网页或其存的版本。信号:谷歌怎么行列文件,最终产生的搜索结果页面(搜索引擎的搜索结果页)。 谷歌谈到了使用的预测的信号机学习模式以及"传统的信号,"有可能的含义基础上的用户端的数据(谷歌有什么以前称为用户相互作用--例如,点击,关注结果,刷上旋转木马,进入一个新的查询)。 广泛地说,有两种类型的排名信号:原始信号。这些都是单独的信号。 谷歌"超过100原始信号,"根据Nayak.顶级的信号。这是一个结合的多种原始信号。

其他信号进行了讨论工程师包括:

Q*("Q星"):如何谷歌措施的文件的质量。Navboost:传统信号的测量用户点击一份文件查询,分段按地点和装置类型、使用的最后13个月的数据。RankEmbed:一个主要谷歌信号,训练有大的语言模型(LLMs).Pr:一个原始的谷歌信号,仍然是一个因素页的质量。

谷歌还使用Twiddlers重新排名结果(其中我们了解到有关从 去年的谷歌的内容API仓库中泄漏 ). 内部"调试口",让工程师们看到查询扩/解和个人的信号分,确定最终搜索结果进行排名。

谷歌中止执行不当或过时的信号。

Navboost:没有一个机学习系统

Ex-google用户埃里克*雷曼兄弟询问是否Navboost火车上的13个月的用户数据和见证:

"这就是我的了解。 现在,在车里可能会有点误导。 Navboost不是机械学习的系统。 它只是一个大表。 它认为为...这个搜索查询,这个文件得到了两次点击。 为此查询,这个文件得到了三次点击...等。 和它的聚集,并有一点的额外的数据。 但你可以把它想成只是一个巨大的表格。"

谷歌搜索:从传统的学习机

Google搜索发生变化,从传统的"霍加狓BM25"排名功能将学习机器,开始与RankBrain( 宣布在2016年 ),那么,后来,DeepRank和RankEmbed.

谷歌找到,伯特基DeepRank学习机信号可以是"信号分解成类似于传统的信号",并结合两种类型的改进的结果。 这在本质上创造了一种混合方法的传统的信息检索和机学习。

谷歌"避免简单的'预测点击'",因为他们是容易被操纵和不可靠的衡量用户的经验。

RankEmbed

一个关键信号,RankEmbed,是一个"双编码模型"的,将查询和文件成一种"嵌入空间"。 这个空间的认为语义属性和其他的信号。 检索和排名是根据一个"点的产品"或"距离测量在嵌入空间"。

RankEmbed是"非常快",并擅长于公共查询,但斗争与较不频繁或具体的长尾的查询。 谷歌的培训,这在一个月的搜索数据。

时效性、质量和其他信号

该文件详细说明如何谷歌确定文件的相关查询,或"热门话题." 关键组成部分包括ABC信号:

锚(A):链接,从源页面一目标网页。体(B):在文件。点击(C):有何用户在一个链接页面,然后返回搜索结果页面.

这些结合到T*(性),其中谷歌用于审判的文件的相关查询的条件。

超越了时事性、"Q*"(网页的质量),或"可信赖性",是"非常重要的,"尤其是在处理"的内容农场。" HJ金指出,"如今,人们仍抱怨的质量和艾使情况变得更糟。" Pr饲料质量的评分。

eDeepRank:一个法学硕士学位系统使用的伯特和变压器分解法学硕士基于信号更大的透明度。BR:一个"普及"信号使用的铬的数据。

虽然机学习是不断增长的重要性,许多谷歌信号仍然是"手工制作的"通过工程师。 他们分析数据,适用于功能等sigmoids,并设定的阈值进行微调的信号。

"在极端的情况下,"这意味着手选择数据的中点。 对于大多数信号,谷歌使用回归分析网页上的内容、用户和人的评分的标签。

手工制作的信号是重要的透明度和简易排除故障。 作为金解释说:

"为什么绝大多数的信号方面造的是,如果任何事情破裂谷歌知道怎么修复。 谷歌希望他们的信号完全透明,因此他们可以麻烦-他们开枪,并改善他们。"

复杂的机学习系统都难以诊断和修复、金的解释。

这意味着谷歌可以应对的挑战和修改信号,例如调整它们对"各种媒体/公众关注的挑战。"

然而,工程师们请注意,"找到正确的边缘,这些调整是困难的",这些调整"将易于逆向工程和复查看数据。"

搜索引和用户端的数据

Google搜索引是爬的内容:标题和机构。 单独的索引存在的内容喜欢Twitter的饲料和梅西百货的数据。 基于查询的信号一般都计算在查询时,不存在搜索引,虽然有些人可能被用于便利。

"用户端的数据,"谷歌搜索工程师,意味着用户相互作用的数据,而不用户生成的内容等的链接。 信号受影响的用户端的数据变化中的多少,他们都受到影响。

搜索功能

Google搜索功能(例如,知识板)每个人都有自己的级的算法。 "Tangram"(以前为俄罗斯方块)的目的是适用一个统一的原则搜索所有这些特征。

该知识图的使用延伸超过搜索结果页面板,以增强传统的搜索。 该文件还引用"自助自杀框中,"强调至关重要的准确配置和丰富工作背后确定的权利"曲线"和"阈值。"

谷歌的发展,该文件强调,被驱动的用户的需要。 谷歌的确定和调试的问题,并采用新的信息,以提高排名。 实例包括:

调整的信号链接的位置的偏差。发展中信号,以打击内容农场。创新,以确保结果的质量对于敏感的查询,如"没有大屠杀的发生,"同时考虑到细致入微的结果的多样性。LLMs和未来的Google搜索

谷歌是"重新思考他们的搜索堆从地面,"与LLMs把更大的作用。 LLMs可以增强"查询的解释",并"汇总介绍的结果。"

在一个 独立显示出 ,我们得看看在谷歌的"合并的搜索基础设施"(虽然许多部分都已编辑):

谷歌的是要探索如何LLMs可以重新构想的排名、检索和搜索结果页面显示。 一个关键的考虑是计算成本的使用LLMs.

虽然早期的机学习模型所需的数据,谷歌现在使用"少,"有时候只有90天或60天的价值。 谷歌的规则:使用数据,最好供应的用户。

来源:新浪财经

相关推荐