摘要:文本嵌入(Text Embedding)几乎贯穿了所有 NLP 任务:检索、分类、聚类、问答、摘要……随着 BERT、T5、LLaMA/Qwen3 等预训练语言模型(PLM)的出现,文本嵌入进入了“通用+可迁移”时代。哈工大这篇 30+ 页综述系统回答了(论文
文本嵌入(Text Embedding)几乎贯穿了所有 NLP 任务:检索、分类、聚类、问答、摘要……
随着 BERT、T5、LLaMA/Qwen3 等预训练语言模型(PLM)的出现,文本嵌入进入了“通用+可迁移”时代。
哈工大这篇 30+ 页综述系统回答了(论文链接在文末):
图1:GPTE 典型架构——Bi-Encoder + 对比学习
2. PLM 的「基础角色」
50种有代表性的开源 GPTE 方法(模型)
(1)嵌入抽取CLS / Mean / Last-Token / 多层融合SBERT、E5、GTE(2)长文本RoPE、Alibi、LongEmbedJina-v3、MosaicBERT(3)训练策略多阶段:弱监督→高质量E5-Mistral(4)学习目标CL + MLM + MRL + KDGTE-MLM、DiffCSE(5)数据合成LLM 生成正/负样本Promptagator、Qwen3-Emb基于不同预训练语言模型(PLM)主干的通用文本嵌入(GPTE)模型性能对比,聚焦于广泛采用的开源 PLM:模型规模越大、主干越强,GPTE 性能越好,但解码器架构需更多参数才能与编码器架构匹敌。
表6:多模态嵌入模型全家福
表4:多语言 GPTE 模型概览
表5:多语言 GPTE 训练数据概览
表8:基于 CL 的代码嵌入模型
来源:同行者一点号1