从BERT到T5再到Qwen3:关于Embedding的八点总结

360影视 日韩动漫 2025-08-15 22:25 2

摘要:文本嵌入(Text Embedding)几乎贯穿了所有 NLP 任务:检索、分类、聚类、问答、摘要……随着 BERT、T5、LLaMA/Qwen3 等预训练语言模型(PLM)的出现,文本嵌入进入了“通用+可迁移”时代。哈工大这篇 30+ 页综述系统回答了(论文

文本嵌入(Text Embedding)几乎贯穿了所有 NLP 任务:检索、分类、聚类、问答、摘要……
随着 BERT、T5、LLaMA/Qwen3 等预训练语言模型(PLM)的出现,文本嵌入进入了“通用+可迁移”时代。
哈工大这篇 30+ 页综述系统回答了(论文链接在文末):


图1:GPTE 典型架构——Bi-Encoder + 对比学习

骨干:任意 PLM(BERT、T5、LLaMA…)池化:CLS / Mean / Last-Token / Prompt-Pooling训练:大规模文本对 + InfoNCE 对比损失微调:任务特定的轻量适配(LoRA、Adapter)

2. PLM 的「基础角色」

50种有代表性的开源 GPTE 方法(模型)

(1)嵌入抽取CLS / Mean / Last-Token / 多层融合SBERT、E5、GTE(2)长文本RoPE、Alibi、LongEmbedJina-v3、MosaicBERT(3)训练策略多阶段:弱监督→高质量E5-Mistral(4)学习目标CL + MLM + MRL + KDGTE-MLM、DiffCSE(5)数据合成LLM 生成正/负样本Promptagator、Qwen3-Emb

基于不同预训练语言模型(PLM)主干的通用文本嵌入(GPTE)模型性能对比,聚焦于广泛采用的开源 PLM:模型规模越大、主干越强,GPTE 性能越好,但解码器架构需更多参数才能与编码器架构匹敌。

E5-VT + ILLaVA-NeXT把 LLM 当图文编码器VLM2Vec-V2T + I + VQwen2-VL统一视频/图像/文档检索MegaPairsT ↔ I合成 500M 图文对数据即战力


表6:多模态嵌入模型全家福

模型Backbone语言数亮点mE5XLM-R100+中英跨语种零样本检索BGE-M3XLM-R + Long200+8192 token 长文本


表4:多语言 GPTE 模型概览


表5:多语言 GPTE 训练数据概览

早期:CodeBERT、GraphCodeBERT(结构+文本)LLM 时代:CodeLlama、DeepSeek-Coder → 直接做 Code Embedding对比学习:UniXcoder、ContraBERT、CodeSage


表8:基于 CL 的代码嵌入模型

https://arxiv.org/pdf/2507.20783v1On The Role of Pretrained Language Models in General-Purpose Text Embeddings: A Survey

来源:同行者一点号1

相关推荐