摘要:文本向量化是自然语言处理(NLP)的核心任务,其目标是将离散的文本符号转化为连续的数值向量,以便机器学习模型处理。神经网络通过分布式表示(Distributed Representation)和上下文建模实现这一目标。
文本向量化是自然语言处理(NLP)的核心任务,其目标是将离散的文本符号转化为连续的数值向量,以便机器学习模型处理。神经网络通过分布式表示(Distributed Representation)和上下文建模实现这一目标。
文本向量化挑战和目标
挑战:
离散性:文本由离散的词汇构成,计算机无法直接处理。语义缺失:传统方法(如One-Hot编码)无法表达词汇间的语义关系。上下文依赖:词汇含义受上下文影响(如“苹果”既指水果也指公司)。目标:
将文本转化为低维、稠密的向量表示。保留语义、语法及上下文信息。支持下游任务(如分类、翻译、生成)。神经网络文本向量化的核心原理
1. 分布式表示(Distributed Representation)
定义:
每个词汇由一个低维向量表示,向量的每个维度对应词汇的潜在语义特征。
原理:
相似性:语义相近的词汇在向量空间中距离较近(如“猫”与“狗”)。线性组合:词向量可通过线性运算表达复杂语义(如“国王”-“男人”+“女人”≈“女王”)。优势:
缓解维度灾难(词汇表大小通常为10万量级,而向量维度通常为300-500)。支持语义推理与迁移学习。词向量模型:从统计到神经网络
早期方法:
共现矩阵:统计词汇在文本中的共现频率,通过降维(如SVD)得到词向量。局限:维度高、稀疏性强、计算复杂。神经网络方法:
Word2Vec(2013):通过浅层神经网络预测词汇的上下文或目标词。CBOW模型:用上下文词汇预测目标词。Skip-Gram模型:用目标词预测上下文词汇。原理示例:
假设词汇表为{“我”, “喜欢”, “苹果”, “香蕉”},通过Skip-Gram训练后,词向量可能为:
3. 序列模型:捕捉上下文依赖
挑战:
词向量模型无法处理多词短语或句子的上下文依赖。解决方案:
循环神经网络(RNN):通过隐状态传递序列信息,但存在梯度消失问题。长短期记忆网络(LSTM):引入门控机制,缓解长距离依赖问题。门控循环单元(GRU):简化LSTM结构,提高计算效率。示例:
在情感分析任务中,LSTM可处理句子“这部电影很棒,但结局令人失望”,生成包含上下文信息的句子向量。
4. Transformer架构:自注意力机制
背景:
RNN系列模型存在并行计算困难,难以处理长序列。解决方案:
自注意力机制:计算每个词与其他词的关联性,生成加权表示。多头注意力:并行计算多个注意力头,捕捉不同语义特征。原理:
输入句子“我喜欢苹果”,每个词通过自注意力机制生成包含全局信息的向量:
预训练语言模型:从特征提取到上下文感知
发展历程:
静态词向量:Word2Vec、GloVe(词汇级表示)。动态词向量:ELMo(上下文感知,但基于RNN)。Transformer时代:BERT、GPT(上下文感知,基于自注意力)。关键技术:
无监督预训练:在大规模语料库上训练模型,学习通用语言知识。微调:在特定任务上调整模型参数,实现快速适配。应用:
BERT:双向Transformer编码器,支持填空、分类、问答等任务。GPT:自回归生成模型,擅长文本生成与对话。示例:
在机器翻译中,BERT可生成源语言句子的向量表示,供解码器使用。
四、技术演进与未来趋势
多模态融合:将文本与图像、音频等多模态数据联合向量化,实现跨模态检索与生成。轻量化模型:针对移动端设备,开发高效、低资源消耗的向量化模型(如MobileBERT)。知识增强:将外部知识(如知识图谱)融入向量化过程,提升模型的可解释性。动态向量表示:根据用户兴趣或任务需求,动态调整向量表示的维度与内容。演进过程
神经网络通过分布式表示、序列建模与自注意力机制,实现了从词到句子的高效向量化。其技术演进可分为三个阶段:
静态词向量:基于统计或浅层神经网络。动态词向量:引入上下文感知能力。预训练语言模型:实现通用语言知识的迁移学习。来源:璟雯教育分享