从 RAG 应用中你能学到什么? (文本检索Retrieval)
前一篇文章介绍了 RAG 中 text embedding,在chunk 文本embedding,就是构建向量知识库,然后供下游任务检索召回,输入大模型进行问题精加工回答. 那么在实际 RAG 的检索模块有哪些方案以及优化点?今天这篇文章将进行深入分析。
rag 文本检索 r rag应用 文本检索retrieval 2025-04-03 19:05 8
前一篇文章介绍了 RAG 中 text embedding,在chunk 文本embedding,就是构建向量知识库,然后供下游任务检索召回,输入大模型进行问题精加工回答. 那么在实际 RAG 的检索模块有哪些方案以及优化点?今天这篇文章将进行深入分析。
rag 文本检索 r rag应用 文本检索retrieval 2025-04-03 19:05 8
在 RAG 中前面讲解了文本切块方式,对于切块之后的语义块单元,接下来就是进行文本embedding 操作,以供下一步的文本块检索(retriever);准确的文本embedding 对下游召回任务的准确性至关重要.前面有过两篇文章介绍过文本embedding
今天这篇文章继续RAG 专题,前面一篇讲到了 RAG 文件内容的摄入;将图、文、表 理解输入为文本的形态,得到文本的形态内容之后,接下来很重要的一个步骤就是要进行文本分块——分块(chunking)是将大块文本分解成小段的过程。
日常常见接触到的文件格式有doc、pdf、excel 等文件格式,这些不同文件格式的文件其中内容有文本、表格、图像夹杂其中。其中文字内容的读取重要的是保留其中板式,文字内容的读取一般各种python库基本能支持;