0~1开发AI Agent智能体：通过Llamalndex实现检索增强生成（RAG）

摘要：通过一个具体的业务场景，使用Llamalndex的思路来实现检索增强生成（RAG），通过RAG查看商品的供应状况和销售趋势，同时对两家公司的业绩做出对比

通过一个具体的业务场景，使用Llamalndex的思路来实现检索增强生成（RAG），通过RAG查看商品的供应状况和销售趋势，同时对两家公司的业绩做出对比

1. 业务需求2. 什么是RAG3. Agent+RAG4. 代码实现4.1 加载财报文件4.2 将财报文件的数据转换为向量数据4.3 构建查询引擎4.4 构建查询工具4.5 创建 ReAct Agent4.6 执行任务5.执行结果

智能体是一种能够感知环境、做出决策并采取行动的系统。这些系统能够执行被动的任务，也能够主动寻找解决问题的方法，适应环境的变化，并在没有人类直接干预的情况下做出决策。

现在有一个生意很好的鲜花店

鲜花店的合作伙伴是东南亚的两家鲜花商品经销商(电商)，它们均为上市公司。每个月需要对这两家公司的财务报表进行分析，目的是查看鲜花商品的供应状况和销售趋势，同时对这两家公司的业绩进行比较。

这个工作需要耗费团队的大量人力。有时需要外聘商业分析师来完成。

现在通过Llamalndex的RAGAgent组件来帮助我们做到这一点。

Llamalndex和LangChain框架同时具有 Conversational Agent(或称为Conversational Retrieval Agent)的概念。顾名思义，这种 Agent 就是具有检索功能的智能对话式 Agent。

这个概念结合了几个关键趋势 - RAG、聊天界面以及先进的Agent认知框架，以提供更优的用户对话体验。通过Llamalndex提供的 ReAct RAGAgent，用户可以很轻松地完成信息检索、内外部知识整合以及文本生成工作。

RAG，即检索增强生成（Retrieval-Augmented Generation），是一种结合了信息检索（Retrieval）和文本生成（Generation）的人工智能技术。

RAG是生成式AI领域的重大进展，它通过整合外部知识源来增强传统的大语言模型 (LLM)。这种方法拓宽了人工智能的视野，使其能够访问和利用除初始训练数据之外的大量信息。可以将 RAG 想象为一位学者，除了拥有自己的知识外，还可以即时访问到一座全面的图书馆。

RAG的核心在于结合检索与生成两个步骤，利用检索结果来指导生成过程，从而提高模型的准确性和多样性。

RAG架构

微软公司在论文《RAG vs Fine-tuning: Pipelines, Tradeoffs, and a Case Study on Agriculture》中专门给出了在基于农业领域的一个应用案例中 RAG 与微调的评估结果

该论文指出，在这个农业问答案例研究中，回答的准确率方面，微调大于 RAG，但差异并不明显。准确率最高的应用方法是“RAG+微调”，但相应付出的成本也大得多。考虑到 RAG的应用成本较低，在成本有限的情况下，建议选择RAG作为该问答应用的解决方案。

论文：https://arxiv.org/abs/2401.08406

Agent是一个能够自主操作和做出决策的系统。RAG当然可以作为Agent的技术架构的一个重要部分。

包含RAG功能的Agent可以更高效地处理用户的查询提供有用和准确的信息。

这类Agent通过检索(在知识库中搜索信息)和生成(利用大模型来生成回答)处理复杂的用户需求。它不仅能回答简单的问题，而且能处理复杂且更具探索性的查询。

4.1 加载财报文件

SimpleDirectoryReader 是将数据从本地文件加载到 LlamaIndex 的最简单方法

默认情况下， SimpleDirectoryReader 会尝试读取它找到的任何文件，将它们全部视为文本。除了普通文本外，它还明确支持以下文件类型，这些文件类型是根据文件扩展名自动检测的：

.csv - 逗号分隔值.docx - Microsoft Word.epub - EPUB 电子书格式.hwp - Hangul Word Processor.ipynb - Jupyter Notebook.jpeg, .jpg - JPEG 图片.mbox - MBOX 电子邮件档案.md - Markdown.mp3, .mp4 - 音频和视频.pdf - PDF文档格式.png - Portable Network Graphics.ppt, .pptm, .pptx - Microsoft PowerPoint

如果文件类型是 JSON，建议使用 JSON 加载器

import os# OpenAI 环境变量# 设置 OpenAI API 的基础 URLos.environ['OPENAI_API_BASE'] = "https://api.openai-hk.com/v1"# 设置 OpenAI API 密钥os.environ['OpenAI_API_KEY'] = 'hk-iwtb1e427'# 1.加载电商财报数据from llama_index.core import SimpleDirectoryReader# 读取 A 公司的财报数据A_docs = SimpleDirectoryReader( input_files=["电商A-Third Quarter 2023 Results.pdf"]).load_data# 读取 B 公司的财报数据B_docs = SimpleDirectoryReader( input_files=["电商B-Third Quarter 2023 Results.pdf"]).load_data

4.2 将财报文件的数据转换为向量数据

向量存储是增强生成（RAG）中检索的关键组成部分，因此在使用 LlamaIndex 创建几乎每个应用时，您将直接或间接地使用它们。

使用向量存储的最简单方法是加载一组文档并使用 VectorStoreIndex.from_documents(documents) 构建索引

当你使用 from_documents 时，你的文档会被分割成块并解析成 Node 对象，这些对象是对文本字符串的轻量抽象，用于跟踪元数据和关系

默认情况下，VectorStoreIndex 将所有内容存储在内存中

# 2. 从文档中创建索引from llama_index.core import VectorStoreIndexfrom llama_index.core import Settings# 创建自定义 OpenAI 客户端from llama_index.llms.openai import OpenAIllm = OpenAI(api_base=os.environ['OPENAI_API_BASE'])# 将创建的 OpenAI 客户端设置为默认的大模型Settings.llm = llm# 为 A 公司的文档创建索引A_index = VectorStoreIndex.from_documents(A_docs,show_progress=True)# 为 B 公司的文档创建索引B_index = VectorStoreIndex.from_documents(B_docs,show_progress=True)

4.3 构建查询引擎

我们为电商 A和电商 B各创建一个查询引擎，同时设置最高相似度返回的结果数目。这里设置 similarity top_k为 3，也就是抽取 3 个相似度最高的文本块。

查询引擎(Query engine)是一个通用接口，允许您对数据进行提问

查询引擎接受自然语言查询，并返回详细的回应。它可以基于一个或多个检索器构建的索引。可以组合多个查询引擎以实现更高级的能力

如果你想与数据进行对话（多次来回互动，而不是单一的问题和答案），可以使用聊天引擎（Chat Engine）

# 3. 创建查询引擎# 为 A 公司的索引创建查询引擎A_engine = A_index.as_query_engine(similarity_top_k=3)# 为 B 公司的索引创建查询引擎B_engine = B_index.as_query_engine(similarity_top_k=3)

4.4 构建查询工具

QueryEngine 工具封装现有的查询引擎，允许Agent对数据源执行复杂查询。这些工具与各种数据库和 API 集成，使Agent能够高效地检索和操作数据。

# 4. 配置查询工具from llama_index.core.tools import QueryEngineToolfrom llama_index.core.tools import ToolMetadata# 创建查询引擎工具列表query_engine_tools = [ QueryEngineTool( query_engine=A_engine, metadata=ToolMetadata( name="A_Finance", description=( "用于提供A公司的财务信息 " ), ), ), QueryEngineTool( query_engine=B_engine, metadata=ToolMetadata( name="B_Finance", description=( "用于提供B公司的财务信息 " ), ), ),]

4.5 创建 ReAct Agent

至此，一切准备工作就绪。查询引擎作为工具，大模型作为Agent的大脑，将它们分配给即将创建的 ReAct RAG Agent。

ReAct框架正是这个自我反思环节使用到的一个框架，用于指导大模型完成复杂任务的结构化思考和决策过程。

通过 ReAct 框架，Agent获得了动态决策能力。当遇到自己内部知识无法解决的问题时，Agent先搜索或调用工具，拓展自己的知识面。Agent还利用工具的灵活性，协调使用各种工具，在多个数据点之间进行切换，以获得最终的决策数据。Agent在执行每一步后会观察结果，并将新信息用于接下来的决策过程，这体现了Agent出色的学习能力与适应性。

# 5.创建 ReAct Agentfrom llama_index.core.agent import ReActAgent# 使用查询工具和大模型创建 ReAct Agentagent = ReActAgent.from_tools(query_engine_tools, llm=llm, verbose=True)

4.6 执行任务

这个 Agent 可以使用两种“工具”，分别用于查询电商 A 和电商 B 的财务信息。其次，和 Agent聊天，让它帮助我们进行财务分析。

# 6. 让 Agent 完成任务# 发送查询请求给 Agentresult = agent.chat("比较一下两个公司的销售额,用中文告诉我结果")# 打印结果print(result)

根据提供的信息，B公司在2023年第三季度的销售额为人民币242,031百万元（折合美元33,173百万元），较2022年同期的人民币221,849百万元增长了9%。而A公司在2023年第三季度的销售额为33亿美元，较2022年同期的32亿美元增长了4.9%。通过比较，可以看出B公司的销售额增长率更高，因此B公司的经营状况在这方面更好。