0~1开发AI Agent智能体:通过Llamalndex实现检索增强生成(RAG)

360影视 2025-01-10 10:11 2

摘要:通过一个具体的业务场景,使用Llamalndex的思路来实现检索增强生成(RAG),通过RAG查看商品的供应状况和销售趋势,同时对两家公司的业绩做出对比

通过一个具体的业务场景,使用Llamalndex的思路来实现检索增强生成(RAG),通过RAG查看商品的供应状况和销售趋势,同时对两家公司的业绩做出对比

1. 业务需求2. 什么是RAG3. Agent+RAG4. 代码实现4.1 加载财报文件4.2 将财报文件的数据转换为向量数据4.3 构建查询引擎4.4 构建查询工具4.5 创建 ReAct Agent4.6 执行任务5.执行结果

智能体是一种能够感知环境、做出决策并采取行动的系统。这些系统能够执行被动的任务,也能够主动寻找解决问题的方法,适应环境的变化,并在没有人类直接干预的情况下做出决策。

现在有一个生意很好的鲜花店

鲜花店的合作伙伴是东南亚的两家鲜花商品经销商(电商),它们均为上市公司。每个月需要对这两家公司的财务报表进行分析,目的是查看鲜花商品的供应状况和销售趋势,同时对这两家公司的业绩进行比较。

这个工作需要耗费团队的大量人力。有时需要外聘商业分析师来完成。

现在通过Llamalndex的RAGAgent组件来帮助我们做到这一点。

Llamalndex和LangChain框架同时具有 Conversational Agent(或称为Conversational Retrieval Agent)的概念。顾名思义,这种 Agent 就是具有检索功能的智能对话式 Agent。

这个概念结合了几个关键趋势 - RAG、聊天界面以及先进的Agent认知框架,以提供更优的用户对话体验。通过Llamalndex提供的 ReAct RAGAgent,用户可以很轻松地完成信息检索、内外部知识整合以及文本生成工作。

RAG,即检索增强生成(Retrieval-Augmented Generation),是一种结合了信息检索(Retrieval)和文本生成(Generation)的人工智能技术。

RAG是生成式AI领域的重大进展,它通过整合外部知识源来增强传统的大语言模型 (LLM)。这种方法拓宽了人工智能的视野,使其能够访问和利用除初始训练数据之外的大量信息。可以将 RAG 想象为一位学者,除了拥有自己的知识外,还可以即时访问到一座全面的图书馆。

RAG的核心在于结合检索与生成两个步骤,利用检索结果来指导生成过程,从而提高模型的准确性和多样性。

RAG架构

微软公司在论文《RAG vs Fine-tuning: Pipelines, Tradeoffs, and a Case Study on Agriculture》中专门给出了在基于农业领域的一个应用案例中 RAG 与微调的评估结果

该论文指出,在这个农业问答案例研究中,回答的准确率方面,微调大于 RAG,但差异并不明显。准确率最高的应用方法是“RAG+微调”,但相应付出的成本也大得多。考虑到 RAG的应用成本较低,在成本有限的情况下,建议选择RAG作为该问答应用的解决方案。

论文:https://arxiv.org/abs/2401.08406

Agent是一个能够自主操作和做出决策的系统。RAG当然可以作为Agent的技术架构的一个重要部分。

包含RAG功能的Agent可以更高效地处理用户的查询提供有用和准确的信息。

这类Agent通过检索(在知识库中搜索信息)和生成(利用大模型来生成回答)处理复杂的用户需求。它不仅能回答简单的问题,而且能处理复杂且更具探索性的查询。

4.1 加载财报文件

SimpleDirectoryReader 是将数据从本地文件加载到 LlamaIndex 的最简单方法

默认情况下, SimpleDirectoryReader 会尝试读取它找到的任何文件,将它们全部视为文本。除了普通文本外,它还明确支持以下文件类型,这些文件类型是根据文件扩展名自动检测的:

.csv - 逗号分隔值.docx - Microsoft Word.epub - EPUB 电子书格式.hwp - Hangul Word Processor.ipynb - Jupyter Notebook.jpeg, .jpg - JPEG 图片.mbox - MBOX 电子邮件档案.md - Markdown.mp3, .mp4 - 音频和视频.pdf - PDF文档格式.png - Portable Network Graphics.ppt, .pptm, .pptx - Microsoft PowerPoint

如果文件类型是 JSON,建议使用 JSON 加载器

import os# OpenAI 环境变量# 设置 OpenAI API 的基础 URLos.environ['OPENAI_API_BASE'] = "https://api.openai-hk.com/v1"# 设置 OpenAI API 密钥os.environ['OpenAI_API_KEY'] = 'hk-iwtb1e427'# 1.加载电商财报数据from llama_index.core import SimpleDirectoryReader# 读取 A 公司的财报数据A_docs = SimpleDirectoryReader( input_files=["电商A-Third Quarter 2023 Results.pdf"]).load_data# 读取 B 公司的财报数据B_docs = SimpleDirectoryReader( input_files=["电商B-Third Quarter 2023 Results.pdf"]).load_data

4.2 将财报文件的数据转换为向量数据

向量存储是增强生成(RAG)中检索的关键组成部分,因此在使用 LlamaIndex 创建几乎每个应用时,您将直接或间接地使用它们。

使用向量存储的最简单方法是加载一组文档并使用 VectorStoreIndex.from_documents(documents) 构建索引

当你使用 from_documents 时,你的文档会被分割成块并解析成 Node 对象,这些对象是对文本字符串的轻量抽象,用于跟踪元数据和关系

默认情况下,VectorStoreIndex 将所有内容存储在内存中

# 2. 从文档中创建索引from llama_index.core import VectorStoreIndexfrom llama_index.core import Settings# 创建自定义 OpenAI 客户端from llama_index.llms.openai import OpenAIllm = OpenAI(api_base=os.environ['OPENAI_API_BASE'])# 将创建的 OpenAI 客户端设置为默认的大模型Settings.llm = llm# 为 A 公司的文档创建索引A_index = VectorStoreIndex.from_documents(A_docs,show_progress=True)# 为 B 公司的文档创建索引B_index = VectorStoreIndex.from_documents(B_docs,show_progress=True)

4.3 构建查询引擎

我们为电商 A和电商 B各创建一个查询引擎,同时设置最高相似度返回的结果数目。这里设置 similarity top_k为 3,也就是抽取 3 个相似度最高的文本块。

查询引擎(Query engine)是一个通用接口,允许您对数据进行提问

查询引擎接受自然语言查询,并返回详细的回应。它可以基于一个或多个检索器构建的索引。可以组合多个查询引擎以实现更高级的能力

如果你想与数据进行对话(多次来回互动,而不是单一的问题和答案),可以使用聊天引擎(Chat Engine)

# 3. 创建查询引擎# 为 A 公司的索引创建查询引擎A_engine = A_index.as_query_engine(similarity_top_k=3)# 为 B 公司的索引创建查询引擎B_engine = B_index.as_query_engine(similarity_top_k=3)

4.4 构建查询工具

QueryEngine 工具封装现有的查询引擎,允许Agent对数据源执行复杂查询。这些工具与各种数据库和 API 集成,使Agent能够高效地检索和操作数据。

# 4. 配置查询工具from llama_index.core.tools import QueryEngineToolfrom llama_index.core.tools import ToolMetadata# 创建查询引擎工具列表query_engine_tools = [ QueryEngineTool( query_engine=A_engine, metadata=ToolMetadata( name="A_Finance", description=( "用于提供A公司的财务信息 " ), ), ), QueryEngineTool( query_engine=B_engine, metadata=ToolMetadata( name="B_Finance", description=( "用于提供B公司的财务信息 " ), ), ),]

4.5 创建 ReAct Agent

至此,一切准备工作就绪。查询引擎作为工具,大模型作为Agent的大脑,将它们分配给即将创建的 ReAct RAG Agent。

ReAct框架正是这个自我反思环节使用到的一个框架,用于指导大模型完成复杂任务的结构化思考和决策过程。

通过 ReAct 框架,Agent获得了动态决策能力。当遇到自己内部知识无法解决的问题时,Agent先搜索或调用工具,拓展自己的知识面。Agent还利用工具的灵活性,协调使用各种工具,在多个数据点之间进行切换,以获得最终的决策数据。Agent在执行每一步后会观察结果,并将新信息用于接下来的决策过程,这体现了Agent出色的学习能力与适应性。

# 5.创建 ReAct Agentfrom llama_index.core.agent import ReActAgent# 使用查询工具和大模型创建 ReAct Agentagent = ReActAgent.from_tools(query_engine_tools, llm=llm, verbose=True)

4.6 执行任务

这个 Agent 可以使用两种“工具”,分别用于查询电商 A 和电商 B 的财务信息。 其次,和 Agent聊天,让它帮助我们进行财务分析。

# 6. 让 Agent 完成任务# 发送查询请求给 Agentresult = agent.chat("比较一下两个公司的销售额,用中文告诉我结果")# 打印结果print(result)

根据提供的信息,B公司在2023年第三季度的销售额为人民币242,031百万元(折合美元33,173百万元),较2022年同期的人民币221,849百万元增长了9%。而A公司在2023年第三季度的销售额为33亿美元,较2022年同期的32亿美元增长了4.9%。通过比较,可以看出B公司的销售额增长率更高,因此B公司的经营状况在这方面更好。

执行过程

Llamalndex提供了一些出色的组件来实现RAG。这些组件可以作为构建基于Agent的应用的核心工具。一方面,Llamalndex中的某些组件具有“Agent式”自动化决策功能,以帮助特定用例来处理数据;另一方面,Llamalndex也可以作为另一个Agent 框架中的核心工具。

本文,完。觉得本篇文章不错的,记得随手点个赞、收藏和转发三连,感谢感谢~如果想第一时间收到推送,请记得关注我们⭐~

来源:AIGC研究社

相关推荐