蚂蚁开源の野心勃勃的DB-GPT,融入NL2SQL、RAG、AI Agent,实操

360影视 国产动漫 2025-03-18 07:55 2

摘要:DB-GPT是由蚂蚁集团发起的开源AI原生数据应用开发框架(AI Native Data App Development framework with AWEL(Agentic Workflow Expression Language) and Agents)

DB-GPT是由蚂蚁集团发起的开源AI原生数据应用开发框架(AI Native Data App Development framework with AWEL(Agentic Workflow Expression Language) and Agents),旨在通过大语言模型(LLM)技术革新数据库交互方式,提升数据管理与分析的效率与安全性。项目于2024年9月发布新版本v0.6.0,并在“星辰智能社区”推动下快速发展,目前GitHub Star数已超1.7万,社区活跃用户近7,000人,贡献者达130人,覆盖蚂蚁、阿里、美团等科技公司及高校研究人员。

目的是构建大模型领域的基础设施,通过开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,解决大模型与数据库交互中的幻觉问题、数据隐私安全及开发复杂性,助力开发者高效构建AI原生数据应用。

智能体编排(AWEL 2.0):支持复杂任务流程的图形化编排,通过拖拽式界面简化多代理协作开发。图数据库集成:结合蚂蚁自研图数据库TuGraph,提升图构建与检索效率,在相同召回效果下,Token消耗降低50%。向量索引库VSAG:优化高维向量存储,内存消耗仅为HNSW索引的1/10,显著降低部署成本,支持百亿级数据量业务。AgentMemory:支持感知记忆、短期/长期记忆存储,增强智能体上下文理解能力。多模型管理(SMMF):兼容数十种开源与商业模型(如Qwen、ChatGLM、Llama等),支持私有化部署与自动化微调。Text2SQL优化:通过微调框架提升SQL生成准确率,在Spider数据集上表现优于原模型。支持本地化部署,数据全程私有化处理,结合代理脱敏技术,避免敏感信息泄露,尤其适合金融、医疗等高隐私需求场景。多模态与跨领域扩展:结合图像、语音等多模态数据,拓展数据库交互的适用场景。智能体协作增强:通过更复杂的Multi-Agents框架,实现跨系统任务自动化,如金融风控、供应链优化等。企业级应用落地:依托蚂蚁集团资源,推动DB-GPT在金融、电商等领域的深度应用,探索商业化路径。开发者生态完善:持续优化文档与工具链,吸引更多贡献者,目标成为AI原生数据应用开发的标准框架。进一步压缩模型推理资源消耗,支持边缘设备部署,扩大适用范围。结合量子化技术优化VSAG,提升向量检索效率,支撑千亿级数据规模。

github官网上有详细的安装部署介绍,有多种部署模式,这里介绍最简单的Docker-compose模式:

特别注意事项:

1、缺少text2vec-base-chinese模型问题

傻傻按官方介绍安装是运行不起来的,docker desktop后台可以看到报错信息,缺少text2vec-base-chinese模型

需要手动下载:https://huggingface.co/shibing624/text2vec-base-chinese

下载以下必要文件: config.json pytorch_model.bin special_tokens_map.json tokenizer_config.json tokenizer.json vocab.txt

然后放置在电脑上特定目录,比如D:/tools/models,然后在docker-compose.yml文件中制定models路径

2、数据库切换问题

虽然 MySQL 数据库中已经创建了 gpts_app 表,但是应用程序仍然在尝试使用 SQLite 数据库。这是因为环境配置的问题。

3、默认大模型加载需要KEY问题

默认加载的是硅基流动的配置dbgpt-proxy-siliconflow-mysql.toml

需要输入正确的 SILICONFLOW_API_KEY。 访问 SiliconFlow 官网获取 API Key 将获取到的 API Key 替换到 .env 文件中的 your_api_key_here

4、切换本地大模型,如DeepSeek的问题

举例如ollama方式,ip地址需要从127.0.0.1切换为下图所示:

5、连接mysql数据问题

将数据库主机从 localhost 改为 db(Docker 容器名称)

chatdata提问(基于示例数据库case_2_ecom):

提问:不同国家的顾客购买能力对比分析

生成质量还是比较nice的!

注意事项:

DB-GPT 的名字在开源社区中并非独一无二,清华大学数据库组也有一个同名项目https://github.com/TsinghuaDatabaseGroup/DB-GPT,专注于数据库诊断系统(D-Bot)。

来源:大狗zg一点号

相关推荐