摘要:在数据分析领域,效率和准确性是至关重要的。随着AI技术的发展,数据分析工作正在发生翻天覆地的变化。本文将介绍如何通过结合DeepSeek和PandasAI,将数据分析工作量从半小时缩减到一句话的指令,极大地提升工作效率。
在数据分析领域,效率和准确性是至关重要的。随着AI技术的发展,数据分析工作正在发生翻天覆地的变化。本文将介绍如何通过结合DeepSeek和PandasAI,将数据分析工作量从半小时缩减到一句话的指令,极大地提升工作效率。
作为从业10年的数据分析师,饼干哥哥目前在一家上市公司做数据分析主管,给公司从0到1搭建数据库、建立起了数据分析体系。
随着业务发展、基建完善,数据分析的需求也变得非常多了。每天工作量都很大,如果还像以前那样,「老老实实」一行一行代码的敲,估计每天加班都干不完。
幸好AI来了,我工作流中大量使用AI解决问题。
数据分析一定离不开Python的Pandas模块,具体可以看我之前的一些介绍:
「Python」Pandas 如何解决业务问题「数据分析流程详解」
今天要分享的是Pandas的AI版本——PandasAI,再加上DeepSeek前段时间新出的v3 0324版,现在已经可以很稳定的帮助我们输出数据分析结果了。
什么是PandasAIPandaAI is a Python platform that makes it easy to ask questions to your data in natural language. It helps non-technical users to interact with their data in a more natural way, and it helps technical users to save time, and effort when working with data.
说白了,就是能在Python中,通过自然语言向Pandas提需求,把需求的结果直接给到我们,帮助我们省去中间复杂的敲代码过程。
具体可见https://github.com/sinaptik-ai/pandas-ai
接下来,带大家实战看看这个工具怎么用?
安装 PandasAI用pip常规安装:
pip install “pandasai>=3.0.0b2″# 使用ChatGPT官方APIpip install pandasai-openai# 使用DeepSeek等其他AIpip install pandasai-litellm
小技巧:在 Jupyter 里,直接在命令前加上感叹号! 就能调用命令行来安装了。
安装完后,有两种方式调用 AI
一种是直接用 PandasAI 内置的大模型,是它自己开发的,可以到官网去注册申请。效果不知道,好像是有一定 的免费额度,感兴趣可以自己去注册试下 https://app.pandabi.ai/
第二种,就是用第三方的 AI,例如 DeepSeek,就需要按图中的参数去做配置,关键的地方在于 model的配置,因为不同的渠道可能 AI 的配置方式是不同的,所以需要先指定模型的协议类型,正常就是openai,也就是说,要在正常模型前加上openai/才可以
ok,至此我们就完成了PandasAI的安装与配置。
用 PandasAI做数据分析接下来进入业务分析实战,看看它的效果如何。
首先,我这里用到的是我之前做 618 电商分析直播分享时候的数据集。
大概长这样:就是每天的订单数据。
首先,导入数据。
很简单,但也有坑: 数据集要求是 1. 英文无空格;2. csv文件,我试了xlsx会报错
导入后,就可以直接调用.chat来开始用 AI 来做分析了。
首先,先看简单的让 AI 给我做一份描述性统计。
如上图,一段时间后,就能看到结果了。
这里我们发现,返回的结果是DataFrameResponse,是 PandasAI 自己设计的数据类型。
再仔细看,这是个元组,里面有两个属性type说这是 dataframe,value就是具体的内容。
所以我们可以通过.value的形式把 dataframe 提取出来,如下图所示。
对AI结果追问
以上就是最简单也是最常用的 AI 用法。
接着,按照基操,我们往往需要根据结果进行追问。但不能直接对结果进行 AI 提问,否则会报错。
正确的打开方式是,重新用pai.DataFrame把表装进去再.chat
如下图所示。
疑问?分析的结果到底对不对?
我们可以看到 AI 的分析是一个黑箱过程,到底给的结果对不对呢?接下来我们要验证一下。
同时,也把分析的难度再做升级:对订单按年统计数据。
下图,就一句话让 AI 计算的结果。
我们看下,不用 AI 传统,我们自己是要怎么计算
一顿操作后,惊讶发现,数据结果跟 AI 做的是一样的。
对比下来,我们自己操作就复杂了很多,明显不符合新时代的玩法,所以其实这段代码也是我让 DeepSeek 生成的,这样就能对关键的部分做二次验证。
由此可以看到,AI在数据分析方面的提效已经非常成熟了。
做可视化图表
实际上PandasAI还能做图表📈,我们看看是怎么个事。
还是用前面AI返回的每年统计数据的表格,让它做一个销售趋势图。
它会在本地新建一个文件夹,存它做好的图
长这样,明显就是用matplotlib做的,效果还行吧。
多表交叉分析
以上是很基础的分析场景,也就是说真实业务中并没有这么简单。
由于数据量的关系,很多时候,数据是分散在多个表格的,也就是需要做多表连接之后再分析。
幸好,PandasAI也支持。
我模拟了最常见的 产品表、用户表、订单表数据,给了一个需求按城市统计,每个城市的销售额是多少?
这样就需要把三个表连起来分析了。
结果:
完整体验下来,PandasAI的使用还是很丝滑的,非常推荐大家去玩一下。
来源:人人都是产品经理