摘要:作为基层统计工作者,我在使用DeepSeek进行数据清洗的过程中总结出了一套完整的工作流程。本文
趣话统计:
如何借助DeepSeek提升统计数据清洗效率:从代码生成到执行的完整指南
吉林市统计局 张 洋
作为基层统计工作者,我在使用DeepSeek进行数据清洗的过程中总结出了一套完整的工作流程。本文
将详细介绍从获取代码到最终执行的每个步骤,帮助您快速掌握这一高效工具。
一、数据清洗的痛点与挑战
1. 多源异构数据:不同部门报送的Excel文件结构各异
2. 字段不规范:同一信息在不同文件中的字段名不一致
3. 内容错误:包括格式错误、逻辑矛盾、缺失值等
4. 单位混乱:特别是货币单位存在元、千元、万元混用
以某次普查中的统计报表为例:
七十几个Excel文件,二十几种不同字段命名
开业日期有6种不同格式
30%的联系电话缺失区号
15%的收入数据单位不统一
传统手工处理方式需要多个人在5-7个工作日才能完成,且错误率很高,这促使我寻求更高效的解决方案。现在我们可以借用Deepseek帮我们高效的完成此项工作。
二、完整工作流程概述
1. 向DeepSeek提出精准需求
2. 获取并理解生成的代码
3. 安装必要的Python包
4. 创建并配置Python脚本
5. 执行与调试
6. 验证结果
三、详细操作步骤
1. 向DeepSeek提出精准需求
最佳实践示例:
输出:1. 清洗后的统一数据表(含数据来源信息)2. 错误数据表(含具体错误原因)3. 数据质量报告请提供完整代码,并添加详细注释"
2. 获取并保存生成的代码
DeepSeek会返回格式良好的代码,您需要:
1. 全选代码(Ctrl+A或Cmd+A)
2. 复制代码(Ctrl+C或Cmd+C)
3. 新建文本文件,粘贴代码
(Ctrl+V或Cmd+V)
4. 保存为 data_cleaning.py
3. 安装必要的Python包
在终端或命令提示符中执行以下命令:
4. 项目目录结构准备
建议按以下结构组织您的项目:
5. 代码执行与调试
首次执行准备
执行脚本
常见问题处理
1. 包安装失败:
尝试使用清华镜像源:pip install -i https://pypi.tuna.tsinghua.edu.cn/simple包名
2. 文件编码问题:
3. 路径问题:
确保使用相对路径 ./input/ 或绝对路径Windows用户注意反斜杠转义:r'C:\path\to\file'
6. 结果验证与优化
执行完成后,检查 output/ 目录下的文件:
1. 清洗成功数据.xlsx:确认数据格式是否符合预期
2. 错误数据.xlsx:检查错误分类是否合理
3. 质量报告.docx:查看数据质量概况
如需优化,可以:
1. 将执行结果反馈给DeepSeek请求改进
2. 调整后再次执行测试
四、完整示例:从需求到执行
1. 典型工作会话记录
我的提问:
"我需要处理企业统计数据,具体要求如下:
输入:./input/下的多个Exce
对'开业日期'字段统一格式为YYYY-MM
输出到./output/cleaned_data.xlsx
请给出完整代码,并添加异常处理"
请给出完整的python语言代码
DeepSeek回复:
ifall_data: result = pd.concat(all_data)result.to_excel(output_file, index= False) print( f"结果已保存至 {output_file}" ) else: print( "未处理任何数据") defparse_date( date_str): """解析多种日期格式"""try: dt = pd.to_datetime( str(date_str)) returndt.strftime( '%Y-%m') except: returnNonedefis_old_enterprise( date_str): """判断是否经营超30年"""ifpd.isna(date_str): returnFalsetry: dt = datetime.strptime(date_str, '%Y-%m') return(datetime.now - dt).days > 30* 365except: returnFalseif__name__ == "__main__": clean_dates( './input', './output/cleaned_data.xlsx')
2. 实际执行过程演示
步骤1:创建项目结构
企业名称开业时间A公司2020-05-01B公司1990年5月C公司2023/05/01步骤4:执行脚本
步骤5:检查输出output/cleaned_data.xlsx
企业名称开业日期是否老企业源文件A公司2020-05Falsetest.xlsxB公司1990-05Truetest.xlsxC公司2023-05Truetest.xlsx五、高效使用DeepSeek的技巧
1. 分步提问:将复杂需求拆解为多个简单问题
先解决数据读取问
再处理字段清洗
先解决数据读取问
再处理字段清洗
最后处理输出格式
最后处理输出格式
2. 提供示例:给出输入数据和期望输出的样例
输入示例:
| 企业名称 | 注册日期 |
|||
| A公司 | 2020年5月 |
期望输出:
| 企业名称 | 开业日期 |
|||
| A公司 | 2020-05 |
3. 要求解释:让DeepSeek说明代码逻辑
"请解释这段代码的工作原理:"
4. 迭代优化:基于执行结果持续改进
"当前代码处理'2023.05.01'格式失败,请增强日期解析功能"
六、总结与建议
通过本文介绍的方法,您已经掌握了:
1. 如何向DeepSeek提出精准的技术需求
2. 从获取代码到执行的完整流程
3. 常见问题的解决方法
4. 提高工作效率的实用技巧
给初学者的建议:
1. 从简单任务开始,逐步增加复杂度
2. 保持代码版本管理(如使用Git)
3. 建立自己的代码片段库
4. 定期回顾和优化清洗流程
随着实践的深入,您将能够:
处理更复杂的数据清洗场景
构建自动化清洗流水线
开发自定义的数据质量检查规则
开发自定义的数据质量检查规则
#DeepSeek #Python数据分析 #数据清洗 #办公自动化 #智能编程
采编者: 张 洋
初 审: 杜 刚
复 审: 张 洋
终 审: 龙 杰
来源:大东北生活资讯