速看！掌握这6个Python技巧，轻松拿捏百万级Excel数据

摘要：掌握Python这6大核心技能，复杂的数据处理工作将变得轻松简单，让你在同事中脱颖而出，成为领导眼中的效率达人！现在就带你深入了解这些实用技巧，解锁高效办公新方式！

还在为堆积如山的Excel数据头疼不已？别再让低效的手动操作拖慢你的工作进度！

掌握Python这6大核心技能，复杂的数据处理工作将变得轻松简单，让你在同事中脱颖而出，成为领导眼中的效率达人！现在就带你深入了解这些实用技巧，解锁高效办公新方式！

❶ 快速提取指定数据

在实际工作中，我们经常会遇到包含大量数据的Excel文件，但很多时候只需要其中部分行列的数据。比如在一份销售记录表格中，仅需分析特定时间段、特定产品类别的数据。此时，Pandas库就能大显身手。

import pandas as pd

# 读取Excel文件

df = pd.read_excel('sales_record.xlsx')

# 提取第2到第5行，第1列和第3列的数据

# 这里的iloc方法基于整数位置进行索引，Python索引从0开始

subset_df = df.iloc[1:5, [0, 2]]

print(subset_df)

详细解析：

• pd.read_excel('sales_record.xlsx')：这行代码用于读取指定路径下的Excel文件，并将其转换为Pandas的DataFrame数据结构，方便后续处理。

• df.iloc[1:5, [0, 2]]：iloc是Pandas用于基于整数位置进行索引的方法。1:5表示选取从索引为1（即第2行）到索引为4（即第5行）的数据；[0, 2]表示选取索引为0（第1列）和索引为2（第3列）的数据。

应用场景举例：某电商运营人员需要分析某季度内某几款热销产品的销售数据，通过上述代码，可快速从庞大的销售数据表中提取所需信息，无需手动逐行逐列筛选，节省大量时间。

❷ 高效处理异常数据

在实际收集的数据中，常常会存在异常值，这些异常值会严重影响数据分析结果的准确性。例如在员工绩效考核数据中，可能会出现因录入错误导致的极端分数。借助Pandas和numpy库，我们可以科学地识别并处理这些异常值。

import pandas as pd

import numpy as np

# 读取包含异常值的Excel文件

df = pd.read_excel('performance_data.xlsx')

# 假设要处理的是'绩效得分'列的数据

data = df['绩效得分']

# 计算四分位数

Q1 = np.percentile(data, 25) # 第25百分位数，即下四分位数

Q3 = np.percentile(data, 75) # 第75百分位数，即上四分位数

IQR = Q3 - Q1 # 计算四分位距

# 定义异常值边界

lower_bound = Q1 - 1.5 * IQR

upper_bound = Q3 + 1.5 * IQR

# 处理异常值，将超出边界的异常值替换为边界值

df['绩效得分'] = np.where(data upper_bound, upper_bound, data))

print(df)

详细解析：

• np.percentile(data, 25)和np.percentile(data, 75)：通过Numpy的percentile函数计算数据的第25百分位数（下四分位数Q1）和第75百分位数（上四分位数Q3）。

• IQR = Q3 - Q1：计算四分位距（IQR），它是衡量数据离散程度的一个指标，常用于识别异常值。

• np.where：这是Numpy的条件函数，根据条件判断，将小于lower_bound或大于upper_bound的数据替换为对应的边界值，从而实现异常值的处理。

实际案例：某公司HR在分析员工绩效数据时，使用上述方法发现并修正了因误录入导致的异常高分和低分，使得绩效分析结果更能真实反映员工的工作表现。

❸ 分组聚合分析

在处理业务数据时，我们常常需要按照不同维度对数据进行分组，并计算各类聚合指标。例如在销售数据分析中，想了解不同地区、不同时间段的销售总额、平均销售量等。Pandas的groupby和agg方法能轻松实现这一需求。

import pandas as pd

# 读取销售数据Excel文件

sales_df = pd.read_excel('sales_data.xlsx')

# 按'地区'分组，计算每个地区的销售总额和平均销售量

grouped = sales_df.groupby('地区').agg({'销售额':'sum', '销售量':'mean'}).reset_index

print(grouped)

详细解析：

• sales_df.groupby('地区')：根据地区这一列对数据进行分组，即将同一地区的数据归为一组。

• .agg({'销售额':'sum', '销售量':'mean'})：agg是聚合函数，对分组后的数据进行聚合操作。这里表示对销售额列计算总和，对销售量列计算平均值。

• .reset_index：分组聚合后的结果索引会发生变化，使用该方法重新设置索引，使结果成为一个规整的DataFrame，便于后续查看和分析。

应用场景：某连锁企业的市场分析师，通过上述代码，快速得到各地区门店的销售汇总数据，为制定区域营销策略提供有力依据。

❹ 多表数据合并

在实际工作中，数据往往分散在多个Excel表格中，需要将它们整合起来进行综合分析。比如将员工基本信息表和员工考勤表合并，以全面了解员工情况。Pandas的merge函数可以实现不同表格之间的数据关联。

import pandas as pd

# 读取员工信息表

employees = pd.read_excel('employees.xlsx')

# 读取考勤表

attendance = pd.read_excel('attendance.xlsx')

# 根据'员工ID'列进行内连接

merged_df = pd.merge(employees, attendance, on='员工ID', how='inner')

print(merged_df)

详细解析：

• pd.merge：该函数用于合并两个DataFrame。

• on='员工ID'：指定用于连接两个表格的列，即通过员工ID来匹配两个表格中的数据。

• how='inner'：表示内连接方式，只保留两个表格中在连接列上都存在的行，即只有同时在员工信息表和考勤表中都有记录的员工数据才会被保留在合并结果中。

实际应用：某公司人力资源部门将员工档案表和薪资表通过上述方法合并，方便进行员工薪酬福利的综合分析和管理。

数据透视表是数据分析的重要工具，能快速对数据进行汇总和分析。在Python中，使用Pandas的pivot_table函数可以轻松创建数据透视表。

import pandas as pd

# 读取销售数据Excel文件

sales_df = pd.read_excel('sales_data.xlsx')

# 创建数据透视表，按'产品类别'和'销售月份'统计销售总额

pivot_table = pd.pivot_table(sales_df, values='销售额', index=['产品类别'], columns=['销售月份'], aggfunc='sum', fill_value=0)

print(pivot_table)

详细解析：

• pd.pivot_table：用于创建数据透视表。

• values='销售额'：指定要进行汇总计算的列，这里是对销售额列进行操作。

• index=['产品类别']：将产品类别作为行索引，即数据透视表的行标签。

• columns=['销售月份']：将销售月份作为列索引，即数据透视表的列标签。

• aggfunc='sum'：指定聚合函数，这里表示对销售额进行求和计算。

• fill_value=0：将数据透视表中的缺失值填充为0，使表格数据更完整。

应用场景：某零售企业的销售主管，通过创建数据透视表，快速了解不同产品在各月份的销售情况，以便及时调整销售策略。

❻ 定制美化报表

处理完数据后，将结果以美观、规范的格式写入Excel文件同样重要。借助Pandas和openpyxl（ExcelWriter内部支持），我们可以对生成的Excel表格进行格式设置。

import pandas as pd

# 创建一个示例DataFrame

data = {'指标1': [1, 2, 3], '指标2': [4, 5, 6]}

df = pd.DataFrame(data)

# 将DataFrame写入Excel文件

with pd.ExcelWriter('output.xlsx') as writer:

df.to_excel(writer, sheet_name='Sheet1', index=False)

# 获取工作簿和工作表对象

workbook = writer.book

worksheet = writer.sheets['Sheet1']

# 设置列宽

worksheet.set_column('A:B', 15)

# 设置标题格式

header_format = workbook.add_format({'bold': True, 'text_wrap': True, 'valign': 'vcenter', 'fg_color': '#D7E4BC', 'border': 1})

for col_num, value in enumerate(df.columns.values):

worksheet.write(0, col_num, value, header_format)

详细解析：

• with pd.ExcelWriter('output.xlsx') as writer:：使用上下文管理器创建一个ExcelWriter对象，用于将数据写入Excel文件。

• df.to_excel(writer, sheet_name='Sheet1', index=False)：将DataFrame数据写入Excel文件的指定工作表，并设置不显示行索引。

• worksheet.set_column('A:B', 15)：设置A列到B列的列宽为15个字符宽度。

• workbook.add_format(...)：创建一个格式对象，用于设置字体加粗、自动换行、垂直居中、背景色、边框等格式。

• worksheet.write(0, col_num, value, header_format)：将列标题写入Excel表格，并应用设置好的格式。

实际效果：生成的Excel报表不仅数据准确，而且格式美观专业，无论是向上级汇报还是与同事分享，都能给人留下良好印象。

现在就打开电脑，动手实践这些技能吧！将Python应用到Excel数据处理中，你会发现工作效率得到显著提升，复杂的数据处理任务也能轻松应对。

持续关注，后续将为你带来更多实用的办公技能分享，助你在职场中不断进阶！

来源：绿叶菜

标签： python excel df 异常值四分位数

本文地址：https://news.43u.com.cn/a/1566672.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐