专业接各种小工具软件及爬虫软件开发，联系Q：2391047879

Python小工具资源库 > 小工具 >

简易Excel数据清洗工具（pandas实现）

发布时间: 2025-04-03 19:51:02 浏览量: 本文共包含1051个文字，预计阅读时间3分钟

在日常数据处理中，Excel表格的清洗工作常让人头疼：缺失值、重复项、格式混乱等问题频发。传统手动操作效率低且易出错，而Python的pandas库提供了一套灵活的数据处理方案。本文将介绍如何基于pandas快速构建一个轻量级Excel数据清洗工具，帮助用户自动化完成常见清洗任务。

功能设计：覆盖常见清洗场景

工具的核心功能围绕Excel表格的典型问题展开：

1. 缺失值处理

通过`fillna`函数填充默认值，或结合业务逻辑按列设置填充策略。例如，数值列用均值填充，文本列标记为"Unknown"。

```python

df['销售额'].fillna(df['销售额'].mean, inplace=True)

df['客户名称'].fillna('Unknown', inplace=True)

```

2. 重复值去重

简易Excel数据清洗工具（pandas实现）

利用`drop_duplicates`保留首个或末个重复记录，支持按关键字段（如订单ID）精准去重。

```python

df.drop_duplicates(subset=['订单ID'], keep='first', inplace=True)

```

3. 数据类型转换

自动检测日期、数值等格式错误，如将文本型数字转为浮点数：

```python

df['单价'] = pd.to_numeric(df['单价'], errors='coerce')

```

4. 异常值过滤

通过分位数或阈值剔除不合理数据。例如，删除库存量超过3倍标准差的数据：

```python

upper_limit = df['库存量'].mean + 3df['库存量'].std

df = df[df['库存量'] <= upper_limit]

```

5. 文本清洗

正则表达式清理特殊字符，统一英文大小写：

```python

df['地址'] = df['地址'].str.replace(r'[^ws]', '', regex=True)

df['产品名'] = df['产品名'].str.title

```

6. 格式标准化

日期字段统一为`YYYY-MM-DD`格式，并拆分年月日字段：

```python

df['订单日期'] = pd.to_datetime(df['订单日期']).dt.strftime('%Y-%m-%d')

df['年份'] = pd.to_datetime(df['订单日期']).dt.year

```

操作指南：三步完成清洗

1. 配置输入输出路径

在脚本中指定待处理的Excel文件路径及保存路径：

```python

input_path = '原始数据.xlsx'

output_path = '清洗后数据.xlsx'

```

2. 按需调用清洗函数

根据数据问题组合功能模块。例如，先处理缺失值再过滤异常：

```python

clean_missing_data(df)

filter_outliers(df)

```

3. 执行与验证

运行脚本后，用`df.head`快速预览结果，或导出Excel人工抽检。

实战案例：销售数据清洗

某企业销售表存在以下问题：

500行数据中有12%的缺失值

商品名称包含乱码（如"咖啡_%杯"）

订单日期格式混杂（"2023/1/5"和"05-Jan-23"并存）

通过调用工具脚本，20秒内完成以下处理：

缺失的"客户ID"填充为"未登记"

清理商品名称中的特殊符号

统一日期格式并提取季度字段

最终输出数据可直接用于BI分析，效率提升约90%。

注意事项

1. 原始数据备份：清洗前建议复制原始文件，避免误操作覆盖数据

2. 分步验证：复杂清洗任务需逐功能验证结果，防止连锁错误

3. 记录清洗日志：输出文件保留处理记录（如删除行数、修改字段），便于追溯