当前位置：首页 > Python > 正文

Pandas处理Excel文件完整教程 | Python数据分析指南

YuPin
Python
2025-08-15
1439

使用Pandas处理Excel文件 - 完整指南

在本教程中，您将学习如何使用Python的Pandas库高效处理Excel文件。无论您是数据分析师、财务人员还是开发人员，掌握Pandas处理Excel的技能都将极大提升您的工作效率。

1. 安装Pandas和相关库

在开始之前，请确保已安装Python环境。然后使用pip安装Pandas和Excel处理所需的库：

pip install pandas openpyxl xlrd

注意：

openpyxl：用于处理.xlsx格式文件
xlrd：用于处理旧版.xls格式文件

2. 导入Pandas库

在Python脚本或Jupyter Notebook中导入Pandas：

import pandas as pd

3. 读取Excel文件

Pandas提供了多种读取Excel文件的方法：

基本读取

# 读取整个Excel文件
df = pd.read_excel('sales_data.xlsx')

# 读取特定工作表
df = pd.read_excel('sales_data.xlsx', sheet_name='2023 Sales')

# 跳过前两行（如标题行）
df = pd.read_excel('sales_data.xlsx', skiprows=2)

# 只读取特定列
df = pd.read_excel('sales_data.xlsx', usecols=['Product', 'Quantity', 'Price'])

处理多个工作表

# 读取所有工作表
all_sheets = pd.read_excel('sales_data.xlsx', sheet_name=None)

# 访问特定工作表
q1_data = all_sheets['Q1 Sales']
q2_data = all_sheets['Q2 Sales']

4. 数据探索

读取数据后，使用以下方法进行初步探索：

查看数据

# 查看前5行
print(df.head())

# 查看后3行
print(df.tail(3))

# 随机查看3行
print(df.sample(3))

数据信息

# 数据概览
print(df.info())

# 统计描述
print(df.describe())

# 列名列表
print(df.columns.tolist())

# 形状（行数, 列数）
print(df.shape)

5. 数据清洗

数据清洗是数据分析的关键步骤：

处理缺失值

# 检查缺失值
print(df.isnull().sum())

# 删除包含缺失值的行
df_clean = df.dropna()

# 填充缺失值
df_filled = df.fillna(0)  # 用0填充
df_filled = df.fillna(df.mean())  # 用平均值填充

处理重复值

# 检查重复行
print(df.duplicated().sum())

# 删除重复行
df_unique = df.drop_duplicates()

数据类型转换

# 转换数据类型
df['Date'] = pd.to_datetime(df['Date'])
df['Price'] = df['Price'].astype(float)

# 重命名列
df = df.rename(columns={'old_name': 'new_name'})

6. 数据转换

对数据进行转换以便分析：

添加新列

# 计算总销售额
df['Total Sales'] = df['Quantity'] * df['Price']

# 添加分类列
df['Category'] = df['Product'].apply(lambda x: 'Electronics' if 'Phone' in x else 'Other')

# 提取日期部分
df['Year'] = df['Date'].dt.year
df['Month'] = df['Date'].dt.month

数据筛选

# 简单筛选
high_sales = df[df['Total Sales'] > 1000]

# 多条件筛选
q1_phones = df[(df['Category'] == 'Electronics') & 
               (df['Date'].dt.quarter == 1)]

# 使用query方法
q2_high_sales = df.query("Total Sales > 500 and Quarter == 'Q2'")

7. 数据分析

使用Pandas进行数据分析：

数据排序

# 单列排序
df_sorted = df.sort_values('Total Sales', ascending=False)

# 多列排序
df_sorted = df.sort_values(['Year', 'Total Sales'], ascending=[True, False])

分组聚合

# 基本分组
category_sales = df.groupby('Category')['Total Sales'].sum()

# 多重分组
monthly_sales = df.groupby(['Year', 'Month'])['Total Sales'].agg(['sum', 'mean', 'count'])

# 分组后重命名列
monthly_sales = monthly_sales.rename(columns={
    'sum': 'Total Sales',
    'mean': 'Average Sales',
    'count': 'Transaction Count'
})

数据透视表

# 创建透视表
pivot_table = pd.pivot_table(
    df, 
    values='Total Sales',
    index='Category',
    columns='Quarter',
    aggfunc='sum',
    fill_value=0
)

8. 导出到Excel

将处理后的数据导出到Excel文件：

基本导出

# 导出单个DataFrame
df.to_excel('processed_data.xlsx', index=False)

导出多个工作表

# 创建ExcelWriter对象
with pd.ExcelWriter('sales_report.xlsx') as writer:
    df.to_excel(writer, sheet_name='All Data', index=False)
    pivot_table.to_excel(writer, sheet_name='Sales by Category')
    monthly_sales.to_excel(writer, sheet_name='Monthly Summary')

设置Excel格式

# 导出时设置格式（需要openpyxl）
with pd.ExcelWriter('formatted_report.xlsx', engine='openpyxl') as writer:
    df.to_excel(writer, sheet_name='Data', index=False)
    
    # 获取工作表对象
    worksheet = writer.sheets['Data']
    
    # 设置列宽
    worksheet.column_dimensions['A'].width = 20
    worksheet.column_dimensions['B'].width = 15
    
    # 设置标题行样式
    for cell in worksheet['1:1']:
        cell.font = Font(bold=True)
        cell.fill = PatternFill(start_color='DDDDDD', end_color='DDDDDD', fill_type='solid')

总结

Pandas是处理Excel数据的强大工具，它提供了从数据读取、清洗、转换到分析的全套功能。通过本教程，您已经学习了：

如何安装Pandas及相关依赖
读取Excel文件（单表和多表）
数据探索和清洗技巧
数据转换和筛选方法
数据分析和聚合操作
导出数据到Excel文件

掌握这些技能后，您将能够高效处理各种Excel数据分析任务，大幅提升工作效率。

提示：在实际工作中，您可能会处理更大的数据集。在这种情况下，考虑使用chunksize参数分块读取数据，或者使用Dask等库处理超出内存的数据集。

本文由YuPin于2025-08-15发表在吾爱品聚，如有疑问，请联系我们。
本文链接：https://heyang.jltcw.com/20258216.html

Pandas处理Excel文件完整教程 | Python数据分析指南

使用Pandas处理Excel文件 - 完整指南

目录

1. 安装Pandas和相关库

2. 导入Pandas库

3. 读取Excel文件

基本读取

处理多个工作表

4. 数据探索

查看数据

数据信息

5. 数据清洗

处理缺失值

处理重复值

数据类型转换

6. 数据转换

添加新列

数据筛选

7. 数据分析

数据排序

分组聚合

数据透视表

8. 导出到Excel

基本导出

导出多个工作表

设置Excel格式

总结

英特尔亮出代工底牌：18A制程非x86芯片现场跑起4K游戏

Python for循环语句的10个实用应用场景 | 编程教程

发表评论取消回复

Pandas处理Excel文件完整教程 | Python数据分析指南

使用Pandas处理Excel文件 - 完整指南

目录

1. 安装Pandas和相关库

2. 导入Pandas库

3. 读取Excel文件

基本读取

处理多个工作表

4. 数据探索

查看数据

数据信息

5. 数据清洗

处理缺失值

处理重复值

数据类型转换

6. 数据转换

添加新列

数据筛选

7. 数据分析

数据排序

分组聚合

数据透视表

8. 导出到Excel

基本导出

导出多个工作表

设置Excel格式

总结

英特尔亮出代工底牌：18A制程非x86芯片现场跑起4K游戏

Python for循环语句的10个实用应用场景 | 编程教程

相关文章

发表评论取消回复