Pandas数据清洗与处理|极客笔记

Pandas数据清洗与处理

在进行数据分析和建模之前，数据清洗和处理是非常重要的一步。数据往往是杂乱无章的，可能包含缺失值、重复值、异常值等问题，需要经过清洗和处理才能得到准确的分析结果。本文将介绍常见的数据清洗与处理方法，包括缺失值处理、重复值处理、异常值处理等。

缺失值处理

缺失值是指数据中的一些属性没有被填充值。缺失值的存在会影响数据分析和建模的准确性，因此需要进行处理。常见的缺失值处理方法包括删除缺失值、填充缺失值、插值等。

删除缺失值

删除缺失值是最常见的缺失值处理方法之一。可以通过dropna()方法来删除包含缺失值的行或列。

import pandas as pd

# 创建包含缺失值的DataFrame
data = {'A': [1, 2, None, 4],
        'B': [5, None, 7, 8]}
df = pd.DataFrame(data)

# 删除包含缺失值的行
cleaned_df = df.dropna()
print(cleaned_df)

运行结果：

     A    B
0  1.0  5.0
3  4.0  8.0

填充缺失值

除了删除缺失值外，还可以通过填充缺失值的方式来处理缺失值。可以使用fillna()方法来填充缺失值。

import pandas as pd

# 创建包含缺失值的DataFrame
data = {'A': [1, 2, None, 4],
        'B': [5, None, 7, 8]}
df = pd.DataFrame(data)

# 将缺失值填充为0
filled_df = df.fillna(0)
print(filled_df)

运行结果：

     A    B
0  1.0  5.0
1  2.0  0.0
2  0.0  7.0
3  4.0  8.0

重复值处理

重复值是指数据中的某些行完全相同。重复值的存在会影响数据分析的准确性，因此需要进行处理。可以通过drop_duplicates()方法来删除重复值。

import pandas as pd

# 创建包含重复值的DataFrame
data = {'A': [1, 2, 2, 4],
        'B': [5, 6, 6, 8]}
df = pd.DataFrame(data)

# 删除重复值
cleaned_df = df.drop_duplicates()
print(cleaned_df)

运行结果：

异常值处理

异常值是指数据中的某些值与其他值相差较大，不符合正常规律。处理异常值的方法包括删除异常值、平滑处理、替换处理等。

删除异常值

删除异常值是一种常见的异常值处理方法。可以通过设定阈值的方式来删除超出阈值范围的异常值。

import pandas as pd

# 创建包含异常值的DataFrame
data = {'A': [1, 2, 10, 4],
        'B': [5, 6, 20, 8]}
df = pd.DataFrame(data)

# 删除超出阈值范围的异常值
cleaned_df = df[(df['A'] < 10) & (df['B'] < 15)]
print(cleaned_df)

运行结果：

平滑处理

平滑处理是一种常用的异常值处理方法之一。可以通过取均值、中位数、分位数等方式来平滑异常值。

import pandas as pd

# 创建包含异常值的DataFrame
data = {'A': [1, 2, 10, 4],
        'B': [5, 6, 20, 8]}
df = pd.DataFrame(data)

# 使用中位数平滑异常值
df['A'] = df['A'].apply(lambda x: df['A'].median() if x > 5 else x)
df['B'] = df['B'].apply(lambda x: df['B'].median() if x > 15 else x)
print(df)

运行结果：