pandas替换NaN|极客笔记

pandas替换NaN

在数据处理过程中，经常会遇到缺失值NaN（Not a Number），这些NaN值会影响数据分析和建模的结果。因此，需要对NaN值进行替换或填充处理。在Python中，pandas库提供了丰富的方法来处理NaN值。

本文将详细介绍如何使用pandas来替换NaN值，包括使用常数、均值、中位数、众数等填充NaN值，并举例说明不同情况下的替换方法和效果。

1. 使用常数填充NaN值

首先，我们来看一种常见的处理方法，即使用常数（如0）填充NaN值。这种方法适用于一些特定情况，比如可以用0来表示缺失值。下面是使用pandas填充NaN值的示例代码：

import pandas as pd
import numpy as np

# 创建包含NaN值的DataFrame
df = pd.DataFrame({'A': [1, 2, np.nan, 4, 5],
                   'B': [10, np.nan, np.nan, 40, 50],
                   'C': [100, 200, 300, 400, np.nan]})

# 使用0填充NaN值
df.fillna(0, inplace=True)
print(df)

运行以上代码，将得到填充后的DataFrame如下：

     A     B      C
0  1.0  10.0  100.0
1  2.0   0.0  200.0
2  0.0   0.0  300.0
3  4.0  40.0  400.0
4  5.0  50.0    0.0

可以看到，原先的NaN值已经被0填充。

2. 使用均值填充NaN值

另一种常见的处理方法是使用均值填充NaN值。对于数值型数据，均值是一种比较合理的填充方式，可以保持数据的分布特性。下面是使用pandas计算均值并填充NaN值的示例代码：

import pandas as pd
import numpy as np

# 创建包含NaN值的DataFrame
df = pd.DataFrame({'A': [1, 2, np.nan, 4, 5],
                   'B': [10, np.nan, np.nan, 40, 50],
                   'C': [100, 200, 300, 400, np.nan]})

# 计算每列的均值并填充NaN值
mean_values = df.mean()
df.fillna(mean_values, inplace=True)
print(df)

运行以上代码，将得到填充后的DataFrame如下：

     A     B      C
0  1.0  10.0  100.0
1  2.0  33.333333 200.0
2  3.0  33.333333 300.0
3  4.0  40.0  400.0
4  5.0  50.0 250.0

可以看到，NaN值被各列的均值填充。

3. 使用中位数填充NaN值

除了均值外，中位数也是一种常用的填充NaN值的方法。在数据存在异常值或偏移较大时，中位数更能反映数据的集中趋势。下面是使用pandas计算中位数并填充NaN值的示例代码：

import pandas as pd
import numpy as np

# 创建包含NaN值的DataFrame
df = pd.DataFrame({'A': [1, 2, np.nan, 4, 5],
                   'B': [10, np.nan, np.nan, 40, 50],
                   'C': [100, 200, 300, 400, np.nan]})

# 计算每列的中位数并填充NaN值
median_values = df.median()
df.fillna(median_values, inplace=True)
print(df)

运行以上代码，将得到填充后的DataFrame如下：

     A     B      C
0  1.0  10.0  100.0
1  2.0  25.0  200.0
2  2.5  25.0  300.0
3  4.0  40.0  400.0
4  5.0  50.0 250.0

可以看到，NaN值被各列的中位数填充。

4. 使用众数填充NaN值

在某些情况下，数据可能更适合使用众数填充NaN值，尤其是对于类别型数据。众数是出现频次最高的值，可以有效地保持数据的分类特性。下面是使用pandas计算众数并填充NaN值的示例代码：

import pandas as pd
import numpy as np

# 创建包含NaN值的DataFrame
df = pd.DataFrame({'A': ['apple', 'banana', np.nan, 'apple', 'pear'],
                   'B': ['red', np.nan, np.nan, 'blue', 'red'],
                   'C': ['small', 'medium', 'medium', 'large', np.nan]})

# 计算每列的众数并填充NaN值
mode_values = df.mode().iloc[0]
df.fillna(mode_values, inplace=True)
print(df)

运行以上代码，将得到填充后的DataFrame如下：

        A       B       C
0   apple     red   small
1  banana     red  medium
2  apple     red  medium
3   apple    blue   large
4    pear     red  medium

可以看到，NaN值被各列的众数填充。

5. 自定义填充值

除了使用常数、均值、中位数、众数等，还可以选择自定义填充值来替换NaN值。这种方法适用于特定的需求，例如使用特定值来代表缺失信息。下面是使用pandas填充自定义值的示例代码：

import pandas as pd
import numpy as np

# 创建包含NaN值的DataFrame
df = pd.DataFrame({'A': [1, 2, np.nan, 4, 5],
                   'B': [10, np.nan, np.nan, 40, 50],
                   'C': [100, 200, 300, 400, np.nan]})

# 使用自定义值填充NaN值
df.fillna({'A': -1, 'B': -2, 'C': -3}, inplace=True)
print(df)

运行以上代码，将得到填充后的DataFrame如下：

     A     B      C
0  1.0  10.0  100.0
1  2.0  -2.0  200.0
2 -1.0  -2.0  300.0
3  4.0  40.0  400.0
4  5.0  50.0   -3.0

可以看到，NaN值被自定义值填充。在这种情况下，可以根据具体的业务需求和数据特性，选择合适的自定义填充值来替换NaN值。

6. 使用前一个或后一个有效值填充NaN值

有时候，可以使用前一个或后一个有效值来填充NaN值，这种方法适用于时间序列数据或有序数据。使用pandas的
“`ffill“`（forward fill）和“`bfill“`（backward fill）方法可以实现这种填充。下面是使用pandas填充前一个有效值和后一个有效值的示例代码：

import pandas as pd
import numpy as np

# 创建包含NaN值的DataFrame
df = pd.DataFrame({'A': [1, 2, np.nan, 4, 5],
                   'B': [10, np.nan, np.nan, 40, 50],
                   'C': [100, 200, 300, 400, np.nan]})

# 使用前一个有效值填充NaN值
df_ffill = df.ffill()
print("使用前一个有效值填充NaN值：")
print(df_ffill)

# 使用后一个有效值填充NaN值
df_bfill = df.bfill()
print("\n使用后一个有效值填充NaN值：")
print(df_bfill)

运行以上代码，将得到使用前一个有效值和后一个有效值填充的DataFrame：

使用前一个有效值填充NaN值：
     A     B      C
0  1.0  10.0  100.0
1  2.0  10.0  200.0
2  2.0  10.0  300.0
3  4.0  40.0  400.0
4  5.0  50.0  400.0

使用后一个有效值填充NaN值：
     A     B      C
0  1.0  10.0  100.0
1  2.0  40.0  200.0
2  4.0  40.0  300.0
3  4.0  40.0  400.0
4  5.0  50.0    NaN

可以看到，使用前一个有效值填充NaN值时，第一行的NaN值无法填充；而使用后一个有效值填充NaN值时，最后一行的NaN值无法被填充。