pandas填充nan|极客笔记

pandas填充nan

在数据处理过程中，经常会遇到缺失值的情况，即数据中的某些字段为缺失或空值。在处理这些缺失值时，常常需要对其进行填充操作，以便进行后续的分析或建模。pandas是一个强大的数据处理库，提供了丰富的方法来处理缺失值。

本文将详细介绍如何使用pandas对数据中的缺失值进行填充操作，主要包括以下几个方面：

用指定值填充缺失值
用特定值填充不同列的缺失值
使用缺失值前/后的有效值进行填充
使用插值填充缺失值

1. 用指定值填充缺失值

对于数据中的缺失值，可以通过fillna()方法来填充指定值。例如，对于一个DataFrame对象df，可以使用以下代码将其中的缺失值用0填充：

import pandas as pd

data = {'A': [1, 2, None], 'B': [None, 4, 5]}
df = pd.DataFrame(data)

filled_df = df.fillna(0)
print(filled_df)

运行上述代码后，将会得到如下输出：

     A    B
0   1.0  0.0
1   2.0  4.0
2   0.0  5.0

可以看到，原先的缺失值已经被0填充。

2. 用特定值填充不同列的缺失值

有时候需要按列指定不同的填充值，可以通过fillna()方法传入一个字典来实现。例如，对于之前的DataFrame对象df，可以使用以下代码将不同列的缺失值分别填充为不同的值：

filled_df = df.fillna({'A': 0, 'B': 99})
print(filled_df)

运行上述代码后，将会得到如下输出：

     A    B
0   1.0  99.0
1   2.0  4.0
2   0.0  5.0

可以看到，列A的缺失值被填充为0，列B的缺失值被填充为99。

3. 使用缺失值前/后的有效值进行填充

有时候可以根据缺失值前后的有效值来填充缺失值，这在时间序列数据处理中比较常见。可以使用method参数来指定填充方式，如ffill表示用缺失值前面的有效值填充，bfill表示用缺失值后面的有效值填充。

data = {'A': [1, None, 3, None, 5], 'B': [None, 2, None, 4, 5]}
df = pd.DataFrame(data)

filled_df_ffill = df.fillna(method='ffill')
filled_df_bfill = df.fillna(method='bfill')

print(filled_df_ffill)
print(filled_df_bfill)

运行上述代码后，分别得到ffill和bfill填充后的结果：

     A    B
0   1.0  NaN
1   1.0  2.0
2   3.0  2.0
3   3.0  4.0
4   5.0  5.0

     A    B
0   1.0  2.0
1   3.0  2.0
2   3.0  4.0
3   5.0  4.0
4   5.0  5.0

可以看到，ffill方法是用前面的有效值填充，bfill方法是用后面的有效值填充。

4. 使用插值填充缺失值

除了前后有效值填充外，还可以使用插值法进行填充，pandas提供了interpolate()方法来实现。例如，对于一个Series对象series，可以使用以下代码进行插值填充：

import numpy as np

data = {'A': [1, None, 3, None, 5]}
series = pd.Series(data['A'])
filled_series = series.interpolate()

print(filled_series)

运行上述代码后，将会得到插值填充后的结果：

0    1.0
1    2.0
2    3.0
3    4.0
4    5.0
dtype: float64

可以看到，缺失值被插值为相邻有效值的平均值。

总结来说，pandas提供了多种方法来对数据中的缺失值进行填充，包括用特定值填充、用不同值填充不同列、使用有效值前后填充以及插值填充等方法。在实际的数据处理中，根据具体需求选择合适的填充方式非常重要。

pandas填充nan