如何在Pandas中使用平均值填充NAN值？

什么是NaN值？

NaN是“不是数字”的缩写，指的是缺失的或不适用的数据。当数据不可用或没有数据时，NaN值被广泛使用。在数据分析中，NaN值是一个常见的问题，在处理数据之前需要对它们进行处理。

在Pandas中，NaN（不是数字）表示缺失或不适用的数据。 NaN是一个特殊的值，由于Pandas可以理解NaN表示数据缺失，因此可以使用Pandas方法替换或删除此值。

什么是平均值？

平均值是一组数字的总和除以数字的数量。它是数值数据中最常见的汇总统计量之一。平均值通常被视为代表一组数字中间的位置。

如何用平均值填充NaN值？

Pandas中有一个方法fillna，可以用于填充NaN值。我们可以使用列的平均值来填充缺失值，以使数据集不再存在缺失值。

示例如下：

import pandas as pd

# 创建一个包含NaN值的数据集
data_frame = pd.DataFrame({
    "A": [1, 2, 3, None, 5],
    "B": [None, 7, 8, 9, 10],
    "C": [11, 12, 13, 14, None]
})

# 输出数据集
print("原始数据集：\n", data_frame)

# 用列的平均值填充NaN值
data_frame.fillna(data_frame.mean(), inplace=True)

# 输出填充过的数据集
print("填充过的数据集：\n", data_frame)

输出结果：

原始数据集：
      A     B     C
0  1.0   NaN  11.0
1  2.0   7.0  12.0
2  3.0   8.0  13.0
3  NaN   9.0  14.0
4  5.0  10.0   NaN
填充过的数据集：
      A          B     C
0  1.0   8.666667  11.0
1  2.0   7.000000  12.0
2  3.0   8.000000  13.0
3  2.75   9.000000  14.0
4  5.0  10.000000  12.5

可以看到，原始数据集包含NaN值，用每列的平均值进行填充后，可以得到填充过的数据集。

在这个示例中，代码data_frame.fillna(data_frame.mean(), inplace=True)使用每列的平均值来填充NaN值，inplace=True表示原始数据集将被更改，而不是返回一个新的数据集。

其他用法

除了使用平均值填充NaN值之外，Pandas还支持其他方法替换NaN值。以下是这些方法的示例：

使用固定值填充NaN值

import pandas as pd

# 创建一个包含NaN值的数据集
data_frame = pd.DataFrame({
    "A": [1, 2, 3, None, 5],
    "B": [None, 7, 8, 9, 10],
    "C": [11, 12, 13, 14, None]
})

# 输出数据集
print("原始数据集：\n", data_frame)

# 用固定值填充NaN值
data_frame.fillna(0, inplace=True)

# 输出填充过的数据集
print("填充过的数据集：\n", data_frame)

输出结果：

原始数据集：
      A     B     C
0  1.0   NaN  11.0
1  2.0   7.0  12.0
2  3.0   8.0  13.0
3  NaN   9.0  14.0
4  5.0  10.0   NaN
填充过的数据集：
      A     B     C
0  1.0   0.0  11.0
1  2.0   7.0  12.0
2  3.0   8.0  13.0
3  0.0   9.0  14.0
4  5.0  10.0   0.0

在这个示例中，我们使用固定值0来填充NaN值。

使用前一个值填充NaN值

import pandas as pd

# 创建一个包含NaN值的数据集
data_frame = pd.DataFrame({
    "A": [1, 2, 3, None, 5],
    "B": [None, 7, 8, 9, 10],
    "C": [11, 12, 13, 14, None]
})

# 输出数据集
print("原始数据集：\n", data_frame)

# 使用前一个值填充NaN值
data_frame.fillna(method="ffill", inplace=True)

# 输出填充过的数据集
print("填充过的数据集：\n", data_frame)

输出结果：

原始数据集：
      A     B     C
0  1.0   NaN  11.0
1  2.0   7.0  12.0
2  3.0   8.0  13.0
3  NaN   9.0  14.0
4  5.0  10.0   NaN
填充过的数据集：
     A     B     C
0  1.0   NaN  11.0
1  2.0   7.0  12.0
2  3.0   8.0  13.0
3  3.0   9.0  14.0
4  5.0  10.0  14.0

在这个示例中，我们使用“ forward-fill ”（ffill）方法使用每列的前一个值来填充NaN值。

使用后一个值填充NaN值

import pandas as pd

# 创建一个包含NaN值的数据集
data_frame = pd.DataFrame({
    "A": [1, 2, 3, None, 5],
    "B": [None, 7, 8, 9, 10],
    "C": [11, 12, 13, 14, None]
})

# 输出数据集
print("原始数据集：\n", data_frame)

# 使用后一个值填充NaN值
data_frame.fillna(method="bfill", inplace=True)

# 输出填充过的数据集
print("填充过的数据集：\n", data_frame)

输出结果：

原始数据集：
      A     B     C
0  1.0   NaN  11.0
1  2.0   7.0  12.0
2  3.0   8.0  13.0
3  NaN   9.0  14.0
4  5.0  10.0   NaN
填充过的数据集：
     A     B     C
0  1.0   7.0  11.0
1  2.0   7.0  12.0
2  3.0   8.0  13.0
3  5.0   9.0  14.0
4  5.0  10.0   NaN

在这个示例中，我们使用“ backward-fill ”（bfill）方法使用每列的后一个值来填充NaN值。

结论

在Pandas中使用平均值填充NaN值是一种简单而有效的方法。但是，还有其他方法可以替换或删除NaN值，例如使用固定值、前一个值或后一个值。您可以选择最适合您的方法来处理NaN值。对于数据分析人员和数据科学家，正确地处理NaN值是必要的，因为不准确的结果会导致错误的分析，从而导致不正确的预测或决策。

总之，Pandas中的fillna方法可用于填充NaN值，这对于数据分析非常有用。在处理缺失值时，我们可以使用列的平均值、固定值、前一个值或后一个值等方法来填充NaN值。