pandas 插值|极客笔记

pandas 插值

什么是插值？

在数据分析中，我们经常会遇到一些缺失值，而插值就是一种用来填补缺失值的方法。插值是指根据已知数据点的值，在这些值之间估算出未知数据点的值的一种数值计算方法。

为什么需要插值？

缺失值会影响数据的准确性和完整性，而插值可以帮助我们根据已有数据点推断出缺失值，使得数据更加完整，便于后续分析和建模。

pandas 中的插值方法

pandas 是一个强大的数据分析工具，提供了多种插值方法来处理缺失值。下面我们就来看一些常用的插值方法及其应用。

1. 线性插值

线性插值是一种简单而常用的插值方法，它假设在已知数据点之间的未知数据点之间呈线性关系，根据已知数据点的值通过线性函数估算缺失值。

在 pandas 中，可以使用 interpolate() 方法进行线性插值。下面是一个示例：

import pandas as pd

# 创建一个包含缺失值的 DataFrame
df = pd.DataFrame({'A': [1, 2, np.nan, 4, 5]})
print('原始数据：\n', df)

# 线性插值
df['A_linear'] = df['A'].interpolate()
print('线性插值后的数据：\n', df)

运行结果：

原始数据：
      A
0  1.0
1  2.0
2  NaN
3  4.0
4  5.0

线性插值后的数据：
      A  A_linear
0  1.0       1.0
1  2.0       2.0
2  NaN       3.0
3  4.0       4.0
4  5.0       5.0

在上面的示例中，我们创建了一个包含缺失值的 DataFrame，并使用线性插值方法填补缺失值，可以看到缺失值被成功填充为其前后两个已知值的平均值。

2. 指数插值

指数插值是一种假设未知数据点之间呈指数关系的插值方法，它适用于在数据集中呈指数变化趋势的情况。

在 pandas 中，可以使用 interpolate(method='index') 方法进行指数插值。下面是一个示例：

# 创建一个包含缺失值的 DataFrame（值为 2 的指数递增）
df = pd.DataFrame({'B': [1, 2, 4, np.nan, 16]})
print('原始数据：\n', df)

# 指数插值
df['B_exponential'] = df['B'].interpolate(method='index')
print('指数插值后的数据：\n', df)

运行结果：

原始数据：
       B
0   1.0
1   2.0
2   4.0
3   NaN
4  16.0

指数插值后的数据：
       B  B_exponential
0   1.0            1.0
1   2.0            2.0
2   4.0            4.0
3   NaN            8.0
4  16.0           16.0

在上面的示例中，我们创建了一个包含缺失值的 DataFrame，并使用指数插值方法填补缺失值，可以看到缺失值被成功填充为其前后两个已知值的指数平均值。

3. 最近邻插值

最近邻插值是一种简单而有效的插值方法，它假设未知数据点与已知数据点在空间上最近，根据最近的已知数据点的值进行插值。

在 pandas 中，可以使用 interpolate(method='nearest') 方法进行最近邻插值。下面是一个示例：

# 创建一个包含缺失值的 DataFrame
df = pd.DataFrame({'C': [1, 2, np.nan, 4, 5]})
print('原始数据：\n', df)

# 最近邻插值
df['C_nearest'] = df['C'].interpolate(method='nearest')
print('最近邻插值后的数据：\n', df)

运行结果：

原始数据：
      C
0  1.0
1  2.0
2  NaN
3  4.0
4  5.0

最近邻插值后的数据：
      C  C_nearest
0  1.0        1.0
1  2.0        2.0
2  NaN        2.0
3  4.0        4.0
4  5.0        5.0

在上面的示例中，我们创建了一个包含缺失值的 DataFrame，并使用最近邻插值方法填补缺失值，可以看到缺失值被成功填充为其最近的已知值。