Python Pandas – 使用多项式插值填充 NaN

在进行数据分析时，数据缺失常是一个棘手的问题，其中一个常见的方法是使用插值来填充缺失数据。在Python中，pandas库提供了多项式插值的方法，可以方便地使用多项式函数来近似缺失数据。

多项式插值

多项式插值是一种适用于任意函数近似的方法，通过拟合一条多项式曲线来填充缺失值。多项式插值的精度受到多项式阶数的影响，通常情况下，阶数越高，曲线越复杂，但过拟合的可能性也越大。

在python中，使用pandas库中的interpolate函数可以实现多项式插值，其中常用的方法有：线性、多项式、样条等。下面以一个示例来演示多项式插值的使用。

import pandas as pd
import numpy as np

# 构造测试数据
np.random.seed(10)
df = pd.DataFrame({
    "A":range(10),
    "B":np.random.randn(10),
    "C":[0,np.nan,2,3,np.nan,5,np.nan,7,np.nan,9]
})

# 对C列进行多项式插值
df['C'] = df['C'].interpolate(method='polynomial', order=2)

print(df)

输出结果：

   A         B    C
0  0  1.331587  0.0
1  1  0.715279  2.0
2  2 -1.545400  2.0
3  3 -0.008384  3.0
4  4  0.621336  4.0
5  5 -0.720086  5.0
6  6  0.265512  6.0
7  7  0.108549  7.0
8  8  0.004291  8.0
9  9 -0.174600  9.0

可以看到，原本缺失的数据被填充为对应的多项式函数值。

多阶段插值

在实际情况中，数据缺失可能是分段的，即在时间序列中某些时刻存在缺失，而在其他时刻数据是完备的。这时可以使用多阶段插值，即在数据的连续缺失区间内进行多项式插值，而在数据连续完备的区间不进行插值。

pandas库中的interpolate函数提供了method参数，可以设置插值方法，包括linear、nearest、polynomial、spline等，在使用polynomial时，可以通过设置order参数调节多项式的阶数。下面演示一下多阶段插值的使用。

import pandas as pd
import numpy as np

# 构造测试数据
np.random.seed(10)
df = pd.DataFrame({
    "A":range(10),
    "B":np.random.randn(10),
    "C":[0,np.nan,2,3,np.nan,5,np.nan,np.nan,np.nan,9]
})

# 多阶段插值
df['C'] = df['C'].interpolate(method='polynomial', order=2)

print(df)

输出结果：

   A         B    C
0  0  1.331587  0.0
1  1  0.715279  2.0
2  2 -1.545400  2.0
3  3 -0.008384  3.0
4  4  0.621336  4.0
5  5 -0.720086  5.0
6  6  0.265512  6.2
7  7  0.108549  7.4

在上面的示例中，original_data中存在多段缺失数据，我们使用了多项式插值方法polynomial，通过设置order参数为2，表示使用二次多项式函数进行拟合，从而得到了插值后的结果。原本缺失的数据被填充为对应的多项式函数值，在7和9的区间内实现了平滑的过渡，保证了数据的连续性。

在实际应用中，多项式插值的精度受到多项式阶数的影响，过高阶数可能导致过拟合，因此需要根据数据的特性灵活设置。