Pandas 按时间间隔移动平均值

在本文中，我们将介绍如何使用Pandas中的rolling方法，通过指定时间间隔来计算数据的移动平均值。

移动平均值是一种常见的时间序列分析方法，用于平滑连续的时间序列数据。它可以用于去除特定的信号噪音，同时可以展现出趋势和周期性。

生成时间序列数据

为了演示rolling方法的使用，我们需要生成一些样本数据。我们可以使用Pandas中的date_range方法来生成一个日期范围，再将其转换成时间序列索引。接下来，我们可以使用随机数生成器来生成一系列样本数据。

import numpy as np
import pandas as pd

start_date = '2022-01-01'
end_date = '2022-01-10'
date_range = pd.date_range(start_date, end_date)
sample_data = pd.Series(np.random.randint(0, 100, size=len(date_range)), index=date_range)

移动平均值计算

假设我们想计算sample_data中每个3天的移动平均值。我们可以使用rolling方法，并将窗口大小设置为3天。rolling方法将返回一个Rolling对象，我们可以对其应用一些聚合函数，例如mean、sum等等。

window_size = '3D'
rolling_data = sample_data.rolling(window_size, min_periods=1)
rolling_mean = rolling_data.mean()

在上述代码中，我们使用了字符串“3D”来指定时间序列的窗口大小为3天。min_periods参数指定了在每个窗口中所需的最小样本数，这里是1。

结果验证

我们可以通过绘制原始数据和移动平均值来验证计算结果。

import matplotlib.pyplot as plt

fig, ax = plt.subplots()
ax.plot(sample_data, label='Raw Data')
ax.plot(rolling_mean, label='Rolling Mean')
ax.legend()
plt.show()

总结

我们在本文中介绍了如何使用Pandas中rolling方法，通过指定时间间隔来计算数据的移动平均值。rolling方法特别适用于处理时间序列数据，能够有效地解析数据中的规律和趋势。同时，rolling方法还支持对数据进行各种聚合操作，例如sum、count、std等等。请读者根据需求选择适当的聚合函数，去验证数据的有效性。