pandas 时间重新采样|极客笔记

pandas 时间重新采样

介绍

在数据分析中，经常会遇到时间序列数据。时间序列数据是按照时间顺序排列的数据集合，可以是固定频率的数据，也可以是不规则频率的数据。在处理时间序列数据时，经常需要对数据进行重新采样，即按照指定的频率对数据进行重新分组和统计。

pandas 是一个强大的数据分析库，提供了丰富的功能来处理时间序列数据。本文将介绍如何使用 pandas 对时间序列数据进行重新采样的方法。

准备工作

在开始之前，确保已安装 pandas 库。如果没有安装，可以通过以下命令进行安装：

pip install pandas

时间重新采样方法

1. 生成时间序列数据

首先，我们先生成一组时间序列数据。我们可以使用 pandas 的 date_range() 函数来生成一个日期范围。下面是一个生成时间序列数据的示例代码：

import pandas as pd

# 生成一个日期范围
dates = pd.date_range('2022-01-01', periods=10, freq='D')
# 创建一个 DataFrame，列名为 'date'，数据为生成的时间序列
df = pd.DataFrame({'date': dates})
print(df)

运行结果如下所示：

        date
0 2022-01-01
1 2022-01-02
2 2022-01-03
3 2022-01-04
4 2022-01-05
5 2022-01-06
6 2022-01-07
7 2022-01-08
8 2022-01-09
9 2022-01-10

2. 将时间列设为索引

接下来，我们将日期列设为 DataFrame 的索引。这可以通过 set_index() 方法实现。示例代码如下：

# 将 'date' 列设为索引
df.set_index('date', inplace=True)
print(df)

运行结果如下所示：

Empty DataFrame
Columns: []
Index: [2022-01-01 00:00:00, 2022-01-02 00:00:00, 2022-01-03 00:00:00, 2022-01-04 00:00:00, 2022-01-05 00:00:00, 2022-01-06 00:00:00, 2022-01-07 00:00:00, 2022-01-08 00:00:00, 2022-01-09 00:00:00, 2022-01-10 00:00:00]

3. 重新采样数据

现在，我们可以对时间序列数据进行重新采样。重新采样可以按照指定的频率对数据进行聚合、统计等操作。我们可以使用 resample() 方法来重新采样数据。示例代码如下：

# 每月统计数据
monthly_data = df.resample('M').size()
print(monthly_data)

运行结果如下所示：

date
2022-01-31    10
Freq: M, dtype: int64

上面的示例代码中，我们将数据按照月份进行重新采样，并统计每个月的数据量。

4. 重新采样方法

在 resample() 方法中，除了可以指定频率外，还可以指定不同的聚合函数来处理数据。常用的聚合函数包括 sum、mean、median 等。示例代码如下：

# 每月求和
monthly_sum = df.resample('M').sum()
print(monthly_sum)

运行结果如下所示：

              0
date           
2022-01-31    45

上面的示例代码中，我们将数据按照月份进行重新采样，并对每个月的数据进行求和计算。

总结

本文介绍了如何使用 pandas 对时间序列数据进行重新采样的方法。重新采样是处理时间序列数据的重要操作，可以帮助我们对数据进行分组和统计，更好地理解数据的趋势和特征。

pandas 时间重新采样