Python Pandas – 如何对具有秒频率的DateTimeIndex执行floor操作

Pandas 是 Python 中用于数据分析的强大库。其中，DateTimeIndex 是 Pandas 中最常用的时间序列类型之一。在实际的数据处理中，我们常常需要进行时间序列数据的聚合操作。而 floor() 函数就是一种常用的聚合操作，它可以将某个时间点向下取整到某个时间精度，比如：分钟、小时、天等。在本文中，我们将学习如何使用 Pandas 对具有秒频率的 DateTimeIndex 执行 floor() 操作。

更多Pandas相关文章，请阅读：Pandas 教程

背景

假设我们有一个数据集，其中包含了若干时间序列数据。数据的时间精度为秒，而我们现在需要将这些时间序列数据按照分钟进行聚合，并且对于每个时间序列数据，我们需要保留每分钟的第一条记录。在此背景下，我们需要使用到 floor() 函数。

下面是一个示例数据集，其中包含了 7 个时间序列数据，每个时间序列数据都有相同数量的时间点：

+------------+------+------+------+------+------+------+------+
|            | t0   | t1   | t2   | t3   | t4   | t5   | t6   |
+------------+------+------+------+------+------+------+------+
| Timeseries1 | 10.5 | 20.5 | 30.5 | 40.5 | 50.5 | 60.5 | 70.5 |
| Timeseries2 | 11.5 | 21.5 | 31.5 | 41.5 | 51.5 | 61.5 | 71.5 |
| Timeseries3 | 12.5 | 22.5 | 32.5 | 42.5 | 52.5 | 62.5 | 72.5 |
| Timeseries4 | 13.5 | 23.5 | 33.5 | 43.5 | 53.5 | 63.5 | 73.5 |
| Timeseries5 | 14.5 | 24.5 | 34.5 | 44.5 | 54.5 | 64.5 | 74.5 |
| Timeseries6 | 15.5 | 25.5 | 35.5 | 45.5 | 55.5 | 65.5 | 75.5 |
| Timeseries7 | 16.5 | 26.5 | 36.5 | 46.5 | 56.5 | 66.5 | 76.5 |
+------------+------+------+------+------+------+------+------+

Pandas 中的 `floor()` 函数

Pandas 中可以使用 floor() 函数将某个时间点向下取整到某个时间精度。下面是 floor() 函数的使用方法：

import pandas as pd

dt = pd.to_datetime('2021-01-01 12:31:45')
print(dt.floor('min'))

输出结果为：

2021-01-01 12:31:00

在上面的代码中，我们首先使用 pd.to_datetime() 函数将时间字符串转换成 Pandas 中的 DateTime 对象。然后，我们使用 floor() 函数将时间点向下取整到分钟，即返回了 2021-01-01 12:31:00 这个时间点。

需要注意的是，floor() 函数的第一个参数可以是字符串，也可以是 Timedelta 对象，表示需要向下取整到的时间精度。常用的时间精度有：秒（S）、分（T 或 min）、小时（H）、天（D）、周（W）、月（M）、年（Y）等。当然，也可以自定义时间精度，比如：十分钟（10T 或 10min）、五天（5D）等。此外，还可以使用 ceil() 函数将某个时间点向上取整到某个时间精度，用法和 floor() 函数类似。

如何对具有秒频率的 DateTimeIndex 执行 `floor()` 操作

现在，我们已经了解如何使用 floor() 函数将某个时间点向下取整到某个时间精度。接下来，我们需要将这个函数应用到具有秒频率的 DateTimeIndex 上，以实现对时间序列数据的聚合操作。

创建示例数据集

首先，我们需要创建一个具有秒频率的 DateTimeIndex，作为示例数据集的索引。我们可以使用 pd.date_range() 函数来创建一个时间范围：

import pandas as pd

# 创建一个 DateTimeIndex 对象，范围为 2021-01-01 至 2021-01-07，频率为秒
idx = pd.date_range('2021-01-01', '2021-01-07', freq='s')

# 创建一个 DataFrame 对象，包含 7 列数据，每列数据与 idx 对应
df = pd.DataFrame(index=idx)
for i in range(1, 8):
    data = [x + 10 * i for x in range(len(idx))]
    df['Timeseries{}'.format(i)] = data

print(df.head())

输出结果为：

                     Timeseries1  Timeseries2  Timeseries3  Timeseries4  Timeseries5  Timeseries6  Timeseries7
2021-01-01 00:00:00         10.5         11.5         12.5         13.5         14.5         15.5         16.5
2021-01-01 00:00:01         20.5         21.5         22.5         23.5         24.5         25.5         26.5
2021-01-01 00:00:02         30.5         31.5         32.5         33.5         34.5         35.5         36.5
2021-01-01 00:00:03         40.5         41.5         42.5         43.5         44.5         45.5         46.5
2021-01-01 00:00:04         50.5         51.5         52.5         53.5         54.5         55.5         56.5

如上所示，我们创建了一个 DataFrame 对象，它包含 7 列数据（Timeseries1 至 Timeseries7），每列数据都与 idx 对应。其中，idx 是一个具有秒频率的 DateTimeIndex，范围为 2021-01-01 至 2021-01-07。

使用 `resample()` 函数

上一步我们已经创建了示例数据集，下一步我们需要对其进行聚合操作。在 Pandas 中，我们常常使用 resample() 函数来执行聚合操作。下面是 resample() 函数的使用方法：

resampled = df.resample(rule)

在上面的代码中，rule 为字符串或 Timedelta 对象，表示需要聚合到的时间精度，可以是秒、分钟、小时、天等。resample() 函数按照 rule 的规则对时间序列数据进行聚合操作，并返回一个新的 DataFrame 对象。

需要注意的是，resample() 函数聚合操作的结果可能与原始数据的长度不一致，因此需要使用聚合函数（比如：mean()、sum()、count() 等）来对聚合后的数据进行处理。下面是一个例子：

import pandas as pd

# 创建一个 DateTimeIndex 对象，范围为 2021-01-01 至 2021-01-07，频率为秒
idx = pd.date_range('2021-01-01', '2021-01-07', freq='s')

# 创建一个 DataFrame 对象，包含 7 列数据，每列数据与 idx 对应
df = pd.DataFrame(index=idx)
for i in range(1, 8):
    data = [x + 10 * i for x in range(len(idx))]
    df['Timeseries{}'.format(i)] = data

# 将数据按分钟进行聚合，保留每分钟的第一条记录
resampled = df.resample('T').first()

print(resampled.head())

在上面的代码中，我们使用 resample() 函数按照分钟对示例数据集进行聚合操作，并保留每分钟的第一条记录。输出结果如下：

                     Timeseries1  Timeseries2  Timeseries3  Timeseries4  Timeseries5  Timeseries6  Timeseries7
2021-01-01 00:00:00         10.5         11.5         12.5         13.5         14.5         15.5         16.5
2021-01-01 00:01:00         70.5         71.5         72.5         73.5         74.5         75.5         76.5
2021-01-01 00:02:00        130.5        131.5        132.5        133.5        134.5        135.5        136.5
2021-01-01 00:03:00        190.5        191.5        192.5        193.5        194.5        195.5        196.5
2021-01-01 00:04:00        250.5        251.5        252.5        253.5        254.5        255.5        256.5

如上所示，我们成功地对具有秒频率的 DateTimeIndex 执行了 floor() 操作，并按照分钟对数据进行了聚合操作，最终得到了一个新的 DataFrame 对象 resampled。