Python Pandas – 将给定的时间戳转换为每小时频率的周期

在数据分析中，经常需要将给定的时间序列数据按照固定的时间间隔（频率）进行分组统计。在Python中，可以使用Pandas库来达到这个目标。

假设我们有以下的时间序列数据，表示每一笔订单的下单时间：

订单编号	下单时间
1001	2021-01-01 00:01:23
1002	2021-01-01 00:11:12
1003	2021-01-01 00:25:34
1004	2021-01-01 01:04:08
1005	2021-01-01 01:59:33

现在我们想将这些订单按每小时为频率进行聚合，即输出每小时的订单数量，该怎么做呢？下面就来介绍使用Pandas库如何实现。

步骤一：读取数据

首先，我们需要读取订单数据，并将下单时间转换为Pandas的Timestamp类型。假设订单数据存储在CSV文件中，可以使用如下代码进行读取和转换：

import pandas as pd

# 读取数据
df = pd.read_csv('orders.csv')

# 将下单时间转换为Timestamp类型
df['下单时间'] = pd.to_datetime(df['下单时间'])

这里使用了Pandas内置的pd.read_csv函数来读取CSV文件，将结果存储在名为df的DataFrame对象中。然后，使用pd.to_datetime函数将下单时间列的数据转换为Pandas的Timestamp类型。

步骤二：设置时间索引

接下来，我们需要将DataFrame的行按照时间先后顺序进行排序，并将时间列设置为DataFrame的时间索引。使用set_index函数可以轻松实现这个过程：

# 按下单时间排序
df = df.sort_values('下单时间')

# 将下单时间设置为时间索引
df = df.set_index('下单时间')

步骤三：按小时进行聚合

现在，我们已经将订单数据按照下单时间排序，并将下单时间设置为时间索引。接下来，使用resample函数进行聚合操作。resample函数的第一个参数指定了聚合的时间间隔（频率），这里我们设置为每小时。第二个参数指定了聚合的方式，这里我们使用count函数，计算每个小时内的订单数量。

# 按小时进行聚合
hourly_counts = df.resample('H').count()

这一步操作将生成一个新的DataFrame对象hourly_counts，其中包含了每小时的订单数量。

完整代码

下面是完整的代码，包括读取数据、设置时间索引和按小时进行聚合三个步骤：

import pandas as pd

# 读取数据
df = pd.read_csv('orders.csv')

# 将下单时间转换为Timestamp类型
df['下单时间'] = pd.to_datetime(df['下单时间'])

# 按下单时间排序
df = df.sort_values('下单时间')

# 将下单时间设置为时间索引
df = df.set_index('下单时间')

# 按小时进行聚合
hourly_counts = df.resample('H').count()

# 输出结果
print(hourly_counts)

执行上述代码，将得到以下的输出结果：

                     订单编号
下单时间                   
2021-01-01 00:00:00     3
2021-01-01 01:00:00     2

可以看到，按每小时进行聚合后，1月1日0点至1点期间共有3个订单，1月1日1点至2点期间共有2个订单## 结论

本文介绍了使用Pandas将给定的时间戳转换为每小时频率的周期的方法。首先，我们读取订单数据，并将下单时间转换为Pandas的Timestamp类型。接着，将数据按照下单时间排序，并将下单时间设置为DataFrame的时间索引。最后，使用resample函数按小时进行聚合操作，计算每个小时内的订单数量。通过这些步骤，我们得到了按小时聚合后的订单数据。

Pandas是Python中非常强大的数据分析库，可以快速进行数据处理和可视化。掌握Pandas的基本用法，能够快速地处理和分析数据，对于数据分析从业者来说非常重要。