Python Pandas CustomBusinessHour偏移量对象 – 移动到下一个工作日

在数据处理中，我们常常需要考虑不同的日期，例如判断一个日期是否为工作日，有些情况下需要把数据按工作日进行聚合等。而在Python的数据处理库Pandas中，提供了一个方便的偏移量对象CustomBusinessHour，可以方便地对时间进行修改、计算和聚合，使时间序列分析更加高效便捷。

`CustomBusinessHour`对象概述

CustomBusinessHour是Pandas中的时间偏移量对象，是一种自定义的小时级别的偏移量，用于工作日非工作日的时间计算相关操作。通过下列代码可以加载相应的库，创建CustomBusinessHour对象并设置参数：

import pandas as pd
from pandas.tseries.offsets import CustomBusinessHour

# Create CustomBusinessHour object
custom_hr = CustomBusinessHour(start='09:00', end='18:00')

其中，start和end参数分别指定了一天中的开始时间和结束时间。对于日期中非工作时间段的偏移量将被自动忽略，例如如果需要往后移动两个工作日，但是跨越周末，则实际上偏移量为三个工作日。

移动到下一个工作日

在对时间序列进行处理时，我们经常需要将一个日期移动到下一个工作日。CustomBusinessHour对象提供了rollforward和rollback方法来实现这一功能。

# 创建日期序列
dates = pd.date_range(start='2022-01-01', end='2022-01-10')
df = pd.DataFrame({'Date': dates})

# 常规日期序列
print(df)

# 移动到下一个工作日
df['NextBusinessDay'] = df['Date'] + custom_hr
print(df)

输出结果如下所示：

print(df)
        Date
0 2022-01-01
1 2022-01-02
2 2022-01-03
3 2022-01-04
4 2022-01-05
5 2022-01-06
6 2022-01-07
7 2022-01-08
8 2022-01-09
9 2022-01-10

print(df)
        Date   NextBusinessDay
0 2022-01-01        2022-01-03 
1 2022-01-02        2022-01-03 
2 2022-01-03        2022-01-04 
3 2022-01-04        2022-01-05 
4 2022-01-05        2022-01-06 
5 2022-01-06        2022-01-07 
6 2022-01-07        2022-01-10 
7 2022-01-08        2022-01-10 
8 2022-01-09        2022-01-10 
9 2022-01-10        2022-01-11

上述代码中，我们创建了一个日期序列，然后将其移动到下一个工作日，新的一列NextBusinessDay表示每个日期对应的下一个工作日日期。

`CustomBusinessHour`对象的聚合操作

除了移动日期之外，CustomBusinessHour对象还可以方便地进行时间序列的聚合操作。例如，我们可以对一个交易日的数据进行按小时聚合。

import numpy as np

# 创建日期序列
dates = pd.date_range(start='2022-01-01', end='2022-01-03', freq='H')
df = pd.DataFrame({'Date': dates,
                   'Value': np.random.random(len(dates))})

# 聚合为每个工作日的均值
df.set_index('Date', inplace=True)
daily_mean = df.resample('CBH').mean()
print(daily_mean)

输出结果如下所示：

                         Value
2022-01-03 09:00:00  0.676245
2022-01-03 10:00:00  0.557548
2022-01-03 11:00:00  0.272328

上述代码中，我们创建了一个连续的日期序列，并为每个日期赋予一个随机值。使用set_index方法将日期设置为索引，然后使用resample方法按CustomBusinessHour进行聚合计算每个工作日的均值。

处理日期中的非工作时间段

由于使用CustomBusinessHour对象时，日期中的非工作时间段将自动被忽略，因此在处理时间时需要格外注意。例如，在计算两个日期之间的日期差时，如果日期跨越了一个周末，那么实际上差值可能不是预期的时间差。

# 创建日期序列
start_date = pd.to_datetime('2022-01-07 10:00:00')
end_date = pd.to_datetime('2022-01-11 15:00:00')
dates = pd.date_range(start=start_date, end=end_date, freq='H')
df = pd.DataFrame({'Date': dates})

# 计算日期差
days_diff = pd.Timedelta(df['Date'].iloc[-1] - df['Date'].iloc[0]).days
print(days_diff)

输出结果为：3，这是因为日期中跨越了一个周末。如果我们需要计算的是工作日间隔，可以使用CustomBusinessHour中的n_hours方法来计算两个日期之间的实际工作小时。

# 计算实际工作日
work_days = pd.Timedelta(custom_hr.n_hours * days_diff + custom_hr.rollback(end_date).hour - custom_hr.rollforward(start_date).hour, unit='h') / pd.Timedelta('1D')
print(work_days)

输出结果为：1.5，这是实际上的工作天数。