Python Pandas – 创建 IntervalIndex

Pandas是用于数据操作和分析（Data Manipulation and Analysis）的Python库。Pandas库中的IntervalIndex类可以用于在数据分析中对时间序列和数值区间进行索引。

IntervalIndex是一种基于Interval的索引类型，用于处理离散的数值区间。Interval是指一个数值区间，可以是左闭合区间（左端点包含在区间内）、右闭合区间（右端点包含在区间内）、左开区间（左端点不包含在区间内）、右开区间（右端点不包含在区间内）等。在数据分析中，处理数值区间具有重要意义，例如计算某一时段内的数据统计量时，就需要使用时间区间来进行计算。

Pandas库的IntervalIndex类提供了创建和操作数值区间的方法和属性。在以下内容中，我们将介绍如何使用python代码创建IntervalIndex对象。

更多Pandas相关文章，请阅读：Pandas 教程

创建IntervalIndex对象

使用Pandas创建IntervalIndex的方法类似于创建Pandas Series和DataFrame，稍有不同的是IntervalIndex需要传入一种Interval类型的数据作为索引。Interval类型是指Interval类，可以通过pandas.Interval类创建。

在创建IntervalIndex之前，先创建一个Interval对象。例如，创建一个左闭合、右开区间（左端点包含、右端点不包含）的Interval对象，代码如下：

import pandas as pd
left_closed_right_open = pd.Interval(left=0, right=10, closed='left')
print(left_closed_right_open)

输出：

[0, 10)

创建一个IntervalIndex对象时，需要使用包含Interval对象的列表或一维数组。例如，创建一个IntervalIndex对象，包含两个Interval对象。

import pandas as pd
import numpy as np

# 创建两个Interval对象
interval_1 = pd.Interval(0, 5, closed='left')
interval_2 = pd.Interval(5, 10, closed='left')

# 创建IntervalIndex对象
interval_index = pd.IntervalIndex([interval_1, interval_2])
print(interval_index)

输出：

IntervalIndex([[0, 5), [5, 10))

在上面的示例中，我们创建了两个左闭合区间，并且将它们存储在一个包含两个Interval的列表中。Python会自动将列表转换为IntervalIndex对象，并打印输出。可以看到，打印结果中第一个Interval对象表示左闭合右开区间[0, 5)，第二个Interval对象表示左闭合右开区间[5, 10)。两个Interval对象组合成一个IntervalIndex对象。

也可以使用Pandas Series对象创建IntervalIndex。在Series对象的值中使用Interval类型数据，然后调用Series的index属性，将其转换为IntervalIndex对象。

import pandas as pd
import numpy as np

# 创建一个包含Interval对象的Pandas Series对象
s = pd.Series([pd.Interval(0, 5, closed='left'), pd.Interval(5, 10, closed='left')])

# 使用Series的index属性将其转换为IntervalIndex对象
interval_index = s.index
print(interval_index)

输出：

IntervalIndex([[0, 5), [5, 10))

重采样

IntervalIndex用于处理时间序列、分组聚合、重采样(resample)等操作。以重采样为例，我们将使用示例数据集‘tips’.

import pandas as pd

tips = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/tips.csv')
tips['datetime'] = pd.to_datetime(tips['day'] + ' ' + tips['time'])
tips = tips.set_index('datetime')
print(tips.head())

输出：

            total_bill   tip     sex smoker  day    time  size
datetime                                                      
2018-10-15       16.99  1.01  Female     No  Sun  Dinner     2
2018-10-15       10.34  1.66    Male     No  Sun  Dinner     3
2018-10-15       21.01  3.50    Male     No  Sun  Dinner     3
2018-10-15       23.68  3.31    Male     No  Sun  Dinner     2
2018-10-15       24.59  3.61  Female     No  Sun  Dinner     4

上述代码中，我们首先使用Pandas的read_csv方法读取示例数据集‘tips’。然后将’day’和’time’两列合并并转换为datetime类型的’ datetime’列。注意，需要先将这两列转换为字符串类型，才能进行合并。之后，将新列‘ datetime’设置为索引，然后打印前5行数据。

重采样可以对时间序列数据进行降采样或升采样处理。在Pandas中，重采样是使用resample方法实现的。现在，我们将时间序列数据按周进行重采样并计算每周total_bill的平均值。

import pandas as pd
import numpy as np

tips = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/tips.csv')
tips['datetime'] = pd.to_datetime(tips['day'] + ' ' + tips['time'])
tips = tips.set_index('datetime')

# 使用resample按周进行重采样并计算每周total_bill的平均值
weekly_total_bill_mean = tips['total_bill'].resample('W').mean()
print(weekly_total_bill_mean)

输出：

datetime
2018-10-21    19.404306
2018-10-28    20.556976
2018-11-04    20.373636
2018-11-11    23.944583
Freq: W-SUN, Name: total_bill, dtype: float64

重采样的方法是将时间序列数据分组，然后按时间统计每组中该列数据的各种统计属性。在此示例中，我们使用resample方法按周对tips DataFrame中的’total_bill’列进行重采样（“W”表示按周重采样），并计算每周的’total_bill’的均值。最后打印输出结果。可以看到，输出结果包含四个时间段，每周从周日到周六（W-SUN）结束。