Pandas DataFrame的处理时间

如果你需要对日期和时间进行计算和分析，Pandas DataFrame是一个非常强大的工具。Pandas可以帮助你轻松地将时间序列数据与其他数据联合处理。本文将介绍如何在Pandas DataFrame中处理时间。

日期和时间的表示

在Pandas中，日期和时间可以表示为datetime对象。

import pandas as pd

date = pd.to_datetime('2020-01-01')
time = pd.to_datetime('18:00:00')
datetime = pd.to_datetime('2020-01-01 18:00:00')

print(date)
print(time)
print(datetime)

输出：

2020-01-01 00:00:00
1900-01-01 18:00:00
2020-01-01 18:00:00

datetime对象包含日期和时间信息，并且可以轻松地进行计算和比较。

将时间设置为索引

在处理时间序列数据时，时间通常用作索引。下面是一个简单的例子，演示如何将时间设置为索引。

import pandas as pd

data = [['2020-01-01', 10], ['2020-01-02', 20], ['2020-01-03', 30]]
df = pd.DataFrame(data, columns=['date', 'value'])
df['date'] = pd.to_datetime(df['date'])
df.set_index('date', inplace=True)

print(df)

输出：

            value
date             
2020-01-01     10
2020-01-02     20
2020-01-03     30

现在，我们可以轻松地按日期进行查询。

print(df.loc['2020-01-01'])

输出：

value    10
Name: 2020-01-01 00:00:00, dtype: int64

日期范围和频率

在Pandas中，我们可以轻松地创建不同的日期时间范围和频率。下面的示例演示如何创建每天的日期范围。

import pandas as pd

dates = pd.date_range(start='2020-01-01', end='2020-01-10')
print(dates)

输出：

DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04',
               '2020-01-05', '2020-01-06', '2020-01-07', '2020-01-08',
               '2020-01-09', '2020-01-10'],
              dtype='datetime64[ns]', freq='D')

freq参数指定了日期的频率。在这种情况下，它是每天。

import pandas as pd

dates = pd.date_range(start='2020-01-01', end='2020-01-10', freq='3D')
print(dates)

输出：

DatetimeIndex(['2020-01-01', '2020-01-04', '2020-01-07', '2020-01-10'],
              dtype='datetime64[ns]', freq='3D')

在这种情况下，3D表示每隔3天。

按时间进行分组

在Pandas中，我们可以按时间对数据进行分组，并对其进行聚合操作。下面是一个简单的例子。

import pandas as pd

data = [['2020-01-01', 10], ['2020-01-02', 20], ['2020-01-03', 30], ['2020-01-01', 5], ['2020-01-02', 15], ['2020-01-03', 25]]
df = pd.DataFrame(data, columns=['date', 'value'])
df['date'] = pd.to_datetime(df['date'])

grouped = df.groupby(pd.Grouper(key='date', freq='D')).sum()

print(grouped)

输出：

            value
date             
2020-01-01     15
2020-01-02     35
2020-01-03     55

在这个例子中，我们将数据按照日期进行分组，并将每天的值加起来。pd.Grouper()函数用于指定按照哪个关键字分组，并且freq参数指定了分组的频率。

时间差

在Pandas中，可以轻松地计算两个日期之间的时间差。下面是一个示例：

import pandas as pd

start_date = pd.to_datetime('2020-01-01')
end_date = pd.to_datetime('2020-01-10')
diff = end_date - start_date

print(diff.days)

输出：

在这个例子中，我们计算了2020年1月1日到2020年1月10日之间的天数差异。

Shifting

可以使用shift()函数将数据按照时间轴上下移动。下面是一个示例：

import pandas as pd

data = [[10], [20], [30], [40], [50]]
df = pd.DataFrame(data, columns=['value'])
df['shifted'] = df.shift(2)

print(df)

输出：

   value  shifted
0     10      NaN
1     20      NaN
2     30     10.0
3     40     20.0
4     50     30.0

在这个例子中，我们将数据向下移动了2个单位。

绘制时间序列数据

Pandas的DataFrame可以很容易地绘制时间序列数据。下面是一个示例：

import pandas as pd
import matplotlib.pyplot as plt

data = [['2020-01-01', 10], ['2020-01-02', 20], ['2020-01-03', 30]]
df = pd.DataFrame(data, columns=['date', 'value'])
df['date'] = pd.to_datetime(df['date'])
df.set_index('date', inplace=True)

df.plot()

plt.show()

在本例中，我们绘制了一个简单的折线图，显示日期和值之间的关系。