Pandas 每隔n行选取数据|极客笔记

Pandas 每隔n行选取数据

在数据分析中，我们经常需要从数据集中选取每隔n行的数据。在本文中，我们将介绍如何使用Pandas库的方法来实现这个需求。

创建测试数据

为了方便演示，我们先创建一个包含40个整数的数据集。

import pandas as pd
import numpy as np

data = pd.DataFrame({'num': np.arange(1, 41)})
print(data)

输出结果为：

使用iloc方法选取每隔n行数据

我们可以使用Pandas的.iloc方法选取每隔n行的数据。该方法的语法为：

data.iloc[start:end:step]

其中，start表示起始位置（包含），end表示结束位置（不包含），step表示步长。

例如，如果我们需要选取每隔3行的数据，可以按照如下方式实现：

every_third_row = data.iloc[::3]
print(every_third_row)

输出结果为：

可以看到，我们成功选取了每隔3行的数据。

除了每隔n行，我们还可以选取特定范围内的行，例如选取第1-5行、第8-12行等。

data.iloc[0:5]  # 第1-5行
data.iloc[7:12]  # 第8-12行

使用query方法选取每隔n行数据

另一种选取每隔n行数据的方法是使用Pandas的.query方法。该方法的语法为：

data.query('index % n == 0')

其中，n表示间隔数。

例如，如果我们需要选取每隔4行的数据，可以按照如下方式实现：

every_fourth_row = data.query('index % 4 == 0')
print(every_fourth_row)

输出结果为：

同样地，我们也可以选取特定范围内的行。

data.query('index >= 0 and index <= 5')  # 第1-6行
data.query('index >= 7 and index <= 11')  # 第8-12行

性能比较

我们可以使用Python内置的.timeit方法来比较上述两种方法的性能。

import timeit

print(timeit.timeit(lambda: data.iloc[::3], number=100000))
# 0.2926917039999925

print(timeit.timeit(lambda: data.query('index % 3 == 0'), number=100000))
# 4.282083084000002

可以看到，使用.iloc方法的性能比使用.query方法的性能更好。