pandas随机抽取100行

1. 引言

在数据分析与处理中，有时候我们需要从一个庞大的数据集中抽取出一部分数据进行分析。而随机抽取是一种常见且有效的方法之一，能够保证样本的代表性。本文将介绍如何使用Python的pandas库进行随机抽取，具体来说是随机抽取DataFrame中的100行。

2. 准备工作

在使用pandas进行数据抽取之前，首先需要安装pandas库。可以通过以下命令来安装：

pip install pandas

安装完成后，我们可以开始实际的抽取操作。

3. 导入pandas库与示例数据

首先需要导入pandas库，以及加载示例数据。pandas提供了丰富的数据处理功能，包括数据读取、筛选、清洗等等。这里我们使用pandas自带的示例数据集”iris”进行演示。

import pandas as pd

# 读取示例数据集"iris"
data = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv')

# 查看数据集的前几行
print(data.head())

输出为：

   sepal_length  sepal_width  petal_length  petal_width species
0           5.1          3.5           1.4          0.2  setosa
1           4.9          3.0           1.4          0.2  setosa
2           4.7          3.2           1.3          0.2  setosa
3           4.6          3.1           1.5          0.2  setosa
4           5.0          3.6           1.4          0.2  setosa

可以看到，示例数据集共有5个特征变量（sepal_length, sepal_width, petal_length, petal_width, species）和150行数据。

4. 随机抽取100行数据

接下来，我们将使用pandas的sample函数进行随机抽取。sample函数可以从DataFrame中随机抽取指定数量的行或列。我们在这里使用sample函数抽取100行数据，并指定参数replace=False，表示不允许重复抽取。

# 随机抽取100行数据
random_sample = data.sample(n=100, replace=False)

# 查看抽取的数据
print(random_sample)

输出为：

     sepal_length  sepal_width  petal_length  petal_width     species
99            5.7          2.8           4.1          1.3  versicolor
39            5.1          3.4           1.5          0.2      setosa
..            ...          ...           ...          ...         ...
55            5.7          2.8           4.5          1.3  versicolor
122           7.7          2.8           6.7          2.0   virginica

[100 rows x 5 columns]

可以看到，我们成功地从原始数据集中抽取了100行数据，这些数据是随机选择的。