pandas 保留指定列|极客笔记

pandas 保留指定列

介绍

在数据处理过程中，有时候我们只需要保留数据集中的部分列，而丢弃其他列。pandas 是一个强大的数据分析库，可以帮助我们高效地进行数据处理。本文将详细介绍如何使用 pandas 保留指定列的方法，并给出一些示例代码。

pandas 提供的方法

在 pandas 中，我们通常使用 iloc 和 loc 方法来选取指定行和列。

iloc 方法根据行和列的索引来选取数据。
loc 方法根据行和列的标签来选取数据。

我们可以通过传入 desired_columns 列表，来保留指定的列。

示例

假设我们有一个包含学生信息的数据集，包括学生姓名、年龄、性别和成绩等信息。我们只想保留姓名和成绩这两列，其他列不需要。下面是一个简单的示例代码：

import pandas as pd

# 创建一个包含学生信息的数据集
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [20, 21, 22, 23],
        'Gender': ['F', 'M', 'M', 'M'],
        'Grade': [85, 90, 88, 92]}

df = pd.DataFrame(data)

# 保留指定的列
desired_columns = ['Name', 'Grade']
df_subset = df[desired_columns]

print(df_subset)

运行以上代码，输出如下：

      Name  Grade
0    Alice     85
1      Bob     90
2  Charlie     88
3    David     92

通过以上示例，我们成功保留了指定的列 Name 和 Grade。

使用 loc 方法保留指定列

除了直接通过列的名称来选取数据外，我们也可以使用 loc 方法来根据列的标签来选取数据。下面是一个示例代码：

import pandas as pd

# 创建一个包含学生信息的数据集
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [20, 21, 22, 23],
        'Gender': ['F', 'M', 'M', 'M'],
        'Grade': [85, 90, 88, 92]}

df = pd.DataFrame(data)

# 保留指定的列
df_subset = df.loc[:, ['Name', 'Grade']]

print(df_subset)

运行以上代码，输出如下：

      Name  Grade
0    Alice     85
1      Bob     90
2  Charlie     88
3    David     92

通过以上示例，我们成功使用 loc 方法保留了指定的列 Name 和 Grade。

使用 iloc 方法保留指定列

除了使用 loc 方法外，我们也可以使用 iloc 方法来根据列的索引来选取数据。下面是一个示例代码：

import pandas as pd

# 创建一个包含学生信息的数据集
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [20, 21, 22, 23],
        'Gender': ['F', 'M', 'M', 'M'],
        'Grade': [85, 90, 88, 92]}

df = pd.DataFrame(data)

# 保留指定的列
df_subset = df.iloc[:, [0, 3]]

print(df_subset)

运行以上代码，输出如下：

      Name  Grade
0    Alice     85
1      Bob     90
2  Charlie     88
3    David     92

通过以上示例，我们成功使用 iloc 方法保留了指定的列 Name 和 Grade。

总结

本文详细介绍了如何使用 pandas 保留指定列的方法，以及使用 iloc 和 loc 方法来选取列的示例代码。通过熟练掌握这些方法，我们能够高效地进行数据处理，提取出需要的信息。

pandas 保留指定列