pandas 保留指定列
介绍
在数据处理过程中,有时候我们只需要保留数据集中的部分列,而丢弃其他列。pandas 是一个强大的数据分析库,可以帮助我们高效地进行数据处理。本文将详细介绍如何使用 pandas 保留指定列的方法,并给出一些示例代码。
pandas 提供的方法
在 pandas 中,我们通常使用 iloc
和 loc
方法来选取指定行和列。
iloc
方法根据行和列的索引来选取数据。loc
方法根据行和列的标签来选取数据。
我们可以通过传入 desired_columns 列表,来保留指定的列。
示例
假设我们有一个包含学生信息的数据集,包括学生姓名、年龄、性别和成绩等信息。我们只想保留姓名和成绩这两列,其他列不需要。下面是一个简单的示例代码:
import pandas as pd
# 创建一个包含学生信息的数据集
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
'Age': [20, 21, 22, 23],
'Gender': ['F', 'M', 'M', 'M'],
'Grade': [85, 90, 88, 92]}
df = pd.DataFrame(data)
# 保留指定的列
desired_columns = ['Name', 'Grade']
df_subset = df[desired_columns]
print(df_subset)
运行以上代码,输出如下:
Name Grade
0 Alice 85
1 Bob 90
2 Charlie 88
3 David 92
通过以上示例,我们成功保留了指定的列 Name 和 Grade。
使用 loc 方法保留指定列
除了直接通过列的名称来选取数据外,我们也可以使用 loc 方法来根据列的标签来选取数据。下面是一个示例代码:
import pandas as pd
# 创建一个包含学生信息的数据集
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
'Age': [20, 21, 22, 23],
'Gender': ['F', 'M', 'M', 'M'],
'Grade': [85, 90, 88, 92]}
df = pd.DataFrame(data)
# 保留指定的列
df_subset = df.loc[:, ['Name', 'Grade']]
print(df_subset)
运行以上代码,输出如下:
Name Grade
0 Alice 85
1 Bob 90
2 Charlie 88
3 David 92
通过以上示例,我们成功使用 loc 方法保留了指定的列 Name 和 Grade。
使用 iloc 方法保留指定列
除了使用 loc 方法外,我们也可以使用 iloc 方法来根据列的索引来选取数据。下面是一个示例代码:
import pandas as pd
# 创建一个包含学生信息的数据集
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
'Age': [20, 21, 22, 23],
'Gender': ['F', 'M', 'M', 'M'],
'Grade': [85, 90, 88, 92]}
df = pd.DataFrame(data)
# 保留指定的列
df_subset = df.iloc[:, [0, 3]]
print(df_subset)
运行以上代码,输出如下:
Name Grade
0 Alice 85
1 Bob 90
2 Charlie 88
3 David 92
通过以上示例,我们成功使用 iloc 方法保留了指定的列 Name 和 Grade。
总结
本文详细介绍了如何使用 pandas 保留指定列的方法,以及使用 iloc 和 loc 方法来选取列的示例代码。通过熟练掌握这些方法,我们能够高效地进行数据处理,提取出需要的信息。