Pandas 在数据框中选择多列
在数据分析中,Pandas 类库的 Dataframe 是经常使用的数据结构。当我们要选择多列时,有许多方法可以完成这个任务。在本文中,我们将介绍如何使用 Pandas 选择多列,并提供一些示例说明。
阅读更多:Pandas 教程
使用列名称选择列
选择单个列使用 []
运算符可以选择一个列,但使用 ,
运算符可以选择多个列。
import pandas as pd
#创建一个数据框
data = {'name': ['Alex', 'John', 'Mike'], 'age': [25, 30, 35], 'city': ['London', 'New York', 'San Francisco']}
df = pd.DataFrame(data)
# 选择单列
name_series = df['name']
# 选择多列
name_and_age = df['name', 'age']
使用iloc选择列
另一种选择列的方法是使用 Pandas 中的 .iloc
属性,可以通过整数指定要选择的行和列,而不是使用名称。
例如,以下代码将选择第 2 和第 3 列:
df.iloc[:,1:3]
使用loc选择列
选择行和列之间的所有项时,可以使用 Pandas 中的 .loc
属性。
例如,以下代码将选择名为“age”和“city”的所有行和列:
df.loc[:, ['age', 'city']]
使用索引选择列
可以使用蒟蒻索引来选择一个或多个列。例如,以下代码选择第一和第三列:
df[[0, 2]]
将列名存储在变量中使用
如果要使用的列名存储在变量中,可以使用变量来选择列。例如:
#将要选择的列存储在列表中
cols = ['name', 'age']
selected_data = df[cols]
使用query选择列
使用 .query
可以选择符合条件的行和列。
例如,在以下代码中,我们将选择具有年龄大于 30 岁的所有记录中的名称和年龄列:
selected_data = df.query('age > 30')[['name', 'age']]
总结
选择多列时,使用 Pandas 中的 []
或 ,
运算符;.iloc
和 .loc
属性;数字索引;存储列名的变量;.query
的功能。Pandas 中的这些方法可以更轻松地选择您需要的列。根据具体情况选择不同的方法,让您的数据分析更加高效准确。