Pandas 在数据框中选择多列

Pandas 在数据框中选择多列

在数据分析中,Pandas 类库的 Dataframe 是经常使用的数据结构。当我们要选择多列时,有许多方法可以完成这个任务。在本文中,我们将介绍如何使用 Pandas 选择多列,并提供一些示例说明。

阅读更多:Pandas 教程

使用列名称选择列

选择单个列使用 [] 运算符可以选择一个列,但使用 , 运算符可以选择多个列。

import pandas as pd

#创建一个数据框
data = {'name': ['Alex', 'John', 'Mike'], 'age': [25, 30, 35], 'city': ['London', 'New York', 'San Francisco']}
df = pd.DataFrame(data)

# 选择单列
name_series = df['name']

# 选择多列
name_and_age = df['name', 'age']

使用iloc选择列

另一种选择列的方法是使用 Pandas 中的 .iloc 属性,可以通过整数指定要选择的行和列,而不是使用名称。

例如,以下代码将选择第 2 和第 3 列:

df.iloc[:,1:3]

使用loc选择列

选择行和列之间的所有项时,可以使用 Pandas 中的 .loc 属性。

例如,以下代码将选择名为“age”和“city”的所有行和列:

df.loc[:, ['age', 'city']]

使用索引选择列

可以使用蒟蒻索引来选择一个或多个列。例如,以下代码选择第一和第三列:

df[[0, 2]]

将列名存储在变量中使用

如果要使用的列名存储在变量中,可以使用变量来选择列。例如:

#将要选择的列存储在列表中
cols = ['name', 'age']

selected_data = df[cols]

使用query选择列

使用 .query 可以选择符合条件的行和列。

例如,在以下代码中,我们将选择具有年龄大于 30 岁的所有记录中的名称和年龄列:

selected_data = df.query('age > 30')[['name', 'age']]

总结

选择多列时,使用 Pandas 中的 [], 运算符;.iloc.loc 属性;数字索引;存储列名的变量;.query 的功能。Pandas 中的这些方法可以更轻松地选择您需要的列。根据具体情况选择不同的方法,让您的数据分析更加高效准确。

Camera课程

Python教程

Java教程

Web教程

数据库教程

图形图像教程

办公软件教程

Linux教程

计算机教程

大数据教程

开发工具教程