Python Pandas – 从列中获取唯一值

Python Pandas – 从列中获取唯一值

在数据处理过程中,我们经常需要对某一列进行唯一值获取,这时就可以使用Python Pandas库中的unique()函数。

什么是unique()函数

Python Pandas库中的unique()函数是一种数据去重函数,可以返回Series或DataFrame指定列中的唯一值,无需排序。

下面是unique()函数的基本语法:

DataFrame/Series.unique()

其中,DataFrame指的是数据框,Series指的是数据帧中的一列。

示例 – 获取唯一值

假设现在有一份学生的成绩表格,其中包含了学生的姓名、年龄、性别和成绩四列数据,我们可以使用unique()函数来获取其中某一列的唯一值。

首先,我们需要创建一组示例数据:

import pandas as pd

data = {'Name': ['小明', '小红', '小红', '小刚', '小明'],
       'Age': [18, 18, 20, 22, 21],
       'Gender': ['男', '女', '女', '男', '男'],
       'Score': [85, 92, 89, 76, 85]}

df = pd.DataFrame(data)

创建数据帧后,我们可以使用如下代码获取学生姓名这一列的唯一值:

unique_name = df['Name'].unique()
print(unique_name)

执行结果为:

['小明' '小红' '小刚']

同样地,我们也可以获取其他列的唯一值。比如对性别这一列:

unique_gender = df['Gender'].unique()
print(unique_gender)

执行结果为:

['男' '女']

注意事项

当在数据帧中存在缺失值时,unique()函数会将它们视为唯一值,因此需要额外注意。

结论

Python Pandas库中的unique()函数是一种数据去重函数,可用于获取数据帧中某一列的唯一值,是进行数据处理的常用函数之一。

Camera课程

Python教程

Java教程

Web教程

数据库教程

图形图像教程

办公软件教程

Linux教程

计算机教程

大数据教程

开发工具教程