Python Pandas – 从列中获取唯一值
在数据处理过程中,我们经常需要对某一列进行唯一值获取,这时就可以使用Python Pandas库中的unique()函数。
什么是unique()函数
Python Pandas库中的unique()函数是一种数据去重函数,可以返回Series或DataFrame指定列中的唯一值,无需排序。
下面是unique()函数的基本语法:
DataFrame/Series.unique()
其中,DataFrame指的是数据框,Series指的是数据帧中的一列。
示例 – 获取唯一值
假设现在有一份学生的成绩表格,其中包含了学生的姓名、年龄、性别和成绩四列数据,我们可以使用unique()函数来获取其中某一列的唯一值。
首先,我们需要创建一组示例数据:
import pandas as pd
data = {'Name': ['小明', '小红', '小红', '小刚', '小明'],
'Age': [18, 18, 20, 22, 21],
'Gender': ['男', '女', '女', '男', '男'],
'Score': [85, 92, 89, 76, 85]}
df = pd.DataFrame(data)
创建数据帧后,我们可以使用如下代码获取学生姓名这一列的唯一值:
unique_name = df['Name'].unique()
print(unique_name)
执行结果为:
['小明' '小红' '小刚']
同样地,我们也可以获取其他列的唯一值。比如对性别这一列:
unique_gender = df['Gender'].unique()
print(unique_gender)
执行结果为:
['男' '女']
注意事项
当在数据帧中存在缺失值时,unique()函数会将它们视为唯一值,因此需要额外注意。
结论
Python Pandas库中的unique()函数是一种数据去重函数,可用于获取数据帧中某一列的唯一值,是进行数据处理的常用函数之一。