pandas nunique|极客笔记

pandas nunique

在数据处理和分析中，经常会遇到需要对数据进行去重和统计不重复值的情况。pandas中的nunique方法可以帮助我们快速计算DataFrame或Series中不同值的数量。本文将详细介绍nunique方法的用法，以及在实际应用中的场景和示例。

1. `nunique`方法的基本用法

在pandas中，nunique方法用于计算一个DataFrame或Series中不同值的数量。其基本语法如下：

DataFrame.nunique(axis=0, dropna=True)
Series.nunique(dropna=True)

axis参数用于指定计算的方向，0表示按列计算不同值的数量，1表示按行计算。默认为0。
dropna参数用于指定是否排除缺失值。默认为True，即不包括缺失值在内。

接下来我们通过一些示例来演示nunique方法的用法。

2. 示例

2.1 对Series使用`nunique`方法

首先，我们创建一个包含重复值的Series：

import pandas as pd

data = pd.Series([1, 2, 3, 1, 2, 4, 5, 1, 2, 3])
print(data)

运行结果如下：

0    1
1    2
2    3
3    1
4    2
5    4
6    5
7    1
8    2
9    3
dtype: int64

接下来，我们使用nunique方法计算不同值的数量：

unique_count = data.nunique()
print(f"不同值的数量：{unique_count}")

运行结果：

不同值的数量：5

2.2 对DataFrame的列使用`nunique`方法

接下来，我们创建一个包含重复值的DataFrame：

data = pd.DataFrame({
    'A': [1, 2, 3, 4, 1],
    'B': ['a', 'b', 'c', 'a', 'b'],
    'C': [1, 2, 3, 1, 2]
})

print(data)

运行结果如下：

然后，我们对DataFrame的列使用nunique方法，计算各列不同值的数量：

unique_count = data.nunique()
print(unique_count)

运行结果：

A    4
B    3
C    3
dtype: int64

2.3 指定axis参数

我们也可以指定axis参数来改变计算的方向。例如，对DataFrame的行使用nunique方法：

unique_count = data.nunique(axis=1)
print(unique_count)

运行结果：

0    3
1    3
2    3
3    3
4    3
dtype: int64

2.4 指定dropna参数

默认情况下，nunique方法会排除缺失值进行计算。我们可以通过设置dropna=False来包括缺失值。下面是一个包含缺失值的示例：

data = pd.Series([1, 2, 3, None, 2, 1])

unique_count = data.nunique(dropna=False)
print(f"包括缺失值的不同值数量：{unique_count}")

运行结果：

包括缺失值的不同值数量：4

3. 实际应用场景

nunique方法在数据分析和处理中有着广泛的应用场景，例如：

去除数据中的重复值
对数据集中的分类变量进行统计
检查数据集中某列的唯一值数量

在处理大规模数据时，nunique方法可以帮助我们快速了解数据的分布情况，并进行相应的数据清洗和分析。

4. 总结

本文详细介绍了pandas中nunique方法的用法，包括基本语法、示例和实际应用场景。通过nunique方法，我们可以快速计算DataFrame或Series中不同值的数量，为数据处理和分析提供便利。在实际工作中，我们可以灵活运用nunique方法对数据进行清洗和探索，从而更好地理解和分析数据。