Pandas中的max()方法为什么有时返回NaN，有时忽略它

在Pandas中，max()方法常用于获取Series或DataFrame中的最大值。但是，有时候我们会发现max()方法返回了NaN，而有时候却忽略了它，这让人很困惑。本文将详细解释这个问题，并且通过示例来进一步说明。

什么是NaN?

NaN全称为Not a Number，它表示非数字的值。在Python中，NaN通常表示缺失值或无效值。在Pandas中，使用Numpy库中的np.nan来表示NaN值。

Pandas中的max()方法

在Pandas中，max()方法用于获取Series或DataFrame中的最大值。使用max()方法我们可以获取DataFrame中的最高收盘价，如下所示：

import pandas as pd

df = pd.read_csv("stock.csv")
max_close = df["close"].max()
print("最高收盘价是：", max_close)

结果可能如下所示：

最高收盘价是： 23.0

max()方法返回NaN

有时候DataFrame中的某些值可能是NaN。如果通过max()方法获取最大值时，有NaN值存在，那么max()方法会忽略它，返回的是除NaN值外的最大值。例如：

import pandas as pd
import numpy as np

data = {"a": [1, 2, 3, np.nan, 5, 6]}
df = pd.DataFrame(data)
max_a = df["a"].max()
print(max_a)

结果可能如下所示：

6.0

在这个示例中，DataFrame中的一行值为NaN。即使存在NaN值，max()方法仍将返回除NaN值外的最大值。

max()方法忽略NaN

但是，在有些情况下，max()返回NaN值也是我们期望的结果。例如，在计算DataFrame中的各列最大值时，有些列可能完全由NaN值组成。在这种情况下，我们期望max()方法返回NaN值。例如：

import pandas as pd
import numpy as np

data = {"a": [1, 2, 3, np.nan, 5, 6], "b": [np.nan, np.nan, np.nan, np.nan, np.nan, np.nan]}
df = pd.DataFrame(data)
max_a = df[["a", "b"]].max()
print(max_a)

结果如下所示：

a    6.0
b    NaN
dtype: float64

在这个示例中，DataFrame中的列b完全由NaN值组成。max()方法返回了一个Series，包含列a和b的最大值。注意到，max()方法返回的b列的值为NaN。这是因为在获取b列的最大值时，由于b列完全由NaN值组成，max()方法只能返回NaN值。

此外，如果使用max()方法获取DataFrame中多个列的最大值时，传递参数axis = 1，max()方法会忽略由NaN值组成的行。例如：

import pandas as pd
import numpy as np

data = {"a": [1, 2, 3, np.nan, 5, 6], "b": [2, np.nan, np.nan, 4, 5, 6]}
df = pd.DataFrame(data)
max_values = df.max(axis=1)
print(max_values)

结果如下所示：

0    2.0
1    2.0
2    3.0
3    4.0
4    5.0
5    6.0
dtype: float64

总结

在本文中，我们解释了为什么max()方法有时会返回NaN，而有时却忽略它。我们还通过多个示例说明了这个问题。当DataFrame中存在NaN值时，max()方法会将其忽略，在返回最大值之前我们详细介绍的时候，max()方法只返回除NaN值外的最大值。但是，在某些情况下，我们期望max()方法返回NaN值。在这种情况下，我们需要采取一些方法来解决这个问题，比如使用skipna参数。

通过本文的介绍，我们可以知道，在使用max()方法获取Series或DataFrame中的最大值时，需要注意数据中是否存在NaN值，并根据具体情况来决定是否忽略NaN值。这将有助于我们更好地处理数据分析中的问题。