Python – 计算Pandas DataFrame的列值中位数

在数据分析领域中，处理数据是经常遇到的问题之一。Pandas是一种功能强大、易于使用且流行的数据分析工具，可用于处理和操作大量数据。在处理数据时，计算数据的统计值是必不可少的部分。其中之一是计算中位数。在这篇文章中，我们将讨论如何使用Python和Pandas计算DataFrame的列值中位数。

创建数据

我们首先需要创建一个Pandas DataFrame对象。为此，我们可以使用以下代码：

import pandas as pd

data = {
    'A': [1, 2, 3, 4, 5],
    'B': [10, 20, 30, 40, 50],
    'C': [100, 200, 300, 400, 500]
}

df = pd.DataFrame(data)

这将创建一个具有3列和5行的DataFrame对象。我们可以使用以下代码来查看此数据：

print(df)

这将输出以下内容：

   A   B    C
0  1  10  100
1  2  20  200
2  3  30  300
3  4  40  400
4  5  50  500

计算中位数

现在我们可以开始计算DataFrame中每列的中位数了。使用Pandas的median()函数，我们可以轻松地计算DataFrame每列的中位数。以下是示例代码：

median_series = df.median()

print(median_series)

这将输出以下内容：

A      3.0
B     30.0
C    300.0
dtype: float64

在输出中，我们可以看到DataFrame的每个列的中位数。在这里，我们使用median()函数找到每列的中位数，然后将其存储在一个名为median_series的Series对象中。

将中位数应用于单独的列

在某些情况下，我们可能只需要计算DataFrame的单独一列的中位数。在这种情况下，我们可以使用以下代码：

column_median = df['A'].median()

print(column_median)

这将输出以下内容：

3.0

这是我们仅计算列A的中位数。我们可以使用相同的语法计算其他列的中位数。例如，计算列B的中位数：

column_median = df['B'].median()

print(column_median)

这将输出以下内容：

30.0

忽略NaN值

在实际的数据分析中，我们通常会遇到缺失值。在这种情况下，我们可能需要忽略NaN值并计算中位数。我们可以使用以下代码：

median_series = df.median(skipna=True)

print(median_series)

使用skipna=True参数，我们可以忽略NaN值并计算每列的中位数。

自定义函数计算中位数

在某些情况下，我们可能希望使用自定义函数计算DataFrame每列的中位数。对于这种情况，我们可以使用以下代码：

def custom_median(column):
    sorted_column = sorted(column)
    length = len(column)
    middle = length // 2
    if length % 2 == 0:
        return (sorted_column[middle - 1] + sorted_column[middle]) / 2
    else:
        return sorted_column[middle]

median_series = df.apply(custom_median)

print(median_series)

在这里，我们定义了一个名为custom_median()的函数，该函数将计算给定列的中位数。然后，我们使用Pandas的apply()函数将此函数应用于DataFrame每列并计算中位数。输出将与我们之前看到的内容相同。