PySpark 计算 PySpark DataFrame 列的众数

在本文中，我们将介绍如何使用 PySpark 计算 PySpark DataFrame 列的众数。众数是指在一组数据中出现次数最多的值。

什么是 PySpark？

PySpark 是一个基于 Python 的 Apache Spark API，用于大规模数据处理和分析。它提供了丰富的功能和工具，使得在分布式环境中进行数据处理变得更加简单和高效。众数计算是数据分析中常用的操作之一。

计算 DataFrame 列的众数

在 PySpark 中，我们可以使用 groupBy 和 count 方法来计算 DataFrame 列的众数。首先，我们需要导入必要的库和创建一个示例 DataFrame。

from pyspark.sql import SparkSession
from pyspark.sql.functions import col

# 创建 SparkSession
spark = SparkSession.builder.appName("Mode Calculation").getOrCreate()

# 创建示例 DataFrame
data = [("Alice", 25), ("Bob", 30), ("Alice", 35), ("Bob", 25), ("Alice", 30), ("Bob", 25)]
df = spark.createDataFrame(data, ["Name", "Age"])

df.show()

上述代码中，我们使用 SparkSession 创建了一个名为 “Mode Calculation” 的 SparkSession，并使用 createDataFrame 方法创建了一个示例 DataFrame，包含了两列数据：Name 和 Age。

接下来，我们使用 groupBy 和 count 方法计算出 Name 列的众数，并显示结果。

# 计算 Name 列的众数
mode = df.groupBy("Name").count().orderBy(col("count").desc()).first()

# 显示结果
print("Mode:", mode[0])

上述代码中，我们先使用 groupBy 方法按照 Name 列进行分组，然后使用 count 方法计算每个分组的计数。接着，我们按照计数的降序排序，并使用 first 方法获取第一个分组，即计数最多的分组。最后，我们打印出计数最多的分组的值，即 Name 列的众数。

完整示例

下面是完整的示例代码，用于计算 PySpark DataFrame 列的众数：

from pyspark.sql import SparkSession
from pyspark.sql.functions import col

# 创建 SparkSession
spark = SparkSession.builder.appName("Mode Calculation").getOrCreate()

# 创建示例 DataFrame
data = [("Alice", 25), ("Bob", 30), ("Alice", 35), ("Bob", 25), ("Alice", 30), ("Bob", 25)]
df = spark.createDataFrame(data, ["Name", "Age"])

# 计算 Name 列的众数
mode = df.groupBy("Name").count().orderBy(col("count").desc()).first()

# 显示结果
print("Mode:", mode[0])

运行上述代码，我们将得到以下输出：