PySpark 如何在Spark中按多个键进行分组

在本文中，我们将介绍如何在PySpark中使用group by语句按照多个键进行分组操作。Spark是一个快速且分布式的计算引擎，PySpark是Spark的Python API。通过使用PySpark，我们可以使用类似于SQL的语法来处理大规模数据集。

阅读更多：PySpark 教程

什么是分组操作？

分组操作是按照一个或多个列的值将数据集分成不同的组的过程。在PySpark中，我们可以通过使用group by语句来实现分组操作。分组操作通常与聚合操作一起使用，例如计算每个组的总和、平均值等。

如何使用group by进行单一键分组？

在PySpark中，使用group by进行单一键分组非常简单。只需指定要分组的列，并使用group by关键字即可。下面是一个示例代码：

from pyspark.sql import SparkSession

# 创建Spark会话
spark = SparkSession.builder.appName("GroupByExample").getOrCreate()

# 读取数据集
data = [("Alice", 23, "San Francisco"), ("Bob", 27, "New York"), ("Alice", 30, "San Francisco")]
df = spark.createDataFrame(data, ["Name", "Age", "City"])

# 单一键分组
result = df.groupBy("Name").count()

# 显示结果
result.show()

上述代码中，我们首先创建了一个名为”GroupByExample”的Spark会话。然后，我们创建了一个包含姓名、年龄和城市的数据集，并将其转换为Spark DataFrame。接下来，我们使用groupBy("Name")来按照姓名列进行分组，并使用count()函数来计算每个组的数量。最后，我们通过show()函数显示了结果。

执行上述代码后，将会得到以下结果：

+-----+-----+
| Name|count|
+-----+-----+
|Alice|    2|
|  Bob|    1|
+-----+-----+

结果显示了根据姓名分组后的每个组的数量。

如何使用group by进行多重键分组？

使用group by进行多重键分组也很简单。只需将要分组的列以列表形式传递给groupBy()函数即可。下面是一个示例代码：

# 多重键分组
result = df.groupBy(["Name", "City"]).count()

# 显示结果
result.show()

在上述代码中，我们使用groupBy(["Name", "City"])来根据姓名和城市列进行分组。我们仍然使用count()函数计算每个组的数量，并用show()函数显示了结果。

执行上述代码后，将会得到以下结果：

+-----+-------------+-----+
| Name|         City|count|
+-----+-------------+-----+
|  Bob|     New York|    1|
|Alice|San Francisco|    2|
+-----+-------------+-----+

结果显示了根据姓名和城市分组后的每个组的数量。

总结

本文介绍了如何在PySpark中使用group by语句按照多个键进行分组操作。我们首先了解了分组操作的概念，并了解了如何使用单一键进行分组。然后，我们演示了如何使用groupBy()函数和多个列来进行多重键分组。通过这些示例，我们可以按照我们的需求对数据集进行灵活的分组操作。PySpark提供了强大的工具和函数来处理大规模数据集，使我们能够更高效地进行数据分析和处理。

希望本文对您理解和使用PySpark的group by语句有所帮助！