Scala Spark多个数据框的合并（unionAll）

在本文中，我们将介绍如何使用Scala语言和Spark框架来合并多个数据框（DataFrame）。

在Spark中，DataFrame是一种强大的数据结构，可以用来表示分布式的数据集。它类似于传统数据库中的表格，可以进行各种操作和转换。在处理大规模的数据集时，我们经常需要将多个数据框合并成一个大的数据框，以便进行后续的分析和计算。

阅读更多：Scala 教程

创建示例数据框

首先，我们需要创建一些示例数据框来演示合并操作。以下是创建三个示例数据框的代码：

import org.apache.spark.sql.{SparkSession, DataFrame}
import org.apache.spark.sql.functions._

val spark = SparkSession.builder()
  .appName("UnionAll Example")
  .getOrCreate()

import spark.implicits._

// 创建示例数据框1
val df1 = Seq(
  ("Alice", 25),
  ("Bob", 30),
  ("Charlie", 35)
).toDF("name", "age")

// 创建示例数据框2
val df2 = Seq(
  ("David", 40),
  ("Eve", 45),
  ("Frank", 50)
).toDF("name", "age")

// 创建示例数据框3
val df3 = Seq(
  ("Grace", 55),
  ("Henry", 60),
  ("Ivy", 65)
).toDF("name", "age")

我们创建了三个数据框df1，df2和df3，每个数据框包含两列name和age，用于表示人名和年龄。

使用unionAll方法合并数据框

在Spark中，我们可以使用unionAll方法将多个数据框合并成一个大的数据框。这个方法可以接受多个参数，每个参数都是一个待合并的数据框。以下是合并三个数据框的示例代码：

// 合并三个数据框
val mergedDf = df1.unionAll(df2).unionAll(df3)

通过连续调用unionAll方法，我们将df1、df2和df3合并成了一个大的数据框mergedDf。

查看合并后的数据框

为了验证合并操作是否成功，我们可以使用show方法查看合并后的数据框的内容。以下是打印合并后的数据框的示例代码：

// 打印合并后的数据框
mergedDf.show()

执行以上代码后，我们会看到合并后的数据框的内容，如下所示：

+-------+---+
|   name|age|
+-------+---+
|  Alice| 25|
|    Bob| 30|
|Charlie| 35|
|  David| 40|
|    Eve| 45|
|  Frank| 50|
|  Grace| 55|
|  Henry| 60|
|    Ivy| 65|
+-------+---+

我们可以看到合并后的数据框包含了所有输入数据框的行。