PySpark 如何在Google Dataproc上运行Spark 3.2.0

在本文中，我们将介绍如何在Google Dataproc上运行Spark 3.2.0。Google Dataproc是一个托管式的Spark和Hadoop服务，可以轻松地在云上进行大数据处理。我们将指导您如何设置和配置Dataproc集群，并演示如何在Spark 3.2.0上提交和运行作业。

阅读更多：PySpark 教程

步骤 1: 创建Dataproc集群

首先，我们需要在Google Cloud控制台上创建一个Dataproc集群。登录Google Cloud控制台后，在导航菜单中找到Dataproc。点击进入Dataproc管理页面。然后点击”创建集群”按钮。

在集群配置页面，您可以命名您的集群，并选择所需的区域和区域类型。确保选择了Spark版本3.2.0。您还可以根据需求配置其他参数，如机器类型、节点数量等。完成配置后，点击”创建”按钮来创建您的集群。

步骤 2: 上传作业代码和数据

在创建集群后，我们需要上传我们的作业代码和数据到集群。您可以使用Google Cloud控制台的云存储功能来上传文件。将您的作业代码和数据打包成一个压缩文件，并上传到云存储。

在云存储中创建一个存储桶，并将上传的压缩文件放入该存储桶中。记下您的存储桶路径，我们稍后将在提交作业时使用。

步骤 3: 提交Spark作业

在DataProc集群上提交Spark作业可以通过命令行或Web界面完成。我们将介绍两种方法。

方法一: 命令行方式

使用gcloud命令行工具，您可以在DataProc集群上提交和运行Spark作业。打开终端并执行以下命令：

gcloud dataproc jobs submit spark --cluster <cluster-name> --class <main-class> --jars <additional-jars> --files <additional-files> -- <main-jar> <args>

<cluster-name>: 指定Dataproc集群的名称。
<main-class>: 指定您的Spark应用程序的主类名。
<additional-jars>: 如果您的应用程序需要其他依赖库，可以在此处指定额外的JAR文件。多个JAR文件以逗号分隔。
<additional-files>: 如果您的应用程序需要其他文件，可以在此处指定额外的文件。多个文件以逗号分隔。
<main-jar>: 指定您的Spark应用程序的主JAR文件。
<args>: 如果您的应用程序需要命令行参数，可以在此处指定。

方法二: Web界面方式

您还可以使用Dataproc Web界面来提交Spark作业。在Google Cloud控制台的Dataproc管理页面上，找到您的集群并点击其名称。然后点击”提交作业”按钮。

在作业配置页面，填写必要的信息，如作业类型、主类、JAR文件等。您还可以选择上传额外的JAR文件和文件，并设置作业的其他参数。完成配置后，点击”提交”按钮即可提交作业。

总结

在本文中，我们介绍了如何在Google Dataproc上运行Spark 3.2.0。首先，我们创建了一个Dataproc集群，并上传了作业代码和数据。然后，我们演示了如何使用命令行和Web界面两种方式提交Spark作业。通过这些步骤，您可以轻松地在Google Dataproc上处理大数据并运行Spark 3.2.0作业。