PySpark 从S3读取文件

在本文中，我们将介绍如何使用PySpark从Amazon S3中读取文件。Amazon S3（Simple Storage Service）是一个可扩展的对象存储服务，可以用于存储和检索大量数据。

阅读更多：PySpark 教程

1. 配置Amazon S3访问密钥

在使用PySpark读取S3文件之前，我们需要配置访问S3的密钥。这些密钥将用于认证和授权PySpark访问S3的权限。

首先，在Amazon Web Services（AWS）的控制台上，转到您的账户下的IAM（Identity and Access Management）服务。

点击“用户”选项卡，然后点击“添加用户”按钮。

为新用户指定一个用户名，并选择“编程访问”选项。接下来，为该用户分配适当的权限。在此示例中，我们将为此用户授予所有S3的读取权限。

完成之后，您将获得一个访问密钥ID和一个秘密访问密钥。请注意将这些密钥存储在安全的地方。

2. 使用PySpark读取S3文件

PySpark提供了许多用于从S3中读取文件的方法。我们将介绍两种常用的方法。

首先，首先要确保您已经安装了PySpark。在终端或命令提示符中，运行以下命令：

pip install pyspark

2.1 使用SparkSession读取S3文件

SparkSession是PySpark中与Spark进行交互的入口点。它是在Spark 2.0版本中引入的，并为我们提供了许多用于处理结构化数据的API。

下面是一个使用SparkSession读取S3文件的示例：

from pyspark.sql import SparkSession

# 创建SparkSession对象
spark = SparkSession.builder \
    .appName("Read S3 Files") \
    .getOrCreate()

# 读取S3上的CSV文件
df = spark.read \
    .format("csv") \
    .option("header", "true") \
    .load("s3a://bucket-name/folder-path/file.csv")

在上面的示例中，我们首先创建了一个SparkSession对象，并指定了应用程序的名称。然后，我们使用SparkSession的read方法来读取S3上的CSV文件。在load方法中，我们需要指定S3文件的路径，该路径必须以s3a://开头。

您还可以根据需要使用其他format和option参数来读取不同类型的文件和配置。

2.2 使用RDD读取S3文件

RDD（Resilient Distributed Dataset）是PySpark中的一个基本概念，表示分布在集群上的不可变对象的集合。通过使用RDD，我们可以在PySpark中以并行方式处理大规模数据集。

下面是一个使用RDD读取S3文件的示例：

from pyspark import SparkContext

# 创建SparkContext对象
sc = SparkContext(appName="Read S3 Files")

# 读取S3上的文本文件
lines = sc.textFile("s3a://bucket-name/folder-path/file.txt")

# 打印文件的内容
for line in lines.collect():
    print(line)

在上面的示例中，我们首先创建了一个SparkContext对象，并指定了应用程序的名称。然后，我们使用textFile方法来读取S3上的文本文件。同样，文件的路径需要以s3a://开头。