Pyspark Dataframe中如何更改列类型

Python是一种多功能和强大的编程语言，在数据分析和处理领域中广受欢迎。借助其广泛的库和框架，Python为开发人员提供了处理复杂数据操作的强大工具。PySpark是Apache Spark的Python API，通过提供大数据处理的分布式计算能力，将Python的功能提升到了一个新的水平。PySpark的一个基本组成部分是DataFrame，它是一种表格型数据结构，可以无缝地操作和分析大型数据集。

在本教程中，我们将探讨使用PySpark DataFrame时与之相关的一个重要方面：更改列类型。了解和修改列类型在数据转换、验证和分析方面至关重要。通过改变特定列的数据类型，我们可以确保数据的一致性，准确执行计算，优化内存使用。在本文的下一部分，我们将深入介绍PySpark中可用的各种方法来更改列类型，并讨论它们的优点和局限性。

方法1：使用cast()函数在PySpark Dataframe中更改列类型

在本节中，我们将探索在PySpark DataFrame中更改列类型的第一种方法：使用cast()函数。cast()函数允许我们将一列从一种数据类型转换为另一种数据类型，便于数据转换和操作。

在PySpark DataFrame中，cast()函数用于明确更改列的数据类型。它将所需的数据类型作为参数，并返回具有修改后列类型的新DataFrame。当我们希望将一列转换为特定类型进行操作，或者当列的类型需要与下游处理要求对齐时，cast()函数尤其有用。

以下是使用cast()函数的语法：

df.withColumn("new_column_name", df["column_name"].cast("desired_data_type"))

考虑一个例子，我们有一个名为”age”的字符串类型列的DataFrame，并且我们想要使用cast()函数将其转换为整型。

示例

# Creating a data frame with a string column
data = [("Prine", "25"), ("Mukul", "30"), ("Rohit", "35")]
df = spark.createDataFrame(data, ["name", "age"])
df.show()

# Converting the "age" column from string to integer
df = df.withColumn("age", df["age"].cast("integer"))
df.printSchema()

输出

+-----+---+
| name|age|
+-----+---+
| Prince| 25|
| Mukul| 30|
|  Rohit| 35|
+-----+---+

root
 |-- name: string (nullable = true)
 |-- age: integer (nullable = true)

在上面的示例中，我们使用cast（）函数将“age”列的数据类型从字符串更改为整数。生成的DataFrame具有修改后的列类型，如打印的模式所示。

方法2：使用withColumn（）函数在PySpark DataFrame中更改列类型

在本节中，我们将探讨另一种在PySpark DataFrame中更改列类型的方法：使用withColumn（）函数。withColumn（）函数允许我们在保留DataFrame中现有列的同时创建一个带有所需数据类型的新列。

withColumn（）函数接受两个参数：列名和定义列值的表达式。通过在表达式中指定所需的数据类型，我们可以有效地更改列类型。

使用withColumn（）函数更改列类型的语法如下：

df.withColumn("new_column_name", expression)

让我们考虑一个例子，在这个例子中，我们有一个名为“price”的字符串类型列的DataFrame，我们想使用withColumn()函数将其转换为浮点类型。

示例

# Creating a data frame with a string column
data = [("Apple", "2.99"), ("Orange", "1.99"), ("Banana", "0.99")]
df = spark.createDataFrame(data, ["product", "price"])
df.show()

# Converting the "price" column from string to float
df = df.withColumn("price", df["price"].cast("float"))
df.printSchema()

输出

+-------+-----+
|product|price|
+-------+-----+
|  Apple| 2.99|
| Orange| 1.99|
| Banana| 0.99|
+-------+-----+

root
 |-- product: string (nullable = true)
 |-- price: float (nullable = true)

在上面的示例中，我们使用withColumn()函数创建了一个名为“price”的新列，并更改了数据类型。生成的DataFrame具有更新的列类型，如打印的模式所示。

方法3：使用SQL表达式在PySpark DataFrame中更改列类型

在本节中，我们将探讨最后一种也是最强大的方法来更改PySpark DataFrame中的列类型：使用SQL表达式。在PySpark中，SQL表达式使我们能够利用SQL查询的表达能力来执行各种操作，包括类型转换。

PySpark中的SQL表达式提供了一种方便而熟悉的方式来在DataFrames中操作数据。这些表达式类似于标准SQL语法，使我们能够对数据进行复杂的计算、聚合和转换。

要使用SQL表达式更改列类型，我们可以利用select()函数和expr()函数来定义所需的数据类型。expr()函数允许我们在PySpark中编写类似SQL的表达式，从而方便地操作列的值和更改它们的类型。

下面是一个示例，演示如何使用SQL表达式更改列类型：

示例

from pyspark.sql.functions import expr

# Creating a data frame with a string column
data = [("Prince", "25"), ("Mukul", "30"), ("Rohit", "35")]
df = spark.createDataFrame(data, ["name", "age"])
df.show()

# Converting the "age" column from string to integer using SQL expressions
df = df.select("name", expr("CAST(age AS INT) AS age"))
df.printSchema()

输出

+-----+---+
| name|age|
+-----+---+
| Prince| 25|
| Mukul| 30|
|  Rohit| 35|
+-----+---+

root
 |-- name: string (nullable = true)
 |-- age: integer (nullable = true)

在上面的示例中，我们使用select（）函数和expr（）函数一起更改列类型。我们在expr（）函数内部应用了SQL表达式CAST（age AS INT），将“age”列从字符串转换为整数。所得到的DataFrame具有修改后的列类型，如所示的打印模式。

SQL表达式在需要执行高级数据操作或在单个语句中合并多个操作时特别有用。它们允许对列转换进行细粒度控制，并且对于大规模数据处理非常高效。

结论

在本教程中，我们探讨了PySpark中用于更改数据帧中列类型的各种方法。我们为每种方法提供了示例，以便您更容易理解和应用它们在自己的项目中。首先，我们讨论了cast（）函数，它允许我们明确地将列从一种数据类型转换为另一种。接下来，我们探索了withColumn（）函数，它使我们能够创建一个具有所需数据类型的新列，同时保留DataFrame中的现有列。最后，我们介绍了PySpark中的SQL表达式，它提供了在数据框内部操作数据的强大方法。我们展示了如何使用select（）函数和expr（）函数利用SQL表达式来更改列类型。通过了解和利用这些方法，您可以确保数据一致性，执行准确的计算，并优化PySpark项目中的内存使用。