PySpark 如何在dataframe中按行分割成两个dataframe

PySpark dataframe被定义为分布式数据的集合，可以在不同的机器上使用，并将结构化数据生成到一个命名列中。术语“slice”通常用于表示数据的分割。在Python中，我们有一些内置函数，如limit（），collect（），exceptAll（）等，可以用来将PySpark dataframe按行切割为两个dataframe。

语法

以下示例中使用了以下语法：

limit()

这是Python中的一个内置方法，可以通过指定整数值来设置行范围。

subtract()

subtract()方法以一个新的数据帧的形式返回行的结果，这个数据不包含在另一个数据帧中。

collect()

Pyspark collect用于从给定的数据集中检索所有元素，可以通过循环和变量来使用。

createDataFrame()

这是Python中的一个内置方法，它使用schema参数来定义数据帧的模式。

[: before_slicing] [after_slicing :]

上面的表示法被称为列表切片，它将被用于按行将数据框分割成两部分。

head()

通常，在Python中，head()方法表示从数据表中提取5行数据，但在这里它接受一些参数，并根据给定的条件返回结果。

exceptAll()

这是Python中的一个内置函数，遵循PySpark模块，它返回一个新的数据框，其中包括DataFrame中的行，但不包括另一个DataFrame中的行，同时保留重复项。

count()

这是Python中的一个内置函数，用于返回特定数量的行作为结果。

drop()

drop方法可以删除特定的行或列。

Window.orderBy()

PySpark窗口函数是通过计算结果，如行号或排名来定义的。orderBy()是分区数据的唯一方法。

安装要求

pip install pyspark

这个必要的命令用于安装帮助运行PySpark程序。

使用Limit()和Subtract()方法

limit()和subtract方法用于将单个数据转换为两个按行排列的数据帧。limit()用于设置具体的行数，将整数值赋值给它，而subtract方法可用于包含在另一个数据帧中不存在的唯一行。

示例

在下面的示例中，我们首先导入pyspark和SparkSession模块，它将创建数据帧的会话。然后将数据的值设置为变量 rows 的行数据。接下来，将数据的列值设置为变量 cols 。现在使用名为 createDataFrame() 的方法与SparkSession模块一起使用，将行和列定义为数据帧的两个不同的模式，并将其存储在变量 df_first 中。然后初始化变量 df_second ，将其值设置为名为 subtract() 的内置函数，它接受变量 df_first 作为参数，它将返回新的数据帧。最后，我们使用 show() 方法对变量df_first和df_second进行操作，以获得结果。

# Import the PySpark module
import pyspark
from pyspark.sql 
import SparkSession
# Create the session
Spark_Session = SparkSession.builder.appName(
   'EMPLOYEE DATA'
).getOrCreate()
# rows of Dataframe
rows = [['1', 'RAHUL', 'INDIA','1243'],
   ['2','PETER', 'SRI LANKA','5461'],
   [ '3',' JOHN', 'SOUTH KOREA','2224'],
   [ '4', 'MARK', 'NEWYORK','9985'],
   [ '5', 'SUNNY', 'BANGLADESH','8912']
]
# Columns of DataFrame
cols = ['S.N', 'EMPLOYEE NAME', 'COUNTRY', 'EMP_ID']
# DataFrame creation for rows and columns
df = Spark_Session.createDataFrame(rows, cols)
# Getting the first two slicing of rows
df_first = df.limit(2)
# Getting the second slicing by removing the variable df1
df_second = df.subtract(df_first)
# first slice with 2 rows with columns names
df_first.show()
# Second slice with 3 rows with columns names
df_second.show()

输出

+---+-------------+---------+------+
|S.N|EMPLOYEE NAME|  COUNTRY|EMP_ID|
+---+-------------+---------+------+
|  1|        RAHUL|    INDIA|  1243|
|  2|        PETER|SRI LANKA|  5461|
+---+-------------+---------+------+

+---+-------------+-----------+------+
|S.N|EMPLOYEE NAME|    COUNTRY|EMP_ID|
+---+-------------+-----------+------+
|  3|         JOHN|SOUTH KOREA|  2224|
|  5|        SUNNY| BANGLADESH|  8912|
|  4|         MARK|    NEWYORK|  9985|
+---+-------------+-----------+------+

使用Collect()和CreateDataFrame()方法

collect方法用于检索给定数据中的所有元素，而createDataFrame()方法将数据帧的两个模式分开。

注意，模式是由表的结构定义的。

示例

在以下示例中，首先使用SparkSession创建会话。然后初始化变量data，将行数据设置为列表格式。然后使用方法createDataFrame()与spark一起接受参数- data（给定行）和[“Name”, “Age”]（设置列的名称）来创建数据帧。为了获取行的列表，它将使用collect()方法作为变量df的对象引用，并将其存储在变量rows中。接下来，我们使用两个列表切片，即rows1和rows2。继续使用内置方法createDataFrame()，它接受两个参数- name_of_rows（rows1和rows2）和df.schema（设置模式的数据帧），并分别将其存储在变量df1和df2中。最后，使用show函数和这两个变量df1和df2来获取结果。

from pyspark.sql 
import SparkSession
# Create the Spark session
spark = SparkSession.builder.appName("EMPLOYEE DATA").getOrCreate()
# Create the sample dataframe
data = [("Vivek", 31), ("Aman", 20), ("Sohan", 13), ("David", 24)]
df = spark.createDataFrame(data, ["Name", "Age"])
# Getting the list of row objects using the collect function
rows = df.collect()
# Getting two rows of the list by using slicing
rows1 = rows[:2]
rows2 = rows[2:]
# Convert the lists of Rows to PySpark DataFrames
df1 = spark.createDataFrame(rows1, df.schema)
df2 = spark.createDataFrame(rows2, df.schema)
# result
df1.show()
df2.show()

输出

+-----+---+

| Name|Age|
+-----+---+
|Vivek| 31|
| Aman| 20|
+-----+---+

+-----+---+
| Name|Age|
+-----+---+
|Sohan| 13|
|David| 24|
+-----+---+

使用Count()、Filter()和Drop()方法

在这个程序中，将数据框分成两个行数据框需要使用Count()和Filter()方法，它们可以将特定唯一行分开。Count()方法返回总行数，而Filter()方法用于将数据框的两个不同行分开。然后，Drop()方法会删除表示数据框分区的行。

示例

在下面的示例中，首先建立Spark会话，然后将数据行存储在名为data的变量中。接下来，使用createDataFrame()与Spark一起设置列名，createDataFrame()接受两个参数- data（设置行）和list（设置列名），并将结果存储在变量df中。然后使用df.count()将总行数存储在变量total_rows中。接下来，定义第一个数据框的行数并将其存储在变量n_rows_first_df中。然后使用内置方法row_number()、over()和Window.orderBy()向数据框添加行号列。现在使用内置方法filter()将数据框分成两个不同的行数据框，并将结果分别存储在变量中。最后，使用两个不同的show()方法和两个不同的变量获取结果，以获得两个行数据框的形式。

from pyspark.sql 
import SparkSession, Window
from pyspark.sql.functions import row_number
# Create a SparkSession
spark = SparkSession.builder.getOrCreate()
# Create the original DataFrame
data = [("Rabina", 35), ("Stephen", 31), ("Raman", 33), ("Salman", 44),("Meera",37)]
df = spark.createDataFrame(data, ["Name", "Age"])
# Get the total number of rows
total_rows = df.count()
# Define the number of rows for the first DataFrame
n_rows_first_df = 2
# Add a row number column to the DataFrame
df_with_row_number = df.withColumn("row_number", row_number().over(Window.orderBy("Name")))
# Slice the DataFrame into two using filter()
first_df = df_with_row_number.filter(df_with_row_number.row_number <= n_rows_first_df).drop("row_number")
second_df = df_with_row_number.filter(df_with_row_number.row_number > n_rows_first_df).drop("row_number")
# Show the resulting DataFrames
first_df.show()
second_df.show()

输出

+------+---+
|  Name|Age|
+------+---+
| Meera| 37|
|Rabina| 35|
+------+---+

+-------+---+
|   Name|Age|
+-------+---+
|  Raman| 33|
| Salman| 44|
|Stephen| 31|
+-------+---+

使用Head()和ExceptAll()方法

将数据框分为两个以行为基础的数据框，它使用了两个方法head()和exceptAll()来将其中不重复的数据行分开。

示例

在以下示例中，它使用内置的count方法来获取总行数。然后，将第一个数据框的行数赋值给变量n_rows_first_df。为了创建两个数据框，它将使用三个不同的内置函数，即head()、createDataFrame()和exceptAll()，并将其存储在各自的变量中。最后，它将使用两个show()函数来获取这两个以行为基础的数据框。

from pyspark.sql 
import SparkSession

# Create a SparkSession
spark = SparkSession.builder.getOrCreate()

# Create the original DataFrame
data = [("karisma", 25), ("Bobby", 30), ("Champak", 35), ("Mark", 40)]
df = spark.createDataFrame(data, ["Name", "Age"])

# Get the total number of rows
total_rows = df.count()

# Define the number of rows for the first DataFrame
n_rows_first_df = 2

# Slice the DataFrame into two using head() and exceptAll()
first_rows = df.head(n_rows_first_df)
first_df = spark.createDataFrame(first_rows, df.schema)
second_df = df.exceptAll(first_df)

# Show the resulting DataFrames
first_df.show()
second_df.show()

输出

+-------+---+
|   Name|Age|
+-------+---+
|karisma| 25|
|  Bobby| 30|
+-------+---+

+-------+---+
|   Name|Age|
+-------+---+
|Champak| 35|
|   Mark| 40|
+-------+---+

结论

我们讨论了四种将PySpark dataframe切分为两个按行划分的dataframe的独特方法。所有这些方法都有独特的方式来表示dataframe的分区。PySpark dataframe是高级交互式数据，可以被数据工程师和数据科学家使用。Python API用于spark和ML是可视化PySpark dataframe的常见示例。