当前位置：极客笔记 > Spark > Spark 精选教程 > Spark 什么是RDD

Spark 什么是RDD

Spark 什么是RDD

RDD（Resilient Distributed Dataset）是Spark的核心抽象概念。它是一个元素的集合，分布在集群的节点上，以便我们可以对其执行各种并行操作。

有两种方法可以创建RDD：

在驱动程序中并行化现有数据
引用外部存储系统中的数据集，如共享文件系统、HDFS、HBase或任何提供Hadoop InputFormat的数据源

并行化集合

要创建并行化集合，可以在驱动程序中使用 SparkContext的 parallelize方法调用现有集合。集合的每个元素都会被复制，形成一个可以并行操作的分布式数据集。

val info = Array(1, 2, 3, 4)
val distinfo = sc.parallelize(info)

现在，我们可以对分布式数据集（distinfo）进行并行操作，例如distinfo.reduce((a, b) => a + b)。

外部数据集

在Spark中，分布式数据集可以从任何由Hadoop支持的存储源创建，例如HDFS、Cassandra、HBase甚至我们的本地文件系统。Spark支持文本文件 SequenceFiles 和其他类型的Hadoop InputFormat 。

SparkContext 的textFile方法可用于创建RDD的文本文件。此方法接受文件的URI（可以是机器上的本地路径或hdfs://），然后读取文件的数据。

Spark 什么是RDD

现在，我们可以通过数据集操作来操作数据，比如我们可以使用map和reduce操作来计算所有行的长度之和，如下所示：data.map(s => s.length).reduce((a, b) => a + b)。

Camera课程

Camera API2 教程

API2 教程

Camera 性能教程

Perf 教程

Camera Native Framework 教程

Native FW 教程

Camera QCOM ISP 教程

ISP 教程

Camera QCOM Sensor 教程

Sensor 教程

Python教程

Python 教程

Python 教程

NumPy 教程

NumPy 教程

Django 教程

Django 教程

Java教程

Java 教程

Java 教程

Web教程

JavaScript 教程

JavaScript 教程

jQuery 教程

jQuery 教程

CSS 教程

CSS 教程

PHP 教程

PHP 教程

Laravel 教程

Laravel 教程

TypeScript 教程

TypeScript 教程

WordPress 教程

WordPress 教程

数据库教程

SQL 教程

SQL 教程

SQLite 教程

SQLite 教程

MySQL 教程

MySQL 教程

PL/SQL 教程

PL/SQL 教程

MongoDB 教程

MongoDB 教程

图形图像教程

OpenCV 教程

OpenCV 教程

办公软件教程

Excel 教程

Excel 教程

Linux教程

Linux命令全集

Linux命令全集

Linux内核API

Linux内核API

LVGL 教程

LVGL 教程

计算机教程

操作系统教程

操作系统教程

计算机网络教程

计算机网络教程

C语言教程

C语言教程

C++ 教程

C++ 教程

Swift 教程

Swift 教程

大数据教程

Hadoop 教程

Hadoop 教程

Spark 教程

Spark 教程

Scala 教程

Scala 教程

开发工具教程

Git 教程

Git 教程

Jenkins 教程

Jenkins 教程

ChatGPT 教程

ChatGPT 教程

IntelliJ 教程

IntelliJ 教程