当前位置：极客笔记 > Spark > Spark 精选教程 > Spark 词频统计示例

Spark 词频统计示例

Spark 词频统计示例

在Spark的词频统计示例中，我们找出特定文件中每个单词的频率。这里使用Scala语言执行Spark操作。

执行Spark词频统计示例的步骤

在这个示例中，我们找出并显示每个单词的出现次数。

在您的本地计算机上创建一个文本文件，并向其中写入一些文本。

$ nano sparkdata.txt

Spark 词频统计示例

检查sparkdata.txt文件中的文本。

$ cat sparkdata.txt

Spark 词频统计示例

在HDFS中创建一个目录，用来保存文本文件。

$ hdfs dfs -mkdir /spark

将 sparkdata.txt 文件上传到特定目录下的 HDFS 中。

$ hdfs dfs -put /home/codegyani/sparkdata.txt /spark

Spark 词频统计示例

现在，按照以下命令打开以Scala模式运行的Spark。

$ spark-shell

Spark 词频统计示例

使用以下命令创建一个RDD。

scala> val data=sc.textFile("sparkdata.txt")

在这里，传递任何包含数据的文件名。

现在，我们可以通过使用以下命令来读取生成的结果。

scala> data.collect;

Spark 词频统计示例

在这里，我们使用以下命令将现有的数据以单个单词的形式拆分。

scala> val splitdata = data.flatMap(line => line.split(" "));

现在，我们可以使用以下命令阅读生成的结果。

scala> splitdata.collect;

Spark 词频统计示例

现在，执行地图操作。

scala> val mapdata = splitdata.map(word => (word,1));

在这里，我们为每个单词赋值 1。

现在，我们可以使用以下命令来读取生成的结果。

scala> mapdata.collect;

Spark 词频统计示例

现在，执行reduce操作

scala> val reducedata = mapdata.reduceByKey(_+_);

在这里，我们正在总结生成的数据。

现在，我们可以使用以下命令读取生成的结果。

scala> reducedata.collect;

Spark 词频统计示例

在这里，我们得到了期望的输出。

Camera课程

Camera API2 教程

API2 教程

Camera 性能教程

Perf 教程

Camera Native Framework 教程

Native FW 教程

Camera QCOM ISP 教程

ISP 教程

Camera QCOM Sensor 教程

Sensor 教程

Python教程

Python 教程

Python 教程

NumPy 教程

NumPy 教程

Django 教程

Django 教程

Java教程

Java 教程

Java 教程

Web教程

JavaScript 教程

JavaScript 教程

jQuery 教程

jQuery 教程

CSS 教程

CSS 教程

PHP 教程

PHP 教程

Laravel 教程

Laravel 教程

TypeScript 教程

TypeScript 教程

WordPress 教程

WordPress 教程

数据库教程

SQL 教程

SQL 教程

SQLite 教程

SQLite 教程

MySQL 教程

MySQL 教程

PL/SQL 教程

PL/SQL 教程

MongoDB 教程

MongoDB 教程

图形图像教程

OpenCV 教程

OpenCV 教程

办公软件教程

Excel 教程

Excel 教程

Linux教程

Linux命令全集

Linux命令全集

Linux内核API

Linux内核API

LVGL 教程

LVGL 教程

计算机教程

操作系统教程

操作系统教程

计算机网络教程

计算机网络教程

C语言教程

C语言教程

C++ 教程

C++ 教程

Swift 教程

Swift 教程

大数据教程

Hadoop 教程

Hadoop 教程

Spark 教程

Spark 教程

Scala 教程

Scala 教程

开发工具教程

Git 教程

Git 教程

Jenkins 教程

Jenkins 教程

ChatGPT 教程

ChatGPT 教程

IntelliJ 教程

IntelliJ 教程

回顶
回顶部