Spark 过滤函数
在Spark中,过滤函数返回一个由源数据集中满足条件的元素组成的新数据集。只检索满足给定条件的元素。
过滤函数示例
在这个例子中,我们过滤给定的数据,并检索除了35之外的所有值。
- 要在Scala模式中打开Spark,请按照以下命令。
$ spark-shell
- 使用并行化集合创建RDD。
scala> val data = sc.parallelize(List(10,20,35,40))
- 现在,我们可以使用以下命令来阅读生成的结果。
scala> data.collect
- 应用筛选功能并传递所需执行的表达式。
scala> val filterfunc = data.filter(x => x!=35)
- 现在,我们可以使用以下命令来读取生成的结果。
scala> filterfunc.collect
这里,我们得到了期望的输出。