Spark RDD

godspeedlaile 2019-06-26

RDD是Spark对数据的抽象，本文将介绍它与MapReduce的区别以及它的优势

MapReduce存在的问题

MapReduce上的迭代操作

Spark RDD

可以看到一个MapReduce作业处理的结果只能存放在硬盘当中，当另一个MapReduce作业去读取这个结果时又得从硬盘读取到内存中，这就产生了大量的数据复制，磁盘I/O，数据的序列化操作，这些多余的操作就使得整个计算系统变慢。

MapReduce上的交互操作

Spark RDD

是同样每次查询数据都需要到磁盘里读取数据

使用RDD的操作模型及优势

RDD的迭代操作

Spark RDD

可以看到它将一个MapReduce作业的中间结果放到了内存当中，这样别的作业来读取所依赖的结果时速度很快。当内存不够时，它同样会将数据存放到磁盘当中。

RDD的交互操作

Spark RDD

当不同的查询都需要一个数据集的时候，直接从内存查询就足够了，当一个数据集被多个作业同时需要时它也支持将数据复制到各个机器上面

总而言之RDD是一个分布式的(基于HDFS)存储在内存中的数据集，使数据以更少的开销在不同的作业上共享，提高并行计算的效率

: godspeedlaile

相关推荐

spark系列之基本概念

　　RDD是对象的分布式集合。　　RDD也提供数据沿袭——以图形形式给出每个中间步骤的祖先树，当RDD的一个分区丢失，可以根据祖先树重建该分区。　　RDD有两组操作，转换和行动，RDD转换是有惰性的，宽窄依赖。　　SparkSession是读取数据、处理元

Johnson0 0喜欢 / 0评论 2020-07-28

Spark DAG 依赖关系 Stage

记录了RDD之间的依赖关系，即RDD是通过何种变换生成的，如下图：RDD1是RDD2的父RDD，通过flatMap操作生成借助RDD之间的依赖关系，可以实现数据的容错，但是已经尽力避免产生shuffle. Task任务对应的是分区，即一个分区就是一个Ta

Hhanwen 0喜欢 / 0评论 2020-07-05

Spark RDD

②通过Spark读取外部存储文件，将文件数据转变为RDD。可以从本地磁盘读取，也可以从HDFS读取

adayan0 0喜欢 / 0评论 2020-07-05

Spark GraphX企业运用

Spark GraphX 是 Spark 的一个模块，主要用于进行以图为核心的计算还有分布式图的计算。GraphX 他的底层计算也是 RDD 计算，它和 RDD 共用一种存储形态，在展示形态上可以以数据集来表示，也可以图的形式来表示。边的表示用 RDD[E

zhixingheyitian 0喜欢 / 0评论 2020-05-29

spark企业运用

========== Spark SQL ==========1、Spark SQL 是 Spark 的一个模块，可以和 RDD 进行混合编程、支持标准的数据源、可以集成和替代 Hive、可以提供 JDBC、ODBC 服务器功能。统一的数据访问方式，Spa

Oeljeklaus 0喜欢 / 0评论 2020-05-29

Spark Streaming企业运用

========== Spark Streaming 是什么 ==========1、SPark Streaming 是 Spark 中一个组件，基于 Spark Core 进行构建，用于对流式进行处理，类似于 Storm。kafka、flume、HDFS

Hhanwen 0喜欢 / 0评论 2020-05-29

Spark RDD编程双Value类型交互

所谓双Value，就是两个数据集RDD之间进行操作。1 union：对源RDD和参数RDD合并后返回一个新的RDD，不会去重。2subtract：计算差的一种函数，去除两个RDD中相同的元素，不同的RDD将保留下来。5zip：将两个RDD组合成Key/Va

zhixingheyitian 0喜欢 / 0评论 2020-05-28

Spark原始码系列（五）分布式缓存

BlockManager与BlockManagerMaster的关系是什么？这个persist方法是在RDD里面的，所以我们直接打开RDD这个类。def persist: this.type = { // StorageLevel不能随意更改 if

粗茶淡饭 0喜欢 / 0评论 2020-05-27

spark系列-5、RDD、DataFrame、Dataset的区别和各自的优势

从一开始 RDD 就是 Spark 提供的面向用户的主要 API。从根本上来说，一个 RDD 就是你的数据的一个不可变的分布式元素集合，在集群中跨节点分布，可以通过若干提供了转换和处理的底层 API 进行并行处理。但与 RDD 不同的是，数据都被组织到有名

Hhanwen 0喜欢 / 0评论 2020-05-04

spark工作原理

它是被分区的，分为多个分区，每个分区分布在集群中的不同节点上，从而让RDD中的数据可以被并行操作。即如果某个节点上的RDD partition，因为节点故障，导致数据丢了，那么RDD会自动通过自己的数据来源重新计算该partition。

Hhanwen 0喜欢 / 0评论 2020-05-03

Spark RDD转DataFrame

* 导入包，支持把一个RDD隐式转换为DataFrame,

yanqianglifei 0喜欢 / 0评论 2020-04-22

小记--------sparkSQL - spark基础知识

本质上是一种分布式的内存抽象，表示一个只读的数据分区集合。一个RDD通常只能通过其他的RDD转换而创建，RDD定义了各种丰富的转换操作，通过转换操作，新的RDD包含了如何从其他RDD衍生所必须的信息。这些信息构成了RDD之间的依赖关系。而其中窄依赖的所有转

Oeljeklaus 0喜欢 / 0评论 2020-04-19

pyspark combineByKey的理解

　　乍一看，感觉有些难理解，我们来一起探索下！

Oeljeklaus 0喜欢 / 0评论 2020-03-03

Spark基础全解析

RDD是Spark最基本的数据结构。RDD表示已被分区、不可变的，并能够被并行操作的数据集合。

adayan0 0喜欢 / 0评论 2020-03-01

Spark RDD基本概念、宽窄依赖、转换行为操作

本文介绍一下rdd的基本属性概念、rdd的转换/行动操作、rdd的宽/窄依赖。RDD表示可以并行操作的元素的不变分区集合。RDD提供了许多基本的函数供我们进行数据处理。RDD的计算是以分区为单位进行的。分区器针对键值型RDD而言的，将key传入分区器获取唯

yanqianglifei 0喜欢 / 0评论 2020-02-22

Spark之RDD本质

并且比Java中的装饰器来的更彻底，借助Scala的抽象控制特性，这一系列RDD不代表任何实际数据，也不负责装载数据，描述的是纯粹的逻辑抽象DAG，只有调用了尾函数后才会触发逻辑DAG的执行。

yanqianglifei 0喜欢 / 0评论 2020-02-20

大数据技术学习之Spark技术总结

　　Spark是基于内存的迭代计算框架，适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多，所需读取的数据量越大，受益越大，数据量小但是计算密集度较大的场合，受益就相对较小。RDD也是Spark非常核心的东西，它表示已被分区，不可变的并能够被并

Kwong 0喜欢 / 0评论 2020-02-20

spark基本面试题

RDD叫做分布式数据集模式spark中最基本的数据抽象，它代表一个不可变，可分区，里面的元素可以并行计算的集合。Resilient：表示弹性的，弹性表示。3）一个RDD依赖于其他多个RDD，RDD的容错机制就是根据这个特性而来的。4）可选的，针对于kv类型

Johnson0 0喜欢 / 0评论 2020-02-01

小记--------spark-job触发流程源码分析

val lines = sc.textFile//详解见代码1. val pairs = words.map//同样也是返回一个MapPartitionsRDD. * Read a text file from HDFS, a local file sys

hell0kitty 0喜欢 / 0评论 2020-01-25

Spark原理及关键技术点

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中，后续的查询能够重用工作集，这极大地提升了查询速度。对于RDD来说，每个分片都会被一个计算任务处理，并决定并行计算的粒度。

Oeljeklaus 0喜欢 / 0评论 2019-12-26

Spark RDD计算每天各省的top3热门广告

// 6.将同一个省份的所有广告进行聚合

adayan0 0喜欢 / 0评论 2019-12-19

SparkStreaming DStream转换

无状态转化操作就是把简单的RDD转化操作应用到每个批次上，也就是转换DStream中的每一个RDD。尽管这些函数韩起来像作用在整个流上一样，但事实上每个DStream在内部是由许多RDD（批次）组成，且无状态转化操作是分别应用到每个RDD上。无状态转化操作

newfarhui 0喜欢 / 0评论 2019-12-19

Spark-Core RDD行动算子

通过func函数聚集RDD 中的所有元素，先聚合分区内数据，再聚合分区间数据。以数组的形式返回 RDD 中的所有元素.返回 RDD 中的第一个元素. 类似于take.返回排序后的前 n 个元素,默认是升序排列.每个函数是在Executor 上执行的, 不是

muhongdi 0喜欢 / 0评论 2019-12-16

Spark-Core RDD转换算子-双Value型交互

作用: 拉链操作. 需要注意的是, 在 Spark 中, 两个 RDD 的元素的数量和分区数都必须相同, 否则会抛出异常.

liqinglin0 0喜欢 / 0评论 2019-12-15

Spark RDD

scala> val rdd2 = rdd1.map(_*2).sortBy//为什么sortBy里面用下划线不行？

Oeljeklaus 0喜欢 / 0评论 2019-12-15

大数据，之spark入门之一：spark组件（文末附大数据教程）

这样可以很好的隔离各个applications,各个spark applications 不能分享数据，除非把数据写到外部系统。Driver program application运行的main方法，并生成sparkcontext；宽依赖是指一个父RDD的

xyf 0喜欢 / 0评论 2019-08-17

大数据-spark

Spark是用于大规模数据处理的快速通用的计算引擎。相较MR快的原因：其任务中间结果存在内存中，在迭代运算中尤为明显，DAG的设置。

Oeljeklaus 0喜欢 / 0评论 2019-11-01

Spark（二）算子详解

基于上次的wordcount，我们来写一个wordcountcount，来对wc程序进行第二次计数，我们来分析一下性能。Spark编程模型和MapReduce相比，Spark可以多个Job，多个State进行执行。转换算子可以处理一个RDD数据集，即map

dxyadc 0喜欢 / 0评论 2019-10-28

Spark几种调优方式

此时会因为对rdd1执行map算子来创建rdd2，而多执行一次算子操作，进而增加性能开销。在进行第二个map操作时，只使用每个数据的tuple._2，也就是rdd1中的value值，即可。第二种方式相较于第一种方式而言，很明显减少了一次rdd2的计算开销。

adayan0 0喜欢 / 0评论 2019-10-27

Spark RDD 宽窄依赖

父 RRD 的 parition 和子 RDD 的 parition 之间的关系是一对一的。DAGSchedular 根据依赖类型切割RDD划分stage, 如果是宽依赖, 就进行切割, 并且递归查找其所有父类RDD

Oeljeklaus 0喜欢 / 0评论 2019-10-23

spark - RDD梳理

如果对1个rdd作用于一个function，其实是对里面的每个split做function，1个split就是一个partition. （可选）对于有一个Hashpartition对应于key-value类型的rdd，sortbykey对应一个range-

starksummer 0喜欢 / 0评论 2018-03-19

Spark 中 RDD的运行机制

Spark 的核心是建立在统一的抽象 RDD 之上，基于 RDD 的转换和行动操作使得 Spark 的各个组件可以无缝进行集成，从而在同一个应用程序中完成大数据计算任务。最后一个 RDD 经过 “行动” 操作进行处理，并输出指定的数据类型和值。对于窄依赖的

ImBetter 0喜欢 / 0评论 2019-06-12

spark基础知识

官方资料介绍Spark可以将Hadoop集群中的应用在内存中的运行速度提升100倍，甚至能够将应用在磁盘上的运行速度提升10倍。spark本身并没有提供分布式文件系统，因此spark的分析大多依赖于Hadoop的分布式文件系统HDFS. Hadoop的Ma

GeorgeGuo 0喜欢 / 0评论 2018-07-25

Spark 学习笔记

Spark基础及基本概念 1.Spark是什么？

Hhanwen 0喜欢 / 0评论 2017-06-08

Spark API 详解/大白话解释之 RDD、partition、count、collect

任何数据在Spark中都被转换为RDD。不过是分到各个分区，分布在不同的机器上，可并行处理。举例：从普通数组创建RDD，里面包含了1到9这9个数字，它们分别在3个分区中。这个RDD一共9个元素，每个元素含有一个数字

Hhanwen 0喜欢 / 0评论 2016-03-15

Spark RDD：弹性分布式数据集

RDD不需要物化，RDD通过Lineage来重建丢失的分区：一个RDD中包含了如何从其他RDD衍生所必须的相关信息，从而不需要检查点就可以重构丢失的数据分区。程序员还可以从两个方面控制RDD，即持久化和分区。RDD还允许用户根据关键字指定分区顺序，这是一个

亮眼看视界 0喜欢 / 0评论 2016-03-14

SPARK 宽依赖和窄依赖 transfer action lazy策略之间的关系

最有趣的部分是DAGScheduler。下面详解它的工作过程。RDD的数据结构里很重要的一个域是对父RDD的依赖。如图3所示，有两类依赖：窄依赖和宽依赖。窄依赖指父RDD的每一个分区最多被一个子RDD的分区所用，表现为一个父RDD的分区对应于一个子RDD的

躬行谷 0喜欢 / 0评论 2014-09-20

Spark RDD API详解(一) Map和Reduce

RDD是Spark中的抽象数据结构类型，任何数据在Spark中都被表示为RDD。从编程的角度来看，RDD可以简单看成是一个数组。和普通数组的区别是，RDD中的数据是分区存储的，这样不同分区的数据就可以分布在不同的机器上，同时可以被并行处理。本文为第一部分，

predictwise 0喜欢 / 0评论 2014-12-23

spark transformation算子

将原来RDD的每个数据项通过map中的用户自定义函数f映射转变为一个新的元素。源码中的map算子相当于初始化一个RDD，新RDD叫作MappedRDD。

godspeedlaile 0喜欢 / 0评论 2016-07-05

spark 缓存篇

spark数据集市RDD，这里有个很重要的特性是RDD可以选择存储起来让另外的action操作，下面是各种缓存级别。备注：1.RDD中的数据具有容错性；2.Shuffle操作是不需要指定cache()或者persist()的，会自动缓存rdd结果，避免因为

sparks 0喜欢 / 0评论 2017-02-09

spark RDD

RDD是Spark中对数据和计算的抽象，是Spark中最核心的概念，它表示已被分片，不可变的并能够被并行操作的数据集合。对RDD的操作分为两种transformation和action。在Spark中，提供丰富的transformation和action操

andyshar 0喜欢 / 0评论 2016-01-20

Spark编程模型（之莎士比亚文集词频统计实现）

前段时间因为学校的云计算比赛我无意间接触到了Spark云计算框架，从此对其一发不可收拾，无论从其执行效率还有他的其他方面的架构都感觉到无比强大，作为一个云计算的解决方案他有着比hadoop更好的优越性。因为Spark我又接触到编程语言届的新贵Scala面向

sparks 0喜欢 / 0评论 2014-11-13

Spark Streaming消费Kafka数据的两种方案

下午的时候翻微信看到大家在讨论Spark消费Kafka的方式，官网中就有答案，只不过是英文的，当然很多博客也都做了介绍，正好我的收藏夹中有一篇文章供大家参考。文章写的通俗易懂，搭配代码，供大家参考。本文的作者是来自TalkingData的数据工程师张伟。S

wwwjun 0喜欢 / 0评论 2019-05-14

Spark分区

分区是RDD内部并行计算的一个计算单元，RDD的数据集在逻辑上被划分为多个分片，每一个分片称为分区，分区的格式决定了并行计算的粒度，而每个分区的数值计算都是在一个任务中进行的，因此任务的个数，也是由RDD的分区数决定。数据分区，在分布式集群里，网络通信的代

yanqianglifei 0喜欢 / 0评论 2019-05-02

Spark函数详解系列之RDD基本转换

Transformation（转换）：Transformation属于延迟计算，当一个RDD转换成另一个RDD时并没有立即进行转换，仅仅是记住了数据集的逻辑操作

小草君技术 0喜欢 / 0评论 2018-09-30

Spark常用函数讲解之键值RDD转换

Transformation（转换）：Transformation属于延迟计算，当一个RDD转换成另一个RDD时并没有立即进行转换，仅仅是记住了数据集的逻辑操作。createCombiner:在第一次遇到Key时创建组合器函数，将RDD数据集中的V类型值

sparkstrike 0喜欢 / 0评论 2018-08-31

扣丁学堂大数据培训简述大数据Spark中对RDD的理解

RDD，RDD是一个弹性分布式数据集，是分布式内存的一个抽象概念，提供了一种高度受限共享内存模型。关于大数据Spark中对RDD的理解，现在分享给大家。假设要读取HDFS上的数据,每个block块就是一个分片,所有的分片组合在一起就是一个集合一个RDD。

xxzz 0喜欢 / 0评论 2019-04-28

深度：主流分布式机器学习平台比较

这是我与我的学生Kuo Zhang、Salem Alqahtani通力合作的成果。我们在2016年的秋天写了这篇论文，并且将在ICCCN'17上介绍这篇文章。由于在训练过程中要涉及到庞大的数据集和模型的大小，因此机器学习平台通常是分布式平台，而且并行运行了

ahaoGG 0喜欢 / 0评论 2017-08-04

大数据技术学习：弹性分布式数据集RDD

今天千锋老师给大家分享的技术学习是：浅谈弹性分布式数据集RDD。对于RDD来说，每个分片都会被一个计算任务处理，并决定并行计算的粒度。用户可以在创建RDD时指定RDD的分片个数，如果没有指定，那么就会采用默认值。Spark中RDD的计算是以分片为单位的，每

xiaofuzi 0喜欢 / 0评论 2019-01-07