Spark RDD：弹性分布式数据集

亮眼看视界 2016-03-14

文／牛肉圆粉不加葱（简书作者）
原文链接：http://www.jianshu.com/p/207607888767
著作权归作者所有，转载请联系作者获得授权，并标注“简书作者”。

RDD是只读的、分区记录的集合
一个RDD的生成只有两种途径：
- 基于内存集合或稳定物理存储中的数据集执行确定性操作
- 通过在已有的RDD上执行转换操作
RDD具有自动容错、位置感知和可伸缩性特点
RDD不需要物化，RDD通过Lineage来重建丢失的分区：一个RDD中包含了如何从其他RDD衍生所必须的相关信息，从而不需要检查点就可以重构丢失的数据分区
RDD只支持粗粒度转换，即一个操作会被应用在RDD的所有数据上
RDD包含
- partition：分区，一个RDD会有一个或多个分区
- preferredLocations(p)：根据分区p存放的位置，返回在哪个节点访问更快
- dependencies()：RDD的依赖关系
- compute(p, context)：对于分区p而言，进行迭代计算
- partitioner()：RDD的分区函数，该属性只存在于（K、V）类型的RDD中，对于非（K、V）类型的partitioner的值就是None；partitioner()决定了RDD本身的分区数量，也可作为其父RDD Shuffle 输出中每个分区进行数据切割的依据

RDD分区

程序员还可以从两个方面控制RDD，即持久化和分区。用户可以请求将RDD缓存，这样运行时将已经计算好的RDD分区存储起来，以加速后期的重用。缓存的RDD一般存储在内存中，但如果内存不够，可以写到磁盘上
RDD还允许用户根据关键字（key）指定分区顺序，这是一个可选的功能。目前支持哈希分区和范围分区。分区的多少涉及对这个RDD进行并行计算的粒度，因为每一个分区的计算都在一个单独的任务上执行
通过备份任务的拷贝，RDD还可以处理落后任务（即运行很慢的节点）
与DSM（分布式共享内存）相比，RDD有两个好处：
- 对于RDD中的批量操作，运行时将根据数据存放的位置来调度任务，从而提高性能
- 对于基于扫描的操作，如果内存不足以缓存整个RDD，就进行部分缓存。把内存放不下的分区存储到磁盘上，此时性能与现有的数据流系统差不多
当然也可以在创建RDD的时候不指定分区，这时就采用默认的分区数，即程序所分配到的资源的CPU核的个数

RDD的优先位置

RDD优先位置属性与Spark中的调度相关，返回的是此RDD的每个partition所存储的位置，按照“移动数据不如移动计算”的理念，在Spark进行任务调度的时候，尽可能地将任务分配到数据块所存储的位置（如果一个partition对应的数据块存储了多份，也会返回多份地址）

RDD依赖关系

在Spark中，存在两种类型的依赖：
- 窄依赖：每一个父RDD的分区至多只被子RDD的一个分区所使用
- 宽依赖：每一个父RDD的分区会被子RDD的多个分区所使用
窄依赖和宽依赖的区别：
- 窄依赖可以在集群的一个节点上如流水线一般地执行，可以计算所有父RDD的分区，相反的，宽依赖需要取得父RDD所有分区上的数据进行计算，将会执行MapReduce一样的shuffle操作
- 对于窄依赖来说，节点计算失败后的恢复会更加有效，相反的，在有宽依赖的继承关系中，一个节点的失败将会导致其父RDD的多个分区重新计算，代价非常高

: 亮眼看视界

相关推荐

spark系列之基本概念

　　RDD是对象的分布式集合。　　RDD也提供数据沿袭——以图形形式给出每个中间步骤的祖先树，当RDD的一个分区丢失，可以根据祖先树重建该分区。　　RDD有两组操作，转换和行动，RDD转换是有惰性的，宽窄依赖。　　SparkSession是读取数据、处理元

Johnson0 0喜欢 / 0评论 2020-07-28

Spark DAG 依赖关系 Stage

记录了RDD之间的依赖关系，即RDD是通过何种变换生成的，如下图：RDD1是RDD2的父RDD，通过flatMap操作生成借助RDD之间的依赖关系，可以实现数据的容错，但是已经尽力避免产生shuffle. Task任务对应的是分区，即一个分区就是一个Ta

Hhanwen 0喜欢 / 0评论 2020-07-05

Spark RDD

②通过Spark读取外部存储文件，将文件数据转变为RDD。可以从本地磁盘读取，也可以从HDFS读取

adayan0 0喜欢 / 0评论 2020-07-05

Spark GraphX企业运用

Spark GraphX 是 Spark 的一个模块，主要用于进行以图为核心的计算还有分布式图的计算。GraphX 他的底层计算也是 RDD 计算，它和 RDD 共用一种存储形态，在展示形态上可以以数据集来表示，也可以图的形式来表示。边的表示用 RDD[E

zhixingheyitian 0喜欢 / 0评论 2020-05-29

spark企业运用

========== Spark SQL ==========1、Spark SQL 是 Spark 的一个模块，可以和 RDD 进行混合编程、支持标准的数据源、可以集成和替代 Hive、可以提供 JDBC、ODBC 服务器功能。统一的数据访问方式，Spa

Oeljeklaus 0喜欢 / 0评论 2020-05-29

Spark Streaming企业运用

========== Spark Streaming 是什么 ==========1、SPark Streaming 是 Spark 中一个组件，基于 Spark Core 进行构建，用于对流式进行处理，类似于 Storm。kafka、flume、HDFS

Hhanwen 0喜欢 / 0评论 2020-05-29

Spark RDD编程双Value类型交互

所谓双Value，就是两个数据集RDD之间进行操作。1 union：对源RDD和参数RDD合并后返回一个新的RDD，不会去重。2subtract：计算差的一种函数，去除两个RDD中相同的元素，不同的RDD将保留下来。5zip：将两个RDD组合成Key/Va

zhixingheyitian 0喜欢 / 0评论 2020-05-28

Spark原始码系列（五）分布式缓存

BlockManager与BlockManagerMaster的关系是什么？这个persist方法是在RDD里面的，所以我们直接打开RDD这个类。def persist: this.type = { // StorageLevel不能随意更改 if

粗茶淡饭 0喜欢 / 0评论 2020-05-27

spark系列-5、RDD、DataFrame、Dataset的区别和各自的优势

从一开始 RDD 就是 Spark 提供的面向用户的主要 API。从根本上来说，一个 RDD 就是你的数据的一个不可变的分布式元素集合，在集群中跨节点分布，可以通过若干提供了转换和处理的底层 API 进行并行处理。但与 RDD 不同的是，数据都被组织到有名

Hhanwen 0喜欢 / 0评论 2020-05-04

spark工作原理

它是被分区的，分为多个分区，每个分区分布在集群中的不同节点上，从而让RDD中的数据可以被并行操作。即如果某个节点上的RDD partition，因为节点故障，导致数据丢了，那么RDD会自动通过自己的数据来源重新计算该partition。

Hhanwen 0喜欢 / 0评论 2020-05-03

Spark RDD转DataFrame

* 导入包，支持把一个RDD隐式转换为DataFrame,

yanqianglifei 0喜欢 / 0评论 2020-04-22

小记--------sparkSQL - spark基础知识

本质上是一种分布式的内存抽象，表示一个只读的数据分区集合。一个RDD通常只能通过其他的RDD转换而创建，RDD定义了各种丰富的转换操作，通过转换操作，新的RDD包含了如何从其他RDD衍生所必须的信息。这些信息构成了RDD之间的依赖关系。而其中窄依赖的所有转

Oeljeklaus 0喜欢 / 0评论 2020-04-19

pyspark combineByKey的理解

　　乍一看，感觉有些难理解，我们来一起探索下！

Oeljeklaus 0喜欢 / 0评论 2020-03-03

Spark基础全解析

RDD是Spark最基本的数据结构。RDD表示已被分区、不可变的，并能够被并行操作的数据集合。

adayan0 0喜欢 / 0评论 2020-03-01

Spark RDD基本概念、宽窄依赖、转换行为操作

本文介绍一下rdd的基本属性概念、rdd的转换/行动操作、rdd的宽/窄依赖。RDD表示可以并行操作的元素的不变分区集合。RDD提供了许多基本的函数供我们进行数据处理。RDD的计算是以分区为单位进行的。分区器针对键值型RDD而言的，将key传入分区器获取唯

yanqianglifei 0喜欢 / 0评论 2020-02-22

Spark之RDD本质

并且比Java中的装饰器来的更彻底，借助Scala的抽象控制特性，这一系列RDD不代表任何实际数据，也不负责装载数据，描述的是纯粹的逻辑抽象DAG，只有调用了尾函数后才会触发逻辑DAG的执行。

yanqianglifei 0喜欢 / 0评论 2020-02-20

大数据技术学习之Spark技术总结

　　Spark是基于内存的迭代计算框架，适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多，所需读取的数据量越大，受益越大，数据量小但是计算密集度较大的场合，受益就相对较小。RDD也是Spark非常核心的东西，它表示已被分区，不可变的并能够被并

Kwong 0喜欢 / 0评论 2020-02-20

spark基本面试题

RDD叫做分布式数据集模式spark中最基本的数据抽象，它代表一个不可变，可分区，里面的元素可以并行计算的集合。Resilient：表示弹性的，弹性表示。3）一个RDD依赖于其他多个RDD，RDD的容错机制就是根据这个特性而来的。4）可选的，针对于kv类型

Johnson0 0喜欢 / 0评论 2020-02-01

小记--------spark-job触发流程源码分析

val lines = sc.textFile//详解见代码1. val pairs = words.map//同样也是返回一个MapPartitionsRDD. * Read a text file from HDFS, a local file sys

hell0kitty 0喜欢 / 0评论 2020-01-25

Spark原理及关键技术点

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中，后续的查询能够重用工作集，这极大地提升了查询速度。对于RDD来说，每个分片都会被一个计算任务处理，并决定并行计算的粒度。

Oeljeklaus 0喜欢 / 0评论 2019-12-26

Spark RDD计算每天各省的top3热门广告

// 6.将同一个省份的所有广告进行聚合

adayan0 0喜欢 / 0评论 2019-12-19

SparkStreaming DStream转换

无状态转化操作就是把简单的RDD转化操作应用到每个批次上，也就是转换DStream中的每一个RDD。尽管这些函数韩起来像作用在整个流上一样，但事实上每个DStream在内部是由许多RDD（批次）组成，且无状态转化操作是分别应用到每个RDD上。无状态转化操作

newfarhui 0喜欢 / 0评论 2019-12-19

Spark-Core RDD行动算子

通过func函数聚集RDD 中的所有元素，先聚合分区内数据，再聚合分区间数据。以数组的形式返回 RDD 中的所有元素.返回 RDD 中的第一个元素. 类似于take.返回排序后的前 n 个元素,默认是升序排列.每个函数是在Executor 上执行的, 不是

muhongdi 0喜欢 / 0评论 2019-12-16

Spark-Core RDD转换算子-双Value型交互

作用: 拉链操作. 需要注意的是, 在 Spark 中, 两个 RDD 的元素的数量和分区数都必须相同, 否则会抛出异常.

liqinglin0 0喜欢 / 0评论 2019-12-15

Spark RDD

scala> val rdd2 = rdd1.map(_*2).sortBy//为什么sortBy里面用下划线不行？

Oeljeklaus 0喜欢 / 0评论 2019-12-15

大数据，之spark入门之一：spark组件（文末附大数据教程）

这样可以很好的隔离各个applications,各个spark applications 不能分享数据，除非把数据写到外部系统。Driver program application运行的main方法，并生成sparkcontext；宽依赖是指一个父RDD的

xyf 0喜欢 / 0评论 2019-08-17

大数据-spark

Spark是用于大规模数据处理的快速通用的计算引擎。相较MR快的原因：其任务中间结果存在内存中，在迭代运算中尤为明显，DAG的设置。

Oeljeklaus 0喜欢 / 0评论 2019-11-01

Spark（二）算子详解

基于上次的wordcount，我们来写一个wordcountcount，来对wc程序进行第二次计数，我们来分析一下性能。Spark编程模型和MapReduce相比，Spark可以多个Job，多个State进行执行。转换算子可以处理一个RDD数据集，即map

dxyadc 0喜欢 / 0评论 2019-10-28

Spark几种调优方式

此时会因为对rdd1执行map算子来创建rdd2，而多执行一次算子操作，进而增加性能开销。在进行第二个map操作时，只使用每个数据的tuple._2，也就是rdd1中的value值，即可。第二种方式相较于第一种方式而言，很明显减少了一次rdd2的计算开销。

adayan0 0喜欢 / 0评论 2019-10-27

Spark RDD 宽窄依赖

父 RRD 的 parition 和子 RDD 的 parition 之间的关系是一对一的。DAGSchedular 根据依赖类型切割RDD划分stage, 如果是宽依赖, 就进行切割, 并且递归查找其所有父类RDD

Oeljeklaus 0喜欢 / 0评论 2019-10-23

spark - RDD梳理

如果对1个rdd作用于一个function，其实是对里面的每个split做function，1个split就是一个partition. （可选）对于有一个Hashpartition对应于key-value类型的rdd，sortbykey对应一个range-

starksummer 0喜欢 / 0评论 2018-03-19

Spark 中 RDD的运行机制

Spark 的核心是建立在统一的抽象 RDD 之上，基于 RDD 的转换和行动操作使得 Spark 的各个组件可以无缝进行集成，从而在同一个应用程序中完成大数据计算任务。最后一个 RDD 经过 “行动” 操作进行处理，并输出指定的数据类型和值。对于窄依赖的

ImBetter 0喜欢 / 0评论 2019-06-12

spark基础知识

官方资料介绍Spark可以将Hadoop集群中的应用在内存中的运行速度提升100倍，甚至能够将应用在磁盘上的运行速度提升10倍。spark本身并没有提供分布式文件系统，因此spark的分析大多依赖于Hadoop的分布式文件系统HDFS. Hadoop的Ma

GeorgeGuo 0喜欢 / 0评论 2018-07-25

Spark 学习笔记

Spark基础及基本概念 1.Spark是什么？

Hhanwen 0喜欢 / 0评论 2017-06-08

Spark API 详解/大白话解释之 RDD、partition、count、collect

任何数据在Spark中都被转换为RDD。不过是分到各个分区，分布在不同的机器上，可并行处理。举例：从普通数组创建RDD，里面包含了1到9这9个数字，它们分别在3个分区中。这个RDD一共9个元素，每个元素含有一个数字

Hhanwen 0喜欢 / 0评论 2016-03-15

SPARK 宽依赖和窄依赖 transfer action lazy策略之间的关系

最有趣的部分是DAGScheduler。下面详解它的工作过程。RDD的数据结构里很重要的一个域是对父RDD的依赖。如图3所示，有两类依赖：窄依赖和宽依赖。窄依赖指父RDD的每一个分区最多被一个子RDD的分区所用，表现为一个父RDD的分区对应于一个子RDD的

躬行谷 0喜欢 / 0评论 2014-09-20

Spark RDD API详解(一) Map和Reduce

RDD是Spark中的抽象数据结构类型，任何数据在Spark中都被表示为RDD。从编程的角度来看，RDD可以简单看成是一个数组。和普通数组的区别是，RDD中的数据是分区存储的，这样不同分区的数据就可以分布在不同的机器上，同时可以被并行处理。本文为第一部分，

predictwise 0喜欢 / 0评论 2014-12-23

spark transformation算子

将原来RDD的每个数据项通过map中的用户自定义函数f映射转变为一个新的元素。源码中的map算子相当于初始化一个RDD，新RDD叫作MappedRDD。

godspeedlaile 0喜欢 / 0评论 2016-07-05

spark 缓存篇

spark数据集市RDD，这里有个很重要的特性是RDD可以选择存储起来让另外的action操作，下面是各种缓存级别。备注：1.RDD中的数据具有容错性；2.Shuffle操作是不需要指定cache()或者persist()的，会自动缓存rdd结果，避免因为

sparks 0喜欢 / 0评论 2017-02-09

spark RDD

RDD是Spark中对数据和计算的抽象，是Spark中最核心的概念，它表示已被分片，不可变的并能够被并行操作的数据集合。对RDD的操作分为两种transformation和action。在Spark中，提供丰富的transformation和action操

andyshar 0喜欢 / 0评论 2016-01-20

Spark编程模型（之莎士比亚文集词频统计实现）

前段时间因为学校的云计算比赛我无意间接触到了Spark云计算框架，从此对其一发不可收拾，无论从其执行效率还有他的其他方面的架构都感觉到无比强大，作为一个云计算的解决方案他有着比hadoop更好的优越性。因为Spark我又接触到编程语言届的新贵Scala面向

sparks 0喜欢 / 0评论 2014-11-13

Spark RDD

可以看到一个MapReduce作业处理的结果只能存放在硬盘当中，当另一个MapReduce作业去读取这个结果时又得从硬盘读取到内存中，这就产生了大量的数据复制，磁盘I/O，数据的序列化操作，这些多余的操作就使得整个计算系统变慢。总而言之RDD是一个分布式的

godspeedlaile 0喜欢 / 0评论 2019-06-26

Spark Streaming消费Kafka数据的两种方案

下午的时候翻微信看到大家在讨论Spark消费Kafka的方式，官网中就有答案，只不过是英文的，当然很多博客也都做了介绍，正好我的收藏夹中有一篇文章供大家参考。文章写的通俗易懂，搭配代码，供大家参考。本文的作者是来自TalkingData的数据工程师张伟。S

wwwjun 0喜欢 / 0评论 2019-05-14

Spark分区

分区是RDD内部并行计算的一个计算单元，RDD的数据集在逻辑上被划分为多个分片，每一个分片称为分区，分区的格式决定了并行计算的粒度，而每个分区的数值计算都是在一个任务中进行的，因此任务的个数，也是由RDD的分区数决定。数据分区，在分布式集群里，网络通信的代

yanqianglifei 0喜欢 / 0评论 2019-05-02

Spark函数详解系列之RDD基本转换

Transformation（转换）：Transformation属于延迟计算，当一个RDD转换成另一个RDD时并没有立即进行转换，仅仅是记住了数据集的逻辑操作

小草君技术 0喜欢 / 0评论 2018-09-30

Spark常用函数讲解之键值RDD转换

Transformation（转换）：Transformation属于延迟计算，当一个RDD转换成另一个RDD时并没有立即进行转换，仅仅是记住了数据集的逻辑操作。createCombiner:在第一次遇到Key时创建组合器函数，将RDD数据集中的V类型值

sparkstrike 0喜欢 / 0评论 2018-08-31

扣丁学堂大数据培训简述大数据Spark中对RDD的理解

RDD，RDD是一个弹性分布式数据集，是分布式内存的一个抽象概念，提供了一种高度受限共享内存模型。关于大数据Spark中对RDD的理解，现在分享给大家。假设要读取HDFS上的数据,每个block块就是一个分片,所有的分片组合在一起就是一个集合一个RDD。

xxzz 0喜欢 / 0评论 2019-04-28

深度：主流分布式机器学习平台比较

这是我与我的学生Kuo Zhang、Salem Alqahtani通力合作的成果。我们在2016年的秋天写了这篇论文，并且将在ICCCN'17上介绍这篇文章。由于在训练过程中要涉及到庞大的数据集和模型的大小，因此机器学习平台通常是分布式平台，而且并行运行了

ahaoGG 0喜欢 / 0评论 2017-08-04

大数据技术学习：弹性分布式数据集RDD

今天千锋老师给大家分享的技术学习是：浅谈弹性分布式数据集RDD。对于RDD来说，每个分片都会被一个计算任务处理，并决定并行计算的粒度。用户可以在创建RDD时指定RDD的分片个数，如果没有指定，那么就会采用默认值。Spark中RDD的计算是以分片为单位的，每

xiaofuzi 0喜欢 / 0评论 2019-01-07