Spark DAG 依赖关系 Stage

DAG ：

整个计算链可以抽象为一个DAG(有向无环图) Spark 的 DAG 作用：

记录了RDD之间的依赖关系，即RDD是通过何种变换生成的，

如下图：RDD1是RDD2的父RDD，通过flatMap操作生成借助RDD之间的依赖关系，可以实现数据的容错，

即子分区(子RDD)数据丢失后，可以通过找寻父分区(父RDD)，结合依赖关系进行数据恢复

综上，RDD(弹性分布式数据集)

①分区机制

②容错机制（借助RDD之间的依赖关系容错）即使用Spark 框架处理数据，把数据封装为RDD，然后通过高阶函数来处理

Spark DAG 依赖关系 Stage

以上的执行过程如下：

Spark DAG 依赖关系 Stage

RDD之间的依赖关系

依赖关系有两种：

①窄依赖：父分区和子分区是一对一关系，没有shuffle，即不会发生磁盘I/O，所以执行效率很高，

　　　如果DAG中存在多个连续的窄依赖，会放到一起执行，这种优化方式称为流水线优化

②宽依赖：父分区和子分区是一对多关系，会发生shuffle过程，会发生磁盘I/O。所以Spark框架并不是完全基于内存的，

　　　也是要依赖于磁盘的。但是已经尽力避免产生shuffle

Spark DAG 依赖关系 Stage

Stage

Spark的Stage（阶段)

Spark在执行任务（job）时，首先会根据依赖关系，将DAG划分为不同的阶段（Stage）。

处理流程是：

1）Spark在执行Transformation类型操作时都不会立即执行，而是懒执行（计算）

2）执行若干步的Transformation类型的操作后，一旦遇到Action类型操作时，才会真正触发执行（计算）

3）执行时，从当前Action方法向前回溯，如果遇到的是窄依赖则应用流水线优化，继续向前找，直到碰到某一个宽依赖

4）因为宽依赖必须要进行shuffle，无法实现优化，所以将这一次段执行过程组装为一个stage

5）再从当前宽依赖开始继续向前找。重复刚才的步骤，从而将这个DAG还分为若干的stage

Spark DAG 依赖关系 Stage

Stage(阶段) -> 一组Task集合

Task任务对应的是分区，即一个分区就是一个Task，但是要注意：多个连续的窄依赖，会放到一起执行作为一个Task，宽依赖按照不同的分区

Spark DAG 依赖关系 Stage

DAG ：

RDD之间的依赖关系

Stage

Hhanwen

相关推荐

小记--------spark ——AGScheduler源码分析

jquery:获得当前点击对象 : $(this)

Jenkins Pipeline 参数详解

明解C语言中级篇第一章答案

spark--job和DAGScheduler源码

Spark 资源调度包 stage 类解析

Linux启动过程[转]

hive 执行计划

一文读懂 babel7 的配置文件加载逻辑

Find Data in DynamoDB in Spark

babel的一些常用知识点整理

Jenkins 用户文档（部署）

升级到Babel 7的经验

git 必须要熟练掌握的命令

hive优化

不可不知的spark shuffle

Spark的ShuffleManager

Linux操作系统启动管理器-GRUB

babel之配置文件.babelrc入门详解

CentOS修复Grub

Hive中表的关联顺序对生成MapReduce作业数的影响案例

Spark调度管理

Oracle 11g安装出现em.ear

Android游戏引擎libgdx使用教程10:双舞台

安装debian Linux过程中学习grub的心得体会

关于Babel配置项的这点事

php 快速判断一个数字属于什么范围的实现方法

使用GitLabCI持续集成