spark--job和DAGScheduler源码

一个job对应一个action操作，action执行会有先后顺序；

每个job执行会先构建一个DAG路径，一个job会含有多个stage，主要逻辑在DAGScheduler。

spark提交job的源码见（SparkContext.scala的runJob方法）：

def runJob[T, U: ClassTag](
      rdd: RDD[T],
      func: (TaskContext, Iterator[T]) => U,
      partitions: Seq[Int],
      resultHandler: (Int, U) => Unit): Unit = {
    if (stopped.get()) {
      throw new IllegalStateException("SparkContext has been shutdown")
    }
    val callSite = getCallSite
    val cleanedFunc = clean(func)
    logInfo("Starting job: " + callSite.shortForm)
    if (conf.getBoolean("spark.logLineage", false)) {
      logInfo("RDD‘s recursive dependencies:\n" + rdd.toDebugString)
    }
    dagScheduler.runJob(rdd, cleanedFunc, partitions, callSite, resultHandler, localProperties.get)
    progressBar.foreach(_.finishAll())
    rdd.doCheckpoint()
  }

DAGScheduler--job调度的核心入口：

private[scheduler] def handleJobSubmitted(jobId: Int,
      finalRDD: RDD[_],
      func: (TaskContext, Iterator[_]) => _,
      partitions: Array[Int],
      callSite: CallSite,
      listener: JobListener,
      properties: Properties) {//创建finalStage
    var finalStage: ResultStage = null
    try {
      // New stage creation may throw an exception if, for example, jobs are run on a
      // HadoopRDD whose underlying HDFS files have been deleted.//创建一个stage对象，并且将stage加入到DAGScheduler内存缓存中
      finalStage = createResultStage(finalRDD, func, partitions, jobId, callSite)
    } catch {
      case e: Exception =>
        logWarning("Creating new stage failed due to exception - job: " + jobId, e)
        listener.jobFailed(e)
        return
    }
//创建job
    val job = new ActiveJob(jobId, finalStage, callSite, listener, properties)
    clearCacheLocs()
    logInfo("Got job %s (%s) with %d output partitions".format(
      job.jobId, callSite.shortForm, partitions.length))
    logInfo("Final stage: " + finalStage + " (" + finalStage.name + ")")
    logInfo("Parents of final stage: " + finalStage.parents)
    logInfo("Missing parents: " + getMissingParentStages(finalStage))

    val jobSubmissionTime = clock.getTimeMillis()//将job加入到内存缓存中
    jobIdToActiveJob(jobId) = job
    activeJobs += job
    finalStage.setActiveJob(job)
    val stageIds = jobIdToStageIds(jobId).toArray
    val stageInfos = stageIds.flatMap(id => stageIdToStage.get(id).map(_.latestInfo))
    listenerBus.post(
      SparkListenerJobStart(job.jobId, jobSubmissionTime, stageInfos, properties))
   //使用submitStage（） 方法提交finalStage   submitStage(finalStage)
  }

spark--job和DAGScheduler源码

dxyadc

相关推荐

Spark DAG 依赖关系 Stage

小记--------spark ——AGScheduler源码分析

jquery:获得当前点击对象 : $(this)

Jenkins Pipeline 参数详解

明解C语言中级篇第一章答案

Spark 资源调度包 stage 类解析

Linux启动过程[转]

hive 执行计划

一文读懂 babel7 的配置文件加载逻辑

Find Data in DynamoDB in Spark

babel的一些常用知识点整理

Jenkins 用户文档（部署）

升级到Babel 7的经验

git 必须要熟练掌握的命令

hive优化

不可不知的spark shuffle

Spark的ShuffleManager

Linux操作系统启动管理器-GRUB

babel之配置文件.babelrc入门详解

CentOS修复Grub

Hive中表的关联顺序对生成MapReduce作业数的影响案例

Spark调度管理

Oracle 11g安装出现em.ear

Android游戏引擎libgdx使用教程10:双舞台

安装debian Linux过程中学习grub的心得体会

关于Babel配置项的这点事

php 快速判断一个数字属于什么范围的实现方法

使用GitLabCI持续集成