mapreduce on yarn的工作流程

拂晓 2016-05-21

mapreduce on yarn的工作流程

当client提交一个任务后,首先resourceManger(RM)来调度出一个container,这个container是在nodeManger(NM)运作的,

　client直接和这个container所在的NM进行通信,在这个container中启动applicationMaster(AM),启动成功之后,这个AM将全权负责此次任务的进度,失败原因(在一次job中只有一个AM).

　AM会计算此次任务所需的资源,然后向RM申请资源,得到一组供map/reduce task运行的container,然后协同NM一起对每个container执行一些必要的任务,在任务执行

　过程中,AM会一直监视着任务的运行进度,若中间某个NM上的container中的任务失败,那么AM会重新找一台节点来运行此任务.

流程如下:

           MRv2运行流程：

        MR JobClient向resourceManager(RM)提交一个job

        RM向Scheduler请求一个供MR AM运行的container，然后启动它

        MR AM启动起来后向RM注册

        MR JobClient向RM获取到MR AM相关的信息，然后直接与MR AM进行通信

        MR AM计算splits并为所有的map构造资源请求

        MR AM做一些必要的MR OutputCommitter的准备工作

        MR AM向RM(Scheduler)发起资源请求，得到一组供map/reduce task运行的container，然后与NM一起对每一个container执行一些必要的任务，包括资源本地化等

        MR AM 监视运行着的task 直到完成，当task失败时，申请新的container运行失败的task

        当每个map/reduce task完成后，MR AM运行MR OutputCommitter的cleanup 代码，也就是进行一些收尾工作

        当所有的map/reduce完成后，MR AM运行OutputCommitter的必要的job commit或者abort APIs

        MR AM退出。

: 拂晓

相关推荐

在Ubuntu和其他Linux发行版上使用Yarn

本速成教程向你展示了在 Ubuntu 和 Debian Linux 上安装 Yarn 包管理器的官方方法。你还将学习到一些基本的 Yarn 命令以及彻底删除 Yarn 的步骤。Facebook 声称 Yarn 比 npm 更快、更可靠、更安全。与 npm

yegen00 0喜欢 / 0评论 2020-10-21

三、大数据组件之Yarn

YARN是Hadoop2.0中的资源管理系统，它的基本设计思想是将MRv1中的JobTracker拆分成了两个独立的服务：一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。其中ResourceMana

Notzuonotdied 0喜欢 / 0评论 2020-09-17

yarn 查看资源 core 内存

这个命令句就可以 , 查看集群的资源情况 , 包括正在使用的情况.

xieting 0喜欢 / 0评论 2020-08-17

第一个Vue页面

安装完后，打开cmd命令行界面。安装yarn(fackbook依赖管理工具与Npm功能一样，推荐使用！！！--- 是否安装vue路由 -->. --- 是否启动ESLint代码检测 -->. --- 是否设置单元测试 -->. --- 是

hline 0喜欢 / 0评论 2020-07-29

hadoop框架三大组件hdfs、mapreduce、yarn 内容

1）分布式的运算程序往往需要分成至少2个阶段。2）第一个阶段的MapTask并发实例，完全并行运行，互不相干。3）第二个阶段的ReduceTask并发实例互不相干，但是他们的数据依赖于上一个阶段的所有MapTask并发实例的输出。4）MapReduce编程

tomli 0喜欢 / 0评论 2020-07-26

Hadoop Yarn工作机制 Job提交流程

MR程序提交到客户端所在的节点。YarnRunner向ResourceManager申请一个Application。RM将该应用程序的资源路径返回给YarnRunner。RM将用户的请求初始化成一个Task。其中一个NodeManager领取到Task任务

xieting 0喜欢 / 0评论 2020-07-04

Hive llap服务安装说明及测试（二）

因为Apache Slider 已经不维护了，下面介绍不使用 Slider 的 LLAP使用方式。

xieting 0喜欢 / 0评论 2020-06-28

Vue开发中cnpm,yarn,npm,nodejs 区别与关系

yarn是Facebook公司出品的用于管理nodejs包的一款软件。yarn是为了弥补 npm 的一些缺陷而出现的，建议使用yarnnpm是随同nodejs一起安装的包管理工具。cnpm是淘宝 npm镜像，更快。

YarnSup 0喜欢 / 0评论 2020-06-28

Yarn架构

资源的分配与调度。管理单个节点上的资源。为应用程序申请资源并分配给内部任务。任务的监控和容错。Container：封装了每个节点的多维度资源

tomli 0喜欢 / 0评论 2020-06-21

Hadoop

8.在2008年，Doug加入了Yahoo，开源了Hadoop，在Yahoo期间设计实现了Pig、HBase等框架

HJWZYY 0喜欢 / 0评论 2020-06-21

使用Taro实现小程序商城的购物车功能模块的实例代码

Taro是一套遵循React语法规范的多端开发解决方案。现如今市面上端的形态多种多样，Web、React-Native、微信小程序等各种端大行其道，当业务要求同时在不同的端都要求有所表现的时候，针对不同的端去编写多套代码的成本显然非常高，这时候只编写一套代

flyingbird 0喜欢 / 0评论 2020-06-14

[email protected]配合antd UI使用，自定义主题

// 使用react-app-rewired customize-cra就不用暴露webpack等配置文件。const { override, fixBabelImports, addLessLoader } = require;// style: tru

Notzuonotdied 0喜欢 / 0评论 2020-06-13

Yarn 和 NPM 国内快速镜像（淘宝镜像）

如果在前端开发使用 NPM 或者 YARN 下载过程中碰到网速非常慢，可以配置国内淘宝镜像来提升下载速度。

HJWZYY 0喜欢 / 0评论 2020-06-07

记学习react-native

　　根据文档中的内容，安装Node,Python2,JDK, Android Studio,npm全局安装Yarn。具体配置和环境变量配置也按文档来的。　　不过在创建新项目的时候使用react-native init项目名时一直报错，有报ETIMEOUT，

xieting 0喜欢 / 0评论 2020-05-29

如何在Ubuntu 20.04上安装Yarn

在Ubuntu上安装Yarn非常简单。我们将启用官方的Yarn存储库，导入存储库GPG密钥，然后安装该软件包。该存储库得到了一致的维护，并提供了最新版本。如果您通过nvm安装了Node槽，请使用以下命令跳过Node.js的安装：。系统上安装的版本可能与上面

tomli 0喜欢 / 0评论 2020-05-27

查看npm和yarn 的镜像源和配置淘宝镜像源

#npm：npm config get registry #yarn：yarn config get registry

xieting 0喜欢 / 0评论 2020-05-26

create-react-app + Typescript脚手架搭建

在react-app-env.d.ts文件中新增（否则将无法正常使用less module！！！

tomli 0喜欢 / 0评论 2020-05-25

设置yarn源修改为淘宝源

和npm修改淘宝源的的步骤差不多

tomli 0喜欢 / 0评论 2020-05-14

npm与yarn常用命令对比

npm init yarn init // 初始化。npm i x --S | --save yarn add x // 安装生产依赖并保存包名。np

tomli 0喜欢 / 0评论 2020-05-11

大数据 Hadoop

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统，简称HDFS。Hadoop的框架最核心的设计就是：HDFS

strongyoung 0喜欢 / 0评论 2020-05-09

Vue 环境准备

近期接触了下前端项目，记录下学习过程。原来会点js，jQuery 前后端一个人全搞定了，现在前后端分离，后端主要提供接口，前端主要负责交互。对于个人来说会更专注自己的业务，当然对于企业来说会多了一个人力成本。后面有时间再说说语法。没接触之前感觉不会用，未知

Notzuonotdied 0喜欢 / 0评论 2020-05-07

Spark Yarn部署时注意点

--是否启动一个线程检查每个任务正使用的物理内存量，如果任务超出分配值，则直接将其杀掉，默认是true -->

tomli 0喜欢 / 0评论 2020-05-04

如何找到Hive提交的SQL相对应的Yarn程序的applicationId

最近的工作是利用Hive做数据仓库的ETL转换，大致方式是将ETL转换逻辑写在一个hsql文件中，脚本当中都是简单的SQL语句，不包含判断、循环等存储过程中才有的写法，仅仅支持一些简单的变量替换，比如当前账期等。然后通过一个通用的shell脚本来执行hsq

编程中的点滴体验 0喜欢 / 0评论 2020-05-04

vue.js不通过webpack/npm/yarn加载单文件组建

Vue.component(‘block-menu‘, function (resolve, reject) {

HeliumLau 0喜欢 / 0评论 2020-04-29

虚拟机的失误操作没网了

指定一下resourcemanager webapp address 否则会 BindException

Notzuonotdied 0喜欢 / 0评论 2020-04-27

yarn安装和配置

yarn config set <key> <value> [-g|--global] //设置配置项。yarn install //安装package.json里所有包，并将包及它的所有依赖项保存进yarn.lock. yarn

tomli 0喜欢 / 0评论 2020-04-26

yarn的使用及升级Node.js的新方法

yarn包管理工具，官网说是快速、可靠、安全的依赖管理，尝试了一下，入手很快，用起来也蛮方便的。我之前写过npm国内镜像,npm安装失败解决方案，我们也可以通过yarn的config来设置淘宝镜像，相关命令如下：。error enhanced-.1.0:

HJWZYY 0喜欢 / 0评论 2020-04-26

Homebrew、gem、npm、yarn、bundle

打开终端执行 Homebrew 的指令，便可以轻松安装 Python，Node.js，Java，MySQL 等执行环境，安装 Chrome，WeChat 等海量的应用程序，接纳 Postman，VSCode 等开源社区的优秀产品。基本上所有东西都可以用 b

HJWZYY 0喜欢 / 0评论 2020-04-24

centos8安装nodejs

You may also need development tools to build native addons: sudo yum install gcc-c++ make

tomli 0喜欢 / 0评论 2020-04-22

yarn与npm的基本指令对比

Notzuonotdied 0喜欢 / 0评论 2020-04-20

搭建HDFS集群和Yarn集群

1.得安装我们的hadoop--java

硅步至千里 0喜欢 / 0评论 2020-04-19

Vue 组件库 Element 脚手架入门教程

前提是安装了nodejs，npm 验证安装成功 node –version npm –version. npm install -g yarn1命令进行全局安装。关于yarn的说明请看yarn的安装与使用 - CSDN博客。对应的代码为，在src目录下的A

ELEMENTS爱乐小超 0喜欢 / 0评论 2020-04-11

centos7.x 安装 NodeJS、yarn、pm2

配置环境变量（推荐）。退出编辑模式之后，执行如下命令source /etc/profile

tomli 0喜欢 / 0评论 2020-04-11

Hive JDBC连接Tez（AM）容器长期不释放问题的解决方法

有这样一个问题是很常见的：如果我们的Hive使用默认使用Tez作为执行引擎，当我们使用IDE通过Hive JDBC连接时，会出现在一个很“有趣”的想象：即如果我们不断开这个JDBC连接，则在Yarn上会持续有有一个Tez的AM容器持续存在，只有当端开JDB

juncke 0喜欢 / 0评论 2020-04-07

安装VUE

　　　　输入命令yarn global /cli[@3.9.2]为了和老师版本保持一致我也下载了3.9.2的。　　　　通过vue create[项目名]创建自己的项目　　　　　　如果用.，则表示是以当前文件夹为名项目

Notzuonotdied 0喜欢 / 0评论 2020-04-06

spark常用提交任务的基本的参数配置

spark-shell --master yarn --deploy-mode client --queue $realtime_queue #总的executors数根据数据量与自己的集群资源来分配。使用未公开的Unsafe和NIO包下ByteBuff

Notzuonotdied 0喜欢 / 0评论 2020-03-26

npm和yarn使用

npm 下载包的话比如npm install，它是按照包的排序，也就是队列挨个下载，一个下载完成后，再下载另一个。yarn是将要下载的包进行同时下载，并行下载，速度快。yarn 一直都有lock 文件，功能和npm 的package.lock.json差

HJWZYY 0喜欢 / 0评论 2020-03-23

MapReduce的使用

MapReduce基于yarn组件，想要做MapReduce就必须先开启hdfs和yarn。将common、hdfs、yarn、MapReduce文件夹下的所有jar包及其依赖包导入到项目中。Mapper阶段：Map必须得继承Mapper类，并且重写map

tomli 0喜欢 / 0评论 2020-03-05

yarn配置

4、修改默认镜像和node-sass

tomli 0喜欢 / 0评论 2020-03-04

外网无法访问VM中的hadoop yarn的8088端口，网页打开不了

　　注意：我自己配置的是伪分布式，在配置文件内配置的都是localhost，根据自己的配置自行更改。更改后必须重启虚拟机

YarnSup 0喜欢 / 0评论 2020-03-01

yarn常用命令

-refreshNodes 动态刷新dfs.hosts和dfs.hosts.exclude配置，无需重启NameNode。dfs.hosts.exclude：列出了禁止连入NameNode的datanode清单。重新读取hosts和exclude文件，更新

tomli 0喜欢 / 0评论 2020-02-22

Spark on Kubernetes与阿里云的深度整合

最近，笔者尝试将Spark on Kubernetes与阿里云深度整合，设计一个开箱即用的Spark on Kubernetes镜像。首先通过Terraform在阿里云上一键创建和销毁Kubernetes集群。然后写了一个脚本生成Spark镜像，使其在Ku

Hhanwen 0喜欢 / 0评论 2020-02-22

小记--------sparkstreaming常驻yarn调度程序调优

#sparkstreaming接收器将接受数据合并成数据块并存储在spark的时间间隔(毫秒)默认为200. #最后到底接受多少数据取决于三者的最小值。#推测任务是指针对一个stage里面拖后腿的Task，会在其他节点的executor上再次启动这个tas

xieting 0喜欢 / 0评论 2020-02-22

Yarn以及npm缓存包清理！

过完年在家捣鼓电脑，发现C盘快满了，又开始了各种优化C盘的方法，首先当然是用spaceSniffer去查看一下占用情况，不看不知道一看吓一跳，Yarn竟然在C盘个人目录有面有7个G多的大小，下面就简单列举几个Yarn提供的关于缓存的命令。运行命令会清理缓存

HJWZYY 0喜欢 / 0评论 2020-02-20

（2）spark运行模式

下面我们来看一下spark的运行模式，根据上一篇博客我们知道spark的运行模式分为以下几种：local、standalone、hadoop yarn。我们说本地开发最好用local模式，直接搭建一个spark环境就可以跑了，因为测试的话本地是最方便的。h

Notzuonotdied 0喜欢 / 0评论 2020-02-17

Hadoop及Yarn的HA集群安装

本教程需要3台Linu机器，主机也好，虚机也好。本例中每台内存不少于2G。本教程并未采用CDH这样的成型产品，原因有二，一是CDH占用内存较多，少于16G内存的电脑，无法用虚机完成所有教程中的内容；二是学习大数据的时候还是应该尽量从基本的操作开始，这样在遇

totxian 0喜欢 / 0评论 2020-02-11

Hadoop：Hadoop的学习路线

这里介绍在windows电脑搭建完全分布式，1主2从。主要适用于大批量的集群任务，由于是批量执行，故时效性偏低。Spark 是专为大规模数据处理而设计的快速通用的计算引擎，其是基于内存的迭代式计算。

IT智囊 0喜欢 / 0评论 2020-02-15

npm、cnpm、yarn三剑客

npm，cnpm，yarn这三个或许使用Hexo，Hugo，vuepress等静态博客搭建的小伙伴们来说，会经常遇见，会使用它们进行插件，依赖包等的安装、卸载与更新，如果你是前端开发者或者是准备从事前端的话，你会经常与它们三个打交道，下面简单的说说它们三剑

xieting 0喜欢 / 0评论 2020-02-12

前端开环境搭建

yarn基于node，并且速度更快，能自动缓存你下载过的包，让你在离线、重复下载时不需要通过去网上拉取文件，直接在本地就可以安装你需要的包！并且，yarn分离的各个包的安装过程，合理排队，不产生高频请求，单个包安装失败并不影响其他包的安装，有效的重试机制等

HJWZYY 0喜欢 / 0评论 2020-02-09

【已解决】使用 yarn 安装时，报错node_modules ode sass:Command failed.

请勿使用： cnpm ！！

YarnSup 0喜欢 / 0评论 2020-02-02