Oozie 快速入门

设想一下，当你的系统引入了spark或者Hadoop以后，基于Spark和Hadoop已经做了一些任务，比如一连串的Map Reduce任务，但是他们之间彼此右前后依赖的顺序，因此你必须要等一个任务执行成功后，再手动执行第二个任务。是不是很烦！这个时候Oozie乌贼就派上用场了，它可以把多个任务组成一个工作流，自动完成任务的调用。

Oozie 快速入门

至于为什么要取这样的名字，我的理解是，乌贼有很多只脚但是只有一个身体，这正像是工作流引擎一样，功能很多，可以做的事情很多，但是都是受到一个调度器控制；它的身体很柔软，说明工作流引擎本身弹性功能很大，能做的事情很多。至于为什么想到上面的图片，看完美人鱼，一提到乌贼或者八爪鱼我就想到了小猪。

简介

Oozie是一个基于工作流引擎的服务器，可以在上面运行Hadoop的Map Reduce和Pig任务。它其实就是一个运行在Java Servlet容器（比如Tomcat）中的Javas Web应用。

对于Oozie来说，工作流就是一系列的操作（比如Hadoop的MR，以及Pig的任务），这些操作通过有向无环图的机制控制。这种控制依赖是说，一个操作的输入依赖于前一个任务的输出，只有前一个操作完全完成后，才能开始第二个。

Oozie工作流通过hPDL定义（hPDL是一种XML的流程定义语言）。工作流操作通过远程系统启动任务。当任务完成后，远程系统会进行回调来通知任务已经结束，然后再开始下一个操作。

Oozie工作流包含控制流节点以及操作节点

控制流节点定义了工作流的开始和结束（start,end以及fail的节点），并控制工作流执行路径（decision,fork,join节点）。操作节点是工作流触发计算\处理任务的执行，Oozie支持不同的任务类型——hadoop map reduce任务，hdfs,Pig，SSH,eMail,Oozie子工作流等等。Oozie可以自定义扩展任务类型。

Oozie工作流可以参数化的方式执行（使用变量${inputDir}定义）。当提交工作流任务的时候就需要同时提供参数。如果参数合适的话（使用不同的目录）就可以定义并行的工作流任务。

总结来说

Oozie是管理Hadoop作业的工作流调度系统
Oozie的工作流是一系列的操作图
Oozie协调作业是通过时间（频率）以及有效数据触发当前的Oozie工作流程
Oozie是针对Hadoop开发的开源工作流引擎，专门针对大规模复杂工作流程和数据管道设计
Oozie围绕两个核心：工作流和协调器，前者定义任务的拓扑和执行逻辑，后者负责工作流的依赖和触发。

WordCount工作流例子

Oozie 快速入门

hPDL流程的定义:

<workflow-app name='wordcount-wf' xmlns="uri:oozie:workflow:0.1">
    <start to='wordcount'/>
    <action name='wordcount'>
        <map-reduce>
            <job-tracker>${jobTracker}</job-tracker>
            <name-node>${nameNode}</name-node>
            <configuration>
                <property>
                    <name>mapred.mapper.class</name>
                    <value>org.myorg.WordCount.Map</value>
                </property>
                <property>
                    <name>mapred.reducer.class</name>
                    <value>org.myorg.WordCount.Reduce</value>
                </property>
                <property>
                    <name>mapred.input.dir</name>
                    <value>${inputDir}</value>
                </property>
                <property>
                    <name>mapred.output.dir</name>
                    <value>${outputDir}</value>
                </property>
            </configuration>
        </map-reduce>
        <ok to='end'/>
        <error to='end'/>
    </action>
    <kill name='kill'>
        <message>Something went wrong: ${wf:errorCode('wordcount')}</message>
    </kill/>
    <end name='end'/>
</workflow-app>

参考

oozie入门介绍

下面关于Oozie的文章您也可能喜欢，不妨看看：

Oozie 快速入门

简介

Oozie工作流包含控制流节点以及操作节点

总结来说

WordCount工作流例子

参考

小李子栏

相关推荐

【赵强老师】大数据工作流引擎Oozie

oozie 默认系统库位置和java代码调用oozie指定具体位置jar写法

oozie 4.0.0 on hadoop2.4.1安装笔记（完整版）

oozie CDH4和hadoop CDH4整合出现的问题(二)

oozie CDH4和hadoop CDH4整合出现的问题(一)

Oozie Java代码运行Job

Oozie运行Hive

Oozie运行Hadoop

Oozie安装部署

hadoop oozie 报错

Install oozie-3.3.2 on Hadoop 1.1.1

oozie-工作流控制节点详述

hue oozie再踩坑，workflow,coordinator终于都可以跑了

Apache Oozie v5.0.0发布，启动器调整，支持JDK8！

RedHat Linux 5.5下安装Oozie4.1.0-CDH5.5.2

Oozie-4.1.0-CDH5.5.2 安装部署

Apache Oozie 信息泄露漏洞（CVE-2017-15712）

高可用Hadoop平台－Oozie工作流之Hadoop调度

Oozie4.0.1详细安装教程

Hadoop平台上Oozie调度系统的安装配置

指定Oozie Java节点的Hadoop属性

oozie中运行mapreduce node-action时的常见异常解决方法

oozie hive action注意事项

Hadoop Oozie学习笔记自定义安装和启动

Hadoop Oozie学习笔记 Oozie不支持Sqoop问题解决

Hadoop Oozie学习笔记 org.apache.oozie.service.Authoriz

Hadoop Oozie学习笔记E0720: Fork/join mismatch, node [join_

Hadoop生态系统搭建（hadoop hive hbase zookeeper oozie sqoop

大数据之Oozie——源码分析（一）程序入口

Oozie分布式任务的工作流——脚本篇

Oozie分布式任务的工作流——邮件篇