Oozie-4.1.0-CDH5.5.2 安装部署

一. Hadoop常见调度框架：
（1）Linux Crontab：

Linux自带的任务调度计划，在任务比较少的情况下，可以使用这种方式，直接执行脚本，例如添加一个执行计划： 0 12 * hive -f xxx.sql
（2）Azkaban：
（3）Oozie：Cloudera公司开源
（4）Zeus：阿里开源。

Oozie是管理Hadoop作业的工作流调度系统。Oozie定义了控制流节点和动作节点。Oozie实现的功能:
（1）Workflow：顺序执行流程节点；
（2）Coordinator：定时触发workflow；
（3）Bundle Job：绑定多个Coordinator。

Oozie是一个开源的工作流调度系统，它能够管理逻辑复杂的多个Hadoop作业，按照指定的顺序将其协同运行起来。例如，我们可能有这样一个需求，某个业务系统每天产生20G原始数据，我们每天都要对其进行处理，处理步骤如下所示：
1.通过Hadoop先将原始数据同步到HDFS上；
2.借助MapReduce计算框架对原始数据进行转换，生成的数据以分区表的形式存储到多张Hive表中；
3.需要对Hive中多个表的数据进行JOIN处理，得到一个明细数据Hive大表；
4.将明细数据进行复杂的统计分析，得到排序后的报表信息；
5.需要将统计分析得到的结果数据同步到业务系统中，供业务调用使用。
上述过程可以通过工作流系统来编排任务，最终生成一个工作流实例，然后每天定时启动运行这个实例即可。在这种依赖于Hadoop存储和处理能力要求的应用场景下，Oozie可能能够简化任务调度和执行。

二. Oozie安装：
Oozie不需要设置OOZIE_HOME环境变量（系统自行计算），推荐使用单独的用户（而不是root）来安装Oozie。

1.编译源码，解压压缩包：
http://oozie.apache.org/docs/4.0.0/DG_QuickStart.html

如果需要对Oozie个性化修改，可以自行修改源代码并编译，这里我直接使用官网编译好的版本oozie-4.1.0-cdh5.5.2.tar.gz：
[hadoop@h71 ~]$ tar -zxvf oozie-4.1.0-cdh5.5.2.tar.gz

以下配置添加到core-site.xml文件（使用用户和hostname替换文档中内容）：
[hadoop@h71 ~]$ vi $HADOOP_HOME/etc/hadoop/core-site.xml

<property>
<name>hadoop.proxyuser.natty.hosts</name>
<value>h71</value>
</property>
<property>
<name>hadoop.proxyuser.natty.groups</name>
<value>*</value>
</property>

添加以下内容到oozie配置文件，$OOZIE_HOME/conf/oozie-site.xml：
[hadoop@h71 oozie-4.1.0-cdh5.5.2]$ vi conf/oozie-site.xml

<property>
<name>oozie.service.HadoopAccessorService.hadoop.configurations</name>
<value>*=/home/hadoop/hadoop-2.6.0-cdh5.5.2/etc/hadoop</value>
<description>
Comma separated AUTHORITY=HADOOP_CONF_DIR, where AUTHORITY is the HOST:PORT of
the Hadoop service (JobTracker, HDFS). The wildcard '*' configuration is
used when there is no exact match for an authority. The HADOOP_CONF_DIR contains
the relevant Hadoop *-site.xml files. If the path is relative is looked within
the Oozie configuration directory; though the path can be absolute (i.e. to point
to Hadoop client conf/ directories in the local filesystem.
</description>
</property>

在解压oozie二进制发行包的目录中，解压hadooplibs发行包，也就是oozie-hadooplibs-4.0.0-cdh5.3.6.tar.gz
[hadoop@h71 oozie-4.1.0-cdh5.5.2]$ tar -zxvf oozie-hadooplibs-4.1.0-cdh5.5.2.tar.gz
这样，oozie的安装目录多了一个hadooplibs目录。

2.详细配置：
启动应该使用oozied.sh脚本，并添加，start、stop、run等参数。
在oozie的解压目录下创建libext目录。并将hadooplibs下的jar包拷贝到这个目录里，需要注意的是hadooplibs目录下有个文件夹hadooplib-2.6.0-cdh5.5.2.oozie-4.1.0-cdh5.5.2，hadooplib-2.6.0-mr1-cdh5.5.2.oozie-4.1.0-cdh5.5.2；后者对应于mapreduce1，所以我们拷贝第一个文件夹下的jar包即可。
还要将ext-3.0.0.zip的压缩包上传到libext目录，所需的ext-3.0.0.zip我已经上传

------------------------------------------分割线------------------------------------------

可以到安科网1号FTP服务器下载

------------------------------------------分割线------------------------------------------

[hadoop@h71 oozie-4.1.0-cdh5.5.2]$ mkdir libext
[hadoop@h71 oozie-4.1.0-cdh5.5.2]$ cp hadooplibs/hadooplib-2.6.0-cdh5.5.2.oozie-4.1.0-cdh5.5.2/* libext/
$ cp ext-3.0.0.zip /home/hadoop/ooozie-4.1.0-cdh5.5.2/libext/
$ unzip ext-3.0.0.zip
安装mysql数据库，并生成相关表（oozie是一个web系统，需要自己的知识库），所以，我们需要mysql connector驱动包，拷贝到$oozie_home/libext下。
$ cp mysql-connector-java-5.1.33-bin.jar /home/hadoop/ooozie-4.1.0-cdh5.5.2/libext/

（1）生成mysql数据表（oozie所需要的）
我们可以使用 bin/oozie-setup.sh命令的“db create”参数，来操作mysql数据库创建相应的库和表。但在使用这个命令前，需要先给oozie关联上mysql。下面先做关联操作：
修改oozie的配置文件（$oozie_home/conf/oozie-site.xml），配置driver、url、username、password：

<property>
<name>oozie.service.JPAService.jdbc.driver</name>
<value>com.mysql.jdbc.Driver</value>
</property>

<property>
<name>oozie.service.JPAService.jdbc.url</name>
<value>jdbc:mysql://h71:3306/oozie?createDatabaseIfNotExist=true</value>
</property>

<property>
<name>oozie.service.JPAService.jdbc.username</name>
<value>hadoop</value>
</property>

<property>
<name>oozie.service.JPAService.jdbc.password</name>
<value>123456</value>
</property>

（2）关联好mysql之后，通过脚本创建mysql的库表：
注意：在创建库表之前要在MySQL中做如下操作：
mysql> grant all privileges on *.* to hadoop@'h71' identified by '123456';
mysql> flush privileges;

[hadoop@h71 oozie-4.1.0-cdh5.5.2]$ bin/oozie-setup.sh db create -run oozie.sql

setting CATALINA_OPTS="$CATALINA_OPTS -Xmx1024m"

Validate DB Connection
DONE
Check DB schema does not exist
DONE
Check OOZIE_SYS table does not exist
DONE
Create SQL schema
DONE
Create OOZIE_SYS table
DONE

Oozie DB has been created for Oozie version '4.1.0-cdh5.5.2'

The SQL commands have been written to: /tmp/ooziedb-8197609038028550269.sql

执行成功之后，登陆到mysql验证数据库表的创建情况：

（3）下面生成war包，供tomcat访问：
[hadoop@h71 oozie-4.1.0-cdh5.5.2]$ bin/oozie-setup.sh prepare-war
命令执行成功后，会提示war包已经生成在webapps目录下：New Oozie WAR file with added 'JARs' at /home/hadoop/oozie-4.1.0-cdh5.5.2/oozie-server/webapps/oozie.war

（4）上传sharelib压缩包到HDFS上：
在$oozie_home下，有2个sharelib压缩包，分别是oozie-sharelib-4.1.0-cdh5.5.2.tar.gz和oozie-sharelib-4.1.0-cdh5.5.2-yarn.tar.gz，很明显，我们必须拷贝第二个带yarn的压缩包（前边的是1.0版本的，不带yarn的）。
[hadoop@h71 oozie-4.1.0-cdh5.5.2]$ bin/oozie-setup.sh sharelib create -fs hdfs://h71:9000 -locallib oozie-sharelib-4.1.0-cdh5.5.2-yarn.tar.gz
会报错：

setting CATALINA_OPTS="$CATALINA_OPTS -Xmx1024m"
the destination path for sharelib is: /user/hadoop/share/lib/lib_20170317224413

Error: User: hadoop is not allowed to impersonate hadoop

Stack trace for the error was (for debug purposes):
--------------------------------------
org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.authorize.AuthorizationException): User: hadoop is not allowed to impersonate hadoop
at org.apache.hadoop.ipc.Client.call(Client.java:1466)
at org.apache.hadoop.ipc.Client.call(Client.java:1403)
at org.apache.hadoop.ipc.ProtobufRpcEngine$Invoker.invoke(ProtobufRpcEngine.java:230)
at com.sun.proxy.$Proxy14.getFileInfo(Unknown Source)
at org.apache.hadoop.hdfs.protocolPB.ClientNamenodeProtocolTranslatorPB.getFileInfo(ClientNamenodeProtocolTranslatorPB.java:752)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:606)
at org.apache.hadoop.io.retry.RetryInvocationHandler.invokeMethod(RetryInvocationHandler.java:256)
at org.apache.hadoop.io.retry.RetryInvocationHandler.invoke(RetryInvocationHandler.java:104)
at com.sun.proxy.$Proxy15.getFileInfo(Unknown Source)
at org.apache.hadoop.hdfs.DFSClient.getFileInfo(DFSClient.java:2095)
at org.apache.hadoop.hdfs.DistributedFileSystem$19.doCall(DistributedFileSystem.java:1214)
at org.apache.hadoop.hdfs.DistributedFileSystem$19.doCall(DistributedFileSystem.java:1210)
at org.apache.hadoop.fs.FileSystemLinkResolver.resolve(FileSystemLinkResolver.java:81)
at org.apache.hadoop.hdfs.DistributedFileSystem.getFileStatus(DistributedFileSystem.java:1210)
at org.apache.hadoop.fs.FileSystem.exists(FileSystem.java:1409)
at org.apache.hadoop.fs.FileUtil.checkDest(FileUtil.java:499)
at org.apache.hadoop.fs.FileUtil.copy(FileUtil.java:351)
at org.apache.hadoop.fs.FileUtil.copy(FileUtil.java:341)
at org.apache.hadoop.fs.FileSystem.copyFromLocalFile(FileSystem.java:1944)
at org.apache.hadoop.fs.FileSystem.copyFromLocalFile(FileSystem.java:1912)
at org.apache.oozie.tools.OozieSharelibCLI.run(OozieSharelibCLI.java:166)
at org.apache.oozie.tools.OozieSharelibCLI.main(OozieSharelibCLI.java:57)
--------------------------------------

解决：
在core-site.xml添加如下属性，其中
hadoop.proxyuser.hadoop.groups中的hadoop是用户，value里面的hadoop是group
[hadoop@h71 hadoop-2.6.0-cdh5.5.2]$ vi etc/hadoop/core-site.xml
添加：

<property>
<name>hadoop.proxyuser.hadoop.groups</name>
<value>hadoop</value>
<description>Allow the superuser oozie to impersonate any members of the group group1 and group2</description>
</property>

<property>
<name>hadoop.proxyuser.hadoop.hosts</name>
<value>h71</value>
<description>The superuser can connect only from host1 and host2 to impersonate a user</description>
</property>

然后重启hadoop：
[hadoop@h71 hadoop-2.6.0-cdh5.5.2]$ sbin/stop-all.sh
[hadoop@h71 hadoop-2.6.0-cdh5.5.2]$ sbin/start-all.sh

3.启动oozie和测试：
启动oozie，使用oozied.sh脚本。
[hadoop@h71 oozie-4.1.0-cdh5.5.2]$ bin/oozied.sh start

启动后，访问网址http://h71:11000/oozie/
可以看到oozie的主页面：

Oozie-4.1.0-CDH5.5.2 安装部署

三. Oozie测试和使用（执行官方example实例）：
Oozie官方提供了一个样例包，我们后边的开发都以这个example实例为模板进行。解压Oozie主目录下的example包：
[hadoop@h71 oozie-4.1.0-cdh5.5.2]$ tar zxf oozie-examples.tar.gz
[hadoop@h71 oozie-4.1.0-cdh5.5.2]$ cd examples/apps/

apps目录下存放了我们需要配置的作业内容。
[hadoop@h71 apps]$ ls
aggregator bundle cron cron-schedule custom-main datelist-java-main demo distcp hadoop-el hcatalog
hive hive2 java-main map-reduce no-op pig shell sla spark sqoop sqoop-freeform ssh streaming subwf

在目录中可以看到，有关于map-reduce、sqoop、hive等很多类型的作业的配置的实例。下面，我以map-reduce作业为例来说明，oozie作业的配置方法。在map-reduce目录中有三个重要的内容：
（1）job.properties：定义job相关的属性，比如输入输出目录、namenode节点等。定义了workflow.xml文件的位置。
（2）workflow.xml：定义工作流相关的配置，start 、 end 、kill等
（3）lib文件夹：存放job任务需要的jar包。
注意：配置作业需要修改job.properties和workflow.xml两个文件。
配置job.properties：

nameNode=hdfs://h71:9000
jobTracker=h71:8032
queueName=default
examplesRoot=examples
user.name=hadoop

oozie.wf.application.path=${nameNode}/user/${user.name}/${examplesRoot}/apps/map-reduce/workflow.xml
outputDir=map-reduce

注：jobTracker配置的是ResourceManager的端口。需要一定注意，我们的ResourceManager配置在senior02主机上，并且端口是8032（不是8088，8088端口是web界面查看的端口）

配置workflow.xml：

<workflow-app xmlns="uri:oozie:workflow:0.2" name="map-reduce-wf">
<start to="mr-node"/>
<action name="mr-node">
<map-reduce>
<job-tracker>${jobTracker}</job-tracker>
<name-node>${nameNode}</name-node>
<prepare>
<delete path="${nameNode}/user/hadoop/${examplesRoot}/output-data/${outputDir}"/>
</prepare>
<configuration>
<property>
<name>mapred.job.queue.name</name>
<value>${queueName}</value>
</property>
<property>
<name>mapred.mapper.class</name>
<value>org.apache.oozie.example.SampleMapper</value>
</property>
<property>
<name>mapred.reducer.class</name>
<value>org.apache.oozie.example.SampleReducer</value>
</property>
<property>
<name>mapred.map.tasks</name>
<value>1</value>
</property>
<property>
<name>mapred.input.dir</name>
<value>/user/hadoop/${examplesRoot}/input-data/text</value>
</property>
<property>
<name>mapred.output.dir</name>
<value>/user/hadoop/${examplesRoot}/output-data/${outputDir}</value>
</property>
</configuration>
</map-reduce>
<ok to="end"/>
<error to="fail"/>
</action>
<kill name="fail">
<message>Map/Reduce failed, error message[${wf:errorMessage(wf:lastErrorNode())}]</message>
</kill>
<end name="end"/>
</workflow-app>

上传examples目录到HDFS的/user/natty/路径。
[hadoop@h71 ~]$ hadoop fs -put oozie-4.1.0-cdh5.5.2/examples/ /user/hadoop

运行example应用：
[hadoop@h71 oozie-4.1.0-cdh5.5.2]$ bin/oozie job -oozie http://h71:11000/oozie -config examples/apps/map-reduce/job.properties -run
job: 0000000-170317232542282-oozie-hado-W

杀掉job：
[hadoop@h71 oozie-4.1.0-cdh5.5.2]$ bin/oozie job -oozie http://h71:11000/oozie -kill 0000000-170317232542282-oozie-hado-W

请注意，在执行应用前，要保证oozie是启动状态的。

Oozie-4.1.0-CDH5.5.2 安装部署

心中永远的正能量

相关推荐

【赵强老师】大数据工作流引擎Oozie

oozie 默认系统库位置和java代码调用oozie指定具体位置jar写法

oozie 4.0.0 on hadoop2.4.1安装笔记（完整版）

oozie CDH4和hadoop CDH4整合出现的问题(二)

oozie CDH4和hadoop CDH4整合出现的问题(一)

Oozie Java代码运行Job

Oozie运行Hive

Oozie运行Hadoop

Oozie安装部署

hadoop oozie 报错

Install oozie-3.3.2 on Hadoop 1.1.1

oozie-工作流控制节点详述

hue oozie再踩坑，workflow,coordinator终于都可以跑了

Apache Oozie v5.0.0发布，启动器调整，支持JDK8！

RedHat Linux 5.5下安装Oozie4.1.0-CDH5.5.2

Apache Oozie 信息泄露漏洞（CVE-2017-15712）

Oozie 快速入门

高可用Hadoop平台－Oozie工作流之Hadoop调度

Oozie4.0.1详细安装教程

Hadoop平台上Oozie调度系统的安装配置

指定Oozie Java节点的Hadoop属性

oozie中运行mapreduce node-action时的常见异常解决方法

oozie hive action注意事项

Hadoop Oozie学习笔记自定义安装和启动

Hadoop Oozie学习笔记 Oozie不支持Sqoop问题解决

Hadoop Oozie学习笔记 org.apache.oozie.service.Authoriz

Hadoop Oozie学习笔记E0720: Fork/join mismatch, node [join_

Hadoop生态系统搭建（hadoop hive hbase zookeeper oozie sqoop

大数据之Oozie——源码分析（一）程序入口

Oozie分布式任务的工作流——脚本篇

Oozie分布式任务的工作流——邮件篇