Oozie的学习笔记

jopen 10年前
介绍
       在Hadoop中执行的任务有时候需要把多个Map/Reduce作业连接到一起,这样才能够达到目的。[1]在Hadoop生态圈中,有一种相对比较 新的组件叫做Oozie[2],它让我们可以把多个Map/Reduce作业组合到一个逻辑工作单元中,从而完成更大型的任务。本文中,我们会向你介绍 Oozie以及使用它的一些方式。
  什么是Oozie?
  Oozie是一种Java Web应用程序,它运行在Java servlet容器——即Tomcat——中,并使用数据库来存储以下内容:
  ●工作流定义
  ●当前运行的工作流实例,包括实例的状态和变量
   Oozie工作流是放置在控制依赖DAG(有向无环图 Direct Acyclic Graph)中的一组动作(例如,Hadoop的Map/Reduce作业、Pig作业等),其中指定了动作执行的顺序。我们会使用hPDL(一种XML 流程定义语言)来描述这个图。
   hPDL是一种很简洁的语言,只会使用少数流程控制和动作节点。控制节点会定义执行的流程,并包含工作流的起点和终点(start、end和fail节 点)以及控制工作流执行路径的机制(decision、fork和join节点)。动作节点是一些机制,通过它们工作流会触发执行计算或者处理任务。 Oozie为以下类型的动作提供支持: Hadoop map-reduce、Hadoop文件系统、Pig、Java和Oozie的子工作流(SSH动作已经从Oozie schema 0.2之后的版本中移除了)。
   所有由动作节点触发的计算和处理任务都不在Oozie之中——它们是由Hadoop的Map/Reduce框架执行的。这种方法让Oozie可以支持现 存的Hadoop用于负载平衡、灾难恢复的机制。这些任务主要是异步执行的(只有文件系统动作例外,它是同步处理的)。这意味着对于大多数工作流动作触发 的计算或处理任务的类型来说,在工作流操作转换到工作流的下一个节点之前都需要等待,直到计算或处理任务结束了之后才能够继续。Oozie可以通过两种不 同的方式来检测计算或处理任务是否完成,也就是回调和轮询。当Oozie启动了计算或处理任务的时候,它会为任务提供唯一的回调URL,然后任务会在完成 的时候发送通知给特定的URL。在任务无法触发回调URL的情况下(可能是因为任何原因,比方说网络闪断),或者当任务的类型无法在完成时触发回调URL 的时候,Oozie有一种机制,可以对计算或处理任务进行轮询,从而保证能够完成任务。
  Oozie工作流可以参数化(在工作流定义中使用像${inputDir}之类的变量)。在提交工作流操作的时候,我们必须提供参数值。如果经过合适地参数化(比方说,使用不同的输出目录),那么多个同样的工作流操作可以并发。
   一些工作流是根据需要触发的,但是大多数情况下,我们有必要基于一定的时间段和(或)数据可用性和(或)外部事件来运行它们。Oozie协调系统 (Coordinator system)让用户可以基于这些参数来定义工作流执行计划。Oozie协调程序让我们可以以谓词的方式对工作流执行触发器进行建模,那可以指向数据、事 件和(或)外部事件。工作流作业会在谓词得到满足的时候启动。
  经常我们还需要连接定时运行、但时间间隔不同的工作流操作。多个随后运行的工作流的输出会成为下一个工作流的输入。把这些工作流连接在一起,会让系统把它作为数据应用的管道来引用。Oozie协调程序支持创建这样的数据应用管道。

安装
         
1、Building Oozie

System Requirements:

  • Unix box (tested on Mac OS X and Linux)
  • Java JDK 1.6+
  • Maven 3.0.1+
  • Hadoop 0.20.2+
  • Pig 0.7+

JDK commands (java, javac) must be in the command path.

The Maven command (mvn) must be in the command path.


oozie的编译非常困难,oozie的版本,hadoop的版本都非常敏感

经验总结

目前看来,编译Hadoop2.2.0版本的oozie,使用oozie4.4.0编译分布式程序集,命令如下  

mvn clean package assembly:single -DskipTests=true -Dhadoop.version=2.2.0 

具体参考  Building Oozie


异常情况:

oozie4.0.1对hadoop2.2.0的编译修改


2、Server Installation

  1. copy所有的hadooplibs的jar包到libexts目录中。特别注意的是,hadoop-auth-2.2.0.jar
  2. 建 立软链接到bin目录下。   ln -s ../distro/target/oozie-4.0.0-distro/oozie-4.0.0/bin/oozied.sh bin/oozied.sh ,和oozie-setup.sh  , 这两个即可,oozied.sh 包含了ooziedb.sh 
  3. 创建oozie的数据库。bin/oozied.sh db create -sqlfile oozie.sql -run DB Connection.
  4. 生成war包,自动放置到tomcat的webapp 下面。bin/oozie-setup.sh prepare-war -d libext
  5. 运行,只需要运行$ bin/oozied.sh start

3、Client Installation

4、Oozie Share Lib Installation


具体的详细安装,可以参考 安装详细步骤参见官网资料


使用
    运行示例  running example