当前位置: 首页 / 技术分享 / 正文
【资源】大数据-Azkaban教程:视频+源码+笔记

2020-01-07

大数据视频教程 好程序员大数据视频教程

2019最新小白速成调度框架azkaban【好程序员大数据】-封面图

为了方便大家更加便捷的学习大数据,好程序员今天为大家准备了大数据教程中的Azkaban调度器使用方法,本教程配有全套视频+源码+笔记,内容丰富、讲解透彻,再配上源码,实操性很强!想学习的小伙伴赶快抓紧下载!

关于Azkaban你了解多少呢?

1、Azkaban是什么?

在介绍Azkaban之前,我们先来看一下现有的两个工作流任务调度系统。知名度比较高的应该是Apache Oozie,但是其配置工作流的过程是编写大量的XML配置,而且代码复杂度比较高,不易于二次开发。另外一个应用也比较广泛的调度系统是Airflow,但是其开发语言是Python。

如果团队中将Java作为主流开发语言的话,那么Azkaban可以作为首选,这是因为:

  • 基于Java开发,代码结构清晰,易于二次开发;
  • 提供功能清晰,简单易用的Web UI界面;
  • 提供job配置文件快速建立任务和任务之间的依赖关系;
  • 提供模块化和可插拔的插件机制,原生支持command、Java、Hive、Pig、Hadoop

Azkaban是由Linkedin公司推出的一个批量工作流任务调度器,主要用于在一个工作流内以一个特定的顺序运行一组工作和流程,它的配置是通过简单的key:value对的方式,通过配置中的dependencies 来设置依赖关系,这个依赖关系必须是无环的,否则会被视为无效的工作流。

Azkaban使用job配置文件建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。

2、Azkaban的适用场景

实际项目中经常有这些场景:

每天有一个大任务,这个大任务可以分成A、B、C、D四个小任务,A、B任务之间没有依赖关系,C任务依赖A、B任务的结果,D任务依赖C任务的结果。

一般的做法是,开两个终端同时执行A,B,两个都执行完了再执行C,最后再执行D。这样的话,整个的执行过程都需要人工参加,并且得盯着各任务的进度。但是我们的很多任务都是在深更半夜执行的,通过写脚本设置crontab执行。

其实,整个过程类似于一个有向无环图(DAG)。每个子任务相当于大任务中的一个流,任务的起点可以从没有度的节点开始执行,任何没有通路的节点之间可以同时执行,比如上述的A,B。

总结起来的话,我们需要的就是一个工作流的调度器,而Azkaban就是能解决上述问题的一个调度器。

3、Azkaban架构

Azkaban在LinkedIn上实施,以解决Hadoop作业依赖问题。我们有工作需要按顺序运行,从ETL工作到数据分析产品。最初是单一服务器解决方案,随着多年来Hadoop用户数量的增加,Azkaban 已经发展成为一个更强大的解决方案。

Azkaban由三个关键组件构成:关系型数据库(MySQL)、AzkabanWebServer、AzkabanExecutorServer(如下图)

azkaban2 

4、好程序员大数据之Azkaban

课程价值:

学习完本课程,能掌握调度概念、调度流程、项目调度和azkaban定时调度等。

本课程适合人群:

本课程视频适合所有了解或者系统学习过hadoop生态圈相关组件的学生。若对大数据没有相关了解,能听懂概念,很多操作不能关联。

5、Azkaban课程学习路线图

01 azkaban的概览

02 azkaban和oozie的区别

03 azkaban-3.57.0源码编译

04 solo Server的安装部署

05 solo server测试使用

06 azkaban的command type案例

07 azkaban的shell案例

08 azkban的mapreduce案例

09 azkaban的依赖案例

10 azakabab的定时任务案例

11 azkaban的元数据库初始化

12 azkaban的webserver的安装

13 azkaban的executor的安装

14 azkaban的多executor的测试

6、免费资源领取方式:

关注微信公众号:好程序员,回复“DT7”获取好程序员大数据教程之Azkaban使用方法(全套视频+源码+笔记+配置软件) 

扫码

好程序员开班动态

More+
  • HTML5大前端 <高端班>

    开班时间:2020-02-17(北京)

    开班盛况

    开班时间:2020-03-02(深圳)

    开班盛况
  • 大数据+人工智能 <好程序员严选班>

    开班时间:2019-12-23(北京)

    开班盛况
  • 大数据+人工智能 <好程序员班>

    开班时间:2020-02-24(杭州)

    开班盛况

    开班时间:2020-02-17(北京)

    开班盛况
  • JavaEE分布式开发 <高端班>

    开班时间:2020-03-09(北京)

    开班盛况
  • Python全栈+人工智能 <高端班>

    开班时间:2019-07-22(北京)

    开班盛况
  • 云计算开发 <高端班>

    开班时间:2020-02-24(北京)

    开班盛况
在线咨询
免费试听
入学教程
立即报名

Copyright 2007-2019 北京千锋互联科技有限公司 .All Right 京ICP备12003911号-5 京公安网11010802011455号