2020-01-07
大数据视频教程 好程序员大数据视频教程
为了方便大家更加便捷的学习大数据,好程序员今天为大家准备了大数据教程中的Azkaban调度器使用方法,本教程配有全套视频+源码+笔记,内容丰富、讲解透彻,再配上源码,实操性很强!想学习的小伙伴赶快抓紧下载!
关于Azkaban你了解多少呢?
1、Azkaban是什么?
在介绍Azkaban之前,我们先来看一下现有的两个工作流任务调度系统。知名度比较高的应该是Apache Oozie,但是其配置工作流的过程是编写大量的XML配置,而且代码复杂度比较高,不易于二次开发。另外一个应用也比较广泛的调度系统是Airflow,但是其开发语言是Python。
如果团队中将Java作为主流开发语言的话,那么Azkaban可以作为首选,这是因为:
Azkaban是由Linkedin公司推出的一个批量工作流任务调度器,主要用于在一个工作流内以一个特定的顺序运行一组工作和流程,它的配置是通过简单的key:value对的方式,通过配置中的dependencies 来设置依赖关系,这个依赖关系必须是无环的,否则会被视为无效的工作流。
Azkaban使用job配置文件建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。
2、Azkaban的适用场景
实际项目中经常有这些场景:
每天有一个大任务,这个大任务可以分成A、B、C、D四个小任务,A、B任务之间没有依赖关系,C任务依赖A、B任务的结果,D任务依赖C任务的结果。
一般的做法是,开两个终端同时执行A,B,两个都执行完了再执行C,最后再执行D。这样的话,整个的执行过程都需要人工参加,并且得盯着各任务的进度。但是我们的很多任务都是在深更半夜执行的,通过写脚本设置crontab执行。
其实,整个过程类似于一个有向无环图(DAG)。每个子任务相当于大任务中的一个流,任务的起点可以从没有度的节点开始执行,任何没有通路的节点之间可以同时执行,比如上述的A,B。
总结起来的话,我们需要的就是一个工作流的调度器,而Azkaban就是能解决上述问题的一个调度器。
3、Azkaban架构
Azkaban在LinkedIn上实施,以解决Hadoop作业依赖问题。我们有工作需要按顺序运行,从ETL工作到数据分析产品。最初是单一服务器解决方案,随着多年来Hadoop用户数量的增加,Azkaban 已经发展成为一个更强大的解决方案。
Azkaban由三个关键组件构成:关系型数据库(MySQL)、AzkabanWebServer、AzkabanExecutorServer(如下图)
4、好程序员大数据之Azkaban
课程价值:
学习完本课程,能掌握调度概念、调度流程、项目调度和azkaban定时调度等。
本课程适合人群:
本课程视频适合所有了解或者系统学习过hadoop生态圈相关组件的学生。若对大数据没有相关了解,能听懂概念,很多操作不能关联。
5、Azkaban课程学习路线图
01 azkaban的概览
02 azkaban和oozie的区别
03 azkaban-3.57.0源码编译
04 solo Server的安装部署
05 solo server测试使用
06 azkaban的command type案例
07 azkaban的shell案例
08 azkban的mapreduce案例
09 azkaban的依赖案例
10 azakabab的定时任务案例
11 azkaban的元数据库初始化
12 azkaban的webserver的安装
13 azkaban的executor的安装
14 azkaban的多executor的测试
6、免费资源领取方式:
关注微信公众号:好程序员,回复“DT7”获取好程序员大数据教程之Azkaban使用方法(全套视频+源码+笔记+配置软件)
开班时间:2021-04-12(深圳)
开班盛况开班时间:2021-05-17(北京)
开班盛况开班时间:2021-03-22(杭州)
开班盛况开班时间:2021-04-26(北京)
开班盛况开班时间:2021-05-10(北京)
开班盛况开班时间:2021-02-22(北京)
开班盛况开班时间:2021-07-12(北京)
预约报名开班时间:2020-09-21(上海)
开班盛况开班时间:2021-07-12(北京)
预约报名开班时间:2019-07-22(北京)
开班盛况Copyright 2011-2023 北京千锋互联科技有限公司 .All Right 京ICP备12003911号-5 京公网安备 11010802035720号