要说分布式调度,那么先来谈下什么是分布式。 分布式:百度百科上是这么说的,当计算机的程序和数据通过网络分布在多于一个的计算机上时,计算就成为“分布式的”。通俗的说,平台是分布式部署的,各个节点之间可以无状态和无限的水平扩展。 那么什么是分布式调度?分布式调度就是运⾏在分布式集群环境下的调度任务。它有两层含义:
同⼀个定时任务程序部署多份,只应该有⼀个定时任务在执⾏定时任务的拆分,即为把⼀个⼤的作业任务拆分为多个⼩的作业任务,同时执⾏下面我们通过一个图来简单了解下分布式任务调度
其实分布式调度本质上就是在分布式环境下对定时任务的调度。定时任务的实现⽅式有多种。早期没有定时任务框架的时候,我们会使⽤JDK中的Timer机制和多线程机制(Runnable+线程休眠)来实现定时或者间隔⼀段时间执⾏某⼀段程序;后来有了定时任务框架,⽐如⼤名鼎鼎的Quartz任务调度框架,使⽤时间表达式(包括:秒、分、时、⽇、周、年)配置某⼀个任务什么时间去执⾏。现在有一系列针对分布式环境下的任务调度框架供我们使用,比如:cronsun、Elastic-job、saturn、lts、TBSchedule、xxl-job等。这里,我们就拿当当网的Elastic-job来展开说明。
Elastic-Job是当当⽹开源的⼀个分布式调度解决⽅案,基于Quartz⼆次开发的,由两个相互独⽴的⼦项⽬Elastic-Job-Lite和Elastic-Job-Cloud组成。这里我们要介绍的是 Elastic-Job-Lite,它定位为轻量级⽆中⼼化解决⽅案,使⽤Jar包的形式提供分布式任务的协调服务,⽽Elastic-Job-Cloud⼦项⽬需要结合Mesos以及Docker在云环境下使⽤。
Elastic-Job的github地址:https://github.com/elasticjob,有兴趣的可以去看看
下面我们对Elastic-Job-Lite的主要功能进行介绍
分布式调度协调 在分布式环境中,任务能够按指定的调度策略执⾏,并且能够避免同⼀任务多实例重复执⾏丰富的调度策略 基于成熟的定时任务作业框架Quartz cron表达式执⾏定时任务弹性扩容缩容 当集群中增加某⼀个实例,它应当也能够被选举并执⾏任务;当集群减少⼀个实例时,它所执⾏的任务能被转移到别的实例来执⾏。失效转移 某实例在任务执⾏失败后,会被转移到其他实例执⾏错过执⾏作业重触发 若因某种原因导致作业错过执⾏,⾃动记录错过执⾏的作业,并在上次作业完成后⾃动触发。⽀持并⾏调度 ⽀持任务分⽚,任务分⽚是指将⼀个任务分为多个⼩任务项在多个实例同时执⾏。作业分⽚⼀致性 当任务被分⽚后,保证同⼀分⽚在分布式环境中仅⼀个执⾏实例。Elastic-Job-lite有两个重要的特点:
轻量级 all in jar,所有用到的东西都在jar包中,唯一的也是必要的依赖只有zookeeper去中心化 执行节点对等;定时调度自触发,无需中心调度节点分配;服务自发现;主节点非固定,一个节点故障或者下线自动切换到其它节点⼀个⼤的⾮常耗时的作业Job,⽐如:⼀次要处理⼀亿的数据,那这⼀亿的数据存储在数据库中,如果⽤⼀个作业节点处理⼀亿数据要很久,在互联⽹领域是不太能接受的,互联⽹领域更希望机器的增加去横向扩展处理能⼒。所以,ElasticJob可以把作业分为多个的task(每⼀个task就是⼀个任务分⽚),每⼀个task交给具体的⼀个机器实例去处理(⼀个机器实例是可以处理多个task的),但是具体每个task执⾏什么逻辑由我们⾃⼰来指定。 Strategy策略定义这些分⽚项怎么去分配到各个机器上去,默认是平均去分,可以定制,⽐如某⼀个机器负载 ⽐较⾼或者预配置⽐较⾼,那么就可以写策略。分⽚和作业本身是通过⼀个注册中⼼协调的,因为在分布式环境下,状态数据肯定集中到⼀点,才可以在分布式中沟通。
上图中我们新增加⼀个运⾏实例app3,它会⾃动注册到注册中⼼,注册中⼼发现新的服务上线,注册中⼼会通知ElasticJob 进⾏重新分⽚,那么总得分⽚项有多少,那么就可以搞多少个实例机器,⽐如完全可以分1000⽚, 来同时工作。
注意:
分⽚项也是⼀个JOB配置,修改配置,重新分⽚,在下⼀次定时运⾏之前会重新调⽤分⽚算法,那么这个分⽚算法的结果就是:哪台机器运⾏哪⼀个⼀⽚,这个结果存储到zk中的,主节点会把分⽚给分好放到注册中⼼去,然后执⾏节点从注册中⼼获取信息(执⾏节点在定时任务开启的时候获取相应的分⽚)。如果所有的节点挂掉值剩下⼀个节点,所有分⽚都会指向剩下的⼀个节点,这也是ElasticJob的⾼可⽤。结合分布式任务调度框架(elastic-job),我们来总结下: 分布式环境下任务调度相对于单体部署环境下的任务调度,需要考虑的更多,比如,单体部署环境下同一个定时任务只会执行一次,而分布式环境下每个环境中都有相同的定时任务,我们要保证一个定时任务,只能有一个服务来执行。同时分布式环境也给我们带来了一些好处,比如,我们可以对一个体量较大的任务来进行分片拆分,让多个服务来分工执行不同条件的任务,降低单体服务环境下服务器的压力;如果一个服务出现异常,我们立马可以让另外一个服务来顶替异常服务的工作,从而保证任务可以继续执行,提高系统的稳定和可靠性。