大数据学习笔记-2020-10-05--kafka简介

科技2022-08-24 129

Kafka

消息队列的概念

消息队列

点对点模式即一对一模式，消费者主动拉取数据，消息收到后清除消息点对点模型通常是一个基于拉取或轮询的消息传送模型，这种模型从队列中请求信息，而不是将消息推送到客户端。这个模型的特点是发送到队列的消息被一个且只有一个接收者接受处理，即使有多个消息监听者也是如此发布/订阅模式即一对多模式，数据生产后推送给所有订阅者发布订阅模型是一个基于推送的消息传送模型，发布订阅模型可以有多种不同的订阅者，临时订阅者只在主动监听主题时才接收消息，而持久订阅者则监听主题的所有消息

消息队列的作用

解耦：允许你独立的拓展或修改两边的处理过程，只要他们遵守同样的接口约束冗余：消息队列把数据持久化知道他们已经被完全处理，通过这一方法避免了数据丢失的风险扩展性：因为消息队列解耦了你的处理过程，所以增大消息入队和处理的频率时很容易的，只要另外增加处理过程即可灵活性&峰值处理能力：在访问量剧增的情况下，应用仍然需要继续发挥作用，但是这样的突发流量并不常见，如果以能够处理这种情况下的峰值为标准投入资源随时待命无疑时巨大的浪费使用消息队列能够使关键组件顶住突发的访问压力，而不会因为突发的超负荷的请求而完全崩溃可恢复性：系统的一部分组件失效时，不会影响到整个系统，消息队列降低了进程间的耦合度，所以即使一个处理消息的进程挂掉，加入队列中的消息仍然可以在系统恢复后被处理顺序保证：在大多数使用场景下，数据处理的顺序都很重要。大部分消息队列本来就是排序的，并且能保证数据会按照特定的顺序来处理。 kafka保证一个partition内的消息的有序性缓冲：有助于控制和优化数据流经过系统的速度，解决生产消息和消费消息的处理速度不一致的情况异步通信：消息队列可以提供异步处理机制，允许用户把一个消息放入队列，但是不立即处理，想放入多少消息就放入多少消息，等到需要的时候再去处理

Kafka基础

kafka简介

在流式计算中，kafka一般用洪濑缓存数据，storm通过消费kafka的数据进行计算。

apache kafka是一个开源的消息系统，由scala写成。

kafka最初由linkedin公司开发。该项目的目标时为处理实时数据提供一个统一、高通量、低等待的平台

Kafka **是一个分布式消息队列。**Kafka对消息保存时根据Topic进行归类，发送消息者称为Producer，消息接受者称为Consumer，此外kafka集群有多个kafka实例组成，每个实例(server)称为broker。

无论是kafka集群还是consumer都依赖于zookeeper集群保存一些meta信息来确保系统可用性

Kafka架构

Kafka架构中的角色：

producer：消息生产者，就是向kafka broker发消息的客户端consumer：消息消费者，向kafka broker取消息的客户端topic：可以理解为一个队列consumer group（CG）：这是kafka用来实现一个topic消息的广播（发给所有的consumer）和单播（发给任意一个consumer）的手段一个topic可以由多个GC，topic的消息会复制到所有的CG，但每个partition只会把消息发给该CG中的一个consumer如果要实现广播，只要每个consumer有一个独立的CG就可以了如果要实现单播，只要所有的consumer在同一个CG就可以了使用CG还可以将consumer进行自由分组而不用多次发送消息到不同的topic broker：一台kafka服务器就是一个broker。一个集群由多个broker组成，一个broker可以容纳多个topicpartition：为了实现扩展性，一个非常大的topic可以分布到多个broker上，一个topic可以被分为多个partition，每个partition时一个有序队列partition中的每条消息都会被分配一个有序的id（offset）kafka至保证按一个partition中的顺序将消息发给consumer，不保证一个topic整体的顺序 offset：kafka的存储文件都是按照offset.kafka来命名，用offset做名字的好处时方便查找。 the first offset就是000000000000.kafka

Processed: 0.009, SQL: 9