Kafka学习-----概述：MQ，定义，基础架构

科技2024-12-18 75

一.什么是Kafka

1.定义

Kafka 是一个分布式的基于发布/订阅模式的消息队列(Message Queue)，主要应用于大数据实时处理领域。

特征:

Kafka作为一个集群，运行在一台或者多台服务器上.Kafka 通过 topic 对存储的流数据进行分类。每条记录中包含一个key，一个value和一个timestamp（时间戳）。

2.什么是MQ

“消息队列”是在消息的传输过程中保存消息的容器。

实际上MQ跟字面意思一样，就是一个队列，其中的内容是各种消息/信息（数据）。

典型应用场景之异步处理：

同步和异步概念：同步就是需要一直等着收到回复，异步就是发出一个请求，等待对方回调/通知自己。

MQ的好处

解耦：允许你独立的扩展或修改两边的处理过程，只要确保它们遵守同样的接口约束。缓冲：有助于控制和优化数据流经过系统的速度，解决生产消息和消费消息的处理速度不一致的情况。可恢复性：系统的一部分组件失效时，不会影响到整个系统。消息队列降低了进程间的耦合度，所以即使一个处理消息的进程挂掉，加入队列中的消息仍然可以在系统恢复后被处理。削峰：在访问量剧增的情况下，应用仍然需要继续发挥作用，但是这样的突发流量并不常见。如果为以能处理这类峰值访问为标准来投入资源随时待命无疑是巨大的浪费。使用消息队列能够使关键组件顶住突发的访问压力，而不会因为突发的超负荷的请求而完全崩溃。异步：略

二.消息队列两种模式

点对点模式

消息生产者生产消息发送到 Queue 中，然后消息消费者从 Queue 中取出并且消费消息。消息被消费以后，queue 中不再有存储，所以消息消费者不可能消费到已经被消费的消息。 Queue 支持存在多个消费者，但是对一个消息而言，只会有一个消费者可以消费。

问题：无法复用消息，消息消费完就被删掉了

发布/订阅模式

消息生产者(发布)将消息发布到 topic 中，同时有多个消息消费者(订阅)消费该消息。和点对点方式不同，发布到 topic 的消息会被所有订阅者消费。

问题:

不同消费者的消费速度（处理能力）不一样，有可能浪费或者扛不住数据量分为两种：消费者主动拉取队列主动推送

Kafka是基于消费者主动拉取模式的，由消费者根据自己的处理能力主动拉取。但是这样涉及大量的消费者和队列的通信连接，浪费资源，维护长轮询

三.消息队列基础架构

概念解释

Kafka Cluster集群里面是多个Broker，Broker可以理解为Kafka的服务器Broker中有多个Topic，Topic可以理解为对消息进行分类，这样可以选择性获取不同的数据，不能把所有数据都堆在一个地方不同的Topic在不同的分区Partition，一个Topic可能对应多个分区。这样通过负载均衡，可以提高某一个Topic的承载能力和并发能力Leader和Follower的角色是分别在不同的Broker中，是用来备份的，可以提高系统的可用性。Leader和Follower一定不在一个机器（Broker）里面，Follower只提供备份，消费只用leader一个分区Partition的数据，只能被一个消费者组（consumer group）中的某一个消费者消费同一个消费者组（consumer group）之间的consumer不能消费同一个分区数据。举例：consumer A消费了TopicA Partition0的数据，此时consumer C可以消费，但是consumer B就不能消费了 consumer还要存储一个数据：比如consumer消费了5条数据后宕机，恢复之后要能记住自己需要从第六条开始消费，也就是偏移量offset，这个数据保存在zookeeper中（0.9版本之前）。0.9版本之后存储在kafka中。

概念总结：

Producer :消息生产者，就是向 kafka broker 发消息的客户端;Consumer :消息消费者，向 kafka broker 取消息的客户端;Consumer Group (CG):消费者组，由多个 consumer 组成。消费者组内每个消费者负责消费不同分区的数据，一个分区只能由一个组内消费者消费;消费者组之间互不影响。所有的消费者都属于某个消费者组，即消费者组是逻辑上的一个订阅者。Broker :一台 kafka 服务器就是一个 broker。一个集群由多个 broker 组成。一个 broker 可以容纳多个 topic。Topic :可以理解为一个队列，生产者和消费者面向的都是一个 topic;Partition:为了实现扩展性，一个非常大的 topic 可以分布到多个 broker(即服务器)上，一个 topic 可以分为多个 partition，每个 partition 是一个有序的队列;Replica:副本，为保证集群中的某个节点发生故障时，该节点上的 partition 数据不丢失，且 kafka 仍然能够继续工作，kafka 提供了副本机制，一个 topic 的每个分区都有若干个副本，一个 leader 和若干个 follower。leader:每个分区多个副本的“主”，生产者发送数据的对象，以及消费者消费数据的对象都是 leader。follower:每个分区多个副本中的“从”，实时从 leader 中同步数据，保持和 leader 数据的同步。leader 发生故障时，某个 follower 会成为新的 follower。

Processed: 0.014, SQL: 9