03-Kafka工作流程

# 组件和说明

## Broker（代理）

Kafka 集群通常由多个代理组成以保持负载平衡。 Kafka 代理是无状态的，所以他们使用 ZooKeeper 来维护它们的集群状态。 一个 Kafka 代理实例可以每秒处理数十万次读取和写入，每个 Broker 可以处理 TB 的消息，而没有性能影响。 Kafka 经纪人领导选举可以由 ZooKeeper 完成。

## ZooKeeper

ZooKeeper 用于管理和协调 Kafka 代理。 ZooKeeper 服务主要用于通知生产者和消费者 Kafka 系统中存在任何新代理或 Kafka 系统中代理失败。 根据 Zookeeper 接收到关于代理的存在或失败的通知，然后生产者和消费者采取决定并开始与某些其他代理协调他们的任务。

## Producers（**生产者**）

生产者将数据推送给经纪人。 当新代理启动时，所有生产者搜索它并自动向该新代理发送消息。 Kafka 生产者不等待来自代理的确认，并且发送消息的速度与代理可以处理的一样快。

## Consumers（**消费者**）

因为 Kafka 代理是无状态的，这意味着消费者必须通过使用分区偏移来维护已经消耗了多少消息。 如果消费者确认特定的消息偏移，则意味着消费者已经消费了所有先前的消息。 消费者向代理发出异步拉取请求，以具有准备好消耗的字节缓冲区。 消费者可以简单地通过提供偏移值来快退或跳到分区中的任何点。 消费者偏移值由 ZooKeeper 通知。

# Apache Kafka 工作流程

到目前为止，我们讨论了 Kafka 的核心概念。 让我们现在来看一下 Kafka 的工作流程。

Kafka 只是分为一个或多个分区的主题的集合。Kafka 分区是消息的线性有序序列，其中每个消息由它们的索引 (称为偏移) 来标识。Kafka 集群中的所有数据都是不相连的分区联合。 传入消息写在分区的末尾，消息由消费者顺序读取。 通过将消息复制到不同的代理提供持久性。

Kafka 以快速，可靠，持久，容错和零停机的方式提供基于 pub-sub 和队列的消息系统。 在这两种情况下，生产者只需将消息发送到主题，消费者可以根据自己的需要选择任何一种类型的消息传递系统。 让我们按照下一节中的步骤来了解消费者如何选择他们选择的消息系统。

## 发布 - 订阅消息的工作流程

以下是 Pub-Sub 消息的逐步工作流程 -

*   生产者定期向主题发送消息。
*   Kafka 代理存储为该特定主题配置的分区中的所有消息。 它确保消息在分区之间平等共享。 如果生产者发送两个消息并且有两个分区，Kafka 将在第一分区中存储一个消息，在第二分区中存储第二消息。
*   消费者订阅特定主题。
*   一旦消费者订阅主题，Kafka 将向消费者提供主题的当前偏移，并且还将偏移保存在 Zookeeper 系统中。
*   消费者将定期请求 Kafka (如 100 Ms) 新消息。
*   一旦 Kafka 收到来自生产者的消息，它将这些消息转发给消费者。
*   消费者将收到消息并进行处理。
*   一旦消息被处理，消费者将向 Kafka 代理发送确认。
*   一旦 Kafka 收到确认，它将偏移更改为新值，并在 Zookeeper 中更新它。 由于偏移在 Zookeeper 中维护，消费者可以正确地读取下一封邮件，即使在服务器暴力期间。
*   以上流程将重复，直到消费者停止请求。
*   消费者可以随时回退 / 跳到所需的主题偏移量，并阅读所有后续消息。

## 队列消息 / 用户组的工作流

在队列消息传递系统而不是单个消费者中，具有相同组 ID 的一组消费者将订阅主题。 简单来说，订阅具有相同 Group ID 的主题的消费者被认为是单个组，并且消息在它们之间共享。 让我们检查这个系统的实际工作流程。

*   生产者以固定间隔向某个主题发送消息。
*   Kafka 存储在为该特定主题配置的分区中的所有消息，类似于前面的方案。
*   单个消费者订阅特定主题，假设 Topic-01 为 Group ID 为 Group-1 。
*   Kafka 以与发布 - 订阅消息相同的方式与消费者交互，直到新消费者以相同的组 ID 订阅相同主题 Topic-01  1 。
*   一旦新消费者到达，Kafka 将其操作切换到共享模式，并在两个消费者之间共享数据。 此共享将继续，直到用户数达到为该特定主题配置的分区数。
*   一旦消费者的数量超过分区的数量，新消费者将不会接收任何进一步的消息，直到现有消费者取消订阅任何一个消费者。 出现这种情况是因为 Kafka 中的每个消费者将被分配至少一个分区，并且一旦所有分区被分配给现有消费者，新消费者将必须等待。
*   此功能也称为使用者组。 同样，Kafka 将以非常简单和高效的方式提供两个系统中最好的。

## ZooKeeper 的作用

Apache Kafka 的一个关键依赖是 Apache Zookeeper，它是一个分布式配置和同步服务。Zookeeper 是 Kafka 代理和消费者之间的协调接口。Kafka 服务器通过 Zookeeper 集群共享信息。Kafka 在 Zookeeper 中存储基本元数据，例如关于主题，代理，消费者偏移 (队列读取器) 等的信息。

由于所有关键信息存储在 Zookeeper 中，并且它通常在其整体上复制此数据，因此 Kafka 代理 / Zookeeper 的故障不会影响 Kafka 集群的状态。Kafka 将恢复状态，一旦 Zookeeper 重新启动。 这为 Kafka 带来了零停机时间。Kafka 代理之间的领导者选举也通过使用 Zookeeper 在领导者失败的情况下完成。

大数据学习

导航

最近发表

友情链接