xianyuxiaoqiang 2019-06-29
一个数据流平台有三个关键的功能:
Kafka通常用于两大类应用:
要了解Kafka如何做这些事情,让我们深入探讨Kafka的能力。
首先是几个概念:
Kafka有四个核心API:
在Kafka中,客户端和服务器之间的通信是通过简单,高性能,语言无关的TCP协议完成的。 此协议已版本化并保持与旧版本的向后兼容性。 我们为Kafka提供Java客户端,但客户端有多种语言版本。
让我们首先深入探讨Kafka为记录流提供的核心抽象 - topic。
topic是发布记录的类别或订阅源名称。 Kafka的topic总是多用户; 也就是说,一个主题可以有零个,一个或多个消费者订阅写入它的数据。
对于每个主题,Kafka群集都维护一个如下所示的分区日志:
每个分区都是一个有序的,不可变的记录序列,不断附加到结构化的提交日志中。 分区中的记录每个都分配了一个称为offset的顺序ID号,它唯一地标识分区中的每个记录。
Kafka集群持久保存所有已发布的记录 - 无论是否已使用 - 使用可配置的保留期。 例如,如果保留策略设置为两天,则在发布记录后的两天内,它可供使用,之后将被丢弃以释放空间。 Kafka的性能在数据大小方面实际上是恒定的,因此长时间存储数据不是问题。
实际上,基于每个消费者保留的唯一元数据是该消费者在日志中的偏移或位置。 这种偏移由消费者控制:通常消费者在读取记录时会线性地提高其偏移量,但事实上,由于该位置由消费者控制,因此它可以按照自己喜欢的任何顺序消费记录。 例如,消费者可以重置为较旧的偏移量来重新处理过去的数据,或者跳到最近的记录并从“现在”开始消费。(offset由comsumer决定,comsumer可以决定热河offset的数据)
这些功能组合意味着Kafka消费者非常便宜 - 他们可以来来往往对集群或其他消费者没有太大影响。 例如,您可以使用我们的命令行工具“tail”任何主题的内容,而无需更改任何现有使用者所消耗的内容。
日志中的分区有多种用途。 首先,它们允许日志扩展到超出适合单个服务器的大小。 每个单独的分区必须适合托管它的服务器,但主题可能有许多分区,因此它可以处理任意数量的数据。 其次,它们充当了并行性的单位 - 更多的是bit。
日志的分区分布在Kafka集群中的服务器上,每个服务器处理数据并请求分区的共享。 每个分区都在可配置数量的服务器上进行复制,以实现容错。(多个服务器保存partition数据,实现容错)
每个分区都有一个服务器充当“领导者”,零个或多个服务器充当“追随者”。 领导者处理分区的所有读取和写入请求,而关注者被动地复制领导者。 如果领导者失败,其中一个粉丝将自动成为新的领导者。 每个服务器都充当其某些分区的领导者和其他服务器的追随者,因此负载在群集中得到很好的平衡。(高性能实现)
Kafka MirrorMaker为您的群集提供地理复制支持。 使用MirrorMaker,可以跨多个数据中心或云区域复制消息。 您可以在主动/被动方案中使用它进行备份和恢复; 或者在主动/主动方案中,将数据放置在离用户较近的位置,或支持数据位置要求。
生产者将数据发布到他们选择的topic。 生产者负责选择分配给topic中哪个partition的记录。 这可以以round-robin方式完成,仅仅是为了balance load,或者可以根据一些语义分区功能(例如基于记录中的某些键)来完成。 更多关于在一秒钟内使用分区的信息!
消费者使用消费者组名称标记自己,并且发布到主题的每个记录被传递到每个订阅消费者组中的一个消费者实例。 消费者实例可以在不同的进程中,也可以在不同的机器。
如果所有使用者实例具有相同的使用者组,则记录将有效地在使用者实例上进行负载平衡。
如果所有消费者实例具有不同的消费者组,则每个记录将广播到所有消费者进程。
两个服务器Kafka群集,托管四个分区(P0-P3),包含两个使用者组。 消费者组A有两个消费者实例,B组有四个消费者实例。
然而,更常见的是,我们发现主题具有少量的消费者群体,每个“逻辑订户”一个。每个组由许多用于可伸缩性和容错的消费者实例组成。这只不过是发布 - 订阅语义,其中订阅者是消费者群集而不是单个进程。
在Kafka中实现消费的方式是通过在消费者实例上划分日志中的分区,以便每个实例在任何时间点都是分配的“公平份额”的独占消费者。维护组中成员资格的过程由Kafka协议动态处理。如果新实例加入该组,他们将从该组的其他成员接管一些分区;如果实例死亡,其分区将分发给其余实例。
Kafka仅提供分区内记录的总订单,而不是主题中不同分区之间的记录。对于大多数应用程序而言,按分区排序与按键分区数据的键相结合就足够了。但是,如果您需要对记录进行总订单,则可以使用仅包含一个分区的主题来实现,但这意味着每个使用者组只有一个使用者进程。
在高级别Kafka提供以下保证:
有关这些保证的更多详细信息,请参见文档的设计部分。