spark streaming 读取kafka两种方式的区别

Oeljeklaus 2020-04-20

1】Receiver是使用高层次的consumer Api来实现的。

receiver 接收的消息都是存储在spark Executor中的，然后spark启动jobq去处理那些消息

然而，默认情况下，这种方式会因为底层的失败丢失数据。

如果要启用高可靠机制，让数据零丢失，就必须启用spark streaming的预写日志机制，（Write Ahead Log，WAL）。

该机制会同步的将kafka数据写入到分布式文件系统（如hdfs上）上的预写日志中。所以，即使底层节点出现问题，也可以使用预写日志中的数据进行恢复，但是效率会下降。

2】direct这种方式会周期性的查询kafka，来获取每个topic+partition的每个offset,从而定义每个batch的offset的范围。

当处理数据job启动时，就会使用简单的api来获取指定的offset范围的数据。

direct方式的优点：

1）简化并行读取

如果要读取多个partition,不需要创建多个输入Dstream然后对他们进行union操作，spark会创建跟kafka partition一样多的rdd partition,并行的从kafka读取数据。所以在kafka partition跟rdd partition之间，有一个一对一的映射。

2）高性能

如果要保证零数据丢失，在基于receiver的方式中需要开启WAL机制，这种方式效率低下，因为要保存两份数据，kafka本身就有高可靠的机制，会对数据复制一份，而这里又会复制一份到WAL中。而direct方式只要kafka中复制一份，就可以通过kafka的副本进行恢复。

3）一次且仅一次的事务机制

基于receiver的方式，是使用高层次api在zk中保存消费过的offset这是传统的消费方式。这种方式配合WAL实现数据零丢失，但是却无法保证数据消费仅一次，可能会处理两次。因为spark和zk之间可能是不同步的。direct方式自己追踪消费的offset,并保存在checkpoint中，spark自己一定是同步的，消息仅消费一次。

: Oeljeklaus

相关推荐

.NET Core下使用Kafka的方法步骤

# 修改每个topic的默认分区参数num.partitions，默认是1，具体合适的取值需要根据服务器配置进程确定，UCloud.ukafka = 3. Segment：partition物理上由多个segment组成，下面2.2和2.3有详细说明。pa

Kafka 0喜欢 / 0评论 2020-09-18

架构师的选择，Pulsar还是Kafka？

最近，我一直在研究Pulsar及其与Kafka的比较。快速搜索将显示两个最著名的开源消息传递系统之间存在当前的"战争"。作为Kafka的用户，我确实对Kafka的某些问题感到困惑，并且我对Pulsar感到非常失望。在本文中，我将重点介绍

yanghuashuiyue 0喜欢 / 9评论 2020-11-14

Kafka之消费与心跳

导读kafka是一个分布式，分区的，多副本的，多订阅者的消息发布订阅系统，可以用于搜索日志，监控日志，访问日志等。今天小编来领大家一起来学习一下Kafka消费与心跳机制。Kafka提供了非常简单的消费API，使用者只需初始化Kafka的Broker Se

liuxingen 0喜欢 / 12评论 2020-11-13

刨根问底,Kafka消息中间件到底会不会丢消息

本文转载自微信公众号「爱笑的架构师」，作者雷架。大型互联网公司一般都会要求消息传递最大限度的不丢失，比如用户服务给代金券服务发送一个消息，如果消息丢失会造成用户未收到应得的代金券，最终用户会投诉。为避免上面类似情况的发生，除了做好补偿措施，更应该在系设计的

wangying 0喜欢 / 0评论 2020-11-13

记一次生产 Kafka 挂掉的那几分钟

本文转载自微信公众号「Java极客技术」，作者鸭血粉丝。Hello，大家好，我是阿粉，作为一个后端工程师不经历几次生产事故怎么能成长!阿粉工作几年来，大大小小，重要不重要的事故也经历了不少，有损失几十万的，有对业务毫无影响但是不应该发生的，每一次事故都是一

王谦 0喜欢 / 15评论 2020-11-03

面试 | 再有人问Kafka，别说你不会！

Kafka 是一个优秀的分布式消息中间件，许多系统中都会使用到 Kafka 来做消息通信。对分布式消息系统的了解和使用几乎成为一个后台开发人员必备的技能。今天就从常见的 Kafka 面试题入手和大家聊聊 Kafka 的那些事儿。生产者负责创建消息，然后将其

huangwei00 0喜欢 / 10评论 2020-10-14

RabbitMQ七战Kafka，差异立现！

作为一个有丰富经验的微服务系统架构师，经常有人问我，“应该选择RabbitMQ还是Kafka？”。基于某些原因，许多开发者会把这两种技术当做等价的来看待。的确，在一些案例场景下选择RabbitMQ还是Kafka没什么差别，但是这两种技术在底层实现方面是有

shenzhenzsw 0喜欢 / 0评论 2020-10-09

Kafka突然宕机了？稳住，莫慌！

问题要从一次 Kafka 的宕机开始说起。笔者所在的是一家金融科技公司，但公司内部并没有采用在金融支付领域更为流行的 RabbitMQ，而是采用了设计之初就为日志处理而生的 Kafka，所以我一直很好奇 Kafka 的高可用实现和保障。从 Kafka 部

guicaizhou 0喜欢 / 0评论 2020-09-30

监控kafka队列长度

#!df=pd.DataFrame(columnList,columns=["topics","LAG"]). dfResult=df.groupby("topics",as_index=Fals

jiaomrswang 0喜欢 / 0评论 2020-09-23

Kafka都没整明白，还敢去面试？

放眼当下数据为王的时代，深入了解 Apache Kafka 及其常见的部署应用，快速实现数据架构已是大势所趋，刻不容缓。以下分别 Kafka 架构，四大核心 API，典型应用场景，Kafka 代理与消息主题，集群的创建，流 APIs及其处理模式等不同方面展

jyj0 0喜欢 / 0评论 2020-09-21

SAP Data Intelligence里的Kafka Producer和Consumer

新建一个graph，使用典型的生产者-消费者模型：将Data Generator生成的数据交给kafka Producer operator；而Kafka Consumer从kafka producer里读取出data Generator生成的数据，通过T

guicaizhou 0喜欢 / 0评论 2020-09-15

kafka技术题

将向 Kafka topic 发布消息的程序成为 producers.将预订 topics 并消费消息的程序成为 consumer.Kafka 以集群的方式运行，可以由一个或多个服务组成，每个服务叫做一个 broker.producers 通过网络将消息发

hannuotayouxi 0喜欢 / 0评论 2020-08-20

kafka常见面试题

我们举个例子说明下运维中面对的复杂性，我们都知道 kafka 有个 ISR集合，我先说明下这个概念：

yangyutong00 0喜欢 / 0评论 2020-08-09

Windows 安装kafka

直接去 D:\Tool\zookeeper-3.4.14\bin，运行 zkServer.cmd. kafka-topics.bat --create --zookeeper localhost:2181 --replication-factor 1

amwayy 0喜欢 / 0评论 2020-08-03

【kafka】消费组消费主题

当消费组中的消费者数量大于分区数量时，会存在浪费。因为有消费者分配不到partition进行消费。在消费者不饱和的情况下，一个消费者是可以去消费多个分区的数据的。生产者生产投递9条消息，可以9条消息被投递到3不同分区，然后三个分区对应三个不同的消费者进行

yangyutong00 0喜欢 / 0评论 2020-08-01

logstash_output_kafka:Mysql同步Kafka深入详解

实际业务场景中，会遇到基础数据存在Mysql中，实时写入数据量比较大的情景。迁移至kafka是一种比较好的业务选型方案。如果需要同步历史全量数据+实时更新数据，建议使用logstash。实际上，核心logstash的同步原理的掌握，有助于大家理解类似的各种

weikaixxxxxx 0喜欢 / 0评论 2020-08-01

【kafka】生产者投递消息特征（异步发送）

kafka的生产者producer由持有未提交给kafka服务的记录的缓冲区构成一个缓冲区池，于此同时会有一个后台I/O线程来负责将这些记录record转化为请求request，然后将其提交给集群。如果发送完数据之后不对producer进行资源释放clos

PoppyEvan 0喜欢 / 0评论 2020-08-01

【kafka】消费者对应的分配partition分区策略

解决问题：1.实现了负载均衡。现有两个主题topic1、topic2，各自都有三个partition。TopicAndPartition对象，多个主题整体排序[topic1_partition0,topic1_partition1,topic1_parti

guicaizhou 0喜欢 / 0评论 2020-08-01

Kafka基础（八）：高效读写数据

Kafka 的 producer 生产数据，要写入到 log 文件中，写的过程是一直追加到文件末端，为顺序写。官网有数据表明，同样的磁盘，顺序写能到 600M/s，而随机写只有 100K/s。与磁盘的机械机构有关，顺序写之所以快，是因为其省去了大量磁头寻址

PoppyEvan 0喜欢 / 0评论 2020-07-29

Apache Kafka 架构和相关概念

缓冲上下游瞬时突发流量，使其更平滑.特别是对于那种发送能力很强的上游系统，如果没有消息引擎的保护，“脆弱”的下游系统可能会直接被压垮导致全链路服务“雪崩”。使发送方与接收方松耦合,仅以协议的方式进行通讯,简化了开发.也叫消息队列,每个消息只能被一个下游的消

sweetgirl0 0喜欢 / 0评论 2020-07-27

kafka在高并发的情况下,如何避免消息丢失和消息重复?

1，消息丢失是什么造成的，从生产端和消费端两个角度来考虑？3，如何保证消息有序？4，如果保证消息不重不漏，损失的是什么？消息发送Kafka消息发送有两种方式：同步和异步，默认是同步方式，可通过producer.type属性进行配置。消息消费Kafka消息消

猫咪的一生 0喜欢 / 0评论 2020-07-21

Windows环境下载安装Kafka

2.需要先启动ZooKeeper服务器(可以通过与kafka打包在一起的便捷脚本来快速简单地创建一个单节点ZooKeeper实例。

jiangkai00 0喜欢 / 0评论 2020-07-18

kafka的认识、安装与配置

花费越少的精力在数据移动上，就能越专注于核心业务 --- 《Kafka：The Definitive Guide》。Kafka 是一款基于发布与订阅的消息系统，一般被称为“分布式提交日志”或者“分布式流平台”。Kafka 的数据单元被称作消息，可以看作是数

猫咪的一生 0喜欢 / 0评论 2020-07-08

kafka学习总结017 --- consumer配置参数之max.poll.interval.ms

public static KafkaConsumer<String, String> createConsumer() {. Properties properties = new Properties();return new KafkaC

sweetgirl0 0喜欢 / 0评论 2020-06-28

kafka学习总结016 --- consumer配置参数session.timeout.ms和heartbeat.interval.ms

前面说过了consumer心跳机制：consumer定期向coordinator发送心跳请求，以表明自己还在线；如果session.timeout.ms内未发送请求，coordinator认为其不可用，然后触发rebalance. session.time

jiaomrswang 0喜欢 / 0评论 2020-06-28

kafka学习总结012 --- 数据消费相关流程

kafka提供的一种可扩展可容错消费机制，某个topic的分区数据只能被组内的一个消费者消费，注：当指定了自动提交时，必须显式的指定消费者组ID. 如果consumer超过该时间间隔未拉取数据，consumer会主动发起LeaveGroup请求，进而触发r

guicaizhou 0喜欢 / 0评论 2020-06-28

九张图带你了解Kafka

现在，每个公司都在互联网系统中使用Kafka。Kafka似乎是解决分布式并提高系统吞吐量的最佳松耦合解决方案之一。我大约6年前开始使用Kafka。此时，Kafka诞生了，并提供了一个完美的解决方案。在了解Kafka之前，如果您不知道什么是Message Q

wangying 0喜欢 / 0评论 2020-06-28

【消息队列-Kafka】01-Kafka入门使用

private Producer<String, String> producer;producer = new KafkaProducer(props);public String sendSyncMessage(String topic,

猫咪的一生 0喜欢 / 0评论 2020-06-26

Kafka、Flume、Kinesis更多的流方式支持，包括Twitter、ZeroMQ等

可线性伸缩至超过数百个节点；实现亚秒级延迟处理；可与Spark批处理和交互式处理无缝集成；提供简单的API实现复杂算法；更多的流方式支持，包括Kafka、Flume、Kinesis、Twitter、ZeroMQ等。Spark在接收到实时输入数据流后，将数据

jiaomrswang 0喜欢 / 0评论 2020-06-26

springboot kafka发送消息支持成功失败通知

springboot集成kafka是比较简单的是事情，但是kafka发送消息的失败回调在日常工作中，如果不容忍消息丢失的话，发送失败需要再次发送或者放到数据库中用任务重推。在kafka运行过程中kill进程达到异常发送的条件。

yangyutong00 0喜欢 / 0评论 2020-06-25

3.kafka学习

经过多年发展，Kafka已经由最初的日志分发系统的一个模块，发展为一个通用的分布式消息队列，大有发展成为一个流处理平台的趋势。目前主要应用于大数据实时处理领域，作为分布式消息队列来使用，因此本课程主要聚焦于Kafka作为分布式消息队列的方方面面。Kafka

sweetgirl0 0喜欢 / 0评论 2020-06-25

Kafka创建SSL证书

对于消息组件，如果按照最初的设计来讲，性能最高得就是RabbitMQ，因为RabbitMQ设计比较完整，而Kafka不同，Kafka最初的设计最大的坑：没有安全认证，所以最初的一些系统设计的时候为了考虑到安全性，所以采用了性能较差的ssl认证方式来进行出来

jiangkai00 0喜欢 / 0评论 2020-06-21

kafka2.5.0详解核心配置文件server.properties

log.dirs=/tmp/kafka-logs,/directory2,/directory3 // kafka日志数据存储目录，就是存储你的数据

CobingLiu 0喜欢 / 0评论 2020-06-21

涨姿势了解一下Kafka消费位移可好？

而位移就是控制消费进度的大佬。本文就详细聊聊kafka消费位移的那些事，包括：。上面的“位移”表征的是分区内的消息位置，它是不变的，即一旦消息被成功写入到一个分区上，它的位移值就是固定的了。假设一个分区中有 10 条消息，位移分别是 0 到 9。Consu

guicaizhou 0喜欢 / 0评论 2020-06-16

备忘录

deepin发行版的处理方法是在 ~/.bashrc 脚本中增加一句 source /etc/profile

amwayy 0喜欢 / 0评论 2020-06-16

kafka和zookeeper集群搭建脚本

#3个节点集群使用，分别在节点1 2 3执行该脚本即可。# 重点 Type 必须为 forking 否则无法启动，

CobingLiu 0喜欢 / 0评论 2020-06-16

微服务之路（十一）spring cloud stream

当客户端向服务端请求，服务端返回出现了异常，对于客户端1返回为NULL，而对于客户端2返回的是正常数据。而服务端并不知道返回给客户端们的数据对不对，只能通过用户反馈来证实返回的错误性，显然是不正确的。Spring Cloud Stream 是一个用来为微服

guicaizhou 0喜欢 / 0评论 2020-06-16

一文详解消息队列——Kafka如何实现高性能IO？

Kafka 是一个高性能的消息队列，在众多消息队列产品中，Kafka 的性能绝对是处于第一梯队的。我曾经在一台配置比较好的服务器上，对 Kafka 做过极限的性能压测，Kafka 单个节点的极限处理能力接近每秒钟 2000 万条消息，吞吐量达到每秒钟 60

猫咪的一生 0喜欢 / 0评论 2020-06-16

Spark Streaming读取Kafka数据两种方式

Receiver从Kafka中获取的数据都是存储在Spark Executor的内存中的，然后Spark Streaming启动的job会去处理那些数据。在提交Spark Streaming任务后，Spark集群会划出指定的Receivers来专门、持续不

rongwenbin 0喜欢 / 0评论 2020-06-15

kafka零数据丢失的配置方案

acks这个参数有三个值：0，1，-1，但是不用的参数对应的含义不同，那如果我们想要保证数据不丢失，acks 值应该设置为哪个参数呢？数据写入到leader replica，然后返回处理成功的响应给生产者，假如这个时候leader replica 在的服务

jiangkai00 0喜欢 / 0评论 2020-06-14

kafka 常用命令总结

bin/kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic web_douyin_author --from-beginning. bin/kafka-topics.sh

guicaizhou 0喜欢 / 0评论 2020-06-12

Unbuntu16搭建Kafka环境总结

bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic test1

yangyutong00 0喜欢 / 0评论 2020-06-12

4天如何完爆Kafka源码核心流程！

Kafka 至今仍是当今大数据技术中当之无愧的王者，由于高吞吐量、可持久化、分布式、支持流数据处理等特性而被广泛应用。越来越多人开始使用 Kafka，对学习源码的需求也愈发强烈，原因主要有以下几个方面：。了解 Kafka 底层原理，从而搞懂 Kafka 高

成长共勉 0喜欢 / 0评论 2020-06-11

linux虚拟机中启动服务命令大全以及常见问题解决

进入redis命令 ps -ef | grep redis 查看redis服务是否开启如果开启可以直接 redis-cli -h 192.168.107.128 -p 6379 进到redis的bin目录下执行这个是开启redis服

sweetgirl0 0喜欢 / 0评论 2020-06-09

Kafka源码解析（一）---LogSegment以及Log初始化

我们先回想一下Kafka的日志结构是怎样的？Kafka 日志对象由多个日志段对象组成，而每个日志段对象会在磁盘上创建一组文件，包括消息日志文件、位移索引文件、时间戳索引文件以及已中止事务的索引文件。当然，如果你没有使用 Kafka 事务，已中止事务的索引文

jiaomrswang 0喜欢 / 0评论 2020-06-07

聊一聊高并发高可用那些事 - Kafka篇

偶尔推出一个优惠活动时，请求量极速上升。看了几个招聘网站，提到较多的消息队列有：RabbitMQ、RocketMQ、Kafka 以及 Redis 的消息队列和发布订阅模式。在高可用环境中，Kafka 需要部署多台，避免 Kafka 宕机后，服务无法访问。K

meilongwhpu 0喜欢 / 0评论 2020-06-08

kafka的消费者

消费者负责订阅 Kafka 中的主题，并且从订阅的主题上拉取消息。与其他一些消息中间件不同的是：在 Kafka 中还有一层消费组的概念，每个消费者都有一个对应的消费组。Kafka 也支持两种消息投递模式：。如果所有的消费者都在同一个消费组，消息会被均衡地投

王谦 0喜欢 / 0评论 2020-06-05

浅尝 Elastic Stack (五) Logstash + Beats + Kafka

在 Elasticsearch、Kibana、Beats 安装中讲到推荐架构：。本文基于 Logstash + Beats 读取 Spring Boot 日志将其改为上述架构

goodstudy 0喜欢 / 0评论 2020-06-05

面试官为什么喜欢拿 Kafka 考验求职者

小灰工作3年了，一直在一家初创公司做大数据架构师，最近几次大厂的面试经历都百般不顺，小灰心如死灰，想着如果一直跳槽无望，只能跟着时下最火的地摊儿大军一起去出摊儿谋生了。被问到了为什么要使用 Kafka，有哪种场景下需要使用 JMS，小灰一脸问号。工作几年来

东哥笔记 0喜欢 / 0评论 2020-06-05

一、kafka 介绍 && kafka-client

Kafka 是一个分布式消息引擎与流处理平台，经常用做企业的消息总线、实时数据管道，有的还把它当做存储系统来使用。早期 Kafka 的定位是一个高吞吐的分布式消息系统，目前则演变成了一个成熟的分布式消息引擎，以及流处理平台。高吞吐、低延时：这是 Kafka

sweetgirl0 0喜欢 / 0评论 2020-06-04