Kafka、Flume、Kinesis更多的流方式支持，包括Twitter、ZeroMQ等

jiaomrswang 2020-06-26

特性如下：

可线性伸缩至超过数百个节点；
实现亚秒级延迟处理；
可与Spark批处理和交互式处理无缝集成；
提供简单的API实现复杂算法；
更多的流方式支持，包括Kafka、Flume、Kinesis、Twitter、ZeroMQ等。

原理

Spark在接收到实时输入数据流后，将数据划分成批次（divides the data into batches），然后转给Spark Engine处理，按批次生成最后的结果流（generate the final stream of results in batches）。

Kafka、Flume、Kinesis更多的流方式支持，包括Twitter、ZeroMQ等

API

DStream

DStream（Discretized Stream，离散流）是Spark Stream提供的高级抽象连续数据流。

组成：一个DStream可看作一个RDDs序列。
核心思想：将计算作为一系列较小时间间隔的、状态无关的、确定批次的任务，每个时间间隔内接收的输入数据被可靠存储在集群中，作为一个输入数据集。

Kafka、Flume、Kinesis更多的流方式支持，包括Twitter、ZeroMQ等

特性：一个高层次的函数式编程API、强一致性以及高校的故障恢复。
应用程序模板：

模板1

Kafka、Flume、Kinesis更多的流方式支持，包括Twitter、ZeroMQ等

模板2

Kafka、Flume、Kinesis更多的流方式支持，包括Twitter、ZeroMQ等

WordCount示例

Kafka、Flume、Kinesis更多的流方式支持，包括Twitter、ZeroMQ等

Input DStream

Input DStream是一种从流式数据源获取原始数据流的DStream，分为基本输入源（文件系统、Socket、Akka Actor、自定义数据源）和高级输入源（Kafka、Flume等）。

Receiver：

每个Input DStream（文件流除外）都会对应一个单一的Receiver对象，负责从数据源接收数据并存入Spark内存进行处理。应用程序中可创建多个Input DStream并行接收多个数据流。
每个Receiver是一个长期运行在Worker或者Executor上的Task，所以会占用该应用程序的一个核（core）。如果分配给Spark Streaming应用程序的核数小于或等于Input DStream个数（即Receiver个数），则只能接收数据，却没有能力全部处理（文件流除外，因为无需Receiver）。

Spark Streaming已封装各种数据源，需要时参考官方文档。

Transformation Operation

常用Transformation

* map(func) ：对源DStream的每个元素，采用func函数进行转换，得到一个新的DStream；

* flatMap(func)：与map相似，但是每个输入项可用被映射为0个或者多个输出项；

* filter(func)：返回一个新的DStream，仅包含源DStream中满足函数func的项；

* repartition(numPartitions)：通过创建更多或者更少的分区改变DStream的并行程度；

* union(otherStream)：返回一个新的DStream，包含源DStream和其他DStream的元素；

* count()：统计源DStream中每个RDD的元素数量；

* reduce(func)：利用函数func聚集源DStream中每个RDD的元素，返回一个包含单元素RDDs的新DStream；

* countByValue()：应用于元素类型为K的DStream上，返回一个（K，V）键值对类型的新DStream，每个键的值是在原DStream的每个RDD中的出现次数；

* reduceByKey(func, [numTasks])：当在一个由(K,V)键值对组成的DStream上执行该操作时，返回一个新的由(K,V)键值对组成的DStream，每一个key的值均由给定的recuce函数（func）聚集起来；

* join(otherStream, [numTasks])：当应用于两个DStream（一个包含（K,V）键值对,一个包含(K,W)键值对），返回一个包含(K, (V, W))键值对的新DStream；

* cogroup(otherStream, [numTasks])：当应用于两个DStream（一个包含（K,V）键值对,一个包含(K,W)键值对），返回一个包含(K, Seq[V], Seq[W])的元组；

* transform(func)：通过对源DStream的每个RDD应用RDD-to-RDD函数，创建一个新的DStream。支持在新的DStream中做任何RDD操作。

updateStateByKey(func)

updateStateByKey可对DStream中的数据按key做reduce，然后对各批次数据累加
WordCount的updateStateByKey版本

Kafka、Flume、Kinesis更多的流方式支持，包括Twitter、ZeroMQ等

transform(func)

通过对原DStream的每个RDD应用转换函数，创建一个新的DStream。
官方文档代码举例

Kafka、Flume、Kinesis更多的流方式支持，包括Twitter、ZeroMQ等

Window operations

窗口操作：基于window对数据transformation（个人认为与Storm的tick相似，但功能更强大）。
参数：窗口长度（window length）和滑动时间间隔（slide interval）必须是源DStream批次间隔的倍数。
举例说明：窗口长度为3，滑动时间间隔为2；上一行是原始DStream，下一行是窗口化的DStream。

Kafka、Flume、Kinesis更多的流方式支持，包括Twitter、ZeroMQ等

常见window operation

有状态转换包括基于滑动窗口的转换和追踪状态变化(updateStateByKey)的转换。

基于滑动窗口的转换

* window(windowLength, slideInterval) 基于源DStream产生的窗口化的批数据，计算得到一个新的DStream；

* countByWindow(windowLength, slideInterval) 返回流中元素的一个滑动窗口数；

* reduceByWindow(func, windowLength, slideInterval) 返回一个单元素流。利用函数func聚集滑动时间间隔的流的元素创建这个单元素流。函数func必须满足结合律，从而可以支持并行计算；

* reduceByKeyAndWindow(func, windowLength, slideInterval, [numTasks]) 应用到一个(K,V)键值对组成的DStream上时，会返回一个由(K,V)键值对组成的新的DStream。每一个key的值均由给定的reduce函数(func函数)进行聚合计算。注意：在默认情况下，这个算子利用了Spark默认的并发任务数去分组。可以通过numTasks参数的设置来指定不同的任务数；

* reduceByKeyAndWindow(func, invFunc, windowLength, slideInterval, [numTasks]) 更加高效的reduceByKeyAndWindow，每个窗口的reduce值，是基于先前窗口的reduce值进行增量计算得到的；它会对进入滑动窗口的新数据进行reduce操作，并对离开窗口的老数据进行“逆向reduce”操作。但是，只能用于“可逆reduce函数”，即那些reduce函数都有一个对应的“逆向reduce函数”（以InvFunc参数传入）；

* countByValueAndWindow(windowLength, slideInterval, [numTasks]) 当应用到一个(K,V)键值对组成的DStream上，返回一个由(K,V)键值对组成的新的DStream。每个key的值都是它们在滑动窗口中出现的频率。

官方文档代码举例

Kafka、Flume、Kinesis更多的流方式支持，包括Twitter、ZeroMQ等

join(otherStream, [numTasks])

连接数据流
官方文档代码举例1

Kafka、Flume、Kinesis更多的流方式支持，包括Twitter、ZeroMQ等

官方文档代码举例2

Kafka、Flume、Kinesis更多的流方式支持，包括Twitter、ZeroMQ等

Output Operation

Kafka、Flume、Kinesis更多的流方式支持，包括Twitter、ZeroMQ等

缓存与持久化

通过persist()将DStream中每个RDD存储在内存。
Window operations会自动持久化在内存，无需显示调用persist()。
通过网络接收的数据流（如Kafka、Flume、Socket、ZeroMQ、RocketMQ等）执行persist()时，默认在两个节点上持久化序列化后的数据，实现容错。

: jiaomrswang

相关推荐

Flume基础（十一）：自定义 Interceptor

使用 Flume 采集服务器本地日志，需要按照日志类型的不同，将不同种类的日志发往不同的分析系统。　　在实际的开发中，一台服务器产生的日志类型可能有很多种，不同类型的日志可能需要发送到不同的分析系统。　　在该案例中，我们以端口数据模拟日志，以数字（单个）和

chenguangchun 0喜欢 / 0评论 2020-07-26

使用Flume

实例1: 监听端口,把输入端口的信息以日志的形式输出到控制台中。# 命名此代理上的组件。agent.channels = memoryChannel # Channel的名称。# 定义每个通道的类型。vim example.conf # 这个心启动

myt0 0喜欢 / 0评论 2020-07-18

切记，在进行flume监测文件时采用的是正则表达式

# Name the components on this agenta1.sources = r1a1.channels = c1 c2a1.sinks = k1 k2. #此处若只写.log那么肯定不行啊，这样就只监测文件名称为.log的文件而不是后缀

IT影风 0喜欢 / 0评论 2020-07-18

Flume

在flume的安装目录下，创建文件夹data，在data中创建一个文件basic.conf，内容如下　　。执行agent-avro客户端指令，在flume的安装目录的bin目录下：a.txt是需要进行操作的文件，必须存在

chenguangchun 0喜欢 / 0评论 2020-06-28

大数据消息日志

scribe_百度百科https://baike.baidu.com/item/scribe flume（日志收集系统）_百度百科https://baike.baidu.com/item/flume/6250098 Kafka（科技术语）_百度百科

myt0 0喜欢 / 0评论 2020-06-16

Flume SinkProcessor

需求：flume1采集端口数据，发送给flume2或flume3。当flume2或3挂掉后，发送给另一台flume。flume1配置：NetCat Source -> Memory Channel -> Avro Sink

xiaoxiaojavacsdn 0喜欢 / 0评论 2020-06-08

flume

Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。a)Source：采集组件，用于跟数据源对接，以获取数据。c)Channel：传输通道组件，用于从source将数据传递到sink. #因为要存到hdfs上，所以下沉组件位hdfs.

zzjmay 0喜欢 / 0评论 2020-06-07

Flume-0.9.4和Hbase-0.96整合

Flume里面自带了Hbase sink，可以直接调用啊，还用说么？这是因为Flume-0.9.4和Hbase-0.96整合比Flume-1.4.0和Hbase-0.96整合麻烦多了！不是随便几个配置就能搞定的，里面涉及到修改Flume和Hadoop的源码

strongyoung 0喜欢 / 0评论 2020-06-04

自定义Source sink

public class MySource extends AbstractSource implements Configurable, PollableSource {. 将写好的代码打包，并放到flume的lib目录下。[ flume]$ bin/f

ErixHao 0喜欢 / 0评论 2020-05-20

dockerfile动态修改服务配置文件

主要是利用命令envsubst能实现变量的替换并生成新得配置文件以及docker命令行的变量输入等。本次实验主要是编写flume镜像，并在容器启动时动态修改配置文件并启动，并向flume发数据，然后发给kafka。RUN rpm -i /root/jdk-

啦啦啦啦啦 0喜欢 / 0评论 2020-05-15

flume安装及ganglia使用

Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。Agent是一个JVM进程，它以事件的形式将数据从源头送至目的。Agent主要有3个部分组成，Source、Channel、

wanfuchun 0喜欢 / 0评论 2020-05-14

Stream整合Flume

def updateFunction(newValues: Seq[Int], runningCount: Option[Int]): Option[Int] = {. val sc: SparkContext = new SparkContext(spa

onwaygoahead 0喜欢 / 0评论 2020-05-05

Flume基础知识

sink负责将数据写入到指定的输出位置，根据输出目的地的不同，需要使用不同的sink。一个sink只能去一个channel取数据。是source和sink的连接，负责缓冲event，source将数据放入到channel，sink主动从channel取，当

xiaoxiaojavacsdn 0喜欢 / 0评论 2020-05-01

flume安装部署

c.将apache-flume-1.5.0-src文件夹中的内容全部复制到apache-flume-1.5.0-bin文件中

IT影风 0喜欢 / 0评论 2020-05-01

centos7安装flume

# -c conf：指定自带配置文件-f conf/tail-hdfs.conf:自定义配置文件 -n ag1：agent名称

chenguangchun 0喜欢 / 0评论 2020-04-18

Flume

# Flume 监控文本文件sink到kafka

wsong 0喜欢 / 0评论 2020-04-15

flume实时监控日志文件到hdfs

#上传文件的前缀。#重新定义时间单位。#是否使用本地时间戳。#积攒多少个Event才flush到HDFS一次。#设置文件类型，可支持压缩。#多久生成一个新的文件。#文件的滚动与Event数量无关。# Use a channel which buffers

QAnyang 0喜欢 / 0评论 2020-03-14

Flume + Kafka系统搭建

A、启动Kafka集群。bin/flume-ng agent -n a1 -c conf -f conf/fl.conf -Dflume.root.logger=DEBUG,console. bin/kafka-console-consumer.sh --

wsong 0喜欢 / 0评论 2020-03-13

大数据开发:(三)flume上传HDFS

如果jps查看缺少了某个节点，首先查看xml文件是否正确，如果正确，删除hadoop/tmp文件夹，然后再次格式化，，再次启动。将flume文件下得conf中flume-env.ps1.template复制一份，改为flume-env.ps1. 修改con

硅步至千里 0喜欢 / 0评论 2020-02-22

大数据 hadoop ---- Sqoop、flume、chukwa

Sqoop是一款开源的工具，主要用于在Hadoop与传统的数据库间进行数据的传递，可以将一个关系型数据库中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。对于某些NoSQL数据库它也提供了连接器。Sqoop，类似于其他ET

硅步至千里 0喜欢 / 0评论 2020-02-18

flume

Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。FlumeOG采用了

wsong 0喜欢 / 0评论 2020-02-17

（02）Flume安装及其启动

[ apache-flume-1.6.0-bin]# bin/flume-ng agent -n a3 -f myagent/a3.conf -c conf -Dflume.root.logger=INFO,console

chenguangchun 0喜欢 / 0评论 2020-02-13

（01）Flume简介

　　Apache Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。　

myt0 0喜欢 / 0评论 2020-02-13

flume到底会丢数据吗？其可靠性如何？——轻松搞懂Flume事务机制

需要结合具体使用的source、channel和sink来分析，具体结果可看本文最后一节。一提到事务，我们首先就想到的是MySQL中的事务，事务就是将一批操作做成原子性的，即这一批要么都成功，要么都失败。在Flume中一共有两个事务，一个是在Source到

gululululu 0喜欢 / 0评论 2020-01-23

2 安装部署flume

1、将apache-flume-1.7.0-bin.tar.gz上传到linux的/opt/software目录下

chenguangchun 0喜欢 / 0评论 2020-01-23

1 flume基础入门

Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。Flume最主要的作用就是：实时读取服务器本地磁盘的数据，将数据写入到HDFS。Agent是一个JVM进程，它以事件的形式将

JavaWDB 0喜欢 / 0评论 2020-01-23

Flume高可用+断点续传

工欲善其事，必先利其器。它具有简单灵活的基于数据流的体系结构。它具有健壮性和容错性，具有可调的可靠性机制和许多故障转移和恢复机制。它时一个使用一个简单的可扩展数据模型，允许在线分析应用程序。flume作为cloudera开发的实时日志收集系统，收到业界的普

IT影风 0喜欢 / 0评论 2020-01-19

CDC+ETL实现数据集成方案

欢迎咨询，合作！CDC又称变更数据捕获，开启cdc的源表在插入INSERT、更新UPDATE和删除DELETE活动时会插入数据到日志表中。CDC通过捕获进程将变更数据捕获到变更表中，通过cdc提供的查询函数，我们可以捕获这部分数据。ETL数据仓库技术，它是

onwaygoahead 0喜欢 / 0评论 2020-01-08

【Flume】自定义分区实现kafka有序

@Override public Event intercept { //如果event为空过滤掉 if{ return null; }. if{ return null; } //将userId赋值给k

chenguangchun 0喜欢 / 0评论 2019-12-28

FlumeNG的监控

之后，我们可以通过http://<hostname>:<port>/metrics来取得metrics信息

IT影风 0喜欢 / 0评论 2014-05-26

今天大概看了一下，明天打算翻译一下

[FLUME-2056] - Allow SpoolDir to pass just the filename that is the source of an event. [FLUME-2071] - Flume Context doesn’t sup

ISEESTARS 0喜欢 / 0评论 2014-05-25

大数据技术生态体系

1）Sqoop：Sqoop是一款开源的工具，主要用于在Hadoop、Hive与传统的数据库间进行数据的传递，可以将一个关系型数据库中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。支持通过Kafka服务器和消费机集群来分区

ViMan0 0喜欢 / 0评论 2019-12-27

大数据(hadoop,hive,hbase,spark,flume等)各技术间的关系

大数据由一系列技术组成，那他们之间的关系是怎么组成的ne，请看下图：。hadoop主要做了文件存储系统和提供了一个相对比较弱的mr处理数据的方案

myt0 0喜欢 / 0评论 2019-12-08

Flume（一） —— 启动与基本使用

Flume is a distributed, reliable（可靠地）, and available service for efficiently（高效地） collecting, aggregating, and moving large amou

onwaygoahead 0喜欢 / 0评论 2019-12-02

Flume浅度学习指南

Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of log

whulovely 0喜欢 / 0评论 2019-11-19

Flume日志采集框架的使用

Flume日志采集框架安装和部署 Flume运行机制采集静态文件到hdfs 采集动态日志文件到hdfs 两个agent级联。Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。对于一般的采集需求，通过对flume的简单配置即可实现。

wsong 0喜欢 / 0评论 2019-11-16

修改Flume源码使taildir source支持递归（可配置）

这么好的taildir source有一点不完美，不能支持递归监控文件夹。所以就只能修改源代码了……* A {@link Source} that requires an external driver to poll to determine. * wh

IT影风 0喜欢 / 0评论 2019-11-16

Kafka Connect HDFS

Kafka 的数据如何传输到HDFS？如果仔细思考，会发现这个问题并不简单。HDFS一直以来是为离线数据的存储和计算设计的，因此对实时事件数据的写入并不友好，而Kafka生来就是为实时数据设计的，但是数据在Kafka上无法使用离线计算框架来作批量离线分析。

sujins 0喜欢 / 0评论 2019-11-08

Flume + kafka + HDFS构建日志采集系统

Flume是一个非常优秀日志采集组件，类似于logstash，我们通常将Flume作为agent部署在application server上，用于收集本地的日志文件，并将日志转存到HDFS、kafka等数据平台中；关于Flume的原理和特性，我们稍后详解，

amwayy 0喜欢 / 0评论 2016-11-25

为什么要对Flume日志收集系统进行分层设计

基于Flume设计实现分层日志收集系统，到底有什么好处呢？我们可以先看一下，如果不分层，会带来哪些问题：。如果是外部日志进入平台内部HDFS，这样如果需要对Hadoop系统进行升级或例行维护，这种直连的方式会影响到上游部署Flume的日志流的始端日志收集服

myt0 0喜欢 / 0评论 2019-09-17

Spark Streaming整合Flume

　　Spark Streaming整合Flume。flume和spark一个work节点要在同一台机器上，flume会在本机器上通过配置的端口推送数据。streaming应用必须先启动，receive必须要先监听推送数据的端口后，flume才能推送数据。　

IT影风 0喜欢 / 0评论 2019-11-02

大数据架构流程

第一类是从业务的角度，细分为查询检索、数据挖掘、统计分析、深度分析，其中深度分析分为机器学习和神经网络。第二类是从技术的角度，细分为Batch、SQL、流式处理、machine learning、Deep learning。第三类是编程模型，细分为离线编程

宇智波带土 0喜欢 / 0评论 2017-09-26

flume增量采集数据

对于flume的增量抽取，首先想到的就是常用的那几种方法，监控日志，触发器，版本号，时间戳等等，虽然可以实现，但都对数据源有了一定限制，假如客户的系统内部表没有那些东西，这就是一件很难搞的事了，毕竟对方数据库不能随便动。，将它加入sql语句中所查询的数据就

鲁氏汤包王 0喜欢 / 0评论 2019-10-25

基于TableStore的数据采集分析系统介绍

在互联网高度发达的今天，ipad、手机等智能终端设备随处可见，运行在其中的APP、网站也非常多，如何采集终端数据进行分析，提升软件的品质非常重要，例如PV/UV统计、用户行为数据统计与分析等。虽然场景简单，但是数据量大，对系统的吞吐量、实时性、分析能力、查

myt0 0喜欢 / 0评论 2017-12-01

日志采集工具Flume的安装与使用方法

Flume主要由3个重要的组件构成：Source:完成对日志数据的收集，分成transtion 和 event 打入到channel之中。Channel:主要提供一个队列的功能，对source提供中的数据进行简单的缓存。Flume逻辑上分三层架构：agen

wsong 0喜欢 / 0评论 2019-05-14

Linux搭建Flume开发环境

drwxr-xr-x. 7 root root 187 Apr 29 05:06 flume-1.8.0. -rw-r--r--. 1 root root 1661 Apr 29 06:18 flume-conf. -rw-r--r--. 1 root r

myt0 0喜欢 / 0评论 2018-04-29

一个shell脚本例子

#!/bin/sh. forjarin${jarlist}. do. CLASSPATH=${CLASSPATH}:${jar}. done. echo${CLASSPATH}

Abel 0喜欢 / 0评论 2016-09-23

flume agent组件

An Avro client included in the Flume distribution can send a given file to Flume Avro source using avro RPC mechanism:. $ bin/fl

myt0 0喜欢 / 0评论 2016-02-22

Flume集群搭建

Flume 集群搭建，配置了2个sink，负载均衡。三台服务器，分别是

myt0 0喜欢 / 0评论 2016-01-10