Stream整合Flume

onwaygoahead 2020-05-05

package com.bawei.stream

import java.net.InetSocketAddress

import org.apache.spark.storage.StorageLevel
import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}
import org.apache.spark.streaming.flume.{FlumeUtils, SparkFlumeEvent}
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.{SparkConf, SparkContext}


object StreamFlume {
  def updateFunction(newValues: Seq[Int], runningCount: Option[Int]): Option[Int] = {
    val newCount =runningCount.getOrElse(0)+newValues.sum
    Some(newCount)
  }


  def main(args: Array[String]): Unit = {
    //配置sparkConf参数
    val sparkConf: SparkConf = new SparkConf().setAppName("SparkStreaming_Flume_Poll").setMaster("local[2]")
    //构建sparkContext对象
    val sc: SparkContext = new SparkContext(sparkConf)
    sc.setLogLevel("WARN")
    //构建StreamingContext对象，每个批处理的时间间隔
    val scc: StreamingContext = new StreamingContext(sc, Seconds(5))
    //设置checkpoint
    scc.checkpoint("C:\\Users\\Desktop\\checkpoint2")
    //设置flume的地址，可以设置多台
    val address=Seq(new InetSocketAddress("192.168.182.147",8888))
    // 从flume中拉取数据
    val flumeStream: ReceiverInputDStream[SparkFlumeEvent] = FlumeUtils.createPollingStream(scc,address,StorageLevel.MEMORY_AND_DISK)

    //获取flume中数据，数据存在event的body中，转化为String
    val lineStream: DStream[String] = flumeStream.map(x=>new String(x.event.getBody.array()))
    //实现单词汇总
    val result: DStream[(String, Int)] = lineStream.flatMap(_.split(" ")).map((_,1)).updateStateByKey(updateFunction)

    result.print()
    scc.start()
    scc.awaitTermination()
  }
}

: onwaygoahead

相关推荐

Flume基础（十一）：自定义 Interceptor

使用 Flume 采集服务器本地日志，需要按照日志类型的不同，将不同种类的日志发往不同的分析系统。　　在实际的开发中，一台服务器产生的日志类型可能有很多种，不同类型的日志可能需要发送到不同的分析系统。　　在该案例中，我们以端口数据模拟日志，以数字（单个）和

chenguangchun 0喜欢 / 0评论 2020-07-26

使用Flume

实例1: 监听端口,把输入端口的信息以日志的形式输出到控制台中。# 命名此代理上的组件。agent.channels = memoryChannel # Channel的名称。# 定义每个通道的类型。vim example.conf # 这个心启动

myt0 0喜欢 / 0评论 2020-07-18

切记，在进行flume监测文件时采用的是正则表达式

# Name the components on this agenta1.sources = r1a1.channels = c1 c2a1.sinks = k1 k2. #此处若只写.log那么肯定不行啊，这样就只监测文件名称为.log的文件而不是后缀

IT影风 0喜欢 / 0评论 2020-07-18

Flume

在flume的安装目录下，创建文件夹data，在data中创建一个文件basic.conf，内容如下　　。执行agent-avro客户端指令，在flume的安装目录的bin目录下：a.txt是需要进行操作的文件，必须存在

chenguangchun 0喜欢 / 0评论 2020-06-28

Kafka、Flume、Kinesis更多的流方式支持，包括Twitter、ZeroMQ等

可线性伸缩至超过数百个节点；实现亚秒级延迟处理；可与Spark批处理和交互式处理无缝集成；提供简单的API实现复杂算法；更多的流方式支持，包括Kafka、Flume、Kinesis、Twitter、ZeroMQ等。Spark在接收到实时输入数据流后，将数据

jiaomrswang 0喜欢 / 0评论 2020-06-26

大数据消息日志

scribe_百度百科https://baike.baidu.com/item/scribe flume（日志收集系统）_百度百科https://baike.baidu.com/item/flume/6250098 Kafka（科技术语）_百度百科

myt0 0喜欢 / 0评论 2020-06-16

Flume SinkProcessor

需求：flume1采集端口数据，发送给flume2或flume3。当flume2或3挂掉后，发送给另一台flume。flume1配置：NetCat Source -> Memory Channel -> Avro Sink

xiaoxiaojavacsdn 0喜欢 / 0评论 2020-06-08

flume

Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。a)Source：采集组件，用于跟数据源对接，以获取数据。c)Channel：传输通道组件，用于从source将数据传递到sink. #因为要存到hdfs上，所以下沉组件位hdfs.

zzjmay 0喜欢 / 0评论 2020-06-07

Flume-0.9.4和Hbase-0.96整合

Flume里面自带了Hbase sink，可以直接调用啊，还用说么？这是因为Flume-0.9.4和Hbase-0.96整合比Flume-1.4.0和Hbase-0.96整合麻烦多了！不是随便几个配置就能搞定的，里面涉及到修改Flume和Hadoop的源码

strongyoung 0喜欢 / 0评论 2020-06-04

自定义Source sink

public class MySource extends AbstractSource implements Configurable, PollableSource {. 将写好的代码打包，并放到flume的lib目录下。[ flume]$ bin/f

ErixHao 0喜欢 / 0评论 2020-05-20

dockerfile动态修改服务配置文件

主要是利用命令envsubst能实现变量的替换并生成新得配置文件以及docker命令行的变量输入等。本次实验主要是编写flume镜像，并在容器启动时动态修改配置文件并启动，并向flume发数据，然后发给kafka。RUN rpm -i /root/jdk-

啦啦啦啦啦 0喜欢 / 0评论 2020-05-15

flume安装及ganglia使用

Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。Agent是一个JVM进程，它以事件的形式将数据从源头送至目的。Agent主要有3个部分组成，Source、Channel、

wanfuchun 0喜欢 / 0评论 2020-05-14

Flume基础知识

sink负责将数据写入到指定的输出位置，根据输出目的地的不同，需要使用不同的sink。一个sink只能去一个channel取数据。是source和sink的连接，负责缓冲event，source将数据放入到channel，sink主动从channel取，当

xiaoxiaojavacsdn 0喜欢 / 0评论 2020-05-01

flume安装部署

c.将apache-flume-1.5.0-src文件夹中的内容全部复制到apache-flume-1.5.0-bin文件中

IT影风 0喜欢 / 0评论 2020-05-01

centos7安装flume

# -c conf：指定自带配置文件-f conf/tail-hdfs.conf:自定义配置文件 -n ag1：agent名称

chenguangchun 0喜欢 / 0评论 2020-04-18

Flume

# Flume 监控文本文件sink到kafka

wsong 0喜欢 / 0评论 2020-04-15

flume实时监控日志文件到hdfs

#上传文件的前缀。#重新定义时间单位。#是否使用本地时间戳。#积攒多少个Event才flush到HDFS一次。#设置文件类型，可支持压缩。#多久生成一个新的文件。#文件的滚动与Event数量无关。# Use a channel which buffers

QAnyang 0喜欢 / 0评论 2020-03-14

Flume + Kafka系统搭建

A、启动Kafka集群。bin/flume-ng agent -n a1 -c conf -f conf/fl.conf -Dflume.root.logger=DEBUG,console. bin/kafka-console-consumer.sh --

wsong 0喜欢 / 0评论 2020-03-13

大数据开发:(三)flume上传HDFS

如果jps查看缺少了某个节点，首先查看xml文件是否正确，如果正确，删除hadoop/tmp文件夹，然后再次格式化，，再次启动。将flume文件下得conf中flume-env.ps1.template复制一份，改为flume-env.ps1. 修改con

硅步至千里 0喜欢 / 0评论 2020-02-22

大数据 hadoop ---- Sqoop、flume、chukwa

Sqoop是一款开源的工具，主要用于在Hadoop与传统的数据库间进行数据的传递，可以将一个关系型数据库中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。对于某些NoSQL数据库它也提供了连接器。Sqoop，类似于其他ET

硅步至千里 0喜欢 / 0评论 2020-02-18

flume

Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。FlumeOG采用了

wsong 0喜欢 / 0评论 2020-02-17

（02）Flume安装及其启动

[ apache-flume-1.6.0-bin]# bin/flume-ng agent -n a3 -f myagent/a3.conf -c conf -Dflume.root.logger=INFO,console

chenguangchun 0喜欢 / 0评论 2020-02-13

（01）Flume简介

　　Apache Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。　

myt0 0喜欢 / 0评论 2020-02-13

flume到底会丢数据吗？其可靠性如何？——轻松搞懂Flume事务机制

需要结合具体使用的source、channel和sink来分析，具体结果可看本文最后一节。一提到事务，我们首先就想到的是MySQL中的事务，事务就是将一批操作做成原子性的，即这一批要么都成功，要么都失败。在Flume中一共有两个事务，一个是在Source到

gululululu 0喜欢 / 0评论 2020-01-23

2 安装部署flume

1、将apache-flume-1.7.0-bin.tar.gz上传到linux的/opt/software目录下

chenguangchun 0喜欢 / 0评论 2020-01-23

1 flume基础入门

Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。Flume最主要的作用就是：实时读取服务器本地磁盘的数据，将数据写入到HDFS。Agent是一个JVM进程，它以事件的形式将

JavaWDB 0喜欢 / 0评论 2020-01-23

Flume高可用+断点续传

工欲善其事，必先利其器。它具有简单灵活的基于数据流的体系结构。它具有健壮性和容错性，具有可调的可靠性机制和许多故障转移和恢复机制。它时一个使用一个简单的可扩展数据模型，允许在线分析应用程序。flume作为cloudera开发的实时日志收集系统，收到业界的普

IT影风 0喜欢 / 0评论 2020-01-19

CDC+ETL实现数据集成方案

欢迎咨询，合作！CDC又称变更数据捕获，开启cdc的源表在插入INSERT、更新UPDATE和删除DELETE活动时会插入数据到日志表中。CDC通过捕获进程将变更数据捕获到变更表中，通过cdc提供的查询函数，我们可以捕获这部分数据。ETL数据仓库技术，它是

onwaygoahead 0喜欢 / 0评论 2020-01-08

【Flume】自定义分区实现kafka有序

@Override public Event intercept { //如果event为空过滤掉 if{ return null; }. if{ return null; } //将userId赋值给k

chenguangchun 0喜欢 / 0评论 2019-12-28

FlumeNG的监控

之后，我们可以通过http://<hostname>:<port>/metrics来取得metrics信息

IT影风 0喜欢 / 0评论 2014-05-26

今天大概看了一下，明天打算翻译一下

[FLUME-2056] - Allow SpoolDir to pass just the filename that is the source of an event. [FLUME-2071] - Flume Context doesn’t sup

ISEESTARS 0喜欢 / 0评论 2014-05-25

大数据技术生态体系

1）Sqoop：Sqoop是一款开源的工具，主要用于在Hadoop、Hive与传统的数据库间进行数据的传递，可以将一个关系型数据库中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。支持通过Kafka服务器和消费机集群来分区

ViMan0 0喜欢 / 0评论 2019-12-27

大数据(hadoop,hive,hbase,spark,flume等)各技术间的关系

大数据由一系列技术组成，那他们之间的关系是怎么组成的ne，请看下图：。hadoop主要做了文件存储系统和提供了一个相对比较弱的mr处理数据的方案

myt0 0喜欢 / 0评论 2019-12-08

Flume（一） —— 启动与基本使用

Flume is a distributed, reliable（可靠地）, and available service for efficiently（高效地） collecting, aggregating, and moving large amou

onwaygoahead 0喜欢 / 0评论 2019-12-02

Flume浅度学习指南

Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of log

whulovely 0喜欢 / 0评论 2019-11-19

Flume日志采集框架的使用

Flume日志采集框架安装和部署 Flume运行机制采集静态文件到hdfs 采集动态日志文件到hdfs 两个agent级联。Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。对于一般的采集需求，通过对flume的简单配置即可实现。

wsong 0喜欢 / 0评论 2019-11-16

修改Flume源码使taildir source支持递归（可配置）

这么好的taildir source有一点不完美，不能支持递归监控文件夹。所以就只能修改源代码了……* A {@link Source} that requires an external driver to poll to determine. * wh

IT影风 0喜欢 / 0评论 2019-11-16

Kafka Connect HDFS

Kafka 的数据如何传输到HDFS？如果仔细思考，会发现这个问题并不简单。HDFS一直以来是为离线数据的存储和计算设计的，因此对实时事件数据的写入并不友好，而Kafka生来就是为实时数据设计的，但是数据在Kafka上无法使用离线计算框架来作批量离线分析。

sujins 0喜欢 / 0评论 2019-11-08

Flume + kafka + HDFS构建日志采集系统

Flume是一个非常优秀日志采集组件，类似于logstash，我们通常将Flume作为agent部署在application server上，用于收集本地的日志文件，并将日志转存到HDFS、kafka等数据平台中；关于Flume的原理和特性，我们稍后详解，

amwayy 0喜欢 / 0评论 2016-11-25

为什么要对Flume日志收集系统进行分层设计

基于Flume设计实现分层日志收集系统，到底有什么好处呢？我们可以先看一下，如果不分层，会带来哪些问题：。如果是外部日志进入平台内部HDFS，这样如果需要对Hadoop系统进行升级或例行维护，这种直连的方式会影响到上游部署Flume的日志流的始端日志收集服

myt0 0喜欢 / 0评论 2019-09-17

Spark Streaming整合Flume

　　Spark Streaming整合Flume。flume和spark一个work节点要在同一台机器上，flume会在本机器上通过配置的端口推送数据。streaming应用必须先启动，receive必须要先监听推送数据的端口后，flume才能推送数据。　

IT影风 0喜欢 / 0评论 2019-11-02

大数据架构流程

第一类是从业务的角度，细分为查询检索、数据挖掘、统计分析、深度分析，其中深度分析分为机器学习和神经网络。第二类是从技术的角度，细分为Batch、SQL、流式处理、machine learning、Deep learning。第三类是编程模型，细分为离线编程

宇智波带土 0喜欢 / 0评论 2017-09-26

flume增量采集数据

对于flume的增量抽取，首先想到的就是常用的那几种方法，监控日志，触发器，版本号，时间戳等等，虽然可以实现，但都对数据源有了一定限制，假如客户的系统内部表没有那些东西，这就是一件很难搞的事了，毕竟对方数据库不能随便动。，将它加入sql语句中所查询的数据就

鲁氏汤包王 0喜欢 / 0评论 2019-10-25

基于TableStore的数据采集分析系统介绍

在互联网高度发达的今天，ipad、手机等智能终端设备随处可见，运行在其中的APP、网站也非常多，如何采集终端数据进行分析，提升软件的品质非常重要，例如PV/UV统计、用户行为数据统计与分析等。虽然场景简单，但是数据量大，对系统的吞吐量、实时性、分析能力、查

myt0 0喜欢 / 0评论 2017-12-01

日志采集工具Flume的安装与使用方法

Flume主要由3个重要的组件构成：Source:完成对日志数据的收集，分成transtion 和 event 打入到channel之中。Channel:主要提供一个队列的功能，对source提供中的数据进行简单的缓存。Flume逻辑上分三层架构：agen

wsong 0喜欢 / 0评论 2019-05-14

Linux搭建Flume开发环境

drwxr-xr-x. 7 root root 187 Apr 29 05:06 flume-1.8.0. -rw-r--r--. 1 root root 1661 Apr 29 06:18 flume-conf. -rw-r--r--. 1 root r

myt0 0喜欢 / 0评论 2018-04-29

一个shell脚本例子

#!/bin/sh. forjarin${jarlist}. do. CLASSPATH=${CLASSPATH}:${jar}. done. echo${CLASSPATH}

Abel 0喜欢 / 0评论 2016-09-23

flume agent组件

An Avro client included in the Flume distribution can send a given file to Flume Avro source using avro RPC mechanism:. $ bin/fl

myt0 0喜欢 / 0评论 2016-02-22

Flume集群搭建

Flume 集群搭建，配置了2个sink，负载均衡。三台服务器，分别是

myt0 0喜欢 / 0评论 2016-01-10