Flink学习（三）批流版本的wordcount Scala版本

yuchuanchen 2020-05-11

批处理代码：

package com.wyh.wc

import org.apache.flink.api.scala._

/**
  * 批处理代码
  */
object WordCount {
  def main(args: Array[String]): Unit = {
    //创建一个批处理的一个环境
    val env = ExecutionEnvironment.getExecutionEnvironment

    val inputPath = "D:\\shujia\\shujia006\\FlinkWyh\\src\\main\\data\\word"

    val inputDataSet = env.readTextFile(inputPath)

    //分词之后做count
    val wordcountSet = inputDataSet
      .flatMap(lines => lines.split(" "))
      .map((_, 1))
      .groupBy(0)
      .sum(1)

    //打印
    wordcountSet.map(x => {
      x._1 + " " + x._2
    }).print()


  }

}

流处理代码：

package com.wyh.wc

import org.apache.flink.api.java.utils.ParameterTool
import org.apache.flink.streaming.api.scala._

object StreamWordCount {
  def main(args: Array[String]): Unit = {
    //创建一个流处理的执行环境
    val env = StreamExecutionEnvironment.getExecutionEnvironment

    //为了host和port不写死，flink提供了一个方法
    val params = ParameterTool.fromArgs(args)

//    val host = params.get("host")
//
//    val port = params.getInt("port")

    //env.disableOperatorChaining()//全局打散  一个算子一个任务
    //每一个算子也会有个方法  .disableChaining() 将这个算子单独拿出来
    //还有个方法.startNewChain() 将当前算子之前面和后面 分开

    //部署到集群中接收socket数据流
//    val dataStream: DataStream[String] = env.socketTextStream(host, port)

    //接收socket数据流
    val dataStream = env.socketTextStream("localhost", 9999)

    //逐一读取数据，打散进行WordCount
    val wordCountStream = dataStream.flatMap(_.split("\\s"))
      .filter(_.nonEmpty)
      .map((_, 1))
      .keyBy(0)
      .sum(1)

    wordCountStream.print().setParallelism(1)


    //比批处理多一个步骤
    //真正执行这个任务，启动它的Executor
    env.execute("WordCountStream")


  }

}

: yuchuanchen

相关推荐

【赵强老师】Flink的DataSet算子

Flink为了能够处理有边界的数据集和无边界的数据集，提供了对应的DataSet API和DataStream API。我们可以开发对应的Java程序或者Scala程序来完成相应的功能。下面举例了一些DataSet API中的基本的算子。下面我们通过具体的

raidtest 0喜欢 / 0评论 2020-10-09

入门大数据---Flink开发环境搭建

Flink 分别提供了基于 Java 语言和 Scala 语言的 API ，如果想要使用 Scala 语言来开发 Flink 程序，可以通过在 IDEA 中安装 Scala 插件来提供语法提示，代码高亮等功能。打开 IDEA , 依次点击 File =&g

匆匆那些年 0喜欢 / 0评论 2020-06-27

ARTS-WEEK-004

拨云见日的一周。借助树的递归遍历，而递归函数的关键是处理这个子树应该返回什么，再细分就是终止条件返回什么、后续递归结果处理什么。补充，这类树或DAG在实际应用中更多是通过parent节点串联起来，这时找最近公共祖先变成了第160题的找两个链表的交点。Fli

oXiaoChong 0喜欢 / 0评论 2020-06-20

flink01

Apache Flink是一个分布式大数据处理引擎，可以对有限数据流和无限流数据及逆行有状态计算（不太懂）。可以部署在各种集群环境，对各种大小的数据规模进行快速计算。将配置好的Flink安装包拷?for i in {4..7}; do scp -r fli

yuchuanchen 0喜欢 / 0评论 2020-06-16

带配置文件参数启动Flink任务

启动Flink任务方法的命令为flink run flink.jar但是有时候启动时需要向里面传入一些参数，比如配置文件的路径等。String local_path = parameters.get; //指定参数名：local_path. 代码打包完成

Spark高级玩法 0喜欢 / 0评论 2020-06-14

通过Flink+NBI可视化构建实时大数据分析系统

Flink主要特点：1、高吞吐、低延迟、纯流式架构；2、支持对乱序事件的处理；3、有状态、提供exactly-once计算；4、高度灵活的窗口机制；5、失败恢复、故障转移、水平扩展；6、批处理、流处理统一的APINBI大数据可视化：

Leonwey 0喜欢 / 0评论 2020-06-11

Flink DataStream API

Flink程序可以对分布式集合进行转换。根据数据源的类型，可以编写批处理程序或流处理程序，其中使用DataSet API进行批处理，并使用DataStream API进行流处理。Flink有特殊的类DataSet和DataStream来表示程序中的数据。在

Spark高级玩法 0喜欢 / 0评论 2020-06-09

Flink SavePoint

Savepoint 是检查点的一种特殊实现，底层实现其实也是使用 Checkpoint 的机制。Savepoint 是用户以手工命令的方式触发 Checkpoint，并将结果持久化到指定的存储路径。现从端到端的 Exactly-Once 语义保证。可以不用

文报 0喜欢 / 0评论 2020-06-09

Flink Java踩坑记录（gegge1.10.0）

使用Flink，从阿里云的AMQP中获取数据，然后直接写入到InfluxDB中。

zhangxiaocc 0喜欢 / 0评论 2020-06-08

异步屏障快照ABS

检查点是Flink为流计算过程提供的容错和故障恢复机制。当程序出错时，Flink会重启受到影响的那部分算子及计算逻辑，并将它们重置到最后一次成功checkpoint时的状态。每次成功的checkpoint产生的“状态数据”其实就是这个流式计算任务在那一时刻

xorxos 0喜欢 / 0评论 2020-06-07

Flink 流式聚合性能调优指南

SQL 是数据分析中使用最广泛的语言。Flink Table API 和 SQL 使用户能够以更少的时间和精力定义高效的流分析应用程序。此外，Flink Table API 和 SQL 是高效优化过的，它集成了许多查询优化和算子优化。但并不是所有的优化都是

xiaoyutongxue 0喜欢 / 0评论 2020-05-27

k8s 部署Flink

此步骤部署才需要配置文件。先把Flink的所有配置文件拷贝到本地, 再把本地的配置文件挂在到POD里面。vim zoo.cfg //可高用的配置。# The number of milliseconds of each tick. # The numbe

yuchuanchen 0喜欢 / 0评论 2020-05-27

Flink kuduSink开发

拿到表名后就能使用KuduClient对象对其操作了

xorxos 0喜欢 / 0评论 2020-05-26

理解Flink State

在Flink的官网写着：Stateful Computations over Data Streams。基于状态计算的数据流。在流式计算中，希望做一些聚合分析等。那么就需要保存当前日志的状态，以备与后来的日志做比较。在Flink中每个操作都会有状态的保存无

阿尼古 0喜欢 / 0评论 2020-05-26

flink系列-11、PyFlink 核心功能介绍（整理自 Flink 中文社区）

2015年加入阿里巴巴搜索事业部，从事主搜离线相关开发。2017年开始参与 Flink SQL 相关的开发，2019年开始深入参与 PyFlink 相关的开发。PyFlink 社区扶持计划。提供了 Python、UDF 的支持。提供用户自定义的一些UDF

千慧 0喜欢 / 0评论 2020-05-18

Flink 入门

Apache Flink是一个框架和分布式处理引擎，用于在无界和有界数据流上进行有状态的计算。Flink被设计为在所有常见的集群环境中运行，以内存中的速度和任何规模执行计算。Apache Flink is a framework and distribut

yuchuanchen 0喜欢 / 0评论 2020-05-17

Flink : Standalone Cluster

Standalone Cluster 就是独立的 Flink 集群，相对应的有基于 YARN 的 Flink 集群。可以看到有 3 个 Task Manager，由于每个 Task Manager 只配了一个 slot，总共是 3 个 Task Slot.

yuchuanchen 0喜欢 / 0评论 2020-05-16

Flink学习（三）批流版本的wordcount JAVA版本

Flink 开发环境通常来讲，任何一门大数据框架在实际生产环境中都是以集群的形式运行，而我们调试代码大多数会在本地搭建一个模板工程，Flink 也不例外。Flink 一个以 Java 及 Scala 作为开发语言的开源大数据项目，通常我们推荐使用 Java

Spark高级玩法 0喜欢 / 0评论 2020-05-11

Flink学习（四） Flink Table & SQL 实现wordcount Java版本

Flink Table & SQL WordCountFlink SQL 是 Flink 实时计算为简化计算模型，降低用户使用实时计算门槛而设计的一套符合标准 SQL 语义的开发语言。一个完整的 Flink SQL 编写的程序包括如下三部分。Sou

itmale 0喜欢 / 0评论 2020-05-11

flink常见的核心概念

在 Flink 这个框架中，有很多独有的概念，比如分布式缓存、重启策略、并行度等，这些概念是我们在进行任务开发和调优时必须了解的，这一课时我将会从原理和应用场景分别介绍这些概念。在 Flink 中，Flink 框架开发者们同样将这个特性进行了实现。Flin

阿尼古 0喜欢 / 0评论 2020-05-10

flink的安装模式

Flink 常见的部署模式：本地模式、Standalone 模式和 Flink On Yarn 模式，然后分别讲解三种模式的使用场景和部署中常见的问题，最后将讲解在生产环境中 Flink 集群的高可用配置。Flink 常见的部署模式环境准备在绝大多数情况下

yuchuanchen 0喜欢 / 0评论 2020-05-10

flink系列-10、flink保证数据的一致性

当在分布式系统中引入状态时，自然也引入了一致性问题。一致性实际上是“正确性级别”的另一种说法，即在成功处理故障并恢复之后得到的结果，与没有发生任何故障时得到的结果相比。在流处理中，一致性分为 3 个级别。这表示计数结果可能大于正确值，但绝不会小于正确值。也

xiaoyutongxue 0喜欢 / 0评论 2020-05-06

Flink二次开发

在flink自带的kafka sink实现里，只支持写到固定topic，而我们的kafka2kafka日志处理逻辑要求消息要按照ds字段值写入到对应topic，topic名前缀相同，后面跟ds字段值，需要进行改造。为了最大限度降低代码复杂度，提高执行效率，

xorxos 0喜欢 / 0评论 2020-04-22

Flink 基本算子map、keyBy、sum

val streamFromFile = env.readTextFile("C:\\Users\\Mi\\Documents\\project\\idea\\FlinkTitorial\\src\\main\\resources\\sensor

xiaoyutongxue 0喜欢 / 0评论 2020-04-19

Flink中并行度相关问题

比如：一台 8核 16线程的pc ，默认的并行度就是16，我们同样在程序内可以设置重写并行度，重写方式同集群模式

xorxos 0喜欢 / 0评论 2020-04-11

Flink通过SQLClinet创建kafka源表并进行实时计算

{"user_id": "543462", "item_id":"1715", "category_id": "1464116", &q

那年夏天0 0喜欢 / 0评论 2020-04-09

Flink Window那些事——Window大分类/生命周期/分配器

Flink 认为 Batch 是 Streaming 的一个特例，所以 Flink 底层引擎是一个流式引擎，在上面实现了流处理和批处理。Flink 提供了非常完善的窗口机制，这是Flink 最大的亮点之一。Window是一种切割无限数据集为有限块并进行相应

xiaoyutongxue 0喜欢 / 0评论 2020-03-28

Flink| 状态一致性

有状态的流处理，内部每个算子任务都可以有自己的状态；在遇到故障时可以恢复状态，恢复以后的重新计算，结果应该也是完全正常的；这种类型的保障称为at-least-once，意思是所有的事件都得到了处理，而一些事件还可能被处理多次。恰好处理一次语义不仅仅意味着没

Spark高级玩法 0喜欢 / 0评论 2020-03-26

Apache Flink 本地单机部署及简单操作

Java(TM) SE Runtime Environment (build 1.8.0_161-b12). Java HotSpot(TM) 64-Bit Server VM (build 25.161-b12, mixed mode). Startin

xiaoyutongxue 0喜欢 / 0评论 2020-03-23

Flink（八） —— 状态管理

Flink科普系列之State（状态）Flink状态管理详解：Keyed State和Operator List State深度解析Flink 面试通关手册推荐两个不错的flink项目

xiaoyutongxue 0喜欢 / 0评论 2020-03-06

Atlas（元数据管理）从扫盲到和Hive、HBase、Kafka、Flink等集成开发

企业数据管理的内容及范畴通常包括交易数据、主数据以及元数据。

nimeijian 0喜欢 / 0评论 2020-03-05

Flink 分布式运行时

JobManagers 协调分布式计算。它们负责调度任务、协调 checkpoints、协调故障恢复等。每个 Job 至少会有一个 JobManager。高可用部署下会有多个 JobManagers，其中一个作为 leader，其余处于 standby 状

文报 0喜欢 / 0评论 2020-02-23

Flink中逻辑计划和物理计划的概念划分和对应关系

logicGraph或者jobGraph，其端点为operator，edge为数据流向。同一个分区内的具有连续上下游关系的函数组成operator-chain，一个operator-chain内的数据来流动过程中不会出现序列化和分区间的网络通信。一个sub

yuchuanchen 0喜欢 / 0评论 2020-02-20

Flink（二） —— 部署与运行架构

官网上下载安装包，执行下列命令即启动完成。

IT小小鸟 0喜欢 / 0评论 2020-02-20

Flink性能问题定位

提高资源利用率是最终目的。大窗口窗口size大、数据量大，或者滑动窗口size和step比值比较大如size=5min，step=1s

文报 0喜欢 / 0评论 2020-02-09

「Flink」配置使用Flink调试WebUI

很多时候，我们在IDE中编写Flink代码，我们希望能够查看到Web UI，从而来了解Flink程序的运行情况。按照以下步骤操作即可，亲测有效。

Spark高级玩法 0喜欢 / 0评论 2020-02-01

01-flink时间语义与 Window 基础概念与实现原理

Flink 在流应用程序中支持不同的Time概念，就比如有 Processing Time、Event Time 和 Ingestion Time。下面我们一起来看看这三个 Time。Processing Time 是指事件被处理时机器的系统时间。每小时

Spark高级玩法 0喜欢 / 0评论 2020-01-30

Flink

许多大厂使用flin + storm.spart/storm是批处理大数据，flink是流处理大数据。也就是说支持增量的更新，不用牵一发而动全身，实施更改。可以用kubernates管理cluster，把程序部署到集群中。nc -l -p 9000,然后输

yuchuanchen 0喜欢 / 0评论 2020-01-24

flink任务性能优化

为了更高效地分布式执行，Flink 会尽可能地将 operator 的 subtask 链接在一起形成 task，每个 task 在一个线程中执行。将 operators 链接成 task 是非常有效的优化：它能减少线程之间的切换，减少消息的序列化/反序列

yuchuanchen 0喜欢 / 0评论 2019-12-29

搭建高可用的flink JobManager HA

　　JobManager协调每个flink应用的部署，它负责执行定时任务和资源管理。　　下面开始构建一个单机版flink的JobManger高可用HA版。　　首先需要设置SSH免密登录，因为启动的时候程序会通过远程登录访问并且启动程序。　　执行命令，就可以

IT智囊 0喜欢 / 0评论 2020-01-01

Flink输出到Redis

登峰小蚁 0喜欢 / 0评论 2020-01-10

Flink输出到Kafka(两种方式)

1.代码。方式二：Kafka到Kafka. 1.代码

文报 0喜欢 / 0评论 2020-01-09

Flink入门（一）——Apache Flink介绍

在当代数据量激增的时代，各种业务场景都有大量的业务数据产生，对于这些不断产生的数据应该如何进行有效的处理，成为当下大多数公司所面临的问题。但是随着数据的不断增长，新技术的不断发展，人们逐渐意识到对实时数据处理的重要性。Flink 就是近年来在开源社区不断发

xiaoxiaoCNDS 0喜欢 / 0评论 2020-01-06

Flink入门（五）——DataSet Api编程指南

Apache Flink 是一个兼顾高吞吐、低延迟、高性能的分布式处理框架。在实时计算崛起的今天，Flink正在飞速发展。由于性能的优势和兼顾批处理，流处理的特性，Flink可能正在颠覆整个大数据的生态。我们可以选择Flink与Scala结合版本，这里我们

xorxos 0喜欢 / 0评论 2020-01-06

flink 源代码编译

// 拉取1.9分支cd flink; git fetch origin release-1.9git checkout -b release-1.9 origin/release-1.9//构建二进制发布包mvn clean install -Dskip

yuchuanchen 0喜欢 / 0评论 2020-01-01

流式计算（五）-Flink核心概念

一手资料，完全来自官网，直接参考英文过来的，并加了一些自己的理解，希望能让看官君了解点什么，足矣。状态可视为通过内嵌的key/value存储来维护。从而将有5个任务组，由5个线程并行执行。任务插槽代表TaskManager内的一组固定的资源集，一个Task

文报 0喜欢 / 0评论 2019-12-26

从来没有一个人能把Flink讲的这么透彻

使用java或者scala开发Flink是需要使用jdk8版本，如果使用Maven，maven版本需要使用3.0.4及以上。在Flink程序中至少有一个JobManager,高可用可以设置多个JobManager,其中一个是Leader,其他都是stand

Spark高级玩法 0喜欢 / 0评论 2019-12-26

流式系统如何引入Watermark支持：以Pravega和Flink为例

Watermark 的概念应运而生。Watermark 试图将更加精确的时间参考引入流式计算，并取得了越来越多的流式平台的支持。Pravega 也不例外，在最近的版本更新中，Pravega 已经加入了 Watermark 的完整支持。由于 Pravega

xorxos 0喜欢 / 0评论 2019-12-25

Flink 1.9 FlinkKafkaProducer 使用 EXACTLY_ONCE 错误记录

使用flink FlinkKafkaProducer 往kafka写入数据的时候要求使用EXACTLY_ONCE语义。This property will not allow to set transaction timeouts for the prod

xiaoyutongxue 0喜欢 / 0评论 2019-12-24