hanniuniu 2019-06-26
ELK
可能是现如今最为流行,并且更新速度最快的开源大数据产品,由elastic
公司维护并完全开源。
ELK分别为:
Elasticsearch
: 核心中的核心组件,基于著名的全文检索引擎lucence
的一个分布式版本。由于扩展成分布式,容量和性能得到极大的提升,使得Elasticsearch
得以成为目前许多大数据产品和大数据架构的核心组件。Logstash
: 一个灵活的数据传输和处理系统,在beats出来之前,还负责进行数据收集。Logstash
的任务,就是将各种各样的数据,经过配置转化规则,统一化存入Elasticsearch
。使用Ruby
开发的Logstash
在灵活性上,确实非常出色。不过性能一直是被诟病的问题。Kibana
: 展示组件,基于angularjs
。从Elasticsearch
中读取数据并展示。具有强大而且灵活的界面配置。由于Logstash
在数据收集上并不出色,而且作为agent,性能并不达标。elastic
发布了beats
系列轻量级采集组件。至此,elastic
形成了一个完整的生态链和技术栈,成为大数据市场的佼佼者。本文我们重点来谈一谈beats
。
beats是一组轻量级采集程序的统称,这些采集程序包括并不限于:
以上是elastic
官方支持的5种beats,事实上,伟大的开源力量早已创造出大大小小几十甚至上百中beats,只有你没想到的,没有beats做不到的。
为什么说beats是轻量级的呢?主要是beats在数据收集层面上并不进行过于复杂的数据处理,只是将数据简单的组织并上报给上游系统。另一方便,由于beats采用go语言开发,go是一种系统编程语言,具有并发友好以及部署方便的特点,能够在不依赖虚拟机的情况下运行,包大小通常也比较小。在跨平台上方面,beats与go语言保持一致支持linux,windows,freebsd和macos。beats的性能,明显好于大哥Logstash
,一个设计良好的go语言程序基本可以达到甚至超过java程序。
beats之所以有如此强大的开源支持,一个很大的原因是设计良好的代码框架。
libbeat
是beats的核心包,其中封装一个输出模块(Publisher
),输出模块可以负责将收集到的数据发送给Logstash
或者Elasticsearch
。由于go语言设计有channel,收集数据的逻辑代码与Publisher
都是通过channel通信的,耦合度的最低的。因此,开发一个收集器,完全不需要知道Publisher
的存在,程序运行的时候自然就“神奇”的把数据发往服务端了。除此之外,还封装了配置文件处理、日志处理、守护化等功能,方便开发者拓展beats的能力。
beats的官方维护可以说非常活跃的,笔者跟踪beats很长时间,也做过代码贡献,对此深有体会。所以beats有一个非常健康的生态系统。
被官方收录,但官方不负责维护的beat,称为Community beats,目前有几十种,皆为开源贡献的。还有许多散落在社区的beat。