biorelive 2013-10-24
Hadoop工具生态系统生长迅速,以下是IT经理网整理的最新Hadoop工具资源,供IT经理日常参考,欢迎读者来信或留言补充。
Hadoop
Apache hadoop项目负责开发可靠的、可扩展的分布式计算开源软件。
HDFS
分布式文件系统提供高速的应用数据访问。
MapReduce
在计算机集群上进行大数据分布式处理的软件框架。
亚马逊Elastic MapReduce
亚马逊Elastic MapReduce是一种web服务,能让企业、研究人员、数据分析师和开发者低成本快速处理海量数据。该服务是托管于亚马逊弹性云(EC2)和亚马逊S3存储云上的web大规模基础架构上的Hadoop框架。
网址:aws.amazon.com/elasticmapreduce/
Cloudera Hadoop发行版(CDH)
Cloudera的Hadoop发行版(CDH)为基于Hadoop的数据管理平台树立了新的标杆。
ZooKeeper
针对分布式应用的高性能协调服务。ZooKeeper为配置信息、命名提供集中化管理服务,支持分布式同步,并提供群组服务。
网址:hadoop.apache.org/zookeeper/
HBase
可扩展的分布式数据库,支持大表(big table)的结构化数据存储。
Avro
数据序列化系统。与Thrift和Protocolbuffers类似。
Sqoop
Sqoop(SQL-to-Hadoop),是命令行工具,有以下功能:
网址:cloudera.com/downloads/sqoop/
Flume
Flume是一个分布式高可靠的大数据传输服务。
网址:archive.cloudera.com/cdh/3/flume/
Hive
Hive是基于Hadoop的数据仓库基础架构,提供的工具能进行简便的数据汇总、ad-hoc查询,以及对存储在Hadoop文件中的大数据集的分析。Hive提供一种简单易用的查询语言——Hive QL,该语言基于SQL,这意味着那些对SQL熟悉的用户可以像使用SQL数据库一样查询大数据。Hive QL还云寻传统的map/reduce程序员插入他们自己的mappers和reducers,进行更为复杂的分析。
Pig
Pig是一种高阶数据流语言和并行计算的执行框架。Apache Pig是一个大数据集分析平台,提供了一种表达数据分析程序的高阶语言,以及评估这些程序的基础架构。Pig程序的最大优点是其架构能为底层并行化进行调整,从而能处理非常大规模的数据集。
Oozie
Oozie 是一个开源的工作流和协作服务引擎,为管理Apache hadoop数据处理任务提供工作流/协作服务。Oozie 是可扩展的、可伸缩的面向数据的服务,运行在Hadoop 平台上,协调Hadoop上运行的不同任务(包括HDFS,Pig和MapReduce)。
Oozie 包括一个离线的Hadoop处理的工作流解决方案,以及一个查询处理 API。
Cascading
Cascading是一个查询API和查询计划器,被用于定义和执行Hadoop集群上运行的复杂、可自由扩展、可容错的数据处理工作流。
Cascalog
Cascalog一种能使在Hadoop上使用Clojure处理数据变得简单直观的工具。Cascalog综合了两大顶尖技术:Clojure和Hadoop,同时让Datalog焕发青春。Cascalog的特点是高性能、灵活和鲁棒。
网址:github.com/nathanmarz/cascalog
HUE
Hue是运营和开发Hadoop应用的图形化用户界面。Hue程序被整合到一个类似桌面的环境,以web程序的形式发布,对于单独的用户来说不需要额外的安装。
网址:archive.cloudera.com/cdh3/hue 更多信息:Cloudera blog
Chukwa
Chukwa是面向大型分布式系统的数据采集系统。Chukwa基于Hadoop HDFS和Map/Reduce框架之上,继承了Hadoop的可扩展性和容错性。Chukwa还提供一个灵活而强大的工具包,用于显示、监控和分析分析结果,更好地利用所收集的数据。
网址:incubator.apache.org/chukwa/
Mahout
一种可扩展的机器学习和数挖掘库。