Cloudera Impala 介绍

Cloudera impala™ 直接在你的HDFS或HBase上提供快速、交互式SQL查询.impala 除了使用统一的存储平台，还是用了与hive相同的 Metastore ，SQL 语法 (Hive SQL),ODBC driver 和 user interface Hue Beeswax （Hive）。这些为批处理和实时查询提供了一个统一的常见的平台。

Cloudera Impala是一个有效的查询大叔据的工具，impala 并不替换建立在MapReduce的批处理框架如 Hive。Hive和其它建立在MapReduce上的框架适合需要长时间运行的批处理任务。例如那些批量提取，转化，加载（ETL）类型的job。

架构：

下面这张图表示了impala在Cloudera生态环境中的定位：
Cloudera Impala 介绍

整个impala的解决方案由以下组件组成：
Impala State Store -这个状态存储用于协调所有运行环境中的impalad实例 --类似namenode
impalad -这个进程运行在Datanodes 用于相应impala shell发过来的查询。impalad接受数据库连接层的请求，并对任务进行调度优化。impalad会定期更新它的name和address到Impala State Store。 --类似datanode
Impala shell - 这个工具用来管理任务和执行查询，例如：连接到impalad，基于odbc提供了一套标准化的查询接口。

impala通过下面几种步骤来执行查询
通过Hue Beeswax, the Impala shell, ODBC提交Hive sql
impala的分布式查询引擎会创建查询并在集群上将其分配
为了达到最佳性能，每个节点会直接读取本地的HDFS和HBase

impala的主要特点：
impala提供以下支持：
支持大多Hive提供的基于SQL-92的查询，包括select，join和一些统计函数
支持的文件格式是文本文件和SequenceFiles（可以压缩为Snappy、GZIP和BZIP，前者性能最好，据官方博客称其他格式如Avro, RCFile, LZO文本和Doug Cutting的Trevni将在正式版中支持）
支持常见的Hive接口：如ODBC driver，Hue Beeswax（用户接口）
impala命令行接口
支持Kerberos 安全认证

impala能带给我们什么：
impala提供了：
数据分析师已经熟悉的SQL接口
以交互的方式在Hadoop上处理大叔据

为数据分析而生，避免用户仅仅为了数据分析而花费建模和ETL的成本

相关阅读：

Cloudera Impala 的详细介绍：请点这里
Cloudera Impala 的下载地址：请点这里

Cloudera Impala 介绍

穿裤衩的文叔

相关推荐

Hive/Impala批量插入数据

Cloudera Impala架构设计要点

开源大数据查询分析引擎现状

开源大数据查询分析引擎现状

大数据之hive与impala

Impala/Hive现状分析与前景展望

Impala：新一代开源大数据分析引擎

Cloudera Impala架构设计要点

Hadoop文集收藏

单表千亿电信大数据场景，使用Spark+CarbonData替换Impala案例

单表千亿电信大数据场景，使用Spark+CarbonData替换Impala案例

Hadoop生态圈列式存储系统--kudu介绍及安装配置

Apache Impala 身份验证绕过漏洞（CVE-2017-5640）

Hadoop上时实类SQL查询系统对比

Cloudera Impala 安装配置

Cloudera Impala源码编译

yum安装CDH5.5 hive、impala的过程详解

自己动手写Impala UDF

Impala源码之资源管理与资源隔离

Impala 使用的端口