erliang00 2019-11-05
产生背景:
MapReduce编程的不便性 传统RDBMS人员的需要 Facebook开源 用于解决海量结构化日志的数据统计问题 构建在hadoop之上的数据仓库
Hive底层执行引擎支持:MR/Tez/Spark
Hive体系架构:
client:shell,thrift/jdbc metastore: ==>MySQL database:name,location,owner... table: name, location, owner, column
Hive部署架构:
测试环境: 只有一个MySQL也可以 生产环境: MySQL单点问题,用一个active,一个standby来解决 Hive指向VIP的虚拟地址,所以MySQL有一个好用即可 hadoop集群中:是有很多节点的 Hive:是一个客户端而已,并不涉及到集群的概念
Hive与RBDMS的区别:
都支持sql Hive更多是对离线数据的批处理 是建立在hadoop或者mapreduce之上的 时效性不强 Sql查询返回速度相对要快