Yarnyogay 2017-07-25
1、数据能存下来,hdfs(分布式文件系统)
2、能进行资源调度 yarn
3、能对存下来的大数据进行计算,mapreduce(多个硬盘同时处理)
4、更灵活更快的计算框架 spark sparksql
5、简化map reduce的开发, hive(使用sql的数据仓库)
6、机器学习 Mahout
7、实时处理 storm(缺点是只能处理事先定好的数据和逻辑)
基本架构:hdfs+yarn spark hive mahout
Hive 运行时,元数据存储在关系型数据库里面。用户接口主要有三个:CLI,Client 和 WUI。其中最常用的是CLI,Cli启动的时候,会同时启动一个Hive副本。Client是Hive的客户端,用户连接至Hive Server。Hive中的元数据包
现在虽然有很多SQL ON Hadoop的解决方案,像Spark SQL、Impala、Presto等等,但就目前来看,在基于Hadoop的大数据分析平台、数据仓库中,Hive仍然是不可替代的角色。尽管它的相应延迟大,尽管它启动MapReduce的时间相当
-- 完全分布式文件系统的名称 :schema ip port -->. -- 分布式文件系统的其他路径的所依赖的一个基础路径,完全分布式不能使用默认值,因为临路径不安全,linux系统在重启时,可能会删除此目录下的内容-->. --
lateral view用于和split、explode等UDTF一起使用的,能将一行数据拆分成多行数据,在此基础上可以对拆分的数据进行聚合,lateral view首先为原始表的每行调用UDTF,UDTF会把一行拆分成一行或者多行,lateral vie
)row format delimited fields terminated by ‘,‘;第一个参数为列名,第二个参数为往上第n行,第三个参数为默认值。当ORDER BY和窗口从句都缺失, 窗口规范默认是 ROW BETWEEN UNBOUNDED P
reflect函数可以支持在sql中调用java中的自带函数,秒杀一切udf函数。create table test_udf row format delimited fields terminated by ‘,‘;hive > create ta
‘tom‘ when 2=2 then ‘mary‘ else ‘tim‘ end from tableName;
语法: datediff返回值: int说明: 返回结束日期减去开始日期的天数。
int start, int len)返回值: string说明:返回字符串A从start位置开始,长度为len的字符串。注意,在有些情况下要使用转义字符,类似oracle中的regexp_replace函数。index)返回值: string说明:将字符
select 1 from tableName where 1 <> 2;hive> select 1 from tableName where 1 < = 1;select 1 from tableName where 2 >
大量的hive查询任务,如果用交互式shell来进行输入的话,显然效率及其低下,因此,生产中更多的是使用脚本化运行机制:。hive -e "insert into table t_dest select * from t_src;".
<description>JDBC connect string for a JDBC metastore</description>. <description>Driver class name for a JDBC
因为Apache Slider 已经不维护了,下面介绍不使用 Slider 的 LLAP使用方式。
bin binary-package-licenses conf examples hcatalog jdbc lib LICENSE NOTICE RELEASE_NOTES.txt scripts. -- 如果 mysql 和 hi
Zookeeper:用于 Hadoop 的分布式协调服务。Hadoop 的许多组件依赖于 Zookeeper,它运行在计算机集群中,用于管理 Hadoop 集群。像 Pig 一样,Hive 作为一个抽象层工具,吸引了很多熟悉 SQL 而不是 Java 编程
# scp -r /opt/soft/mysql-5.7.18-1.el7.x86_64.rpm-bundle.tar :/usr/ 发安装包。# rpm -qa|grep mariadb 检查:这是离线包安装方式所以要检查并且卸载mariadb. #
可以指定字符集。可以使用单引号或者双引号。和c语言中的struct类似,都可以通过“点”符号访问元素内容。MAP是一组键-值对元组集合,使用数组表示法可以访问数据。数组是一组具有相同类型和名称的变量的集合。例如CAST将把字符串‘1‘ 转换成整数1;如果强
本课堂主要围绕hive的基础知识点进行讲解。主要包括以下几个方面。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。对于Hive来说默认就是mapreduce任务。与操作本地文件系统类似,这里需要使用
NTILE: 把有序分区中的行分发到指定数据的组中, 各个组有编号, 编号从 1 开始,对于每一行, NTILE 返回此行所属的组的编号。hive > select name,orderdate,cost, sum over as sample f
①ODS层存放的是原始数据,因此只需要一个字段就行。②ODS层的数据来源于HDFS,里面存储的文件带有压缩,因此需要指明相应的压缩方式。③在多人操作一张Hive表时,最好建立外部表,防止删表时将其中的数据也删掉了。2 编写将数据导入上述表中的脚本。④hiv
语法:ROW_NUMBER() OVER(PARTITION BY COLUMN ORDER BY COLUMN). select user_id,times,row_number() over(partition by times order by us
CREATE [IF NOT EXISTS] database_name --DATABASE|SCHEMA 是等价的。[WITH DBPROPERTIES ]; --指定额外属性。DESC DATABASE [EXTENDED] db_name;
Hive 中的表对应为 HDFS 上的指定目录,在查询数据时候,默认会对全表进行扫描,这样时间和性能的消耗都非常大。如果查询的 where 字句的中包含分区条件,则直接从该分区去查找,而不是扫描整个表目录,合理的分区设计可以极大提高查询速度和性能。这里说明
hive不建议对数据改写。而数据库通常是需要对数据进行更新操作的。 hive的执行延迟较高,而数据库的执行比较快,但是是基于数据量不大的基础上,当数据量过大,数据库的处理能力会骤降,而此时hive的分布式处理的优势就得到了体现。
把apache-hive-1.2.1-bin.tar.gz上传到linux的/opt/software目录下。注意以tab键间隔。hive> create table student ROW FORMAT DELIMITED FIELDS TERMI
from_unixtime //实际写出来不需要带string,只是表明格式。else "40岁以上" end as age_type,--字段: extra2: {"systemtype":"ios&qu
在做数据仓库管理时,数据导入hive或向表生成数据后形成的数据资产,表里的数据量和占用存储空间是总要的元数据属性。为方便数据使用时对数据有基本的了解,需要对表的数据量做统计。comment=单位基本信息},‘numFiles‘=‘6‘,‘numRows‘=
作为一个数据仓库工程师,你在职场中是不是日趋频繁使用数仓工具Hive?作为一个进阶SQLer,你是否仰望着大数据计算的技术圣殿感到举步维艰?作为一个ETL工程师,你是否觉得MapReduce的出现大大简化了编程难度?作为一个游刃有余的BI运维工程师,你是否
该表存储着数据库的基本信息。db_id 可以与tbls 表关联,查询库里有哪些表。或者某张表属于哪个库。slib 是建表时指定的或者根据存储格式自动指定的。
通过观察原始数据形式,可以发现,视频可以有多个所属分类,每个所属分类用&符号分割,且分割的两边有空格字符,同时相关视频也是可以有多个元素,多个相关视频又用“\t”进行分割。为了分析数据时方便对存在多个子元素的数据进行操作,我们首先进行数据重组清洗操
在讲解中我们需要贯串一个例子,所以需要设计一个情景,对应还要有一个表结构和填充数据。如下:有 3 个字段,分别为 personId 标识某一个人,company 标识一家公司名称,money 标识该公司每年盈利收入。hive 中的 cluster by 在
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。1)Hive处理的数据存储在HDFS上。3)执行程序运行在Yarn上。即Hive类似于一个Hadoop的客户端,所以Hive不涉及集群的概念,可以安装
2)避免要创建的数据库已经存在错误,增加 if not exists 判断。用户可以使用ALTER DATABASE命令为某个数据库的DBPROPERTIES设置键-值对属性值,来描述这个数据库的属性信息。数据库的其他元数据信息都是不可更改的,包括数据库名
========== Spark SQL ==========1、Spark SQL 是 Spark 的一个模块,可以和 RDD 进行混合编程、支持标准的数据源、可以集成和替代 Hive、可以提供 JDBC、ODBC 服务器功能。统一的数据访问方式,Spa
一个简单的理解:把SQL的一些操作应用在hadoop的HDFS上面。 数据库里面有个范式的概念,也就是说数据库中的数据是没有冗余的,用于企业的一些应用。数据仓库是存在冗余数据的,主要用来对大规模的数据及进行数据分析,用户数据挖掘、数据分析。
row format delimited fields terminated by ‘,‘ stored as textfile;
Hive支持原始数据类型和复杂类型,原始类型包括数值型,Boolean,字符串,时间戳。HQL的基本类型和Java的基本类型很接近,虽然受到一些MySQL命名的影响。字节长度分别为1,2,4,8字节。DECIMAL用于表示任意精度的小树,类似于Java的B
usermod -a -G hadoop haddop 第一个hadoop是组名,-a 防止其他用户组的hadoop离开,保持旧的用户组拥有hadoop用户状态。但事实上在生产系统里,NameNode、DataNode等进程都应单独配置目录,而且配置的应该
impyla ERROR - ‘TSocket‘ object has no attribute ‘isOpen‘。这是由于auth_mechanism设置的问题导致的,加上或将其改为auth_mechanism="PLAIN"即可。
select ‘f‘ as category, 9 as duration;duration_rank 必须要在高位补足够的0对齐,因为排序的是字符串而不是数字,如果不补0的话,按字典序排序就会变成1, 10, 11, 12, 13, 2, 3, 4..
* 怎么取出组内大于中位数的行?* 组内出现过最大的上升幅度是多少?SPL 擅长解决这类分组子集和组内有序计算,比如《计算各组前 N 行》; 可以参考《组内运算》、《行间计算》。当数据不在数据库里时,SPL 执行复杂计算仍然方便: =file.import
hive是一个计算引擎. mapreduce 慢,吞吐量达. hive有点像一个hadoop的客户端,他不是分布式的.
100万用户名,50万是null,那么就是有倾斜的。查询的时候要过滤,对倾斜数据做过滤。创建2个表,一个临时表test1,一个非临时表test1;hive> create temporary table test1;OKTime taken: 0.1
前面我们讲解了hive是什么,下面我们接着来看一下hive的架构。在讲解hive的架构前,我们先看一下hadoop的生态系统图,看一下hive到底在hadoop生态系统中占据着什么位置。将物理的计划提交给yarn进行执行。我们来解释下什么是元数据。这些就组
linkis:。links/conf/conf.sh. deployUser=hadoop. linkis/conf/db.sh. DSS. dss/conf/config.sh. deployUser=hadoop
换了几个开发环境,每次都会遇到sparksql连不上元数据的情况,整理一下脱坑吧。。。。。首先说一下几个文件吧,这些是我遇到的几个问题的解决方法,有可能你并不适用,仅供参考。 Specified key was too long; max key len
注意:设置太大也不会校验,所以要根据自己的数据集调整set hive.auto.convert.join = true; -- 开启mapjoin,默认falseset hive.mapjoin.followby.gby.localtask.max.mem
第二种方式是利用sparkSQL将获取的数据Rdd转换成dataFrame,再将dataFrame写成缓存表,最后利用sparkSQL直接插入hive表中。这两种方式各有各自的优点。但大多数开发者更倾向于后者一次编码一步到位的方式。而对于利用sparkSQ
原因是hive版本太老,不能识别integer,只能识别int
用于数据分析、清洗:Hive适用于离线的数据分析和清洗,延迟较高。基于HDFS、MapReduce:Hive存储的数据依旧在DataNode上,编写的HQL语句终将是转换为MapReduce代码执行。操作Hive可能对HBase产生影响,所以Hive需要持