Hive学习之WordCount单词统计

ydbjason 2013-04-16

单词统计相当于编程开始的HELLO WORLD。应该都跑过。假设这里有一个文档，里面有两行这样的话：

Hello World Bye World

Hello Hadoop GoodBye Hadoop

最终要显示的结果如下：

Hive学习之WordCount单词统计

程序如下：

Map：

public class MapClass extends MapReduceBase implements Mapper<LongWritable, Text, Text, IntWritable> {

private final static IntWritable one = new IntWritable(1);
private Text word = new Text();

public void map(LongWritable key, Text value,
OutputCollector<Text, IntWritable> output,
Reporter reporter) throws IOException {
String line = value.toString();
StringTokenizer itr = new StringTokenizer(line);
while (itr.hasMoreTokens()) {
word.set(itr.nextToken());
output.collect(word, one);
}
}
}

Reduce：

public class Reduce extends MapReduceBase implements Reducer<Text, IntWritable, Text, IntWritable> {

public void reduce(Text key, Iterator<IntWritable> values,
OutputCollector<Text, IntWritable> output,
Reporter reporter) throws IOException {
int sum = 0;
while (values.hasNext()) {
sum += values.next().get();
}
output.collect(key, new IntWritable(sum));
}

}

客户端：

public class WordCount {
public static void main(String[] args) throws Exception {
JobConf conf = new JobConf(WordCount.class);
conf.setJobName("wordcount");

conf.setOutputKeyClass(Text.class);
conf.setOutputValueClass(IntWritable.class);

conf.setMapperClass(Map.class);
conf.setCombinerClass(Reduce.class);
conf.setReducerClass(Reduce.class);

conf.setInputFormat(TextInputFormat.class);
conf.setOutputFormat(TextOutputFormat.class);

FileInputFormat.setInputPaths(conf, new Path(args[0]));
FileOutputFormat.setOutputPath(conf, new Path(args[1]));
JobClient.runJob(conf);
}
}

以上是传统的MR程序。现在，我们可以利用hive来做这样的事。

: ydbjason

相关推荐

3（Hive）

Hive 运行时，元数据存储在关系型数据库里面。用户接口主要有三个：CLI，Client 和 WUI。其中最常用的是CLI，Cli启动的时候，会同时启动一个Hive副本。Client是Hive的客户端，用户连接至Hive Server。Hive中的元数据包

archive 0喜欢 / 0评论 2020-07-30

Hive函数大全-完整版

现在虽然有很多SQL ON Hadoop的解决方案，像Spark SQL、Impala、Presto等等，但就目前来看，在基于Hadoop的大数据分析平台、数据仓库中，Hive仍然是不可替代的角色。尽管它的相应延迟大，尽管它启动MapReduce的时间相当

成长之路 0喜欢 / 0评论 2020-07-28

hdfs、hive、hbase的搭建总结

-- 完全分布式文件系统的名称：schema ip port -->. -- 分布式文件系统的其他路径的所依赖的一个基础路径，完全分布式不能使用默认值，因为临路径不安全，linux系统在重启时，可能会删除此目录下的内容-->. --

eternityzzy 0喜欢 / 0评论 2020-07-19

hive函数之~hive当中的lateral view 与 explode

lateral view用于和split、explode等UDTF一起使用的，能将一行数据拆分成多行数据，在此基础上可以对拆分的数据进行聚合，lateral view首先为原始表的每行调用UDTF，UDTF会把一行拆分成一行或者多行，lateral vie

taisenki 0喜欢 / 0评论 2020-07-05

hive函数之~窗口函数与分析函数

)row format delimited fields terminated by ‘,‘;第一个参数为列名，第二个参数为往上第n行，第三个参数为默认值。当ORDER BY和窗口从句都缺失, 窗口规范默认是 ROW BETWEEN UNBOUNDED P

tugangkai 0喜欢 / 0评论 2020-07-05

hive函数之~reflect函数

reflect函数可以支持在sql中调用java中的自带函数，秒杀一切udf函数。create table test_udf row format delimited fields terminated by ‘,‘;hive > create ta

SignalDu 0喜欢 / 0评论 2020-07-05

hive函数之~条件函数

‘tom‘ when 2=2 then ‘mary‘ else ‘tim‘ end from tableName;

genshengxiao 0喜欢 / 0评论 2020-07-05

hive函数之~日期函数

语法: datediff返回值: int说明: 返回结束日期减去开始日期的天数。

tomson 0喜欢 / 0评论 2020-07-05

hive函数之~字符串函数

int start, int len)返回值: string说明：返回字符串A从start位置开始，长度为len的字符串。注意，在有些情况下要使用转义字符,类似oracle中的regexp_replace函数。index)返回值: string说明：将字符

zlsdmx 0喜欢 / 0评论 2020-07-05

hive函数之~关系运算

select 1 from tableName where 1 <> 2;hive> select 1 from tableName where 1 < = 1;select 1 from tableName where 2 >

tomson 0喜欢 / 0评论 2020-07-05

Hive使用

大量的hive查询任务，如果用交互式shell来进行输入的话，显然效率及其低下，因此，生产中更多的是使用脚本化运行机制：。hive -e "insert into table t_dest select * from t_src;".

tugangkai 0喜欢 / 0评论 2020-07-04

Hive的安装与启动

<description>JDBC connect string for a JDBC metastore</description>. <description>Driver class name for a JDBC

tomson 0喜欢 / 0评论 2020-07-05

Hive llap服务安装说明及测试（二）

因为Apache Slider 已经不维护了，下面介绍不使用 Slider 的 LLAP使用方式。

xieting 0喜欢 / 0评论 2020-06-28

Hive学习之路（二）Hive安装

bin binary-package-licenses conf examples hcatalog jdbc lib LICENSE NOTICE RELEASE_NOTES.txt scripts. -- 如果 mysql 和 hi

Zhangdragonfly 0喜欢 / 0评论 2020-06-28

Hadoop

Zookeeper：用于 Hadoop 的分布式协调服务。Hadoop 的许多组件依赖于 Zookeeper，它运行在计算机集群中，用于管理 Hadoop 集群。像 Pig 一样，Hive 作为一个抽象层工具，吸引了很多熟悉 SQL 而不是 Java 编程

genshengxiao 0喜欢 / 0评论 2020-06-26

（一）hive远程模式搭建

# scp -r /opt/soft/mysql-5.7.18-1.el7.x86_64.rpm-bundle.tar :/usr/ 发安装包。# rpm -qa|grep mariadb 检查：这是离线包安装方式所以要检查并且卸载mariadb. #

成长之路 0喜欢 / 0评论 2020-06-26

Hive学习(二)【数据类型、类型转换】

可以指定字符集。可以使用单引号或者双引号。和c语言中的struct类似，都可以通过“点”符号访问元素内容。MAP是一组键-值对元组集合，使用数组表示法可以访问数据。数组是一组具有相同类型和名称的变量的集合。例如CAST将把字符串‘1‘ 转换成整数1；如果强

tomson 0喜欢 / 0评论 2020-06-26

Hive1.2.2（一）

本课堂主要围绕hive的基础知识点进行讲解。主要包括以下几个方面。Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。对于Hive来说默认就是mapreduce任务。与操作本地文件系统类似，这里需要使用

蜗牛之窝 0喜欢 / 0评论 2020-06-26

hive开窗开窗函数进阶

NTILE：把有序分区中的行分发到指定数据的组中，各个组有编号，编号从 1 开始，对于每一行， NTILE 返回此行所属的组的编号。hive > select name,orderdate,cost, sum over as sample f

成长之路 0喜欢 / 0评论 2020-06-25

数据仓库 ODS原始数据层操作

①ODS层存放的是原始数据，因此只需要一个字段就行。②ODS层的数据来源于HDFS，里面存储的文件带有压缩，因此需要指明相应的压缩方式。③在多人操作一张Hive表时，最好建立外部表，防止删表时将其中的数据也删掉了。2 编写将数据导入上述表中的脚本。④hiv

cyydjt 0喜欢 / 0评论 2020-06-25

Hive之row_number() over分组排序

语法：ROW_NUMBER() OVER(PARTITION BY COLUMN ORDER BY COLUMN). select user_id,times,row_number() over(partition by times order by us

成长之路 0喜欢 / 0评论 2020-06-21

入门大数据---Hive常用DDL操作

CREATE [IF NOT EXISTS] database_name --DATABASE|SCHEMA 是等价的。[WITH DBPROPERTIES ]; --指定额外属性。DESC DATABASE [EXTENDED] db_name;

zyjj 0喜欢 / 0评论 2020-06-21

入门大数据---Hive分区表和分桶表

Hive 中的表对应为 HDFS 上的指定目录，在查询数据时候，默认会对全表进行扫描，这样时间和性能的消耗都非常大。如果查询的 where 字句的中包含分区条件，则直接从该分区去查找，而不是扫描整个表目录，合理的分区设计可以极大提高查询速度和性能。这里说明

yongyoumengxiang 0喜欢 / 0评论 2020-06-21

hive总结

　　　　　　hive不建议对数据改写。而数据库通常是需要对数据进行更新操作的。　　　　　　hive的执行延迟较高，而数据库的执行比较快，但是是基于数据量不大的基础上，当数据量过大，数据库的处理能力会骤降，而此时hive的分布式处理的优势就得到了体现。　　　

genshengxiao 0喜欢 / 0评论 2020-06-21

Hive安装，以及一些问题处理

把apache-hive-1.2.1-bin.tar.gz上传到linux的/opt/software目录下。注意以tab键间隔。hive> create table student ROW FORMAT DELIMITED FIELDS TERMI

victorzhzh 0喜欢 / 0评论 2020-06-16

Hive sql常用函数

from_unixtime //实际写出来不需要带string,只是表明格式。else "40岁以上" end as age_type,--字段： extra2: {"systemtype":"ios&qu

archive 0喜欢 / 0评论 2020-06-12

hive 查询表数据量大小

在做数据仓库管理时，数据导入hive或向表生成数据后形成的数据资产，表里的数据量和占用存储空间是总要的元数据属性。为方便数据使用时对数据有基本的了解，需要对表的数据量做统计。comment=单位基本信息},‘numFiles‘=‘6‘,‘numRows‘=

成长之路 0喜欢 / 0评论 2020-06-05

Hive底层执行引擎的深度剖析（免费）

作为一个数据仓库工程师，你在职场中是不是日趋频繁使用数仓工具Hive？作为一个进阶SQLer，你是否仰望着大数据计算的技术圣殿感到举步维艰？作为一个ETL工程师，你是否觉得MapReduce的出现大大简化了编程难度？作为一个游刃有余的BI运维工程师，你是否

taisenki 0喜欢 / 0评论 2020-06-02

hive 之元数据结构(Mysql)

该表存储着数据库的基本信息。db_id 可以与tbls 表关联，查询库里有哪些表。或者某张表属于哪个库。slib 是建表时指定的或者根据存储格式自动指定的。

archive 0喜欢 / 0评论 2020-06-01

hive从入门到实战五

通过观察原始数据形式，可以发现，视频可以有多个所属分类，每个所属分类用&符号分割，且分割的两边有空格字符，同时相关视频也是可以有多个元素，多个相关视频又用“\t”进行分割。为了分析数据时方便对存在多个子元素的数据进行操作，我们首先进行数据重组清洗操

genshengxiao 0喜欢 / 0评论 2020-05-30

hive从入门到实战六

在讲解中我们需要贯串一个例子，所以需要设计一个情景，对应还要有一个表结构和填充数据。如下：有 3 个字段，分别为 personId 标识某一个人，company 标识一家公司名称，money 标识该公司每年盈利收入。hive 中的 cluster by 在

victorzhzh 0喜欢 / 0评论 2020-05-30

hive从入门到实战一

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。1）Hive处理的数据存储在HDFS上。3）执行程序运行在Yarn上。即Hive类似于一个Hadoop的客户端，所以Hive不涉及集群的概念，可以安装

tomson 0喜欢 / 0评论 2020-05-30

hive从入门到实战二

2）避免要创建的数据库已经存在错误，增加 if not exists 判断。用户可以使用ALTER DATABASE命令为某个数据库的DBPROPERTIES设置键-值对属性值，来描述这个数据库的属性信息。数据库的其他元数据信息都是不可更改的，包括数据库名

wangpaiyonghu 0喜欢 / 0评论 2020-05-30

spark企业运用

========== Spark SQL ==========1、Spark SQL 是 Spark 的一个模块，可以和 RDD 进行混合编程、支持标准的数据源、可以集成和替代 Hive、可以提供 JDBC、ODBC 服务器功能。统一的数据访问方式，Spa

Oeljeklaus 0喜欢 / 0评论 2020-05-29

Hive -- 原理篇

　　一个简单的理解：把SQL的一些操作应用在hadoop的HDFS上面。　　数据库里面有个范式的概念，也就是说数据库中的数据是没有冗余的，用于企业的一些应用。数据仓库是存在冗余数据的，主要用来对大规模的数据及进行数据分析，用户数据挖掘、数据分析。

SignalDu 0喜欢 / 0评论 2020-05-28

hadoop hdfs csv导入hive表

row format delimited fields terminated by ‘,‘ stored as textfile;

archive 0喜欢 / 0评论 2020-05-28

hive数据类型

Hive支持原始数据类型和复杂类型，原始类型包括数值型，Boolean，字符串，时间戳。HQL的基本类型和Java的基本类型很接近，虽然受到一些MySQL命名的影响。字节长度分别为1,2,4,8字节。DECIMAL用于表示任意精度的小树，类似于Java的B

taisenki 0喜欢 / 0评论 2020-05-28

hadoop 伪分布式单机部署练习hive

usermod -a -G hadoop haddop 第一个hadoop是组名，-a 防止其他用户组的hadoop离开，保持旧的用户组拥有hadoop用户状态。但事实上在生产系统里，NameNode、DataNode等进程都应单独配置目录，而且配置的应该

taisenki 0喜欢 / 0评论 2020-05-27

【大数据】windows 下python3连接hive

impyla ERROR - ‘TSocket‘ object has no attribute ‘isOpen‘。这是由于auth_mechanism设置的问题导致的，加上或将其改为auth_mechanism="PLAIN"即可。

tugangkai 0喜欢 / 0评论 2020-05-27

hive排序后collect_set

select ‘f‘ as category, 9 as duration;duration_rank 必须要在高位补足够的0对齐，因为排序的是字符串而不是数字，如果不补0的话，按字典序排序就会变成1, 10, 11, 12, 13, 2, 3, 4..

tomson 0喜欢 / 0评论 2020-05-27

一句话从 Hive 取每组前三名

* 怎么取出组内大于中位数的行？* 组内出现过最大的上升幅度是多少？SPL 擅长解决这类分组子集和组内有序计算，比如《计算各组前 N 行》; 可以参考《组内运算》、《行间计算》。当数据不在数据库里时，SPL 执行复杂计算仍然方便： =file.import

编程中的点滴体验 0喜欢 / 0评论 2020-05-19

hive

hive是一个计算引擎. mapreduce 慢，吞吐量达. hive有点像一个hadoop的客户端,他不是分布式的.

编程中的点滴体验 0喜欢 / 0评论 2020-05-19

HADOOP-HIVE分区，桶，倾斜概念

100万用户名，50万是null，那么就是有倾斜的。查询的时候要过滤，对倾斜数据做过滤。创建2个表，一个临时表test1，一个非临时表test1；hive> create temporary table test1;OKTime taken: 0.1

SignalDu 0喜欢 / 0评论 2020-05-17

Hive架构

前面我们讲解了hive是什么，下面我们接着来看一下hive的架构。在讲解hive的架构前，我们先看一下hadoop的生态系统图，看一下hive到底在hadoop生态系统中占据着什么位置。将物理的计划提交给yarn进行执行。我们来解释下什么是元数据。这些就组

zzjmay 0喜欢 / 0评论 2020-05-17

DataSphere安装配置

linkis：。links/conf/conf.sh. deployUser=hadoop. linkis/conf/db.sh. DSS. dss/conf/config.sh. deployUser=hadoop

victorzhzh 0喜欢 / 0评论 2020-05-16

记录一下window idea 如何直连sparksql 使用hive数据元数据

换了几个开发环境，每次都会遇到sparksql连不上元数据的情况，整理一下脱坑吧。。。。。首先说一下几个文件吧，这些是我遇到的几个问题的解决方法，有可能你并不适用，仅供参考。　　Specified key was too long; max key len

zlsdmx 0喜欢 / 0评论 2020-05-14

3、Hive-sql优化，数据倾斜处理

注意：设置太大也不会校验，所以要根据自己的数据集调整set hive.auto.convert.join = true; -- 开启mapjoin，默认falseset hive.mapjoin.followby.gby.localtask.max.mem

victorzhzh 0喜欢 / 0评论 2020-05-11

spark利用sparkSQL将数据写入hive两种通用方式实现及比较

第二种方式是利用sparkSQL将获取的数据Rdd转换成dataFrame，再将dataFrame写成缓存表，最后利用sparkSQL直接插入hive表中。这两种方式各有各自的优点。但大多数开发者更倾向于后者一次编码一步到位的方式。而对于利用sparkSQ

tugangkai 0喜欢 / 0评论 2020-05-09

hive cast( as integer)报错 in primitive type specification

原因是hive版本太老，不能识别integer，只能识别int

genshengxiao 0喜欢 / 0评论 2020-05-09

HBase与Hive

用于数据分析、清洗：Hive适用于离线的数据分析和清洗，延迟较高。基于HDFS、MapReduce：Hive存储的数据依旧在DataNode上，编写的HQL语句终将是转换为MapReduce代码执行。操作Hive可能对HBase产生影响，所以Hive需要持

gengwx00 0喜欢 / 0评论 2020-05-09