使用Sqoop将MySQL数据导入到Hadoop

KevinMitnick 2014-12-10

Hadoop的安装配置这里就不讲了。

Sqoop的安装也很简单。

Sqoop的安装与使用 http://www.linuxidc.com/Linux/2014-10/108337.htm

完成sqoop的安装后，可以这样测试是否可以连接到mysql(注意：mysql的jar包要放到 SQOOP_HOME/lib 下)：

sqoop list-databases --connect jdbc:mysql://192.168.1.109:3306/ --username root --password 19891231

结果如下

使用Sqoop将MySQL数据导入到Hadoop

即说明sqoop已经可以正常使用了。

下面，要将mysql中的数据导入到hadoop中。

我准备的是一个300万条数据的身份证数据表：

使用Sqoop将MySQL数据导入到Hadoop

先启动hive（使用命令行：hive 即可启动）

然后使用sqoop导入数据到hive：

sqoop import --connect jdbc:mysql://192.168.1.109:3306/hadoop --username root --password 19891231 --table test_sfz --hive-import

sqoop 会启动job来完成导入工作。

使用Sqoop将MySQL数据导入到Hadoop

使用Sqoop将MySQL数据导入到Hadoop

完成导入用了2分20秒，还是不错的。

在hive中可以看到刚刚导入的数据表：

使用Sqoop将MySQL数据导入到Hadoop

我们来一句sql测试一下数据：

select * from test_sfz where id < 10;

使用Sqoop将MySQL数据导入到Hadoop

可以看到，hive完成这个任务用了将近25秒，确实是挺慢的（在mysql中几乎是不费时间），但是要考虑到hive是创建了job在hadoop中跑，时间当然多。

接下来，我们会对这些数据进行复杂查询的测试：

我机子的配置如下：

使用Sqoop将MySQL数据导入到Hadoop

hadoop 是运行在虚拟机上的伪分布式，虚拟机OS是ubuntu12.04 64位，配置如下：

使用Sqoop将MySQL数据导入到Hadoop

: KevinMitnick

相关推荐

SQOOP增量抽取时，在HIVE中实现类似Oracle的merge操作

数据仓库建设中的数据抽取环节，常常需要增量抽取业务库数据。但业务库数据不是一层不变的，会根据时间发生状态变更，那么就需要同步更新变化数据到HIVE中。过去在Oracle上做数据仓库时，可以使用merge的方法合并新老数据。但hive中没有该功能，本文旨在通

victorzhzh 0喜欢 / 0评论 2020-04-07

sqoop oracle到hive，动态分区一次操作记录

sqoop，将oracle数据传递到hive，可以直接将表数据覆盖传递，也可以按select传递，这里我用的是select查询的。query里面，必须有where条件，同时必须添加\$CONDITIONS，\$CONDITIONS在执行时会自动替换位 ,但

Streamoutput 0喜欢 / 0评论 2020-03-27

大数据 hadoop ---- Sqoop、flume、chukwa

Sqoop是一款开源的工具，主要用于在Hadoop与传统的数据库间进行数据的传递，可以将一个关系型数据库中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。对于某些NoSQL数据库它也提供了连接器。Sqoop，类似于其他ET

硅步至千里 0喜欢 / 0评论 2020-02-18

Sqoop 一点通

sqoop 1 版本主要从1.4.0 到 1.4.7；sqoop 2 版本主要从1.99.1 到1.99.7。sqoop2 对 sqoop 1 主要在性能、安全方面做了优化升级，并新增了服务端，sqoop2 可以通过编程 rest api 的方式进行数据同

SignalDu 0喜欢 / 0评论 2020-02-17

2020年寒假假期总结0201

　　系统环境：hadoop2.65，mysql5.7.28，sqoop1.47，hive1.2.2，虚拟机centos7，物理机windows10. 　　2.然后利用传输工具将sql文件传给虚拟机，然后虚拟机开启mysql，使用source命令调用sql文

mycosmos 0喜欢 / 0评论 2020-02-01

错误: 找不到或无法加载主类 org.apache.sqoop.Sqoop

1.sqoop-1.4.x.tar.gz在1.4.5以上的安装包已经没有了这个jar包，在linux下上传,解压sqoop-1.4.6.bin_hadoop-2.0.4-alpha.tar.gz

飞鸿踏雪0 0喜欢 / 0评论 2020-01-30

七,sqoop 安装

将mysql放到 Sqoop 目录下的 lib。

strongyoung 0喜欢 / 0评论 2020-01-25

Sqoop的安装和使用

sqoop 是 apache 旗下一款“Hadoop 和关系数据库服务器之间传送数据”的工具。将导入或导出命令翻译成 MapReduce 程序来实现在翻译出的 MapReduce 中主要是对 InputFormat 和 OutputFormat 进行定制

sujins 0喜欢 / 0评论 2020-01-04

Sqoop -- 用于Hadoop与关系数据库间数据导入导出工作的工具

Sqoop是一款开源的工具，主要用于在Hadoop相关存储与传统关系数据库间进行数据传递工作。Sqoop最早是作为Hadoop的一个第三方模块存在，后来被独立成为了一个Apache项目。除了关系数据库外，对于某些NoSQL数据库，Sqoop也提供了连接器。

hitxueliang 0喜欢 / 0评论 2019-12-31

sqoop--数据库和hdfs之间的搬运工

sqoop是一款开源的工具，主要用于在hadoop和与传统的数据库之间进行的数据的传递，可以将一个关系型数据库中的数据导入到hadoop的hdfs中，也可以将hdfs的数据导入到关系型数据库中。sqoop的命名由来就是sql?hadoop，它的原理就是将导

strongyoung 0喜欢 / 0评论 2019-12-28

小记--------sqoop的简单从mysql导入到hbase操作

--hbase-row-key id//如果不指定该参数，则采用源表的key作为rowkey；可以指定一个字段作为rowkey，或者指定多个字段组合成rowkey

tlsmile 0喜欢 / 0评论 2019-12-17

sqoop面试题

--query "$2" ‘ and $CONDITIONS;‘ # 指定满足sql和条件的数据导入。--incremental 导入模式\ # 用来指定增量导入的模式，append和lastmodified. 导入数据时采用–n

eternityzzy 0喜欢 / 0评论 2019-12-14

sqoop安装与使用

需要在Hadoop的yarn-site.xml 这个配置文件中增加以下属性<property> <name>yarn.log-aggregation-enable</name> <value>true<

csdnhadoop 0喜欢 / 0评论 2019-12-01

imp exp to in mysql in hadoop

已经成功安装配置Hadoop和Mysql数据库服务器，如果将数据导入或从Hbase导出，还应该已经成功安装配置Hbase。--export-dir '/user/root/aa/part-m-00000' ##hive中被导出的文件

Franklyn 0喜欢 / 0评论 2015-06-29

大数据模块开发----结果导出

Sqoop是Hadoop和关系数据库服务器之间传送数据的一种工具。它是用来从关系数据库如：MySQL，Oracle到Hadoop的HDFS，并从Hadoop的文件系统导出数据到关系数据库。由Apache软件基金会提供。Sqoop工作机制是将导入或导出命令翻

herohope 0喜欢 / 0评论 2019-11-05

数据迁移工具Sqoop和DataX功能比较

最近由于项目需要，对Apache Sqoop和Taobao DataX工具进行了调研，这里是对二者功能的初步梳理，不会涉及技术细节和使用方法，留作日后选型参考。Sqoop是Apache下的顶级项目，用来将Hadoop和关系型数据库中的数据相互转移，可以将一

lxypeter 0喜欢 / 0评论 2017-08-09

Sqoop是什么

Sqoop是一款开源的工具，主要用于在Hadoop与传统的数据库间进行数据的传递，可以将一个关系型数据库中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。Sqoop项目开始于2009年，最早是作为Hadoop的一个第三方模

flushest 0喜欢 / 0评论 2017-01-21

Sqoop 导数据到HDFS, 用Spark SQL进行查询

serverTimezone=Asia/Shanghai \. .getOrCreate();Order order = new Order();String[] items = line.getString(0).split(",")

hanhan 0喜欢 / 0评论 2019-09-02

Linux搭建Sqoop开发环境

Sqoop是Hadoop和关系数据库服务器之间传送数据的一种工具。它是用来从关系数据库如：MySQL，Oracle到Hadoop的HDFS，并从Hadoop的文件系统导出数据到关系数据库。传统的应用管理系统，也就是与关系型数据库的使用RDBMS应用程序的交

一个人的世界 0喜欢 / 0评论 2018-04-29

解决sqoop不能找到$SQOOP_HOME/lib下面jar的问题

sqoop导入数据后hdfs下面会有相应的文件如果继续执行相同的命令会出现问题。

eternityzzy 0喜欢 / 0评论 2017-09-18

sqoop经典生产应用总结

如果关系库表字段不是string并且也是null的话那么导入到hdfs也用\N存储

eternityzzy 0喜欢 / 0评论 2015-10-08

sqoop 数据导入脚本

简单分享个sqoop 从mysql 集群导入到hdfs hive-table 里面进行分析的例子。sqoop1.4.6,hadoop2.7,hive1.2.1 ,因为环境原因，sqoop 没有升级到2~。# -------------- queue表

李双喆 0喜欢 / 0评论 2015-09-29

sqoop导hbase zookeeper出现的问题

13/10/12 10:16:54 INFO util.RetryCounter: Sleeping 2000ms before retry #1...

ZHBMcCoy 0喜欢 / 0评论 2013-10-12

大数据系列8：Sqoop – HADOOP和RDBMS数据交换

将JDBC驱动mysql-connector-java-5.1.18.jar拷贝到/home/ysc/sqoop-1.4.4/lib

NeboFeng 0喜欢 / 0评论 2013-10-02

Sqoop是什么

Sqoop是一款开源的工具，主要用于在Hadoop与传统的数据库间进行数据的传递，可以将一个关系型数据库中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。Sqoop项目开始于2009年，最早是作为Hadoop的一个第三方模

FireFox 0喜欢 / 0评论 2017-01-21

使用sqoop将MySQL数据库中的数据导入Hbase

--tableresearchers表示导出rsearch数据库的researchers表。--hbase-tableA表示在HBase中建立表A。--hbase-row-keyid表示表A的row-key是researchers表的id字段。--user

大伟爱自由 0喜欢 / 0评论 2012-03-26

MySQL向Hive/HBase的迁移工具

ApacheHive是目前大型数据仓库的免费首选产品之一，使用ApacheHive的人是不会期望在小数据量上做什么文章，例如把MySQL中的数据搬到Hive/HBase中去，那样的话原先很快能执行完毕的SQL，估计在Hive上运行跟原来相比时间延长10倍都

leys 0喜欢 / 0评论 2011-04-21

sqoop could not find any valid local directory 异常解决

原来是硬盘空间满了，占用到了100%；删除没用的数据后，sqoop能正常运行。过了一天后，又报sqoop error reading task output 异常，查了N久之后才发现是zookeeper的节点down掉了。。。。。重新启动zookeeper

hudyang 0喜欢 / 0评论 2011-09-07

Sqoop-1.4.6安装部署及详细使用介绍

之所以选择Sqoop1是因为Sqoop2目前问题太多。无法正常使用，综合比较后选择Sqoop1。、拷贝MySQL的jdbc驱动包mysql-connector-Java-5.1.31-bin.jar到sqoop/lib目录下。注释掉HCatalog，Acc

whspringer 0喜欢 / 0评论 2016-11-07

sqoop2 1.99.5 安装+hue

sqoop是一个把关系型数据库数据抽向Hadoop的工具。同时，也支持将hive、pig等查询的结果导入关系型数据库中存储。个人觉得用一个生态后就实用同一个系列的产品，比如选择了cloudera最好就用它的生态下的东西。tar -zxvf sqoop2-1

maxhello 0喜欢 / 0评论 2016-09-30

配置sqoop的环境变量

简述了sqoop的的功能，作用，以及版本演进，那么本篇我们就来实战下，看下如下安装使用sqoop。首先，sqoop是基于Hadoop工作的，所以在这之前，确保你的Linux环境下，已经有可以正常工作的hadoop集群，当然伪分布式和完全分布式都可以。其次，

changjiang 0喜欢 / 0评论 2016-01-24

sqoop是什么

首先，先简单说明下sqoop是什么，sqoop 即 SQL to Hadoop ，是一款方便的在传统型数据库与Hadoop之间进行数据迁移的工具，充分利用MapReduce并行特点以批处理的方式加快数据传输，发展至今主要演化了二大版本，sqoop1和sqo

ysum 0喜欢 / 0评论 2016-01-24

sqoop数据的导入和导出

--query 'SELECT * FROM trade_detail where id > 2 AND $CONDITIONS' --split-by trade_detail.id --target-dir '/sqoop/td3'注意：如果使用

HerryDong 0喜欢 / 0评论 2015-10-11

imp exp to in mysql in hadoop

前置条件已经成功安装配置Hadoop和Mysql数据库服务器，如果将数据导入或从Hbase导出，还应该已经成功安装配置Hbase。拷贝Hadoop核心包和MYSQL驱动包到sqoop的lib目录[hadoop@appserver ~]$ cphadoop-

mysql00 0喜欢 / 0评论 2015-06-29

如何将其他RDBMS的数据到迁移到Trafodion

本文介绍了如何将数据从现有的RDBMS迁移到Trafodion数据库。从其它的RDBMS或外部数据源向Trafodion集群中导入大量的重要数据，可以通过下面两步完美实现：。使用下列方法之一:. 使用Sqoop将数据导入Hive使用Apache Sqoop

leys 0喜欢 / 0评论 2019-06-28

利用Sqoop将MySQL海量测试数据导入HDFS和HBase

mv sqoop-1.4.6.bin_hadoop-2.0.4.alpha sqoop-1.4.62、配置环境变量vim /etc/profileexport SQOOP_HOME=/root/hadoop/sqoop-1.4.6. export PATH

狗蛋的窝 0喜欢 / 0评论 2019-06-26

数据仓库迁移-Sqoop应用

场景最近在负责公司的数据仓库迁移以及重构的工作，主要是Hadoop集群之间的数据迁移和重新拉去线上Oracle数据库中数据到Hadoop集群来支撑数据仓库。踩坑两年前，用sqoop做过CSV和SQLServer导入Hive，那次实施只是将已有的数据全量im

llcode 0喜欢 / 0评论 2019-06-26

如何搭建一个大数据分析平台？附送19年最新大数据自学资料

一般使用开源版的Redhat系统--CentOS作为底层平台。为了提供稳定的硬件基础，在给硬盘做RAID和挂载数据存储节点的时，需要按情况配置。比如，可以选择给HDFS的namenode做RAID2以提高其稳定性，将数据存储与操作系统分别放置在不同硬盘上，

archya 0喜欢 / 0评论 2019-06-20

Sqoop导入关系数据库到Hive

Sqoop 是 apache 下用于 RDBMS 和 HDFS 互相导数据的工具。本文以 mysql 数据库为例，实现关系数据库导入到 hdfs 和 hive。yum install sqoop sqoop-metastore -y安装完之后需要下载 my

sqlican 0喜欢 / 0评论 2019-06-20

利用Sqoop将数据从数据库导入到HDFS

#执行导入逻辑。将Oracle中的数据导入到HDFS中。执行这个脚本之后，导入程序就完成了。接下来，用户可以自己创建外部表，将外部表的路径和HDFS中存放Oracle数据的路径对应上即可。如果多次导入同一个表中的数据，数据以append的形式插入到HDFS

jiong 0喜欢 / 0评论 2012-12-17

扣丁学堂Linux培训分享使用shell脚本执行hive、sqoop命令的方法

#!/bin/bash. #CURR_DATE=`date +"%Y-%m-%d %H:%M:%S"`------>不能使用。flowToken=1008607 【扫码进入Python全栈开发免费公开课】。flowToke

喜上眉梢 0喜欢 / 0评论 2019-05-22

hue oozie再踩坑，workflow,coordinator终于都可以跑了

前边总结了些hue下sqoop1,oozie,hbase的一些坑，今日项目到期，一定要搞定oozie工作流和定时调度执行，以是skr skr skr ....

wendll 0喜欢 / 0评论 2018-09-28

扣丁学堂剖析大数据培训之如何创建一个大数据平台

随着大数据技术的到来，导致越来越多人想要学习大数据技术，而创建大数据平台是个系统性的工程，并不像简简单单开发一款APP一样，你要深度的了解当前的环境以后的发展，那么，下面请小讲来为大家详细的介绍一下关于扣丁学堂剖析大数据培训之如何创建一个大数据平台吧。目前

成长之路 0喜欢 / 0评论 2017-11-10

Sqoop安装配置及Hive导入

Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具，可以将一个关系型数据库中的数据导入到Hadoop的HDFS中，也可以将HDFS的数据导入到关系型数据库中。export SQOOP_HOME=/home/hadoop/sqoop-1.

victorzhzh 0喜欢 / 0评论 2016-09-11

Sqoop数据导出导入命令

经查询，为mysql JDBC驱动bug所致，我用的是mysql-connector-java-5.1.10-bin.jar版本的，后改为mysql-connector-java-5.1.25-bin.jar版本的就没有问题了

victorzhzh 0喜欢 / 0评论 2015-09-16

利用Sqoop对MySQL执行DML操作

业务背景利用Sqoop对MySQL进行查询、添加、删除等操作。--query "select end_user_id, category_id, score, last_bought_date, days_left, update_time. P

xjllsgs 0喜欢 / 0评论 2015-08-12

使用Sqoop实现Hive与MySQL数据库间数据迁移时报错

准备将关系型数据的表结构复制到hive中。但是提示如下一堆错误信息：Warning: /usr/lib/hbase does not exist!

wangpanyang 0喜欢 / 0评论 2015-08-03

SQOOP的安装配置

SQOOP是一款开源的工具，主要用于在Hadoop与传统的数据库间进行数据的传递，下面从SQOOP用户手册上摘录一段描述。Sqoop is a tool designed to transfer data between Hadoop andrelatio

wangzy0 0喜欢 / 0评论 2011-10-11

Java中的double精度，sqoop从Oracle导出到Hive

项目进行了大半后发现悲剧了，利用sqoop默认的从Oracle数据库到处的数据表，如果其中的数据精度大于15位，而导入的表有些字段默认的是double类型，结果导致大于16的数导入到了hive中，查询时只有15位的精度，悲哀啊，切记。

idiotion 0喜欢 / 0评论 2014-04-21