Spark2.x写Hbase1-2.x

yixiaoqi00 2020-04-22

import org.apache.hadoop.hbase.io.ImmutableBytesWritable
import org.apache.hadoop.hbase.mapreduce.TableOutputFormat
import org.apache.hadoop.hbase.client.Result
import org.apache.hadoop.hbase.client.Put
import org.apache.hadoop.mapreduce.Job
import org.apache.hadoop.hbase.util.Bytes
import org.apache.spark.{SparkConf, SparkContext}


/**
  * Spark写HBase
  */
object SparkWriteHbase {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setAppName("SparkWriteHBase").setMaster("local")
    val sc = new SparkContext(conf)
    val tableName = "student"


    sc.hadoopConfiguration.set(TableOutputFormat.OUTPUT_TABLE, tableName)

    val job = new Job(sc.hadoopConfiguration)

    job.setOutputKeyClass(classOf[ImmutableBytesWritable])
    job.setOutputValueClass(classOf[Result])
    job.setOutputFormatClass(classOf[TableOutputFormat[ImmutableBytesWritable]])



    val inDataRDD = sc.makeRDD(Array("3,Rongcheng,M,26","4,Guanhua,M,27"))

    val rdd = inDataRDD.map(_.split(",")).map(arr=>{
      val put = new Put(Bytes.toBytes(arr(0)))
      put.addColumn(Bytes.toBytes("info"),Bytes.toBytes("name"),Bytes.toBytes(arr(1)))
      put.addColumn(Bytes.toBytes("info"),Bytes.toBytes("gender"),Bytes.toBytes(arr(2)))
      put.addColumn(Bytes.toBytes("info"),Bytes.toBytes("age"),Bytes.toBytes(arr(3)))
      (new ImmutableBytesWritable(),put)
    })

    rdd.saveAsNewAPIHadoopDataset(job.getConfiguration)


  }

}

: yixiaoqi00

相关推荐

谈谈对Golang IO读写的困惑

Golang的IO读写提供了很多种方式，目前本人知道的有io库、os库、ioutil库、bufio库、bytes/strings库等。虽然库多是一件好事，意味着选择性多，但让我困惑的一点是：什么场景下该用哪个库？// Write 方法同样接收一个字节数组p

hjr 0喜欢 / 0评论 2020-09-15

浅谈入门级oracle数据库数据导入导出步骤

Oracle数据库是通过表空间来存储物理表的，一个数据库实例可以有N个表空间，一个表空间下可以有N张表。表空间是数据库的逻辑划分，每个数据库至少有一个表空间。

FightFourEggs 0喜欢 / 0评论 2020-08-16

oracle 11g修改归档日志目录及大小

NAME TYPE VALUE. ------------------------------------ ----------- -----------------------

踩风火轮的乌龟 0喜欢 / 0评论 2020-07-26

Linux物理机添加新磁盘并格式化

设备 Boot Start End Blocks Id System. /dev/sda1 2048 1953523711 976760832 f W95 Ext‘d . 磁盘

xiyoukeke 0喜欢 / 0评论 2020-07-19

服务器断电导致的ORACLE异常 : ORA-00214 ORA-01033 ORA-01034 ORA-00172 ORA-27101

工作环境中的集群迁移之后，oracle出了挺多问题，最开始一直没找到原因，后来发现做迁移的人是冷迁移的，且数据库节点是硬关机的，惊了（。ORACLE 例程已经启动。数据库装载完毕。ORA-01151：如需要，请使用介质恢复以…SQL> recover

xwb 0喜欢 / 0评论 2020-07-19

Linux 物理内存外碎片化浅析

Linux物理内存碎片化包括两种：。例如进程需要使用3K bytes物理内存，于是向系统申请了大小等于3Kbytes的内存，但是由于Linux内核伙伴系统算法最小颗粒是4K bytes，所以分配的是4Kbytes内存，那么其中1K bytes未被使用的内

拿什么来拯救自己 0喜欢 / 0评论 2020-07-07

Python字符串前缀u、r、b、f含义

前缀u表示该字符串是unicode编码，Python2中用，用在含有中文字符的字符串前，防止因为编码问题，导致中文出现乱码。另外一般要在文件开关标明编码方式采用utf8。在普通字符串中，反斜线是转义符，代表一些特殊的内容，如换行符\n。注意不能在原始字符串

yjsflxiang 0喜欢 / 0评论 2020-07-04

常用维护命令

用于显示Shell内部命令的帮助信息。对于外部命令的帮助信息只能使用man或者info命令查看；仅包括命令格式；在Shell脚本中可以终止当前脚本执行。执行exit可以使Shell以指定的状态退出。执行ping指令会使用ICMP传输协议，发出要求回应的信息

luobotoutou 0喜欢 / 0评论 2020-06-16

PHP: POST Content-Length of xxx bytes exceeds the limit of 8388608 bytes【转】

用户上传了 4 个附件，每个小于 5M，但是总大小超过了 15 M。在 Nginx 日志中找到了如下错误信息，还没有到 Laravel 日志那一层。2018/08/13 10:14:38 [error] 8326#8326: *11432788 FastC

JF0 0喜欢 / 0评论 2020-06-13

python学习_011

str 是字符数据,bytes 和 bytearray 是字节数据,它们都是序列, 可以进行迭代遍历.它们都能使用 str类型的通用函数,比如 find() replace() islower() 等,但不能使用 str的格式化操作。ASCII 码使用

柠檬班 0喜欢 / 0评论 2020-06-11

【LevelDB源码阅读】Arena

内存分配管理器，主要为skiplist即Memtable服务而不是整个项目。申请内存时，将申请到的内存直接放入vector中，在Arena的生命周期结束后，统一释放掉所有申请的内存，内部结构如下图：。避免内存碎片，skiplist里面记录的都是用户传进来的

adwen00 0喜欢 / 0评论 2020-06-09

数据库基础知识

在建立数据库表结构的时候，为了给一个String类型的数据定义一个数据库的数据库类型，一般参考的都是char或者varchar，这两种选择有时候让人很纠结，今天想总结一下它们两者的区别，明确一下选择塔门的理由。MySQL支持多种类型，大致可以分为三类：数值

hitxueliang 0喜欢 / 0评论 2020-06-05

Linux网络配置

　　二进制转换；　　查看是否为同一个网段，需要根据ip地址和掩码一起决定。二进制转换这里不做说明。　　根据ip和掩码来区分，如10.0.7.10/20和10.0.14.11/20是同一个网段，但是10.0.7.10/21和10.0.14.11/21就是不同

PlayerL 0喜欢 / 0评论 2020-06-03

oracle 恢复控制文件

SQL*Plus: Release 19.0.0.0.0 - Production on 星期六 5月 30 18:20:17 2020. 已连接到空闲例程。ORACLE 例程已经启动。数据库装载完毕。

bluet00 0喜欢 / 0评论 2020-05-31

oracle 恢复控制文件

SQL*Plus: Release 19.0.0.0.0 - Production on 星期六 5月 30 18:20:17 2020. 已连接到空闲例程。ORACLE 例程已经启动。数据库装载完毕。

bianruifeng 0喜欢 / 0评论 2020-05-31

记一次Oracle分区表全局索引重建的过程

SELECT Upper "表空间名", D.TOT_GROOTTE_MB "表空间大小", D.TOT_GROOTTE_MB - F.TOTAL_BYTES "已使用空间"

zhangchaoming 0喜欢 / 0评论 2020-05-17

CentOS-基本命令-磁盘管理命令

dd命令的全称为disk dump，对系统所有用户开放。该命令用于复制磁盘的数据块，且可在复制文件的同时指定转换的文件格式。if=FILE:输入文件名称，默认是标准输入。bs=BYTES:同时设置输入／输出的块大小为BYTES个字节。mkswap的全称为m

wennuanwarm 0喜欢 / 0评论 2020-05-11

linux下如何实现快速拷贝大文件

远程拷贝数据的时候，我们一般使用rsync命令，但是如果拷贝大量的小文件，会导致rsync的传输速度慢。使用tar pv lz4打包压缩传输，可以解决这问题，使用这个方法，等同于使用scp、rsync传输大文件。实测，使用rsync传输1200G，单个文件

plusz 0喜欢 / 0评论 2020-05-09

oracle 手工删除数据库

instance_name string THCZY2、一致性关闭数据库SQL> shutdown immediate;Database closed.Database dismounted.O

nan00zzu 0喜欢 / 0评论 2020-05-11

python中理解编码

UTF-8 是针对Unicode的一种可变长度字符编码对中文字符一个字符占3个字节 24bit位。　　　　　　　　　　整型int 浮点型 float 复数complex . b1 = bytes # bytes类型的变量b1，接收bytes类型字符串

liusarazhang 0喜欢 / 0评论 2020-05-01

ORA-01589错误要打开数据库则必须使用 RESETLOGS 或 NORESETLOGS 选项

要打开数据库则必须使用 RESETLOGS 或 NORESETLOGS 选项SQL> startupORACLE 例程已经启动。Total System Global Area 135338868 bytesFixed Size 453492 byt

heniancheng 0喜欢 / 0评论 2020-05-01

Docker安全之TLS加密通讯解析与配置验证

TLS，TLS是建立在传输层TCP协议之上的协议，服务于应用层，它的前身是SSL，它实现了将应用层的报文进行加密后再交由TCP进行传输的功能。TLS协议具备三大特性：保密性、数据完整性、双向认证支持。在docker中，建立TLS加密是为了防止链路劫持、会话

wzg0wzg 0喜欢 / 0评论 2020-04-30

subprocess模块Popen调用命令的使用

# 注意str转成bytes类型,返回的列表中的元素是bytes类型还是str类型,看具体的测试环境.

chysunny 0喜欢 / 0评论 2020-04-22

oracle 数据库查询表空间

set linesize 200col file_name for a50select c.TABLESPACE_NAME,c.SEGMENT_SPACE_MANAGEMENT,d.sum_MB,d.free_MB,d.use_precent,c.EXTE

流云追风 0喜欢 / 0评论 2020-04-22

oracle运维个人常用检查语句整理

SELECT HASH_VALUE, SQL_TEXT, SORTS, EXECUTIONS FROM V$SQLAREA ORDER BY SORTS DESC;and is_obsolete=‘N‘ ORDER BY 4 desc) WHERE ROW

流云追风 0喜欢 / 0评论 2020-04-22

磁盘扩容

/dev/mapper/vg_zxw-lv_root doesn‘t contain a valid partition table. /dev/mapper/vg_zxw-lv_swap doesn‘t contain a valid partition

xushxbigbear微信 0喜欢 / 0评论 2020-04-19

python编码

将Unicode字符按照编码规则编成字节序列。>>> a = u"测试">>> a.encode‘\xe6\xb5\x8b\xe8\xaf\x95‘。>>> a = b"测

Dimples 0喜欢 / 0评论 2020-04-18

Linux分区挂载

以root用户登录待挂载服务器。Disk /dev/vda: 500 GiB, 536870912000 bytes, 1048576000 sectors. Sector size : 512 bytes / 512 bytes. Device

ITlover00 0喜欢 / 0评论 2020-03-27

python bytes和string相互转换（46）

取值范围 0 <= bytes <= 255，输出的时候最前面会有字符b修饰；string是python中字符串类型;

举 0喜欢 / 0评论 2020-03-04

linux下查看磁盘分区的文件系统格式

df -T 只可以查看已经挂载的分区和文件系统类型。Disk /dev/sda: 299.4 GB, 299439751168 bytes255 heads, 63 sectors/track, 36404 cylindersUnits = cylinde

RayCongLiang 0喜欢 / 0评论 2020-02-19

python之路(内存,小数据池,编码等)

python真正的代码块:一个模块，一个函数，一个类，一个文件等都是一个代码块。python在同一个代码块中的变量，初始化对象的命令时，它会将变量与值的对应关系放到一个字典中，如果下面的代码在遇到初始化对象的命令，他会先从字典中寻找，如果存在相同的值，他会

paopao00 0喜欢 / 0评论 2020-02-16

01-Python字符串前面加u,r,b,f的含义

后面字符串以 Unicode 格式进行编码，一般用在中文字符串前面，防止因为源码储存格式问题，导致再次使用时出现乱码。去掉反斜杠的转移机制。例:response = b‘<h1>Hello World!</h1>‘ #b‘ ‘

zhglinux 0喜欢 / 0评论 2020-02-11

Python数据类型-7 bytes

在Python3以后，字符串和bytes类型彻底分开了。字符串是以字符为单位进行处理的，bytes类型是以字节为单位处理的。bytes数据类型在所有的操作和使用甚至内置方法上和字符串数据类型基本一样，也是不可变的序列对象。Python3中，bytes通常用

柠檬班 0喜欢 / 0评论 2020-01-30

只有数据文件恢复数据库

数据库盘阵挂了，数据库软件、数据库日志文件、控制文件以及备份都放在挂的这个磁盘，到最后什么文件都没有，只剩下数据文件！！恢复步骤：这是oracle10G+linux5 的环境，其他版本步骤一样，区别就在参数文件相关参数而已！安装的时候最好保持所在的目录、O

步行者 0喜欢 / 0评论 2020-01-06

docker网络--双向连接

64 bytes from centos-test-2.my-bridge : icmp_seq=2 ttl=64 time=0.163 ms. 64 bytes from centos-test-1.my-bridge : icmp_seq=2 ttl=

ujm0 0喜欢 / 0评论 2020-01-07

oracle查询表空间的空间占用情况

查询所有表空间的总容量、已经使用、剩余、已经使用的百分比！select a.tablespace_name,a.bytes/1024/1024 "Sum MB",/1024/1024 "used MB",b.byte

zhangchaoming 0喜欢 / 0评论 2020-01-04

每天一个linux命令（15）-tail

-f 循环读取-q 不显示处理信息-v 显示详细的处理信息-c<数目> 显示的字节数-n<行数> 显示行数--pid=PID 与-f合用,表示在进程ID,PID死掉之后结束. -q, --quiet, --silent 从不输出给出

Proudoffaith 0喜欢 / 0评论 2020-01-04

Linux下挂载windows盘

我的电脑装了两个系统，一个win7一个ubuntu，而文件和一些java的软件则可以共享，因此将共享的软件和文件放在一个FAT32格式的盘中。然后在ubuntu下挂载这个磁盘。# vi /etc/fstabUUID=4d8500ce-3dfb-4966-b

micmouse 0喜欢 / 0评论 2013-07-20

ORACLE查询每个表占用空间大小

查找object为哪些进程所用select p.spid,s.sid,s.serial# serial_num,s.username user_name,a.type object_type,s.osuser os_user_name,a.owner,a.

Hody 0喜欢 / 0评论 2014-05-13

怎样给centos系统扩展磁盘分区

eve-ng的虚拟机ova的硬盘只有38G，需要增加空间，在vmware直接扩展硬盘后，重启系统，使用fdisk -l可以看到硬盘扩大了，但文件系统并没有扩大，还需要将这些新增的空间扩展分配到某个文件系统才行。下面记录了整个扩展过程。Disk /dev/s

89284553 0喜欢 / 0评论 2019-12-25

Python bytes类型及用法

Python 3 新增了 bytes 类型，用于代表字节串，是一个类型，不是C#中的列表。字节串由多个字节组成，以字节为单位进行操作。bytes 和 str 除操作的数据单元不同之外，它们支持的所有方法都基本相同，bytes 也是不可变序列。Byte 代表

meylovezn 0喜欢 / 0评论 2019-12-20

ADG 误删除system01.dbf故障处理

启动主库、恢复数据文件SQL> startup ORACLE instance started.SQL> recover database;Media recovery complete.SQL> alter database open

zbcaicai 0喜欢 / 0评论 2019-12-12

Python 字符串前面加u,r,b,f的含义

后面字符串以 Unicode格式进行编码，一般用在中文字符串前面，防止因为源码储存格式问题，导致再次使用时出现乱码。exp = u"我是含有中文字符组成的字符串。去掉反斜杠的转移机制。常用于正则表达式，对应着re模块。b" "

doubinning 0喜欢 / 0评论 2019-12-11

python2与python3编码

#coding:utf8#一#1.在python2中,默认以ASCII编码chcp 936import sysprint sys.getdefaultencoding()# ascii#str:bytess1=‘来星hello‘ #存的是字节，数据类型是

fanhuasijin 0喜欢 / 0评论 2019-12-09

linux防火墙扩展模块实战（二）

tcp协议的扩展选项。--destination-port,--dport port[:port]：匹配报文目标端口,可为范围。[~]#iptables -A INPUT -s 192.168.34.1,127.0.0.1 -j ACCEPT 允许本地

zhongcanw 0喜欢 / 0评论 2019-12-06

Kafka消费者——重要参数配置

broker集群地址，格式：ip1:port,ip2:port...，不需要设定全部的集群地址，设置两个或者两个以上即可。消费者隶属的消费者组名称，如果为空会报异常，一般而言，这个参数要有一定的业务意义。该参数与 fetch.min.bytes 参数对应，

jiangkai00 0喜欢 / 0评论 2019-12-07

Linux下判断磁盘是SSD还是HDD的3种方法

判断cat /sys/block/*/queue/rotational的返回值，如果返回1 则表示磁盘可旋转，那么就是HDD了；这种方法有个问题，那就是/sys/block/下面不只有硬盘，还可能有别的块设备，它们都在干扰你的判断。使用lsblk命令进行判

JoShua的水库 0喜欢 / 0评论 2019-12-07

Linux tee命令使用详解分享

　　tee命令主要被用来向standout输出的同时也将内容输出到文件，下面是tee的man 信息。　　read from standard input and write to standard output and files. 　　从man文件的定义

xiaohouye 0喜欢 / 0评论 2019-12-05

redis多实例&分片&jedis的使用

接下来学习redis多实例的部署、数据分片，以及jedis API的使用。一般单个redis的进程是不能满足实际需求的，需要在单台服务器上部署多个redis进程，充分发挥cpu的效能，多台服务器上的redis进程将组成庞大的集群，多的一般部署达到数千个re

sunzxh 0喜欢 / 0评论 2019-12-04