sparks 2017-02-09
spark数据集市RDD,这里有个很重要的特性是RDD可以选择存储起来让另外的action操作,下面是各种缓存级别
存储方式:RDD的持久化或缓存选项是通过persist()或cache()
备注:1.RDD中的数据具有容错性;2.Shuffle操作是不需要指定cache()或者persist()的,会自动缓存rdd结果,避免因为节点故障等问题重新计算
RDD具有容错性,rdd只支持粗粒度转换(单个块上执行的单个操作,如是从哪个rdd-map过来的),如果出了问题,也不用全部重新执行,只需要读取之前是从哪个rdd转换过来的,怎么转换的,即可以将数据重新生成----------所以这种方式也成为“血统(Lineage)”容错
RDD的这种容错分为窄依赖和宽依赖,窄依赖效率高,主要是针对父rdd只有一个的情况(Transformation)
宽依赖父RDD来自很多个片,需要重新计算
我的理解是涉及到shuffle操作的大部分都宽依赖,Transformation操作都是窄依赖
每一次action调用,Spark都会从最初的输入RDD开始,重新执行一遍所有的tranformation,对于批处理任务,这样做固然没有问题,但是对于反复操作操作同一数据的交互式(interactive)任务,重复执行相同的计算显得很低效。
Spark提供缓存API来解决这一问题,用户可以通过cache()或persist()方法,将中间计算结果缓存到内存或者硬盘,下次执行相同计算时,可直接读取缓存来提高效率。persist()和cache()的区别在于,persist()提供了更多的参数,来支持不同级别的缓存机制。
MEMORY_ONLY默认选项,RDD的(分区)数据直接以Java对象的形式存储于JVM的内存中,如果内存空间不足,某些分区的数据将不会被缓存,需要在使用的时候根据世代信息重新计算。
MYMORY_AND_DISKRDD的数据直接以Java对象的形式存储于JVM的内存中,如果内存空间不中,某些分区的数据会被存储至磁盘,使用的时候从磁盘读取。
MEMORY_ONLY_SERRDD的数据(Java对象)序列化之后存储于JVM的内存中(一个分区的数据为内存中的一个字节数组),相比于MEMORY_ONLY能够有效节约内存空间(特别是使用一个快速序列化工具的情况下),但读取数据时需要更多的CPU开销;如果内存空间不足,处理方式与MEMORY_ONLY相同。
MEMORY_AND_DISK_SER相比于MEMORY_ONLY_SER,在内存空间不足的情况下,将序列化之后的数据存储于磁盘。
DISK_ONLY仅仅使用磁盘存储RDD的数据(未经序列化)。
"MEMORY_ONLY_2,
MEMORY_AND_DISK_2,etc."以MEMORY_ONLY_2为例,MEMORY_ONLY_2相比于MEMORY_ONLY存储数据的方式是相同的,不同的是会将数据备份到集群中两个不同的节点,其余情况类似。
OFF_HEAP(experimental)RDD的数据序例化之后存储至Tachyon。相比于MEMORY_ONLY_SER,OFF_HEAP能够减少垃圾回收开销、使得SparkExecutor更“小”更“轻”的同时可以共享内存;而且数据存储于Tachyon中,Spark集群节点故障并不会造成数据丢失,因此这种方式在“大”内存或多并发应用的场景下是很有吸引力的。需要注意的是,Tachyon并不直接包含于Spark的体系之内,需要选择合适的版本进行部署;它的数据是以“块”为单位进行管理的,这些块可以根据一定的算法被丢弃,且不会被重建。