bigdataprimary 2010-08-21
注:由学习Hadoop权威指南的
HDFS分布式文件系统
概念:
hadoop的分布式文件系统hdfs
hdfs思想:一次写入,多次读取是高效的,但是如果低延迟访问未必完全做得到,hdfs是为了大搞高数据吞吐量而设计,由于hdfs块默认为64M大小,这样减少了磁盘的寻址时间,这样硬盘的传输速度越快相应的数据传输速率就越快,这只是字面理解,当然如果任务特别少作业的运行速度可能就比预期要慢很多,当然我未做过实际的大规模的对比,所以这只能是笔记了,不过想想也大概是这个道理,呵呵,
名称节点和数据节点
这里名称节点作为管理者管理众多数据节点这些被管理者,名称节点安全与否至关重要,注意名称节点的备份(远程备份或者第二名称节点备份,后者不完全同步)
配置:
fs.default.name=hdfs://localhost设置默认文件系统
dfs.replication=1//设置HDFS副本保存数量,这里为1,伪分布式下设置其他数目会报出异常
命令:
以下为hadoopfs的一些命令,跟linux差不多,在具体使用中会学到一些hadoop的hdfs的知识
hadoop@ubuntu:/opt/hadoop-0.20.2$hadoopfs
Usage:javaFsShell
[-ls<path>]
[-lsr<path>]
[-du<path>]
[-dus<path>]
[-count[-q]<path>]
[-mv<src><dst>]
[-cp<src><dst>]
[-rm[-skipTrash]<path>]
[-rmr[-skipTrash]<path>]
[-expunge]
[-put<localsrc>...<dst>]
[-copyFromLocal<localsrc>...<dst>]
[-moveFromLocal<localsrc>...<dst>]
[-get[-ignoreCrc][-crc]<src><localdst>]
[-getmerge<src><localdst>[addnl]]
[-cat<src>]
[-text<src>]
[-copyToLocal[-ignoreCrc][-crc]<src><localdst>]
[-moveToLocal[-crc]<src><localdst>]
[-mkdir<path>]
[-setrep[-R][-w]<rep><path/file>]
[-touchz<path>]
[-test-[ezd]<path>]
[-stat[format]<path>]
[-tail[-f]<file>]
[-chmod[-R]<MODE[,MODE]...|OCTALMODE>PATH...]
[-chown[-R][OWNER][:[GROUP]]PATH...]
[-chgrp[-R]GROUPPATH...]
[-help[cmd]]
还有hdfs的几个类
FileSystem文件系统,提供了对hdfs文件系统文件或者目录的定位,打开资源流访问等
FSDataInputStream文件系统数据输入流FileSystem.open()returnFSdis
FSDataOutputStream
FileStatus文件状态fs.getFileStatus(Path);获取文件或者目录的属性状态
PathFilter与java的FileFilter类似