surpassli 2012-02-19
通过对org.apache.Hadoop.ipc包中,Hadoop实现了基于IPC模型的RPC机制,可以不需要像Java中实现的RMI机制一样,在RPC调用的C/S两端分别创建Stub和Skeleton,而是通过一组协议来进行RPC调用就可以实现通信。这主要是由于Hadoop所采用的序列化机制简化了RPC调用的复杂性。Hadoop定义了自己的通信协议,这些协议都是建立在TCP/IP协议之上的,规范了通信两端的约定。
为了阅读分析org.apache.hadoop.hdfs.DFSClient类的实现,我们还需要对Hadoop定义的通信协议簇来进行了解,因为DFSClient所执行的操作都是基于协议的规定来实现的,了解协议的内容可能会对DFSClient实例连接到HDFS执行的任务更好理解一点。
首先,了解一下Hadoop定义的通信双方需要遵循的一组协议,下面是协议接口的继承层次关系,并作简单介绍:
VersionedProtocol协议是Hadoop的最顶层协议接口的抽象;
ClientProtocol协议是用户进程(包括客户端进程与Datanode进程)与Namenode进程之间进行通信所使用的协议,例如,(1)客户端进程需要向Datanode数据结点复制数据块,需要与Namenode进程通信,获取Datanode结点列表;(2)Datanode进程向Namenode进程发送心跳状态报告和块状态报告需要与Namenode进程交互;
ClientDatanodeProtocol协议是客户端进程与Datanode进程之间进行通信所使用的协议;
DatanodeProtocol协议是当Datanode进程需要与NameNode进程进行通信是需要基于此协议,例如发送心跳报告和块状态报告;
InterDatanodeProtocol协议是Datanode进程之间进行通信的协议,例如客户端进程启动复制数据块,此时可能需要在Datanode结点之间进行块副本的流水线复制操作。
下面我们一个一个来看:
该接口的定义如下: