HDFS的读写操作

在HDFS读操作

数据读取请求将由 HDFS，NameNode和DataNode来服务。让我们把读取器叫 “客户”。下图描绘了文件的读取操作在 Hadoop 中。

客户端启动通过调用文件系统对象的 open() 方法读取请求; 它是 DistributedFileSystem 类型的对象。
此对象使用 RPC 连接到 namenode 并获取的元数据信息，如该文件的块的位置。请注意，这些地址是文件的前几个块。
响应该元数据请求，具有该块副本的 DataNodes 地址被返回。
一旦接收到 DataNodes 的地址，FSDataInputStream 类型的一个对象被返回到客户端。 FSDataInputStream 包含 DFSInputStream 这需要处理交互 DataNode 和 NameNode。在上图所示的步骤4，客户端调用 read() 方法，这将导致 DFSInputStream 建立与第一个 DataNode 文件的第一个块连接。
以数据流的形式读取数据，其中客户端多次调用 “read() ” 方法。 read() 操作这个过程一直持续，直到它到达块结束位置。
一旦到模块的结尾，DFSInputStream 关闭连接，移动定位到下一个 DataNode 的下一个块
一旦客户端已读取完成后，它会调用 close()方法。

HDFS写操作

在本节中，我们将了解如何通过的文件将数据写入到 HDFS。

客户端通过调用 DistributedFileSystem对象的 create() 方法创建一个新的文件，并开始写操作 - 在上面的图中的步骤1
DistributedFileSystem对象使用 RPC 调用连接到 NameNode，并启动新的文件创建。但是，此文件创建操作不与文件任何块相关联。NameNode 的责任是验证文件(其正被创建的)不存在，并且客户端具有正确权限来创建新文件。如果文件已经存在，或者客户端不具有足够的权限来创建一个新的文件，则抛出 IOException 到客户端。否则操作成功，并且该文件新的记录是由 NameNode 创建。
一旦 NameNode 创建一条新的记录，返回FSDataOutputStream 类型的一个对象到客户端。客户端使用它来写入数据到 HDFS。数据写入方法被调用(图中的步骤3)。
FSDataOutputStream包含DFSOutputStream对象，它使用 DataNodes 和 NameNode 通信后查找。当客户机继续写入数据，DFSOutputStream 继续创建这个数据包。这些数据包连接排队到一个队列被称为 DataQueue
还有一个名为 DataStreamer 组件，用于消耗DataQueue。DataStreamer 也要求 NameNode 分配新的块，拣选 DataNodes 用于复制。
现在，复制过程始于使用 DataNodes 创建一个管道。在我们的例子中，选择了复制水平3，因此有 3 个 DataNodes 管道。
所述 DataStreamer 注入包分成到第一个 DataNode 的管道中。
在每个 DataNode 的管道中存储数据包接收并同样转发在第二个 DataNode 的管道中。
另一个队列，“Ack Queue”是由 DFSOutputStream 保持存储，它们是 DataNodes 等待确认的数据包。
一旦确认在队列中的分组从所有 DataNodes 已接收在管道，它从 'Ack Queue' 删除。在任何 DataNode 发生故障时，从队列中的包重新用于操作。
在客户端的数据写入完成后，它会调用close()方法(第9步图中)，调用close()结果进入到清理缓存剩余数据包到管道之后等待确认。
一旦收到最终确认，NameNode 连接告诉它该文件的写操作完成。

在HDFS读操作

HDFS写操作

猜你喜欢