HDFS【概述、数据流】

sujins 2020-06-14

目录

概述

定义

HDFS是一个分布式文件管理系统

优缺点

优点
（1）高容错
多副本提高容错、某个副本丢失可以自动恢复
（2）适合处理大数据
? 能处理PB级别数据、能处理百万的文件数据量
（3）可构建在廉价机器上
缺点
（1）不适合低时延数据访问
（2）无法高效存储小文件
（3）不支持并发写入和文件修改

HDFS组成架构

HDFS【概述、数据流】

HDFS【概述、数据流】

HDFS文件块大小

HDFS【概述、数据流】

HDFS【概述、数据流】

HDFS数据流

写数据

HDFS【概述、数据流】

1）客户端通过Distributed FileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。

2）NameNode返回是否可以上传。

3）客户端请求第一个 Block上传到哪几个DataNode服务器上。

4）NameNode返回3个DataNode节点，分别为dn1、dn2、dn3。

5）客户端通过FSDataOutputStream模块请求dn1上传数据，dn1收到请求会继续调用dn2，然后dn2调用dn3，将这个通信管道建立完成。

6）dn1、dn2、dn3逐级应答客户端。

7）客户端开始往dn1上传第一个Block（先从磁盘读取数据放到一个本地内存缓存），以Packet为单位，dn1收到一个Packet就会传给dn2，dn2传给dn3；dn1每传一个packet会放入一个应答队列等待应答。

8）当一个Block传输完成之后，客户端再次请求NameNode上传第二个Block的服务器。（重复执行3-7步）。

读数据

HDFS【概述、数据流】

1）客户端通过Distributed FileSystem向NameNode请求下载文件，NameNode通过查询元数据，找到文件块所在的DataNode地址。

2）挑选一台DataNode（就近原则，然后随机）服务器，请求读取数据。

3）DataNode开始传输数据给客户端（从磁盘里面读取数据输入流，以Packet为单位来做校验）。

4）客户端以Packet为单位接收，先在本地缓存，然后写入目标文件。

网络拓扑-节点距离计算

节点距离：两个节点到达最近的共同祖先的距离总和

在HDFS写数据的过程中，NameNode会选择距离待上传数据最近距离的DataNode接收数据。那么这个最近距离怎么计算呢?

HDFS【概述、数据流】

机架感知（副本存储节点选择）

HDFS【概述、数据流】

: sujins

相关推荐

编程语言TOP10！该如何选择适合自己的？

编程领域大约有700种代码语言。理解编程语言的重要性以及其如何影响需要执行的具体任务至关重要。一篇文章穷尽700 种语言不现实，也没有意义。因此，笔者挑选出了时下最热门的原因，在本文中一一分析其特征、优缺点和发展方向，并确定其是否有学习价值。根据设计，C

chensen 0喜欢 / 12评论 2020-11-14

选择困难终结者：不同问题之下的机器学习算法

刚开始学习数据科学时，笔者经常面临这样一个问题：遇到具体问题，选择何种算法才合适。也许你也和我一样，搜了很多有关机器学习算法的文章，会看到许多详细的描述，却并没有减少让抉择的难度。问题陈述2：深挖客户统计数据用以识别模式。问题陈述12：根据车辆特性预估车辆

lwnylslwnyls 0喜欢 / 0评论 2020-11-06

Dubbo中的时间轮(Time Wheel)算法应用

Netty、Quartz、Kafka 以及 Linux 都有定时任务功能。在任务量大、性能要求高的场景，为了将任务存取及取消操作时间复杂度降为 O，会采用时间轮算法。指针周期性跳动，跳动到一个槽位，就执行该槽位的定时任务。需要高效的定时器算法以减少总体中断

ATenhong 0喜欢 / 10评论 2020-10-15

前端一面基础知识 ⑥——性能优化、Web安全、Linux常用命令

④用户输入结束或暂停时，才会触发change事件，类似搜索框中输入信息停下来1秒后才会出现可能要搜索的内容。控制事件发生的频率，如控制为1秒发生一次，甚至1分钟发生一次。与服务端及网关控制的限流类似。防抖是触发间隔大于time触发，所以每次在小于间隔tim

yanzhelee 0喜欢 / 0评论 2020-10-13

Java程序员怎样打造高效率的开发环境

作为一名程序员，好的开发环境可以提升你的工作效率，事半功倍。那么一名Java程序员应该拥有什么样的开发工具呢。java程序员都知道，第一节课就会教你安装jdk。jdk是java开发工具包，包含了jvm虚拟机，你写的java代码就是通过jdk编译运行的。ja

佛系程序员J 0喜欢 / 11评论 2020-10-10

AI创业哪家强？6大选择给你方向

人工智能被认为是当代“最热门”的工作。根据《财富》杂志统计，雇佣AI专家的人数在过去4年里增长了74%，社会对人工智能专家的需求正以前所未有的速度增长。人工智能的子领域，如机器学习、深度学习、计算机视觉、统计学和自然语言处理，对这些领域专家的需求和空缺职位

guojin0 0喜欢 / 0评论 2020-10-08

如何使Java程序员拥有高效率的开发环境

作为一名程序员，好的开发环境可以提升你的工作效率，事半功倍。那么一名Java程序员应该拥有什么样的开发工具呢。java程序员都知道，第一节课就会教你安装jdk。jdk是java开发工具包，包含了jvm虚拟机，你写的java代码就是通过jdk编译运行的。ja

佛系程序员J 0喜欢 / 0评论 2020-10-08

《Machine Learning Yearning》总结

在训练数据不足的情况下，你可以尝试引入额外的训练数据，只要它们能提供对训练有价值的信息。如果模型在引入额外数据的训练数据集和引入额外数据的测试数据集中都表现的很好，但在不引入额外数据的测试数据集中表现糟糕，那么这种情况称为：数据不匹配。此时可以考虑在目标函

bluewelkin 0喜欢 / 0评论 2020-09-16

移动APP开发有哪些框架？

现在比较流行的移动APP开发框架有以下六种：网页、混合、不仅、原生、桥接、自绘。前三种体验与Web的体验相似，后三种与原生APP的体验相似。这六种框架形式，都有自己适用的范围。无所谓好坏，适用就是好。自绘应用适用于游戏和有特殊效果的应用，最大的好处是没有平

wwzaqw 0喜欢 / 0评论 2020-09-04

那些与健康运营密切相关的衡量标准

下面，我们将和您在健康运营的过程中，企业所面临的各项挑战、痛点、以及需要衡量的各项关键指标。在此基础上，我们会进一步给出一个标准成熟度模型，以及对应的实践案例。同时，由于不同团队各司其职、各自为政，因此数据孤岛的现象在企业中屡见不鲜。对应的KPI包括：了解

zhongdaowendao 0喜欢 / 0评论 2020-09-02

mysql分库分表篇

当表的数量达到几百上千张表时，众多的业务模块都访问这个数据库，压力会非常的大，考虑对其进行分库。支持MySQL、Oracle、DB2、SQL Server、PostgreSQL等DB的常见SQL语法。基于心跳的自动故障切换，支持读写分离，支持MySQ

favouriter 0喜欢 / 0评论 2020-08-18

怎么才能隐藏的IP？打造超强IP池项目，让你自己都忘记原本的IP

随着大型网站反扒机制的增强，更改IP登陆已经成为一种最高效的方式，为此打造一款超强IP池项目，采用最新最快的Python技术——异步。编写了一个免费的异步爬虫代理池，以 Python asyncio 为基础，充分利用 Python 的异步性能，异步处理比同

奎因amp华洛 0喜欢 / 0评论 2020-08-15

移动端跨平台技术之下的变与不变

跨 Native 与 Web：商品详情页等要求有一套功能差不多的 Web 页能够在端外访问，需要跨 Native App 与 Web. 容器化 Native 跨端：将 Native App 改造成标准化的容器，进而允许一套代码跨多端标准容器运行，如 Rea

一青年 0喜欢 / 0评论 2020-08-13

数据科学家的工具列表：提高生产效率的工具包

本文转载自公众号“读芯术”。新的东西令人激动，新的框架、新的仪器、新的工具，都会让生活变得更轻松。保持更新很难，我们需要花更多的时间在其上。当然，我们并不是要一直更新到最新的发现，它可能是某个特定库的新的小版本，也可能是处于兴趣或是工作需要而寻找。应用tf

千锋 0喜欢 / 0评论 2020-08-10

JVM

新生代，老年代，永久代/元空间。晋升机制根据对象存活时间。jmap -dump:file=[文件名] pid：将进程运行的状况dump到文件中,文件通过fastThread线上工具分析。

nangongyanya 0喜欢 / 0评论 2020-08-09

MyBatis接口代理方式实现Dao层

Mybatis中namespace用于绑定dao接口，dao接口的方法对应mapper中的sql语名。--默认名为类名首字母小写-->. --environment配置数据库环境 id 属性唯一标识 -->. --dataSource数据源信息

dongxurr 0喜欢 / 0评论 2020-08-08

Python名称空间与作用域

在python解释器开始执行, 就会在内存中开辟一个空间, 每当遇到一个变量的时候, 就把变量名和值之间的关系记录下来,当遇到函数定义的时候, 解释器只是把函数名读入内存, 并检查语法是否正确，表示这个函数存在了, 至于函数内部的变量和逻辑, 解释器是不关

明天你好 0喜欢 / 0评论 2020-08-03

python List 和Numpy array 区别

一个numpy array 是内存中一个连续块，并且array里的元素都是同一类。　　 list完全不同，它的每个元素其实是一个地址的引用，这个地址又指向了另一个元素，这些元素的在内存里不一定是连续的。所以list其实是只能塞进地址的“数组”

kyelu 0喜欢 / 0评论 2020-08-03

Redis 内存压缩原理

Redis 无疑是一个大量消耗内存的数据库，因此 Redis 引入了一些设计巧妙的数据结构进行内存压缩来减轻负担。ziplist、quicklist 以及 intset 是其中最常用最重要的压缩存储结构。Redis对外提供了 string, list, h

Ashes 0喜欢 / 0评论 2020-08-03

数据准备基本流程数据规范化的几种方法利用SciKit库进行数据变换

就是将多个数据源合并存放在一个数据仓库中。与主流的ETL的区别是：在抽取后首先将结果写入目的地，然后通过数据库的聚合分析能力或外部计算框架来完成转换。通过以下方法针对算法对数据进行变换。数据平滑---去除数据中的噪声，将连续数据离散化。

wndong 0喜欢 / 0评论 2020-08-01

盘点 Spring Security 框架中的八大经典设计模式

上次有小伙伴建议，源码分析太枯燥了，要是能够结合设计模式一起来，这样更有助于大家理解 Spring Security 源码，同时还能复习一波设计模式。因此松哥今天就试着整一篇，和大家来聊一聊 Spring Security 中涉及到的设计模式，不过 Sp

hellowordmonkey 0喜欢 / 0评论 2020-07-30

一个开源免费的基于现代Javascript的动画引擎库——kute.js

KUTE.js是用于现代浏览器的JavaScript动画引擎，基于ES6 / ES7标准的现代JavaScript动画引擎，为Web开发人员，设计人员和动画师提供了最基本的功能，提供了易于使用的方法来设置高性能的跨浏览器动画。重点是代码质量高，灵活性强

小飞侠V 0喜欢 / 0评论 2020-07-28

Redis从入门到深入-主从复制(22)

经存在丢失的情况，必须进行第二次全量复制，致使slave陷入死循环状态。

八角塘塘主 0喜欢 / 0评论 2020-07-28

微前端介绍

微前端就是将不同的功能按照不同的维度拆分成多个子应用。微前端的核心在于拆, 拆完后在合!希望每个团队都可以独立开发，独立部署怎么破？当路径切换时加载同的子应用。从而解决了前端协同开发问题。2018年 Single-SPA诞生了， single-spa 是一

架构技术交流 0喜欢 / 0评论 2020-07-28

Redis与Celery基础

#1 key-value的存储方式，value有很多数据类型：5大：string(字符串)、list(链表)、set(集合)、zset和hash（哈希类型。# 4 使用Redis有哪些好处？-redis-cli ：客户端连接服务端。xx，(更新)如果设置

笨重的蜗牛 0喜欢 / 0评论 2020-07-27

常见算法

从第一个元素开始，把当前元素和下一个索引元素进行比较。下一轮重复以上操作，此时无需比较最后一个元素，只需比较到length-2位置。第一个元素默认是已排序元素，取出下一个元素和当前元素比较，如果当前元素大就交换位置，那么此时第一个元素就是当前最小值，所以下

ustbfym 0喜欢 / 0评论 2020-07-28

MySQL （上篇）

编程路漫之远兮，集数据库之大体；劝君专注案前事，亦是杯酒敬苍生；其实数据库就是一个文件系统。使用管理员打开cmdnet start mysql : 启动mysql的服务net stop mysql:关闭mysql服务。每一种数据库操作的方式存在不一样的

拼命工作好好玩 0喜欢 / 0评论 2020-07-27

数据分析基本流程 Python基本数据类型 Python各种括号的使用方式

数据分析基本流程 Python基本数据类型 Python各种括号的使用方式。理解业务需求，对挖掘目标进行定义。列表 []，list，相当于数组。元组 ()，tuple，一旦被定义则不可被更改，但是可以像数组一下按“下标”访问。定义字典：dic_name =

LULUBAO 0喜欢 / 0评论 2020-07-26

微信小程序订阅消息-写于2020.7.26

亦或是开发环境不受这个限制？前提1：首先要用小程序管理员用户在微信公众平台中开通订阅消息权限。// 用户同意授权的回调函数，此时已经可以给用户发起模板消息了。miniprogram_state 跳转小程序类型。content: ‘是否推送给他/她‘,

sucheng 0喜欢 / 0评论 2020-07-26

妙用CSS变量，让你的CSS变得更心动

「CSS变量」又叫「CSS自定义属性」，为什么会突然提起这个很少人用到的东西呢？因为最近在重构个人官网，不知道为什么突然喜欢用上「CSS变量」，可能其自身隐藏的魅力，让笔者对它刮目相看。谈到为什么会在CSS中使用变量，下面举个栗子，估计大家一看就会明白。看

nicepainkiller 0喜欢 / 0评论 2020-07-24

架构师最常使用的5种架构模式及其适用场景分析

好莱坞电影中有多少情节？一些电影评论家说只有五个。您可以采用几种架构来实现应用程序？目前大多数程序都使用下面提到的五种架构之一。在本文中，我将五种软件架构模式的优缺点以及适合场景提炼出来作为快速参考。你可以在单个系统中使用多个架构模式，它们的组合既是计算机

xuedabao 0喜欢 / 0评论 2020-07-20

2020年面向企业的优秀人工智能平台

多年以来，企业一直在手动处理其运营和分析，从而导致人工成本和文书工作量增加，同时交付的结果也不理想。现代时代旨在通过引入人工智能来改变所有这些情况。企业已经开始在这些智能解决方案上进行投资，不仅可以减少流程花费的时间和精力，还可以对整个流程进行全面改进以增

TensorFlowNews 0喜欢 / 0评论 2020-07-23

机器学习基础

换句话说，我们的模型一定是要经过样本数据对其进行训练，才可以对未知数据进行预测的。可想不是的，如果模型对原先的数据进行预测，由于模型本来就是从该数据中获取的，所以预测的精度几乎会是百分之百。所以想要评估模型的好坏，需要使用一组新数据对模型进行评估。需要从网

卖小孩的咖啡 0喜欢 / 0评论 2020-07-21

Python：函数基础

Python函数：能完成一定的功能，由若干语句组成的语句块、函数名称、参数列表构成，它是组织代码的最小单元。函数名后面必须加冒号；函数名即标识符，命名规范：小写字母，多个单词用_间隔；调用函数，经过一系列的操作，最后要拿到一个明确的结果，则必须要有返回值。

feishicheng 0喜欢 / 0评论 2020-07-21

用于ETL的Python数据转换工具

前几天，我去Reddit询问是否应该将Python用于ETL相关的转换，并且压倒性的回答是"是"。但是，尽管我的Redditor同事热心支持使用Python，但他们建议研究Pandas以外的库-出于对大型数据集Pandas性能的担忧。经

xirongxudlut 0喜欢 / 0评论 2020-07-20

数据结构 & Java中的内存

顺序表，将元素顺序地存放在一块连续的存储区里，元素间的顺序关系由它们的存储顺序自然表示。链表，将元素存放在通过链接构造起来的一系列存储块中。ArrayList 的本质是对数组Object[ ] 的封装，将该数组作为它的一个属性。对 ArrayLis

mingyunxiaohai 0喜欢 / 0评论 2020-07-19

Vue-router前端路由(1)

但是，一个网站这么多页面服务器应该如何处理呢？URL会发送到服务器，服务器会通过正则对该URL进行匹配。并且最后交给一个Controller进行处理。后端只提供API来返回数据，前端通过Ajax来获取数据，并且可以通过JavaScript将数据渲染到页面中

前端小白 0喜欢 / 0评论 2020-07-19

接口测试基础

接口又称API，是一些预先定义的函数，目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力，而又无需访问源码，或理解内部工作机制的细节。RPC只是提出了这样一个问题，有很多种解决方案，比如WebService， REST。Web Servic

gaitiangai 0喜欢 / 0评论 2020-07-19

正则表达式 I

什么是正则表达式？表示匹配0次或1次 {0,1}. # 整数或小数 : \d+\.?# 分组的作用 : \d+?x 表示匹配任意字符任意多次数但是一旦遇到x就停下来。] 所有的内容在字符组中会取消它的特殊意义

jyj00 0喜欢 / 0评论 2020-07-19

参加数学建模大赛的计划

列出问题中涉及到的变量，包括适当的单位。注意不要混淆了变量和常量。检查单位从而保证你的假设有意义。用准确的数学表达式给出问题的目标。选择解决你的问题的一个一般的求解方法。一般地，这一步的成功需要经验、技巧和相对文献有一定的熟悉程度。将第一步中的得到的问题重

willowwgx 0喜欢 / 0评论 2020-07-18

Docker容器常用命令

1 | docker run tomcat创建并运行容器命令，如果docker主机已经下载过tomcat，则该命令会直接创建一个tomcat的容器实例，否则会先去hub端拉取该tomcat镜像，默认是 :latest最新版，然后在运行镜像且生成一个tomc

安之偌素 0喜欢 / 0评论 2020-07-18

SQL注入相关知识整理

哪里存在SQL注入？任何客户端可控，传递到服务器的变量，并且和数据库进行交互，都有可能存在sql注入。文件名必须全路径，SELECT ‘<?php phpinfo(); ?>’ into outfile ‘c:\Windows\tmp\1.ph

世樹 0喜欢 / 0评论 2020-07-17

2020年优秀的Python代码编辑器

集成开发环境允许开发人员用不同的编程语言运行代码，特别地，python IDE实际上是一种IDE，专门让您测试、运行和编辑用python语言编写的代码。当涉及到一个很大的项目时，在IDE上工作对开发人员来说会更简单，并且在一些特定的项目中拥有专门的工具也

longzhiwen 0喜欢 / 0评论 2020-07-15

Redis在Linux上安装步骤

benchmark：性能测试工具，可以在自己电脑上运行，看电脑性能如何。check-aof：修复有问题的AOF文件。redis-server：Redis服务器启动命令。redis-cli：客户端，操作入口。拷贝一份 redi.conf 到其他目录。后台启动

summersy 0喜欢 / 0评论 2020-07-08

维特比算法 Viterbi

一种动态规划算法（动态规划 Dynamic Programming，是运筹学的一个分支，是求解决策过程最优化的过程。

tulensa 0喜欢 / 0评论 2020-07-05

HTML 语义

HTML 并不简单，它是典型的“入门容易，精通困难”的一部分知识。深刻理解 HTML 是成为优秀的前端工程师重要的一步。语义是我们说话表达的意思，多数的语义实际上都是由文字来承载的。现在很多的前端工程师写起代码来，多数都不用复杂的语义标签，只靠 div

行吟阁 0喜欢 / 0评论 2020-07-05

Oracle期末复习

数据库是存储数据的多个物理文件的集合，如控制文件，数据文件，参数文件，日志文件，临时文件等，它是静态的、永久的，只要文件存在它就存在。数据库名就是对数据库的标识。就是由内存空间和工作进程两部分组成。容器数据库是Oracle 12c引入的新特性，允许容器数

流云追风 0喜欢 / 0评论 2020-07-04

用前端姿势玩docker【二】dockerfile定制镜像初体验

书接上文，关于dockerfile指令的api在此处不做赘述，在此只是记录下注意事项： ‘示坑以埋之’。环境变量，在后续RUN中被调用，容器中会被保留。# ENTRYPOINT ["executable", "paraml

VFCSDN 0喜欢 / 0评论 2020-07-04

Shell：结构化语句

本文介绍了Shell常用的结构化语句。数组是若干数据的集合，其中的每一份数据都称为元素。Bash只支持一维数组，初始化时不需要定义数组大小，理论上可以存放无限量的数据。与大部分编程语言类似，数组元素的下标由0开始。Shell数组用括号来表示，元素用&quo

赵家小少爷 0喜欢 / 0评论 2020-07-04

springcloud-消息总线Bus(九)

SpringCloud Bus配合Config使用可以实现配置的动态刷新.Bus是用来将分布式系统的节点与轻量级消息系统链接起来的框架, 它整合了Java的事件处理机制和消息中间件的功能.Bus能管理和传播分布式系统间的消息, 就像一个分布式执行器, 可用

OnMyHeart 0喜欢 / 0评论 2020-07-04