posts - 6,comments - 1,trackbacks - 0

摘要:一、Zookeeper工作机制 分布式和集中式系统相比,有很多优势,比如更强的计算能力,存储能力,避免单点故障等问题。但是由于在分布式部署的方式遇到网络故障等问题的时候怎么保证各个节点数据的一致性和可用性是比较关键的问题。 那么,对于分布式集群来说,我们需要一个能够在各个服务和节点之间进行协调和服务 阅读全文
posted @ 2019-10-09 19:42 kocdaniel 阅读 (282) 评论 (1) 编辑
摘要:MapReduce详细工作流程之Map阶段 如上图所示 1. 首先有一个200M的待处理文件 2. 切片:在客户端提交之前,根据参数配置,进行任务规划,将文件按128M每块进行切片 3. 提交:提交可以提交到本地工作环境或者Yarn工作环境,本地只需要提交切片信息和xml配置文件,Yarn环境还需要 阅读全文
posted @ 2019-10-08 20:57 kocdaniel 阅读 (119) 评论 (0) 编辑
摘要:hadoop2.7.2 MapReduce Job提交源码及切片源码分析 1. 首先从 函数进入 2. 进入 方法 3. 进入 方法 MapReduce作业提交时连接集群通过Job的Connect方法实现,它实际上是构造集群Cluster实例cluster cluster是连接MapReduce集群 阅读全文
posted @ 2019-09-29 18:37 kocdaniel 阅读 (32) 评论 (0) 编辑
摘要:DataNode工作机制 1. 一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。 2. DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上报所有的块信息。 3. D 阅读全文
posted @ 2019-09-28 21:08 kocdaniel 阅读 (40) 评论 (0) 编辑
摘要:NN与2NN工作机制 思考:NameNode中的元数据是存储在哪里的? 假设存储在NameNode节点的硬盘中,因为经常需要随机访问和响应客户请求,必然效率太低,所以是存储在内存中的 但是,如果存储在内存中,一旦断电,元数据丢失,整个集群便无法工作,因此会在硬盘中产生备份元数据的Fsimage 但是 阅读全文
posted @ 2019-09-27 20:55 kocdaniel 阅读 (71) 评论 (0) 编辑
摘要:产生背景及定义 HDFS:分布式文件系统,用于存储文件,主要特点在于其分布式,即有很多服务器联合起来实现其功能,集群中的服务器各有各的角色 随着数据量越来越大,一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是管理和维护极不方便,于是迫切 需要一种系统来管理多台机器上的文件 阅读全文
posted @ 2019-09-26 10:36 kocdaniel 阅读 (60) 评论 (0) 编辑
摘要:集群环境: 1. centOs6.8:hadoop102,hadoop103,hadoop104 2. jdk版本:jdk1.8.0_144 3. hadoop版本:Hadoop 2.7.2 首先准备三台客户机(hadoop102,hadoop103,hadoop104),关闭防火墙,修改为静态ip 阅读全文
posted @ 2019-09-25 20:38 kocdaniel 阅读 (15) 评论 (0) 编辑