Ever tried , Ever failed !
No matter ,Try again ! Fail again , Fail better !

HDFS 核心设计(二)

HDFS采用一种称为机架感知的策略来改进数据的可靠性、可用性和网络带宽的利用率,本篇就详细讲解这种策略——副本存放策略

HDFS副本存放策略

一、作用

数据分块存储和副本的存放,是保证可靠性和高性能的关键。

二、方法

1.将每个文件的数据进行分块存储

2.每一个数据块保存多个副本

3.数据块副本分布在不同的机器节点

三、副本存放策略基本思想

1.最简单但不是最优的方式 : 将副本放置在不同的机架上

  • 防止了机架故障时数据的丢失,保证数据可靠性
  • 读取数据时充分利用不同机架的带宽
  • 均匀地将副本分散在集群中,简单地实现了组件故障时的负载均衡
  • 但是增加了写成本,因为写的时候需要跨越多个机架传输文件块

2.最优方式 : 数据可靠性、写入带宽、读取带宽

副本系数默认为3,保证每个 node 不超过一个副本

(1)第一个 block 副本存放在 client 所在的 node 中

(2)第二个副本放置在与第一个 node 不同机架的 node 中

(3)第三个副本放在与第一个副本同机架不同的 node 中

(4)其它副本随机存放

保证每个 node 不超过一个副本

四、修改副本数的方法

1.修改集群文件 hdfs-site.xml

<property>
    <name>dfs.replication</name>
    <value>2</value>
</property>

2.命令设置

hadoop fs  -setrep  <-R>  副本数  文件或目录

实例:

hadoop fs  -setrep  -R  2  /    

-R 递归设置

赞(1) 打赏
未经允许不得转载:Mr. Almost的个人博客 » HDFS 核心设计(二)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

谢谢老板~

支付宝扫一扫打赏

微信扫一扫打赏