Hadoop HDFS 文件块大小
HDFS中的文件在物理上是分块存储(Block),块的大小可以通过配置参数(dfs.blocksiz)来规定,
默认大小在Hadoop2.x/3.x版本中是128M,1.x版本中是64M。
1)集群中的block
2)如果寻址时间约为10ms,即查找到目标block的时间为 blockd 10ms。
3)寻址时间为传输时间的1%时,则为最佳状态。(专家) 因此,传输时间=10ms/0.01=1000ms=1s,
4)而目前磁盘的传输速率普遍为100MB/s。
5 block大小=1s*100MB/s=100MB
思考∶为什么块的大小不能设置太小,也不能设置太大 ? (
1)HDFS的块设置太小,会增加寻址时间,程序一直在找块的开始位置;
(2)如果块设置的太大,从磁盘传输数据的时间会明显大于定位这个块开始位置所需的时间。
导致程序在处理这块数据时,会非常慢。
总结∶ HDFS块的大小设置主要取决于磁盘传输速率。