Table of Contents
背景
算法Hadoop集群出现过一次算法同学误删模型的情况,好在该同学通知及时挽救了大部分模型,但是集群还是丢失了一部分样本数据,NameNode的Web UI上一直存在丢失Block块的提示:There are 10 missing blocks. The following files may be corrupted:
由于时间原因当时没有删除Block丢失提示,其他同学看到有98668个Block丢失提示后经常会问是不是丢数据了,所以决定抽空处理下。
清理HDFS块丢失提示
为了防止某台DataNode磁盘掉盘或者DataNode恰好赶在清理之前异常导致个别块副本丢失,建议多执行几遍数据块检查命令:
hdfs fsck /
执行完毕后还是会提示集群状态“Status: CORRUPT”状态,为了清除提示需要执行丢失块删除命令,如果就几个块丢失可以一个一个删除:
hdfs fsck /data/model/xxxxx/xxxxxxx/xxxxxxxx/unfiltered/20220717/part-00039 -delete
如果需要大批量删除丢失的块文件需要执行如下命令:
hdfs fsck -delete
执行完毕后登录Web UI查看,可以看到已经没有Block Missing提示了:
转载请注明:麦童博客 » 清除NameNode Web UI HDFS块丢失提示