HDFS均衡操作快速参考

Posted on Wed 01 May 2024 in 技术 • Tagged with HDFS, 均衡, 大数据, 快速参考

快速判断是否需要均衡

# 计算当前均衡度(标准差)
hdfs dfsadmin -report | python3 -c "
import sys, re
used_percents = []
for line in sys.stdin:
    if 'DFS Used%:' in line:
        percent = float(re.search(r'(\d+\.?\d*)%', line).group(1))
        used_percents.append(percent)
if used_percents:
    avg = sum(used_percents) / len(used_percents)
    variance = sum((x - avg) ** 2 for x in used_percents) / len(used_percents)
    std_dev = variance ** 0.5
    print(f'标准差: {std_dev:.2f}%')
    if std_dev > 15:
        print('⚠️  需要立即均衡')
    elif std_dev > 10:
        print('⚠️  建议进行均衡')
    else:
        print('✅ 集群已均衡')
"

常用均衡命令

基本均衡

# 标准均衡(推荐)
nohup hdfs balancer -threshold 10 -policy datanode > /tmp/balancer.log 2>&1 &

# 严格均衡
nohup hdfs balancer -threshold 5 -policy datanode > /tmp/balancer.log 2>&1 &

# 宽松均衡
nohup hdfs balancer -threshold …

Continue reading

HDFS均衡操作完整指南

Posted on Wed 01 May 2024 in 技术 • Tagged with HDFS, 均衡, 大数据

目录

概述

HDFS均衡器(Balancer)是Hadoop分布式文件系统中的一个重要工具,用于重新分布数据块,确保集群中所有DataNode的存储使用率保持相对均衡。当集群中添加新节点或删除节点后,数据分布可能会变得不均匀,这时就需要使用均衡器来重新分布数据。

什么时候需要HDFS均衡

1. 集群扩容后

  • 新增DataNode节点:新节点加入集群后,存储使用率为0%,而原有节点可能已经接近满载
  • 添加存储设备:为现 …

Continue reading