hadoop调优(二)

1 HDFS故障排除

NameNode进程挂了并且存储数据丢失了，如何恢复NameNode？

如果NameNode进程挂掉并且数据丢失了，可以利用Secondary NameNode来恢复NameNode。Secondary NameNode主要用于备份NameNode的编辑日志和文件系统镜像，以便在NameNode失败时进行快速恢复。

恢复NameNode的步骤：

停止所有Hadoop进程
启动Secondary NameNode
从Secondary NameNode备份的编辑日志和文件系统镜像中恢复NameNode元数据。可以使用以下命令来执行此操作：
```
hdfs namenode -recover
```
该命令将自动查找Secondary NameNode备份的编辑日志和文件系统镜像，并将其应用于NameNode，从而恢复元数据。
如果数据丢失，需要重新将数据复制到Hadoop集群中。
启动Hadoop进程

Secondary NameNode仅备份NameNode的编辑日志和文件系统镜像，并不是实时同步NameNode的状态。因此，在使用Secondary NameNode恢复NameNode时，可能会丢失一些最新的数据更改。

在安全模式下，HDFS不允许客户端执行写操作，但可以读取数据。

NameNode会在以下情况下进入安全模式：

第一次启动：当NameNode第一次启动时，它会进入安全模式。这是因为在此时，它需要读取所有数据节点的信息并建立与它们的通信，以确定整个HDFS的状态。进入安全模式可以防止客户端对HDFS进行写操作，直到NameNode成功启动并处理所有坏块。
数据节点数量过少：如果数据节点数量少于NameNode的阈值（默认情况下为数据节点数量的95%），则NameNode会进入安全模式。这种情况可能发生在添加新数据节点之前，或者因为节点故障而导致节点数减少。
数据节点坏块过多：如果有太多坏块（默认情况下是1%的数据块），则NameNode会进入安全模式。在这种情况下，HDFS会自动尝试修复坏块，直到坏块数量降至可接受水平。

使用命令行工具hdfs fsck来检查文件系统，并查看坏块报告。可以使用坏块报告确定哪些块需要修复。
使用命令行工具 hdfs dfsadmin -deleteBlock 命令手动删除坏块。此命令会从NameNode元数据中删除坏块的条目，并在DataNode上删除对应的数据块。然后，HDFS将自动复制其他副本到相应的DataNode上，以保证数据的完整性。
如果坏块的副本数量不足，可以使用命令行工具 hdfs dfsadmin -fsck 命令手动修复坏块。此命令会在DataNode上查找坏块的副本，并尝试复制它们到缺失的DataNode上。可以使用-replace参数来指定要替换的DataNode。
如果DataNode上的存储空间不足，可以使用命令行工具 hdfs balancer 来移动坏块到其他DataNode上的空闲存储空间。这将为修复坏块提供足够的空间，并减少未来发生类似问题的可能性。

当某个节点的磁盘出现问题，可能会导致整个Hadoop集群的性能下降。因此，需要监控Hadoop集群中的磁盘

监控hadoop慢磁盘的方法

Hadoop自带的磁盘健康检查工具：Hadoop提供了一个磁盘健康检查工具，可以检查HDFS上的所有数据块是否可用，以及本地磁盘是否有故障。可以通过运行以下命令来运行此工具：
```
hdfs fsck / -files -blocks -locations
```
进行磁盘性能测试，可以使用FIO执行测试。测试会提供提供磁盘IOPS和吞吐量等性能指标，以便识别哪些磁盘出现性能问题

解决小文件问题的方法

将小文件存储在单独的目录中：将小文件存储在单独的目录中可以避免名称节点的负载过重。这样做可以将小文件分布在多个目录中，从而使名称节点可以更好地管理这些小文件。
使用HBase存储小文件：HBase是一种分布式的非关系型数据库，可以用来存储小文件。使用HBase存储小文件可以提高存储空间的利用率，因为它不会像HDFS那样使用大量的元数据来管理小文件。
压缩小文件：对小文件进行压缩可以减少磁盘空间的占用，从而提高存储空间的利用率。Hadoop提供了多种压缩小文件的方法，例如使用Gzip、Snappy、LZO等。
使用HDFS的归档工具：HAR可以将多个小文件归档成一个HAR文件。这样做可以降低名称节点的负载，同时可以提高存储空间的利用率。

可能导致MapReduce数据倾斜的原因：

在MapReduce中，数据分发是基于key进行的，如果某些key的数据量很大，而其他key的数据量很小，那么就会出现数据倾斜。
Mapper问题：如果Mapper函数的实现不合理，也会导致数据倾斜。比如，某些Mapper函数在处理某些键时会产生非常大的中间数据集，而其他键则产生较小的中间数据集。
任务超时或失败：如果某个Reduce节点的任务超时或失败，那么这个节点上的任务会重新启动。这会导致原本应该被其他节点处理的数据被分配到这个节点，导致数据倾斜。

缓解MapReduce数据倾斜的方法：