HDFS 重要机制之 checkpoint

news/2024/10/22 14:19:49

核心概念

hdfs checkpoint 机制对于 namenode 元数据的保护至关重要, 是否正常完成检查点是评估 hdfs 集群健康度和风险的重要指标

  • editslog : 对 hdfs 操作的事务记录,类似于 wal ,edit log文件以 edits_ 开头,后面跟一个txid范围段,并且多个edit log之间首尾相连,正在使用的 edit log 名字为 edits_inprogress_txid(dfs.namenode.edits.dir)
  • fsimage:文件系统的元数据,snn会定时合并将内存中的元数据落盘生成新的fsimage,默认会保存两个fsimage文件,文件格式为fsimage_txid(dfs.namenode.name.dir)
  • seen_txid:记录了最后一次 checkpoint 或者 edit 回滚(将 edits_inprogress_xxx 文件回滚成一个新的 Edits 文件)之后的 transaction ID。主要用来检查 NameNode 启动过程中 Edits 文件是否有丢失的情况

Pasted image 20221207103015.png

检查点将从旧的 fsimage 和编辑日志进行合并,创建一个新的 fsimage

Pasted image 20221128143125.png

checkpoint 触发由三个参数控制

dfs.namenode.checkpoint.period
dfs.namenode.checkpoint.txns
dfs.namenode.checkpoint.check.period

HA 集群的 checkpoint 过程

Pasted image 20221128160510.png

这里 standby namenode 称为 SBNN,active namenode 称为 ANN

  1. SBNN 查看是否满足创建检查点的条件(距离上次 checkpoint 的时间间隔大于等于 dfs.namenode.checkpoint.period
    edits log 中的事务条数达到 dfs.namenode.checkpoint.txns 限制)
  2. SBNN 将内存中当前的状态保存成一个新的文件,命名为fsimage.ckpt_txid。其中 txid 是最后一个 edit log 中的最后一条事务的 ID(transaction ID,不包括 inprogress)。然后为该 fsimage 文件创建一个MD5 文件,并将 fsimage 文件重命名为 fsimage_txid。
  3. SBNN 向 ANN 发送一条 HTTP GET 请求。请求中包含了 SBNN 的域名,端口以及新 fsimage 的 txid。
    ANN 收到请求后,用获取到的信息反过来向 SBNN 再发送一条 HTTP GET 请求,获取新的 fsimage 文件。这个新的 fsimage 文件传输到 ANN 上后,也是先命名为 fsimage.ckpt_txid,并为它创建一个 MD5 文件。然后再改名为 fsimage_txid,checkpoint过程完成。

 

生产实践

对于大规模的集群,如果长期未成功完成 checkpoint ,那么会积累非常多的 editlog 文件.重启 namenode 的时候,必须要回放 editlog ,以使内存中的目录树恢复到最新状态.回放 editlog 必然是逐个文件来回放的,此时如果积累了大量的 editlog 文件,那么这个过程会长达三个小时以上.增大 namenode 的内存可以适当加快这个过程.

  • edit 文件堆积处理

如果长期 edit 日志文件有堆积,可以进入安全模式后,手动运行 saveNamespace 命令来进行一次合并. 但是线上环境中,不能进入安全模式,这个时候可以通过重启 standynamenode 来触发一次 checkpoint

遇到过一次线上问题,由于 ann 锁的问题导致 sbnn 无法 put fsimage 到 ann,重启 sbnn 也无法完成最终完成 checkpoint ,这个时候可以等 sbnn namespace 正常启动后,然后进行一次主备切换,使之前锁住的 ann 变成了 sbnn,然后重启这个节点,此时就能够完成 checkpoint 了,堆积的 edit 文件也能够被清理了

  • 手动 checkpoint 方法

hdfs dfsadmin -fs 10.0.0.26:4007 -safemode enter
hdfs dfsadmin -fs 10.0.0.26:4007 -saveNamespace
hdfs dfsadmin -fs 10.0.0.26:4007 -safemode leave
hdfs dfsadmin -safemode forceExit //强制退出安全模式

  • 监控 checkpoint

有两个重要指标:

  1. TransactionsSinceLastCheckpoint 表示距离上次checkpoint的事务数,建议超过3000000 告警
  2. LastCheckpointTime 上次checkpoint的时间,建议距离当前时间超过12小时告警
  • 谨慎重启 NameNode

hdfs 在重启流程需要加载 edit logs,如果 edit logs 遗留有没被注意到的错误, hdfs 将会无法启动完成,导致生产事故

比较常见的原因是:
误删editslog、JournalNode节点有断电、数据目录磁盘占满、网络持续异常等

常见报错如下:

java.io.IOException: Gap in transactions. Expected to be able to read up until at least txid 813248390 but unable to find any edit logs containing txid 363417469

可以动态开启DEBUG 日志级别定位报错位置

解决办法:

  1. 查看其它的JournalNode的数据目录或NameNode数据目录中,有没有连续的该序号相关的连续的edits文件。如果可以找到,复制一个连续的片段到该JournalNode
  2. 使用namenode recovery 模式 跳过 edits 错误
  3. 使用 edits viewer 修复错误 edit 文件
  4. 从 active nn 恢复 standy nn
  5. 以上如不能解决,只能从fsimage恢复namenode 来上线 namenode

高频故障 issue:
https://issues.apache.org/jira/browse/HDFS-15175

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.ryyt.cn/news/74633.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈,一经查实,立即删除!

相关文章

怎么申请电子邮箱

申请电子邮箱的步骤:1.确定用户类型,选择典型代表;2.设定申请目标,明确申请流程;3.选择申请方式,确定申请渠道;4.安排申请流程,按步骤进行;5.研究用户需求,满足期望。电子邮箱申请的第一步是确定用户类型。1.确定用户类型,选择典型代表电子邮箱申请的第一步是确定用…

医疗健康行业获客难?来看这位区域总经理的业绩增长破局之道

在医疗健康行业摸爬滚打多年的老张是一家知名医疗器械公司的区域总经理。 医疗健康行业的客户生态复杂多样,主要分为终端医院与渠道两大核心板块。对于终端医院,老张采取的是稳健而深入的列名经营策略,通过持续不断的学术交流、积极参与行业展会以及国家、省市等各级别的招投…

Taro 鸿蒙技术内幕系列(一):如何将 React 代码跑在 ArkUI 上

作者:京东零售 朱鸣辉基于 Taro 打造的京东鸿蒙 APP 已跟随鸿蒙 Next 系统公测,本系列文章将深入解析 Taro 如何实现使用 React 开发高性能鸿蒙应用的技术内幕 背景 随着鸿蒙操作系统的快速发展,开发者们期待将现有跨平台应用迁移到鸿蒙平台。Taro作为一个流行的跨平台开发框…

设置弹性域缺省值

如何设置辅助属性默认值,并在单据上直接带出默认值?

在网络图中什么是ES、EF、LS、LF、TF、FF

在项目管理中的网络图中,ES(Early Start)、EF(Early Finish)、LS(Late Start)、LF(Late Finish)、TF(Total Float)和FF(Free Float)是关键路径方法(Critical Path Method,CPM)中用于描述活动和事件时间的重要概念。1. 在网络图中ES、EF、LS、LF、TF、FF的基本介…

Dify - 使用小记

Dify - 使用小记 记录使用 Dify 创建小流程

k8s 中的 Gateway API 的背景和简介【k8s 系列之四】

本文通过介绍 Gateway API 的背景和各种类型的资源,简单介绍了 Gateway API 的配置和请求流,供参考。〇、Gateway API 的背景 第一阶段:Service 初始的 Kubernetes 内部服务向外暴露,使用的是自身的 LoadBlancer 和 NodePort 类型的 Service。 在集群规模逐渐扩大的时候,这…

LaMI-DETR:基于GPT丰富优化的开放词汇目标检测 | ECCV24

现有的方法通过利用视觉-语言模型(VLMs)(如CLIP)强大的开放词汇识别能力来增强开放词汇目标检测,然而出现了两个主要挑战:(1)概念表示不足,CLIP文本空间中的类别名称缺乏文本和视觉知识。(2)对基础类别的过拟合倾向,在从VLMs到检测器的转移过程中,开放词汇知识偏向…