EDAC工具助力检测服务器内存故障

news/2024/9/28 17:27:26

介绍EDAC工具前我们先知道什么是EDAC

EDAC(Error Detection And Correction 错误检测与纠正),是Linux系统的错误检测和纠正的框架,它的目的是在linux系统运行过程中,当错误发生时能够发现并且报告出硬件错误。

内存有两种错误类型分别是CE和UE,CE 是 Correctable Error 的简称, UE是Uncorrectable Error的简称,CE即可恢复的错误,暂不影响系统的正常运行。可以在找时机停机换掉。UE为不可恢复的内存错误,通常会导致宕机。

那么EDAC是如何控制和报告设备故障的呢?它又是如何将故障定位以及记录到对应的内存条上的呢?

  • Linux 是通过sysfs文件系统来展示内核设备的层次关系,EDAC则通过它来控制和报告设备故障。EDAC是通过抽象出来的内存控制器模型,将故障定位到对应的内存条上,这主要也是与内存在系统中的排列结构相关。CPU对应的每个MC(memory controller)设备控制着一组DIMM内存模块,这些模块通以片选行(Chip-Select Row,csrowX)和通道(Channel,chX)的方式排布,在系统中可以有多个csrow和多个通道。

故障确认及定位故障内存槽位

grep "[0-9]" /sys/devices/system/edac/mc/mc*/csrow*/ch*_ce_count
  • count:不为0的行即代表存在内存错误。
  • mc:第几个CPU。
  • csrow:内存通道。
  • ch*:通道内的第几根内存。

在/sys/devices/system/edac/mc/mc0/csrow4/下面还要如下几个文件,也可以助力你查询问题

使用edac工具来检测服务器内存故障

在linux中提供了一个edac-utils 内存纠错诊断工具,也可以用来检查服务器内存潜在的故障。

1.安装 edac-utils 工具

yum install -y libsysfs edac-utils

2.执行检测命令,可查看纠错提示如下

edac-util -v
mc0: csrow0: CPU_SrcID#0_Ha#0_Chan#0_DIMM#0: A1
mc0: csrow0: CPU_SrcID#0_Ha#0_Chan#1_DIMM#0: A2
mc0: csrow0: CPU_SrcID#0_Ha#0_Chan#2_DIMM#0: A3
mc0: csrow0: CPU_SrcID#0_Ha#0_Chan#3_DIMM#0: A4
mc0: csrow1: CPU_SrcID#0_Ha#0_Chan#0_DIMM#1: A5
mc0: csrow1: CPU_SrcID#0_Ha#0_Chan#1_DIMM#1: A6
mc0: csrow1: CPU_SrcID#0_Ha#0_Chan#2_DIMM#1: A7
mc0: csrow1: CPU_SrcID#0_Ha#0_Chan#3_DIMM#1: A8
mc0: csrow2: CPU_SrcID#0_Ha#0_Chan#0_DIMM#2: A9
mc0: csrow2: CPU_SrcID#0_Ha#0_Chan#1_DIMM#2: A10
mc0: csrow2: CPU_SrcID#0_Ha#0_Chan#2_DIMM#2: A11
mc0: csrow2: CPU_SrcID#0_Ha#0_Chan#3_DIMM#2: A12

其中

  • mc XX 表示 表示内存控制器0;
  • CPU_Src_ID#0 表示源CPU0;
  • Channel#0 表示通道0;
  • DIMM#0 标示内存槽0;
  • Corrected Errors 代表已经纠错的次数

当出现纠错计数时会在对应内存后面加Corrected Errors A1的字样

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.ryyt.cn/news/30215.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈,一经查实,立即删除!

相关文章

达梦数据库实现一条sql判断数据是否存在,如存在则修改,不存在,则新增

# 达梦数据库实现一条sql判断数据是否存在,如存在则修改,不存在,则新增 MERGE INTOX.TABLE1 T1USING (SELECT3 as id, 名字 as COLUMN_1, 0 as COLUMN_2FROMDUAL ) T2 ON(T1.id = T2.id)WHEN MATCHED THEN UPDATE SET T1.COLUMN_1 = T2.COLUMN_1,T1.COLUMN_2 = T2.COLUMN_2W…

直接转换windows系统版本

有时候我们可能需要对windows系统的版本进行转换(比如windows家庭版没有Hyper-V,无法安装Linux子系统) 这个时候我们可能需要将它转换为专业版或者其它版本 其实对于windows而言,在你安装系统的那一刻,各个版本之间就可以直接切换方法一: 以管理员身份运行cmd或者Windows…

linux环境静态编译openssl、curl

编译openssl openssl下载地址:https://www.openssl.org/source/index.html tar zxvf openssl-3.3.0.tar.gzcd openssl-3.3.0/./config -fPIC no-shared --prefix=/root/openssl_install --openssldir=/root/openssl_installmakemake install编译curl curl下载地址:https://cu…

1.1数据结构基本概念

1.1数据结构基本概念 什么是数据? 数据是信息的载体,是描述客观事务属性的数、字符及所有能输入到计算机中并被计算机程序识别和处理的符号的集合(二进制0和1)。数据事计算机程序加工的原料。 数据元素、数据项 数据元素是数据的基本单位,通常作为一个整体进行考虑和处理。…

枚举类的相关使用

Java 枚举类 枚举类的含义 枚举类型是Java 5中新增特性的一部分,它是一种特殊的数据类型,之所以特殊是因为它既是一种类(class)类型却又比类类型多了些特殊的约束,但是这些约束的存在也造就了枚举类型的简洁性、安全性以及便捷性。枚举类的常见使用场景1、定义业务相同的一类…

DSP学习笔记之SPI

DSP学习笔记之SPI SPI介绍 SPI 的全称是"Serial Peripheral Interface",意为串行外围接口。SPI 是一种高速的,全双工,同步的通信总线,SPI采用主从方式工作,一般有一个主设备和一个或多个从设备; SPI需要至少4根线,分别是MISO(主设备输入从设备输出)、MOSI(…

python用魔塔大模型生成国画

模型地址 https://www.modelscope.cn/models/langboat/Guohua-Diffusion/summary 新建一个main.py from modelscope.utils.constant import Tasks from modelscope.pipelines import pipeline import cv2pipe = pipeline(task=Tasks.text_to_image_synthesis, model=langboat/G…

振弦采集仪在岩土工程监测中的数据处理与结果展示

振弦采集仪在岩土工程监测中的数据处理与结果展示 河北稳控科技振弦采集仪是岩土工程监测中常用的一种设备,用于采集地下土体振动信号,通过对数据的处理与结果的展示,可以有效地评估土体的动力特性和工程的稳定性。 振弦采集仪通过安装在土体中的振弦传感器,可以对土体的振…