Paper Reading: Deep balanced cascade forest: An novel fault diagnosis method for data imbalance

news/2024/9/30 18:43:34

目录
  • 研究动机
  • 文章贡献
  • 本文方法
    • 混合采样
    • 新型平衡森林
    • DBCF 整体流程
  • 实验结果
    • 数据集和实验设置
    • 对比故障诊断方法
    • 对比基于决策树的方法
    • 对比不平衡分类方法
    • 模型效率的比较
  • 优点和创新点

Paper Reading 是从个人角度进行的一些总结分享,受到个人关注点的侧重和实力所限,可能有理解不到位的地方。具体的细节还需要以原文的内容为准,博客中的图表若未另外说明则均来自原文。

论文概况 详细
标题 《Deep balanced cascade forest: An novel fault diagnosis method for data imbalance》
作者 Hao Chen, Chaoshun Li, Wenxian Yang, Jie Liu, Xueli An, Yujie Zhao
发表期刊 ISA Transactions
发表年份 2021
期刊等级 中科院 SCI 期刊分区(2023年12月最新升级版) 2 区
论文代码 文中未公开

作者单位:

  1. School of Hydropower and Information Engineering, Huazhong University of Science and Technology, Wuhan, China
  2. School of Marine Science and Technology, Newcastle University, Newcastle upon Tyne, United Kingdom
  3. China Institute of Water Resources and Hydropower Research, Beijing, China

研究动机

旋转机械在工业中起着极其重要的作用,一旦出现故障会有故障时间长、维修成本高的问题。因此及早发现并正确诊断其故障,有利于其维护和安全使用。由于旋转机器在其大部分使用寿命中都是健康的,只有一小部分的状态监测数据是在机器故障状态下采集的,导致故障检测的数据存在不平衡问题。与不平衡学习相关的方法有数据级方法和算法级方法两类,其中数据级方法能在一定程度上改善不平衡,但也存在一些难以避免的缺陷。算法级方法是为特定的数据和问题而设计的,核心参数的设置是影响方法有效性的关键,其泛化能力弱且人工工作量大。一种新的基于决策树集成方法的深度学习方法 gcForest 显示了不平衡分类的潜力,因此利用 gcForest 开发一个新的不平衡学习框架是可能的。

文章贡献

本文基于级联森林提出了一种用于不平衡故障检测数据集的模型 DBCF,该模型设计了优化的级联随机森林,从数据层面和算法层面改进不平衡学习。首先提出了一种新的多通道级联旋转机械故障诊断框架,该框架将数据级方法和算法级方法相结合。然后提出了一种混合采样方法,通过生成新数据和丢弃类分布边缘的样本实现,为每个梯级森林通道提供平衡的数据集。最后提出了一种基于数据比例统计计算的新型平衡信息熵,并使用该指标设计了一种新型平衡森林。通过在平衡数据集上的对比实验,结果验证了 DBCF 在处理不平衡故障诊断问题上更加稳定和有效。

本文方法

本文提出的 DBCF 方法结构如下图所示,主要是通过混合采样的三个步骤来处理不平衡数据:计算接受率、生成新样本和丢弃样本。采样结果对应每个通道的输入,每个通道对应一个级联的平衡森林,最后对多个通道的输出进行融合得到预测结果。

混合采样

本文基于重要性抽样和拒绝抽样的思想,提出了一种混合采样方法来缓解数据的不平衡。首先使用样本和近邻的样本的距离定义一个样本的接收率,接收率用于刻画一个样本能在多大程度上反映某个类别的特征。接收率的公式如下,其中 ri 为样本 xi 的接收率,d(xi,xi) 为 xi 与 xj 之间的欧氏距离,n 定义为离 xi 最近的 n 个样本中与 xi 属于同一类的样本个数。

上采样过程在同一少数类的两个样本之间产生一个新样本,它们之间的距离由两个样本的接受率决定。公式如下所示,其中 x' 为生成的数据,xi 和 xj 为随机选取的少数类样本,ri 和 rj 为 xi 和 xj 的接受率。

然后生成一系列平衡样本集,并重新计算所有数据的接收率作为样本重要性。由于生成的平衡数据集分布边界模糊,因此使用下采样使边界清晰。下采样通过根据概率丢弃样本来实现,丢弃的概率等于重要性的倒数。混合采样流程如下图所示,在 DBCF 中需要执行 C 次混合采样,为 C 个通道提供数据集。

新型平衡森林

数据分布的不平衡会干扰决策树的特征选择,也会影响信息熵的计算。DBCF 使用的基本分类器是一种新型平衡森林,它采用了一种改进的信息熵——平衡信息熵。平衡信息熵的公式如下,其中 |y| 为当前分支的类数,|Y| 为总类数,xk 为集合 D 中属于 k 类的样本数,Xk 为属于 k 类的样本数。

BF 树采用信息增益率增长树的结构,如下公式所示。其中 a 为特征产生分割的阈值,V 为分割分支的个数,|DV| 为分支 V 的样本个数,本文的模型中设置 V=2。

DBCF 整体流程

DBCF 整体的伪代码如下所示,主要包括混合采样和多通道级联森林两个模块。混合采样用于为多通道级联森林模块的每个通道生成平衡训练数据,每个通道的训练集将被分成生长集和估计集。级联在生长集的训练过程中不断增长,直到在估计集上的性能没有提高。

实验结果

数据集和实验设置

本文的数据集来源于 CWRU 电气工程实验室的公共数据集,以及 MFS 在作者所在实验室采集的数据。总共包括有 9 个数据集,基本信息如下表所示,评价指标使用 G-mean 和 AUC。

对比故障诊断方法

此处和一些故障诊断方法进行比较,人工神经网络采用 BP 算法进行训练,ELM 方法由小波主动函数构成,SMOTE-SAE 方法是将过采样方法 SMOTE 与堆叠自编码器 SAE 相结合,算法的设置如下表所示。

实验结果如下表所示,DBCF 在这些数据集上的评价指标优于其他三种方法。

对比基于决策树的方法

此处和随机森林、gcForest 进行比较,DBCF 和 gcForest 的最大层数设置为 5,树数设置为 100,随机森林的树数设置为 500。实验结果如下表所示,可见 DBCF 对不平衡数据的处理效果较好。

对比不平衡分类方法

此处和一些不平衡学习的方法进行对比,包括重采样方法 WMODA 和 IMH、采用加权 softmax 损失来处理不平衡分类问题的网络模型 DNCNN、半监督和无监督方法 DFCM-MC 和 SMLCI、基于生成对抗网络的方法 GAN-CNN。实验结果如下表所示,可见在类别数量较多、IR 较高的情况下,DBCF 优于这些现有的方法。

模型效率的比较

模型的运行时间如下表所示,可见 DBCF 在训练效率上没有优势,但是与人工神经网络需要根据不同的数据调整参数相比,DBCF 具有可靠稳定的性能。

优点和创新点

个人认为,本文有如下一些优点和创新点可供参考学习:

  1. 针对故障诊断问题的不平衡的情况,本文提出了一种混合采样方法,先生成一些合成样本,然后通过欠采样来得到更明确的决策边界;
  2. 在过采样的设置方面,本文通过定义一种名为接收率的指标来量化少数类样本的重要性,使合成样本的构造更为可靠;
  3. 本文通过改进信息熵的方式,将信息增益率引导的森林推广到不平衡学习上。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.ryyt.cn/news/66599.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈,一经查实,立即删除!

相关文章

模拟赛

补题发现自己还有好多题没改/总结,所以弄了这么个东西; 空着的就是还没改完或者是没来得及写题解的。 由于目前还在不断地打新的模拟赛,所以大概会从两头向中心更新( 最新:[35] csp-s模拟6 [0] CSP提高组模拟1 A 最短路 原题:P2966 Cow Toll Paths G \(n \le 300\),考虑…

AtCoder Beginner Contest 371(ABCDE)

A 个人直接硬解,讨论情况也并不复杂 代码: #include<bits/stdc++.h> #define int long long using namespace std; const int N=1e6+10; void solve() {char a, b, c;cin >> a >> b >> c;if (a == <) {if (c == <) {cout << "B&quo…

python 敏感词识别处理

定义词库 1、敏感词库(black_word.txt) 2、jeiba 分词库(jieba_db_file.txt) (我这简单的就用文本来记录了,可以将这些词库都通过数据库来存储,对企业来说通过可视化页面去增删改可能会更方便运营处理)代码示例 import os import jiebablack_word_list = list()def load_word…

刷题系统重构--添加vip功能

c端系统往往都具有vip功能作为主要盈利点,那咱们的刷题微服务系统肯定也该有,但是系统设计的时候就没有vip系统,今天构思了一下把原有代码重构了一下, 首先,根据原料的题目表建一张vip题目表,可以用来只存储vip题目,或者01区分vip题目,重构了一下新增题目,加了一项添加…

Windows 中的硬链接、目录联接(软链接)、符号链接、快捷方式

在Linux文件系统中经常提及硬链接(Hard Link)和符号链接(Symbolic Link),Windows中也可以创建链接,但由于丰富的图形界面操作,很少提及链接。Windows 的 NTFS 文件系统支持三种链接:硬链接(Hard Link)、符号链接(Symbolic Link)和目录链接(junction point),此外还有一个大…

ehviewer绿色版1.9.5.2最新2024ios苹果安卓

随着科技的不断发展,手机已经成为我们生活中不可或缺的一部分。在这个数字化时代,人们对于娱乐方式的需求也在逐渐改变。其中,漫画作为一种受欢迎的阅读形式,已经从传统的纸质书籍转变为数字版。而今天,我要为大家介绍的这款软件——ehviewer绿色版1.9.5.2,正是为了满足广…

建筑中的文化表达与地方特色:演绎地域之魂

在浩瀚的城市风貌中,每一座建筑都是文化的载体,无声地讲述着地域的故事与精神。建筑不仅需要满足功能需求,更应成为文化传承与创新的舞台。本文旨在深度剖析建筑设计如何在尊重与弘扬地方文化的基础上,巧妙融合现代元素,创造出既有时代感又不失根源性的建筑作品。 1. 深入…

确保 PbootCMS 网站能够正常运行,并且成功安装和授权模板

准备 PHP 环境确认 PHP 版本使用命令行或 SSH 登录服务器,运行以下命令检查 PHP 版本:shphp -v确认版本为 5.3+。上传 PbootCMS 文件使用 FTP 客户端使用 FTP 客户端(如 FileZilla、WinSCP 等)连接到服务器。 将 PbootCMS 的所有文件上传到服务器的根目录(通常是 public_h…