深度学习故障诊断实战 | 数据预处理之基于滑动窗的数据样本增强

news/2024/7/5 4:06:38

前言

本期给大家分享介绍如何基于滑动窗方法进行数据样本增强

背景

深度学习模型训练需要大量的样本。在故障诊断领域,每个类别大都会达到300个样本。但是在实际公开数据集中,以CWRU数据集为例,每个类别只有24组数据,这明显是不够的。
下图以外圈为例,只有24组数据:
在这里插入图片描述
因此需要想办法扩充样本。目前大多数是通过滑动窗方法来扩充样本。例如1组10s长的数据,我每隔0.1s划分1个数据,就可以得到100个子样本。

滑动窗方法介绍

在这里插入图片描述
为增加样本数量,采用了基于滑动窗方法的数据增强方法。数据增强示意图如上图所示,假设一个一维原始时域信号的总样本点数为 L L L,用长度为 L t L_t Lt 的窗口框住的样本为第 1 个子样本,每生成一个子样本后,窗口向前移动 L s L_s Ls 个样本点数长度并框住第 2 个子样本,依次进行生成 n s n_s ns 个子样本。 L s L_s Ls 其计算公式如下:
L s = ⌊ L − L t n s ⌋ L_{\mathrm{s}}=\left\lfloor\frac{L-L_{\mathrm{t}}}{n_{\mathrm{s}}}\right\rfloor Ls=nsLLt

式中 ⌊ ⌋ \left\lfloor\right\rfloor 是向上取整符号。
窗口长度 L t L_t Lt 选择原则:至少包含1个旋转周期长度,4-5个周期为佳。

代码示例

这里以CWRU"1750_12k_0.021-OuterRace3.mat"数据为例。建议使用jupyter notebook

##========导入包========##
import os
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib import rcParams

config = {
    "font.family": 'serif', # 衬线字体
    "font.size": 14, # 相当于小四大小
    "font.serif": ['SimSun'], # 宋体
    "mathtext.fontset": 'stix', # matplotlib渲染数学字体时使用的字体,和Times New Roman差别不大
    'axes.unicode_minus': False # 处理负号,即-号
}
rcParams.update(config)
##========读取数据========##
def data_read(file_path):
    """
    :fun: 读取cwru mat格式数据
    :param file_path: .mat文件路径  eg: r'D:.../01_示例数据/1750_12k_0.021-OuterRace3.mat'
    :return accl_data: 读取到的加速度数据
    """
    import scipy.io as scio
    data = scio.loadmat(file_path)  # 加载mat数据
    data_key_list = list(data.keys())  # mat文件为字典类型,将key变为list类型
    accl_key = data_key_list[3]  # mat文件为字典类型,其加速度列在key_list的第4个
    accl_data = data[accl_key].flatten()  # 获取加速度信号,并展成1维数据
    accl_data = (accl_data-np.mean(accl_data))/np.std(accl_data) #Z-score标准化数据集
    return accl_data
##========绘制时域信号图========##
def plt_time_domain(arr, fs=12000, ylabel='Amp(mg)', title='原始数据时域图', img_save_path=None, vline=None, hline=None, xlim=None):
    """
    :fun: 绘制时域图模板
    :param arr: 输入一维数组数据
    :param fs: 采样频率
    :param ylabel: y轴标签
    :param title: 图标题
    :return: None
    """
    import matplotlib.pyplot as plt
    plt.rcParams['font.sans-serif'] = ['SimHei']  # 显示中文
    plt.rcParams['axes.unicode_minus'] = False  # 显示负号
    font = {'family': 'Times New Roman', 'size': '20', 'color': '0.5', 'weight': 'bold'}
    
    plt.figure(figsize=(12,4))
    length = len(arr)
    t = np.linspace(0, length/fs, length)
    plt.plot(t, arr, c='g')
    plt.xlabel('t(s)')
    plt.ylabel(ylabel)
    plt.title(title)
    if vline:
        plt.vlines(x=vline, ymin=np.min(arr), ymax=np.max(arr), linestyle='--', colors='r')
    if hline:
        plt.hlines(y=hline, xmin=np.min(t), xmax=np.max(t), linestyle=':', colors='y')
    if xlim: # 图片横坐标是否设置xlim
        plt.xlim(0, xlim)  
    #===保存图片====#
    if img_save_path:
        plt.savefig(img_save_path, dpi=500, bbox_inches = 'tight')
    plt.show()
##========绘制时域信号图========##
file_path = r'D:/22-学习记录/01_自己学习积累/02_基于滑动窗方法划分数据集/01_示例数据/1750_12k_0.021-OuterRace3.mat'   # cwru数据.mat文件路径
fs = 12000    # 采样率12000Hz
fr = 1750     # 转速1750rpm
num_per_ratation = 60/1750 * fs
accl_data = data_read(file_path)   # 读取加速度数据
plt_time_domain(accl_data)         # 绘制时域图
print('数据点个数为:', len(accl_data))
print('每转1圈包含点数:', num_per_ratation)

输出结果:
在这里插入图片描述

数据点个数为: 122281
每转1圈包含点数: 411.42857142857144
##========通过滑动窗口方法增强样本========##
def data_spilt(data, num_2_generate=20, each_subdata_length=1024):
    """
    :Desription:  将数据分割成n个小块。输入数据data采样点数是400000,分成100个子样本数据,每个子样本数据就是4000个数据点
    :param data:  要输入的数据
    :param num_2_generate:  要生成的子样本数量
    :param each_subdata_length: 每个子样本长度
    :return spilt_datalist: 分割好的数据,类型为2维list
    """
    data = list(data)
    total_length = len(data)
    start_num = 0   # 子样本起始值
    end_num = each_subdata_length  # 子样本终止值
    step_length = int((total_length - each_subdata_length) / (num_2_generate - 1))  # step_length: 向前移动长度

    i = 1
    spilt_datalist = []
    while i <= num_2_generate:
        each_data = data[start_num: end_num]
        each_data = (each_data-np.mean(each_data))/(np.std(each_data)) # 做Z-score归一化
        spilt_datalist.append(each_data)
        start_num = 0 + i * step_length;
        end_num = each_subdata_length + i * step_length
        i = i + 1
    spilt_data_arr = np.array(spilt_datalist)
    return spilt_data_arr
spilt_data_arr = data_spilt(data=accl_data, each_subdata_length=1024, num_2_generate=50)
print(spilt_data_arr)
print('划分数据样本的维度为:',spilt_data_arr.shape)
# 输出结果
[[-0.53912541  0.1241063   0.62763801 ... -0.31089743  0.15986003
  -0.70478437]
 [-0.76625967 -0.90941739 -0.45229575 ... -0.89897241 -0.27165898
  -0.02220819]
 [-0.95815651 -0.92246646 -1.75344986 ...  1.59903578  0.90605392
   0.08934654]
 ...
 [-0.99252616 -0.44633003  0.72570346 ... -0.7488478   2.35299945
   0.07193225]
 [ 0.89678044  0.56380553  1.10132216 ... -1.45485483 -0.63490413
  -0.65809345]
 [-0.40335141 -0.75221082 -0.90351645 ... -3.03949526  0.59754965
   5.42676878]]
划分数据样本的维度为: (50, 1024)

大功告成,1个数据经过滑动窗方法划分得到了50个样本(每个子样本长度1024),那24个数据增大到1200个样本了。
数据集获取方法:关注《故障诊断与python学习》公众号,后台回复:CWRU


http://lihuaxi.xjx100.cn/news/2131108.html

相关文章

淘宝订单中的涉及红包检测、优惠券检测方案|工具|API

首先&#xff0c;检测订单红包的核心价值是什么&#xff1f; “红包的本质就是薅平台羊毛&#xff1a;不用怀疑&#xff0c;平台对于这种损害平台利益的行为肯定是最高等级的稽查”。那么&#xff0c;在日常运营中&#xff0c;需要尽可能过滤这类订单。 其次&#xff0c;如何使…

鸿蒙开发之AES加解密

密码学中的高级加密标准&#xff08;Advanced Encryption Standard&#xff0c;AES&#xff09;&#xff0c;又称Rijndael加密法&#xff0c;是美国联邦政府采用的一种区块加密标准。 简介 这个标准用来替代原先的DES&#xff08;Data Encryption Standard&#xff09;&#x…

代码随想录阅读笔记-二叉树【翻转二叉树】

题目 翻转一棵二叉树。 思路 如果要从整个树来看&#xff0c;翻转还真的挺复杂&#xff0c;整个树以中间分割线进行翻转&#xff0c;如图&#xff1a; 可以发现想要翻转它&#xff0c;其实就把每一个节点的左右孩子交换一下就可以了。 关键在于遍历顺序&#xff0c;前中后序应…

【Python】python+requests+excel+unittest+ddt实现接口自动化实例

目录 测试需求实现思路框架代码实例1. 环境准备和配置文件2. Excel接口数据及测试结果3. API封装4. 读取Excel数据5. 测试用例6. 日志和配置文件处理7. HTMLTestRunner生成可视化的html报告8. 报告通过飞书/邮件发送报告通过飞书发送报告通过邮件发送9. 入口函数10. 飞书Webhoo…

​如何用“Dreamina”进行文生图​

文生图&#xff0c;顾名思义&#xff0c;就是用文字描述来生成图片。近年来&#xff0c;随着人工智能技术的进步&#xff0c;文生图技术也逐渐成熟&#xff0c;并逐渐应用于各种领域&#xff0c;例如设计、创作、娱乐等等。 本文将介绍如何使用“Dreamina”进行文生图。 步骤…

dnf手游:如何利用副本和任务快速积累泰拉财富?

DNF手游中&#xff0c;搬砖赚钱的方式多种多样&#xff0c;其中利用副本和任务是一种快速赚取泰拉的有效途径。本攻略将介绍如何通过参与副本和任务来获取泰拉&#xff0c;帮助玩家在游戏中获得更多的经济收益。 一、认识游戏中的泰拉 在DNF手游中&#xff0c;泰拉是一种主要的…

Zabbix6 - Centos7源码编译部署HA高可用集群手册

Zabbix6 - Centos7源码编译部署HA高可用集群手册 HA高可用集群 总所周知,在我们IT运维的圈圈中,HA高可用集群服务算是逼格最高的吧也是运维里保障力度最大的环境。 HA是HighlyAvailable缩写,是双机集群系统简称,提高可用性集群,是保证业务连续性的有效解决方案,一般有两个…

Doris删除数据工具

文章目录 概要整体架构流程技术名词解释技术细节小结 概要 对于Doris的 Unique 模型&#xff0c;在删除数据的时候只能根据key删除&#xff0c;如果使用其他条件就会报错 整体架构流程 先获得表的key&#xff0c;然后在通过输入的条件获得key的所有值&#xff0c;最后通过key的…