高维空间可分性指标在转子诊断系统优化中的应用

徐搏超

中国大唐集团科学技术研究院有限公司华东电力实验研究院,合肥,230031

摘要二叉树相关向量机系统中正负类样本的选取往往通过方差进行可分性度量。常用的高斯核函数是在高维空间中完成分类,由于高维空间中数据点存在度量集中现象,欧氏距离往往并不能较好地度量样本点的可分性。分数范数计算出的高维空间距离差异性更大,故构造了一种基于分数范数的样本点距离度量指标。基于该指标优化各层分类器样本选取,通过实验1验证了基于高维可分性指标优化后的系统相较于欧氏距离优化后的系统在分类精度上有了较为显著的提高;实验2表明优化后的系统与智能诊断算法相比,在分类精度和耗时方面也具有优势。

关键词高斯核空间;度量集中;分数范数;系统优化

0 引言

汽轮机组作为发电厂的主体设备,由于结构众多、工况复杂,极易受到众多因素的干扰。当转子发生故障后,如何快速精准地确认故障是工程研究领域的难点。转子多故障诊断具有重要意义。

基于二叉树结构[1-2]的相关向量机(relevance vector machine, RVM)系统通过细化分类实现了多故障诊断,目前已得到广泛应用。文献 [3]表明,二叉树结构越靠近顶节点对系统的累积误差影响越大。为了提高系统分类精度,需要进行结构优化,提高上层节点的分类正确率。分类器中正负类样本的差异性决定了该节点的分类效率。为了抑制误差累积效应,对系统的优化策略依据相似度从小到大的顺序进行种类分割。目前常用的可分性判据中,基于后验概率的可分性判据[4]、基于类的概率密度函数[5]的可分性判据对样本数量依赖性较强,不适用于转子故障这类小样本问题。基于几何距离的可分性判据[6]一般用方差描述低维空间中样本特征向量的离散程度,相关向量机通过核函数将低维向量映射到高维空间后进行分类,在高维空间中样本方差并不能较好地克服度量集中效应。

高维向量之间的分数范数差值较大,故本文选用分数范数作为高维空间距离度量方法,研究高斯无穷维空间样本点的形式并进行改造,使其在满足工程精度的要求下便于计算距离;同时对传统的类间类内方差比值判据进行了改进,引入分数范数构造了一种适用于高斯核空间的可分性指标。

1 基于均衡二叉树的多分类系统

二叉树多分类是二叉树结构的多个分类器组合。对于k?类分类问题,二叉树算法仅需要构造k?-1个子分类,大幅度缩减了计算量。对于单个分类器而言,正负两类训练样本数量越均衡,该分类器精度越高[6]。同时为了兼顾故障诊断的时间成本,本文选择节点查询时间复杂度较低[7]的均衡二叉树作为系统结构图。

基于均衡二叉树算法的多分类系统训练过程是首先将样本数据按类别均分成两部分,随机标记为正负两类,训练出根节点分类器。分别对第一部分(左节点)和第二部分(右节点)中的类别再次进行均分,训练第二层分类器。以此类推,直至叶子节点中只包含一类样本。系统完成训练后,输入测试样本,样本依次经过各层分类器,最终会被归类到某一叶子节点中完成诊断。以四分类问题为例,其均衡二叉树结构见图1。

图1 均衡二叉树结构图
Fig.1 Balanced binary tree structure diagram

2 基于分数范数的高斯核空间可分性指标

2.1 高维空间距离度量准则

高斯核函数空间是一个无穷维空间[8],为了找出适合高维空间的距离度量准则,首先需要了解数据点的分布情况。本文通过高维空间中最近邻分析的相关定理[9],研究样本点在高维映射空间内的分布规律。

定理1 从n?个独立分布的d?维向量x中随机抽样,如果则对于任一ε?,有

式中,‖•‖p?p?范数;E?(•)和Var?(•)分别为x服从分布的理论期望和方差;P?(•)为概率分布;为第j?个(总数n?个)d?维向量x

定理2(定理1逆定理) 假设样本数目n?足够大,使得

成立,如果

则对于任一ε?,有

式中,为范数的相对差异,为相对方差。

上述定理表明,在高维空间中样本点范数的相对方差和相对差异都趋于零。上述方法对不同点的区分性很小。欧氏空间中方差度量的差异性随着样本维度的增长越来越弱,这种现象通常称为度量集中[10],这表明在高维空间中样本点趋于均匀分布。

文献 [11-12]表明e?p?范数中p?值对高维空间距离影响较大。机器学习算法在较小的p?值易于求得稀疏解。

定理3[13] 设定样本集包含n?个d?维独立分布的样本点,则存在常数C?k?,使得

其中,分别表示样本集中不同样本之间的最大e?p?距离度量和最小e?p?距离度量。该定理表明,最远和最近邻之间距离的对比度随着p?值的减小而增大。综上所述,将分数范数引入高维空间作为距离度量方法。d?维向量空间中的某点x=(x?1,x?2,…,x?d?)的e?p?范数表达式如下:

(1)

式中,x?i?为向量x的第i?个元素。

p?<1时,该范数称为分数范数[14]

2.2 高斯核函数空间样本点形式探究及改造

首先给出高斯核函数[15]表达式:

K?x,y=exp(-‖x-y2/(2σ?2))

(2)

式(2)的麦克劳林展开式如下:

式中,k?为向量xy的维度;表示满足n?1+n?2+…+n?k?=?j?的所有n?1,n?2,…,n?k?序列的组合数,该序列由非负整数构成。

为了保证一般性,设定σ?=1。

由上述公式推导可知,径向基核函数φ?(x)的定义式为

φ?(x)的形式可以看出它是一个无穷维的向量。假设x是一个四维(即k?=4)的故障特征向量,现对高斯映射空间的向量φ?(x)进行分析:向量前5维元素中的值为1、4、10、20、35。随着维数的增加,序列的组合数急剧增长。当k?>8,即k?取值为x维度2倍以上时,的值趋于零,φ?(x)的工程解并不需要精确形式。故本文选择计算原始k?维向量x在高斯映射空间中的φ?(x)向量的前2k?维的数值,其余维度的值设为零。

2.3 高斯核空间样本点可分性指标构造

高斯核空间属于无穷维空间,方差判据不能有效克服度量集中现象导致的样本点稀疏分布的难题。由上述分析可知,分数范数相较于p?>1时的范数在高维空间中度量效果更好,故选用分数范数作为高斯核空间样本点的可分性判据。可分性指标的构造求解过程如下:

给定两个原始数据集合X?={x1,x2,…,xi?},Y?={y1,y2,…,yj?},其中i?=1,2,…,n?1j?=1,2,…,n?2。两样本集合映射后的均值向量分别为

(3)

类间距离度量用下式求解:

(4)

式中,μ?xi?μ?yi?分别为向量μx?μy?中第i?维数值。

X?和Y?的类内距离S?x?S?y?分别为

(5)

(6)

式中,φ?m?(xi?)和φ?n?(yi?)分别为向量φ?(xi?)和φ?(yi?)中的第m?维和第n?维数值。

分类指标的优劣性体现在兼顾同类样本的内聚性和异类样本的排斥性。基于上述原则,构造可分性指标:

(7)

d?xy?越大,代表不同类的高维样本点距离越远,同时类内具有内聚性,这表明两类样本更易区分。

3 多故障分类系统节点优化实验

在Bently转子实验台上模拟汽轮机转子正常状态和转子质量不平衡、转子不对中、动静碰磨、油膜涡动4种常见振动故障信号。模拟设备转速3 000 r/min,采样频率1 280 Hz,采样点数为1 024。每类状态集前10组作为训练样本,后10组作为测试样本。

汽轮机故障信号特征大部分集中在前几阶倍频段中,因此首先使用希尔伯特振动分解(HVD)方法分解故障信号,进而选取半频、基频、二倍频和高频计算模糊熵值,最后组合这4个频段的特征值构建故障特征向量。通过RVM模型进行样本学习,完成模型训练。上述故障特征提取过程见图2。

图2 故障特征提取流程图
Fig.2 Flowchart of fault feature extraction

3.1 实验1

以上述5种汽轮机运行状态为例,对二叉树分类系统进行节点优化。实验1中比较不同节点优化方法对系统最终分类精度的影响。对照方法通过求取不同故障种类样本特征向量的方差判断不同类别样本的可分性,进而进行正负类选取,样本可分性用下式度量:

(8)

其中,D?x?D?y?表示样本X?和Y?基于方差算出的类内距离;D?xy?为不同类样本的类间距。d?xy?越大,X?和Y?两类样本在特征向量空间中的可区分性越大。

样本方差优化后的系统图见图3;通过本文提出的指标进行优化后的系统图见图4。完成优化后系统各层节点的值见表1,优化后系统的分类正确率见表2。

图3 样本方差指标优化后系统图
Fig.3 Optimized system chart based onsample variance index

图4 高维可分性指标优化后系统图
Fig.4 Optimized system chart based on high-dimensionalspace separability index

表1 优化后系统各层节点的dxy

Tab.1 Thedxyvalue of each point of skew binarytree system after optimization

dxyRVM1 RVM2RVM3RVM4样本方差0.061 90.838 60.117 92.742 3本文方法0.137 42.140 02.946 11.076 4

表2 优化后系统的分类正确率

Tab.2 Classification accuracy after optimization

正确样本个数/总样本个数正确率(%)样本方差42/5084本文方法48/5096

由表2可以看出,本文提出的高维空间可分性指标相较于传统的基于样本特征向量空间的方差指标,更能准确反映样本在高斯核空间内的可分性。本文方法优化后的系统分类准确性更高。

3.2 实验2

智能诊断方法[16-17]通过充分发掘数据间的内在关联,避免了复杂的数学建模过程,成为故障诊断技术发展的新方向。本文选用粒子群算法优化(PSO)的聚类算法对样本进行实验,实验过程首先根据训练样本间的距离相关性等特征将训练样本聚成不同类别;再根据待测试样本与训练样本间的匹配性进行划分。PSO算法中群体粒子50个,最大迭代次数为400次,结果见表3。

表3 聚类算法分类结果

Tab.3 Classification results of clustering algorithm

标签样本分布聚类结果不对中1~101,2,3,4,5,6,7,9,36油膜涡动11~2011,12,13,14,15,16,17,18,19,20不平衡21~3021,22,23,24,25,26,27,28,29,30,42动静碰摩31~4031,32,33,34,35,36,37,38,39,40,8,10正常41~5041,43,44,45,46,47,48,49,50

对比智能诊断算法和均衡二叉树系统的诊断性能,结果见表4。由表4可以看出,基于均衡二叉树的多分类系统相较于聚类算法,分类准确率更高,时间成本更低。

表4 聚类算法和本文方法的结果比较

Tab.4 Comparison of clustering algorithm andthe proposed method results

正确率(%)分类时间(s)聚类算法920.031 7本文方法960.001 2

4 结论

(1)二叉树系统结构中,各节点的正负类选取会综合影响系统的分类精度。因此对多分类系统结构进行优化,抑制误差累积效应可以有效提高系统分类正确率。

(2)高斯核函数将样本特征向量映射到无穷维空间中寻求分类超平面。样本特征向量的方差属于低维空间中的距离度量方法,并不能有效反映高斯核空间中样本点的距离分布规律。本文引入分数范数的概念对高维空间中的距离进行度量。实验表明,本文提出的高维可分性指标相较于传统的方差指标,能更有效地判断样本在高维空间中的可分性。

(3)基于本文提出的指标进行优化后的系统,相较于智能诊断算法,在分类正确率和耗时方面也具有一定的优势。

参考文献

[1] 张龙, 张磊, 熊国良,等. 二叉树型多分类器融合的轴承故障诊断方法[J]. 计算机工程与应用, 2015, 51(21):243-249.

ZHANG Long, ZHANG Lei, XIONG Guoliang, et al. Method of Binary Tree Structure Based Multiple Classifier Fusion in Bearing Fault Diagnosis[J]. Computer Engineering and Application, 2015, 51(21):243-249.

[2] LIU Xiaofeng, BO Lin. Identification of Resonance States of Rotor-bearing System Using RQA and Optimal Binary Tree SVM[J]. Neurocomputering, 2015, 152:36-44.

[3] 陈星, 严华. 二叉树SVM算法在小样本故障诊断中的优化[J]. 计算机测量与控制, 2015, 23(3):689-692.

CHEN Xing, YAN Hua. Optimization of BT-SVM for Small Sample Fault Diagnosis[J]. Computer Measurement & Control,2015, 23(3):689-692.

[4] 曹苏群, 王士同, 陈晓峰. 基于后验概率的不平衡数据集特征选择算法[J]. 计算机工程, 2008, 34(19):1-3.

CAO Suqun,WANG Shitong, CHEN Xiaofeng. Posterior-probability-based Feature Selection Algorithm for Imbalanced Datasets[J]. Computer Engineering, 2008, 34(19):1-3.

[5] 袁广林, 薛模根, 韩裕生,等. 基于自适应多特征融合的mean shift目标跟踪[J]. 计算机研究与发展, 2010, 47(9):1663-1671.

YUAN Guanglin, XUE Mogen, HAN Yusheng, et al. Mean Shift Object Tracking Based on Adaptive Multi-features Fusion[J]. Journal of Computer Research and Development, 2010, 47(9):1663-1671.

[6] 张秋余, 赵付清, 王静,等. C-SVM在不同类别样本数目不均衡下的优化[J]. 兰州理工大学学报, 2007, 33(4):90-92.

ZHANG Qiuyu, ZHAO Fuqing, WANG Jing, et al. Optimization of C-SVM in Case of Samples with Unequal Numbers in Their Different Varieties[J]. Journal of Lanzhou University of Technology, 2007, 33(4):90-92.

[7] 刘涌, 李海潮, 赵鞭. 一种基于二叉树的测控设备故障诊断方法[J]. 电讯技术, 2016, 56(8):928-933.

LIU Yong, LI Haichao, ZHAO Bian. A Fault Diagnosis Method for TT&C Equipment Based on Binary Tree[J]. Telecommunication Engineering, 2016, 56(8):928-933.

[8] 冯育强, 董佳华. 无穷维空间中有界闭凸集的一个反例[J]. 高师理科学刊, 2017, 37(2):4-5.

FENG Yuqiang, DONG Jiahua. A Counterexample of Bounded Closed Convex Set in Infinite Dimensional Space[J]. Journal of Science of Teachers’ College and University, 2017, 37(2):4-5.

[9] DURRANT R J. When Is ‘Nearest Neighbour’ Meaningful: a Converse Theorem and Implications[J]. Journal of Complexity, 2009, 25(4):385-397.

[10] MIL’MAN V D. New Proof of the Theorem of A. Dvoretzky on Intersection of Convex Bodies[J]. Function Analysis and Its Application, 1971,5(4):288-295.

[11] FRANÇOIS D, WERTZ V, VERLEYSEN M. Non-Euclidean Metrics for Similarity Search in Noisy Datasets[C]//The 13th European Symposium on Artificial Neural Networks. Bruges, 2005: 339-344.

[12] HSU C M, CHEN M S. On the Design and Applicability of Distance Functions in High-dimensional Data Space[J]. IEEE Transactions on Knowledge & Data Engineering, 2009, 21(4):523-536.

[13] HINNEBURG A, AGGARWAL C C, KEIM D A. What Is the Nearest Neighbor in High Dimensional Spaces?[C]//The 26th VLDB Conference. Cario, 2000:506-515.

[14] AGGARWAL C C, HINNEBURG A,KEIM D A. On the Surprising Behavior of Distance Metrics in High Dimensional Spaces[C]//The 8th International Conference on Database Theory. London, 2001:420-434.

[15] 赵莹. 支持向量机中高斯核函数的研究[D]. 上海:华东师范大学, 2007.

ZHAO Ying. The Study on Gauss Kernel Function in Support Vector Machine[D]. Shanghai: East China Normal University, 2007.

[16] 李状, 柳亦兵, 滕伟,等. 基于粒子群优化KFCM的风电齿轮箱故障诊断[J]. 振动、测试与诊断, 2017, 37(3):484-488.

LI Zhuang,LIU Yibing,TENG Wei,et al. Fault Diagnosis of Wind Turbine Gearbox Based on KFCM Optimized by Particle Swarm Optimization[J]. Journal of Vibration Measurement & Diagnosis, 2017, 37(3):484-488.

[17] 郑波, 高峰. 基于S-PSO分类算法的故障诊断方法[J]. 航空学报, 2015, 36(11):3640-3651.

ZHENG Bo, GAO Feng. Fault Diagnosis Method Based on S-PSO Classification Algorithm[J]. Acta Aeronautica et Astronautica Sinica, 2015, 36(11):3640-3651.

Applications of Separability Index of High-dimensional Space in Rotor Diagnosis System Optimization

XU Bochao

China Datang Corporation Science and Technology Research Institute Co.,Ltd., East China Electric Power Test & Research Institute, Hefei,230031

Abstract:The selection of positive and negative samples in the related vector machine multi-fault classification system based on binary tree was often measured by the Euclidean distance. Traditional Euclidean distance couldn’t reflect the separability of sample points properly because of the measurement concentration of data points in high-dimensional spaces. As the differences of high-dimensional space distance calculated by fractional norm were greater, an index of high-dimensional space sample point distances was proposed based on fractional norm. Optimizing sample selection of classifiers at different levels based on this index, the results of experiment 1 prove that the optimized system based on high-dimensional space separability index has a significant improvement in classification accuracy than the optimized system based on Euclidean distance. The results of experiment 2 show that compared with intelligent diagnosis algorithm, the normal binary tree structure has advantages in classification efficiency and time consuming.

Key words:Gauss kernel space; measurement concentration; fractional norm; system optimization

中图分类号TM41

DOI:10.3969/j.issn.1004-132X.2019.10.015

开放科学(资源服务)标识码(OSID):

收稿日期2018-01-22

(编辑 王旻玥)

作者简介徐搏超,男,1992年生,硕士,助理工程师。研究方向为电站设备故障诊断和信号处理、清洁能源发电、大数据技术。E-mail:ncepu_xbc@163.com。