摘要
为了在多维聚类分析中运用有效距离度量方法表征数据对象的邻近度,提出一种协方差测距(covariance distance measure analysis ,CDM)算法,首先,采用模糊C均值(fuzzy c-means ,FCM)方法对数据对象赋予权值,得到每个样本点相对类别特征的隶属度,再依据隶属度计算每个样本的差异度;其次,为了使类别分离最大化,用样本点同关联类别的协方差距离度量代替模糊聚类中欧式距离度量作为优化问题的第一个标准,使相似数据对象更为接近;最后,用样本点间的协方差距离度量作为第二个优化标准,使相异数据相互隔开,交替固定变量迭代计算最优解,使聚类指标和距离度量学习参数同时得到优化,获得更好的聚类结果。在不同数据集上的实验结果表明,与FCM-Sig和UNCA算法相比,CDM算法在聚类准确性和算法收敛性方面均有更好表现。
距离度量学习作为一种有效表征数据结构的方法被广泛应用于聚类分析,通过学习的距离度量构建学习模型。基于带标签实例的可用性存在有监督和无监督的距离度量学习算法,有监督距离度量学习需要带标签的训练数据集。而在实际应用中,由于缺少类别标签信息,无监督距离度量学习对于先验信息有限的问题更为重
针对无监督距离度量学习在多维聚类分析中的研究取得很多成果,传统算法仅在聚类前将距离度量用作单独的数据预处理步骤。文献[
为了选取更有效的距离度量方法提高聚类质量,提出一种协方差测距算法(covariance distance measure analysis, CDM) 。首先,采用模糊C均
聚类分析的研究重点是采用有效的距离度量方法分析数据对象之间的离散性或相异性信息,用于数据分类。
模糊C均值(FCM)是一种模糊聚类算法,其中每个数据点都具有多个类别属性。假设是输入数据, 和分别为集群中心的位置和模糊隶属度矩阵, 为聚类数,其中每个是在集群中的隶属度 。FCM的目标函数定义为
, | (1) |
是模糊程度, 为欧氏距
, | (2) |
FCM的时间复杂度为,是迭代次数。
聚类分析模型使用的所有数值和分类距离度量表示为
, |
其中:和是2个数据点之间的点对点距离矢量;和分别是类别和数值属性的数量。
对于,和分别称为重叠距离与ESK距
(3) |
(4) |
是第个属性采用不同值的数值属性,任何数值属性的距离定义为
, | (5) |
每个关联点到集群的距离表示为
, |
相对,除重叠距离和ESK距离外,另一种距离度量计算为
, | (6) |
由计算集群中的数据点数,其中属性的值为,与的含义相同,但属性不为null。此度量只能选取点到集群的距离,而不能为点到点的距离。因此,分别定义了2个不同的向量和,数值属性的距离度量记为
(7) |
针对多维特征空间的聚类分析,数据属性间的关联关系需要采用有效的距离度量方法来表征。假设是输入数据,其中:是第个的数据点;为属性数;是数据点的数量。和分别代表相似和不相似的集合记为
, | (8) |
。 | (9) |
距离度量的最大化可分离性定义假设和属于,则它们应彼此靠近,属于则它们应彼此分开。在线性方法中,通过学习线性变换并将数据投影到新空间中。投影空间中的马氏距离(协方差测距)记为
(10) |
为马氏距离,其本质是协方差测

图1 欧式距离与马氏距离度量
Fig. 1 Euclidean distance and Mahalanobis distance
观察
运用协方差测距,模糊聚类算法获得相似集合和不相似集合的估计值。相同聚类的数据属于,不同聚类数据属于。是输入数据的集合, ()为的线性变换。
传统的FCM没有清晰地定义数据的邻近度,而是提供了模糊形式。是模糊隶属度矩阵, 是集群中心。是数据点和的差异度,通过模糊隶属度值计算为
(11) |
其中:和是矩阵Q的第行和第行,基于第个数据点和第个数据点之间的相似度,由隶属度是否相似来定量估计。如果数据属于不同的集群,则所有群集(和)的值不同。和的关联条目对(和)不同,至少一个接近于零。因此,它们的差异度接近于1。
为了使类分离最大化,运用协方差测距代替欧式距离改进模糊聚类的优化问
。 | (12) |
第二个标准通过添加约束条件使中不相似的数据点相互隔开
。 | (13) |
是一个大于零的常数,因是模糊的不相似关系,所以这个新添加的约束必须与成比例地满足。引入与此约束相关的松弛变量来衡量其违反量。第二个标准由所有的总和定义,其中每个乘以,问题的解决方法如
(14) |
FCM的运用与K均值(k-means)不同, K均值方法提供了清晰的标签信息,通过学习聚类指标来调整转换矩阵以适应聚类指标。在第二次迭代中,新的聚类指标将保持与前次相同,因此该方法存在局部优化,无法在更新迭代中学习新的转换矩阵,造成快速收敛到局部最优的问
CDM算法优化
当固定除外的所有参数时,目标函数(14)的第二项将变为常数,对参数没有任何约束。对于数值属性,可以通过
定理1模糊k模式更新方
(15) |
根据该定理,分类属性的聚类中心中每个属性类别均由所求总和最大的类别给出,从而对所有类别进行聚类。
当除以外的参数固定,可以获得问题(14)的最佳。在这种情况下,目标函数(14)的第二项变为常数,的最值优通过对优化问题(14)中第一项求导得出。每个的最优值定义为
。 | (16) |
目标函数(14)的第二项中的定义取决于,参数在上一次迭代设置,在此步骤中值视为常数。
基于以上分析,迭代算法解决优化问题(14)的伪代码如下所示。在此方法的每个步骤中,所有变量均根据其相应公式进行更新。此过程迭代进行,直到变量收敛为止。
CDM算法代码如下
输入:混合数据。
输出:。
Step1:每个和初始化,满足(14)中的约束2,4和5,
Step2:设置.由
Step3:迭代:
1)固定由
2)固定由
3)固定根据优化目标函数(17)来更新,
4)首先,使用M的Cholesky分解,当时设置,接着,通过来更新。由更新,
5) 。
Step4:直到收敛。
在步骤4)中,定义了额外变量来计算新的点对点和点对集群的距离矢量。在每次迭代中学习到新的M之后,将更新这些距离向量,并在这些新向量的基础上继续执行该过程。
为了验证所提出的算法,多维聚类分析常选用UCI machine learning repositor中的Iris,Wine和Breast Tissue3个数据集作为基
数据集 | 实例数 | 属性数 | 类别数 |
---|---|---|---|
Breast Tissue | 106 | 9 | 6 |
Wine | 178 | 13 | 3 |
Iris | 150 | 4 | 3 |
Mechanical Analysis | 209 | 8 | 19 |
仿真实验将每个数据点的预测标记与其真实标记进行比较来评估聚类结果的准确性。“聚类精度”和“标准化互信息(NMI)”被用作比较不同算法的2个仿真指
“聚类精度”通过对正确分配的数据点总数进行计数,并除以所有数据的数量来计算分配的准确性
, | (18) |
其中:是数据点的数量;是正确的标签;map是一个函数;当将标签分配给其群集和增量功能的多数标签,否则为0。
NMI的计算如下
(19) |
其中:和是真实标签和聚类指标的集合;和,分别是概率随机分布在,类和与交集之间的概率;函数和分别是和的熵。
为了研究聚类数对聚类结果的影响,在Breast Tissue(BT),Wine和Mechanical Analysis数据集中评估CDM算法与FCM-Sig和UNCA算法准确性结果。聚类数设置为与类数相等,并累加到类数的四倍,仿真结果如


图2 聚类数对聚类精度影响分析
Fig. 2 Variation of clustering accuracy with the number of clusters
为了进一步评估CDM算法的聚类性能,将目标函数,NMI和聚类精度作为迭代函数,在3个数据集中进行仿真分析如

图3 聚类精度,NMI和目标函数的迭代分析
Fig.3 Clustering accuracy, NMI, and the value of objective function in terms of iterations
为了在聚类分析中选取有效的距离度量表征数据间的关联信息,提出了一种协方差测距算法(CDM)。首先,由模糊C均值聚类得到数据类别特征的隶属度,并计算出每个样本的差异度;其次,采用协方差测距代替模糊聚类中的欧式距离作为第一个优化标准使相似样本之间距离最小;最后,将样本点间的协方差测距作为第二个优化标准使不相似样本距离最大,交替固定变量迭代计算最优解。仿真结果表明,对比FCM-Sig和UNCA算法,CDM算法在聚类精确性和算法收敛性方面均有提升。下一步,面对更为复杂的数据结构和分析需求,将研究更有效的距离度量方法。
参考文献
Ahmed I, Dagnino A, Ding Y. Unsupervised anomaly detection based on minimum spanning tree approximated distance measures and its application to hydropower turbines[J]. IEEE Transactions on Automation Science and Engineering, 2019, 16(2): 654-667. [百度学术]
Zhu X B, Pedrycz W, Li Z W. Fuzzy clustering with nonlinearly transformed data[J]. Applied Soft Computing, 2017, 61: 364-376. [百度学术]
Wei L Y. A hybrid ANFIS model based on empirical mode decomposition for stock time series forecasting[J]. Applied Soft Computing, 2016, 42: 368-376. [百度学术]
Qin C, Song S J, Huang G, et al. Unsupervised neighborhood component analysis for clustering[J]. Neurocomputing, 2015, 168: 609-617. [百度学术]
李鹏华, 刘晶晶, 冯辉宗, 等. 改进测度下的模糊C均值三元催化器故障诊断方法[J]. 重庆大学学报, 2018, 41(1): 88-98. [百度学术]
Li P H, Liu J J, Feng H Z, et al. Fault diagnosis of three-way catalytic converter using improved fuzzy C-means clustering[J]. Journal of Chongqing University, 2018, 41(1): 88-98.(in Chinese) [百度学术]
Li P H, Liu J, Feng H, et al. Fault diagnosis of three-way catalytic converter using improved fuzzy C-means clustering[J]. Chongqing Daxue Xuebao/Journal of Chongqing University, 2018, 41(1): 88-98. [百度学术]
Bai Z X, Zhang X L, Chen J D. Speaker verification by partial AUC optimization with mahalanobis distance metric learning[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2020, 28: 1533-1548. [百度学术]
Cardarilli G C, Di Nunzio L, Fazzolari R, et al. $N$-dimensional approximation of euclidean distance[J]. IEEE Transactions on Circuits and Systems II: Express Briefs, 2020, 67(3): 565-569. [百度学术]
Xue B, Zhang L H, Yu Y, et al. Locating the nodes from incomplete euclidean distance matrix using Bayesian learning[J]. IEEE Access, 2019, 7: 37406-37413. [百度学术]
Chang Z P, Chen W H, Gu Y P, et al. Mahalanobis-taguchi system for symbolic interval data based on kernel mahalanobis distance[J]. IEEE Access, 2020, 8: 20428-20438. [百度学术]
dos Santos T R L, Zárate L E. Categorical data clustering: what similarity measure to recommend?[J]. Expert Systems With Applications, 2015, 42(3): 1247-1260. [百度学术]
Hou C P, Nie F P, Yi D Y, et al. Discriminative embedded clustering: a framework for grouping high-dimensional data[J]. IEEE Transactions on Neural Networks and Learning Systems, 2015, 26(6): 1287-1299. [百度学术]
刘洲洲, 李彬. 基于动态多子族群自适应群居蜘蛛优化算法[J]. 四川大学学报(自然科学版), 2017, 54(4): 721-727. [百度学术]
Liu Z Z, Li B. An adaptation social spider optimization algorithm based on dynamic multi-swarm strategy[J]. Journal of Sichuan University (Natural Science Edition), 2017, 54(4): 721-727.(in Chinese) [百度学术]
Sun Y N, Yen G G, 0001 Z Y. IGD indicator-based evolutionary algorithm for many-objective optimization problems[J]. IEEE Trans Evolutionary Computation, 2019, 23(2): 173-187. [百度学术]
Zhao X W, Liang J Y, Dang C Y. Clustering ensemble selection for categorical data based on internal validity indices[J]. Pattern Recognition, 2017, 69: 150-168. [百度学术]
Pakazad S K, Hansson A, Andersen M S, et al. Distributed semidefinite programming with application to large-scale system analysis[J]. IEEE Transactions on Automatic Control, 2018, 63(4): 1045-1058. [百度学术]
BacheK, LichmanM. UCI machine learning repository,2013,[EB/OL],Available:http://archive.ics.uci.edu/ml [百度学术]
Li P H, Zhang Z J, Xiong Q Y, et al. State-of-health estimation and remaining useful life prediction for the lithium-ion battery based on a variant long short term memory neural network[J]. Journal of Power Sources, 2020, 459(C): 228069. [百度学术]