摘要
针对物联网时序数据中存在的数据冗余现象和动态信息难以捕捉的问题,提出了一种基于数据驱动的动态时序分类算法。通过动态内部主元分析法(dynamic internal principal component analysis,DiPCA)提取传感设备采集的时间序列中的动态信息,实现降维及提炼动态信息的作用;利用麻雀搜索算法优化分类算法参数,强化支持向量机(support vector machines,SVM)算法性能并使其对含有shapelet局部特征的时序特征进行建模,最终构成双向演进算法框架,实现时序分类功能。利用UCR时序数据集和边缘计算模拟数据检验该算法的性能,结果表明,与基本算法相比,该算法的综合性能明显提高,并验证算法分类功能在仿真环境中的有效性与优越性。
近年来,物联网技术飞速发展,如何为物联网提供高效的时序数据挖掘方案已成为研究热点。充分地将数据中的重要信息提取、整理,才能规划出准确,高效的模型。而应用型数据规模正持续地以指数级规模上升,数据的属性也在不断的扩张。因而对于数据集,通常采取降低维度的方式,简化数据规模,主成分分析法(principal component analysis, PCA)通过研究属性之间的线性关系,筛选出独立性极强的属性集,去除了多余的冗余属性,降低了分析数据的难度,保留了数据的重要信息。基于此原理,Ku
2009年Keogh提出shapelet象形子序列,采取信息增益规则提取子序列代表时序的局部关键特征,相比于最近邻算法(nearest neighbor algorithm,NNA) ,以shapelet 构造决策树的分类方法准确率有所提高,但面对多分类问题仍有不足之处。原继东
SVM在研究动态数据分类有显著作用,具有较好的鲁棒性和有效规避维数灾难等优点,得到了学者重视。多变量问题的解决思想最为直观的便是统一线性化,但使用简易的线性化模型有可能出现过拟合现象,或者是过度简化变量相关性质。文献[
文献[
PCA难以满足时序信息的预处理工作,时间序列与时间联系密切,其动态特性无法只靠特征贡献率降维和清理数据的方式获取,DiPCA引入自回归模型,设立协方差目标函数,在迭代过程中提取有效动态变量,重构新的时序信息,完整保留原有的信息内容。
设置为t时刻采集获取的时序数据, 作为均衡因子向量,建立动态主元,
。 | (1) |
引用自回归模型,划分已建立的动态主元作为训练集训练自回归模型系数,提取有效动态特征,得模型
, | (2) |
式中:和为单位向量,即 ,为噪声向量,为序列阶次量。
由此得动态主元预估模型
。 | (3) |
设置向量组,其中,为序列理想切割划分单位,通过递推式建立新的阶次向量。
设立目标函数,将预估动态主元与原动态主元两者间的协方差达到最大化,
, | (4) |
。 | (5) |
采用拉格朗日算子法,确定参数、与之间关联方程如下:
, | (6) |
。 | (7) |
通过迭代循环模型,设置收敛系数,循环计算均衡因子以及自回归权重系数,直至满足收敛要求。
有效区分不同类别的序列的算法需要选取最佳子序列,shapelet搜索算法实质是计算子序列与母序列间的最短距离,以此判断所选序列是否代表典型局部特征。采用欧式距离计算如下:
, | (8) |
。 | (9) |
式中: 、为2条时间序列;、分别为前后时间序列的单位时间内有序数列数值。通过
受麻雀生活习性启发,设置为麻雀位置向量,建立3类种族行动群体,分别是发现者、追随者、侦察者。以下分别介绍其运行原理及特点。
1)发现者模式
(10) |
该公式以规划发现者群体在第t代中第i个单体的第j维位置,根据正态分布矩阵与预定距离的乘积量确定侦察者的大致分布,设ST为警戒阈值,以随机数值与的对比关系确定单体的行动策略。
2)跟随者模式
(11) |
当小于麻雀总数量的1/2,说明当前的麻雀单位处于缺乏能量的饥饿状态,因此测定当前最劣单位与自身单位的距离,并将其投射到指数函数中,再根据随机分布矩阵分配随机步长向周围搜寻捕食点。
3)侦察者模式
(12) |
式中:为符合标准正态分布的步长参数;为[-1,1]的满足均匀分布的随机数。以麻雀单位的适应值、全局最优麻雀的适应值、目前最差位置麻雀的适应值之间的关系直接确定侦察者的移动策略。侦察的麻雀已处于当前的最优位置时,该单位会逃离到自身附近的一个位置;反之,该麻雀并未处于最优位置,它会逃到当前最优位置的邻域范围内。
以上3类群体互相牵制,不断调整、更新最优解位置。与其他群智能算法相比,SSA在集中搜寻满意解的同时,引入侦察机制,避免陷入局部最优解问题。
时序数据按组元为单位,以时间作为有序规则,每组数据时序集合同等划分为相同数量属性指标,一维传感信号依照时间进程转化为不同时刻的状态数据,再以DiPCA算法剔除多余的静态数据集合,抽取带有动态特征的集合(

图1 DiPCA数据转化示意图
Fig. 1 DiPCA data conversion
算法 1 | DiPCA特征提取算法 | ||
---|---|---|---|
输入: |
TSD | ||
中间变量: |
| ||
输出: |
| ||
|
Begin | ||
|
: | ||
|
While i<num_d |
|
|
|
; |
| |
|
|
| |
|
| ||
|
| ||
|
; | ||
|
;; | ||
|
; | ||
|
end; end; End; | ||
|
; |
其中TSD(time series data)为原始时序集,预设置最大主元数目以及自回归方程阶次数,提取部分原始数据集分批训练模型(如
在数据转化的过程中,元组每单位对应一条时序变量,变量经过统一切割,生成以时间顺序作为划分依据的多维属性,再经过该算法迭代获取动态主元属性。元组会匹配到对应自身的多元变量,其本质仍为时序值,带有明显的时间流动规律。
已获取的新型时间序列采用shapelet搜索算法为单位时间序列提供可靠子序列集合,在该算法中采用欧式距离法衡量序列间的最短距离。计算子序列中可以代表母序列的显著局部特征的shapelet序
算法 2 | shapelet子序列转换算法 |
---|---|
输入: |
; min=min(shapelet_length); max=max(shapelet_length); |
中间变量: |
|
输出: |
; |
|
;, |
|
for all Tnew_i in Tnew do |
|
S←shapelet candidates (Tnew_i,min, max); |
|
for all subsequences s in S do |
|
DS←calculate distances(s,Tnew_i) |
|
quality←evaluate shapelets (S, DS ) |
|
end for |
|
TNEW shapelets.add (S, quality ) end for |
|
SNEW←⌀ |
|
for all Tnew_i in TNEW do |
|
for all Sj in TNEW shapelets do |
|
SNEWij = dist (Tnew_i,Sj ) |
|
end for |
|
end for |
|
return SNEW where SNEW is a 2D matrix |
首先限制shapelet的长度范围,经验上最大长度为数据集中最小长度的序列对应的长度数值。滑动窗口在设定的长度范围内截取数据集中所有的序列,等效于子序列全集。以信息增益(评价指标为互信息素)作为评判子序列的质量标准,具有最高信息增益值的序列即为,而信息增益最大的那一个便是shapelet。
为支持SSA-SVM模型的训练学习,计算shapelet集合以与原序列的欧式距离作为投放分类训练器的时序属性列表。输出的为类别数量为k,长度为n的时序属性数据。
SSA-SVM模型以具有时间序列特征的数据作为多维属性集划分超平面边界,SSA寻找最适合当前数据集的参数因子、惩罚函数因子和核函数因子来构造状态矩阵,优化目标是最大化由精确率和召回率的调和平均值构成的F1分数,该分数由准确率和召回率组成,同时考虑全局操作精度和计算成本,并在周期内更新参数,调整SVM算法的边界范围。
如上所述,在麻雀搜索算法的侦察模型中,由于步长参数不能随搜索范围灵活调整,而框架是基于数据驱动的理论优化条件,需要精确定位可行解的邻域分布,所以调用惯性权重来更新该参数的选择范

图2 组合模型优化SSA-SVM分类一体化流程图
Fig. 2 Combination model optimization SSA-SVM classification integration framework diagram
选取10类UCR时间序列分类数据集验证算法效果,抽取显著异或特征,并与现有6种分类算法对比,验证新型组合算法的有效性和提升效果;选取中国西北部某城市2018~2020年PM2.5空气质量序列数据,实验前已将该数据标签化,以空气质量指数划分为优、良、中、差4类空气状况。设计边缘计算服务器分配布局,模拟序列数据上传,检测边缘服务器数据分类精确度,并衡量整体计算框架的成本与消耗。
根据UCR数据分类集,选取能代表序列类别的序列特征,图

图3 Gun_Point原始序列
Fig. 3 Gun_Point original time series

图4 Gun_Point子序列
Fig. 4 Gun_Point time subsequence

图5 Coffee原始序列
Fig. 5 Coffee original time series

图6 Coffee子序列
Fig. 6 Coffee time subsequence

图7 MoteStrain原始序列
Fig. 7 MoteStrain original time series

图8 MoteStrain子序列
Fig. 8 MoteStrain time subsequence
以数据集Gun_Point、Coffee举例说明,数据集容量较大时难以去除冗余信息,同一时间单位内存在多余的序列信息,复杂的交叉信号点导致难以收集不同种类的典型特征。shapelet可有效抽取局部信息,避免相似数据出现重叠现象。数据集MoteStrain部分数据明显异与整体序列规律趋势,无规律异常值不具有代表性,故采用DiPCA可以在完成降维工作的同时,通过统计学指标去除异常数据,达到清洗数据、蒸馏信息的目的。
数据集 | 本文算法 | SVM | 1NN | NB | WRF | C4.5 | CNN-LSTM |
---|---|---|---|---|---|---|---|
Gun_Point | 86.45 | 80.21 | 91.21 | 78.20 | 94.39 | 76.98 | 86.67 |
Coffee | 98.20 | 96.83 | 75.00 | 67.76 | 85.33 | 56.89 | 93.01 |
MoteStrain | 89.24 | 86.32 | 85.72 | 85.20 | 86.90 | 78.64 | 84.21 |
FaceFour | 90.23 | 87.33 | 87.52 | 84.21 | 78.12 | 71.62 | 80.37 |
CBF | 91.03 | 88.34 | 85.13 | 88.24 | 89.11 | 67.42 | 88.51 |
Trace | 1.00 | 1.00 | 82.34 | 97.22 | 95.30 | 95.32 | 96.20 |
设计仿真实验场景,设置100个距基站 200 m范围内随机均匀分布传感器节点,50个边缘服务器均匀分布在8个相同面积的区域内,假设已知带宽35 MHz,,传感器的数据上传速度为6.8 Mbps,上传功率为1 800 MW,设备空闲状态时放电功率为 200 MW,边缘传感设备的极限CPU主频为2 GHz。分配中国西北部某城市2018-2020年PM2.5数据作为传感节点获取的时序集合,采用直接传输方式与中继转发方式将数据传输至边缘服务器,经计算获取分类结果,传输至服务云端。
收集的数据通过DiPCA-Shapelet处理,提取的特征要求明显异于其他种类数据,相同性质的时序元素无法起到分类作用,因此,需要去除无显著作用的属性值。通过DiPCA算法结合文献[

图9 DiPCA异常检测
Fig. 9 DiPCA anomaly detection

图10 动态局部子序列可视化
Fig. 10 Dynamic local subsequence visualization
SSA-SVM模型进行分类运算,采用惯性权重原理优化步长参数,当麻雀数量为30,精确度相比较于原算法显著提升;当麻雀数量为60,精确度已处于收敛状态并达到92%。算法召回率初期已上升至67%,后期上升趋势平稳,但最终结果未有大幅度上升,为88.6%,仍有改进前景。
根据仿真场景提供的参数,按经验缓存数据,按照任务卸载运行流程,采用SVM、朴素贝叶斯(Naive Bayesian,NB)、LSTM神经分类器、以及提出的组合算法对比不同算法的能耗、成本情况。这里的能耗是指传感设备边缘端点数据处理的能耗总和,由本地执行的CPU功率能耗以及任务卸载情况下的上传能耗与CPU空闲放电能耗共同组成;其成本费用是指简化仿真条件,只考虑任务卸载后的全体边缘设备的运营费用总和。任务数量相同的前提条件下,提出的算法通过缩小观察数据的跨度,提取实用信息,有效降低了能耗。从成本的角度看,与其他算法相比基本持平(如
算法 | 能耗/kW | 成本/RMB |
---|---|---|
本文算法 | 1 647 | 430 |
SVM | 1 780 | 480 |
NB | 1 766 | 532 |
LSTM神经分类器 | 1 853 | 577 |
提出了一种新颖的时间序列分类组合算法,可以在压缩数据的前提下捕捉时间序列异或特征,SSA智能优化SVM算法的罚因子与核函数关键参数,充分运用动态信息,获取关键分类差异性特征,分类效果明显上升;该算法可以尝试与边缘计算框架有机结合,规避了复杂的数据重构过程,并从资源消耗的角度分析该算法实用性较高,可行性极强。但由于算法在进行数据压缩与子序列再提取的过程中,部分数据集容量较小时,可能会出现提取特征不全面的问题,这导致算法运行时间会因未满足信息增益的最低要求而延长,应思考如何调整算法的步骤使其更加适合不同特性的数据集。并在今后的研究中,重点为智能化任务卸载策略与数据分类功能结合,形成一个完整的智能框架结构。
参考文献
Ku W F, Storer R H, Georgakis C. Disturbance detection and isolation by dynamic principal component analysis[J]. Chemometrics and Intelligent Laboratory Systems, 1995, 30(1): 179-196. [百度学术]
李德文, 郭胜均. 中国煤矿粉尘防治的现状及发展方向[J]. 金属矿山, 2009(S1): 747-752. [百度学术]
Li D W, Guo S J. Situation and development direction of dust prevention and treatment for China coal mine[J]. Metal Mine, 2009(S1): 747-752. (in Chinese) [百度学术]
Dong Y N, Qin S J. A novel dynamic PCA algorithm for dynamic data modeling and process monitoring[J]. Journal of Process Control, 2018, 67: 1-11. [百度学术]
原继东, 王志海, 韩萌. 基于Shapelet剪枝和覆盖的时间序列分类算法[J]. 软件学报, 2015, 26(9): 2311-2325. [百度学术]
Yuan J D, Wang Z H, Han M. Shapelet pruning and shapelet coverage for time series classification[J]. Journal of Software, 2015, 26(9): 2311-2325. (in Chinese) [百度学术]
闫欣鸣, 孟凡荣, 闫秋艳. 基于趋势特征表示的shapelet分类方法[J]. 计算机应用, 2017, 37(8): 2343-2348, 2356. [百度学术]
Yan X M, Meng F R, Yan Q Y. Shapelet classification method based on trend feature representation[J]. Journal of Computer Applications, 2017, 37(8): 2343-2348, 2356. (in Chinese) [百度学术]
Dorigo M, Maniezzo V, Colorni A. Ant system: optimization by a colony of cooperating agents[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 1996, 26(1): 29-41. [百度学术]
Karaboga D, Akay B. A comparative study of artificial bee colony algorithm[J]. Applied Mathematics and Computation, 2009, 214(1): 108-132. [百度学术]
Xue J K, Shen B. A novel swarm intelligence optimization approach: sparrow search algorithm[J]. Systems Science & Control Engineering, 2020, 8(1): 22-34. [百度学术]
朱清智, 董泽, 马宁. 基于即时学习算法的短期负荷预测方法[J]. 电力系统保护与控制, 2020, 48(7): 92-98. [百度学术]
Zhu Q Z, Dong Z, Ma N. Forecasting of short-term power based on just-in-time learning[J]. Power System Protection and Control, 2020, 48(7): 92-98. (in Chinese) [百度学术]
林昶咏, 吴桂联, 张林垚, 等. 分布式电源接入配电系统优化规划方案[J]. 现代电力, 2019, 36(6): 82-87. [百度学术]
Lin C Y, Wu G L, Zhang L Y, et al. Planning scheme optimization for distributed generation accessed in distribution system[J]. Modern Electric Power, 2019, 36(6): 82-87. (in Chinese) [百度学术]
Xiao Z W, Xu X, Zhang H X, et al. A new multi-process collaborative architecture for time series classification[J]. Knowledge-Based Systems, 2021, 220: 106934. [百度学术]
Zhang W, Wang Z H, Yuan J D, et al. Shapelet discovery by lazy time series classification[J]. Computational Intelligence and Neuroscience, 2020, 2020: 1978310. [百度学术]
Wang W, Hu X H, Wang M Y, et al. Implementation of parallel algorithm technology for time series data mining[J]. Journal of Physics: Conference Series, 2021,2066:012043. [百度学术]
Arathi M. An efficient and accurate time series classification using shapelets[J]. International Journal of Information and Electronics Engineering, 2014, 4(5): 347-353. [百度学术]
Dempster A, Petitjean F, Webb G I. ROCKET: exceptionally fast and accurate time series classification using random convolutional kernels[J]. Data Mining and Knowledge Discovery, 2020, 34(5): 1454-1495. [百度学术]
Alamir M A. A novel acoustic scene classification model using the late fusion of convolutional neural networks and different ensemble classifiers[J]. Applied Acoustics, 2021, 175: 107829. [百度学术]
Zhang J T, Shen W M, Gao L, et al. Time series classification by shapelet dictionary learning with SVM-based ensemble classifier[J]. Computational Intelligence and Neuroscience, 2021, 2021: 1-13. [百度学术]
Mahmud M A. Isolated area load forecasting using linear regression analysis: practical approach[J]. Energy and Power Engineering, 2011, 3(4): 547-550. [百度学术]
Liang Z Y, Wang H Z. Efficient class-specific shapelets learning for interpretable time series classification[J]. Information Sciences, 2021, 570: 428-450. [百度学术]
Zheng K D, Chen Q X, Wang Y, et al. A novel combined data-driven approach for electricity theft detection[J]. IEEE Transactions on Industrial Informatics, 2019, 15(3): 1809-1819. [百度学术]
Chatterjee A, Siarry P. Nonlinear inertia weight variation for dynamic adaptation in particle swarm optimization[J]. Computers & Operations Research, 2006, 33(3): 859-871. [百度学术]