摘要
多隐含层长短期记忆神经网络(long short-term memory,LSTM)循环神经网络权值与阈值更新依赖梯度下降算法,模型收敛速度慢,网络节点的权值计算易出现局部极值,导致LSTM神经网络模型不能得到全局最优,网络模型泛化能力下降,限制LSTM循环神经网络的应用。因此,利用加速粒子群优化算法(accelerated particle swarm optimization,APSO)的优化能力,提出一种改进LSTM神经网络模型。该模型将均方根误差设计为适宜值函数,并利用APSO算法构建寻优策略,对各神经元节点间的权值进行全局优化,提升模型的泛化和预测性能。通过经典DataMarket及UCI数据集的实验结果表明,APSO-LSTM模型的预测精度较传统LSTM模型有显著提升,验证了APSO-LSTM模型的有效性和实用性。
关键词
随着深度学习的迅猛发展,人工智能已成为众多学者研究的热点之
上述大多是以改进LSTM的网络结构为目标,当隐含层数过多时,LSTM神经网络的收敛速度较慢,模型参数的修正往往只能得到局部最优。目前,已有越来越多的研究着眼于群体智能算法,并用其优化神经网络的权值及阈值等参数。Lin
本文提出基于APSO算法优化的LSTM神经网络模型APSO-LSTM(accelerated particle swarm optimized-long short-term memeroy),该模型通过将LSTM神经网络的预测结果的均方根误差设计为适宜值函数,并利用APSO算法构建寻优空间,对LSTM中网络节点间的权重值进行全局优化,提升模型泛化能力。同时,利用所提的APSO-LSTM神经网络模型在经典数据集上建立预测模型,验证该模型的有效性。
LSTM神经网络模型是由遗忘门、输入门及输出门等3个门控单元和cell单元组成,通过门控单元来学习并记忆时序数据,在较大程度上抑制梯度消失,且维系长距离的时序信息依赖,擅于处理时序问题。标准LSTM的神经元结构如

图1 LSTM神经元结构
Fig. 1 LSTM neuronal structure
设输入序列为,则在t时刻:
1)INPUT GATE为输入门,主要处理输入数据
, | (1) |
2)FOGET GATE为遗忘门,主要负责决定当前神经元记忆的历史时序信息的保留程度
。 | (2) |
3)OUTPUT GATE为输出门,表示该神经元的输出结果
, | (3) |
式中:表示t时刻神经元的输入;t-1表示t-1时刻该隐含层的输出状态;、以及分别表示t时刻该神经元的输入和输入门、遗忘门以及输出门的权重矩阵;、、分别表示输入门、遗忘门以及输出门的偏置向量;表示输入和cell单元之间的权重矩阵;表示t时刻cell单元输出为
, | (4) |
表示t时刻该隐含层的输出状态信息
。 | (5) |
当LSTM网络有多个隐含层时,仅表示第1层隐含层神经元的输入,则表示t时刻其余隐含层对应的输入;tanh为激励函数,S表示Sigmoid函数。深度LSTM神经网络是以标准LSTM神经单元为基础,构建包含1个或多个隐含层的网络模型,通过遗忘门不断遗弃冗余,以存储有用的时序信息,保持长距离依赖关系,具有较强时序数据挖掘能力。
粒子群优化算法(particle swarm optimization,PSO)是由Eberhar
标准PSO中速度及位置的更新方程
, | (6) |
, | (7) |
式中:为粒子的速度;为其当前所在的位置;为该单个粒子在搜索过程中的历史最佳位置;为整个种群的全局最佳位置,下标是需要优化问题的空间维度数
PSO算法在寻优过程中,易出现局部极值,且收敛速度较慢。在大多数优化情况下,不必运用粒子自身的历史最佳位置来更新粒子状态,这会增加训练开销且收敛较慢,可通过随机数技术实现粒子自身的多样
。 | (8) |
。 | (9) |
同时,APSO算法也重写了粒子的位置更新公式。如
, | (10) |
式中,0 <δ<1,可将其设置为0.1~0.99间的任意参数,这里,为迭代的最大次数。
考虑到LSTM存在收敛速度慢,且权值与阈值等网络参数的修正往往会陷入局部最优。而APSO算法是PSO算法的一种衍生优化模型,寻优性能更强。故本文运用APSO优化算法对LSTM神经网络的权值进行调优,可使网络中神经元节点间权重的取值更合理,提高模型的泛化能力和表征能力。
本文根据LSTM神经网络中全部的神经单元数目,决定APSO中粒子群的粒子数目,以各神经元输出的均方根误差作为适宜度函数,构建APSO寻优空间,对训练完成后的网络原始权值进行全局寻优,最终完成对整个LSTM网络的参数优化。
本文所提的APSO-LSTM模型,采用实数编码形式,

图2 含3层隐含的LSTM神经网络结构图
Fig. 2 3-layer implicit LSTM neural network structure diagram
依据

图3 APSO-LSTM模型编码图
Fig. 3 Model coding diagram of APSO-LSTM
在APSO-LSTM模型中,设计粒子的适宜值函数,对种群中的粒子进行评价。不同于传统的PSO算法,本文将LSTM模型输出值与实际值的均方根误差设计为粒子的适宜值函数,衡量该粒子的重要性。均方根误差越小,则该粒子对应的LSTM模型权值设置就越合理,模型的泛化能力越强。
均方根误差,通常用RMSE表示。RMSEi说明了粒子在迭代过程中获取的全局最优解在训练集上的均方根误差值,也是APSO算法的适宜值函数。其计算过程如
, | (11) |
式中:n为粒子群的种群个数;为训练集的数目;是粒子对应的LSTM模型的预测结果;为实际值。
APSO-LSTM网络是通过APSO对LSTM网络的初始权重值进行映射,将每个节点的各权重值都映射成粒子的某维属性,使每个粒子成为整个神经网络的候选权值解集合。运用APSO寻优网络,对网络的权值再全局调优,使神经元节点间权重的取值更合理,提高LSTM网络模型的预测性能和精度。

图4 APSO-LSTM模型流程图
Fig. 4 Model flowchart of APSO-LSTM
1)初始化LSTM神经网络及APSO算法。如LSTM网络的结构、节点数目、APSO的种群数量、迭代次数等参数。
2)训练LSTM神经网络,得出默认的最优权值。
3)利用
4)搜寻全局最优粒子。将各粒子适宜值与最优粒子的适宜值比较,取适宜值较小者,设为新的全局最优粒子。
6)迭代次数n+1,判断当前n是否大于迭代次数的最大值,若大于跳转步骤7),否则跳转步骤3)。
7)若每次迭代中最优粒子的适宜值变化小于阈值,则中止迭代,否则继续迭代,直到满足算法停止条件。最后,输出全局最优粒子,该粒子对应该LSTM网络最优的权值分布。
建立了基于LSTM、GA-LSTM、ACO-LSTM、PSO-LSTM及APSO-LSTM的神经网络预测模型。GA-LSTM:基于遗传算法优化权值LSTM模型;ACO-LSTM:基于蚁群算法优化权值LSTM模型;PSO-LSTM:基于PSO算法优化权值LSTM模型。通过对比各模型在不同数据集上的预测精度,验证所提APSO-LSTM模型的性能。
实验的软件环境配置为:深度学习框架tensorflow1.10.0;编程语言为Python3;计算机操作系统为Ubuntu16.4。其硬件配置为:CPU为IntelCore i5-6300 3.20 GHz,内存为64 G,显卡为Nvidia GeForce GTX 1080Ti。
选用DataMarket中的洗发水销售数据集(shampoo sales dataset,SSD)、日较低温度数据集(minimum daily temperatures dataset,MDTD)以及UCI数据库中的臭氧水平检测数据集(ozone level detection dataset,OLD)。其中,SSD刻画了3年期间的某洗发水销售数据,实验主要预测其月销售量;MDTD描述了墨尔本市连续10年的天气温度数据,本实验主要对其日最低温度进行预测;OLD数据集则记录了地面臭氧浓度数据,本实验主要预测未来1段时间的臭氧浓度,属于时序预测问题。
通过数据预处理、训练数据集及模型验证等步骤,分别建立基于GA-LSTM、ACO-LSTM、PSO-LSTM及APSO-LSTM的神经网络预测模型。对预处理后的数据集,取前70%作为训练集,20%作为验证集,10%为测试集。所建立4种模型的网络结构是一致的,输入层和输出层均设为1层,隐含层均设为4层。同时,采用误差平方和SSE作为测试模型预测性能的指标,如
, | (12) |
式中:n为测试集的数目;表示模型的预测结果;表示真实值。SSE值越小,则表明该模型的预测精度越高,不同数据集下3种预测模型收敛速度对比分析如
数据集 | 神经网络预测模型收敛步数(2%精度) | ||
---|---|---|---|
LSTM | PSO-LSTM | APSO-LSTM | |
SSD | 341 | 310 | 280 |
MDTD | 370 | 361 | 330 |
OLD | 402 | 389 | 357 |
平均步数 | 371 | 353.3 | 332.3 |
由
神经网络模型训练完成后,将上述3种数据集的测试集依次输入到各模型,即可得到实验的仿真结果。
数据集 | 神经网络预测模型 | ||
---|---|---|---|
LSTM | PSO-LSTM | APSO-LSTM | |
SSD | 312.0 | 277.8 | 245.6 |
MDTD | 292.7 | 267.1 | 243.2 |
OLD | 369.4 | 330.3 | 301.8 |
平均SSE值 | 405.0 | 307.5 | 256.2 |

图5 3种模型SSE值对比图
Fig. 5 Comparison chart of SSE values for 3 models

图6 4种模型的平均SSE值
Fig. 6 Average SSE values of 4 models
MDTD数据集记录了墨尔本市连续10年的天气温度数据,本实验在测试过程中记录了墨尔本某月份连续10天日最低温度的实际值与4种模型的预测值,结果如
天数 | 实际温度 | GA-LSTM 预测值 | ACO-LSTM 预测值 | PSO-LSTM 预测值 | APSO-LSTM预测值 |
---|---|---|---|---|---|
1 | 20.7 | 18.4 | 18.5 | 19.6 | 20.5 |
2 | 17.9 | 18.9 | 17.2 | 18.6 | 18.3 |
3 | 14.6 | 12.1 | 12.6 | 12.7 | 13.7 |
4 | 18.3 | 17.2 | 17.5 | 19 | 18.4 |
5 | 17.1 | 16 | 16.3 | 16.5 | 16.7 |
6 | 20.3 | 21.5 | 18.9 | 19.6 | 20.1 |
7 | 19.6 | 21.2 | 19.5 | 20.5 | 19.9 |
8 | 15.5 | 14.3 | 14.9 | 16.1 | 15.1 |
9 | 16.8 | 16.2 | 16.4 | 17.3 | 16.9 |

图7 APSO模型关于墨尔本天气的预测结果
Fig. 7 The prediction results of APSO model for Melbourne weather

图8 4种模型关于墨尔本天气的预测结果
Fig. 8 Prediction results of four models for Melbourne weather
对LSTM神经网络的优化已成为研究热点。本文针对标准LSTM神经网络中存在的收敛速度慢、权值的修正易陷入局部极值等问题,提出基于APSO优化的LSTM神经网络模型。实验结果表明,与GA-LSTM、ACO-LSTM、PSO-LSTM模型相比,APSO-LSTM模型在SSD、OLD及MDTD等3种数据集下的平均SSE值降低9.7%~22.6%,其预测误差最小,预测性能较同类算法有显著提升。因此,APSO-LSTM神经网络模型能充分学习数据中的信息关联,具有较强预测性能,也提供了新的神经网络优化思路。
参考文献
Wu J S, Long J, Liu M Z. Evolving RBF neural networks for rainfall prediction using hybrid particle swarm optimization and genetic algorithm[J]. Neurocomputing, 2015, 148: 136-142. [百度学术]
Graves A, Mohamed A R, Hinton G. Speech recognition with deep recurrent neural networks[C]//2013 IEEE International Conference on Acoustics, Speech and Signal Processing. Vancouver, Canada: IEEE, 2013: 6645- 6649. [百度学术]
Sutskever I, Vinyals O, Le Q V. Sequence to sequence learning with neural networks[C]//27th International Conference on Neural Information Processing Systems. New York: ACM, 2014: 3104-3112. [百度学术]
Meng F D, Lu Z D, Tu Z P, et al. Neural transformation machine: a new architecture for sequence-to-sequence learning[EB/OL]. (2015-06-22)[2020-06-12]. http://arxiv.org/abs/1506.06442. [百度学术]
Donahue J, Hendricks L-A, Rohrbach M, et al. Long-term recurrent convolutional networks for visual recognition and description[J]. IEEE Transaction Pattern Analysi Macine Intelligence, 2017, 39(4): 677-691. [百度学术]
Srivastava N, Mansimov E, Salakhutdinov R. Unsupervised learning of video representations using LSTMs[EB/OL]. (2015-02-16)[2020-06-12].https://doi.org/10.48550/arXiv.1502.04681. [百度学术]
Chatterjee S, Bandopadhyay S. Reliability estimation using a genetic algorithm-based artificial neural network:an application to a load-haul-dump machine[J]. Expert Systems with Applications, 2012, 39(12): 10943-10951. [百度学术]
Bengio Y, Simard P, Frasconi P. Learning long-term dependencies with gradient descent is difficult[J]. IEEE Transactions on Neural Networks, 1994, 5(2): 157-166. [百度学术]
Hochreiter S, Schmidhuber J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780. [百度学术]
Li C B, Zhan G H, Li Z H. News text classification based on improved Bi-LSTM-CNN[C]//2018 9th International Conference on Information Technology in Medicine and Education (ITME). Hangzhou, China: IEEE, 2018: 8 90-893. [百度学术]
Song B N, Fan C X, Wu Y X, et al. Data prediction for public events in professional domains based on improved RNN-LSTM[J]. Journal of Physics: Conference Series, 2018, 976: 012007. [百度学术]
Lin M L, Chen C X. Short-term prediction of stock market price based on GA optimization LSTM neurons[C]//2018 2nd International Conference o Deep Learning Technologiesn. New York: ACM, 2018: 66-70. [百度学术]
ElSaid A, Higgins J. Optimizing long short-term memory recurrent neural networks using ant colony optimization to predict turbine engine vibration[J]. Applied Soft Computing, 2018, 73: 969-991. [百度学术]
Yang X S. Nature-inspired metaheuristic algorithms [M]. [s.l]: Luniver press, 2010. [百度学术]
Kennedy J, Eberhart R. Particle swarm optimization[C] //Proceedings of ICNN’95-International Conference on Networks Neural. Perth, Australia: IEEE, 1995: 194 2-1948. [百度学术]
Gandomi A H, Alavi A H. Krill herd: a new bio-in spired optimization algorithm[J]. Communications in Nonlinear Science and Numerical Simulation, 2012, 17(12): 4831-4845. [百度学术]