摘要
在选矿行业中,准确地预测精矿品位可以帮助工程师提前调整工艺参数,提高浮选性能。但在实际选矿过程中,采集数据存在样本量少、维度高、时序相关性复杂等问题,限制了精矿品位的预测精度。针对小样本数据的预测问题,提出了一种将Wasserstein生成对抗网络(Wasserstein generative adversarial network,Wasserstein GAN)和长短期记忆网络(long short-term memory,LSTM)相结合的时间序列数据生成模型LS-WGAN,主要利用LSTM网络来获取选矿数据中的时间相关性,再通过Wasserstein GAN网络生成与原始数据分布相似的样本进行数据增强;为了更加准确地预测精矿品位,建立了浮选预测模型C-LSTM,并基于真实泡沫浮选工艺数据实验验证了所提出方法的预测准确性。
泡沫浮选是选矿工业中应用最广泛和最重要的分离方法之
浮选过程是一个高度复杂和动态的环境,其中的物理、化学规律尚未得到很好的解释,很难根据数学机理对浮选过程进行有效建
针对样本数据少的问题,研究人员提出了数据增强方
笔者采用Wasserstein生成对抗网络(Wasserstein generative adversarial network,Wasserstein GAN)和LSTM网络建立了时间序列数据生成模型LS-WGAN,主要利用LSTM网络来获取浮选数据中的时间相关性,将提取信息输入Wasserstein GAN生成真实变化的浮选数据样本,然后建立了一种浮选纯度预测模型C-LSTM,该模型基于浮选过程中的工艺数据去预测铁精矿中二氧化硅的含量,通过对比不同模型的预测结果,实验证明了LS-WGAN数据增强的有效性和预测模型C‑LSTM的准确性。
生成对抗网络是一种无监督学习算
。 | (1) |
式中:pdata和pg分别表示真实样本x和随机噪声z的分布;表示生成的伪样本;表示真实样本被判定为真的概率;表示伪样本被判定为真的概率。由于原始GAN算法存在训练不稳定和梯度消失的问题,Arjovsky
。 | (2) |
式中,是函数,为了满足条件,Wasserstein GAN中采用权重裁剪的方法对判别器中的权重加以约束。
循环神经网络(recurrent neural network,RNN)由于其特殊的结构,主要用于长期依赖关系建

图1 LSTM的结构
Fig. 1 LSTM structure
LSTM的计算过程如下:
, | (3) |
, | (4) |
。 | (5) |
式中:t代表第t个时间间隔;it、ot、ft、xt、ct、ht分别代表输入门、输出门、遗忘门、输入数据、记忆单元和隐藏单元;σ表示sigmod激活函数;W和b分别为权重矩阵和偏置向量;tanh为双曲正切函数,整个训练过程中使用反向传播算法和优化函数来对参数进行优化。
浮选过程中的实时数据采集是一项费时费力的工作,因此,提出了一个时间序列数据生成模型LS-WGAN进行数据增强,然后通过模型C-LSTM去预测铁精矿中二氧化硅的含量。整个数据增强算法的流程如

图2 数据增强算法流程图
Fig. 2 Flowchart of data augmentation algorithm
首先对样本数据集进行预处理,将预处理后的数据集按照一定比例划分为训练集和测试集;然后建立LS-WGAN生成模型,使用全部样本数据集对LS-WGAN进行训练,直到满足训练要求;接着建立C-LSTM预测模型,使用LS-WGAN生成新的样本加入训练集中形成增强数据集,用增强数据集训练C-LSTM;最后,使用测试集测试C-LSTM,得到预测结果。
LS-WGAN模型由生成器G和判别器D组成,结构如

图3 LS-WGAN的结构
Fig. 3 LS-WGAN structure
为了获取数据中的时间依赖性,LS-WGAN的判别器和生成器主要由LSTM层和全连接层构成。生成器G由3个LSTM层组成,每层的LSTM单元个数分别为128、128和23。生成器G接收序列(T是训练数据序列的长度),在每个时间点t,从均匀随机分布[-1,1]中独立采样,然后被送入生成器。在t时刻,LSTM层的第l层中的第i个LSTM单元的输出被传递到(l+1)层中的第j个LSTM单位,最后一层输出生成的时间序列。判别器由2个LSTM层和全连接层组成,每层的LSTM单元数为128个,给定输入序列,判别器输出代表真实样本和生成样本之间Wasserstein距离的标量值。
在LS-WGAN训练过程中,D和G进行极小极大博弈,其价值函数定义为
。 | (6) |
式中:和分别代表训练数据x和随机噪声z的分布,E表示下标中指定分布的期望值。首先从分布中采集m个随机序列样本,再从分布中采集m个样本。为了克服损失函数在更新过程中摆动幅度过大的问题,Wasserstein GAN的优化器使用均方根传递(root mean square prop,RMSProp)算法代替原始GAN中的随机梯度下降(stochastic gradient descent,SGD)算
。 | (7) |
式中:和分别代表判别器和生成器的权重参数。
从分布中采集m个随机序列样本,更新生成器G的权重如下:
。 | (8) |
不断重复上述训练直到生成器和判别器达到纳什平衡。
浮选数据集由进出料纯度参数和工艺参数两部分组成,由于两部分数据的特征维度大小不同,设计了一个双输入深度学习模型C-LSTM。本研究中浮选厂的主要目标是将铁矿石中的二氧化硅颗粒分离出来,因此,只将铁精矿中的二氧化硅含量作为目标输出。预测模型C-LSTM的结构如

图4 C-LSTM的结构
Fig. 4 C-LSTM structure
C-LSTM主要有2个接收数据的分支,分别用来接收进出料纯度参数和工艺参数。由于卷积神经网络(convolutional neural network,CNN)强大的特征提取和降维能力,模型中使用一维卷积神经网络对输入的高维数据进行特征提取,经过激活层进行非线性化以及最大池化层进行降维,把提取的特征信息送入LSTM层中获取特征之间的时间相关性,最终将2个分支的信息合并,经过全连接层得到目标输出。卷积层中卷积核的数量分别为16和32,激活函数用Relu,3个LSTM层中单元个数都是30。将适应性矩估计(adaptive moment estimation,Adam)算法作为C-LSTM模型训练的优化器,C-LSTM的训练损失函数如下:
。 | (9) |
式中:表示目标输出;表示模型的预测输出;表示每次迭代中的样本个数。
实验数据集由一个铁矿石浮选厂收集于2017年4月2日24点至9月9日23点,采用阳离子捕收剂反浮选法从铁矿石中分离二氧化硅颗粒。数据集包括工艺参数和进出料中铁与二氧化硅的含量2部分,其中工艺参数一共有19个,采样间隔是20 s;进出料纯度参数一共有4个,采样间隔是1 h,总共691 200条数据样本,如
。 | (10) |
式中:表示待归一化的数据,和分别表示中的最小值和最大值,表示经过归一化处理后的值。
参数类型 | 参数及单位 | 释义 | 采样间隔 |
---|---|---|---|
进出料 纯度 | %Iron Feed,% | 原矿石铁含量(质量分数) | 1 h |
%Silica Feed,% | 原矿石二氧化硅含量(质量分数) | ||
%Iron concentrate,% | 精矿铁含量(质量分数) | ||
%Silica concentrate,% | 精矿二氧化硅含量(质量分数) | ||
浮选 工艺 参数 |
Starch Flow, | 淀粉抑制剂用量 | 20 s |
Amina Flow, | 胺类捕收剂用量 | ||
Ore Pulp Flow,t∙ | 矿浆流量 | ||
Ore Pulp pH[0~14] | 矿浆pH值 | ||
Ore Pulp Density,kg∙c | 矿浆浓度 | ||
Flotation Air Flow 1-7,N | 浮选槽1~7中的空气流量 | ||
Flotation Level 1-7,mm | 浮选槽1~7中的泡沫层厚度 |
LS-WGAN训练的批次大小设置为64,生成器和判别器的学习率统一设置为0.000 05。C-LSTM的训练学习率设置为0.000 1,其批次大小和训练次数分别设置为64和200。实验基于Tensorflow 2.0深度学习框架,选取显卡Nvidia GTX3070于Windows 10平台进行训练。为了验证预测模型的精度,通过平均绝对误差(mean square error,MAE)和均方根误差(root mean square error,RMSE)评价模型的预测性能,MAE衡量模型预测值和真实值之间的平均绝对误差,RMSE衡量了预测值与真实值之间的均方根误差,计算公式如下。
, | (11) |
。 | (12) |
式中:表示第个真实值;表示第个预测值;表示样本的个数。
首先将原始数据集中的640个样本全部用于生成模型LS-WGAN的训练,模型的训练损失值变化如

图5 LS-WGAN的训练损失曲线
Fig. 5 The training loss curve of LS-WGAN
使用训练集对预测模型C-LSTM进行训练,为了更加直观地评估C-LSTM的预测性能,将模型对测试集的预测值和真实值逐点比较,结果如

图6 实际值与预测值相比较
Fig. 6 Comparison of actual and predicted values
为了证明LS-WGAN数据增强的有效性,分别用原始数据集和增强数据集训练C-LSTM。增强数据集以原始数据集为基础,数据集设置如
数据集 | 真样本个数 | 伪样本个数 | 数据集 | 真样本个数 | 伪样本个数 | 数据集 | 真样本个数 | 伪样本个数 |
---|---|---|---|---|---|---|---|---|
A | 640 | 0 | H | 640 | 350 | O | 640 | 700 |
B | 640 | 50 | I | 640 | 400 | P | 640 | 750 |
C | 640 | 100 | J | 640 | 450 | Q | 640 | 800 |
D | 640 | 150 | K | 640 | 500 | R | 640 | 850 |
E | 640 | 200 | L | 640 | 550 | S | 640 | 900 |
F | 640 | 250 | M | 640 | 600 | |||
G | 640 | 300 | N | 640 | 650 |
实验结果如
数据集 | MAE/% | RMSE/% | ||||||
---|---|---|---|---|---|---|---|---|
C-LSTM | LSTM | 1D-CNN | FNN | C-LSTM | LSTM | 1D-CNN | FNN | |
A | 0.42 | 0.46 | 0.63 | 0.59 | 0.61 | 0.62 | 0.87 | 0.83 |
B | 0.38 | 0.45 | 0.53 | 0.49 | 0.54 | 0.62 | 0.78 | 0.75 |
C | 0.38 | 0.40 | 0.51 | 0.48 | 0.56 | 0.61 | 0.76 | 0.73 |
D | 0.32 | 0.37 | 0.47 | 0.45 | 0.48 | 0.53 | 0.71 | 0.69 |
E | 0.38 | 0.35 | 0.47 | 0.43 | 0.58 | 0.51 | 0.72 | 0.68 |
F | 0.34 | 0.34 | 0.44 | 0.40 | 0.55 | 0.54 | 0.70 | 0.66 |
G | 0.29 | 0.30 | 0.39 | 0.37 | 0.46 | 0.50 | 0.65 | 0.62 |
H | 0.28 | 0.27 | 0.4 | 0.37 | 0.48 | 0.47 | 0.63 | 0.62 |
I | 0.26 | 0.27 | 0.37 | 0.36 | 0.48 | 0.44 | 0.64 | 0.61 |
J | 0.28 | 0.28 | 0.37 | 0.36 | 0.48 | 0.46 | 0.65 | 0.60 |
K | 0.29 | 0.31 | 0.41 | 0.40 | 0.51 | 0.54 | 0.67 | 0.65 |
L | 0.33 | 0.36 | 0.38 | 0.39 | 0.55 | 0.63 | 0.67 | 0.65 |
M | 0.25 | 0.27 | 0.36 | 0.35 | 0.50 | 0.47 | 0.64 | 0.62 |
N | 0.27 | 0.26 | 0.35 | 0.32 | 0.47 | 0.50 | 0.65 | 0.62 |
O | 0.27 | 0.27 | 0.38 | 0.35 | 0.49 | 0.50 | 0.66 | 0.63 |
P | 0.23 | 0.25 | 0.32 | 0.29 | 0.49 | 0.50 | 0.63 | 0.59 |
Q | 0.23 | 0.24 | 0.35 | 0.34 | 0.43 | 0.45 | 0.63 | 0.62 |
R | 0.23 | 0.23 | 0.36 | 0.33 | 0.49 | 0.50 | 0.64 | 0.62 |
S | 0.23 | 0.22 | 0.34 | 0.32 | 0.45 | 0.43 | 0.62 | 0.61 |
C-LSTM、LSTM、1D-CNN以及FNN的预测误差变化如

图7 4种预测模型的平均绝对误差和均方根误差
Fig. 7 The MAE and RMSE of four prediction models
在实际选矿生产过程中,通过建立浮选工艺参数和浮选性能指标之间的映射可以帮助企业进行工艺参数优化,提高浮选性能。但是实时采集的数据量通常不能满足需求,数据的稀缺性限制了深度学习模型的性能。笔者提出了一种将Wasserstein生成对抗网络和长短期记忆网络相结合的时间序列数据生成模型LS‑WGAN,对浮选数据集进行数据增强。基于一个铁矿石浮选厂的工艺数据,实验证明了LS-WGAN数据增强的有效性和C-LSTM模型预测的准确性。但是随着生成样本增加,模型的预测误差没有持续下降到零,并且在减小的过程中存在波动,这可能是由LS-WGAN模型的生成样本与真实样本仍然存在差距引起的。未来的工作应该集中于改进生成模型以生成更高质量的样本。总之,提出的数据生成模型和预测模型将促进深度学习方法在浮选过程中的应用,并有助于实现浮选效率的优化和性能的提升。
参考文献
Shean B J, Cilliers J J. A review of froth flotation control[J]. International Journal of Mineral Processing, 2011, 100(3/4): 57-71. [百度学术]
Wang G C, Nguyen A V, Mitra S, et al. A review of the mechanisms and models of bubble-particle detachment in froth flotation[J]. Separation and Purification Technology, 2016, 170: 155-172. [百度学术]
Fan G X, Wang L G, Cao Y J, et al. Collecting agent–mineral interactions in the reverse flotation of iron ore: a brief review[J]. Minerals, 2020, 10(8): 681. [百度学术]
Vieira S M, Sousa J M C, Durão F O. Fuzzy modelling strategies applied to a column flotation process[J]. Minerals Engineering, 2005, 18(7): 725-729. [百度学术]
Aldrich C, Moolman D W, Gouws F S, et al. Machine learning strategies for control of flotation plants[J]. IFAC Proceedings Volumes, 1995, 28(17): 99-105. [百度学术]
McCoy J T, Auret L. Machine learning applications in minerals processing: a review[J]. Minerals Engineering, 2019, 132: 95-109. [百度学术]
Nakhaei F, Mosavi M R, Sam A, et al. Recovery and grade accurate prediction of pilot plant flotation column concentrate: neural network and statistical techniques[J]. International Journal of Mineral Processing, 2012, 110/111: 140-154. [百度学术]
Chelgani S C, Shahbazi B, Rezai B. Estimation of froth flotation recovery and collision probability based on operational parameters using an artificial neural network[J]. International Journal of Minerals, Metallurgy, and Materials, 2010, 17(5): 526-534. [百度学术]
Chehreh Chelgani S, Shahbazi B, Hadavandi E. Support vector regression modeling of coal flotation based on variable importance measurements by mutual information method[J]. Measurement, 2018, 114: 102-108. [百度学术]
Shahbazi B, Chehreh Chelgani S, Matin S S. Prediction of froth flotation responses based on various conditioning parameters by Random Forest method[J]. Colloids and Surfaces A: Physicochemical and Engineering Aspects, 2017, 529: 936-941. [百度学术]
Pu Y Y, Szmigiel A, Chen J, et al. FlotationNet: a hierarchical deep learning network for froth flotation recovery prediction[J]. Powder Technology, 2020, 375: 317-326. [百度学术]
Pu Y Y, Szmigiel A, Apel D B. Purities prediction in a manufacturing froth flotation plant: the deep learning techniques[J]. Neural Computing and Applications, 2020, 32(17): 13639-13649. [百度学术]
Montanares M, Guajardo S, Aguilera I, et al. Assessing machine learning-based approaches for silica concentration estimation in iron froth flotation[C]//2021 IEEE International Conference on Automation/XXIV Congress of the Chilean Association of Automatic Control (ICA-ACCA), March 22-26, 2021, Valparaíso, Chile. IEEE, 2021: 1-6. [百度学术]
Wen Q S, Sun L, Yang F, et al. Time series data augmentation for deep learning: a survey[C]//Proceedings of the Thirtieth International Joint Conference on Artificial Intelligence, August 19-27, 2021, Montreal, Canada. California: International Joint Conferences on Artificial Intelligence Organization, 2021: 4653-4660. [百度学术]
Shorten C, Khoshgoftaar T M, Furht B. Text data augmentation for deep learning[J]. Journal of Big Data, 2021, 8: 101. [百度学术]
Shorten C, Khoshgoftaar T M. A survey on image data augmentation for deep learning[J]. Journal of Big Data, 2019, 6: 60. [百度学术]
Olson M, Wyner A J, Berk R. Modern neural networks generalize on small data sets[C]//Proceedings of the 32nd International Conference on Neural Information Processing Systems. New York: ACM, 2018: 3623-3632. [百度学术]
Shao S Y, Wang P, Yan R Q. Generative adversarial networks for data augmentation in machine fault diagnosis[J]. Computers in Industry, 2019, 106: 85-93. [百度学术]
Zhao B X, Yuan Q. Improved generative adversarial network for vibration-based fault diagnosis with imbalanced data[J]. Measurement, 2021, 169: 108522. [百度学术]
Chawla N V, Bowyer K W, Hall L O, et al. SMOTE: synthetic minority over-sampling technique[J]. Journal of Artificial Intelligence Research, 2002, 16: 321-357. [百度学术]
Inoue H. Data augmentation by pairing samples for images classification[EB/OL]. 2018 [2022-10-05]. https://arxiv.org/abs/1801.02929 [百度学术]
Zhang H Y, Cisse M, Dauphin Y N, et al. Mixup: beyond empirical risk minimization[EB/OL]. 2017 [2022-10-05]. https://arxiv.org/abs/1710.09412 [百度学术]
Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial networks[J]. Communications of the ACM, 2020, 63(11): 139-144. [百度学术]
Cubuk E D, Zoph B, Mane D, et al. AutoAugment: learning augmentation policies from data[EB/OL]. 2018 [2022-10-05]. https://arxiv.org/abs/1805.09501 [百度学术]
Fekri M N, Ghosh A M, Grolinger K. Generating energy data for machine learning with recurrent generative adversarial networks[J]. Energies, 2019, 13(1): 130. [百度学术]
Wang J L, Yang Z L, Zhang J, et al. AdaBalGAN: an improved generative adversarial network with imbalanced learning for wafer defective pattern recognition[J]. IEEE Transactions on Semiconductor Manufacturing, 2019, 32(3): 310-319. [百度学术]
Arjovsky M, Chintala S, Bottou L. Wasserstein generative adversarial networks[C]//Proceedings of the 34th International Conference on Machine Learning: PMLR 70, August 6-11, 2017, Sydney, NSW, Australia. New York: ACM, 2017: 214-223. [百度学术]
Elman J L. Finding structure in time[J]. Cognitive Science, 1990, 14(2): 179-211. [百度学术]
Gers F A, Schmidhuber J, Cummins F. Learning to forget: continual prediction with LSTM[J]. Neural Computation, 2000, 12(10): 2451-2471. [百度学术]