摘要
针对安全帽佩戴检测时易受复杂背景干扰,解决YOLOv4网络检测速度慢、内存消耗大、计算复杂度高、对硬件性能要求较高等问题,引入改进YOLOv4算法优化安全帽佩戴检测方法。引入MobileNet网络轻量化YOLOv4、跨越模块特征融合,实现高层语义特征和低层语义特征有效融合。针对图像中小目标分辨率低,信息特征少,多尺度并存,导致在连续卷积过程中易丢失特征信息等问题,采用改进特征金字塔FPN和注意力机制等颈部优化策略聚焦目标信息,弱化安全帽检测时背景信息的干扰。仿真结果表明,基于改进的YOLOv4颈部优化网络安全帽佩戴检测算法在CPU平台下的检测速度为34.28 FPS,是基础YOLOv4网络的16倍,检测精度提升了4.21%,检测速度与检测精度达到平衡。
建筑施工安全是建筑施工现场作业的生命
为实现安全帽佩戴自动检测,研究人员进行大量研究,但基于传统安全帽佩戴检测主要通过捕获边缘、颜色等特
研究的主要贡献为:①充分结合深度学习方法和轻量型网络MobileNet-SSD两者的优点,在YOLOv4网络基础上对其改进,高效准确实现安全帽的检测与识别;②引入轻量型MobileNet网络加快安全帽的佩戴检测速度,解决YOLOv4算法参数量巨大、检测速度缓慢等问题。进一步改进MobileNet网络结构,将浅层语义特征进行加强;③通过改进特征金字塔和引入并改进注意力机制等颈部优化策略聚焦目标信息,解决图像中小目标分辨率低,信息特征少,多尺度并存,小目标在连续卷积过程中容易丢失特征信息等问题;④基于改进YOLOv4算法的安全帽佩戴监测方法实现了在极端可视化条件和极端小目标情况下均对安全帽佩戴的快速准确检测,并且检测速度与检测精度达到平衡。
YOLOv4是经典的目标检测算法,主要是对分帧标注后的图片进行特征提取,利用回归思想对目标进行分类和位置定位,最终得到检验框位置、类别及置信度。YOLOv4在复杂背景下具有优异的检测效果,适用于安全帽佩戴场景检
考虑到实际应用中的视频监控设备多使用CPU平台,不具备GPU的并行加速计算能力,在CPU平台下YOLOv4算法检测速度缓慢,时效性差,难以满足实时性要求,在YOLOv4算法基础上引入MobileNet轻量级网络并对其进行改进。轻量化YOLOv4网络可有效加快检测速度,但对于监控视频中含有多夜间极端条件和极端小目标时易造成安全帽佩戴的漏检、错检等现象。因此在轻量化网络基础上,YOLOv4颈部网络中改进特征金字塔FPN设计了信息连接层,小目标特征信息在提取过程中保持信息完整,获得更好鲁棒性的语义信息,改进注意力机制聚焦目标信息,弱化安全帽检测时背景信息的干扰。
按照改进顺序依次对MobileNet网络、新型特征金字塔和轻量双注意力机制进行介绍。将其称为基于改进的YOLOv4颈部优化网络算法,其网络结构如

图1 基于改进的YOLOv4颈部优化算法网络结构
Fig. 1 Network structure based on improved YOLOv4 neck optimization algorithm
MobileNet是一种兼备检测精度和检测速度的轻量型神经网络,通过构建深度可分离卷积改变网络计算方式,降低网络参数量、模型复杂度,提高模型的检测速度。深度可分离卷积是实现轻量型神经网络最关键一步。深度可分离卷积将标准的卷积分解成逐点卷积和深度卷
假设输入特征图大小为,其输出特征图大小为,其中:表示特征图的高和宽,M和N表示特征图的通道数。
, | (1) |
, | (2) |
, | (3) |
, | (4) |
, | (5) |
其中:为传统卷积参数的总数;深度可分离卷积的总计算量为深度卷积计算量与逐个卷积计算量之和;为深度卷积计算量;为卷积计算量;为深度可分离卷积总计算量与传统卷积计算量之比。明显深度可分离卷积的计算量比传统卷积核小很多,卷积核个数N越大,计算量更大。
YOLOv4网络中的基础网络CSPDarknet53是传统卷积网络,其一层的计算量经
在目标检测领域,一张图片可以产生数以千计的预测样本,其中大部分预测样本与目标检测的背景有关,称其为负样本,只有一小部分样本与检测目标有关为正样本,为减少随机预测框数量,在MobileNet网络基础上创新性引入跨越模块(crossing block),跨越模块由卷积层和池化层组成,如

图2 跨越模块
Fig. 2 crossing block
在MobileNet网络的结构基础上引入跨越模块称其为改进的MobileNet网络,其网络结构如

图3 改进的MobileNet网络结构
Fig. 3 Improved MobileNet network architecture
特征金字塔FPN提出使多尺度特征融合技术在计算机视觉领域得到广泛应用,特征提取能力显著加强。研究人员基于FPN特征网络结构进行跨尺度特征融合的大量研究。FPN特征金字

图4 特征金字塔
Fig. 4 Feature Pyramid Networks
安全帽佩戴检测过程中需要利用摄像头拍摄到的监控画面,摄像头距离施工人员的远近导致拍摄目标大小形状往往各不相同。为了解决多尺度以及在特征提取时浅层语义特征信息丢失问题,笔者研究了一种新的基于双向尺度连接特征融合的新型特征金字塔,如
使用多尺度目的是为了融合不同分辨率下特征图信息。给定一组多尺度输入,其中表示第i层的特征信息。多尺度融合方法其公式为
, | (6) |
, | (7) |
, | (8) |
其中:conv表示卷积操作;Resize表示为了匹配特征尺度进行的上采样或下采样操作。
使用特征加权融合方法对不同特征尺度的特征层进行融合,对每个输入添加额外的权重,使得网络对不同特征输入进行调整与融合,其融合公式如(9)所示
, | (9) |
其中:是一个可学习的权重,其值位于0和1之间。通过添加一个很小的来保证数值的稳定性;表示第i个特征输入量。
如
, | (10) |
, | (11) |
其中:表示层中间层的输出;和Resize跟前文一致;表示输出层的输出。
新型特征金字塔是在BiFPN特征金字塔基础上设计了信息直接连接层,如
。 | (12) |
注意力机制在目标检测领域得到广泛应用,其能够聚焦目标信息,降低背景信息对检测效果的影响,有效提高神经网络对于目标的识别能力。为充分考虑安全帽检测的准确性和实时速度,利用通道注意力和空间注意力机制模型,笔者研究了一种轻量双注意力机制模型LDAM(lightweight dual attention module),如

图5 LDAM模型
Fig. 5 Lightweight Dual Attention Module
轻量双注意力机制依次通过通道注意力机制和空间注意力机制,在进行聚焦目标信息的基础上,没有产生额外的权重和计算机成本。

图6 真实场景下的检测图像
Fig. 6 Detection image in real scene

图7 两类目标PR曲线、F1曲线及AP值
Fig. 7 Two kinds of target PR curve, F1 curve and AP value
给定输入特征图,注意力机制全局池化模型通过Softmax计算得到自注意力矩阵M1,如式(13)
, | (13) |
其中:W1代表权重向量;Softmax表示归一化函数。
最后自注意力矩阵M1与输入特征向量U进行相乘,得到向量
, | (14) |
其中:代表每个通道的全局信息;通道注意力输出特征图经过全局平局池化网络,后经过Softmax计算得到每个空间的全局信息。
轻量双注意力机制模型依次通过通道注意力机制和空间注意力机制可将数据量从减少到,有效提高目标检测速度。
实际工程应用信号运行环境更加复杂,所采集振动信号噪声干扰更强,针对目前安全帽数据集规模较小,为了正负样本保持平衡,保证数据样本多样性,依托互联网平台大量采集安全帽图像,利用视频截图软件YoloMark对人员流动性大、建筑物遮挡、夜间可视化条件差等复杂施工背景下的视频进行分帧截取图片,截图的图片覆盖了复杂背景下的各种施工人员佩戴安全帽情形。数据集中包含图像10 032张,其中包括安全帽目标13 909个,未佩戴安全帽人脸目标112 728个。
将数据集随机划分为2部分:训练集和测试集。其中训练集为4 636张安全帽图像和3 396张人脸图像,测试集为1 000张安全帽图像和1 000张人脸图像。
为验证基于改进的MobileNet-YOLOv4安全帽佩戴检算法,获得最优模型,笔者迭代轮次设置为100步,IOU阈值设置为0.5。模型训练100个迭代轮次(Epoch),前50个迭代轮次引入冻结训练来加快训练速度,防止训练初期权值被破坏。刚开始训练时,为使损失函数快速下降,批量大小(Batch size)设置为16,一个迭代轮次迭代次数为383。后50个轮次解除冻结进行全网络训练。为防止错过最优点,批量大小为8,一个迭代轮次迭代次数为767。参数设置如
参数 | Value |
---|---|
批量大小 | 16.000 00 |
输入大小 | 416×416 |
迭代轮次 | 100.000 00 |
学习率 | 0.005 89 |
衰减系数 | 0.000 44 |
动量系数 | 0.903 00 |
IOU阈值 | 0.500 00 |
通常衡量目标检测算法性能指标主要围绕检测速度和检测精度2个方面。检测任务的精度用平均精确度(mAP)及精确率与召回率的调和平均数(F1)等评价指标来衡量;1 s处理图片的数量(FPS),其用于评价算法的检测速度。主要依据这4个指标对安全帽佩戴检测算法进行评价。
mAP表示平均准确精度,通常需要以下3个指标进行综合评价:召回率Recall、准确率Precision、平均精度Average precision,计算公式如(15)、(16)所示.
, | (15) |
, | (16) |
其中:TP(true positive)即模型预测正确的正样本;FP(false positive)代表模型预测错误的正样本;FN(false negative)代表模型预测错误的负样本;TN(true negative)代表模型预测正确的负样本。召回率表示在所有标注中正样本所占的比重,准确率表示模型预测为正样本占总体正样本的比重。Precision-recall曲线(PR曲线),是以Recall为横轴、Precision为纵轴,反映了分类器对正样本的识别准确度和对正样本的覆盖能力之间的权衡。AP为PR曲线与X轴围成图形的面积。
对于连续的PR曲线,如
。 | (17) |
对于离散的PR曲线
。 | (18) |
每种类型的目标都对应着一个AP,mAP是所有AP的平均值
。 | (19) |
为验证研究算法在复杂工地背景下检测性能的优越性,对测试集进行测试,统计2类目标安全帽和未佩戴安全帽的人脸检测精度AP,其中以召回率Recall为横轴,准确率Precision为纵轴,测试结果如
由
除了对检测精度AP进行检测,还需对检测速度FPS进行探究。使用GPU型号为GTX 1080Ti,有效提高计算机计算性能,在实际应用场景中,视频监控一般使用普通的CPU设备,不具备GPU的并行加速计算能力。在其他硬件平台相同下,分别在使用GPU和CPU设备下对最终模型的检测速度进行统计,基于改进的YOLOv4颈部优化网络算法在不同平台下的检测速度如
平台 | FPS |
---|---|
CPU | 34.28 |
GPU | 85.86 |
与YOLOv4在CPU平台下的速度(2.14 FPS)对比,基于改进的YOLOv4颈部优化网络的检测速度是其16倍左右,同时检测精度相比于YOLOv4算法检测精度提升了4.21%,基于改进的YOLOv4颈部优化网络无论在CPU还是GPU平台下,检测速度都超过24 FPS,满足实时性要求。因此,基于改进的YOLOv4颈部优化网络在保证检测精度的同时,在CPU平台下检测速度达到34.28 FPS,使基于改进的YOLOv4颈部优化网络在CPU平台上顺利实现,在检测精度和检测速度2个方面均表现出良好检测性能。
为更进一步验证提出算法具有较高检测精度和检测速度,使用相同的测试数据集在Faster-RCNN、SSD等目标检测的经典算法进行对比,其中YOLOv4、Faster R-CNN、基于YOLOv4的颈部优化安全帽佩戴检测等算法的损失随迭代步长的变化曲线如

图8 各模型训练损失函数曲线图
Fig. 8 Curves of training loss function for each model
模型 | 模型大小/MB | FPS/GPU | mAP/% | F1 | |
---|---|---|---|---|---|
安全帽 | 人 | ||||
Neck Optimized Network | 42.36 | 85.36 | 91.12 | 0.93 | 0.86 |
MobileNet-YOLOv4 | 48.42 | 78.14 | 86.58 | 0.91 | 0.78 |
YOLOv4 | 245.78 | 13.09 | 87.43 | 0.92 | 0.77 |
SSD | 91.09 | 15.31 | 80.25 | 0.82 | 0.78 |
Faster-RCNN | 932.98 | 0.65 | 93.32 | 0.94 | 0.86 |
分析
观察
为了更直观展现改进的YOLOv4颈部优化网络新模型的检测效果,选取单目标和多目标情形、小目标情形和极端小目标情形、复杂背景下的测试图像序列进行检测效果验证。

图9 单目标下基于改进的YOLOv4颈部优化网络的检测结果
Fig. 9 Display of detection results based on improved YOLOv4 neck optimization network under single objective

图10 多目标下基于改进的YOLOv4颈部优化网络的检测结果
Fig. 10 Display of detection results based on improved YOLOv4 neck optimization network under multi-objective
图
对于在夜间极端条件和含有极端小目标的情形,基于改进的YOLOv4颈部优化网络算法与YOLOv4算法两者检测效果差异较大,针对人员流动性大、不同光照条件、人员之间严重遮挡以及存在密集检测目标环境下的目标检测。

图11 YOLOv4的检测结果
Fig. 11 YOLOv4 test results
由

Fig. 12 Detection results based on the improved YOLOv4 neck optimization network
针对安全帽佩戴检测时易受复杂背景的干扰等问题,采用YOLOv4算法进行安全帽佩戴检测,检测精度达到86.91%,在GPU平台下检测速度达到了13.09 FPS。但YOLOv4算法在CPU平台下检测速度缓慢、内存消耗大、小目标分辨率低,信息特征少等问题,引入MobileNet网络轻量化YOLOv4、跨越模块,采用改进特征金字塔FPN和改进注意力机制等颈部优化策略聚焦安全帽目标信息,优化网络模型在CPU平台下检测速度达到34.28 FPS,是YOLOv4网络的16倍左右,同时其检测精度相比于YOLOv4算法检测精度提升了4.21%,达到91.12%。在夜间极端条件和含有极端小目标等特殊情况下均能实现对安全帽佩戴的快速准确检测,检测性能优秀,极大提升施工作业人员佩戴安全帽的监管效率。
参考文献
Achilov S S. Expert method of quality management of road construction project[J]. Middle European Scientific Bulletin, 2021, 15:692. [百度学术]
Peng H, Zhang Z W. Helmet wearing recognition of construction workers using convolutional neural network[J]. Wireless Communications and Mobile Computing, 2022: 1-8. [百度学术]
邵延华, 张铎, 楚红雨, 等. 基于深度学习的YOLO目标检测综述[J]. 电子与信息学报, 2022, 44(10): 3697-3708. [百度学术]
Shao Y H, Zhang D, Chu H Y, et al. A review of YOLO object detection based on deep learning[J]. Journal of Electronics & Information Technology, 2022, 44(10): 3697-3708.(in Chinese) [百度学术]
Shen J E, Xiong X, Li Y, et al. Detecting safety helmet wearing on construction sites with bounding-box regression and deep transfer learning[J]. Computer-Aided Civil and Infrastructure Engineering, 2021, 36(2): 180-196. [百度学术]
Wu H, Zhao J S. An intelligent vision-based approach for helmet identification for work safety[J]. Computers in Industry, 2018, 100: 267-277. [百度学术]
He D Q, Qiu Y F, Miao J, et al. Improved Mask R-CNN for obstacle detection of rail transit[J]. Measurement, 2022, 190: 110728. [百度学术]
Sun X D, Wu P C, Hoi S C H. Face detection using deep learning: an improved faster RCNN approach[J]. Neurocomputing, 2018, 299: 42-50. [百度学术]
Bochkovskiy A, Wang C Y, Liao H Y M. YOLOv4: optimal speed and accuracy of object detection[EB/OL]. 2020: arXiv: 2004.10934. https://arxiv.org/abs/2004.10934 [百度学术]
Biswas D, Su H B, Wang C Y, et al. An automatic traffic density estimation using Single Shot Detection (SSD) and MobileNet-SSD[J]. Physics and Chemistry of the Earth, 2019, 110: 176-184. [百度学术]
Liu Y Y, Jiang W R. Detection of wearing safety helmet for workers based on YOLOv4[C]//2021 International Conference on Computer Engineering and Artificial Intelligence (ICCEAI). August 27-29, 2021, Shanghai, China: IEEE, 2021: 83-87. [百度学术]
Tan M X, Le Q V. MixConv: mixed depthwise convolutional kernels[EB/OL]. 2019: arXiv: 1907.09595. https://arxiv.org/abs/1907.09595 [百度学术]
Peng F, Miao Z, Li F, et al. S-FPN: a shortcut feature pyramid network for sea cucumber detection in underwater images[J]. Expert Systems With Applications, 2021, 182: 115306. [百度学术]
Li C F, Wang B P. A YOLOv4 model with FPN for service plates detection[J]. Journal of Electrical Engineering & Technology, 2022, 17(4): 2469-2479. [百度学术]
Zheng C Y, Zhang J H, Wang J N, et al. Double-branch dehazing network based on self-calibrated attentional convolution[J]. Knowledge-Based Systems, 2022, 240: 108148. [百度学术]
Wang S H, Zhou Q, Yang M, et al. ADVIAN: Alzheimer's disease VGG-inspired attention network based on convolutional block attention module and multiple way data augmentation[J]. Frontiers in Aging Neuroscience, 2021, 13: 687456. [百度学术]
Safety-Helmet-Wearing-Dataset[DB/OL].https://github.com/njvisionpower/Safety-Helmet-Wearing-Dataset, 2019-12-17. [百度学术]