摘要
在大型水利建造工程现场,存在高空坠物、塔吊转动、墙体坍塌等问题,对于建造人员人身安全造成巨大威胁,佩戴安全帽是保护建造人员的有效措施,作为工程作业中的安全管理,对建造人员进行安全帽佩戴的精确检测很有必要。针对现有安全帽检测算法在大型水利建造场景下对小且密集的安全帽目标存在漏检、检测精度较低等问题,提出一种基于STA-YOLOv5的安全帽佩戴检测算法,该算法将Swin Transformer和注意力机制引入到YOLOv5算法中,提高模型对安全帽的识别能力。实验结果表明,STA-YOLOv5算法具有更精确检测结果,识别准确率达到91.6%,较原有的YOLOv5算法有明显提升。
近年来,随着大型水利建造工程建设项目的迅速发展,对建造现场的安全管理提出了更高要求。安全帽是施工过程中最基本的安全保护装备之一,佩戴安全帽可有效保护人身安全,避免因高空坠物、塔吊转动等意外事故造成伤害。因此,在建造现场的安全管理工作中,佩戴安全帽是不可缺少的施工要求之一,及时检测工人是否佩戴安全帽具有较大意义。
随着图像处理与目标检测的快速发展,很多学者对安全帽检测方法进行了研究。张
在大型施工场景中,如渝西水资源配置工程,是重庆历史上投资规模最大、覆盖面最全和受利人群数量最多的民生工程(如

图1 渝西水资源配置工程
Fig. 1 Yuxi Water Resources Allocation Project
针对大型水利建造工程,由于存在钢筋、水泥、输电线路、工地桥架等各种设备,使得施工场景图像涵盖范围较广泛且包含较多物体,图像中工人佩戴的安全帽目标较小。且由于摄像头本身受到光照强度、拍摄角度、拍摄距离、天气等因素的影响,导致在安全帽检
YOLO系列为单步目标检测框架,对输入图像直接进行分类概率回归和包围框坐标回归实现目标检测。 Redmon
算法 | 优点 | 缺点 |
---|---|---|
YOLOv1 | 图像划分为网格单元,检测速度快 | 对密集目标和小目标检测效果不佳 |
YOLOv2 | 使用聚类产生锚框,提高分类精度 | 使用预训练,迁移难 |
YOLOv3 | 借鉴残差网络,实现多尺度检测 | 模型复杂,对中、大目标检测效果差 |
YOLOv4 | 在检测精度与速度间实现了平衡 | 检测精度有待提高 |
YOLOv5 | 模型尺寸小,灵活性高,检测速度快 | 性能有待提高 |
通过设计STA-YOLOv5网络结构解决安全帽是否佩戴及检测过程误检、漏检率高的问题。STA-YOLOv5 网络结构如

图2 STA-YOLOv5整体框架
Fig. 2 STA-YOLOv5 overall framework
Swin-Transforme

图3 Swin Transformer整体网络结构
Fig. 3 Overall network structure of Swin Transformer
整个网络结构主要由4个结构相似的阶段模块组成,除第一个是由线性嵌入层+ Swin Transformer块组成之外,其余均是由图块融合层+ Swin Transformer块组成。除第一个阶段外,每个阶段都会先通过图块融合层缩小输入的分辨率,对特征进行下采样操作扩大感受野,以获取全局信息。图块融合层是该环节中关键步骤(如

图4 图块融合层
Fig. 4 Patch Merging
YOLOv5网络存在着不同程度的目标区域关注不全和对无关背景区域产生无效关注的问题,增大对安全帽检测难度。工人集体作业时,出现人员堆积密集,使安全帽形状不规则,边缘存在棱角分明或是圆润平滑的差异等问题,从而使检测变得困难。注意力机制通过给不同部分的特征图赋予权重选择部分特征图,抑制无用信息,以达到选择更优特征的目的。对此,研究设计一种融合通道和空间注意力(如

图5 融合通道和空间的注意力模块
Fig. 5 Attention module of fusion channel and space
()⊗ , | (1) |
()⊗ , | (2) |
输入特征F∈,然后经通道注意力模块得到新特征如
网络训练过程中,图像中安全帽的数量可能会出现类别不平衡、无关信息干扰多的情况,引入SENet模块解决此问题。SENe
SENet的通道注意力机制通过压缩和激励2个关键步骤来实现。
1)压缩(Squeeze):通过全局平均池化操作对输入特征图进行降维,将每个通道的特征图压缩为单一值,如
。 | (3) |
2)激励(Excitation):使用一个多层感知机(MLP)来对每个通道的全局特征进行建模。通过2个全连接层(fully connected layer,FC)和函数ReLU,依次为FC- ReLU-FC,建立通道之间的相关性。再通过Sigmoid激活函数得到C个[0,1]之间的权重,如
。 | (4) |
最后通过乘法将通道加权到先前特征上,完成在通道维度上对原始特征的重标定,如
。 | (5) |
在整个SENet结构中,压缩和激励操作是串联在一起的(如

图6 SENet结构图
Fig. 6 SENet structure diagram
针对由于出现拍摄角度、拍摄距离等问题,采用可变形卷积(deformable convolutional Networks,DCN

图7 空间注意力模块
Fig. 7 Spatial attention module
卷积网络对大尺寸多形变目标的建模存在固有缺陷,因为卷积网络只对输入特征图的固定位置进行采

图8 常规卷积和可变形卷积采样点对比
Fig. 8 Comparison of sampling points between conventional convolution and deformable convolution
在Head检测层根据传递来的安全帽图像特征对边界框和类别进行预测,通过非极大值抑制(non maximum suppression,NMS
首先将安全帽图像划分成为3个S*S的网格。最后每个单元网格负责检测落入其中心的安全帽图像,同时输出多个预测框及其置信度。每个边界框包含参数(,,,,),其中(,)为候选框的中心坐标,(,)为候选框的中心点。为置信度。在位置预测上,假设Anchor Box设置在每个网格单元的左上角,坐标位置为(,),宽度和高度为(),最终生成的预测坐标为((,,,),其公式为
(6) |
= (2σ(+, | (7) |
=, | (8) |
=, | (9) |
其中:(,)为预测边界框的中心坐标;(,)为预测框的高度和宽度。在输出多个预测框之后,将抛弃掉置信度低的预测框并通过非极大抑制获得安全帽位置。
目前安全帽佩戴数据集主要有SHWD和GDUT-HWD 2种。而SHWD安全帽佩戴数据只有2个类别,head和helmet,即安全帽佩戴与否,类别较少。通过识别安全帽颜色,管理层可以更好地监督和管理工地的工人活动,也可区分不同的工种或职责。而在水利建造工地中,受工人着装与场景特定色彩影响,通过rgb信息获得安全帽颜色干扰较大。为使模型更具实用性,选择具有5个类别的GDUT-HWD数据集,分别是Red(佩戴红色安全帽)、Blue(佩戴蓝色安全帽)、Yellow(佩戴黄色安全帽)和White(佩戴白色安全帽)、None(未佩戴安全帽),这不仅可以识别是否佩戴安全帽,同时还能检测佩戴安全帽的颜色。GDUT-HWD数据集数量有3 174张,包含18 893个实例,还具有场景变化、视角变化、照明变化等,使训练的模型适用于真实场景。安全帽数据集部分样本如

图9 安全帽数据集
Fig. 9 Hard hat data set
针对安全帽图像进行检测实验,具体实验的环境及配置如下所示:
1)操作系统:Ubuntu16.04 操作系统;
2)编译器:Pycharm 2020;
3)处理器:Intel®Xeon(R) CPU E5-2650 v4 @ 2.20 GHz×24;
4)内存:1 T;
5)显卡为:RTX2080Ti;
6)显存容量:12 GB
7)编译语言:Python 3.7.5
准确率precision表示为正确预测的正样本数量与预测为正样本的样本数量之间的比例。precision公式为
precision = , | (11) |
式中TP(true positives)为被识别正样本,实际上也是正样本的数量;FP(false positives)为被识别负样本,实际上是负样本的数量。
STA-YOLOv5模型主要参数设置如
超参数 | 变量 |
---|---|
Img | 3 174 |
训练集 | 2 857 |
测试集 | 317 |
Batch Size | 8 |
Epoch | 500 |
Optimizer | Adam |
Learning rate | 0.000 1 |
水利建造人员安全帽佩戴检测效果如

图10 水利建造人员安全帽佩戴检测效果图
Fig. 10 Hydraulic construction personnel safety helmet wearing test effect
使用CIo

图11 不同算法模型loss图
Fig. 11 loss diagram of different algorithm models
在实验中使用100张安全帽图像数据进行测试实验,YOLOv5l、STA-YOLOv5模型的测试实验结果如
指标 模型 | mAP | Precesion | FLOPs | 类别mAP | ||||
---|---|---|---|---|---|---|---|---|
Blue | Yellow | White | Red | None | ||||
STA-YOLOv5 | 0.914 | 0.916 | 128.5GFLOPs | 0.952 | 0.932 | 0.954 | 0.815 | 0.918 |
YOLOv5l | 0.891 | 0.896 | 108.3GFLOPs | 0.932 | 0.922 | 0.942 | 0.731 | 0.903 |
由实验结果可知,STA-YOLOv5跟YOLOv5l相比,虽然模型复杂度稍显大,但平均精确率与精确率分别提升了2.3个百分点和2个百分点,且识别不同种类安全帽的平均精确率都有一定程度提升,验证了STA-YOLOv5模型能显著提升检测精确度,满足实际复杂大型工地场景下安全帽佩戴的检测需求。
为解决实际大型工地环境下安全帽是否佩戴问题,提出引入Swin Transformer和注意力机制的YOLOv5算法对安全帽进行检测。首先,使用更容易捕获图像全局信息和局部信息之间关系的Swin Transformer作为网络的特征提取器,使网络对安全帽特征的提取能力得到显著增强;其次,引入融合通道和空间注意力机制,使 YOLOv5算法可在保持速度优势的同时提高定位精度和减少漏检安全帽的情况。通过将2种结构结合起来的STA-YOLOv5算法,成功实现对工人是否佩戴安全帽的实时检测任务。实验结果表明,该方法具有高效、准确、稳定等优点,可以应用于各类大型水利建筑行业。
参考文献
张博,宋元斌,熊若鑫,等.融合人体关节点的安全帽佩戴检测[J]. 中国安全科学学报, 2020, 30(2): 177-182. [百度学术]
Zhang B,Song Y B,Xiong R X,et al.Helmet-wearing detection considering human joint[J].China Safety Science Journal,2020,30(2):177-182.(in Chinese) [百度学术]
朱晓春,王欣,马国力, 等.改进YOLO v3算法的安全帽佩戴检测[J]. 南京工程学院学报(自然科学版), 2020, 18(4): 23-26. [百度学术]
Zhu X C,Wang X,Ma G L, et al.Safety helmet wearing detection for improved YOLO v3 algorithm[J]. Journal of Nanjing Institute of Technology (Natural Science Edition), 2020, 18(4): 23-26.(in Chinese) [百度学术]
胡晓栋, 王国明. 基于改进YOLOv5的安全帽检测算法研究[J]. 计算机时代, 2023(6): 76-81. [百度学术]
Hu X D, Wang G M. Research on helmet detection algorithm based on improved YOLOv5[J].Computer Era, 2023(6): 76-81. (in Chinese) [百度学术]
王玲敏, 段军, 辛立伟. 引入注意力机制的YOLOv5安全帽佩戴检测方法[J]. 计算机工程与应用, 2022, 58(9): 303-312. [百度学术]
Wang LM, Duan J, Xin L W. YOLOv5 helmet wear detection method with introduction of attention mechanism[J]. Computer Engineering and Applications, 2022, 58(9): 303-312. (in Chinese) [百度学术]
沈希忠, 戚成. 改进YOLOX的安全帽佩戴检测算法[J]. 浙江工业大学学报, 2023, 51(3): 289-297. [百度学术]
Shen X Z, Qi C. Improved safety helmet wearing detection algorithm of YOLOX[J]. Journal of Zhejiang University of Technology, 2023, 51(3): 289-297.(in Chinese) [百度学术]
Vishnu C, Singh D, Mohan C K, et al. Detection of motorcyclists without helmet in videos using convolutional neural network[C]//2017 International Joint Conference on Neural Networks (IJCNN). May 14-19, 2017. Anchorage, AK, USA: IEEE, 2017: 3036-3041. [百度学术]
Hao W A, Jza B. An intelligent vision based approach for helmet identification for work safety[J]. Computers in Industry, 2018, 100: 267-277. [百度学术]
江新玲, 杨乐, 朱家辉, 等. 面向复杂场景的基于改进YOLOXs的安全帽检测算法[J]. 南京师大学报(自然科学版), 2023, 46(2): 107-114. [百度学术]
Jiang X L, Yang L, Zhu J H, et al. Safety helmet detection algorithm based on improved YOLOXs for complex scenes[J]. Journal of Nanjing Normal University (Natural Science Edition), 2023, 46(2): 107-114. (in Chinese) [百度学术]
李达, 刘辉. 针对小目标的YOLOv5安全帽检测算法[J]. 现代信息科技, 2023, 7(9): 9-13. [百度学术]
Li D, Liu H. YOLOv5 helmet detection algorithm for small targets[J]. Modern Information Technology, 2023, 7(9): 9-13. (in Chinese) [百度学术]
陈光, 乔梁, 黄晓明, 等. 基于目标跟踪的行为识别方法研究:以安全帽佩戴识别检测为例[J]. 黑龙江科学, 2023, 14(8):50-52. [百度学术]
Chen G, Qiao L, Huang X M, et al. Research on behavior recognition method based on target tracking: through taking helmet wear identification detection as an example[J]. Heilongjiang Science, 2023, 14(8): 50-52. (in Chinese) [百度学术]
Redmon J, Divvala S, Girshick R, et al. You only look once: unified, real-time object detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). June 27-30, 2016. Las Vegas, NV, USA: IEEE, 2016:779-788. [百度学术]
Redmon J, Farhadi A.YOLO9000: better, faster, stronger[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). July 21-26, 2017. Honolulu, HI, USA: IEEE, 2017:6517-6525. [百度学术]
Redmon J, Farhadi A. YOLOv3: an incremental improvement[EB/OL]. 2018: arXiv:1804.02767. https://arxiv.org/abs/1804.02767. [百度学术]
He K M, Zhang X Y, Ren S Q, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904-1916. [百度学术]
Liu S, Qi L, Qin H F, et al. Path aggregation network for instance segmentation[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. June 18-23, 2018. Salt Lake City, UT, USA: IEEE, 2018:8759-8768. [百度学术]
郑楚伟, 林辉. 基于Swin Transformer的YOLOv5安全帽佩戴检测方法[J]. 计算机测量与控制, 2023, 31(3): 15-21. [百度学术]
Zheng C W, Lin H. YOLOv5 helmet wearing detection method based on swin transformer[J]. Computer Measurement & Control,2023,31(3):15-21.(in Chinese) [百度学术]
乔炎, 甄彤, 李智慧. 改进YOLOv5的安全帽佩戴检测算法[J]. 计算机工程与应用, 2023, 59(11): 203-211. [百度学术]
Qiao Y, Zhen T, Li Z H. Improved helmet wear detection algorithm for YOLOv5[J].Computer Engineering and Applications, 2023, 59(11) :203-211. (in Chinese) [百度学术]
Elfwing S, Uchibe E, Doya K. Sigmoid-weighted linear units for neural network function approximation in reinforcement learning[J]. Neural Networks, 2018, 107:3-11. [百度学术]
Cao X, Zhang Y W, Lang S, et al. Swin transformer based YOLOv5 for small-object detection in remote sensing images[J].Sensors,2023,23(7):3634. [百度学术]
Wen X, Li B, Wang X W, et al. A Swin transformer-functionalized lightweight YOLOv5s for real-time coal-gangue detection[J]. Journal of Real-Time Image Processing, 2023, 20(3): 47. [百度学术]
嵇文,刘全金, 黄崇文,等.基于Swin-Transformer的YOLOX交通标志检测[J].无线电通信技术,2023,49(3):547-555. [百度学术]
Ji W, Liu Q J, Huang C W, et al. YOLOX traffic sign detection based on Swin-Transformer[J]. Radio Communications Technology, 2023, 49(3): 547-555.(in Chinese) [百度学术]
任钰. 基于Faster R-CNN的小目标检测研究与应用[D]. 安庆: 安庆师范大学, 2022. [百度学术]
Ren Y. Research and application of small target detection based on faster R-CNN[D]. Anqing: Anqing Normal University, 2022. (in Chinese) [百度学术]
张雪明, 茅健. 嵌入SENet的卷积神经网络的零件缺陷检测方法[J]. 农业装备与车辆工程, 2023, 61(1): 94-98. [百度学术]
Zhang X M, Mao J. A method of parts defect detection based on convolutional neural network embedded in SENet[J]. Agricultural Equipment & Vehicle Engineering, 2023, 61(1): 94-98. (in Chinese) [百度学术]
Dai J F, Qi H Z, Xiong Y W, et al. Deformable convolutional networks[C]//2017 IEEE International Conference on Computer Vision (ICCV).October 22-29, 2017. Venice, Italy: IEEE, 2017: 764-773. [百度学术]
卢俊哲, 张铖怡, 刘世鹏, 等. 面向复杂环境中带钢表面缺陷检测的轻量级DCN-YOLO[J]. 计算机工程与应用, 2023, 59(15): 318-328. [百度学术]
Lu J Z, Zhang C Y, Liu S P, et al. Lightweight DCN-YOLO for strip surface defect detection in complex environments[J]. Computer Engineering and Applications, 2023, 59(15): 318-328. (in Chinese) [百度学术]
Hu J, Shen L, Sun G. Squeeze-and-excitation networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. June 18-23, 2018. Salt Lake City, UT, USA: IEEE,2018:7132-7141. [百度学术]
Neubeck A, Van Gool L. Efficient non-maximum suppression[C]//18th International Conference on Pattern Recognition (ICPR’06). August 20-24, 2006. Hong Kong, China: IEEE, 2006: 850-855. [百度学术]
Zheng Z H, Wang P, Liu W, et al. Distance-IoU loss: faster and better learning for bounding box regression[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(7): 12993-13000. [百度学术]