摘要
针对已有目标检测方法在混凝土桥梁表观病害检测的应用中识别精度低且伴随较多误检和漏检的问题,提出了一种改进的YOLOv5s桥梁表观病害检测方法。针对目前桥梁表观病害特征成分较复杂的问题,为了更有效地利用不同尺度的缺陷特征,在主干网中添加修改后的空间金字塔池化模块,提高了整体网络对缺陷特征信息的获取能力,同时减少了运算工作量;针对由病害图像中不同缺陷特征交叉分布导致的误检率、漏检率高的问题,在YOLOv5s网络中加入轻量化注意力模块;针对桥梁缺陷尺寸差异大、分类困难和数据集小而导致的边界回归不匹配的问题,采用考虑了向量角度的损失函数。实验证明,改进后的YOLOv5s检测器在桥梁表观病害目标检测识别任务中能够有效提高精度、降低误检率和漏检率。
截至2021年底,中国的公路桥梁总共有96.11万座,全长73 802.1 km。桥梁的运营过程中,随之而来的是桥梁功能的退化和桥梁本体结构的损伤,因此对桥梁结构的表观检测是桥梁运维的重要工作之一。目前桥梁表观缺陷检测的主要方式为目测和简单仪器测量,但这些检测方法主观性较强,且受现场环境等综合因素影响,对一些存在病害的地方可能产生大量误检、漏检。为了解决这一问题,基于机器视觉的检测方法被提出,通过无人机和爬壁机器
近年来,基于深度学习的缺陷检测方法解决了传统机器学习方法检测速率低、漏检率高的问题,同时兼具检测速度快、鲁棒性强等优点。基于深度学习的检测方式按照其网络体系结构分为以下2类:第1类是以区域卷积神经网
现有基于YOLOv3、YOLOv4的桥梁表观病害检测识别方法在现场作业时不能满足实时检测需求,YOLOv5系列算法则在检测精度、速度上都优于YOLOv3,其在一些公共数据集如COC
YOLOv5s是一种单阶段检测方法,结合特征提取和预测框设定对目标的分类概率和定位坐标进行评估。相对于其他算法,YOLOv5s具有模型小、检测速度快和检测精度高等优势。YOLOv5s结构如

图1 YOLOv5s模型框架
Fig. 1 YOLOv5s framework
第1部分是输入层,主要负责对已提供的图像数据进行预处理,包括数据强化、自适应锚框算法和自适应图像缩放。YOLOv5s使用Mosaic数据增强技术,通过对前4张图片随机压缩、剪切、重新排布并加以拼接,以加强对小目标的检测效果;自适应锚框主要是根据当前数据集选择与其长宽对应的锚框;自适应图像缩放不同于上一代YOLOv4,为图片增加最少像素的额外黑边,最大程度保持图片的原有性质,同时减少不必要的计算量。
第2部分为主干网络,主要作用是提取图像中目标的特征。在YOLOv4算法的基础上,使用了改进后的CSP-Darknet53结构,网络结构如

图2 CSP-Darknet网络结构
Fig. 2 CSP-Darknet structure
第3部分为颈部网络,作用为收集目标特征,其结构为特征金字塔网络加路径聚合网络。特征金字塔网络的作用是传递高层语义特征,路径聚合网络主要传递定位信息,对特征金字塔网络进行补充。
第4部分为检测层,主要用于预测信息损失部分。
本研究中将改进的快速空间金字塔池化(Relu spatial pyramid pooling-fast,RSPPF)融入骨干网络,加入高效通道注意

图3 YOLOv5s-BD骨干网络
Fig. 3 YOLOv5s-BD backbone
YOLOv5s-BD中,将原骨干网络末端的金字塔池化块替换为改进的RSPPF,并在网络的第5和第8层添加RSPPF,在第11层添加ECA注意力模块。
空间金字塔池
YOLOv5s中的快速金字塔池化(spatial pyramid pooling-fast,SPPF)借鉴了SPP的思想,但通道间的传递关系改为顺序传递,YOLOv5s中的SPPF模块如

图4 SPPF结构
Fig. 4 SPPF structure

图5 Silu和Relu激活函数曲线
Fig. 5 Activation functions Silu and Relu
Relu函数表达式:
(1) |
Silu函数表达式:
。 | (2) |
显然Silu无上界有下界、平滑而不单调的特征使它在深层模型的效果上具有突出的优点,但其包含的指数运算和除法运算会占用大量计算量。Relu为线性函数,计算量小,更适合特征选取,且能够有效避免反向传播带来的梯度弥散。
ECA是由Huang

图6 ECA网络模型示意图
Fig. 6 Schematic diagram of efficient channel attention module
ECA网络中利用矩阵Wk来学习通道注意力:
。 | (3) |
Wk由k×C个参数组成,避免了特征在不同通道上相互独立的问题。通道注意力ω可通过下式计算:
。 | (4) |
式中:C1D表示一维卷积,y为输出。通道维数C与卷积核大小k关系公式如下:
。 | (5) |
式中:γ和b为可调参数。
因此,卷积核尺寸表达式为:
。 | (6) |
式中:表示与值最相近的整数;k的取值会影响网络的整体运算速度及准确率,k值过小会导致交互的覆盖范围小,k值过大会增加计算量,在本网络中,设置k=3。
交并比(intersection over union, IoU)用于计算预测框损失,很大程度上决定了模型预测结果的准确程度。YOLOv5s使用完全交并比(complete intersection over union,CIoU),减少了其他类IoU在计算中的发散现象。CIoU计算公式为
, | (7) |
, | (8) |
。 | (9) |
式中:α是权重系数;v用来度量宽高比的一致性;w、h分别为候选框的宽和高;ρ为欧氏距离;c为预测框和标注框的对角线长度。

图7 预测框与标注框参数解释图
Fig. 7 Explanatory diagram of parameters of prediction frame and anchor frame
在IoU、GIoU和CIoU等边界框回归指标中,预测框和真实框之间的方向不匹配时,会降低模型的收敛速度和效率。考虑回归向量角度并重新定义惩罚指标的SIoU损失函数由4个代价函数组成:角度函数、距离函数、形状函数和IoU函数。角度函数为
。 | (10) |
式中:,这里的cx和cy分别为对角线距离的长和宽分量。
角度函数最大限度地减少了与距离相关的不匹配变量数量,收敛过程中首先最小化α。距离函数为
。 | (11) |
式中:。
形状函数为
。 | (12) |
式中:;θ值由数据集决定。
由SIoU定义的损失函数为
, | (13) |
式中:IoU为预测框和真实框的交并比。
实验在Windows操作系统环境下进行,使用CPU为AMD Ryzen7 5800H,RAM为16 GB随机存取内存,GPU为RTX 3060 Laptop,6 GB显示内存。深度学习框架为pytorch,整个训练过程设置epoch为300,Batch_size为8,训练时使用SGD优化算法进行参数优化,初始学习率为0.01,输入图片分辨率为640×640。
实验数据集为Mundt

图8 桥梁缺陷图片
Fig. 8 Pictures of various defects of bridges
多标签图片划分任务中不止一种图像标签,因此不能用普通单标签图片划分任务的精度标准来作为评判指标。本研究中采用mAP(mean average precision)作为评价指标。二元分类问题分类结果的混淆矩阵如
标记 | 真实值 | |
---|---|---|
正(Positive) | 负(Negative) | |
正(Positive) | TP | FP |
负(Negative) | FN | TN |
精确度(precision,P)和召回率(recall,R)计算公式如下:
, | (14) |
。 | (15) |
精确度表示该模型预测为正例的样本中实际为正例的样本所占的比例;召回率表示实际为正例的样本中模型预测为正例的样本所占的比例。每个类的精度值(AP)就是P-R曲线与坐标轴围成的面积。mAP是这些缺陷分类的P-R曲线下的面积取平均值,mAP可以作为一个相对较好的度量指标。AP和mAP公式如下:
, | (16) |
。 | (17) |
式中:M表示用于检测的类别总数;N表示测试的图像数量。mAP包含了mAP@0.5和mAP@0.5:0.95,具体由设定的IoU阈值决定,其表达式如下:
, | (18) |
。 | (19) |
由
本研究中使用的数据集缺陷不易于分类,且某些缺陷(如裂缝)这样的小目标受输入图片分辨率的影响,在检测时,设置输入图片分辨率为640×640。为了验证提出的方法的有效性,考虑到实时性检测的需求,将使用了YOLOv5s的原生模型检测效果分别与改进空间金字塔池化的YOLOv5s-RSPPF、加入ECA注意力模块的YOLOv5s-ECA、使用SIoU进行损失计算的YOLOv5s-SIoU和本文中提出的改进骨干网络和损失函数的YOLOv5s-BD通过测试数据集进行对比,结果见
算法 | AP/% | mAP@0.5/% | mAP@0.5:0.95/% | FPS/Hz | ||||
---|---|---|---|---|---|---|---|---|
裂缝 | 脱落 | 腐蚀 | 露筋 | 风化 | ||||
YOLOv5s | 79.6 | 86.7 | 83.9 | 90.7 | 77.8 | 83.7 | 55.4 | 71.9 |
YOLOv5s-SIoU | 79.9 | 87.1 | 85.0 | 90.6 | 80.0 | 84.5 | 56.0 | 70.4 |
YOLOv5s-RSPPF | 80.9 | 87.7 | 84.7 | 90.9 | 79.9 | 84.8 | 56.8 | 78.0 |
YOLOv5s-ECA | 81.3 | 87.6 | 85.0 | 91.6 | 81.9 | 85.5 | 57.2 | 70.4 |
YOLOv5s-BD | 84.2 | 90.5 | 86.8 | 92.3 | 83.6 | 87.5 | 61.5 | 73.6 |
改进后的YOLOv5s-BD相较于YOLOv5s的原生模型对各种缺陷的检测效果均有提升。其中,由于对预测框的损失函数做出改进,YOLOv5s-SIoU相较于原模型mAP@0.5提升了0.8%,mAP@0.5:0.95提升了0.6%;由于对原生模型的SPPF模块做出改进,YOLOv5s-RSPPF相较于原模型mAP@0.5提升了1.1%,mAP@0.5:0.95提升了1.4%;由于在特征提取网络尾部加入ECA注意力机制,YOLOv5s-ECA相较于原模型mAP@0.5提升了1.8%,mAP@0.5:0.95提升了1.8%。结合以上几种方法,YOLOv5s-BD相较于原模型mAP@0.5提升了3.8%,mAP@0.5:0.95提升了6.1%。虽然总体网络层数有所增加,但由于改进的网络采用了更加轻量化的计算方式,每秒检测帧数FPS也略微提升,满足实时检测需求。
为了进一步验证本研究中的模型在用于混凝土桥梁表观缺陷检测时的优势,在不改变数据集的情况下,使用本研究改进网络YOLOv5s-BD与Faster RCNN、SSD和YOLOv3进行实验验证,结果见
算法 | AP/% | mAP/% | FPS/Hz | ||||
---|---|---|---|---|---|---|---|
裂缝 | 脱落 | 腐蚀 | 露筋 | 风化 | |||
Faster RCNN | 71.2 | 76.8 | 76.9 | 78.2 | 77.4 | 76.3 | 12.4 |
SSD | 70.5 | 75.3 | 75.1 | 76.2 | 74.3 | 74.3 | 45.3 |
YOLOv3 | 69.9 | 83.9 | 85.3 | 86.1 | 80.4 | 81.1 | 29.6 |
YOLOv5s-BD | 84.2 | 90.5 | 86.8 | 92.3 | 83.6 | 87.5 | 73.6 |
通过
对测试集中的样本进行随机抽检,其检测效果如

图9 YOLOv5s和YOLOv5s-BD检测效果
Fig. 9 Detect results of YOLOv5s and YOLOv5s-BD
针对当前目标检测算法在应用于桥梁表观病害检测时精度低、误检率高、漏检率高和检测速率低的问题,提出一种用于桥梁表观病害检测的改进YOLOv5s检测网络;针对桥梁缺陷尺寸差异大、分类困难,以及数据集小的问题,为提高缺陷预测的精确度,引入新的预测框损失函数进行训练。实验结果表明,改进后的YOLOv5s模型在进行桥梁表观缺陷实时检测时,多种缺陷的检测平均精度均有明显提升,且满足实时检测需求,相比于原模型漏检率和误检率更低。下一步工作为:1)针对直接破坏桥梁结构的缺陷(如裂缝)进行尺寸检测工作;2)研究搭载YOLOv5改进算法的无人机或者爬壁机器人在进行桥梁病害检测中的应用,取代人工目视来达到病害精准识别和保证工人安全的目的。
参考文献
Ellenberg A, Kontsos A, Bartoli I, et al. Masonry crack detection application of an unmanned aerial vehicle[C]// 2014 International Conference on Computing in Civil and Building Engineering, June 23-25, 2014, Orlando, Florida, USA. Reston, VA, USA: American Society of Civil Engineers, 2014: 1788-1795. [百度学术]
Nishikawa T, Yoshida J, Sugiyama T, et al. Concrete crack detection by multiple sequential image filtering[J]. Computer-Aided Civil and Infrastructure Engineering, 2012, 27(1): 29-47. [百度学术]
周清松, 董绍江, 罗家元, 等. 改进YOLOv3的桥梁表观病害检测识别[J]. 重庆大学学报, 2022, 45(6): 121-130. [百度学术]
Zhou Q S, Dong S J, Luo J Y, et al. Bridge apparent disease detection based on improved YOLOv3[J]. Journal of Chongqing University, 2022, 45(6): 121-130. (in Chinese) [百度学术]
Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]// 2014 IEEE Conference on Computer Vision and Pattern Recognition(CVPR), June 23-28, 2014, Columbus, OH, USA. IEEE, 2014: 580-587. [百度学术]
Girshick R. Fast R-CNN[C]// 2015 IEEE International Conference on Computer Vision (ICCV), December 7-13, 2015, Santiago, Chile. IEEE, 2015: 1440-1448. [百度学术]
Ren S, He K, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149 . [百度学术]
Cha Y J, Choi W, Suh G, et al. Autonomous structural visual inspection using region-based deep learning for detecting multiple damage types[J]. Computer-Aided Civil and Infrastructure Engineering, 2018, 33(9): 731-747. [百度学术]
Liu W, Anguelov D, Erhan D, et al. SSD: single shot multibox detector [M]// Computer Vision-ECCV 2016. Cham: Springer International Publishing, 2016: 21-37. [百度学术]
Redmon J, Divvala S, Girshick R, et al. You only look once: unified, real-time object detection[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA. IEEE, 2016: 779-788. [百度学术]
Redmon J, Farhadi A. YOLOv3: an incremental improvement[EB/OL]. 2018-04-08[2022-08-12]. https://arxiv.org/abs/1804.02767. [百度学术]
Bochkovskiy A, Wang C Y, Liao H Y M. YOLOv4: optimal speed and accuracy of object detection [EB/OL]. 2020-04-23[2022-08-12]. https://arxiv.org/abs/2004.10934. [百度学术]
彭雨诺, 刘敏, 万智, 等. 基于改进YOLO的双网络桥梁表观病害快速检测算法[J]. 自动化学报, 2022, 48(4): 1018-1032. [百度学术]
Peng Y N, Liu M, Wan Z, et al. A dual deep network based on the improved YOLO for fast bridge surface defect detection[J]. Journal of Automation, 2022, 48(4): 1018-1032. (in Chinese) [百度学术]
Jiang W, Liu M, Peng Y, et al. HDCB-Net: a neural network with the hybrid dilated convolution for pixel-level crack detection on concrete bridges[J]. IEEE Transactions on Industrial Informatics, 2020, 17(8): 5485-5494. [百度学术]
Lin T Y, Maire M, Belongie S, et al. Microsoft COCO: common objects in context[C]// European Conference on Computer Vision (ECCV), September 06-12, 2014, Zurich, Switzerland. ECCV, 2014: 740-755. [百度学术]
Wang Q, Wu B, Zhu P, et al. ECA-Net: efficient channel attention for deep convolutional neural networks[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 13-19, 2020, Seattle, WA, USA. IEEE, 2020: 2575-7075. [百度学术]
Gevorgyan Z. SIoU loss: more powerful learning for bounding box regression [EB/OL]. 2022-05-25 [2022-08-12]. https://arxiv.org/abs/2205.12740. [百度学术]
Purkait P, Zhao C, Zach C. SPP-Net: deep absolute pose regression with synthetic views[EB/OL]. 2017-12-09[2022-08-12]. https://arxiv.org/abs/1712.03452. [百度学术]
Wang Q, Wu B, Zhu P, et al. ECA-Net: Efficient channel attention for deep convolutional neural networks[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. IEEE, 2020: 11534-11542. [百度学术]
Mundt M, Majumder S, Murali S, et al. Meta-learning convolutional neural architectures for multi-target concrete defect classification with the COncrete DEfect BRidge IMage Dataset[C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 15-20, 2019, Long Beach, CA, USA. IEEE, 2019: 11188-11197. [百度学术]