网刊加载中。。。

使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读

改进YOLOv5s的桥梁表观病害检测方法  PDF

  • 董绍江 1
  • 谭浩 1
  • 刘超 1
  • 胡小林 2
1. 重庆交通大学 机电与车辆工程学院,重庆 400074; 2. 重庆工业大数据创新中心有限公司,重庆 404100

中图分类号: TP391.4

最近更新:2024-09-30

DOI:10.11835/j.issn.1000-582X.2023.101

  • 全文
  • 图表
  • 参考文献
  • 作者
  • 出版信息
EN
目录contents

摘要

针对已有目标检测方法在混凝土桥梁表观病害检测的应用中识别精度低且伴随较多误检和漏检的问题,提出了一种改进的YOLOv5s桥梁表观病害检测方法。针对目前桥梁表观病害特征成分较复杂的问题,为了更有效地利用不同尺度的缺陷特征,在主干网中添加修改后的空间金字塔池化模块,提高了整体网络对缺陷特征信息的获取能力,同时减少了运算工作量;针对由病害图像中不同缺陷特征交叉分布导致的误检率、漏检率高的问题,在YOLOv5s网络中加入轻量化注意力模块;针对桥梁缺陷尺寸差异大、分类困难和数据集小而导致的边界回归不匹配的问题,采用考虑了向量角度的损失函数。实验证明,改进后的YOLOv5s检测器在桥梁表观病害目标检测识别任务中能够有效提高精度、降低误检率和漏检率。

截至2021年底,中国的公路桥梁总共有96.11万座,全长73 802.1 km。桥梁的运营过程中,随之而来的是桥梁功能的退化和桥梁本体结构的损伤,因此对桥梁结构的表观检测是桥梁运维的重要工作之一。目前桥梁表观缺陷检测的主要方式为目测和简单仪器测量,但这些检测方法主观性较强,且受现场环境等综合因素影响,对一些存在病害的地方可能产生大量误检、漏检。为了解决这一问题,基于机器视觉的检测方法被提出,通过无人机和爬壁机器[

1]等设备来获取图像,将获取的图像导入计算机并且提取图像特征,进一步识别和分类,达到缺陷识别的目的,如Nishikawa[2]在对桥梁表面裂缝识别中引入机器学习的方法。虽然机器学习方法相较于传统检测技术在检测效率、鲁棒性上有一定提[3],但这些方法的特征提取过程十分繁琐,且不能够一次性、端到端地解决缺陷识别问题。

近年来,基于深度学习的缺陷检测方法解决了传统机器学习方法检测速率低、漏检率高的问题,同时兼具检测速度快、鲁棒性强等优点。基于深度学习的检测方式按照其网络体系结构分为以下2类:第1类是以区域卷积神经网[

4](regional convolutional neural networks,R-CNN)为代表的Fast R-CNN[5]、Faster R-CNN[6]等双阶段检测算法。R-CNN借用了滑动窗口来产生候选框域的思想,这种方法步骤复杂、计算量大。针对R-CNN较费时的选择性搜索,Faster R-CNN使用了一个区域候选网络来取代选择性搜索,如Cha[7]将Faster R-CNN用于识别混凝土和钢铁裂缝相关的多种表面损伤。虽然大量研究证实了双阶段检测方法可用于钢筋混凝土等结构件表面缺陷的检测,但中间过程繁琐,且需要大量重复性实验,因此其检验效率不够好,无法适应现场检测要求。第2类是以SSD (single shot detector[8]、YOLO(you only look once[9]为代表的单阶段检测算法。它并不要求先给出目标候选框,而是直接把目标图像特征的提取和预测框的确定结合在一起进行图像的类别估计和区域坐标评估,极大地提高了检测效率。SSD算法的缺点明显,一是较低层级的特征非线性程度不够,导致训练精度不如YOLO;二是候选框尺寸需要人工经验判断。随着YOLOv3[10]、YOLOv4[11]、YOLOv5的先后提出,YOLO系列算法与其他算法比较在检测速率和精度上均表现出较大的优越性。Peng[12]提出一种使用改进YOLO的双网络方法来提高算法对块状缺陷和裂缝病害的检测能力;Jang[13]提出一种基于混合扩展卷积块的深度学习网络HDCB-Net,并结合YOLOv4用于实现像素级的裂纹检测。

现有基于YOLOv3、YOLOv4的桥梁表观病害检测识别方法在现场作业时不能满足实时检测需求,YOLOv5系列算法则在检测精度、速度上都优于YOLOv3,其在一些公共数据集如COCO[

14](common objects in context)数据集上有较好的表现,但在数据特征较为复杂的桥梁表观病害检测中尚有改进空间。本研究的目的是探讨对YOLOv5s算法的改进及其对桥梁表观病害检测任务的适用性。

1 YOLOv5s模型框架

YOLOv5s是一种单阶段检测方法,结合特征提取和预测框设定对目标的分类概率和定位坐标进行评估。相对于其他算法,YOLOv5s具有模型小、检测速度快和检测精度高等优势。YOLOv5s结构如图1所示,可将YOLOv5s算法模型划分为4个部分。

图1  YOLOv5s模型框架

Fig. 1  YOLOv5s framework

第1部分是输入层,主要负责对已提供的图像数据进行预处理,包括数据强化、自适应锚框算法和自适应图像缩放。YOLOv5s使用Mosaic数据增强技术,通过对前4张图片随机压缩、剪切、重新排布并加以拼接,以加强对小目标的检测效果;自适应锚框主要是根据当前数据集选择与其长宽对应的锚框;自适应图像缩放不同于上一代YOLOv4,为图片增加最少像素的额外黑边,最大程度保持图片的原有性质,同时减少不必要的计算量。图1中Input为输入;Conv2d表示二维卷积;BN表示归一化层;Silu为激活函数;CBS表示顺序连接的Conv2d层、BN层和Silu层;C3表示包含3个卷积层的跳跃连接模块,C3的数量为模块中残差结构的数量;SPPF表示空间金字塔池融合模块;Concat为拼接;Upsample为上采样;Head为模型输出头。

第2部分为主干网络,主要作用是提取图像中目标的特征。在YOLOv4算法的基础上,使用了改进后的CSP-Darknet53结构,网络结构如图2所示。输入特征图通过2个维度进行计算,首先都使用1×1卷积(Conv)进行变换,其中一路在经过步幅为2的3×3卷积后与另一路跨阶段层级拼接。这不仅保证了准确率,同时也解决了普通网络在信息传递时梯度重复的问题,因此参数更小,网络计算量更少,进一步节省内存开支。

图2  CSP-Darknet网络结构

Fig. 2  CSP-Darknet structure

第3部分为颈部网络,作用为收集目标特征,其结构为特征金字塔网络加路径聚合网络。特征金字塔网络的作用是传递高层语义特征,路径聚合网络主要传递定位信息,对特征金字塔网络进行补充。

第4部分为检测层,主要用于预测信息损失部分。

2 改进的桥梁表观病害检测模型

本研究中将改进的快速空间金字塔池化(Relu spatial pyramid pooling-fast,RSPPF)融入骨干网络,加入高效通道注意[

15](efficient channel attention,ECA),提出用于桥梁表观病害检测的网络(YOLOv5s of bridge detection,YOLOv5s-BD)如图3所示,并使用SIoU[16]进行损失计算。

图3  YOLOv5s-BD骨干网络

Fig. 3  YOLOv5s-BD backbone

YOLOv5s-BD中,将原骨干网络末端的金字塔池化块替换为改进的RSPPF,并在网络的第5和第8层添加RSPPF,在第11层添加ECA注意力模块。

2.1 空间金字塔池化

空间金字塔池[

17]( spatial pyramid pooling,SPP)网络结构是将输入特征先通过一个卷积,然后分别进行不同卷积核的池化后与输入拼接,再通过一个卷积,中间的卷积核大小分别为5×5、9×9和13×13。不仅在一定程度上避免了由区域裁剪、缩放导致的失真问题和重复特征提取的问题,同时也节省了计算成本。SPP能够将图片在不同维度上的特征信息融合到一个维度上。

YOLOv5s中的快速金字塔池化(spatial pyramid pooling-fast,SPPF)借鉴了SPP的思想,但通道间的传递关系改为顺序传递,YOLOv5s中的SPPF模块如图4所示,图中Maxpool表示最大池化层,k代表卷积核大小。RSPPF沿用SPPF结构,其中CBR为使用了Relu激活函数替换掉Silu激活函数的卷积操作,中间卷积核大小统一为5×5,在保证网络精度的同时减少模块计算量。Silu和Relu函数关系如图5所示。

图4  SPPF结构

Fig. 4  SPPF structure

图5  SiluRelu激活函数曲线

Fig. 5  Activation functions Silu and Relu

Relu函数表达式:

Relu(x)=xx>00x0 (1)

Silu函数表达式:

Silu(x)=x1+e-x (2)

显然Silu无上界有下界、平滑而不单调的特征使它在深层模型的效果上具有突出的优点,但其包含的指数运算和除法运算会占用大量计算量。Relu为线性函数,计算量小,更适合特征选取,且能够有效避免反向传播带来的梯度弥散。

2.2 轻量级注意力机制ECA

ECA是由Huang[

18]提出的一个不降维的局部跨通道互动方法,克服了普通注意力中降维对学习的负面影响,实现了不同通道间的交互。ECA网络模型如图6所示,其中WH分别为特征图的宽和高,C为通道维数,σ表示Sigmoid激活函数,GAP为全局平均池化,χχ˜分别为输入张量和输出张量。

图6  ECA网络模型示意图

Fig. 6  Schematic diagram of efficient channel attention module

ECA网络中利用矩阵Wk来学习通道注意力:

Wk=w1,1w1,k0000w2,2w2,k00000wC,C-k+1wC,C (3)

Wkk×C个参数组成,避免了特征在不同通道上相互独立的问题。通道注意力ω可通过下式计算:

ω=σ(C1Dk(y)) (4)

式中:C1D表示一维卷积,y为输出。通道维数C与卷积核大小k关系公式如下:

C=ϕ(k)=2(γk-b) (5)

式中:γb为可调参数。

因此,卷积核尺寸表达式为:

k=ψ(C)=log2(C)γ+bγodd (6)

式中:log2(C)γ+bγodd表示与log2(C)γ+bγ值最相近的整数;k的取值会影响网络的整体运算速度及准确率,k值过小会导致交互的覆盖范围小,k值过大会增加计算量,在本网络中,设置k=3。

2.3 损失函数

交并比(intersection over union, IoU)用于计算预测框损失,很大程度上决定了模型预测结果的准确程度。YOLOv5s使用完全交并比(complete intersection over union,CIoU),减少了其他类IoU在计算中的发散现象。CIoU计算公式为

CIoU=IoU-ρ2(b,bgt)c2-αv (7)
v=42π(arctan(wgthgt)-arctan(wh))2 (8)
α=v(1-IoU)+v (9)

式中:α是权重系数;v用来度量宽高比的一致性;wh分别为候选框的宽和高;ρ为欧氏距离;c为预测框和标注框的对角线长度。

式(7)中的ρ2(b,bgt)表示预测框b和真实框bgt中心点之间的欧式距离dc代表它们的对角线距离,如图7所示。

图7  预测框与标注框参数解释图

Fig. 7  Explanatory diagram of parameters of prediction frame and anchor frame

在IoU、GIoU和CIoU等边界框回归指标中,预测框和真实框之间的方向不匹配时,会降低模型的收敛速度和效率。考虑回归向量角度并重新定义惩罚指标的SIoU损失函数由4个代价函数组成:角度函数、距离函数、形状函数和IoU函数。角度函数为

Λ=1-2sin2(arcsin(x)-π4) (10)

式中:x=max(bcygt,bcy)-min(bcygt,bcy)(bcxgt-bcx)2+(bcygt-bcy)2=sin(α),这里的cxcy分别为对角线距离的长和宽分量。

角度函数最大限度地减少了与距离相关的不匹配变量数量,收敛过程中首先最小化α。距离函数为

Δ=t=x,y1-e-γρt) (11)

式中:ρx=(bcxgt-bcxcw)2ρy=(bcygt-bcych)2γ=2-Λ

形状函数为

Ω=t=w,h1-e-ωt)θ (12)

式中:ωw=w-wgtmax(w,wgt)ωh=h-hgtmax(h,hgt)θ值由数据集决定。

由SIoU定义的损失函数为

Lbox=1-IoU+Δ+Ω2 (13)

式中:IoU为预测框和真实框的交并比。

3 实验结果分析

3.1 实验环境及数据集来源

实验在Windows操作系统环境下进行,使用CPU为AMD Ryzen7 5800H,RAM为16 GB随机存取内存,GPU为RTX 3060 Laptop,6 GB显示内存。深度学习框架为pytorch,整个训练过程设置epoch为300,Batch_size为8,训练时使用SGD优化算法进行参数优化,初始学习率为0.01,输入图片分辨率为640×640。

实验数据集为Mundt[

19]在2019年公开的用于桥梁混凝土缺陷检测的多目标具体分类数据集CODEBRIM(COncrete DEfect BRidge IMage Dataset)。该数据集包含裂缝、脱落、腐蚀、露筋和风化共5种桥梁病害,如图8所示,有效缺陷图像共1 052张。由于数据样本较少,且未考虑实际检测环境变化,因此使用数据增强技术对缺陷图像样本进行扩充,将原数据进行裁剪、镜像、亮度调节操作,得到有效缺陷图像共3 807张。将数据集按9: 1的比例随机分为训练集、验证集。

图8  桥梁缺陷图片

Fig. 8  Pictures of various defects of bridges

3.2 评价指标

多标签图片划分任务中不止一种图像标签,因此不能用普通单标签图片划分任务的精度标准来作为评判指标。本研究中采用mAP(mean average precision)作为评价指标。二元分类问题分类结果的混淆矩阵如表1所示,判断结果依据其标记类和预测类的组合可分为4类,分别为真正例、假正例、真负例和假负例,分别对应表1的TP、FP、TN和FN。

表1  二元分类混淆矩阵
Table 1  Confusion matrix for binary classification
标记真实值
正(Positive)负(Negative)
正(Positive) TP FP
负(Negative) FN TN

精确度(precision,P)和召回率(recall,R)计算公式如下:

P=TPTP+FP (14)
R=TPTP+FN (15)

精确度表示该模型预测为正例的样本中实际为正例的样本所占的比例;召回率表示实际为正例的样本中模型预测为正例的样本所占的比例。每个类的精度值(AP)就是P-R曲线与坐标轴围成的面积。mAP是这些缺陷分类的P-R曲线下的面积取平均值,mAP可以作为一个相对较好的度量指标。AP和mAP公式如下:

AP=i=1NPiN (16)
mAP=j=1NAPjM (17)

式中:M表示用于检测的类别总数;N表示测试的图像数量。mAP包含了mAP@0.5和mAP@0.5:0.95,具体由设定的IoU阈值决定,其表达式如下:

mAP@0.5=j=1MAP@0.5jM (18)
mAP@0.5:0.95=t=09mAP@(0.5+0.05t)10 (19)

式(18)式(19)可知,mAP@0.5即IoU阈值为0.5时的平均精度,揭示了精确度P和召回率R的变化趋势。mAP@0.5:0.95是以0.05为步进,IoU阈值从0.50到0.95的平均精度的平均值,揭示了模型在不同IoU阈值下的综合表现,mAP@0.5:0.95越高代表模型的边界回归能力越强,预测框与标注框的拟合越精确。

3.3 实验结果与分析

本研究中使用的数据集缺陷不易于分类,且某些缺陷(如裂缝)这样的小目标受输入图片分辨率的影响,在检测时,设置输入图片分辨率为640×640。为了验证提出的方法的有效性,考虑到实时性检测的需求,将使用了YOLOv5s的原生模型检测效果分别与改进空间金字塔池化的YOLOv5s-RSPPF、加入ECA注意力模块的YOLOv5s-ECA、使用SIoU进行损失计算的YOLOv5s-SIoU和本文中提出的改进骨干网络和损失函数的YOLOv5s-BD通过测试数据集进行对比,结果见表2,其中FPS为每秒检测帧数(frames per second)。

表2  改进的YOLOv5s和原版YOLOv5s实验表现
Table 2  Experimental results of improved YOLOv5s and original YOLOv5s
算法AP/%mAP@0.5/%mAP@0.5:0.95/%FPS/Hz
裂缝脱落腐蚀露筋风化
YOLOv5s 79.6 86.7 83.9 90.7 77.8 83.7 55.4 71.9
YOLOv5s-SIoU 79.9 87.1 85.0 90.6 80.0 84.5 56.0 70.4
YOLOv5s-RSPPF 80.9 87.7 84.7 90.9 79.9 84.8 56.8 78.0
YOLOv5s-ECA 81.3 87.6 85.0 91.6 81.9 85.5 57.2 70.4
YOLOv5s-BD 84.2 90.5 86.8 92.3 83.6 87.5 61.5 73.6

改进后的YOLOv5s-BD相较于YOLOv5s的原生模型对各种缺陷的检测效果均有提升。其中,由于对预测框的损失函数做出改进,YOLOv5s-SIoU相较于原模型mAP@0.5提升了0.8%,mAP@0.5:0.95提升了0.6%;由于对原生模型的SPPF模块做出改进,YOLOv5s-RSPPF相较于原模型mAP@0.5提升了1.1%,mAP@0.5:0.95提升了1.4%;由于在特征提取网络尾部加入ECA注意力机制,YOLOv5s-ECA相较于原模型mAP@0.5提升了1.8%,mAP@0.5:0.95提升了1.8%。结合以上几种方法,YOLOv5s-BD相较于原模型mAP@0.5提升了3.8%,mAP@0.5:0.95提升了6.1%。虽然总体网络层数有所增加,但由于改进的网络采用了更加轻量化的计算方式,每秒检测帧数FPS也略微提升,满足实时检测需求。

为了进一步验证本研究中的模型在用于混凝土桥梁表观缺陷检测时的优势,在不改变数据集的情况下,使用本研究改进网络YOLOv5s-BD与Faster RCNN、SSD和YOLOv3进行实验验证,结果见表3

表3  不同检测网络对比
Table 3  Comparison of different detection networks
算法AP/%mAP/%FPS/Hz
裂缝脱落腐蚀露筋风化
Faster RCNN 71.2 76.8 76.9 78.2 77.4 76.3 12.4
SSD 70.5 75.3 75.1 76.2 74.3 74.3 45.3
YOLOv3 69.9 83.9 85.3 86.1 80.4 81.1 29.6
YOLOv5s-BD 84.2 90.5 86.8 92.3 83.6 87.5 73.6

通过表3可以看出,由于YOLOv5s-BD拥有对交叉分布病害特征更有效的提取能力和更先进的边界框回归指标,不论是以Faster RCNN为代表的双阶段检测算法,还是SSD、YOLOv3这类单阶段检测算法,平均准确率和FPS都比YOLOv5s-BD算法低,证明本研究中改进的网络模型在应用于混凝土桥梁表观病害检测方面有更大的优势。

3.4 缺陷检测的效果

对测试集中的样本进行随机抽检,其检测效果如图9所示。

图9  YOLOv5sYOLOv5s-BD检测效果

Fig. 9  Detect results of YOLOv5s and YOLOv5s-BD

图9(a)检测到部分裂纹(crack),图9(b)检测到了更多的裂纹,且没有误检;图9(c)将脱落(spallation)误检为露筋(exposed bars)且漏检了裂纹,图9(d)准确检测到脱落和裂纹;图9(e)检测到露筋但没有检测到脱落;图9(f)准确识别到露筋和脱落。综上所述,相比于YOLOv5s,YOLOv5s-BD模型平均精度mAP@0.5提升了3.8%,mAP@0.5:0.95提升了6.1%,检测速度也略有提升,能够有效地检测到更多缺陷且拥有更低的误检率和漏检率,因此更适用于混凝土桥梁表观病害检测。

4 结束语

针对当前目标检测算法在应用于桥梁表观病害检测时精度低、误检率高、漏检率高和检测速率低的问题,提出一种用于桥梁表观病害检测的改进YOLOv5s检测网络;针对桥梁缺陷尺寸差异大、分类困难,以及数据集小的问题,为提高缺陷预测的精确度,引入新的预测框损失函数进行训练。实验结果表明,改进后的YOLOv5s模型在进行桥梁表观缺陷实时检测时,多种缺陷的检测平均精度均有明显提升,且满足实时检测需求,相比于原模型漏检率和误检率更低。下一步工作为:1)针对直接破坏桥梁结构的缺陷(如裂缝)进行尺寸检测工作;2)研究搭载YOLOv5改进算法的无人机或者爬壁机器人在进行桥梁病害检测中的应用,取代人工目视来达到病害精准识别和保证工人安全的目的。

参考文献

1

Ellenberg A, Kontsos A, Bartoli I, et al. Masonry crack detection application of an unmanned aerial vehicle[C]// 2014 International Conference on Computing in Civil and Building Engineering, June 23-25, 2014, Orlando, Florida, USA. Reston, VA, USA: American Society of Civil Engineers, 2014: 1788-1795. [百度学术] 

2

Nishikawa T, Yoshida J, Sugiyama T, et al. Concrete crack detection by multiple sequential image filtering[J]. Computer-Aided Civil and Infrastructure Engineering, 2012, 27(1): 29-47. [百度学术] 

3

周清松, 董绍江, 罗家元, . 改进YOLOv3的桥梁表观病害检测识别[J]. 重庆大学学报, 2022, 45(6): 121-130. [百度学术] 

Zhou Q S, Dong S J, Luo J Y, et al. Bridge apparent disease detection based on improved YOLOv3[J]. Journal of Chongqing University, 2022, 45(6): 121-130. (in Chinese) [百度学术] 

4

Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]// 2014 IEEE Conference on Computer Vision and Pattern Recognition(CVPR), June 23-28, 2014, Columbus, OH, USA. IEEE, 2014: 580-587. [百度学术] 

5

Girshick R. Fast R-CNN[C]// 2015 IEEE International Conference on Computer Vision (ICCV), December 7-13, 2015, Santiago, Chile. IEEE, 2015: 1440-1448. [百度学术] 

6

Ren S, He K, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149 . [百度学术] 

7

Cha Y J, Choi W, Suh G, et al. Autonomous structural visual inspection using region-based deep learning for detecting multiple damage types[J]. Computer-Aided Civil and Infrastructure Engineering, 2018, 33(9): 731-747. [百度学术] 

8

Liu W, Anguelov D, Erhan D, et al. SSD: single shot multibox detector [M]// Computer Vision-ECCV 2016. Cham: Springer International Publishing, 2016: 21-37. [百度学术] 

9

Redmon J, Divvala S, Girshick R, et al. You only look once: unified, real-time object detection[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA. IEEE, 2016: 779-788. [百度学术] 

10

Redmon J, Farhadi A. YOLOv3: an incremental improvement[EB/OL]. 2018-04-08[2022-08-12]. https://arxiv.org/abs/1804.02767. [百度学术] 

11

Bochkovskiy A, Wang C Y, Liao H Y M. YOLOv4: optimal speed and accuracy of object detection [EB/OL]. 2020-04-23[2022-08-12]. https://arxiv.org/abs/2004.10934. [百度学术] 

12

彭雨诺, 刘敏, 万智, . 基于改进YOLO的双网络桥梁表观病害快速检测算法[J]. 自动化学报, 2022, 48(4): 1018-1032. [百度学术] 

Peng Y N, Liu M, Wan Z, et al. A dual deep network based on the improved YOLO for fast bridge surface defect detection[J]. Journal of Automation, 2022, 48(4): 1018-1032. (in Chinese) [百度学术] 

13

Jiang W, Liu M, Peng Y, et al. HDCB-Net: a neural network with the hybrid dilated convolution for pixel-level crack detection on concrete bridges[J]. IEEE Transactions on Industrial Informatics, 2020, 17(8): 5485-5494. [百度学术] 

14

Lin T Y, Maire M, Belongie S, et al. Microsoft COCO: common objects in context[C]// European Conference on Computer Vision (ECCV), September 06-12, 2014, Zurich, Switzerland. ECCV, 2014: 740-755. [百度学术] 

15

Wang Q, Wu B, Zhu P, et al. ECA-Net: efficient channel attention for deep convolutional neural networks[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 13-19, 2020, Seattle, WA, USA. IEEE, 2020: 2575-7075. [百度学术] 

16

Gevorgyan Z. SIoU loss: more powerful learning for bounding box regression [EB/OL]. 2022-05-25 [2022-08-12]. https://arxiv.org/abs/2205.12740. [百度学术] 

17

Purkait P, Zhao C, Zach C. SPP-Net: deep absolute pose regression with synthetic views[EB/OL]. 2017-12-09[2022-08-12]. https://arxiv.org/abs/1712.03452. [百度学术] 

18

Wang Q, Wu B, Zhu P, et al. ECA-Net: Efficient channel attention for deep convolutional neural networks[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. IEEE, 2020: 11534-11542. [百度学术] 

19

Mundt M, Majumder S, Murali S, et al. Meta-learning convolutional neural architectures for multi-target concrete defect classification with the COncrete DEfect BRidge IMage Dataset[C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 15-20, 2019, Long Beach, CA, USA. IEEE, 2019: 11188-11197. [百度学术]