首页 > 论文范文 > 工程工业论文 > 建筑工程论文 > 建筑基础科学论文 > 双目视觉与图像识别基础上网架结构三维重建

双目视觉与图像识别基础上网架结构三维重建

2020-12-14 190 上传者：管理员

摘要：计算机视觉使用摄像机、电脑等设备实现对三维场景的识别、理解与重建.基于计算机视觉领域中的双目立体视觉技术与图像识别技术,提出一种针对网架结构球节点及其连接关系的三维重建方法.采用双目视觉技术对被测结构进行拍摄,由双相机的相对位置关系以及球节点在图像中的位置,计算球心坐标,实现球节点的三维重建.引入深度学习网络进行重建过程中的球节点识别定位工作,并对图像中的杆件所在区域进行语义分割,由此判断节点间的连接关系.相机单次拍摄视野受相机视角和相机至被测物的距离所限制,而网架结构多用于大跨度建筑,对网架结构的双目视觉测量往往需要进行多次图像采集工作.对于多次测量下的球节点坐标结果,采用任意旋转角下的三维坐标转换模型,实现多次测量结果坐标系的统一.通过对一正放四角锥网架结构模型进行实测试验,实现了对该网架模型的三维重建,验证了由双目视觉技术进行网架结构三维重建方法的可行性。

关键词：
三维重建
双目视觉
坐标转换
实例分割
网架结构
加入收藏

我国空间结构发展迅速,且广泛应用于大型公共建筑,如大型体育场馆、交通枢纽站等,此类结构的安全性对人员安全、社会公共利益等有重大影响,为确保其在服役期内处于安全、稳定的工作状态,需要对结构进行长期、全面的监测和定期维护[1].实现结构的三维重建可以为结构监测提供更加丰富的信息.传统的坐标测量手段主要有全站仪[2]、GPS[3]、激光扫描仪[4,5]等,在对空间结构进行监测的过程中,由于空间结构跨度大、构件数量多、结构形式复杂等原因,传统方法仅能实现对有限数目的关键测点的测量,难以实现整体结构的三维重建.

计算机视觉使用摄像机和电脑等设备实现对客观世界三维场景的识别、理解与三维重建.近年来,在图像处理、计算机技术快速发展的基础上,计算机视觉技术逐渐应用于土木工程[6]、机械制造[7]等众多领域.然而,在利用计算机视觉进行网架结构的三维重建过程中,仍存下以下问题需要解决:1)相机视野受到镜头的视角以及相机至被测物距离的限制,空间结构的跨度较大,一次测量往往难以实现整体结构的拍摄,而多次测量则面临测量坐标系不一致的问题;2)网架结构中球节点、杆件的数目多,人工进行测点的标注会耗费大量时间及人力.

基于此,本文利用计算机视觉技术中的双目视觉测量技术与图像识别技术,提出一种可以自动识别网架结构球节点及杆件并进行结构三维重建的方法.本文采用双目视觉测量技术进行球节点球心位置的测量,对于多次测量下的球节点坐标结果,采用任意旋转角下的三维坐标转换模型实现坐标系的统一.双目测量及坐标转换的理论模型详述于第1节.第2节简述图像识别及其主流框架的发展,介绍了MaskR-CNN框架的实例分割原理以及针对杆件的实例分割网络的实现,并基于以上识别结果进行球节点连接关系的判断.第3节详述三维重建方法的技术流程,并对一正放四角锥网架结构模型进行三维重建实测试验,初步验证由双目视觉技术进行网架结构三维重建方法的可行性.

1、基于双目视觉的球节点定位

节点是空间结构中十分重要的组成部分,且具有对构件进行定位的作用.在众多节点形式中,球节点在空间结构中的应用最为普及[8].对空间结构中的球节点进行三维坐标测量,是实现通过监测获取实际结构三维模型的首要步骤.本文采用双目视觉测量进行球节点的三维重建.

1.1双目立体视觉测量模型

双目立体视觉测量利用两台摄像机对被测结构进行拍摄,基于视差原理利用空间点在两台摄像机像面上的成像点坐标来计算空间点的三维坐标.当两台相机视线不做特殊要求时,即构成非平行配置双目立体视觉模型[9].设空间中有一点P,两台摄像机在同一时刻从不同角度对P点进行观测,建立双目立体视觉测量模型如图1.设左相机坐标系为ol-xlylzl,成像面的图像坐标系为o′l-x′ly′l,像素坐标系为o″l-ulvl,相机镜头的有效焦距为fl;同理,右相机坐标系为or-xryrzr,图像坐标系为o′r-x′ry′r,像素坐标系为o″r-urvr,有效焦距为fr,世界坐标系设为ow-xwywzw.

图1双目立体视觉测量模型

由左相机内参数可得像素点与成像面的图像间的尺度关系,表示为

其中ku=x′dx,kv=y′dy,u0ku=x′dx,kv=y′dy,u0、v0为图像原点坐标.

由摄像机透视变换模型,可以得出成像点与其对应的空间点的三维坐标关系.

相机坐标系与世界坐标系可通过旋转矩阵R和平移矩阵T进行转换,表示为

其中,由相机标定过程可得.

由式(1)～(3)可得

同理可得右相机像素坐标与世界坐标的转换关系

由式(4)、(5)消去zl、zr,可以得到关于xw、yw、zw的线性方程组,

求解线性方程组(6)即可解出点P在测量坐标系下的坐标值.在实际情况中,由于相机标定参数、像点坐标位置等都是非理想的,两条投影射线通常不能精确相交于一点,可用最小二乘法求解坐标,或用最大似然估计法最小化投影误差.

1.2多次测量结果的统一

图2空间坐标转换模型

由于空间结构跨度较大且测量用工业相机的对角线视角约为45°,在一次测量中若要使结构全部位于相机视野范围内难以实现.为得到结构全部球节点的测量结果,需要在多个视角下对结构进行摄影测量,得到的节点坐标结果需经过坐标转换统一坐标系(图2).

设点P在两个空间直角坐标系下的坐标分别为(xA,yA,zA)(xA,yA,zA)和(xB,yB,zB)(xB,yB,zB),三维坐标转换模型为:

其中m为缩放比例,(Δx,Δy,Δz)(Δx,Δy,Δz)为空间平移变量,R为旋转矩阵,可由坐标系A绕x、y、z旋转的角度表示.因此在坐标转换模型中,共有3个平移参数、3个旋转参数和1个比例参数.若有3个以上的公共点,即可利用最小二乘法解算以上转换参数.但由于R矩阵中的其余6个参数是关于旋转参数的非线性函数,因此直接解算式(7)非常复杂[10].

当旋转角度较小时,旋转矩阵可简化,则空间直角坐标转换为布尔沙模型,实现起来比较方便.但对于空间结构的摄影测量过程,势必要在多个差异较大的视角下测量,才能够拍摄到全部球节点,测量坐标系的旋转角度很难满足小角度的要求.因此,本文采用任意旋转角下的三维坐标转换模型[11]进行编程实现.

理论上最少用3个点即可进行转换.为保证转换精度,单次转换的公共点数量需为4个及以上.

2、基于实例分割的节点连接关系判断

本文引入卷积神经网络进行网架图像的语义理解,实现球节点及杆件的图像位置自动获取.

图像识别的任务主要可分为目标检测和语义分割.目标检测是对物体在图像中的位置进行搜索并对物体进行分类,语义分割则是对图像进行像素级别的理解,给出每一个像素的类别结果.LeNet[12]建立了卷积神经网络框架进行手写字符分类识别,使用卷积层提取图像特征,使用池化层进行降维处理,并通过Sigmoid函数进行中间层激活,以此模拟人类视觉信息处理神经元系统.在此基础上,AlexNet[13]引入了ReLU作为激活函数,并实现了双GPU的并行计算,显著提升了识别的速度与精度.FasterR-CNN[14]通过区域提名网络产生建议窗口,并与目标检测网络共用卷积层,实现了高效的目标检测.文献[15]提出了实例分割框架MaskR-CNN,该方法在FasterR-CNN的基础上增加了物体掩码分支,实现了对每个识别对象的精确分割.

由于球节点球心在像平面的投影始终处于球节点投影的圆心位置,且与目标检测算法定位框的坐标一致,本文采用基于YOLOv2的球节点识别定位模块进行球节点三维坐标的获取[16].杆件的形状可理解为线性形状,目标检测的定位框难以准确描述杆件的位置.本文采用MaskR-CNN框架对杆件进行图像语义分割,并结合球节点的像面坐标结果,对球节点间是否存在杆件进行判断,从而得到节点单元间的连接关系.

2.1实例分割原理及实现

实例分割是在目标检测的基础上进行定位框内物体的语义分割,可以同时完成物体的定位、分类,并实现像素层面的区域分割.MaskR-CNN是一个两阶段的图像识别框架:第一个阶段将图片送入卷积神经网络进行特征提取,并在最后一层通过区域提名网络(RPN,regionproposalnetwork)生成候选的目标定位框;第二阶段对每个定位框进行分类和定位框边界回归,同时增加一个小型全卷积网络分支进行掩码(mask)的预测,得到目标回归框、类别结果和掩码.MaskR-CNN框架的原理如图3.

图3MaskR-CNN框架原理图

以MaskR-CNN为基础,构建用于检测空间结构网架中杆件的卷积神经网络.由实测采集与网络搜集两种途径得到了50张网架结构的图片,人工标注图片中的所有杆件,生成杆件的定位框信息与掩码区域信息,组成网架结构杆件数据集,共包含杆件数量为1505个.其中40张图片用于网络的训练,10张用于测试.卷神经网络的训练在IntelCorei7-4790CP四核平台上进行,网络的训练参数设置如表1所示,共进行3000次迭代.

使用多任务损失函数对网络的识别能力进行评价[15].损失函数为对象分类误差、目标检测误差和掩码分割误差之和.

L=Lcls+Lbox+Lmask(14)

表1MaskR-CNN训练参数

式中,Lcls为分类损失函数[17],用于评价类别预测的准确程度,为除背景类别外的真实分类u的对数损失.

Lbox为回归损失函数,用于评价真实分类u的预测回归框参数tu=(tux,tuy,tuw,tuh)tu=(txu,tyu,twu,thu)与真实回归框参数v=(vx,vy,vw,vh)v=(vx,vy,vw,vh)的差距,回归框参数包含回归框的中心坐标以及框的长、宽值.

Lmask为掩码损失函数.掩码分支对每一个提名区域分别对应k个类别输出分辨率为m×m的二值掩码,掩码损失函数仅对该提名区域的类别进行计算,对每一个像素计算二值交叉熵损失,整体损失定义为该提名区域的平均二值交叉熵损失.

网架杆件识别网络训练过程中的损失曲线如图4所示.三个分支的损失函数呈现相同趋势,在前500次迭代中快速下降,之后进入缓慢下降阶段并逐渐趋于平稳.取2800次迭代时的训练模型作为最优结果.

图4损失曲线图

实例分割网络的识别过程可视化输出如图5.可以看出,首层卷积层所起到的作用类似于边缘检测的功能,其输出与原始图像较为接近.随着卷积层的层数加深,卷积层输出内容越来越抽象,其包含的特征也在减少.可视化输出图像的内容所包含的空白内容部分逐渐增多,表明卷积核在该区域未找到目标特征.

图5卷积特征图可视化

对空间网架结构的杆件及球节点的识别效果如图6.

图6杆件识别测试结果

2.2单元连接关系判断

结构杆件的位置信息可以理解为节点的连接关系.若由双目视觉模型直接进行杆件轴线位置的计算,其计算过程复杂且准确度较低,故使用球节点坐标作为定位点,杆件的位置信息获取转换为图片中任意两球节点间有无连接关系的判断.判断过程如图7所示.由球节点识别模块与杆件实例分割模块对拍摄图像分别进行信息提取,得到球节点的像面坐标以及杆件的掩码信息.对图像中任意两球节点的连线与杆件掩码信息进行对比,设定阈值对连接关系进行判别.本文采用当85%以上的连线处于某一杆件掩码区域内时,判定两球节点相连;否则认为这两个球节点间没有杆件进行连接.对于更为复杂的情况,例如杆件共线、遮挡等,可利用球节点掩码信息、拍摄方位以及已知图纸信息制定附加规则.

图7节点连接关系判断示意图

3、三维重建方法实现及试验验证

3.1三维重建测量流程

基于以上内容,对空间网架结构的三维重建系统设计如下,流程图如图8所示:

图8三维重建系统流程图

1)采用双目视觉测量系统作为测量仪器,由两台摄像机从不同方向对被测结构进行图像采集,获得网架结构的图片及相机标定参数;

2)使用球节点识别定位模块得到球节点在图像中的二维坐标,并结合相机标定参数计算节点的三维空间坐标;

3)同时将结构图像导入连接关系判别模块,采用实例分割网络进行杆件的语义分割,得到杆件的定位框及掩码区域,结合球节点识别定位模块中获得的球节点二维图像坐标,进行球节点间连接关系的判断;

4)对于多次测量下的球节点坐标结果,采用三维坐标转换模块实现多次测量结果的坐标系的统一,最终得到网架的三维重建模型.

图9结构正视图与俯视图

3.2试验方案及结果

对一2×4正放四角锥网架进行测量,其空间尺度约为3.2m×1.6m×0.57m,上下弦杆及腹杆长度均为720mm,杆直径为45mm,上弦杆有22根,下弦杆10根,腹杆32根.网架模型共23个节点,均为螺栓球节点,直径为80mm.结构示意图与球节点编号如图9所示,图中上、下弦杆由实线表示,腹杆由虚线表示.

采用IMETRUM非接触视觉测量仪进行图像采集工作,仪器包含两台专用数字摄像机、高分辨率镜头、系统控制器、三脚架等.根据摄像机至网架的距离,镜头焦距选用16mm.

由于试验场地限制以及杆件遮挡的影响,对网架结构共进行6次拍摄测量,单次测量视野中至少包含4个控制点.将每次采集的网架图像分别导入球节点识别定位模块与单元连接判断模块,得到单次测量下的球节点坐标及其连接关系.在视野范围内布设26个控制点,并以其中一个控制点作为原点,以正南方向为x轴,正东方向为y轴定义统一坐标系.采用坐标转换模型将结果整合至设定的统一坐标系下,得到网架的三维重建模型,详细流程见图8,具体计算过程参见前两节内容.6次测量的识别结果及最终重建模型如图10、图11所示.

6次测量结果以及最终模型的识别准确率如表2所示,表中应测节点数为双目测量视线范围内的球节点数量,应测连接数为图像中所有球节点间存在连接关系的数目.可以看出,球节点识别准确率较高,除第1次测量时有两个球节点与其他球节点光照情况差异过大导致该区域过曝未能测量到其位置外,其余测量过程均成功识别到相机视线内的全部球节点.连接判断的准确率相对较低,主要原因是某些杆件,尤其距相机距离较远的杆件,受其前面的结构构件遮挡严重,杆件图像识别网络未能成功识别到,但在多次不同视角的测量下,结构的全部球节点及杆件均被成功测量并识别.

图10单次测量识别结果

图11三维重建模型图

表2测量结果识别准确率

为验证本方法的可靠性,使用徕卡全站仪对网架球节点的球心坐标进行测量.对每个球节点测量其表面5个点的坐标值,以此拟合球面,计算其球心坐标.将全站仪测量结果作为真实值,计算三维重建方法测量结果的误差,以评价本文方法的测量精度.全站仪测量结果以及三维重建测量结果如表3所示.

表3节点三维坐标测量结果

由于在双目视觉测量过程中,两相机的光轴方向夹角较小,在深度方向的测量精度相较像面内方向的误差更大.对此可在测量过程中考虑适当增大相机光轴的夹角,或可从相互垂直的两个方向对球节点进行拍摄,以剔除纵深方向的误差影响.本次试验中,为减小双目测量在深度方向的误差,相机拍摄视线包含沿正x轴与负y轴的两个相互垂直的视线,其中第一次拍摄视线沿正x轴,后五次拍摄视线沿负y轴方向.剔除第一次测量结果的x轴坐标值;对于后五次测量的y轴坐标值,若该点在第一次测量的视线范围中,则剔除其在后五次测量中的y值坐标.对多次测量的球节点坐标值取平均,得到最终的测量坐标结果,误差如表4所示.绝对误差最大值为67.3mm,出现在10号球节点的y轴坐标值,在第2次及第6次测量中均对该球节点进行了拍摄,但由于两次测量的相机视线平行,且平行于y轴,故该点的y轴坐标值精度较低.

表4测量结果误差

4、结论

本文提出了基于双目视觉技术与图像识别技术的网架结构三维重建方法,使用双目相机作为图像采集仪器,对被测网架进行拍摄,由双目立体视觉测量模型得到网架的三维空间位置信息.引入深度学习网络进行结构中球节点及杆件的自动识别.最终实现对网架结构的自动、高效的三维重建.主要结论如下:

(1)针对双目视觉测量中单次测量视野受限的问题,采用任意旋转角下的三维坐标转换模型,实现了对多次测量结果的拼接.

(2)基于实例分割方法开发了针对空间结构球节点及杆件的识别模块,可以自动进行图像中结构构件的语义提取,并结合球节点的定位结果完成球节点连接关系的判断.

(3)通过网架模型的实测试验,实现了网架的三维逆向建模,验证了本文方法的可行性.

参考文献：

[1]罗尧治,沈雁彬,童若飞,等.空间结构健康监测与预警技术[J].施工技术,2009,38(3):4-8.

[2]高俊强,陶建岳.利用免棱镜全站仪进行地铁隧道断面测量与计算[J].测绘通报,2005,(10):41-43.

[3]赖继文.GPS测量技术及其在工程测量中的应用[J].地矿测绘,2006,22(3):11-13.

[4]罗尧治,丁慧.基于3D扫描的空间网格结构建模[C]//全国索结构技术交流会,北京,2012:189-193.

[5]白成军.三维激光扫描技术在古建筑测绘中的应用及相关问题研究[D].天津:天津大学,2007.