首页 > 论文范文 > 社会科学论文 > 科技论文 > 自动化论文 > 基于多模态特征提取与层级感知的遥感图像分割

基于多模态特征提取与层级感知的遥感图像分割

2024-12-03 163 上传者：管理员

摘要：高分辨率遥感图像中存在物体视觉特征模糊和同物异谱的问题，在单一模态下对相似地物和阴影遮挡的地物分割较为困难，因此本文提出了一种基于多模态特征提取与层级感知的遥感图像分割模型。本文引入了多模态特征提取模块来提取不同模态的特征信息，并通过坐标注意力机制充分融合不同模态的特征。抽象特征提取模块采用具有双路径瓶颈块的MobileNetV3作为主干网络，并引入了层级感知网络来提取深层次的抽象特征，通过嵌入像素的场景感知来改进注意力机制，实现高效且准确的类级上下文建模。解码部分设计了多尺度聚合双重融合，将低级特征与高级抽象语义特征相结合，利用逐步上采样实现特征恢复。本文基于ISPRS Vaihingen和Potsdam数据集上的高分辨率遥感图像，实验结果表明：(1)在包括C3Net、AMM-FuseNet、MMFNet、CMFet、CIMFNet和EDGNet在内的一系列对比模型中，MFEHPNet在各项性能指标上得到了显著提高，验证了遥感图像的语义分割性能；(2) MFEHPNet在ISPRS Vaihingen和Potsdam的总体精度为92.21%和93.45%、平均交并比为83.24%和83.94%、Kappa为0.85、频率加权交并比为89.24%和90.12%，显著提高了遥感图像的语义分割性能，能有效解决分割中的特征边界模糊和同物异谱等问题。

关键词：
双路径瓶颈块
多尺度聚合
多模态特征提取
层级感知
遥感图像分割
加入收藏

1、引言

随着遥感卫星和高空平台的快速发展，高空间分辨率遥感图像的应用也变得越来越普遍[1]。遥感影像的语义分割在地貌特征的像素级分类方面具有重要意义，该技术已经在许多工业级图像中得到广泛应用[2-4]。例如，环境灾害监测[5]、土地利用与土地覆盖制图[6-7]、农业资源管理[8]、滑坡识别[9]和交通管理[10-12]等。遥感影像具有丰富的语义信息，但由于存在同物异谱和类间尺度不平衡的问题，使得语义分割任务具有挑战性。

随着人工智能技术的不断发展，全卷积神经网络(Fully Convolutional Networks,FCN)[13]将端到端的学习思想应用于图像分割。基于FCN的方法同样借助卷积来提取物体特征，例如，Unet[14]使用U型对称网络结构和多个跳跃连接；Seg Net[15]提出了一种编码器-解码器结构；Deeplabv3+[16]利用级联解码器结构和空洞卷积来提取多尺度特征。除了方法和网络模型的选择，通过分析遥感影像数据形式和数据结构对语义分割的影响，发现单模态遥感影像数据只能从单一角度提供信息属性，难以获得较好的特征提取结果，引入多模态遥感数据来寻找高效、准确、鲁棒性更高的语义分割方法是可行的。

在多模态高分辨率遥感图像分割研究领域，遥感图像的双模态包括近红外、红、绿IRRG (Infrared、Red、Green)图像和数字表面模型DSM (Digital Sur‐face Model)图像，其中IRRG图像具有纹理、颜色、形状等语义信息，语义信息一般指的是目标区域像素和周围区域像素之间的关联性[17]。DSM图像包含了三维空间的栅格化数据，以灰度图的形式体现不同物体的高度信息，高度信息差可以体现物体类别间的差异，可以作为IRRG图像的补充[18]。

为了在语义分割中应用多模态数据，Marcos等[19]简单的将IRRG图像和DSM图像结合作为输入，导致产生冗余信息。Audebert等[20]采用2个CNN网络对IRRG图像和DSM图像进行处理，并通过元素相加的方式进行模态特征融合，导致重要信息的丢失。Fuse Net[21]分别提取IRRG和DSM，将多级深度特征自下而上地融合到编码器中，然而这忽略了对局部和全局信息的融合。为了减少冗余特征的引入并缓解图像噪声的影响，Cao等[22]提出了一种高效的C3Net，引入跨模态特征再校准模块，通过对相应模态特征进行转换，再将信息特征作为融合特征进行再校准和聚合，提高了多模态表征的质量；Ma等[23]提出了一种新型的动态深度网络AMM-Fuse Net，该网络采用了通道注意机制和密集连接的空间金字塔池化来增强网络的表征能力；孙汉淇等[18]提出的MMFNet采用双输入流的方式同时获得了IRRG图像的光谱特征和DSM图像的高度特征；李钰等[24]，提出感知注意力块，利用RGB图像与深度图像在网络中的权重不同，凭借通道特征自适应选择的方式过滤掉冗余信息，以加权的方式获取它们的融合结果，实现深度信息对RGB信息的多级辅助。但过滤冗余信息会导致重要信息丢失，同时简单的加权融合忽略了不同模态间的差异性。Ma等[25]提出的CMFNet，通过跨模态多尺度变换器和多尺度上下文增强变换器来融合光学遥感图像的多尺度卷积特征图和数字表面模型数据。为了进一步融合多尺度信息，Zhou等[26]提出了CIMFNet，该网络引入了分层特征交互和金字塔池化模块提取多尺度上下文特征。尽管这些方法在模态融合策略方面做出了显著贡献，但缺乏对不同尺度特征信息的融合提取。因此，Jin等[27]提出了EDGNet，利用包含在边界中的空间信息来辅助多模态信息融合，将高层和低层特征之间的细节信息和语义信息相融合，以获得多模态融合特征。该方法专注于像素之间的关系，而忽略了对场景的感知。综上所述，多模态高分辨率遥感图像分割方面的应用研究已有较多成果，但仍存在一些不足。一方面多模态数据的简单结合，会导致产生过多的冗余信息及重要信息的丢失；另一方面由遥感图像种类丰富、多尺度的特点，使得模型缺乏对不同尺度特征信息的融合提取，而忽略了对局部和全局信息的融合，导致分割的精度下降。

为了更好地整合DSM并解决物体视觉特征模糊和同物异谱的问题，本文提出了一种基于多模态特征提取与层级感知（Multi-modal Feature Extrac‐tion and Hierarchical Perception,MFEHP）的遥感图像分割模型。该模型提取不同模态的特征信息，并引入了坐标注意力（Coordinate Attention,CA）将其融合；主干网络设计双路径降低参数量，结合层级感知网络（Hierarchical Perceptual Network,HPN）改进注意力机制；针对遥感图像中的多尺度问题，利用多尺度聚合（Multi-Scale Aggregation,MSA）融合高级和低级特征，强化特征提取能力。最后在IS‐PRS Vaihingen和Potsdam数据集[28]与已有分割模型进行对比，本文模型对图像类别的分割边界最清晰，并且对方差大的背景分类效果更稳定。

2、MFEHPNet模型结构

本文提出的MFEHPNet模型结构如图1所示。采用了编解码器结构，编码器部分为多模态特征提取模块（Multi-modal Feature Extraction Module,MEM）和抽象特征提取模块，模型输入的数据源采用IRRG和DSM图像，用于分别提取不同模态的特征信息，通过3×3卷积块来调整通道数，2×2的最大池化操作使得图片大小减半，提升模型的泛化能力，引入了坐标注意力机制将不同模态特征合并成一个整体，利用3×3的转置卷积，调整图像大小为224像素×224像素，并调整通道数为256个，最后利用卷积核大小为3×3和1×1的卷积调整通道数，保证输入主干网络的特征图大小为224像素×224像素×3通道，其中224为高和宽，利用DSM图像中的高程信息能有效克服模型前景物体光谱特征相似的问题。抽象特征提取模块，采用轻量级主干网络Mobile Net V3来提取不同层次的语义信息，主干网络设计了双路径特征提取架构。为了更深层次的提取图像中的高级抽象语义特征信息，本文引入了层级感知网络HPN，将注意力与场景感知相结合，提出了场景感知注意力(Scene-Aware Attention,SAA)模块，通过嵌入像素的场景感知，促进相应模式的建模，并结合类中心生成模块（Class Center Generation,CCG），将像素通过引入局部类信息间接的与全局类信息相关联，促进相应物体的特征提取。解码器部分设计了多尺度聚合双重融合（Multi-Scale Aggregation Double Fusion,MSADF），选取对主干网络输出的中间层使用多尺度聚合来进一步提取低级特征，再与编码器输出的特征执行双重融合连接，利用3×3卷积获得细化的特征，并采用卷积核大小为4×4的转置卷积，将低分辨率的特征图放大到224像素×224像素，与输入图像的尺寸保持一致，以支持高精度的语义分割任务。

图1 MFEHPNet模型结构

2.1多模态特征提取模块

多模态特征提取模块的结构如图2所示，各模块右侧的数字表示输出的通道数。利用不同模态的互补特性，减少图像分割过程中因同物异谱造成的分割边界模糊的问题。首先，特征提取通道是一个连体网络，它由2个相同的卷积神经网络组成，没有权重共享，将IRRG图像和DSM数据输入到特征提取通道结构中。该结构经过一个3×3深度卷积层，批归一化(Batch Normalization,BN)和Re LU激活函数，来提高模型的稳定性，避免过拟合。然后进行2×2的最大池化操作，特征图的大小变为原来的一半，再经过一个卷积块，输出IRRG特征图和DSM特征图。本文采用了通道连接将不同模态的特征进行融合，并通过坐标注意力加权处理，从而增强模型对多模态输入数据的表达能力和性能。模型中利用转置卷积操作来调整输出的图像尺寸大小，将加权后的特征图与上采样后的早期特征图串联，可以帮助减少伪像的出现，同时实现高层次抽象语义信息与低层空间细节信息的整合。最后，对融合后输出的特征图进行3×3深度卷积层和1×1卷积层的处理，调整模块最终输出通道数为3的特征图，对应于不同的语义信息，将输入数据经过一定处理后提取出的关键特征。

图2 多模态特征提取模块

坐标注意力机制如图3所示。可将任何中间特征张量X=[x1,x2,…,xC]∈RC×H×W作为输入并通过转换输出了相同大小同时具有增强表征的Y=[y1,y2,…,yC]，在输入张量X的条件下，第C通道的步长可表示为：

式中：ZC是与第C通道相关的输出，输入X来自一个固定核大小的卷积层，是局部描述符xC的集合，H、W和C分别为特征表示的高度、宽度和维度。具体来说，首先使用尺寸为(H,1)或(1,W)的池化核分别沿着水平坐标和垂直坐标对每个通道进行编码。因此，高度为h的第C通道的输出Zch(h)可表示为：

图3 坐标注意力机制

宽度为w的第c通道的输出Zcw(w)可写成:

上述2种变换分别沿2个空间方向聚合特征，得到一对方向感知的特征图。对尺寸为C×H×W输入特征分别按照X和Y方向进行池化，分别生成尺寸为C×H×1和C×1×W的特征图。通过信息嵌入中的变换后，该生成的C×1×W的特征图进行concat操作，公式如（4）所示。

将zh和zw进行concat后进行F1操作（利用1×1卷积核进行降维）和激活函数δ，生成特征图f∈RC/r×(H+W)×1。沿着空间维度，再将f进行split操作，分成fh∈RC/r×H×1和fw∈RC/r×1×W，其中r表示通道数的缩减比例，然后分别利用1×1卷积Fh、Fw进行升维操作，再结合sigmoid激活函数σ得到最后的注意力向量gh和gw，如式（5）、式（6）所示。

坐标注意力的最终输出yc(i,j)为：

利用全连接层对通道进行加权，再将混合了通道信息的加权特征图分割为高度注意权值为H的空间注意图A∈RC×H×1和宽度注意权值为W的空间注意图B∈RC×1×W。随后，将A和B分别应用于输入，通过矩阵广播乘法得到加权特征映射。坐标注意力机制不仅集成了多模态信息特征，还捕获了方向和位置敏感信息，使模型能够更准确地定位类别。

2.2抽象特征提取模块

主干网络的输出特征需要通过多尺度抽象特征提取模块进一步映射为物体层面的抽象语义特征。为了降低网络参数，提高网路的推理速度，采用了具有双路径瓶颈块（Dual-path Bottleneck Block,DBB）的Mobile Net V3作为该模型的主干网络，使得网络能够处理更加丰富复杂的特征，保留更多的纹理细节信息；同时引入了层级感知网络提取抽象的深层特征，嵌入像素的场景感知来利用地面目标的空间对应，解决遥感图像背景复杂的问题。

双路径瓶颈块结构如图4所示，为了保证提取特征信息的完整性，双路径采用不同大小的卷积核，来应对分割中的多尺度问题。其中，a路的输入特征图经过1×1卷积层、3×3深度卷积层和1×1卷积层。而b路中使用5×5深度卷积层进行处理。2条路径的输出特征映射通过串联连接，模块使用点卷积（Pointwise Convolution,PWConv）构建过渡层来融合连接的特征图。

图4 双路径瓶颈块结构

本文提出的基于Mobile Net V3的详细网络结构如表1所示，主干网络中的部分瓶颈块采用参数量更低的双路径瓶颈块结构（DBB）代替。网络的第一层，有是一个标准的卷积层16个滤波器。网络中部由一系列bneck和DBB组成，网络通道数量逐渐增加。网络结构的最后一部分由平均池化层和标准卷积层组成。

表1 Mobile Net V3网络结构

遥感图像具有背景复杂、同物异谱的特点，而传统的注意机制由于密集的亲和操作过多地引入了背景噪声，难以处理相似光谱类别。考虑像素的全局背景以及其在注意力中的相对位置，可以促进相应物体的特征提取，本文提出层级感知网络如图5所示。主干网络的输出特征图作为该模块的输入R，并对R进行预分类，得到D。接着，类中心生成模块将R和D同时作为输入，计算全局类中心S，并将其裁剪为输出Sg。同样，对R和D裁剪得到的Rl和Dl进行处理，得到局部类中心Sl。随后，场景感知注意力模块将Rl、Sl、Sg作为输入，生成增强的特征表示Ra。恢复原始空间维度后，将Ra和R连接起来，得到输出特征表示RO。

为了说明本文层级感知网络的结构，一般形式的注意机制如图6(a）所示，形式描述如下：给定特征表示XQ,XK,XV∈RH×W×Ĉ，其中H、W和Ĉ分别为特征表示的高度、宽度和维度，C表示通道数。注意机制应用3个不同的1×1卷积WQ,WK,WV∈RĈ×C，得到q,k,v∈RH×W×C，其中q=XQWQ,k=XKWK,v=XVWV。每个输出元素Zi是输入元素{vj}的加权和，如式（8）所示。

式中：αij表示softmax函数对eij的权值。eij由式（9）得到：

在遥感图像中，通常采用空间注意机制的方法来聚合上下文信息，而忽略了像素的场景感知。因此，本文对空间注意机制进行了细化，提出了场景感知注意模块。

图5 层级感知网络

图6 注意力模块结构

上下文信息嵌入。在遥感图像中，不同场景下地物之间的成对关系可能不同。例如，通常在城市地区与建筑物共存的道路可能在农村地区被农田包围。这表明嵌入上下文信息有利于像素级关系的建模，本文提出了一个上下文矩阵，并将前面的等式（9）重新表述为：

上下文矩阵c计算公式如下：

式中：σ为sigmoid函数W0∈、W1∈;ε是减速比；Avg Pool和Max Pool为平均池化和最大池化，本文为向量创建对角矩阵diag，将汇总的上下文信息与输入特征连接起来。最后，上下文矩阵c将输入特征q进行上下文处理，这样注意力就可以根据给定的上下文进行调整。

位置信息嵌入。在遥感图像中，地物按照特定的内在模式在空间上分布，距离较近的对象通常会出现一定的组合，对象附近的像素可能表现出较高的相关性。一个像素对场景的感知依赖于它对相对位置的敏感性，这些相对位置被嵌入为：

本文将一维序列中的信息扩展到二维平面中的像素，将它们的相对位置考虑为沿水平和垂直方向的组合效应。相对位置rij的编码定义如下：

式中：P∈R(2ξ+1)×(2ξ+1)×C是存储一组有索引的可训练向量；Ix(i,j)=g (xi-xj)和Iy(i,j)=g (yi-yj)分别表示水平方向和垂直方向的下标，构成P的二维指标。g表示指标函数如下:

式中：ξ为最大像素级距离。实际上，g(x)将距离映射为有限集合中的整数，大大减少了高分辨率遥感图像所需的参数数量和计算成本。

类中心生成模块CCG如图1所示，像素通过引入局部类信息间接的与全局类信息相关联。对注意力模块的输入XQ、XK、XV设置为给定的特征表示R∈RĈ×H×W，模块首先进行预分类，并得到相应的分布D∈RK×H×W，其中K为类数。全局类中心S定义如式（15）所示，S表示H×W×Ĉ的矩阵，而φ代表根据预分类生成的掩码，在原始特征映射中放置类中心的函数。接着，模块将R和D沿着空间维度进行分割，得到Rl和Dl，计算局部类表示Sl，如式（16）所示。其中，h和w分别表示所选局部patch的高度和宽度，Nh=H/h和Nw=W/w。同样地，S沿着空间维度分裂得到Sg∈R(Nh×Nw)×(h×w)×Ĉ。因此，注意模块的输入为：XQ=Rl,XK=Sl,XV=Sg。

2.3解码模块

在解码模块中，一般使用4倍上采样直接恢复特征图以获得高级语义特征，但对于遥感图像容易丢失许多边界和细节信息。因此本文设计了双重融合结构，如图7所示。MSA输出的F3特征图大小为28×28×256，其中28为高和宽、256为通道数，与编码器输出的特征图经过卷积核大小为2×2的转置卷积进行连接操作，再进行一次相同的2倍上采样；之后与MSA输出的F2进行连接操作，以增强编码器和解码器之间的连接，将编码器中的两层低分辨率特征和高分辨率特征进行融合，拼接后的特征图通过1个1×1和2个3×3的卷积块，使得模型具有更好的特征映射能力来重建输入图像的分辨率，通过1×1的卷积调整通道数为3，最后利用4倍上采样，还原特征图大小为224×224×3，以获得更好的上下文信息和细节，有效地提升模型对图像中小目标物体的分割能力。

图7 双重融合结构

Fig.7 The structure of dual fusion

为了改善编码器-解码器结构中空间等低级特征与高级抽象语义特征的融合效果，本文提出了一个多尺度特征聚合（Multi-Scale Feature Aggrega‐tion,MSA）模块，如图8所示，该模块用于处理主干网络输出的F2、F3和F4特征，将这些不同尺度的特征通过一个3×3，步幅为1的卷积来提取抽象特征，经过自顶向下的上采样操作，卷积和大小为2×2。再将2倍上采样的结果与生成的相同大小的特征图进行融合。融合后的结果还会通过一个大小为3×3，步幅为2的卷积核来调整输出图像的大小，最终生成的特征图结果为F2和F3，以提升对图像物体的识别和分割能力。

图8 多尺度特征聚合模块

3、数据处理与分析

为了提高模型的计算速度，本文采用随机梯度下降法（Stochastic Gradient Descent,SGD）进行训练。初始学习率设置为0.01，并使用动量衰减系数0.9和重量衰减系数0.000 1，每次训练使用的批量大小为16。实验环境的配置信息如表2所示。

3.1数据集

本文实验数据采用了ISPRS Vaihingen和Potsdam的高分辨率遥感图像进行验证。这些数据集涵盖了5个不同的语义类别，分别为建筑物、低矮植被、树木、汽车和不透明表面。Vaihingen数据集是来自德国Vaihingen的33幅高分辨率航空图像，平均图像大小为2 494像素×2 494像素，地面采样距离(Ground Sample Distance,GSD)为5 cm，每张图像包含IRRG图片以及一个相应的DSM数据。在实验中，本文选择了23个集合用于训练，另外10个集合用于测试。Potsdam数据集的遥感图像是通过航空摄影和卫星遥感技术获得的，覆盖了德国波茨坦市及其周边地区，该数据集有38幅6 000像素×6 000像素的精细分辨率图像，GSD为5cm，每张图像包含IRRG图片以及一个相应的DSM数据。在训练集中选取了26张图像，测试集中选取了12张图像，随机从这2组数据集中抽取了部分数据集进行实验验证，数据集具体示例如图9和图10所示。同时对数据集进行预处理操作，应用了滑动窗口裁剪，步幅为224像素。将图像裁剪为224像素×224像素，最终获得了3 135张Vaihingen图像，以及20 102张Potsdam图像，其中950张Vai‐hingen图像和6 348张Potsdam图像是测试数据集。

表2 实验配置信息

在遥感图像中，当某些场景中的目标具有相似的光谱特征时，如图11(b)所示，光谱特征相似的蓝色框和黄色框对应“树木”和“低矮植被”这2个不同的类别。而在DSM图像中，高程信息可以更好地区分类别间的差异。而图11(a)中，2个框都是“背景”类别，但在DSM图像中高程信息呈现出几乎相同的外观。相比之下，在高分辨率图像的外观特征明显不同。因此，这表明在处理遥感图像时，利用多模态特征可以更有效地区分和识别不同的类别，尤其是当某些类别在单一模态下具有相似特征时。

3.2实验结果

为了验证MFEHPNet对遥感图像分割的有效性，本文在ISPRS Vaihingen和Potsdam数据集上进行实验。首先，对各个模块分别进行对比实验。其次，为了评估提出的各个模块的重要性，进行了模块消融实验，并对消融实验的分割结果进行可视化对比。最后，将提出的MFEHPNet与其他模型进行对比。实验中采用总体精确率(Overall Accuracy,OA)、精确率（Precision,P）、召回率（Recall,R）、F1指数（F1）、平均交并比（Mean Intersection over Union,MIo U）、Kappa和频率加权交并比(Frequen‐cy Weighted Intersection over Union,FWIo U)、时间（Time）和每秒帧数（FPS）作为评价指标，以衡量遥感图像的分割效果。

图9 ISPRS Vaihingen数据集的示例

图1 0 ISPRS Potsdam数据集的示例

图1 1 遥感图像分割的难点

3.2.1多模态融合方式实验对比分析

为了验证所提出的多模态结构中特征融合的效果，该模块与不同的融合方式进行了实验对比。在多模态提取模块基础上，本文坐标注意力机制（CA）与相加融合（Add)[15]、Concat拼接操作[29]和Weighted Sum(WS)[30]的方法进行对比。不同融合方式的实验结果如表3所示。

由实验的数值结果可知。坐标注意力在特征空间内进行更深层次的交互和增强，可以根据实际问题的需求和数据的特点动态的调整注意力权重，因此在不同场景下能更好地适应多模态数据，但同时坐标注意力融合方式需要更多的计算来处理信息量丰富的遥感图像。与线性融合方法的Weighted Sum相比，MFEHPNet的准确率、F1指数和MIo U比Weighted Sum(WS）方法高0.81%、0.73%和0.47%，证明了通过引入坐标注意力机制，优化特征融合的过程，从而提升了分割精度和模型的整体性能。

为了验证输入DSM的效果，实验的数值结果如表4所示。DSM通过高度信息使得分割算法可以更准确地理解和划分不同地物的边界和结构，使得分割算法能够更准确、更全面地捕捉各类地物的特征。其输入效果指标明显优于单模态。另外，可视化了MFEHPNet输入IRRG单模态数据与输入双模态数据的分割结果，并用矩形框突出了改进的区域。如图12所示，DSM信息和IRRG图像具有互补性，能够反映地物的立体形态和空间布局，提供了额外的空间上下文，在图像边界上的噪声和误分类问题得到了改善，包括分割边界模糊(第一列)、被误分类为杂波、模糊区域扩散(第二列)、小目标汽车细节特征丢失（第三列）和被树木遮蔽(第四列)。实验结果表明，DSM的输入有助于提高地物的可分辨性，解决物体视觉特征模糊的问题，这得益于DSM提供的域不变性。

表3 多模态融合方式实验对比(Vaihingen)

3.2.2主干网络特征提取实验对比分析

为了验证MFEHPNet的主干网络在高分辨率遥感图像上进行特征提取的有效性，本文将其（DBB）与主干网络Res Net[31]和Mobile Net V3(V3)[32]进行了对比实验。

实验结果如表5所示，瓶颈块中通过将输入特征映射均匀地分成2部分并分别处理，可以减少每个路径中的计算需求，在每秒帧数(FPS)指标上，DBB的速度最快为113.11帧/s。在模型大小方面，DBB为最小。双路径瓶颈块的设计考虑了不同卷积核大小的特性，实现了多路径信息的融合，能够有效地捕获和处理丰富复杂的特征，包括细节和全局结构，从而提升了分割精度，用来在有限的计算资源下实现良好的性能。在准确率上DBB为86.54%，分别提高了0.82%和1.1%。在MIo U上DBB为80.78%，分别提高了1.39%和3.87%。

表4 输入不同模态的实验对比(Vaihingen)

图1 2 输入DSM可视化对比

表5 主干网络特征提取实验对比(Vaihingen)

3.2.3抽象深层特征提取实验对比分析

随着模型在特征提取的过程中，语义信息的加强可以增进模型对各类别的理解。所提出的HPN模块与空间金字塔池化（Atrous Spatial Pyramid Pooling,ASPP)[15]和双重注意网络（Dual Attention Network,DANet)[33]中的Dual-ASPP(D-A）结构进行对比。

实验结果如表6可知，ASPP和Dual-ASPP专注于像素之间的关系，所提出的HPN模块注重对场景的感知，能够更全面地理解整体遥感图像的语义结构，从而准确地将像素分类到正确的类别中。其中MIo U提高了2.17%,F1指数提高5.92%。这些增强表明了所设计的HPN模块通过精细的类级上下文建模，提高了分割的精度和准确性。

表6 抽象深层特征提取实验对比(Vaihingen)

3.2.4解码方式实验对比分析

本文提出的MSADF方法，与现有的直接4倍上采样（4U）和2次2倍上采样（D2U）进行了实验对比，结果如表7所示。

由实验结果可知，多尺度聚合的方式充分利用了不同层次特征的信息，包括底层细节信息和高层抽象信息，将融合后的信息进行多组上采样，能够减少由于信息丢失而造成的分割精度损失，而在低分辨率和高分辨率特征融合中，可能会导致分割结果模糊不清，引入注意力会改善该问题，但同时也会大大加剧模型的参数量。本文提出的MSADF的各项指标均比其他上采样模块高，准确率分别提升了1.49%和0.87%。

表7 解码方式提取实验对比(Vaihingen)

3.2.5消融实验

为了评估所提出的各个模型的重要性，分别逐步添加不同模块进行消融实验。本文选择多模态特征提取结合Deeplabv3+模型作为基线（B），将不同模态的特征图作为模型的多通道输入，再将通道输出的不同模态的特征进行像素相加，作为Deeplabv3+模型的输入。实验结果如表8所示。引入坐标注意力机制（C），网络能够自适应地调整每个模态特征的贡献度，可以实现模态间更有效的信息传递和互补，使实验精度提高了2.96%。采用改进后的主干网络（D），双路径的瓶颈块结构使用更少的参数来保持特征的丰富性，其FPS指标提升相对精度改进更快。在编码器中用HPN(H）进一步提取深层特征，该模块对于处理局部-全局间的累计上下文关系时效率更高，综合利用不同层次和尺度的语义信息的方式，在实验精度上提高了2.16%。最后加入MSADF(M）模块后，实验精度比基线提高了1.38%，解码模块聚合了多层次的语义信息，能更好地应对遥感图像复杂性和多样性，保留更多的目标位置和边界信息。消融实验结果证明了各模块在性能上都有所提升。

为了验证各模块分割效果，消融实验的可视化结果如图13所示。利用高程信息提高分辨力，所提出的多模态特征提取模块充分利用了不同模态间的互补特征，大大降低了阴影区域的噪声，减少错误分类的问题，例如红色框中所显示的区域。添加DBB结构后，对于“树木”类的分割形状更完整，位置更准确，如蓝色框中所示。由于建筑风格的不一致性，利用HPN模块改善了上下文关系，解决的光谱相似带来的边界分割不够精细或漏分割的情况，如蓝色框中所示。最终加入MSADF模块后，对图像分割的细节处理的更好，进一步规范了地面物体的形状，更好地预测出汽车等小物体。表明了本文模型的鲁棒性较强，增加了类的可分性。

3.2.6 HFESANet与其他模型对比实验分析

为了验证本文提出的MFEHPNet在图像分割任务中的性能，将其与当前先进的遥感图像分割模型C3Net、AMM-Fuse Net(AMM）、MMFNet、CMFet、CIMFNet和EDGNet进行了比较。实验结果包括各类别的F1指数、总体精确率（OA）、Time、平均交并比（MIo U）、Kappa和FWIo U。在表9中说明了2个数据集上训练和测试的运行时间，所有模型均在相同的环境配置中进行训练，本文提出的模型需要最少的训练时间和测试时间。

在遥感图像数据集类别间不平衡的情况下，模型越简单，模型收敛的效果越好，将DSM数据作为一个独立的通道来减少信息冗余，另外为了更有效的方式充分利用数据，在融合多模态特征时采用坐标注意机制，实现高效可靠的语义特征提取。EDGNet在特征提取阶段利用边缘检测引导模块，针对像素的光谱特征进行分类，缺乏对连续区域的识别能力。而提出的MFEHPNet嵌入像素的场景感知，使得每个像素能够更好地关联各类别与背景的关系。CIMFNet的空间金字塔池化，AMM-Fuse Net中利用通道注意力的密集空间金字塔池化来提取全局多尺度上下文信息，这些方法侧重于捕获同质上下文依赖关系，而经常忽略类别差异，针对遥感图像多类别的特点则可能导致不可靠的上下文。本文HPN结合局部-全局来进行上下文建模，避免了过度引入背景噪声干扰。在多组模型中都选用Res Net作为主干网络，而其网络参数量大，为了减少残差块的计算量，基于Mobile Net V3的轻量级网络，将输入特征映射分成2部分，利用过渡层实现特征融合。

表8 各个模块的消融实验(Vaihingen)

图1 3 消融实验的可视化结果

表9 模型计算时间对比

在Vaihingen数据集中，不同模型对比实验结果如表10所示。数据集包含5种不同类别，MFEHPNet对“低矮植被”分类的改善最为显著，比现有方法MARes U-Net提高了1.60%。此外，“建筑”类的分类准确率最高，达到93.89%，这种改进体现了DSM高程信息的优势。对于光谱相似的“树木”类别的分割，SAA模块通过嵌入上下文信息和位置信息，使得本文模型F1指数相比EDGNet模型提高了0.46%；本文模型各类别的F1指数相比EDGNet分别提升了0.24%、1.60%、0.46%、0.93%和0.32%，总体精确率提升了2.27%,MIo U提高了0.93%。综合而言，所提出的模型在各项指标上取得了最佳结果，证明了该模型方法在精度提升方面的有效性。同时，模型在Potsdam数据集上进行了相同的对比，实验结果如表11所示。与EDGNet相比，各类别的F1指数分别提升了0.46%、0.75%、0.47%、1.23%和0.67%，总体精确率提升了1.88%,MIo U提高了1.37%。

表1 0 不同模型对比实验(Vaihingen)

进一步验证本文所提出的MFEHPNet模型的卓越性能，对该模型与AMM-Fuse Net、CMFet、CIMFNet和EDGNet在Vaihingen和Potsdam数据集上进行了定性分析。图14、图15、图16展示了对Vaihingen数据集中不同类别分割的对比，图17展示了在Potsdam数据集上的分割结果。

在Vaihingen数据集中，各模型对低矮植被和树木的分割结果如图14所示。由于低矮植被和树木的边界特征模糊且场景相似，导致了较大的分割难度。在第一组分割图中，树木分布较为零散，其他模型存在边界模糊不清，导致在树木散落点的分割效果较差、分割边框差距大和漏检的问题。相比之下，本文提出的模型更好地解决了物体的视觉特征模糊，其边界形状与标签图最为符合。

表1 1 不同模型对比实验(Potsdam)

图1 4 Vaihingen中低矮植被和树木分割结果

图1 5 Vaihingen中建筑物和背景分割结果

图1 6 Vaihingen中汽车分割结果

各模型在Vaihingen数据集中对建筑物和背景的分割结果如图15所示。建筑物的像素与背景相似，具有同物异谱的特性，HPN模块将像素级别的特征与整体场景的语义信息进行嵌入，并利用全局类信息来指导每个像素的语义理解，从而提高了分割的准确性。在第一组分割图中，建筑物的边界与背景环境融为一体，其他模型存在不同程度的边界缺失问题；在第二和第三组图中，前4种模型在建筑物边界和存在树木遮挡的地方，会有错漏检或将建筑物误检为其他类别的问题。本文提出的模型对建筑物的分割更完整。

各模型在Vaihingen数据集中对汽车的分割结果如图16所示。由于汽车类型繁多且属于小目标物体，在分割中还存在阴影遮挡的问题。本文在解码模块中聚合多层次的信息保留更多的细节信息和抽象信息，在第一组分割图中，2辆白色汽车与背景像素有明显差异且无遮挡，模型很容易分割出汽车的准确位置，但会存在边界缺失和分割边界轮廓差距较大的问题。相比之下，MFEHPNet对汽车的分割边界形状更加准确；在第二组分割图中，上方的车辆与背景具有相似的场景特征，其他各模型分割出的汽车面积都偏小；在第三组分割图中，下方的车辆存在树木遮挡问题，在前4种模型中都未能完整地将汽车分割出来。可见，本文提出的模型在汽车的分割效果上表现最佳。

图1 7 Potsdam分割结果

对Potsdam数据集的分割结果如图17所示，大范围遥感场景通常包含复杂的背景和多尺度的物体。图中五组分割结果分别以建筑物和背景为主、以树木和低矮植被为主、以汽车为主、以不透明表面为主。通过对比可知，本文模型不仅更好地保留了建筑物、低植被等语义对象的完整性和规律性，而且提高了汽车等小目标的分割性能。

4、结论与讨论

为了应对高分辨率遥感图像多尺度、物体特征模糊和同物异谱的问题，本文提出了一种基于多模态特征提取与层级感知的遥感图像分割模型MFEHPNet。

(1）利用IRRG和DSM的互补信息，获取特征图中精确的像素位置，改进高分辨率遥感图像的语义分割，解决图像在分割过程中存在的物体视觉特征模糊和同物异谱的问题。为了增强特征表示能力，引入坐标注意力机制，使得模型更好地关注每个通道中最重要的信息。

(2）主干网络中采用具有双路径瓶颈块DBB的Mobile Net V3，在保证模型精确度的同时降低参数量。同时提出了场景感知注意力，利用遥感图像中地物的固有空间相关性，避免了过度引入背景噪声干扰的密集关注，显著提高了遥感图像的语义分割性能。

(3）在解码模块中，模型利用多尺度聚合双重融合进行特征恢复，增强了编码器和解码器之间的连接，实现了细节和空间等低级特征与高级抽象语义特征的有效融合，从而解决物体视觉特征模糊难以分割的问题。

(4）在ISPRS Vaihingen和Potsdam数据集上进行的实验表明，MFEHPNet在各种评价指标上优于其他模型。能够有效区分物体视觉特征模糊的地物和改善同物异谱的问题，如建筑物和背景、低矮植被和树木，并细化地物之间的区域边界，显著提高了高分辨率遥感图像语义分割的性能。

在研究中发现，虽然本文提出的MFEHPNet获得良好的分割性能。但仍存在一些不足。遥感分割的性能主要包括特征分割精度和模型的推理速度2个方面。目前改进的方法主要集中在调整模型架构上，然而在实际运用中，遥感数据类型和规模多样，因此模型可能无法完全适应所有复杂变化的情况，其在公开数据集上的测试结果可能不具有普适性。未来需进一步探索更具普适性的模型方法。在推理速度和模型鲁棒性方面还有进一步改进的空间。因此MFEHPNet还可以应用于其他机器视觉任务，未来还需继续改进模型，以处理更复杂的场景和高光谱图像。

参考文献:

[1]韦兴旺,张雪锋,薛云.基于光谱和形状的遥感图像分割质量评估方法[J].地球信息科学学报,2018,20(10):1489-1499.

[6]张寅丹,王苗苗,陆海霞,等.基于监督与非监督分割评价方法提取高分辨率遥感影像特定目标地物的对比研究[J].地球信息科学学报,2019,21(9):1430-1443.

[7]李倩楠,张杜娟,潘耀忠,等. MPSPNet和UNet网络下山东省高分辨耕地遥感提取[J].遥感学报,2023,27(2):471-491.

[9]蒋伟杰,张春菊,徐兵,等. AED-Net:滑坡灾害遥感影像语义分割模型[J].地球信息科学学报,2023,25(10):2012-2025.

[17]张银胜,吉茹,童俊毅,等.基于双模态高效特征学习的高分辨率遥感图像分割[J].遥感学报,2024,28(2):481-493.

[23]孙汉淇,潘晨,何灵敏,等.多模态特征融合的遥感图像语义分割网络[J].计算机工程与应用,2022,58(24):256-264.

[24]李钰,袁晴龙,徐少铭,等.基于感知注意力和轻量金字塔融合网络模型的室内场景语义分割方法[J].华东理工大学学报(自然科学版),2023,49(1):116-127.

[31]郑凯,李建胜,杨戬峰,等.天绘一号卫星遥感影像云雪检测的ResNet与DeepLabV3+综合法[J].测绘学报,2020,49(10):1343-1353.

基金资助:国家自然科学基金项目(62071240､62106111);江苏省产教融合型一流课程(2022-133);无锡学院教改研究课题(XYJG2023010､XYJG2023011)~~;

文章来源:张银胜,单梦姣,陈昕,等.基于多模态特征提取与层级感知的遥感图像分割[J].地球信息科学学报,2024,26(12):2741-2758.