武汉大学资源与环境科学学院余华飞:图Transformer支持下的河网模式识别|《测绘学报》2024年53卷第11期

360影视 2025-01-08 11:09 2

摘要:河网模式识别在地形地貌分析、地质矿物探测、河网数据多尺度变换等研究中发挥重要作用。为克服基于形态特征与几何特征的空间统计方法的稳健性不足问题,引进图卷积神经网络是当前的主要手段,然而图卷积方法仅关注河网形态的局部特征,仍未实现从全局视角出发的河网模式识别决策。

本文内容来源于《测绘学报》2024年第11期(审图号GS京(2024)2421号)

图Transformer支持下的河网模式识别

余华飞1,2, 邱天奇3, 周哲1,2, 龚冲亚1,2, 肖天元1,2, 杨敏1,2, 艾廷华1,2

1. 武汉大学资源与环境科学学院,湖北 武汉 430079

基金项目

第一作者简介:余华飞(1993—),男,博士后,研究方向为地图数据智能处理。

E-mail:

通讯作者:艾廷华 E-mail:tinghuaai@whu.edu.cn

摘要

河网模式识别在地形地貌分析、地质矿物探测、河网数据多尺度变换等研究中发挥重要作用。为克服基于形态特征与几何特征的空间统计方法的稳健性不足问题,引进图卷积神经网络是当前的主要手段,然而图卷积方法仅关注河网形态的局部特征,仍未实现从全局视角出发的河网模式识别决策。因此,本文提出了一种图Transformer支持下的河网模式识别方法。该方法在河网几何形态知识支持下利用对偶图思想构建河网图结构,进一步通过GraphSAGE设计局部学习模块及Transformer设计全局学习模块。试验结果表明,相比已有的1st-ChebNet和GraphSAGE方法,本文方法能够结合局部河段组合特征与全局河网形态特征,做出准确的河网模式识别决策,识别精度可达94%。这为实现智能化河网模式识别提供了一种技术途径。

关键词

电子地图设计地图认知应用场景符号

本文引用格式

余华飞, 邱天奇, 周哲, 龚冲亚, 肖天元, 杨敏, 艾廷华.

YU Huafei, QIU Tianqi, ZHOU Zhe, GONG Chongya, XIAO Tianyuan, YANG Min, AI Tinghua.

阅读全文

河网常被比喻为地球的骨架或指纹。受构造运动、地质作用及土壤植被等多种因素的影响,河网会呈现出独特而复杂的空间形态。河网模式是指在这些复杂因素作用下形成的规律性河网空间形态。因此,这些模式特征与地形地貌、岩石矿物等地理信息紧密相关[1]。这种关系使得河网模式识别成为水文学、地貌学、地质学、地图学等多个领域的研究焦点,在地形地貌分析和岩石矿物探测等研究中发挥关键作用。如识别网格状和矩形状河网有助于发现断裂带和褶皱山地[2],为黄金矿物的勘探提供依据[3]。同时,河网模式识别对于河网数据在多尺度变换过程中保持空间结构一致性和地理特征完整性也至关重要[4]。

在早期,河网模式识别的研究从地质地貌和空间几何的角度出发,通过专家判读的方法初步定义了河网模式的类型[1]。如分布在坡度均匀倾斜的平原、平行且细长的地形处,支流流向统一,汇流夹角多为锐角的河网形态被定义为平行状。分布在断层作用的地形处,河段弯曲角度较大,方向随机,以接近直角的方式汇流,呈现不定方向的河网形态被定义为矩形状[5-6]。

为了提升河网模式识别的自动化水平,引入数学统计模型刻画这种认知行为是重要的方法之一。这种方法基于河流的形态特征和地形特征,结合数理统计手段设定特征阈值进行模式类型判断[6-7]。具体地,建立蜿蜒指数、支流与干流的长度比、汇流夹角、支流长度与密度、流域面积、源头与出水口距离等形态特征[6,8-9],以及从数字高程模型派生得到的高程、坡度、曲率、坡度面积比等地形参量[7,10],结合分类决策树[11]、主成分分析及判别分析[12]、模糊逻辑[6]等方法,统计每种河网模式类型的划分阈值。然而,这种方法受水文特征的复杂性、主观认知的臆断性和模式类别的嵌套发育影响,缺乏强健的稳健性[13-14]。

近年来,深度学习方法为河网模式识别提供了新的手段。文献[15]首次引入卷积神经网络以监督学习的方式识别了树枝状河网。此外,为了应对矢量型河网不规则的数据结构,通过河网的图结构化表达,引入一阶切比雪夫图卷积网络(first-order Chebyshev graph convolutional network,1st-ChebNet)、图采样与聚合(graph sample and aggregate,GraphSAGE)等图卷积神经网络,以图分类的思想可实现不同河网模式的分类识别[13,16-17]。然而,上述图卷积方法通常仅使用2~3层的图卷积层(文献[18]验证使用该层数时模型效果最优,过多层数会降低模型拟合能力),每层图卷积仅聚合其一阶邻域信息。因此,当前应用在河网模式识别中的图卷积方法仅能捕获图节点及其二阶或三阶邻域节点的上下文信息,尚未能从完形认知心理学的整体性原则出发开展全局视角下河网模式识别。

当前,Transformer[19]凭借强大的全局上下文信息挖掘能力,克服了循环神经网络和长短期记忆网络对远距离上下文信息挖掘的不足,在地理知识抽取[20-21]、轨迹数据处理[22-23]、遥感影像处理[24-25]等领域得到广泛应用。本文提出一种图Transformer支持下的河网模式识别方法。该方法一方面借助图卷积网络捕获河段间的局部上下文信息,另一方面基于局部信息利用Transformer挖掘全局上下文信息,从而结合局部与全局上下文信息开展河网模式识别决策,克服已有图卷积方法在全局上下文信息学习方面的不足。其基本过程是:首先,从层次结构、水文几何与图连接3个视角提取河网几何形态知识,构建无向河网对偶图的特征矩阵,以表征“河段-河流-河网”的层级关系、几何特征与连通机制;然后,利用河段汇流关系构建邻接矩阵;最后,设计图Transformer的网络结构,包括基于GraphSAGE的局部学习模块与基于Transformer的全局学习模块。

1 方法

图Transformer支持下的河网模式识别框架如图1所示,包括两个模块:图结构建模与图Transformer的网络结构设计。图结构建模旨在融合几何形态知识实现河网的图结构表达,以图结构的特征矩阵作为几何形态知识的载体,以图结构的邻接矩阵记录河段连接关系。图Transformer的网络结构设计旨在从局部与全局两个视角挖掘河网形态信息,为河网模式识别提供准确且充分的决策信息。

图1

图1 图Transformer支持下的河网模式识别框架

Fig.1 Framework for drainage pattern recognition supported by graph Transformer

1.1 图结构构建

为克服矢量型河网的不规则数据组织,本文借鉴文献[13]的方法,采用对偶图思想构建河网图结构。首先,提取河段中点作为河网图结构的节点,存储几何形态知识,记为特征矩阵M(图2(a))。然后,将河段连接关系转换为河网图结构的边,记为邻接矩阵A(图2(b))。本文将该图结构称作无向河网对偶图(undirected dual graph of river network,UDG-RN)(图2(c)),用作图Transformer的输入。

图2

图2 基于河段中点的UDG-RN构建

Fig.2 Construction of UDG-RN based on midpoints of river reaches

1.1.1 存储河网几何形态知识的特征矩阵构建

UDG-RN的特征矩阵用来记录河网的几何形态知识。这种几何形态知识(即认知参量)可从层次结构、水文几何与图连接3个视角提取:层次结构视角是从Gestalt完形认知心理学出发记录“河段-河流-河网”间局部与整体层次关系;水文几何视角从水文学与计算几何学出发构建河段、河流、河网的图形几何认知参量;图连接视角是从图论出发量化河网图节点的重要性、邻近性、通达性等信息。本文采用经文献[13]验证的河网几何形态知识组合,包括层次结构视角的Strahler编码[26]、水文几何视角的参考点距离差值[13]、参考点夹角[13]、河段长度、最小外接矩形长宽比[9]和最小外接矩形长边方向[27],以及图连接视角的节点度。上述几何形态知识被用作UDG-RN的节点特征,构建特征矩阵M

1.1.2 顾及河段关系的邻接矩阵构建

邻接矩阵用于记录河段的连接关系。考虑在河网形态认知过程中读图者不易于直接判断河网流向信息,而能更快速地认知河段的连接关系,因此本文仅考虑河段的连接关系来构建河网图结构的无向边(图2(b)),邻接矩阵A表达为

(1)

1.2 图Transformer的网络结构设计

为从局部视角捕获河段与河段间的交互信息,从全局视角开展河网模式识别决策,本研究设计了基于局部学习模块与全局学习模块的图Transformer,其网络结构如图3所示,可表达为

(2)

式中,Y∈R1×5为每种河网模式类型的概率。首先,该网络以UDG-RN结构(MA)为输入,通过基于图卷积的局部学习模块Local_GCN(·)(详见1.2.1节)汇聚邻接河段信息,表达为图节点嵌入向量。然后,把每个图节点嵌入向量分别与该节点的原始特征向量进行拼接,构建新的图节点嵌入向量。最后,将新的图节点嵌入向量传递给基于Transformer的全局学习模块Global_transformer(·)(详见1.2.2节),基于局部河段的交互信息学习河网形态的全局信息,并通过全连接网络计算每种河网模式类型的概率Y。其中,网络以监督学习的方式开展训练,基于交叉熵损失函数进行反向传播。

图3

图3 图Transformer的网络结构

注:m为经图卷积计算后图节点的特征维度。

Fig.3 The architecture of the graph Transformer network

1.2.1 基于图卷积的局部学习模块

基于图卷积的局部学习模块旨在挖掘河段间交汇产生的局部信息,其中显式的局部信息如矩形状河网与骨架状河网的直角交汇、平行状河网的统一流向等,隐式的局部信息则依赖图卷积网络进行学习。本研究采用GraphSAGE[28]构建局部学习模块。该网络已在河网模式识别[17]、河网综合选取[14]与建筑物功能分区[29]等任务表现出强大的邻近上下文信息挖掘能力,主要包括采样与聚合两个计算环节。

采样环节旨在克服UDG-RN节点的邻接图节点数量不一致的问题,通过邻域图节点采样手段获取数量一致的邻接图节点。采样机制如图4所示,首先,确定采样数量、目标图节点及其邻接图节点。然后,根据邻接图节点数量差异采取不同的采样策略,邻接图节点数量少于采样数量时使用重采样(图4(b))、邻接图节点数量等于采样数量时使用全采样(图4(c))、邻接图节点数量多于采样数量时使用欠采样(图4(d))。

图4

图4 GraphSAGE的采样机制

注:表示图节点i的第j个邻接图节点。

Fig.4 Sampling mechanism of GraphSAGE

聚合环节旨在融合采样得到的邻接图节点信息以更新目标图节点的信息,从而学习到河段与河段间的局部特征。聚合手段包括长短期记忆力聚合、最大值聚合及均值聚合,已有研究表明均值聚合手段通常能获得更好的学习结果[14,17]。因此,本文采用均值方法聚合采样后的邻接图节点信息,表达式为

式中,xi'∈R1×m为聚合处理后的图节点i的嵌入向量,m为经图卷积计算后图节点特征维度;Vi)为以图节点i为目标图节点采样得到的图节点集合;为基于图节点i采样得到的邻接图节点j的特征;mean(·)为均值聚合手段;W1 W2为学习权重矩阵,在所有图节点的聚合计算中共享。因此,采样与聚合的执行次数决定了图节点的嵌入向量所涵盖的邻域信息,如采样与聚合执行两轮后图节点的嵌入向量融合了一阶邻接图节点与二阶邻域图节点的特征信息。1.2.2 基于Transformer的全局学习模块基于Transformer的全局学习模块是在局部学习得到的图节点嵌入向量基础上,从全局视角出发挖掘河网的几何形态信息。借鉴Transformer的全局上下文信息学习能力,本文设计基于Transformer的全局学习模块,使用多头注意力机制捕获所有河段图节点的嵌入向量信息,河网图节点i更新后的嵌入向量可表达为式中,h表示注意力机制的头数;表示图节点i的第h头注意力机制输出向量;σ(·)表示对多头注意力输出进行全连接计算与层级归一化(Layer Norm);g(·)表示多头注意力输出的处理函数,即对中间层的输出采用拼接处理,对输出层的输出采用均值降维处理。

注意力机制旨在利用图节点之间嵌入向量的相关性,自动计算图节点间信息更新的权值。图5以4个图节点为例展示了一头注意力机制下图节点i的注意力值计算过程,划分为3个阶段。

图5

图5 以4个图节点为例的图节点i注意力机制计算

Fig.5 Attention mechanism calculation for graph node i, illustrated with four graph nodes

(1)计算图节点嵌入向量的相似性S。首先,利用两个全连接层分别计算图节点的查询值Q=XWQ与键值K=XWKQ={q1 q,…,2 qn},K={k1 k,…,2 kn};X为图节点嵌入向量构成的矩阵;WQWK分别为查询值与键值的计算权重;其次,使用图节点i的查询值qi分别与各图节点的键值K计算点积作为相似性,同时需消除向量维度d对相似性影响,可表达为

式中,Sij)表示图节点i和图节点j的相似性;表示图节点j键值向量的转置计算。

(2)计算注意力权值W'。对图节点i查询值与各图节点键值的相似性S进行归一化处理,使得图节点i对各图节点的注意力权值之和为1。此处采用softmax(·)函数,其中节点i与节点j的注意力权值W'(ij)可表达为

(6)

式中,V为UDG-RN的节点集合。

(3)计算图节点i聚合各图节点信息后的嵌入向量。首先,利用全连接网络更新各图节点的嵌入向量E=XWEE={e1 e,…,2 en};WE为Transformer中计算节点嵌入向量的权重。然后,将新的图节点嵌入向量分别与注意力权重进行乘积求和,计算图节点i的嵌入向量表示为

经过Transformer模块处理后,各图节点的嵌入向量包含了全局图节点的信息,通过均值池化的手段获取图水平的嵌入向量Xg∈R1×(m+7)。将图水平的嵌入向量输入到全连接层进行河网模式分类概率计算Y,可表达为

式中,Wout和bout分别为全连接层的权重与偏置。

2 试验与分析

通过人工交互检索的手段获取试验所需的典型河网模式样本,包括树枝状、扇状、平行状、骨架状、矩形状,共采集2508组,具体样本数量见表1。为保证充足的测试样本,试验以6∶4的比例划分河网模式样本为训练集与测试集,训练集样本用于训练图Transformer,测试集样本用于测试与评价网络表现。

表1河网模式类型与样本数量

Tab.1

河网模式类型示例图样本数量训练样本(约占60%)测试样本(约占40%)树枝状403253150扇状401251150平行状410260150骨架状443293150矩形状401251150

新窗口打开| 下载CSV

参考已有的河网模式识别研究,试验设置基于GraphSAGE的局部学习模块的超参数,包括图卷积层数为2、邻域采样数量为4。针对基于Transformer的全局学习模块的超参数则通过参数敏感性分析设置,具体包括Transformer层数为2、每层注意力机制头数为4、隐含层特征维度m为33。此外,设置学习率为0.001、dropout值为0.5。图6展示了在图Transformer训练过程中训练损失、训练精度、测试损失与测试精度的变化,发现经过300次迭代训练后,损失曲线急剧下降后趋于平稳,精度曲线急剧提升后也趋于平稳,整体上表明模型稳定拟合。同时,测试精度超过90%,接近训练精度,说明模型虽然产生微弱的过拟合现象,但仍可对测试数据做出准确判。

图6

图6 图Transformer训练过程中的损失与精度值变化

Fig.6 Changes in loss and accuracy during training graph Transformer network

为验证图Transformer的有效性,基于1st-Cheb Net的方法[13]和基于GraphSAGE的方法[14,17]被用于比较。两种方法均采用本文构建的河网对偶图结构作为输入,并采用相同的超参数、样本数据及软硬件环境展开训练。一方面,本文采用查准率、召回率和F1值量化评价3种方法在150组测试案例中的表现。如图7所示,图Transformer的3个指标均达到0.94,表明该方法在150组样本中的河网模式识别表现优于1st-Cheb Net与GraphSAGE。另一方面,图8展示了不同方法预测结果的混淆矩阵,1st-Cheb Net和GraphSAGE针对某种类型的河网存在较显著的误判数量。如1st-Cheb Net存在11组树枝状河网被误判为矩形状河网的案例、14组扇状河网被误判为平行状河网的案例,以及15组矩形状河网被误判为树枝状河网的案例;GraphSAGE存在16组树枝状河网被误判为矩形状河网,以及12组平行状河网被误判为扇状河网的案例。相反,图Transformer未出现上述较高误判案例的情况,并在各种类型的河网模式识别中均保持135及以上的正确预测数量,表明该方法能够较好地对各类河网做出正确的模式识别。

图7

图7 3种方法的查准率、召回率和F1值

Fig.7 Precision, recall, and F1-score of three methods

图8

图8 3种方法的河网模式预测结果的混淆矩阵

Fig.8 Confusion matrix comparing the results of drainage pattern recognition using three mehtods

为进一步评价图Transformer,本文对每种模式的河网案例可视化并分析不同方法的河网模式预测差异。表2展示了3种方法对不同模式河网的预测概率,发现1st-Cheb Net与GraphSAGE更关注河段间的局部特征,而图Transformer可较好地关注河网全局形态。如对于表2(a)的树枝状河网,1st-Cheb Net关注局部河网的骨架特征误判为骨架状,GraphSAGE则关注局部河段大角度分叉特征误判为扇状河网,而图Transformer关注全局的多处枝杈式汇流形态特征,预测树枝状的概率最大为0.720 6。对于表2(b)的扇状河网,1st-Cheb Net更受局部相同流向的河段影响,误判为平行状,而图Transformer更关注全局河段流向分叉的差异,以较高概率0.927 1判断为扇状。表2(c)也表明了1st-Cheb Net与GraphSAGE会将平行状河网误判为扇状河网,这也与图8的混淆矩阵分析一致,而图Transformer能较好地考虑全局河段流向一致性判断为平行状河网。对于表2(d)骨架状河网,1st-ChebNe关注两两邻近河网的流向一致性误判为平行状,而图Transformer综合考虑干流及其两侧支流的大角度汇入的特征,正确判断为骨架状河网。对于表2(e),区别于1st-ChebNet关注局部分叉特征与GraphSAGE关注局部骨架状特征,图Transformer较好地结合多处骨架状特征从全局视角做出矩形状的判断。上述分析说明,图Transformer对河网模型类型的判断可以顾及河网全局形态特征,更符合完形心理学中人对事物形态认知的整体性原则。

表23种方法对不同类型河网的模式预测概率

Tab.2

(a)1st-Cheb Net0.288 70.041 60.007 60.592 20.069 9GraphSAGE0.297 90.602 70.016 90.077 60.004 9图Transformer0.720 60.000 50.000 00.278 80.000 1(b)1st-Cheb Net0.000 90.170 50.828 50.000 10.000 0GraphSAGE0.112 90.862 90.024 00.000 20.000 0图Transformer0.001 20.927 10.071 60.000 10.000 0(c)1st-Cheb Net0.065 50.797 60.136 80.000 10.000 0GraphSAGE0.004 70.539 60.455 60.000 00.000 0图Transformer0.006 70.170 90.800 80.003 80.017 8(d)1st-Cheb Net0.001 40.095 50.851 30.051 60.000 1GraphSAGE0.007 60.002 90.022 40.961 10.005 9图Transformer0.000 90.000 00.000 30.965 20.033 6(e)1st-Cheb Net0.749 20.216 50.003 90.003 40.027 0GraphSAGE0.004 20.000 00.000 30.795 90.199 6图Transformer0.234 50.000 10.013 10.007 40.744 8

新窗口打开| 下载CSV

受地理学第一定律启发,相近或相连的物体存在较高相关性。在图信号传播中发生信息交互的图节点对也存在较高相关性的现象。因此,此处利用3种方法在均值池化前的图节点嵌入向量,计算两两图节点的皮尔逊相关系数以表征图节点间的信息交互强度。图9展示了两个案例在降维处理前图节点嵌入向量间的皮尔逊相关系数。发现在1st-Cheb Net和GraphSAGE中大部分高度相关的热力方块与代表邻接关系的黑色边框存在高度重合(图9(a)、(b)、(d)和(e)),说明高度相关的图节点对主要为存在邻接关系或较近邻域关系(即图距离较近)的图节点对,1st-Cheb Net和GraphSAGE的图信号传播主要发生在局部的图节点间。而在图Transformer中大部分图节点间的相关性呈现出显著提升,如图9(c)和(f)所示,说明该方法不仅实现较近邻域关系的图节点信号传播,也实现了图距离较远的图节点信号传播,能够较好地结合局部视角与全局视角开展河网模式识别。

图9

图9 降维处理前图节点嵌入向量间的皮尔逊相关性热力图

Fig.9 Correlation heat map with graph node embedding representation before dimensionality reduction processing

可以发现在河网模式识别任务中,本文提出的图Transformer要优于1st-ChebNet与GraphSAGE。并且在上下文信息挖掘分析中,相比1st-ChebNet和GraphSAGE,图Transformer较好地捕获全局信息,能够做出更准确的河网模式识别决策,并且此结论与案例可视化分析得出的结论一致。

3 结论与展望

本文提出了一种图Transformer支持下的河网模式识别方法。该方法融合河网几何形态知识构建河网图结构,以此作为图Transformer的输入,克服矢量型河网的不规则数据组织难题。然后,以GraphSAGE设计局部学习模块,以Transformer设计全局学习模块,构建能够结合局部视角与全局视角的河网模式识别图Transformer。结果表明,对比已有的1st-ChebNet和GraphSAGE,图Transformer能够结合河段间的局部特征与河网全局形态特征,做出更准确的河网模式识别决策。

本文仍存在以下4方面的问题需要进一步研究:①图Transformer仍依赖高质量的河网模式样本以展开监督学习,如何引进Transformer的掩膜式自监督学习提升模型自主学习能力将是重要突破方向;②已有研究均表明了融入几何形态知识有助于提升图神经网络在河网模式识别中的表现,但包括图Transformer在内的研究均缺乏有效的可解释性,参考基于图像的卷积学习引入Grad-CAM等方法,将注意力机制可视化并分析模型在决策过程中对河网结构的注意力异质性,将是又一值得探索的方向;③受河网发育影响,具备典型模式特征的河网通常与其他形态特征的河网以复杂的嵌入连接形式呈现,建立聚类思想或图分割思想支持下的深度学习模型,开展河网模式自动探测将极大地推进实现河网模式识别智能化;④如何借助小样本训练、非监督学习、迁移学习、Transformer等手段,从河网的初始信息(如坐标点)学习派生得到通用的河网形态嵌入向量,以支持各种的河网几何形态分析与处理问题,也是一个极具应用前景与研究意义的方向。

来源:测绘学报

相关推荐