摘要:行人导航意图的自动识别是行人导航研究的一个难点问题,对建立智慧导航服务与新型的人机交互方式至关重要。目前,利用行为模式推估导航意图成为主流的解决方案,但是,这种方案依赖多种传感器且具有时滞性。本文提出了一种基于脑成像技术的行人导航意图探测方法,通过多导联的、高
本文内容来源于《测绘学报》2024年第9期(审图号GS京(2024)1896号)
面向行人导航意图探测的脑电分类研究
方志祥, 王禄斌武汉大学测绘遥感信息工程国家重点实验室,湖北 武汉 430079
基金项目
作者简介
第一作者:方志祥(1977—),男,博士,教授,研究方向为时空地理信息系统、人类活动大数据时空建模与分析和行人导航理论与方法。E-mail:
摘要
行人导航意图的自动识别是行人导航研究的一个难点问题,对建立智慧导航服务与新型的人机交互方式至关重要。目前,利用行为模式推估导航意图成为主流的解决方案,但是,这种方案依赖多种传感器且具有时滞性。本文提出了一种基于脑成像技术的行人导航意图探测方法,通过多导联的、高时间分辨率的脑电信号解译行人的转向意图。首先,在处于道路交叉口的场景下,依照标准的运动想象范式采集得到4类导航意图对应的脑电原始数据,包括直行、停止、左转和右转;然后,融合脑电在时频域、空间域与功能连接上的特征,构建表达脑电活动过程的脑电时空连接网络,便于捕获与导航意图高度相关的脑电特征;最后,采用图卷积神经网络编码脑电时空连接网络,完成由脑电到4类导航意图的映射,并利用9个被试者的脑电数据作为样本集对本文方法的有效性进行验证。试验结果表明,采用短时窗(1 s)探测4类导航意图的平均精度为0.443±0.062,最高精度可达0.571。采用长时窗(6 s)探测4类导航意图的平均精度为0.525±0.084,最高精度可达0.665。该方法的探测精度略优于其他脑电解译算法,且对前进和停止意图的识别能力优秀,最高可达0.740和0.700。
关键词
行人导航导航意图识别EEGGCN
本文引用格式
方志祥, 王禄斌.
FANG Zhixiang, WANG Lubin.
随着人工智能的发展,行人导航服务能更深入地感知人的导航需求,通过更友好的交互方式,给用户带来更好的出行体验。其中,实现导航意图的探测是建立智慧导航服务的重点。首先,导航意图可以反映行人的导航需求,为提供个性化的导航服务提供参考[1]。然后,自动识别导航意图能帮助建立更便捷的人机交互方式,提升导航服务的友好性。最后,实现导航意图的探测对人机协同技术的应用有重要意义,能服务于行人导航、智慧交通、人车共驾、人机协同测绘等多个领域[2]。
导航意图是人脑产生的一种意识,无法通过仪器直接进行观测和记录,因此,利用可观测的物理行为模式间接推估人脑意图成为可行思路。现有的意图识别研究关注行为模式的选择和识别算法的设计。行为模式涵盖了人的头部、面部、眼部和肢体的运动特征,这些行为可以通过智能眼镜、智能头盔、摄像机和眼动仪记录[3-4]。如,文献[5]提取了驾驶员的眼部和头部的位姿特征,分别构建当前车辆转向意图的识别模型,结果表明利用头部运动特征的识别精度优于眼部。除了考虑人本身的行为特征,通过场景特征预测视觉注意力也成为意图识别的间接手段。如,文献[6-7]通过集成颜色、运动和语义信息建立深度学习模型预测人在导航任务下的视觉注意力,得到容易被人关注的显著区域。在算法设计上,由于人的行为是随时间动态变化的,意图识别算法需要具备编码短时序特征的能力,如卷积神经网络、长短时记忆网络、隐马尔可夫模型等[8-10]。文献[11]通过凝视方向和头部姿势的变化,采用隐马尔可夫模型,实现在行为发生前3.8 s预测驾驶员的转向行为,识别准确率超过80%。尽管如此,利用行为模式推估意图的方法还存在缺陷,该方法比较烦琐、耗时,依赖多种传感器,对场景较为敏感,并且大多具有时滞性。当人产生意图而未行动时,该方法会失去效用。神经影像学是一门通过脑成像技术研究大脑工作机制的学科,常用的成像技术包括脑电图、脑磁图、功能磁共振成像,以及近红外光谱成像技术等[12]。这些成像技术将人脑活动记录成蕴含时空特征的电、磁信号,成为直接解译行人导航意图的手段,摆脱模型对物理行为特征的依赖。其中,脑电成像技术通过安置在头皮上的多个电极(导联),记录下大脑活动过程中的同步电位,形成多导联的、高时间分辨率的电信号[13]。相比其他脑成像仪器,脑电仪价格较低,体积较小,可随身携带,适用于导航服务。此外,将导航意图识别算法集成到轮椅,能对失去行动能力的残障人群提供有效帮助。目前,脑电已被应用于各类空间认知研究[14],如,文献[15]探究了人在执行视空间想象任务时的脑电差异,通过提示被试者注意棋盘上的4个象限,得到不同空间注意力下的脑电信号,再利用信号频谱特征构建机器学习分类模型,识别4个象限的平均精度超过70%。这些研究关注人对空间方位的感知、空间知识的学习及空间认知能力与负担的评估等,为脑电探测导航意图的可行性提供了依据。
在空间方位想象的解译研究中,更多关注人对视空间的被动感知,缺乏探究空间方位想象任务的脑电活动特征。而且,大多数的试验场景会设置为简化的、虚拟的空间结构[16-17],仅有少部分研究会结合现实的导航环境[18-19]。此外,缺乏与导航意图直接相关的重要脑电特征的参考依据。本文提出一种面向行人导航意图探测的脑电分类模型,用于区分行人在道路决策点处的4类意图,包括直行、左转、右转和停止。首先,设计表征行人导航意图的脑电信号采集试验,获取与导航意图相关的脑电信号;然后,生成表征脑电时空变化特征的脑电时空连接网络,用于表达脑电在时频域、空间域和功能连接上的融合特征;最后,构建脑电时空连接网络分类模型,采用图卷积神经网络实现4类导航意图的探测。该模型融合了多种脑电特征,用于获取与导航意图直接相关的重要脑电活动。
1 表征行人导航意图的脑电信号采集1.1 被试者脑电采集试验选取9名被试者。这些被试者来自武汉大学测绘科学与技术专业的学生,均为男性,年龄在23~25岁。所有被试者的视力均正常或矫正至正常,不存在空间认知障碍。在试验前,被试者签署了试验知情同意书,熟悉了试验流程和导航意图想象任务。本次试验通过了武汉大学学术伦理委员会的伦理审查,审查批件号为WHU-NS-IRB2023004。
1.2 试验平台软硬件试验采用的脑电仪是由Emotiv公司研发的商业产品Emotiv EPOC Flex,如图1(a)所示,配备了32个测量电极和带有电极布设点位的电极帽,符合国际10-20系统标准。这些电极布设在与空间认知任务相关的头皮区域(Cz、Fz、F7、F3、FC1、C1、C3、FC5、T7、CP5、CP3、CP1、P3、P7、PO9、O1、Pz、Oz、O2、PO10、P8、P4、CP2、CP4、CP6、T8、FC6、C4、C2、FC2、F4及F8),两个参考电极布设在耳后乳突位置,如图1(b)所示。脑电仪的采样频率为128 Hz。
图1图1 试验平台软硬件架构与界面
Fig.1 Hardware, software and interface of the experimental platform
搭建试验平台有两个目的:一是控制试验流程的正常运行;二是自动记录各个任务的执行时刻,确保任务执行时刻与脑电信号采集时刻的精确同步。试验平台分成3个模块,分别是试验流程控制模块、脑电仪连接模块和脑电数据下载模块。平台架构如图1(c)所示。试验流程控制模块采用H T M L+JavaScript编写,负责向被试者提供道路场景和目标信息,记录执行任务的时间节点,向脑电仪发送连接请求和数据下载请求。脑电仪连接模块和数据下载模块通过Emotiv Cortex API实现,可以获取仪器的连接状态、连接质量和存储的脑电数据。
试验平台提供的道路场景选取在武汉大学信息学部内的人行十字路口,本研究以行人视角拍摄了4处路口,影像展示了路口前的3条岔路,视角范围为120°,如图1(d)所示。此外,试验增加了一个与路口空间结构相似的简化场景。通过在每条岔路放置目标物体和指示箭头,提示被试者想象朝目标方位进行移动,还原在现实场景下导航意图的产生过程。
1.3 试验范式与流程运动想象(motor imagery, MI)范式是一类自发性的脑电引发范式,要求被试者仅想象执行某个动作而无须执行行为。这种运动想象范式更加贴近自主意识的捕获,符合导航意图探测的需求[20]。试验依照运动想象范式设计了导航意图想象范式。针对1个被试者,试验包含10轮测试,1轮测试采用1个场景,如图2(a)所示。前5轮测试是通过箭头图标提示被试者执行对应方向的想象任务,后5轮测试是通过语音提示被试者执行想象任务。1轮测试包含32个子任务,每个子任务指定1个想象方位。在1个子任务中,被试者首先有3s的放松时间;然后,被试者会接收到时长为1s的方位提示;最后,被试者会根据提示方向执行6 s的想象任务,该任务要求被试者持续将注意力放在对应目标上,想象自身朝目标移动,产生向目标前进的意图,并且有节律地执行若干次想象,想象次数由被试者自主决定。采集现场如图2(b)所示。
图2图2 脑电采集试验范式与流程
Fig.2 Experimental paradigm and the process of EEG acquisition
2 行人导航意图的脑电分类方法脑电数据由多个导联连续测量的电压值序列构成,包含时频特征[21]、空间特征[22]及功能连接特征[23]。为了融合多类脑电特征,本文提出脑电时空连接网络(spatiotemporal functional connectivity networks, STFCN)结构,并构建适用于脑电时空连接网络的图卷积分类模型,如图3所示。方法分为两个部分。一是脑电时空连接网络的构建。1个脑电时空连接网络表征了在想象某种导航方位时的脑电活动状态与过程,构建流程分成3步,分别是单极脑电信号的提取、单时段脑功能连接网络的生成和多时段时空连接网络的构建。单极脑电信号的空间域和频率域特征用作脑电时空连接网络的节点特征,单时段功能连接网络用于表达同一子时段下的脑区交互模式,多时段脑电时空连接网络用于描述不同时段下的功能连接网络的时序变化。二是基于脑电时空连接网络的分类模型。1个脑电时空连接网络对应一种导航意图标签。分类模型的基本任务是完成整个网络的编码并实现导航意图的判别。本文模型通过图卷积模块和图池化模块编码网络结构和节点特征,并采用合适的图读出机制和损失函数以保留网络的细节信息,提高参数训练的稳定性。
图3图3 行人导航意图的脑电分类方法流程
Fig.3 EEG classification procedure for pedestrian navigation intention
2.1 脑电信号的预处理所采集的原始脑电信号需要先后经过重参考、带通滤波、伪迹消除及信号切片等预处理操作,得到用于建模的脑电样本。重参考采用双侧乳突重参考法,此时,参考电极设置在双侧乳突位置上,利用双侧乳突处的平均电势对测量电极的数据进行矫正。带通滤波采用有限冲激响应(FIR)滤波器,允许通过的频率范围设置为4~45 Hz,集中在Theta波段、Alpha波段、Beta波段和Gamma波段。原始数据的伪迹成分包括眨眼伪迹、心电伪迹和肌电伪迹。伪迹剔除流程为:首先,通过独立成分分析(independent component analysis, ICA)得到线性无关的独立成分;然后,通过MNE Python库[24]中的肌电[25]、眨眼[26]和心电[27]识别算法剔除疑似伪迹的独立成分,伪迹判别的阈值设置为0.6;最后,剩下的独立成分重新组合成干净的脑电信号。信号切片的目的是根据开始想象和结束想象的时间点提取想象时段对应的脑电信号。经过信号预处理后的脑电信号如图4所示,相比原始的脑电信号,干净信号没有大幅漂移,伪迹的影响较小。
图4图4 脑电信号原始样本与预处理结果
Fig.4 Raw EEG samples and the preprocessing results
2.2 脑电时空连接网络的构建2.2.1 单极脑电信号特征提取单极脑电信号特征包括时频域和空间域特征,时频域特征关注不同波段信号的能量分布,空间域特征表达了重要脑电源信号的空间分布情况。信号的时频域特征通过3层小波包分解[28]提取,得到8个子波段的小波包系数。这8个子波段分别是(4,10]、(10,15]、(15,20]、(20,25]、(25,30]、(30,35]、(35,40]和(40,45],单位为Hz。根据式(1)—式(3),提取每个子波段的相对能量REgi和能量熵Ep
(1)
(2)
(3)
式中,Egi为子波段i的小波包能量;αij为子波段i的第j个小波包系数,i=1,2,…,8;Ni表示子波段i的小波包系数个数。
空间域特征的提取流程为:首先,采用共空间模式算法(common spatial patterns, CSP)[29]估算适用于分类任务的空间滤波器Wcsp;然后,采集信号通过滤波器Wcsp变换为与分类任务高度相关的源信号;最后,计算每个源信号的平均功率,构成空间域的特征向量。源信号的数量Ncsp取值范围为[1,32],为了尽可能减少信息损失,本文将Ncsp设置为32。时频域和空间域特征共由41维向量表达,并作为单个网络节点的特征向量。
2.2.2 单时段脑功能连接网络的生成单时段脑功能连接网络(简称“脑网络”)用于表达同一时段内两两导联信号之间的交互关系。当两导信号之间存在统计学依赖关系,则认为两导联所在脑区存在功能连接,可视为在执行任务时,对应脑区存在信息交互。统计学依赖关系可以从信号时域相似性、频域相似性和相位耦合程度来量化。简单的时域、频域上的相似性容易受到脑电传播过程中的容积传导效应影响,由此得到的脑功能连接网络存在较多虚假连边。本文采用基于Wilcoxon符号秩检验的相位滞后指数(phase lag based on Wilcoxon signed rank test, PLWT)[30]衡量两导信号的相位滞后关系。当两导信号存在恒定相位差时,对应脑区被认为存在功能连接,由此构建邻接矩阵。相比传统的相位同步指标,如PLI[31]和wPLI[32], PLWT指数可以减少容积传导和噪声的影响,不需要设定阈值筛选连接关系。
2.2.3 多时段脑电时空连接网络的构建单时段脑功能连接网络只能描述某一时段下各个导联的关联状态。然而,被试者在执行导航方向想象活动时,导联之间的关联关系可能会随时间动态变化。为了描述脑功能连接网络随时间的动态变化过程,本文将NT个时段下的脑功能连接网络组成一个大的脑电时空连接网络,通过将相邻时段网络的同名节点之间建立连边,实现不同时段网络的顺序连接。时段数量NT(单位为个)为超参数。此外,LT和NT的约束条件为
(4)
式中,δ为两个时段的重叠度,本文取0.5;L为信号片段总长度,单位为s;LT为构建单时段脑网络对应的信号片段长度,单位为s。
2.3 基于脑电时空连接网络的分类模型将1个脑电时空连接网络视为1个样本,对应一个导航方位意图标签。脑电时空连接网络蕴含多类信息,包括单极脑电信号的时频域和空间域特征、功能连接网络的连接模式以及网络结构的时序变化特征。因此,分类模型需要尽可能实现各类信息的编码,得到能够表征脑电时空连接网络关键特征的向量。脑电时空网络有两个基本特征:一是网络规模较大;二是网络存在虚假连边。针对上述基本特征,本文提出适用于脑电时空连接网络的图分类模型,模型结构如图5所示。
图5图5 用于脑电时空连接网络的图分类模型结构
Fig.5 Graph neural network architecture for STFCN classification
分类模型的输入数据为一个脑电时空连接网络,输出为所属导航意图类别的概率。模型由3个“GraphSAGE图卷积层+EdgePool图池化层”特征变换单元堆叠构成:首先,每个单元执行图卷积和图池化操作,得到聚合邻居特征后的节点特征矩阵,再通过图读出(graph readout, GR)得到表达整个网络的特征向量;然后,利用跳跃连接,将3个单元计算得到的图向量进行加和,得到最终的脑电时空连接网络的表征向量;最后,将此向量送入包含2个全连接层的多层感知器(multilayer perception, MLP)中进行分类。
在特征变换单元中,GraphSAGE算法[33]用于聚合邻居节点的特征向量,引入了随机采样邻居节点策略,不仅可以忽略一部分虚假连边,也能消除由网络规模大带来的负面影响。EdgePool层级池化[34]用于扩大图卷积的感受野,保留网络的关键结构,得到适于分类的图向量表达。相比其他图池化算法,EdgePool池化能减少节点特征和图结构信息的丢失,保留网络主干结构,适用于脑电时空连接网络。
图读出机制负责综合所有节点的特征,得到表征整个图的特征向量。本文采用一种与任务相关的图读出机制(task-aware graphr eadout, TGR)[35],引入1个可学习的参数μ,计算各个网络节点的权重系数,从而得到加权后的节点特征向量,如式(5)所示。本研究进一步将所有节点特征的加权和、平均值和最大值进行拼接,作为最终的图向量,如式(6)所示
(5)(6)
式中,h表示TGR图向量;hf表示拼接后输出的图向量;μ∈R1×d代表可学习的参数;H∈RN×d代表节点特征矩阵;μHT∈R1×N代表节点的权重向量;K表示EdgePool层的个数;Nk表示第k个EdgePool层的网络节点数;N表示节点数量;d表示节点特征向量的长度。
损失函数由两部分构成:一是衡量分类损失的交叉熵函数;二是池化信息损失惩罚项。为了缓解由减少节点数量引起的信息损失,本研究采用了池化稳定性损失[29],可以让池化前后节点特征的分布尽可能一致从而减少重要信息的丢失。单个样本的损失函数定义为
(7)
式中,yc为符号函数,如果样本的预测类别为cyc取1,否则取0;pc为样本被归为c类的概率;(Hk)THk和(Hk+1)THk+1分别代表经过池化前、后的特征向量二阶矩,可以表示池化前、后图特征的分布;β为惩罚项系数,本研究取0.000 01。
3 试验分析3.1 数据集与模型参数一个脑电样本代表执行一次完整的导航方位想象任务。单个被试者的脑电样本量为320,每个脑电样本的大小为32×768,其中,32为导联数,768为采样点数,对应6 s的方位想象时长。在构网之前,本文将单个脑电样本切成NT个长度为LT的片段,一个片段构建一个功能连接网络,由此构成大的脑电时空连接网络。图6显示了代表4个方位意图的脑电时空连接网络样本,每个脑电时空连接网络由5个时段的脑功能连接网络(functional connectivity network, FCN)组成,连边颜色越深表示功能连接强度越大。
图6图6 脑电时空连接网络样本示意
Fig.6 The diagram of STFCN
根据式(4)所示的约束条件,本研究设置了候选参数(表1),这些参数确定了单个脑电时空连接网络的规模,包括单时段构网信号的长度LT、时段数量NT、构网信号总长L及样本数量NS。由于参数的可取值众多,无法穷举,故选取了代表性的8种方案。方案1表示信号总长很短的情况;方案2—方案4的信号总长都处于中等水平,单时段网络数量呈递减趋势,单时段长度呈递增趋势;方案5—方案8的信号总长到达最高,单时段网络数量递减,单时段长度递增。
表1脑电时空连接网络样本规模的候选参数
Tab.1
样本规模的组别L/sLT/sNTNS1111192023156403322640433164056111320662532076423208661320新窗口打开| 下载CSV
分类模型包含了3个特征提取单元,每个单元由1个GraphSAGE图卷积层和1个EdgePool图池化层构成。每个卷积层的输出维度设置为128。损失函数中的惩罚项系数设置为0.000 01。考虑到脑电具有很强的个体差异,本研究主要采用单被试者测试,即分别使用9个被试者的脑电网络样本训练获取9个模型,评估单个被试者的脑电样本的分类精度。在评估模型的泛化性能时,采用跨被试者测试,即用一个被试者模型在其他8个被试者的脑电样本集上进行评估。模型训练采用五折交叉验证,批大小(batch size)为32,最大迭代次数设置为300,优化器选用Adam,其中,初始学习率设置为0.001,学习率衰减步长为30,衰减率为0.5,权重衰减(L2正则化)设置为0.001。本文采用的图深度学习框架为Pytorch Geometric,训练使用的GPU型号为NVIDIA GeForce GTX 1660Ti(6 GB)。本研究采用精确率(precision)、召回率(recall)和F1值衡量每类意图的识别精度,平均精度采用所有类别精度指标的平均值来衡量。在模型训练期间使用准确率(accuracy)评价验证集精度。
3.2 导航意图分类精度评定现将样本规模设置为LT=2、L=6和NT=5,见表1,此时每个被试者的脑电样本量为320。9号被试者的分类模型在训练过程中的损失值曲线如图7所示。总体上看,分类模型的训练集损失先快速下降,后趋于不变,并在可接受的范围内波动,模型到达收敛。训练损失在后期出现微小波动而没有稳定在固定值,这可能是由于样本数较少且采用了分批训练的方式。脑电属于非平稳信号,同一个被试者在不同时段采集的信号也会有较大差异,因而不同批次的样本分布也存在差异。验证集的损失曲线先快速下降,然后在50代左右出现波动,并开始缓慢回升,最后维持稳定。试验结果表明:①模型收敛,并在验证集上取得较稳定的准确率;②由于样本量较小,部分模型存在轻微的过拟合。本文采用早停策略,将停止后的网络权重用于精度评估。早停策略的具体流程为:在每一轮的迭代完成后,判断损失值是否下降;如果下降,记录新的最低损失值及模型权重,否则开启下一轮迭代;如果持续20代损失没有继续降低,则停止模型的训练,保存最低损失值对应的模型权重进行精度评价。
图7图7 模型训练损失值的变化曲线(以9号被试者为例)
Fig.7 The loss curve of training sets and validation sets (take subject 9 as an example)
在采用早停机制得到泛化能力最高的模型参数后,9个模型在测试集上的精确率、召回率和F1值如图8所示。结果如下:①脑电可以在一定程度上解译导航方向意图,本文模型在9个样本集上的F1值为0.525±0.084,样本集之间的精度差别较大,有明显的个体差异,通过9号被试者的样本集训练得到的模型(简称“9号模型”)平均精度最高,精度为0.665;7号模型的平均精度最低,精度为0.431;②多数模型在识别前进和停止意图上的精度(F1值)比识别左转和右转的精度要高,停止意图的识别精度表现最优,其中,3号模型识别停止意图的精度达0.740,识别直行意图的精度达0.700,比识别右转的精度分别提升了0.106和0.143,比识别左转的精度提升了0.124和0.162,此外,右转意图的最高识别精度达0.597,左转意图的最高识别精度达0.642。
图8图8 在9个样本集上的精确率、召回率及F1值
Fig.8 Precisions, recalls and F1 scores of classifications using nine sample sets
3.3 样本规模参数对导航意图分类的影响样本规模参数包括方位想象任务总时长(L)、单时段脑网络对应的时间窗口(LT)和单时段脑网络数量(NT),这些超参数会影响导航方向意图的分类结果。为了找到分类精度最高的样本规模参数,本文利用9个被试者的脑电数据生成了8种不同规模的脑电时空连接网络样本,得到了对应的平均精度(F1值)。根据图9所示结果,得到如下结论。
图9图9 不同网络规模参数下的平均F1值
Fig.9 Average F1 scores under different STFCNs
(1)当L=6、LT=4、NT=2时,导航意图识别精度最高;当L=1、LT=1、NT=1时,导航意图识别精度最低,两者精度相差0.144。
(2)当NT固定时,导航意图识别精度随总时长L递增。这说明信号样本总长度(L)增加使得有关导航意图的脑电信息增多,不同意图下的脑电特征差异增大。如,规模参数L1_Lt1_Nt1、L3_Lt3_Nt1、L6_Lt6_Nt1对应的分类精度分别为0.443、0.515和0.559。
(3)当L固定时,导航意图识别精度随LT先增后减。一方面,当LT增加到与L相同时,此时仅考虑了单个时段的脑功能连接网络(NT=1),其识别精度相比NT=2时有所下降。另一方面,当LT减小到1 s时,此时考虑了多个时段的脑功能连接网络(NT≥5),其识别精度达到最低值。如,规模参数L6_Lt1_Nt11、L6_Lt2_Nt5、L6_Lt4_Nt2、L6_Lt6_Nt1对应的分类精度分别为0.467、0.532、0.588和0.559。
(4)当LT固定时,精度随NT的变化不明显。如,规模参数L1_Lt1_Nt1、L3_Lt1_Nt5、L6_Lt1_Nt11对应的分类精度分别为0.443、0.471和0.467,或者规模参数L3_Lt2_Nt2和L6_Lt2_Nt5对应的分类精度为0.526和0.532。尽管信号总长度L增加,但在相同的LT下,精度没有明显升高。
上述结果表明:①首先,窗口时长和识别精度之间存在制约,可以牺牲部分精度换取更短的识别时间;②为了让本文模型取得更高的分类精度,LT最好设置为[1,L]区间内的中间值。这样得到的脑电时空连接网络样本既能保证单时段脑功能连接网络的稳定性,又能反映方位想象过程中的网络结构变化,最大化不同导航意图间的脑电活动差异。
3.4 消融试验与精度对比为了验证脑电时空连接网络在行人导航意图分类上的优势,本文选用了5组对比模型,分别是EEGNet[36]、三层图卷积网络(GCN)、仅考虑空间域特征的脑电时空连接网络(STFCN_CSP)、仅考虑时频特征的脑电时空连接网络模型(STFCN_Freq)及仅考虑节点特征的多层感知器(Multilayer Perceptron, MLP)分类模型。
EEGNet是经典的脑电深度学习模型,采用时序滤波器、空间滤波器和逐点卷积依次对多导联信号进行编码,综合了信号的时序特征和空间域特征。本文选取EEGNet模型进行对比试验,信号采样长度设置为768,一个训练样本的尺寸为32×768,其他训练参数与本研究模型一致。GCN模型用于说明GraphSage和EdgePool模块对脑电时空连接网络编码的作用。本文采用三层图卷积和三层全局池化构建普通的GCN网络,并利用跳跃连接获取整个图的特征向量,其他网络参数与本文模型相同。STFCN_CSP和STFCN_Freq两个模型是用于对比节点特征对分类精度的影响,模型参数与本文模型设置相同。MLP模型是用于说明脑电时空连接网络对导航方向意图分类的影响,这里采用三层隐藏层,每层的节点数为128。训练和测试的样本集的规模为L6_Lt2_Nt5。
6个模型的平均精确率和召回率显示在表2中,结果归纳为5个方面:①本文模型在分类精度上稍显优势,结合图10可知,9个被试样本集上的平均F1值达0.525;②EEGNet模型与本文模型在平均分类精度上持平,但是,本文模型对直行和停止意图的识别精度最优,而EEGNet对转向意图(左转、右转)的识别精度相比本文模型更高,这说明脑电在时频域和空域的融合特征更适合区分左转和右转意图,而脑电时空连接网络更容易区分静息态(停止)和任务态(转向);③GCN模型的表现效果与本文模型相似,说明普通图卷积和本文采用的EdgePool+GraphSAGE模块在编码网络结构和节点特征的能力上差异不大;④MLP模型没有考虑脑电时空连接网络结构,其分类精度仅有0.476(图10)。这说明脑电时空连接网络蕴含了对导航意图识别有帮助的信息,能显著提升停止和直行意图的判别精度(分别是0.07和0.06);⑤相比本文模型,STFCN_Freq模型的识别精度下降了0.16,而STFCN_CSP模型变化不大。这说明空间域特征对4类导航意图分类至关重要,而时频域特征对导航方位意图的判别影响较弱。
表2不同模型的平均分类精度
Tab.2
模型右转左转直行停止精确率召回率精确率召回率精确率召回率精确率召回率EEGNet50.6±10.249.3±12.849.4±12.349.7±10.453.7±9.354.1±12.354.5±11.855.1±11.7GCN50.4±9.148.6±11.647.4±14.148.4±9.955.3±10.455.9±13.655.4±14.456.1±13.5STFCN_CSP49.1±7.545.2±7.846.7±9.646.9±11.554.2±9.855.8±12.054.1±10.756.1±10.5STFCN_Freq35.9±11.635.1±9.736.8±9.035.6±9.937.4±10.238.4±10.337.6±9.436.3±8.6MLP46.6±10.745.2±10.446.7±8.644.8±10.449.2±9.748.3±10.750.2±10.849.6±10.7本文模型50.2±6.447.5±7.548.6±9.248.9±10.355.6±8.656.7±11.955.5±11.356.7±11.4新窗口打开| 下载CSV
图10图10 6个模型的平均F1值
Fig.10 The average F1 scores of 6 models
3.5 跨被试者测试与泛化性能评估为了进一步评估本文模型的泛化能力,采用跨被试者测试进行精度评定,即利用1个被试样本(训练集)训练得到的模型在其余被试样本(测试集)上进行评估。本文模型采用的训练样本规模设置为LT=2、L=6和NT=5,即信号片段总长为6 s,分成5个时段,每个时段长2 s。对应地,EEGNet的训练样本的片段长度为6 s。这里选取在单被试样本上表现最好的3号和9号模型进行跨被试者测试。本文模型与EEGNet模型的跨被试评估结果如图11所示。3号模型和9号模型分别指利用3号被试者和9号被试者的样本集训练得到的模型,具体结果如下:①从平均精度上看,本文模型的泛化能力优于EEGNet模型。本文模型的平均F1值为0.391和0.384, EEGNet的平均F1值为0.364和0.341;②从单类别精度上看,本文模型在左转、直行和停止意图上表现优于EEGNet,尤其是停止意图,精度分别提升了0.08和0.134;③相比单被试者测试结果,本文模型和EEGNet模型在跨被试者测试上表现较差,这说明脑电具有较大的个体差异。
图11图11 跨被试者测试的F1值
Fig.11 The F1 scores of cross-subject tests
4 结论本文结合脑电成像技术,提出了一个面向道路交叉口场景的导航意图探测方法。该探测方法可集成到基于脑机接口的导航系统中,用于生成导航指令,从而控制机器的运动方向,辅助完成导航任务。搭载了导航意图识别算法的交通工具和机器人可以帮助残障人士实现与外界环境的交互,摆脱对物理运动和肌肉控制的依赖。不仅如此,该方法还可以为其他群体(如司机和行人)提供导航服务,通过捕获他们的转向意图,及时告知正确的行进方向,减少走错路情况的发生。
为了构建导航意图识别模型,首先,依照标准的脑电试验范式采集得到表征行人导航意图的脑电样本。然后,为了提高脑电信号的信噪比、减弱非平稳性所带来的负面影响,设计了融合时频域、空间域、功能连接等多种脑电特征的脑电时空连接网络,用于表达不同导航意图下的脑电活动过程。在此基础上,通过图卷积和图池化模块,筛选重要网络结构,将完整的脑电时空连接网络编码成可运算的数值向量,实现了对前进、停止、左转和右转意图的识别。通过测试9名被试者的脑电样本,证明了脑电可以在一定程度上探测导航意图,检验了本文方法的有效性。试验发现采用脑电探测4类导航意图的平均精度达0.525±0.084,被试者的最高精度达0.665。本文方法的平均精度略优于其他经典方法,对前进和停止意图的识别能力优秀,最高可达0.740和0.700。相比脑电的时频特征,脑电时空连接网络的结构特征和脑电信号的空间域特征对导航意图识别更重要。本文模型在泛化能力上存在提升空间。虽然相较经典的EEGNet模型有所提升,但是在跨被试者测试中表现仍未达到较理想的精度。除此之外,后续研究会进一步考虑不同群体对模型性能的影响,如性别、年龄等。
来源:测绘学报