浙大团队提出新型时序分类技术,让分布式的同步标注成为可能

摘要:近年来,浙江大学陈俊儒和所在团队在大语言模型领域开展了一系列研究。此前,他们基于颅内脑电进行癫痫检测的自动化任务研究[1]。期间,他们从该任务中识别并挖掘出许多独特性,比如数量变化的电极、多病灶的动态扩散、持续时间较长的癫痫发作等。

近年来,浙江大学陈俊儒和所在团队在大语言模型领域开展了一系列研究。此前,他们基于颅内脑电进行癫痫检测的自动化任务研究[1]。期间,他们从该任务中识别并挖掘出许多独特性,比如数量变化的电极、多病灶的动态扩散、持续时间较长的癫痫发作等。

于是,针对这一场景他们提出了BrainNet[2]。之后,他们又基于患者间的迁移问题进行探索,旨在让模型能够在患者身上进行训练,进而能够推广用于其他患者身上。

但是他们发现:癫痫波的标注非常费时费力,在患者身上花费的记录时间特别长,而只有经过专业训练的脑电图师或神外医生才能进行标注。同时,每次标注都需要用肉眼把整个数据扫描一遍。

受启发于大语言模型的强泛化性,该团队利用大规模的颅内脑电数据进行预训练,借此得到一个参数量较大的基础模型[3]。

该模型能以极少的样本进行微调,从而能在下游任务上取得较好性能,这既能缓解标签稀缺的问题,也能实现性能更好的患者间迁移能力。

但是,标签可靠性的问题始终没有得到解决。因为癫痫波的标注非常依赖于个人经验,只有感官标准的话,就很难对其进行量化,毕竟每位医生的标注都会存在差异。这就导致上述模型在数据集进行评估时,始终面临着一定的上限。

事实上,这也是他们在分析模型的预测错误样本之后得出的结论。那些无法被模型准确预测的样本,长得很像而且无法用肉眼分辨。

此外,他们发现对于分类模型来说,总是会将每个样本视为是互相独立的。但是,对于存在时间连续性的样本来说,它们之间应该存在关联性。这就导致模型的预测结果总是特别分散,很难被连贯起来。对于医生来说他们必须反复参考原始数据,才能定位患者的疾病发作时间。

为了让模型能够自适应地协调不同医生的标注,以及让模型训练变得更加稳定,同时让模型的预测更加连贯和集中,研究人员提出一种名为Con4m的新技术,其能用于基于大量真实场景的时间序列分类任务。

在医疗领域,针对癫痫检测、睡眠分期、情绪识别、运动意向等场景,Con4m能够对其进行时序分类。

在传感器领域,Con4m能够用于人体行为识别和设备状态检测等场景。

同时,Con4m可以结合该团队研发的Brant系列大模型,在微调阶段帮助大模型更稳定地进行学习,并能让分布式的同步标注成为可能。

日前,相关论文以《Con4m:面向分段时间序列分类的上下文感知一致性学习框架》(Con4m: Context-aware Consistency Learning Framework for Segmented Time Series Classification )为题发在arXiv[4]。

研究人员表示Con4m更多像是一种方法论,它所能带来的启发是:对于那些连续分类的数据,应该跳出独立同分布的假设,将重点放在连续分类样本的依赖性上。

未来,课题组希望把Con4m的思想继续结合到Brant系列大模型里,帮助其做出更连贯、更稳定的预测。

同时,其还希望设计一套交互方案,让模型在专家标注的过程中,能够主动地识别和验证那些不一致性的标注,并能及时地反馈给专家。

如能成功打造这一交互方案,预计还能让模型通过学习专家的标注偏好来主动地进行预测,从而得到专家的反馈。在这一交互过程之中,专家也能更加地信任模型,模型也能促使专家的标注变得更加一致。

参考资料:

1.https://arxiv.org/pdf/2306.13101

2.MBrain:https://arxiv.org/pdf/2306.13102;PPi: https://proceedings.neurips.cc/paper_files/paper/2023/file/dbeb7e621d4a554069a6a775da0f7273-Paper-Conference.pdf

3.Brant:https://papers.nips.cc/paper_files/paper/2023/file/535915d26859036410b0533804cee788-Paper-Conference.pdf

4.https://arxiv.org/pdf/2408.00041

来源:DeepTech深科技一点号

相关推荐