摘要:哈工大论文斩获ACL评审阶段已知最高分!考虑到英文键盘难以适配汉字特点及文化内涵,团队通过传感器捕捉手部书写,实现汉字的自然输入与识别;独创的中文字形编码使AI能深入理解汉字形态而非仅关注词义,推动AI从「识字」迈向「解字」。该研究革新了中文人机交互,推动了汉
编辑:定慧 好困
【新智元导读】哈工大论文斩获ACL评审阶段已知最高分!考虑到英文键盘难以适配汉字特点及文化内涵,团队通过传感器捕捉手部书写,实现汉字的自然输入与识别;独创的中文字形编码使AI能深入理解汉字形态而非仅关注词义,推动AI从「识字」迈向「解字」。该研究革新了中文人机交互,推动了汉字文化传播与传承,更为AI深度理解汉字智慧开辟了新道路。
独家消息!
AI顶会ACL 2025评审阶段最高分论文出炉!
ACL 2025评审阶段得分官方统计
这篇题为「Chinese Inertial GAN for Handwriting Signal Generation and Recognition」的论文,作者是来自哈工大的王一峰博士和赵毅教授。
根据ACL组委官方发布的评分分布,其Average Overall Assessment为目前最高的4.5分。
值得一提的是,这篇论文在Meta Review阶段,和北大DeepSeek论文的分数一样,都是4.5(Borderline Award)。
ACL 2025年最佳论文的竞争者再添一名,而且都是中国的,真是可喜可贺!
论文介绍
在人工智能浪潮席卷全球的今天,一项融合中华文化与前沿科技的研究,以其独特的人机交互探索在国际AI顶会中赢得所有评审的认可,让民族文化瑰宝闪耀于世界科技舞台。这背后蕴藏着怎样的创新价值与文化意义?
在全球范围内,有超过14亿人使用汉字。
这种古老的象形文字不仅承载着数千年的中华文明,还对日语、韩语和越南语等其他亚洲语言文字体系产生了深远影响。
然而,作为人机交互的传统工具,基于键盘的输入方式主要是为英文、法文等以字母为基础的拉丁语言设计的,难以完美适配汉字这种具有丰富笔画和复杂结构的文字。
象形文字的独特之处在于,其笔画与结构本身就蕴含着丰富的语义信息,而这些信息又在书写过程中自然地融入了手部的运动之中。
为此,来自哈尔滨工业大学的团队提出了一种全新的、面向象形文字的人机交互方法。
通过广泛集成在智能手机和可穿戴设备中的微型惯性传感器,捕捉用户手部的细微书写动作,实现汉字的精准识别与高效输入,从而在人机交互中还原汉字书写的自然体验。
更重要的是,汉字的书写动作乃至最终呈现的书法形态,不仅反映其语义内容,更承载着深厚的文化底蕴和独特的美学价值。
因此,这项技术不仅为中文用户提供了一种新颖、高效的人机交互选择,更有助于汉语学习者深入理解汉字构造,促进中华汉字文化的代际传承与国际传播。
然而,汉字博大精深,数量庞多,因此人机交互技术的核心挑战在于高质量、大规模训练数据的匮乏。
为此,研究团队设计了一种「中文惯性生成对抗网络(CI-GAN)」。
作为驱动人机交互的「生成式数据引擎」,CI-GAN能够智能地生成无限量、高度逼真的虚拟书写惯性信号,从而赋能不同的人机交互场景。
中文惯性生成对抗网络框架图
实验结果显示,在CI-GAN提供的海量数据支持下,不同架构的模式识别方法性能都得到了显著提升,其中Transformer架构的识别准确率从原来的不足10%暴涨到98%。
CI-GAN的卓越性能源于其内部三个模块的精妙设计与协同运作,它们相互支撑,构成了一个高效、智能的耦合系统:
中文字形编码(CGE)CGE可以看成是生成模型的promote,它通过对汉字进行编码,从而告诉CI-GAN需要生成哪些汉字。
传统编码方式往往只关注汉字的「词义」,忽略了其作为象形文字最根本的「形态」特征。
CGE模块则为每个汉字构建了独特的「字形身份证」,专门表征其笔画走势和结构布局。
它通过一种基于信息熵(Rényi entropy)的正则化方法,确保不同汉字的字形编码既信息丰富又易于区分。
这使得CGE不仅为后续的笔迹生成提供了精确的引导,更让AI拥有了洞察汉字形态结构的能力。
为了确保AI生成的虚拟笔迹信号无限接近真人的书写习惯,FOT模块建立了一套严格的「三重一致性」约束机制。
它不仅确保了输入汉字的字形特征、AI生成的笔迹特征以及真实笔迹样本特征三者之间的高度吻合,还有效避免了传统生成模型中常见的模式崩溃或模式混叠等问题,从而保证了生成样本的真实性与多样性。
语义关联性对齐(SRA)汉字体系博大精深,不同汉字结构之间存在着复杂的关联性。
SRA模块约束AI在生成信号时准确保持这种汉字间的细微关联(例如,字形结构相似的汉字,其生成的笔迹信号在动态特征上也应表现出相似性,反之亦然)。
这不仅大幅提升了生成信号的整体协调性和逻辑性,还有效抑制了生成式AI可能出现的幻觉问题。
语义关联性对齐原理图
此外,汉字字形编码(CGE)、强制最优传输(FOT)、语义关联性对齐(SRA)三个模块相互协同:
CGE不仅为生成器从输入端提供语义引导,同时也为FOT和SRA的约束机制提供语义依据,并且CGE自身也在此过程中得到监督和训练;FOT模块利用CGE提供的字形编码,确保生成信号的语义、真实信号的语义以及输入语义三者一致;SRA模块同样依据CGE提供的字形编码,校对生成信号之间的语义关联性,确保其与对应输入汉字之间的字形关联性的一致性;FOT与SRA模块除了共享CGE提供的字形编码外,还共享生成信号的特征,从而分别向生成信号施加约束,确保生成信号的真实性、可靠性、多样性。CGE-FOT-SRA协同交互示意图
这项研究的价值不仅在于提供了一种人机交互技术。
更重要的是,其核心组件「中文字形编码(CGE)」为AI开启了一扇理解象形文字内在「形态逻辑」的大门。
汉字作为一种源远流长的表意文字体系,其字形并非随机符号的堆砌,而是蕴含着丰富的结构信息和语义线索。
与拼音文字不同,汉字的字形与语义之间存在直观的形态关联(如「日」象形太阳,「山」酷似山峰剪影,「火」宛若跳动火焰,「网」象征交错纵横的网络),这些字形本身就承载着浓厚的语义信息和文化密码。
这种表意特性可以为AI提供更密集的信息,使其能够从字形中直接解码部分语义。
大量研究指出,中文的平均信息熵远高于英语等表音文字,意味着用更少的字符就能传递同等复杂的信息(不同语言的联合国文件中,中文版往往是篇幅最短的)。
然而,作为AI理解人类语言的基石,当前的中文向量化方法本质上是将汉字视作随机符号,忽视了汉字内部的结构信息和字形本身所蕴含的丰富先验知识。
这项研究用传感器捕捉汉字书写,并将这一过程看成是对字形的动态形成过程的记录,从而设计汉字字形编码(CGE)在这一过程中学习和表征汉字的形态结构信息。
因此,CGE可以将汉字的结构与笔画特征引入深度学习架构,让AI从仅仅「识字」进化到一定程度的「解字」。
当AI能够理解「氵」多与水有关,「亻」多与人有关,「讠」多与说话有关,「钅」多与金属相关,「火」多与火焰有关时,它对中文语料的利用就可以更加高效,对整个中文知识体系的理解也更为深刻。
这种基于运动捕捉的汉字字形结构表征可以捕捉细微的结构差异,例如「千-干」、「天-夭」、「田-甲」,使得AI对语言的理解不只是来自于上下文预测这种基于统计学规律的知识表征。
某种程度上,CGE为AI理解人类知识提供了一个独立于纯文本统计之外的强大信息源,揭示了人工智能在理解和利用汉字这一古老而智慧的文字体系时所蕴藏的巨大潜力。
本研究的深层启示在于:对于具有内部结构和非任意性形态的符号系统(尤其是如汉字这样的表意文字),对其「形态逻辑」进行建模可能是提升AI认知能力的有效途径。
CGE作为一种初步的尝试,验证了这一思路的可行性,对AI的符号学习和表征学习可能产生深远影响。
此外,汉字的「形」,作为其「意」的重要载体,理应在未来的AI研究中占据更核心的位置,这可能是推动人工智能向更高层次认知智能迈进的关键路径之一。
作者介绍
王一峰
哈工大博士生,受国家留学基金委资助,赴新加坡国立大学进行博士联合培养,研究方向包括AI物理感知、可解释性分析等。
他曾担任国际生物信息与生物医学工程会议(BIBE)、计算机技术与信息科学国际会议(CTIS)、机器人自动化与智能控制国际会议(ICRAIC)分会主席,CVPR、ECCV、AAAI、Information Fusion等人工智能顶级会议/期刊审稿人。
赵毅
哈工大教授,应用数学研究中心主任和学科学术带头人,英国数学与应用学会会士,广东省数学会理事,广东省工业与应用数学学会常务理事。
研究方向包括应用动力系统、非线性时间序列分析、复杂网络和数据科学理论等。近五年以第一/通信作者发表SCI论文60余篇,其中3篇论文入选ESI高被引论文。
来源:新智元一点号