与时俱进，永无止境——有关多模态和人工智能研究的若干认识

摘要：2024年1至4月我先参加了上海同济大学的“全国多模态与功能语言学学术研讨会”,后参加了国防科技大学的“人工智能时代的多模态研究军事应用研讨会”。这表明多模态研究在国内外已成为当代学术界的重点研究对象。本文主要就有关多模态概念的内涵、时代性、融合和主体模态、碎

感谢您关注“永大英语”！

胡壮麟

摘要：2024年1至4月我先参加了上海同济大学的“全国多模态与功能语言学学术研讨会”,后参加了国防科技大学的“人工智能时代的多模态研究军事应用研讨会”。这表明多模态研究在国内外已成为当代学术界的重点研究对象。本文主要就有关多模态概念的内涵、时代性、融合和主体模态、碎片化发表自己的认识。最后汇报一下本人已经做过的一些与多模态有关的研究课题。

关键词：多模态；人工智能；融合；主体模态；碎片化

2024年1月5日，“全国多模态与功能语言学学术研讨会”在上海同济大学召开。相隔仅三个月，国防科技大学召开“人工智能时代的多模态研究军事应用研讨会”。这说明多模态研究已成为国内学术界的研究重点。从本次会议的名称，可以看到两个特色，一个是“人工智能时代”，一个是“多模态研究军事应用”。虽然我于1954~1958年曾在总参二部工作过，20世纪80年代后期又与原属总参二部的“南京国际关系学院”有过若干联系，但与“多模态研究军事应用”无关，因此我只能就第一个特色“人工智能时代”发表一些看法。

我还要说明一点。2002~2003年我指导的博士生李战子教授曾去澳大利亚悉尼大学进修，有机会了解到国外语言学界，特别是系统功能语言学派，正在开展多模态研究。李战子教授在2003年发表了“多模式话语的社会符号学分析”一文(李战子 2003)。我是读了这篇文章后才接触并开始研究多模态。因此，本文可以视为对李战子教授的汇报。

1. 多模态概念

上面谈到的“多模态”和“人工智能时代”实际上是探讨“人工智能时代的多模态研究”这个概念。它又可分为两点：多模态与人工智能时代。就“多模态”而言，我在“中国知网”曾收集到几篇论文。在讨论多模态时，有的作者把教师在课堂讲课视为单模态。其实，教师讲课早已涉及多模态，如翻阅课文、编写讲义、讲解，以及再用粉笔在黑板上写出要点，之后又在课堂内采用投影仪，在电脑上进行线上会议。那么，多模态究竟是什么概念？究竟起自何时？

在我给同济大学会议开幕式的致辞中，曾介绍复旦大学朱永生教授的观点，其中有三点引起我的思考。现将我发言的原文转录如下：

第一，他[朱永生]20世纪80年代在悉尼大学进修时便和韩礼德先生谈论过他对“body language”(身势语)的兴趣，由于当时永生教授主要任务是学习研究系统功能语法，对身势语的研究始终未能提上日程。第二，他注意到不仅是语言学界，生物学界也研究多模态。“模态”(modality)在生物学理论中指“认知通道”。这个理论可完全适用于语言学研究。第三，永生教授向我介绍了韩礼德的一个观点，韩礼德认为采用“multisemiotic”(多元符号的)的提法比“multimodal”(多模态的)更合适，因为modality的本意指传递信息的通道，如听觉、视觉、味觉、触觉等。

由此可见，多模态既可以指认知通道，如听觉、视觉、味觉、触觉等感觉，也可以指韩礼德的多元符号学，即语言以外的符号，如图画、歌咏、舞蹈等，包括朱永生教授本人感兴趣的身势语。这意味着，每一种信息的来源或者形式，都可以称为某种“模态”(Modality)，因为听觉离不开空气中声音的传播，视觉离不开在眼前出现的具体的事物和背景，味觉离不开实物的气味和食物的口味，触觉离不开身体与其他物体的接触。再者，这些声音、动作或图像所表述的意义必然已在社会群体取得共识，起到符号作用。

2. 多模态的时代性

从上面的讨论引起另一个问题，即“多模态”中的“多”该如何理解? 当然我们可以简单地回答成“多于一个模态”。这时，我发现早在远古时期，即使是原始人类，包括许多高级动物，都已经掌握多模态了。原始人类不仅彼此说话，也会手舞足蹈、唱歌跳舞，更不用说人群交际时完成点头示意、招手迎人、拍手赞同等表示意义的动作。更重要的是除身体器官外，有的社会人群已开始用实物作为表示意义的工具，从结绳记事演变到在石头、木片或竹片上刻记。因此，我们可以把上述情况称为“口述时代的多模态”。

自从人类有了文字以后，不同民族和社会群体可以通过文字记载信息、传递信息。我们还应该看到，新的模态是建立在物质文明有了新的发展的基础上产生的。这就是说，纸张、笔墨和印刷术的发明意味着人类已开始使用新的工具和机器来促进多模态的发展。我们可以把这一时期的多模态称为“读写时代”的多模态。进入18世纪，人类先是通过发明和生产纺织机器，然后又发明制造其他各种器械，从而进入“工业化时代”。这时，社会群体开始使用打印机、照相机、摄影机、电话、收音机、电视机等进行信息交流和保存。对此，我们可以归纳为“机器化时代”或“工业化时代”的多模态。

基于上述情况，我们可以确认，今天谈论的多模态研究，不是工业化时代的，也不是读写时代的，更不是口述时代的，而是这次会议提出的“人工智能时代”的多模态。这样，我们谈论问题时不会各说各的，而是如今网络上广泛讨论的一个概念非常清楚的由“人工智能时代”推动的并为“人工智能时代”服务的多模态。

总之，多模态概念具有时代性。

3. 融合和主体模态

多模态既然是表达意义涉及采用两个或更多的模态，必然要求做到如何将各种模态合理和有效融合。对这方面的研究，学术界有的称为“多模态交互”(Multimodal Interaction)或“多模态融合”(Multimodal Fusion)。具体说，多模态交互就是人通过声音、肢体动作、信息载体(文字、照片、图像、音频、视频等)、环境等多个通道并采用各种智能设备彼此进行交流和信息传承。智能设备融合多维信息后作出对当事人的意图判断，并通过文字、声音、图像、动作等多种方式反馈给有关人员。这是学术界都能认识和接受的，我不在此进一步介绍和讨论。

我要强调的是由于我们要接触多种模态，一定要头脑清楚，在自己利用若干模态进行研究时，需要明确哪一个模态在话语中起到主要作用，即主体模态。譬如说，我准备一个发言稿时，文字稿，即文字模态是主要的；在会议上面对参会人员宣读论文时，口语模态是主要的。从不同学科来说，有关文科内容的学术论文较多地采用文字模态，社会科学的文章有时文字与图表并用，理工科的研究报告除文字和图表外，时有数据佐证(胡壮麟 2011)。

这就是说，为了完成不同任务，我们需要掌握不同工具，如笔墨、词典、书刊、打字机、摄像机、计算机等。我虽然早已不在军事单位工作，我相信不同军事单位和部门，对不同模态会有各自要求，例如，有的单位强调文字信息，有的单位强调武器设计、制造和使用的实体研究。当然军队中也有从事外事、教育、卫生、文艺体育等工作的。总之，如果我们能明确和掌握工作岗位的任务，并结合有关模态的知识和操作能力，会有助于触发思维能力，加快工作进度，提高完成任务质量。我本人近70年前，由于掌握英语和俄语两门外语，熟悉英美报刊，关注外台新闻，在我参军后的第二年，总参二部领导便把我从“翻译”改聘为“参谋”。因为我不仅会文字翻译，还能从外语语篇中获取信息，进行研究分析，向领导及时提供有价值的情报，最后获得“先进工作者”称号。

4. 碎片化

在肯定多模态的融合和主体模态的同时，我想就多模态碎片化(fragmentation)发表一下个人的看法，那就是学术界一般认为碎片化是负面的，但我认为如能妥善处理，负面可以转化为正面，从而推动多模态的研究和应用(胡壮麟 2018)。现分述如下：

(1)学习碎片化。随着电脑、电视机和手机等的陆续问世，一些教师和家长发现，有些孩子和年轻人整天玩电脑、玩手机，未能集中精力学习规定的课程和完成作业。这导致他们学习的“碎片化”，最后被带上“低头族”的帽子。对此，我认为在帮助“低头族”的同时，应当引导低头族灵活掌握学习时间，学习自己感兴趣或有启发的内容。这会提升知识的吸收率。学习者也有机会通过多媒体接触权威的判断，快速验证一些难点和论断，其优点可归纳为信息来源多、信息获取快、学习成本低、学习效果好。

(2)时间碎片化。我们虽然看到年轻人把时间用在玩电脑、玩手机上，也应该看到不少公务员、教师、学生在公交车上翻阅文件或课文，不浪费宝贵的即使是碎片化的时间。

(3)阅读碎片化。碎片化阅读的主要缺陷在于人们不是安心读完整本读物的经典书籍，不是为了获得精神力量、提高文化素养，而是用大段时间阅读网络上“豆瓣博客”“知乎”等平台的各种短小文章。这不利于人文知识的沉淀和系统性逻辑的培育。更有甚者，有的还不是亲自阅读，而是戴上耳机听他人朗读，如“喜马拉雅”“知乎Live”等。这样的阅读效果很差，稍有走神，他人的朗读成了耳边风。但我们也会发现已经出现赞同碎片化的阅读者。他们认为多模态时代碎片化阅读的优势，是将阅读重新送回平时无法进行正常阅读的人群。与旧时代关起门来阅读的情况相比，碎片化阅读可以通过网络、电子邮件、微信等平台互相推荐，共享读书乐趣。同时，整本阅读还是碎片化阅读要考虑阅读的目的和情境。我曾经常向友人和年轻人谈及这样一个故事。钱锺书先生曾经常去北京图书馆借书，然后坐人力车回清华。他不在车上闭目养神，而是开始翻阅所借书籍的目录和参考文献，为回到清华住处后开始正规阅读做好准备。

(4)知识碎片化。从互联网各个渠道的信息，可以看到由学习内容碎片化导致的知识碎片化(knowledge fragmentation)，其缺点是知识零碎，主观片面，可信度低，难以提高阅读者的思维能力。与此同时，我们也可以看到有些学者对碎片化的认识具有正面积极的观点：利用热点事件的报道能促动完善自己的知识框架；学习内容新鲜，能活跃大脑，有利于个性化的形成；能满足社交需求，获得长期回报。

(5)信息碎片化。信息碎片化(information fragmentation)表现在完整信息被各式各样的分类分解为信息片段。其次，不仅仅是媒体，能接触和操作互联网技术的个人均可成为信息的制作者和传播者。再者，信息消耗的是接受者的注意力。他们长期获取碎片化信息会对该领域信息的掌握程度产生错觉，甚至形成错误的思维方式。即使如此，信息碎片化还是具有一定的积极意义，如多元化成本低廉,信息可零存整取，收取信息省事省时间等。因此，我们要懂得既要解构，也要建构；要理解网络世界可以更完整、更直接、更有效地传播。不论是Yahoo，还是Google，以至Facebook，网络世界的信息生产越来越成为一个相互链接的机体，信息传播越来越快捷越精准(谢文 2013)。这就是说，我们应当采用新的方式对数据进行识辨和筛选。

具体建议如下：提升信息判断选择的能力；提升单位时间处理信息的能力；接收和构建不同思维的能力。鉴于本文主要讨论人工智能时代的多模态，我们更需要发展信息聚合工具(比如维基百科、互动百科、百度百科等)，以帮助我们收集信息、分析信息、管理信息。总之，我们应当看到信息技术推进了信息碎片化，也可以预见到信息技术也会推进信息的整合。

(6)媒体传播碎片化。由于互联网的普及和社交网站、微博等技术的应用，整个网络传播模式呈现出“去中心化”和“分裂”的特征，形成网络信息的碎片化传播。即使如此，我们仍应看到媒体传播碎片化的优势。这在于我们在阅读、观看时对各种媒体传播的碎片能进行筛选、组装、解读。同时，也是对各种信息进行流动、碰撞、优化与整合的过程。这可以称为媒介融合(media convergence)(孟浩然 2014)。

5. 多模态与多元智能

学术界一般将感觉、记忆、回忆、思维、语言、行为的整个过程称为智能化过程，它是人的智力和能力的表现(胡壮麟 2019)。1983年，美国发展心理学家Howard Gardner提出“多元智能”(multiple intelligences)理论。他在《思维框架：多元化智能理论》一书中认为传统心理测量学有关智能的观点过于笼统狭窄。事实上，人都具有多种智能，即多元智能(Gardner 1983)。连同2012年的著作，Gardner一共提到九种智能，即词语语言智能(verbal-linguistic intelligence)，逻辑数理智能(logico-mathematical intelligence),视觉空间智能(visual-spatial intelligence),身体运动智能(bodily-kinesthetic intelligence)，音乐音韵智能(musical-rhythmic intelligence)，人际智能(interpersonal intelligence)，内省智能(intrapersonal intelligence),自然智能 (naturalistic intelligence),存在智能(existential intelligence)(Gardner 2012)。可以肯定，在人工智能时代，像逻辑数理智能和自然智能在多模态研究中将受到更大重视，发挥更大作用。正是由于这个原因，我国教育部一再强调跨学科跨专业人才的培养。我去年年初曾写过一篇有关ChatGPT的文章(胡壮麟 2023)，由于我本人在网络上查找信息的能力差，多亏年轻教师帮助，才能完成研写任务。其次，正如我在2018文章中所归纳的，也有人对智能碎片化(intelligence fragmentation)持负面意见，认为人们通过电子器械所获得的信息，既难以消化，也无从辨别，使大脑不能正常发育，智力下降。有的看到网络信息后，第一反应不是去认真思考，而是在自动变速器上储存，或仅仅是外传而已。

那么，Gardner的观点为什么会受到重视？其原因是不同人对不同智能会有不同组合，特别是逻辑数学智能和以读写为主的语文智能两个方面。Gardner(1983)的多元智能理论之所以受到重视，原因在于：(1)有助于形成正确的智力观。我国传统上强调的是“死记硬背” “题海战术”等形式，忽视了不同学科或能力之间在认知活动和方式上的差异；(2)有助于形成正确的评价观。强调对学生理解能力、动手能力、应用能力和创新能力的客观考核；(3)有助于转变原有的学生观。教师应从多方面去了解不同学生的不同特长，并相应地采取适合其特点的智能；(4)有助于形成正确的发展观。学校教育应该开发多种智能的教育，并帮助学生发现适合其智能特点的职业和业余爱好。

6.我与人工智能时代的多模态研究

如上所说，我对人工智能时代的多模态研究发表过一些意见。由于本人在中学时期的数理基础不太强，加上不知不觉如今已成为“90后”老人，已赶不上人工智能代的步伐。也如上所述，当我在2022年12月看到有关聊天机器人ChatGPT的报道时，立刻感到这对外语教育很有参考价值，便建议北大语言所专攻计算语言学的苏琪老师撰文介绍国外有关ChatGPT的理论和研究现状。考虑到我本人是英语教师，因此更关心ChatGPT对外语教学，特别是对英语教学的作用。由于我本人网络检索和应用ChatGPT程序的能力较弱，只能提出20个问题，烦请苏老师让机器人回答。随着研究的深入，我又请中央财经大学李璐瑶老师代我与机器人聊了两次，共20个问题(胡壮麟 2023)。

我向机器人提的问题和聊天的内容涉及以下方面：(1)聊天机器人在外语教学中的应用，如与语音识别引擎的结合，机器人如何模拟自然语言，有关语法和词汇练习的素材如何辅助学生写作；(2)机器人对外语教学管理部门能提供的帮助。这表现在自然语言的处理和生成，智能客户服务和虚拟助手，课程管理和教学评估；(3)机器人对外语教师的帮助。聊天机器人先后谈到四个方面，如资源和教材，口语和写作指导，虚拟教学和互动体验；(4)如何修改学生作业并指出其错误。机器人认为它可以检查学生作业中的语法、拼写、标点符号等语言方面的错误，并提出相应的建议和修改意见。当然，机器人的修改只能作为教师和学生的参考意见；(5)对退休外语教师的指导。机器人提出，退休教师可以作为志愿者对英语学习者进行教学和辅导，开设英语培训班，撰写有关外语教学的文章，参加有关外语教学的研讨会，包括线上会议。

我也就学术界有关ChatGPT的负面意见与机器人进行讨论，特别是学生抄写的弊病。机器人一方面谈到自己的能力有限，不能有把握地解决所有的问题，一方面提出教师可以对学生采取一定的惩罚措施，也要加强与家长的沟通。

除我上述的论文外，我还成为这个栏目的主持人，邀请中青年教师参与研究有关内容的讨论。对上面提到的苏琪老师，要求她对ChatGPT的基本理论进行介绍，我邀请中国人民大学的杨敏教授和杭州师范大学的李颖教授就学术界有关ChatGPT的正负意见分别介绍和讨论，中央财经大学的魏爽、王璐瑶、耿芳、胡健四位老师分别分享了写作和翻译采用ChatGPT教学的成果和经验。

7. 结束语

我的上述观点可归纳成以下几个方面：由于技术的发展，人类文明发展的各个时代都有多模态；我们今天讨论重点应该是人工智能时代的多模态；我们的研究工作不应由于出现的问题，特别是碎片化的问题而倒退，以至否定一切，而是如何发现问题、分析问题、解决问题；我们不应满足于以往的成就，而应尽力宣传和推广新时代的成就，并积极构思多模态的更进一步的发展。针对当今人工智能的多方面的发展，社会上、网络上不时出现否定人工智能的言论。对此，我们应当发挥人的主动性，解决人工智能研究中出现的问题。最后，我们不仅应关注多模态在教学中的应用，更应关注多模态在政治、经济、社会、军事等方面的应用。

（本文首次发表在《当地外语研究》2025年第1期）