卓 今 | 数字人文的文学阐释:情感计算、数字信任及基本实现手段

360影视 日韩动漫 2025-05-01 09:00 2

摘要:湖南省社会科学院文学研究所所长、二级研究员,文学博士,国务院特殊津贴专家。兼任《文艺风》杂志主编。从事文艺理论、文艺批评。出版著作20部(包括编著、译著),主要著作有《残雪评传》《残雪研究》《湖南文学的本土经验与世界性》《乡土文学的时代之变》等。在《文学评论》

本文转自 “湖南师大社科学报”

数字人文的文学阐释:情感计算、

数字信任及基本实现手段

作者简介

卓 今

湖南省社会科学院文学研究所所长、二级研究员,文学博士,国务院特殊津贴专家。兼任《文艺风》杂志主编。从事文艺理论、文艺批评。出版著作20部(包括编著、译著),主要著作有《残雪评传》《残雪研究》《湖南文学的本土经验与世界性》《乡土文学的时代之变》等。在《文学评论》等刊物发表学术论文130余篇(中国知网高被引学者TOP1%)。主持国家社科基金重点课题、一般课题、省部级等各类课题10余项。文章被《新华文摘》《中国社会科学文摘》、人大复印资料等各类刊物转载30余篇次。中国当代文学研究会常务理事,全国马列文艺论著研究会常务理事,湖南省文学评论学会会长,湖南省文艺人才“三百工程”文艺家,湖南省政协第十三届委员。获湖南省哲学社会科学优秀成果二等奖、毛泽东文学奖(理论类)、第一届、第二届湖南文艺评论优秀文章奖等多项奖项。卓今.数字人文的文学阐释:情感计算、数字信任及基本实现手段[J].湖南师范大学社会科学学报,2025,54(02):141-148.

核心提示

数字时代正在改变传统文学研究的资料获取方式和文本感受方式,人们利用数据库、采用“远读方法”研究文学日益普遍。数字人文已经深度介入当代文学批评,但要达到与传统研究方法融合增益,还需要打破情感计算的局限、拓展算法和模型训练、发现美学和艺术表现力以及其背后隐藏的思想价值。文本预处理后存在各种不确定性环节,如何兼顾数字确定性与文学灵动性,需要构建一套方法,如采用情感词典、文学化数据标注员、多模态的“计算诗学”等新的文学研究范式。数字人文与当代文学阐释的深度融合应该有一个任务:在海量的当代文学作品中,AI帮助人类判断哪些是好作品,哪些是值得阅读的作品,与大众判断、批评家判断形成互补。

内容精选

文学阐释在数字人文领域里处于什么位置?或者换一种说法,数字人文与文学阐释的关联度如何?目前关于这个问题的讨论已经从改变认识过渡到建立方法的阶段。从事数字人文研究的文学研究者几乎达成共识:大家应该从恐慌、质疑过渡到如何与数字人文共生共荣。数字人文的文学阐释不等于“量化的文学阐释”,大家认为要排除抵触心理,探索出一套有效的方法,张开双臂拥抱它。数字人文(digital humanities)从一开始就是一个跨学科的存在,文学研究也早已涉足数字人文,文学阐释的史料收集、量化分析、数据应用依赖大数据平台已成为研究者的日常。文学阐释生态也因数字人文发生重大变革,研究对象的扩充、研究思路的拓宽、表达方式的变化正在进行。一个简单的例子,过去做研究,研究者在搜集材料时需要查阅实体书、做卡片等,否则很难把海量文学作品和研究成果纳入研究视野。在数字时代,人们利用数据库、采用“远读方法”②研究文学,但并没有意识到这其实就是数字人文。人们实际上对数字人文有一个更高的期待,期待一种全新的数字技术研究方法和技术手段来解决人文科学领域以前解决不了的问题,比如像人一样的写作、研究、判断作品的优劣等。数字人文的难题是需要跨学科合作,熟悉人文研究的人不懂计算机技术、信息科学,信息科学工作者却对人文领域钻研不深,而数字人文新方法恰恰需要打破学科壁垒。而人的生命有限,真正精通人文科学和信息科学等多个领域的人少之又少,这给数字人文研究提出了挑战。数字人文目前停留在两个概念层面上:一是用数字化手段研究人文,二是人文资源数字化。金观涛认为数字人文就是用电子信息技术来处理人文问题,其应用“在人文研究中的地位比在社会科学中更接近核心”。他偏向对前者的解释。陈静认为:“人文大数据是指基于数字化或者数字生成的,被认为是人文艺术范畴的大规模数据集。”她偏向对后者的解释。斯科特·雷特伯格(Scott Rettberg)将数字人文的文学部分概括为“电子文学”(electronic literature),“电子文学”是用来描述各种形式的数字化的文学实践。他认为:“这些文学实践利用当代计算机的计算特性、多媒体特性和网络特性,产生了与此背景相关的原生数字体验(borndigital experience )和具有叙事性或诗性的作品。”数字人文与当代文学阐释如何深度绑定,还依赖于人文科学与信息科学技术的融合,创造出新理论和新方法。

一、情感计算的局限与拓展

用数字化手段研究人文和人文资源数字化这两种研究都取得了一定的成果。如在数据挖掘上,由多家高校和研究机构合作开发的中国历代人物传记数据库已投入使用。该数据库的技术细节是利用专名识别(named entity recognition)和正则表达式(regular expression)等文本挖掘技术,从文献中提取姓名、地名、官职等关键信息,并构建复杂的关系网络。例如,通过分析人物之间的亲属关系、社交关系等,可以揭示特定历史时期的社会结构和人际网络。数据挖掘算法还可以对文学作品进行风格和情感分析,对文本进行预处理、特征提取、模型构建与训练,自动判别诗词作品的情感特征(如豪放或婉约)。又如在数据映射方面的探索,斯坦福大学的“空间历史项目”(spatial history project),利用地理信息系统(GIS)技术将历史数据进行可视化。人们看到的动态朝代更迭和版图变化图像这种数字人文技术,就是将历史文献、地图、统计数据等多种来源的数据整合在一起,为研究者提供直接观察历史时空分布和演变的工具。还有超文本化、信息检索、可视化等技术都已经广泛应用。数字人文显然不会止步于现有文件处理方法和数字化,研究者还在探索更多具有挑战性的项目。“技术写作”与“游戏研究”以文学文本为“体”,以游戏技术为“用”,经过多年积累取得突破性成绩的《黑神话:悟空》,就是典型的“体用结合”的成功案例。湖南博物院与中国数字图书馆创作的“生命艺术——马王堆汉代文化沉浸式数字大展”,运用最新多媒体技术,演绎马王堆汉代文化背后的生活细节,参观者可以沉浸式体验马王堆汉代文化的学术研究和整理修复成果。

数字人文中的文学阐释,只是很小的领域,具体到当代文学阐释,其实是更小的切口。数字人文的文学创作走在前列,如生成性文学文本(诗歌、小说、戏剧、电影等),还有数据库叙事、场景叙事等。然而,在数字环境中创造新形式的文学阐释实验目前不在探索之中。除了古代文学采用文本的分类和聚类算法、特征提取等方法获得一些确切的数据以外,数字人文与当代文学阐释面临以下疑问:第一,数字人文能够为当代文学提供什么样的帮助?当代文学批评和阐释是一个未成型的动态化过程,它不像古代文学和现代文学,有现成的文献资料。一本新作出版后,由于学术期刊和研究著作的周期问题,要积累一定年限才有相应的研究资料进入大数据。第二,用数字人文的方法思考文学阐释的哪些领域?文学文本涉及句法词法、叙事方式、文本结构、意义价值、艺术表现力、情感构成等,数字人文技术能够胜任那些领域?第三,用数字人文的方法去思考解决文学阐释什么层面的问题,技术层面还是观念层面?从目前的情况来看还停留在技术层面。第四,数字人文技术对文学阐释的学术价值和文学理论研究的意义有哪些突破?人工智能大语言模型擅长概括、综合、总结,人们试图让AI从事文学艺术工作,它也能写论文或搞创作。有人做过试验,把AI的诗与秦观的诗放在一起,考验有一定文学修养的人,很多人表示难辨真假。创作是情感和思想的表达,著名AI诗人小冰,它写诗是不是也属于情感和思想的表达?面对人类提出的写作要求,它会在语料库里抓取符合要素的词拼凑成作品。它的诗集《阳光失了玻璃窗》,其中一些诗似乎具有人的情感,让人莫名感动,如“树影压在秋天的报纸上/中间隔着一片梦幻的海洋/我凝视着一池湖水的天空/我们来到这个世界”扉页。但有一些诗就是奇怪词语的随机组合,如“你惊破了敌人的高山湍流的无尽的污辱/我只有美丽的人物”,这显然不是经验性的“有感而发”,而是大数据的算法处理,因此缺乏思想逻辑和情感表现力。可见,AI写诗的底层逻辑是建立在超大语料库之上的。人类的诗歌创作,有时候就是感上心头,随手写来。诗词的本质是用极少的词表现极大的信息,表面看起来是一堆无关联的词,如“古道“西风”“瘦马”,三个物象组合在一起就有萧瑟凄凉之感,与“断肠人在天涯”形成比兴手法,有很强的情感力量。AI写诗是在强大的语料库基础上,进行数据预处理,包括去除噪声、分词、标注词性、分析句法等。然后是自然语言处理(NLP)环节,即将人类语言转化为计算机可以理解的形式,NLP技术用于解析诗歌文本,提取关键信息,如词语、句式、韵律等。机器学习算法是关键,机器从大量的诗歌数据中学习到诗歌的语言规律和风格特点,通过算法识别诗歌的模式,如押韵、对仗、排比等修辞手法,以及诗歌的主题、情感等,然后生成、评估和优化模型。诗歌的抒情本质是以情动人,不是以事感人,也是不以理服人。写作主体是无情之“人”,偶尔也能写出有情之诗,也是因为模型来自有情之人类。说到底,AI写诗是一种概括总结的方法和路径。

AI写诗的路径是否可以用于文学评论?AI基于深度学习的自然语言处理技术和文本生成能力,足以生成连贯、有逻辑的批评文本。文学评论需要对文学作品进行深入分析,涉及对情节、人物、主题、风格等多个方面的研判,要求评论者具备以下几方面的素养:一是有大量文学知识积累,对文学的优劣有基本的判断,知道什么是经典之作,什么是平庸之作。二是有较高的文学素养,有发现文本中的隐喻、暗示、春秋笔法的能力,所谓“草蛇灰线,伏脉千里”,能感受到文学的魅力。三是有批判性思维能力,能对作品进行价值和意义的提取。AI可以生成简单的文学评论,包括对基本情节、人物关系的点评,但对更深入的文学分析,如作品的象征意义、作者的写作风格、作品的社会文化背景、作品的美学意义和社会价值等,目前还难以达到人类评论者的水平。AI进行文学评论存在明显的局限性:一是用技术手段弥补情感体验和主观感受,失去了文学评论中最关键的部分。二是AI难以理解文学作品中的隐喻、象征等复杂修辞手法,以及这些手法背后的深层含义。三是对文学作品中特定的文化背景和知识的理解仅仅停留在字面意义上。四是最关键的,AI可能分不出作品的高下优劣,区别不了优秀作品和平庸作品。

二、数字信任与另一种不确定性

文献资料助手与工业机械臂的人工智能制造原理相同,它有准确、严谨的一面,这使它在人类中获得一种信任。AI在调动资源、掌握信息等方面远远超过人类。如果AI拥有平台赋予的阐释权,它甚至可以影响人类的决策。在泥沙俱下、良莠不齐的海量信息中,人们不禁担心,当AI不加区分地获取信息,“有用”显然不能作为唯一的标尺,AI在价值判断上的缺陷可能会造成不可想象的后果。

在当代文学研究中,人的数据库和机器数据库是有区别的。假定有一位AI批评家,它的数据库远远大于一位人类批评家。AI批评家完全有能力通读世界上所有的文学作品,以及所有文学研究论文,但当它面对一个新文本时,会依据什么作出判断?蒂姆·米勒认为回答“为什么”时依据四个要素,即质料、形式、动力、目的。他以汽车轮胎为例,解释道:“(1)质料:构成某事物的物质或材料。例如,橡胶是汽车轮胎的质料因。(2)形式:使事物成为该事物的形式或属性。例如,圆形是汽车轮胎的一个形式因。这些有时被也称为类别解释。(3)动力:引起事物变化的近端机制。例如,轮胎制造商是汽车轮胎的一个动力因。这些有时被称为机制解释。(4)目的:事物的结局或目标。如车辆移动是汽车轮胎的目的因。这些有时被称为功能性解释或目的论解释。”他同时强调,在完成解释任务和构建解释层次时,质料因在硬件层面,推导了某些计算;形式因决定分类本身;动力因决定了如何检测特征等概念;目的因决定了为什么要执行该算法,或者也许根本就没有执行的原因。这也是算法取得信任的逻辑基础。

文学阐释最大的特征是不确定性:一是作品的明喻、暗喻导致文本指向的不确定性;二是接受者获得作品信息多少导致的对文本认识上的不确定性;三是时代的精神性指向导致价值的不确定性;四是字面意义的多义性导致文字信息量的不确定性;五是艺术手法的深浅导致艺术表现力的不确定性。各种不确定性还可以无限延长,如意义派生的不确定性、价值赋能的不确定性、文化宗教背景的不确定性等。但文学文本给阐释者的确定性也是存在的。第一是质料的确定性。“白纸黑字”的文学文本提供了相对稳定和可解读的基础。文学文本所创造的基本内容是明确固定的,一切感受和思考都是基于文本的客观内容进行的,这种明确性使得读者能够普遍理解和接受文本所传达的信息和情感。文学文本中的文字符号具有相对完整的规定性,且保持着较长时期的稳定性。这种稳定性使得文本能够在不同的时间和空间中保持其意义的一致性。第二是人类情感的通约性和社会公约的确定性使接受者达到相似的感情波动和审美体验。尽管在文学阐释过程中存在主观性和多样性,但不同读者在解读同一文本时往往能够达到一定程度的一致性。这种一致性体现在对文本基本内容、人物形象、情节发展等方面的共同理解上。比如哈姆雷特既机智勇敢又优柔寡断,既英雄主义又忧郁孤僻,他的复杂矛盾的性格使得“一千个读者有一千个哈姆雷特”,但哈姆雷特终究是一个人文主义者形象,这一点上是确定的。读者在解读文学文本时,是以文本中提供的具体形象为依据进行合理的想象和再创造,因此人们不会把哈姆雷特想象成粗人张飞。第三是文学语言的稳定性。由文学语言构造的艺术世界,正如维特根斯坦在《逻辑哲学论》中所说,“可以言说的东西都可清楚地加以言说;而对于不可谈论的东西,人们必须以沉默待之”序言。文学文本的内指性使得文学语言不必完全符合现实生活的逻辑,而只需要与艺术世界的氛围相统一即可。语言的稳定性以及文学文本的确定性使“世界是一个有界限的整体”。作家通过语言使文本蕴含了丰富的知觉、情感、想象等心理体验,这种心理蕴含性也是文学文本确定性的一种表现。第四是文学形象的确定性。文学形象是作家主观创造的产物,但同时也是客观物象的曲折反映,是主客观统一后的新的“生命模拟”。文学作品中的人物形象既具有鲜明的个性色彩,又具有普遍的社会性。文学人物形象的真实与虚拟更能映照生活现实、概括生活本质,唤起读者对人生的联想和共鸣。第五是文本结构的规律性。文学的各种体裁都在动态变化中维持相对稳定性,比如小说的线状、网状、散点透视都是以故事为中心,诗歌的跳跃性、凝练性、分节分行等,都是有规律可循的。文学文本的规律性和确定性能够保证AI写出大致过得去的文学评论。

数字信任是相对人的不确定性而言的。AI要取得信任,在回答问题时仍然需要依靠数据库的材料,就像人在作出有效判断时也要依靠自身的经验和知识。但依靠材料之前,数据标注员需要给每一个文学词性贴上标签,将其分成大类和细类。文学词汇的数字标注最大的难度是叙事分析而不是情感分析。抛开模式化叙事,每一个独特文本的创新叙事都找不到通约性。因此,数字人文用于当代文学阐释需要做到以下三点:

一是对象专门化。数字确定性与文学灵动性是一对矛盾,数字人文如何兼顾“量化”和“心灵直觉”?量化作为文学研究方法的一种,目前仍然在探索之中。文学计算方法显然不能完全抛弃传统文学理论,但与传统方法相比应该有很大区别,它面临两种创新:一是数字人文的文学阐释新旧结合需要创建新方法,因为当前还没有属于文学的专门计算技术,计算方法大多借用其他领域的方法。二是数字人文的文学学科自身的理论和方法的拓展。例如电商平台的数据标注员标注带有感情倾向的词,是为了分析用户对产品的好恶。商品评论和社交媒体开发的情感计算,迁移到文学评论中,可以做一些简单的评论,但深度的、系统的评论就难以完成。

二是学科专门化。数字与人文的跨学科学整合都是人文学者倡导的,但人文学者自身对数字技术比较陌生,对数字领域的数据和资料了解不深。理工科研究者对人文领域关注甚少,他们把主要精力投入做算法建构的基础研究和实践应用。作为美国科学家兼狂热的莎士比亚爱好者的门登霍尔,使用特制计数器和统计方法绘制了莎士比亚作品中的单词长度特征曲线图,区分莎士比亚与培根的写作风格,从而证实培根并不是莎士比亚。这件事发生在100多年前,可以算是最早采用数字人文研究方法的案例。这个例子表明,最终解决问题还是需要数字领域的专家出手,但同时也需要有充满人文主义热情的数字专家关注文学。

三是标注专业化。采用什么样的手段多视角全方位地扫视文学要素?数字标注即使将每个词、句的情感边界标注清楚,但将这些词、句放在不同的语境中,又会产生新的意义,因此,即使依照情感词典的通用算法也无法辨别词、句在语境中的真正意思。这是叙事与情感的深度联动构成的深沟高墙。因此,基于文学文本的情感词典语料库建设就变得非常有必要。目前,通用算法的情感词汇来源于购物网站、社交平台,情感倾向鲜明直白,“好”“坏”就是字面意义。而在文学词汇中,一个女孩对她的男友说“你个坏蛋”,多半是撒娇,是一种曲折的表扬方式;当某人带有怨气地说“好啊”时,真正的意思可能是“糟透了”,但这股怨气有可能是特定语境,也有可能是文本的整体行文带出来的。这种微妙多变的感情词汇,AI算法难以判断。数据标注员在给词性做标注时按照正面、负面或褒义、贬义来标注,就算字面意义是准确的,讽刺、暗示、隐喻等修辞手法也仍然难以识别。专业评论家对某一具体的文学修辞尚且存在争议,若是直接标注定性,文学作品的解读将陷入僵死的境地。使用模型的人并不了解模型的内部机制,给AI投喂一个文本,输出指令,有可能得到一个荒谬的结果。数字人文跨学科背景的研究者建议“构建专用的情感词典”。即使建立了专门情感词典,文学算法的数据标注员也需要有理解和解释词典的能力,其中文学修养或者专业学科背景是必备的素质。

文学研究将文本的文学性作为重要的考察任务,在保证文学性的前提下挖掘文本的内在意义和艺术价值。目前的算法构建重点关注文本的质料,即作为“物”可以量化的文本要素,而不是语言符号背后的精神性的东西。这种转变使得文学阐释不得不跨学科、跨介质。数字人文可能会使文学研究思路发生转变,将阐释的部分任务分拨给计算。大数据处理和算法分析等手段提升了文学研究的效率,而传统文学研究仍需花费大量时间和精力进行文献搜集和整理。数字人文则意味着利用数据库和互联网资源快速获取所需资料,并通过大模型高效处理和分析资料。文学阐释需要依赖阐释者的主观判断,涉及阐释主体的经验、学识、判断力,而数字人文则通过量化分析和可视化表达,为文学研究提供了更为客观和理性的依据。传统的文学研究方法多以纯文字的方式呈现,数字人文强调可视化表达,以图形、图像等形式将研究结果直观地呈现出来。数字人文使文学研究的方法变得更为丰富,成果传播效率更高。例如热力图能通过量化手段解释复杂结构和隐含的深义,比纯文字的综述更直观、更有说服力。以文学IP为例,数字人文技术为文学IP的创意开发提供了强有力的支持。通过大数据分析、文本挖掘、情感分析等手段,研究者可以深入挖掘文学作品的潜在价值,发现新的创意点,为文学IP的衍生创作提供灵感和方向。数字人文技术帮助文学IP衍生的电影或电视剧制作者,分析原著中的人物关系、情节走向、情感变化等,从而更准确地把握原著的精髓。数字人文在文学IP的传播与接受过程中虚拟、泛化周边产品,通过社交媒体分析网络舆情,实时监测文学IP的传播效果,了解受众的反馈和需求,为文学IP持续优化提供数据支持。

三、人工智能文学阐释的基本实现手段

“计算诗学”采用大数据算法和大语言模型研究文学,形成了一整套方法和观念的专门范式,可以说,“计算诗学”即将成为文学研究的重要分支。“计算诗学”的研究范式包括以下内容:第一,文学的机器分类。利用计算机算法对文学进行分类,识别不同风格、主题的文学作品。第二,文学类型的计算机辅助归纳。采用数据分析手段,辅助归纳和总结文学类型的特征。第三,文学知识的计算机辅助发现。利用计算机技术发现和挖掘文学文本中的话语、叙事、结构等。第四,文学创作的计算机辅助系统开发。开发能够辅助或自动生成文学作品的计算机系统。第五,文学用词、用语的统计。对文学文本中的词汇使用情况进行统计分析,揭示词汇使用的规律和特点。第六,文学语料库和文献库的建设。构建大规模的文学语料库和文献库,为文学研究提供数据支持。“计算诗学”更重要的“职责”应该是开发计算机系统的文学欣赏、理解和创作能力,即开发能够理解文学深层含义和情感色彩的算法系统;设计能够实现文学自动创作和批评的软件系统;扩展到与文学紧密相关的影视、歌曲、游戏等领域。由于文学语言的独特性和复杂性,“计算诗学”在理解文学的深层含义、独立创作文学作品等方面形成自己独特的方法和路径,是其以后发展的关键所在。

“计算诗学”的形成需要信息科学、认知科学、美学、语言学和伦理学多学科合作。维特根斯坦在《逻辑哲学论》中强调:“只有在存在着某种可以言说的东西的地方才可能存在着答案。”他同时又指出:“伦理学是不可言说的。伦理学是先验的(伦理学和美学是一个东西)。”徐英瑾认为维特根斯坦在这里实际上牵涉到三个话题:“对于世界的形而上学构建,对于这个形而上学世界的语言表征,以及对于那些不可被表征事项的‘沉默权’。”将这三个话题高度概括后,可以对应人工智能科学“知识表征”任务的三个环节:“第一,对于被表征对象的形而上学领悟;第二,对于知识表征的技术手段(特别是逻辑技术手段)的选择问题;第三,(在选定一个特定的表征手段的前提下)对于知识表征范围的可能性边界的划定问题。”但人工智能应用于文学的难题,目前还需要形而下的技术手段的突破。

数字阐释与传统的文本细读、经验和知觉不同,它是一种全新的研究视角和思维方式。实现数字阐释的步骤,关键要创造一套基础的算法源代码。数据标注员在文本预处理阶段对文学文本进行分类标注,进入模型训练后形成算法。人工智能的数据采集阶段需要大量密集的人工,从事数据采集的工作人员就是数据标注员。数据标注员的工作是一种简单劳动,即在电脑上进行数据分类,俗称“拉框”,他们自嘲为“赛博螺丝工”,对外则号称“人工智能设计师”。数据标注员每48秒完成一个拉框标注,这是指普通数据标注,诸如将小汽车、树、行人等拉框后进行标注,跟工厂打螺丝一样,需要又快又准。如果输入的数据质量不高,算法就会受影响。智能驾驶的算法是在大量的数据标注上实现的,它需要对海量图片进行模型训练。数据标注也可以升级迭代,比如由机器完成一部分,或由机器和人协作形成数据闭环。但涉及人类情感的标注,需要人工复核。算法是否基于因果关系得出判断,这对文学阐释来说是一个难题。数字化的文学阐释质量取决于数据标注员的文学素养。普通的数据标注员“拉框”不受认知偏差的影响,一辆小汽车、一个行人在所有人的眼里都是确定的。而文学化的数据标注,尤其是对于文学修辞的认定,每个人有不同的判断,文学数据标注员很难达成共识。同一文本综合多位标注员的标注结果,仍然有被误读的风险,因为文学阐释的是非对错没有裁判。

人工智能文本预处理是自然语言处理(NLP)中的一个重要环节,目的是将原始文本数据转换为适合机器学习算法处理的形式,用来提高模型的性能和准确性。第一步是文本清洗,去除无关字符,移除文本中的标点符号、特殊符号、HTML(超文本标记语言)标签等,从而减少对文本分析的干扰。文学文本的预处理需要更精细、更特殊的方法,去除停用词是为了减少文本的冗余,提高处理效率。停用词是指在文本中频繁出现但对文本贡献较小的词,在文本中看起来有些多余却起着关键作用的词,比如“的”“是”“在”等。例如,在“的卢马”“此在”中,如果把“的”“在”当冗余一键删除,就会失去关键信息。去除多余的空格、纠正拼写错误等,都不需要特殊对待。在文本标准化环节,词干提取和词形还原降低了词汇的复杂度,文学的丰富性也就大打折扣。基于各种功能的分词(如基于规则、统计、机器学习、词向量等的分词)、特征提取与文本向量化,以及将句子拆分成单词等,都是从逻辑底层进行分类细化,便于机器识别,提升模型的性能和准确性。经过特征量构建、程序编写,以及后期的数据分析、可视化、结论审视,文学的数字化阐释还有崎岖复杂的路要走。目前对电商评论的标注类似于分析文学作品,数据标注员先对买家评论进行标注,然后进行机器学习和大数据处理。例如,某位毛毯买家给出一段评论,数据标注员首先确认这段评论是正面的还是负面的,再分析主体和情感表达的词汇,将“毛毯”确立为主体,再将相应的情感词如舒适、温暖、柔软等抽取出来,多个正面词与一个实体关联后,形成一个关系网。可见,电商平台的情感标注简单易懂、易操作。分析文学作品,首先要确立一个主体,但不同侧面的评价,主体不一样。这就给标注员提出挑战,越是丰富复杂的作品,主体与关联词就越多,关系网就越密。其次需要给每个主体建立关联,有时主体与关联词是可以互换的。在某一批次的标注中,A词作为主体,B词作为关联词;而在另一批次的标注中,B词变成主体,A词并不作为B词的关联词,而是其他主体的关联词。如对鲁迅的作品进行关联,鲁迅是主体,《祝福》《故乡》等作品作为关联词;在讨论祥林嫂或闰土时,鲁迅作为人物原型在作品中出现的情况,又被作为祥林嫂或闰土的关联词。文学作品无法简单地标注正面还是负面,在进行分类时只能采用文学的方式,如沉郁型、浪漫型、激越型等,没有对错,只有风格差异。蒂姆·米勒对数字人文的解释(阐释)提出一套判断标准:“一是解释是对比性的,二是解释是经过选择的(以有偏见的方式),三是概率可能并不重要,四是解释是社会性的。”蒂姆·米勒根据以上四点,继续解释,“我由此断言,如果我们要构建真正可解释的人工智能,特别是能够提供解释的智能系统,那么这几点在许多应用中都是必不可少的”。依据蒂姆·米勒的说法,数字人文的标注员不是单纯的“赛博螺丝工”,他们还是文学评论设计师,主导文学评论的走向。马丁·保罗·伊夫有一个结构性文本映射实验,他将《战争与和平》的人物和事件通过算法进行术语聚类,认为对于任何给定的单词,可以计算它与其他文本中单词的相似度,然后对结果进行排序,最后得到“战争在左边、和平在右边、历史在顶部”的直观结果。数字人文的文学研究正朝着对文学文本背后的深层意义进行空间与可视转换的方向前进,但这种穿越文本的研究仍然依赖数据标注员的技术能力。

经过数字人文训练和熏陶后,文学研究者可能会自动将自己的感悟、知觉进行编码,将自己的本能、直觉和最新鲜的感受作为一种艺术发散力,同时又用数字人文技术对无边的想象进行严谨的逻辑和量化规训,或者干脆自己动手做标注员、训练模型。

结语

人工智能在当代文学研究中很重要,但作为一个文科背景的人文学者,无力解决技术领域的问题。数字人文与当代文学研究的深度融合应该有一个任务,即在海量的作品中,AI帮助人类判断哪些是好作品,哪些作品值得阅读,能做到这一点,就是一大进步。传统的文学评论,一是依赖大众判断,二是依赖专业判断(批评家判断)。如果基于大数据的数字人文接管了传统文学评论的一部分判断任务,那么,数字信任又往前推进了一步。数字人文对文学阐释中的“主观判断不证自明”“精英霸权主义”等观点有一定的抑制作用,但它的负面因素也不可忽视。如果把数字人文奉为严谨的科学,个人的观点只是偶然的,人类也将失去话语权,沦为机器的附庸。什么是好的数字人文,作为方法的数字人文,应该建立一套新的方法,开创新的思维。人们都在积极地寻找方法,抛弃过去的争论,不再讨论数字人文对于文学研究的角色问题(如取代传统文学方法还是增益文学研究方法等方面的争论)。无论“以今律古”还是“以古刑今”,都是认识论阶段的必然环节,跨越了这个认识过程,建构方法才是正确的研究途径。在各行各业都进入大数据驱动模式的环境下,数字人文的文学研究需要产生新的叙事、新的知识和观点,以及新的文学研究的可能性。

数字人文在文学性、审美性方面是否能做到理论意义上的大发现,不得而知。但数字人文在方法上有人所不能及的地方,比如,统计孙悟空到底打了多少妖怪,用数据检索即可得出可靠的结论。大容量、高密度的文学评论能够适应时代变化和社会需求,那么,数字人文的文学阐释面临哪些新问题和新挑战?总结起来有以下几点,一是技术应用的挑战。技术工具的局限性导致无法完全捕捉到文学作品的深层内涵。二是人文情怀与个性丧失的挑战。由于数字人文研究强调量化分析和数据驱动,文学阐释中的人文情怀和个性逐渐淡化,从而忽视了对文学作品本身的审美体验和感悟。三是批评范式转变挑战。数字时代的文学明显呈现游戏转向和媒介融合特点,传统的文学阐释范式可能难以适应这种变化。例如,传统的文学阐释往往侧重于文本分析和作者意图解读,而数字时代的文学阐释可能更多地关注读者互动、社群反馈和跨媒介传播等方面。人工智能已经深度融入文学研究的方方面面,构建数字人文的新阐释范式、提升数字人文理论化水平,是提升文学研究的重要方面。

本文刊发于《湖南师范大学社会科学学报》2025年第2期文学栏目。参考文献从略。

来源:再建巴别塔

相关推荐