从工具到艺术：AI合成有声读物有声语言的人文价值

摘要：当技术的突破使AI语音生成具有了一定的类人的主体性，AI合成有声读物有声语言将涌现新的艺术风格，间接显现人类的语言能力和感情能力，具有与真人播讲相近的人文价值。

作者：许成龙（中国传媒大学播音主持艺术学院博士研究生）

来源：《青年记者》2024年第12期

导读：

当技术的突破使AI语音生成具有了一定的类人的主体性，AI合成有声读物有声语言将涌现新的艺术风格，间接显现人类的语言能力和感情能力，具有与真人播讲相近的人文价值。

一、引言

有声读物有声语言，是读物文本类型在具体“听书”场景中的表征，是用户消费有声读物产品时诉诸听觉感官的核心内容和形式。AI语音合成技术以声音语言为主要内容的特性及成本低和效率高的优势，使其在有声读物内容生产领域的应用具有了融合的可能性和发展的广阔性。

“有声读物有声语言艺术”“有声读物播讲艺术”“有声读物演播艺术”这三个概念既有共性又有个性，目前在实践或理论研究层面的界定都没有形成定论和共识，特别是“播讲”和“演播”二词常存在混用的情况。汪良在《小说播讲艺术》一书中将广播电台以小说为文本依据的有稿播音用“播讲”一词来表述，与作为表演艺术评书中“说”和“表演”的创作表述方式形成区别。此外，作者两次使用“演播”一词，均与评书作品连用。[1]罗莉在《文艺作品演播》一书中对“文艺作品演播”进行了界定，她认为文学作品演播是“指利用艺术语言表达的各种手段将文艺作品的文字语言变为有声语言，艺术地体现或再现出来，通过广播电视发射传达给受众的创作活动”，“指诗歌、散文、寓言、童话的朗诵，小说和广播剧的演播以及影视配音”[2]。这一定义使得“演播”中的“演”字——特别是把广播剧的演播和影视配音也纳入了文学作品演播的范围——具有了用声音“表演”或“扮演”的意味。孔亮在《中国演播艺术发展研究》中对“演”“播”二字作了独到的解读，他认为“播”的目的更多指向叙述故事情节，把“演”字理解为“塑造人物形象”。在假设“演”“播”二者并列关系的前提下，他顺理成章地给“演播”下了这样的定义：“在大众传播媒介中通过有声语言塑造人物形象、叙述故事情节。”[3]王明军在谈及评书时提道，“演”不是表演，它的本质意义是“源远流长”，是“演讲”的演，“是一个人的全面而丰富的阐述，是转述，是讲故事”[4]。实际上，我们可以弱化“表演”中“故意装出某种样子”的义项，强化“把情节或技艺表现出来”的义项，将“演播”一词中的“演”字理解为“演绎”，既体现了从文字语言到有声语言的转化这一表现形式，也包含了一种带有戏剧性质的播讲形式。综上，从包含与被包含的关系以及使用范围来看，本文认为：有声语言艺术>播讲艺术>演播艺术。有声读物有声语言艺术是创作者在话筒前进行的将体例上成书的文字作品从文字语言向有声语言的跨媒介转化，需要创作者的独立思考、创意表达和艺术处理，以强化原作既有的文学价值，并赋予原作听觉上的审美价值。

目前，关于有声读物有声语言艺术的研究主要集中在艺术创作现状、创新路径、评价体系以及演播艺术发展史等方面。也有学者将研究视角聚焦于儿童有声读物在激发阅读兴趣、愉悦身心和培养语言能力等方面的应用价值[5]。AI合成的有声语言打破了个体有声语言艺术的灵韵、丧失了口语的原真性等观点，也可见于以专业主义或技术悲观主义视角进行的相关研究，这对大行其道的强计算主义作了人文主义视角的纠偏，强化了技术的艺术向度。

本研究中AI合成有声读物有声语言的人文价值是指有声语言（价值客体）对于用户（价值主体）的意义，包括实用价值、审美价值、艺术价值等有利于人和人类社会发展的价值，在此要与经济价值相区别。AI合成有声读物有声语言的人文价值是其用户需求的函项，有其客观基础。用户现实的需要、期望和理想是技术构思的动力，技术构思的现实落地又激发着用户新的需要、期望和理想。本文在用户需要与技术力量的对立统一中考察AI合成有声读物有声语言人文价值的转向。每个层级的核心人文价值在进化链条上排成一个由低级到高级的发展序列，高级的人文价值要以低级的人文价值为载体并通过低级的人文价值得以实现。本文从AI合成有声读物用户的需要出发，基于AI语音合成技术的现实力量和潜在可能性，归纳并推测AI语音合成技术在有声读物领域应用的三个层级，并挖掘各层级的核心价值（如图1）。

图1 AI语音合成技术在有声读物领域的三个层级

二、“符号转化”层级：工具价值的彰显

（一）用户需求：打破视觉限制，变“看书”为“听书”。首先，有声书可以满足语言学习的需要。比如外语教材配套的有声书多由发音纯正的人士录制，可以为语言学习者提供外语听说训练的鲜活材料。其次，有声读物也是助力视障人士文化事业的有力抓手。有声读物可帮助视障人士将阅读活动诉诸听觉，以此来化解视觉障碍与阅读需要之间的矛盾。尤其是对于尚未掌握盲文的盲人来说，有声读物是他们不可替代的学习和交流工具，是他们获取知识和信息的主要载体之一。据了解，世界上推出的第一部有声读物就是在1934年由美国国会推出的《语言教学唱片》，到了20世纪60年代，美国相关人士将文字朗读并录制成磁带，以满足视障人士和伤残官兵的阅读需要[6]。最后，有声读物也可满足普通用户伴随性阅读的需要。“以声符传播为主的有声读物对专注力要求较低，因此在使用时可以同时进行其他活动，赋予用户更多的灵活性与应变能力。”[7]

通过AI语音合成技术，用户可以将读物文本输入程序后生成对应的声音文本，这使视障人士等用户可以自主选择并生成自己感兴趣的读物，通过听觉接受文字知识的传播，共享文明的成果。当然，初级语音合成技术无法呈现口语丰富而多变的语调和语气等听觉要素，也就无缘应用于语言学习类有声书的制作。

（二）技术特点：具有浓重的“机械音”“电子音”。早期语音合成技术尚处于机械式、电子式语音合成阶段。基于规则的语音合成，需要编写大量的语音规则，并将它们与声学模型结合在一起，实现对文本的语音转换。基于拼接的语音合成方法，利用数据库中录制的真实语音片段，通过拼接的方式生成语音，提高了语音合成的质量，但生成的语音存在音色单一、停连处理不合逻辑、语气呆板、缺少感情色彩等问题，具有浓重的“机械音”“电子音”。

这样的语音合成技术被广泛应用于语音提示、电子书朗读、客服等领域，其不自然的“机械音”饱受诟病。例如，在语流中一个音节受到邻近音节的影响而发生语音上的变化（即语流音变），无法通过机械拼接方式在合成语音中呈现。这使得像把“老子”（指道家学派创始人，“子”为第三声）读成“老子”（指父亲，“子”为轻声音节）的错误频频出现。

（三）核心价值：具有“文字转声音”的实用性的工具价值。语音合成技术在早期有声读物领域应用的重要功能——将文字语言符号转化为声音语言符号——凸显了语音合成有声读物有声语言的工具性实用价值。它为视障人士提供了除盲文之外的另一种阅读方式，这是他们认识世界、学习知识的重要方式。搭载语音合成技术的有声读物降低了有声读物的制作成本，提高了有声读物的制作效率，为视障人士的阅读提供了更多的选择性和便利性，充分彰显了对特殊群体的人文关怀。

符号转化，只是在形式上作了符号体系层面的机械转化，其文本价值主导着AI合成有声读物的价值。人类有声语言可通过音色、语气、重音、停顿、连接、气息等形式表达文本内容规定的语言逻辑和感情体验。囿于技术力量，符号转化阶段的人工合成有声读物有声语言无法体现人类有声语言在听觉层面的逻辑性和感染力，遑论人类有声语言的艺术性。这一阶段语音合成的有声读物有声语言无法像真人一样“读书”，具有浓重的“机械音”，还“不像人”。这意味着，用户主要根据文本内容来评价有声读物的质量，意即有声读物的评价体系中作者创作的文本内容成为主要的评价内容。

三、“艺术复刻”层级：真人播讲的模仿

（一）用户需求：打破呆板语音，从“机械音”到“模仿人类语气”。上海智臻智能网络科技股份有限公司董事长兼首席执行官袁辉在博鳌亚洲论坛2021年年会“后疫情时代的人工智能”论坛环节表示：“人类对人工智能的期望远远超越了一个工具的范畴。”同样，一部分用户不会仅仅满足于具有“机械音”色彩的合成语音，而是对AI合成的有声读物有声语言抱有超越工具性的期待：AI合成有声读物有声语言要对标真人录制的有声读物有声语言。简言之，AI合成有声读物有声语言要“像人”一样——这正暗合了人们对人工智能的期待甚至是幻想。

除了视障人士和语言学习者之外，越来越多的人开始享受这种伴随式的阅读方式和诉诸听觉的语言艺术。用户对AI合成有声读物有声语言需要的满足是遵从辩证法规律的，它不仅不会完全抛弃原有的“符号转化”层级的需要，还要以满足“符号转化”层级的需要为载体实现新的需要的满足。用户期待着能够“改变语言的意思和方向”“增减文字语言的感情色彩”“伸缩文字语言的美学尺度”[8]的AI合成有声语言。在有声读物市场持续增长的情况下，部分科技公司敏锐地将AI语音合成技术运用于有声读物有声语言生产。例如，2023年苹果公司在其阅读软件“Books”中使用人工智能和语音合成技术推出了多部有声读物，被描述为“模仿人类语气的数字语音朗读”。

（二）技术特点：合成语音兼具“表意”和“表情”的类人声音特性。AI语音合成技术正处于基于计算机和深度学习的语音合成阶段。在统计建模的基础上，基于深度学习的语音合成技术采用了高级算法，可以从大量数据中自动学习声音波形的特征，并以此生成高质量的语音。例如，Google在2016年发布了WaveNet模型，可以生成非常自然、逼真的语音效果；英国的Sonantic推出了“世界上第一个会哭的AI”Faith。虽然目前AI生成的有声语言依旧存在着“机械音”，但是在通过语气、语速等形式表达情绪、情感方面比以往已经有了质的飞跃。

AI语音合成技术要以真人录音为深度学习的对象和模板生成的基础。以Sonantic为例，公司邀请配音演员进行声音录制，然后AI通过学习这些录音的声音特点进而将每位配音演员的声音转化为可供使用的声音模板。Sonantic为用户输入的文本预设了音色、情绪等多种选项，每个选项又有低中高三个级别。用户还可以对具体声音片段进行语速、语调、情感等方面的调整和编辑，以适应不同场景、不同感情的角色声音的需要。

“同样一句话，在不同的文本、不同的语言环境、不同的思想感情的运动状态下，可以有完全不相同的声音形式，那千差万别的情况是难以用文字来描述的。”[9]具体思想感情的运动状态，对应着具体的语句的声音形式。AI技术要用具体的声音形式来呈现具体的思想感情，就要克服人类感情本身的体验性与具体声音形式的非体验性之间的矛盾——这恰恰是现阶段AI技术亟待攻克的难题。

（三）核心价值：在感知形式上具有一定的审美价值。我们在阅读文字的时候，内心其实是有“声音印记”的，这种“声音印记”附着着基于文本和读者的认知结构等因素而产生的情感信息。有声读物有声语言的创作主体应以读物文本为脚本，将语言符号信息及被附着的情感信息同时通过二次创作以有声语言的形式转化、生产甚至创造出来。

“有声语言的表达，从来都有表意、表情、既表意又表情之分。目前，AI能做到的是表意，它表不了情！从艺术创作的角度而言，这便导致‘灵韵’的缺失！”[10]但是，完美复刻的AI合成有声读物有声语言就不能“以假乱真”而具有与原作或专业播讲相同的审美价值吗？

传统形式主义认为，审美价值取决于单纯欣赏作品的造型结构所带来的审美愉悦，即把审美价值限制在形式范畴。在传统形式主义的背景下，受众只重视有声读物有声语言的结构和形式本身，除此之外，像演播者、演播时间、演播地点、演播背景等他们都不以为意。那么，习得了演播艺术区别于其他有声语言艺术的质的规定性的AI合成语音技术，就能够生成与专业播讲具有相同审美价值的作品？

当受众为有声读物有声语言感动之后，突然被告知该有声语言是AI合成的而非真人录制的，那么受众很有可能收回原来的感动，取而代之的是对技术力量的感叹。在知觉构成主义理论看来，世界上不存在“纯真之眼”，因为我们观看外部的东西时总会受到既有知识和文化的影响。同样，世界上不存在不受任何事物所污染的“纯真之耳”。用户在收听有声读物、品味其有声语言的过程中听到了什么，不仅仅取决于听觉的准确性，还依赖于用户对有声语言艺术的训练和经验。人们对AI合成有声读物有声语言的态度变化——从为以演播艺术家创造性劳动为前提的有声语言所感动到对技术力量的惊叹——不是基于听觉上的变化而是基于审美经验，就像我们了解到某一名播讲人从未接受过专业的训练，甚至是克服了视觉或听觉的障碍，便会觉得他的播讲更具有感人的力量，而这已经不是纯粹对审美价值的评价了。

有学者认为，AI合成的有声语言“以假乱真”的呈现打破了口语“灵韵”。例如，“人工智能的语音复刻时代，已经让有声语言艺术包括演播艺术的‘灵韵’完全缺失了！”[11]再如，“今天AI合成主播的出现更像是不断复制真人主播形象出现的虚拟人，在视听领域一定意义上也打破了原本真人主播既有距离感又有此时此地本真性的口语灵韵”[12]。实际上，有声读物和电影一样同为机械复制时代的艺术作品，其创作具有很强的“可修正性”[13]。声音录播技术促成了有声读物的问世，移动终端技术使得演播艺术作品能随时为人所欣赏，赋予了有声读物有声语言艺术以现实的活力——在录音间播讲的有声书，在舒服的床上也能被听见。那么，即便是真人创作的有声读物有声语言艺术作品已然失去了存在论层面的独一无二性，也丧失了有声语言艺术由“即时即地性”组成的“原真性”，继而，本雅明眼里所谓“在一定距离之外但感觉上如此贴近之物的独一无二的显现”的“光晕”[14]也早已衰竭甚至完全消失。

“喜马拉雅”利用语音合成技术完美复刻单田芳先生的音色和单式评书腔调，还将单田芳先生的AI合成音应用于六部风格迥异的书籍，演绎了听众耳熟能详的经典之作。AI技术完美复刻单田芳先生的音色和腔调，虽然具有了相同的审美价值即在听觉感知上趋同，但是两者的艺术成就完全不同。在艺术样式方面取得的成就是属于单田芳先生的，而不属于AI技术。单田芳先生之子单瑞林在听到父亲声音的还原后评价，“心魂间猛然一阵，仿佛父亲又回到了这个世界”[15]。显然，AI合成的有声语言在这里除了具有“展示价值”之外，还具有缅怀已故亲友的价值。

四、“风格涌现”层级：艺术个性的生成

（一）用户需求：突破既有腔调，体验新艺术风格。如果AI合成有声读物有声语言在听觉上与真人毫无差异，甚至可以复制演播艺术家的创作手段和风格，受众就会对AI技术赋能有声读物有声语言抱有更多期待：从“像人”转向“就是人”。

调查显示，“用户对有声读物播读者的评判与欣赏水平相当专业，认为‘声音好听’‘普通话语音规范’‘语言生动’‘表达富有特色’是播读者应具备的基本素质与条件。其中，表达富有特色、声音好听是用户选择播读者的首要条件”。[16]在“艺术复刻”层级，AI语音合成技术可以轻松满足用户在“音色好听”“语音规范”和“语言生动”层面的审美期待，但是在“表达富有特色”方面——例如单田芳先生的单式说书腔调——依旧是AI技术在有声读物有声语言创作层面无法突破的难点。

受众对AI合成有声读物有声语言的期待，是基于对真人有声读物有声语言艺术创作现状和AI语音合成技术现实做出的。这意味着，真人有声读物有声语言艺术的现存困境，亦是AI合成有声读物有声语言要突破的难题。目前真人有声读物演播艺术的风格并未实现百花齐放的局面，特别是在新媒介时代UGC生产模式强力介入的情况下，有声读物有声语言艺术创作呈现出同质化的趋势。同质化风格的有声语言艺术无法表现多样的社会生活，无法满足受众多层次、多元化的审美趣味，更降低了提高受众有声语言艺术审美素养的可能性。

（二）技术特点：从“辨别式”到“生成式”，具有了“创造”的主体能力。人们绝不会沉迷于、止步于AI语音合成技术完美复制真人有声语言艺术的狂欢。凭借“大模型”这一底层技术，人工智能发生了从“辨别式”AI走向“生成式”AI的方向性改变。虽然目前AI合成的语音有着明显的弱点，但不得不承认，随着AI技术的不断进步，凭借着AI深度学习和可能存在的自我演化的能力，我们可以期待语音合成技术能够呈现出更加自然、逼真和人性化的声音效果。

未来，AGI（Artificial General Intelligence，通用人工智能）作为一个更加高级的、能像人一样完成多种任务和活动的智能系统，将从概念发展阶段逐渐变为现实。它具有更高级的灵活性和智能性，可以在不同的环境和任务中进行适应和学习——创意和情感不再是AI不可逾越的鸿沟。AI语音合成技术真正同时具有了“表意”和“表情”的功能，而且这种功能的实现不再是对人类具有情感的声音片段的拼凑，也并非模板式的输出，而是AI本身获得了与人类类似的感情能力，甚至具有一定的主体性，例如生成出一种人类闻所未闻的悦耳音色。

AI合成有声语言已经突破了“像人”的声音模仿阶段，进入“就是人”的声音生成阶段。语音合成的流程不再需要请专业人员录制声音片段作为生成模板的基础。面对读物文本，AI可以自主学习、理解、分析，包括上下文、语境、脉络、写作背景、播讲背景、作者信息等。AI合成语音技术可以根据不同的需求，生成不同形式、不同风格的声音形式，满足不同用户的个性化需求。当然，这也会带来版权归属、内容合法性等问题。

（三）核心价值：创作具有主体性，涌现新风格，彰显艺术价值。AGI赋予了有声读物有声语言的虚拟“创作者”以一定的主体性，它们具有自我意识，具有自我认知能力，能够理解自己和他人的思想和感情，并能够在有声语言生成中反映出这些认知。它们也成为像人一样具有自由意志的唯一性的存在，可以在遵守法律并勇于承担后果的基础上自主决定自己的有声语言创作实际。甚至，每一个有声读物有声语言虚拟创作主体具有不同的生产结构、学习背景、生活经历、忠实粉丝等，具有了作为主体性的重要特点——个性化。

届时，它们在充分学习有声读物有声语言艺术的创作规律、实践有声读物有声语言的艺术创作、鉴赏经典的有声读物有声语言艺术作品、进行有声读物有声语言艺术批评活动后，将创造性地突破既有的有声语言艺术创作规律，生成新的表达样式，形成与以往大不相同的演播艺术风格。虚拟创作主体在充分了解受众的艺术接受习惯后，还能为用户专门生成符合其需求的有声读物，充分彰显技术的人文关怀。

在莱辛看来，“独创性”和“技艺”是所有艺术的两个基本要素[17]。在“艺术复制”层级，AI合成有声语言完美复制了专业演播艺术家的播讲“技艺”，却没能拥有“独创性”，所以我们可以将AI生成的作品认定为“复制品”；当没有获得当事人声音的使用权时，甚至可以定性为“赝品”。有声读物有声语言艺术的“独创性”与我们如何感知、体验诉诸听觉的语言艺术技巧无关，与可感知的审美价值的属性是不同的。李海完认为，独创性是“通过作品取得的成就，新颖而有价值。即作品解决了或想要解决哪些艺术课题，通过作品，在历史上取得了某些价值的新成就”[18]。当AI合成有声读物有声语言有了确切的起源，在感知效果上实现甚至超越了真人专业播讲的水平，形成了自己的艺术风格，解决了演播艺术方面某些亟待解决的课题，就会因为兼具“独创性”和“技艺”而具有艺术价值。这将续写中国演播艺术的历史、丰富中国演播艺术理论，并将促进真人演播艺术的创新和发展。

五、结语

AI合成有声读物有声语言负荷人文价值是一个动态的发展过程。首先，AI合成有声读物有声语言负荷人文价值是从语音合成技术的构思开始的，这是实现有声语言生成、满足人们以耳代目阅读需要的理性基础。其次，科技人员将用户的合目的的需要植入AI语音合成技术，形成其人文价值的潜在可能性。再次，价值理性与科学理性凭借AI技术融合并产生技术或技术设备，使理想成为现实。最后，AI合成有声读物有声语言得以规模化生产，用户的消费实践催生了新的目的、期待和理想。在每一次完整的过程中，受众的需要刺激着技术的升级，技术的升级又催生着用户新的需要，如此循环，把AI合成有声读物有声语言的人文价值向度推向更高层级。

AI合成有声读物有声语言从“符号转化”层级到“艺术复刻”层级，实现了听觉上从“不像人”到“像人”的过渡；到了“风格涌现”层级，AI合成有声读物有声语言则完成了从“像人”到“就是人”的蜕变，能够自主深入挖掘隐蔽在文字背后的丰富情感，并以新颖的艺术创作形式实现AI语音合成技术在有声读物领域的较高层次的人文应用。下一阶段，随着AI合成有声读物有声语言艺术生产具有一定的类人主体性，两种内容生产模式即人类内容生成和人工智能内容生成之间的消费边界会逐渐消失，“真人”和“AI合成”不再成为有声读物用户的筛选条件。

但是，从有声语言艺术创作主体层面来看，“AI合成”不能取代“真人”。AI合成有声读物有声语言的声源不再是位于人体内部的声带，更不会经由人体口腔、胸腔、鼻腔和头腔的改造，亦不会接受来自肺部气息的调节，也不可能通过人类听觉等其他感觉实现话筒前的自我检验、自我调节——有声语言艺术不再是“口耳之学”。这样一来，有声语言不再是“‘听说一体’的共时存在”，也无法最终传达一种能够“完整地彰显生命意义，进而通过多样性的价值演绎多元化和立体式的生命存在”[19]的终极人文价值。从个体有声语言“听说一体”二重性特征来说，要真正探索人类有声语言所蕴含的具有艺术魅力和美学意义的生命奥秘，用户就需要崇尚真人播讲的有声读物，甚至需要亲临现场欣赏播讲者、说书人等的专业艺术创作，体验以人类劳动为前提的感动。

【本文为国家社科基金艺术学项目“中国演播艺术家与演播艺术发展研究”（批准号：20BC044）、中国传媒大学中央高校基本科研业务费专项资金资助项目“有声读物演播艺术的人文价值研究”（编号：CUC230D002）成果】

参考文献：

[1]汪良.小说播讲艺术[M].北京:北京广播学院出版社，1988:18,22.

[2]罗莉.文艺作品演播[M].北京:北京广播学院出版社，2003:2.

[3]孔亮.中国演播艺术发展研究[D].中国传媒大学，2021.

[4]播博汇第二十一期｜圆桌讨论（上）：演播艺术创作接受的精品与审美[EB/OL].(2021-08-16).https://mp.weixin.qq.com/s/HmRnW7oimjej4Ws3sh183Q.

[5]赵丹丹.数字化时代儿童有声读物与幼儿语言能力培养研究[J].赤峰学院学报(汉文哲学社会科学版)，2023,44(02):100-103.

[6][16]曾志华，卢彬.声领其境——全媒体有声读物研究综论[M].北京：中国传媒大学出版社，2019:21,35.

[7]田璐嘉，孙晓翠.知识积累、知识流动与价值统筹：有声读物知识价值链的三维构成[J].出版发行研究，2023,376(03):68-74.

[8]张颂.朗读美学[M].北京:中国传媒大学出版社，2015:14.

[9]张颂.播音创作基础（第3版）[M].北京：中国传媒大学出版社，2011:103.

[10][11]曾志华.流变中的价值：演播艺术家口述史的文化记忆刍议[J].中国主持传播研究，2022(01):6-9.