人机传播的失灵与修复:家庭成员“共同媒介参与”的视频分析研究

摘要:为弥补人机传播研究在理论和视角等方面的不足,本文结合人际传播理论,探究了家庭成员在智能音箱“共同媒介参与”过程中面临的“失灵”现象及采取的“修复”措施。录像分析与对视频内容的质性分析结果(N=74)显示:智能音箱在识别灵敏性、互动稳定性、语料多元性、内容与功能

本刊官方网站:

摘要

为弥补人机传播研究在理论和视角等方面的不足,本文结合人际传播理论,探究了家庭成员在智能音箱“共同媒介参与”过程中面临的“失灵”现象及采取的“修复”措施。录像分析与对视频内容的质性分析结果(N=74)显示:智能音箱在识别灵敏性、互动稳定性、语料多元性、内容与功能丰富性上的缺陷,以及儿童语言机能水平和智识发展水平较低是造成人机互动失灵的主要原因;在修复过程中,智能音箱会采用负面型和正面型两类措施,儿童会采取语音和语义修复及非口头语言措施,父母会辅助性地采取鼓励引导、提供建议、行为示范和直接修复等措施;与一般常识不同的是,在人机传播过程中,多数时候是用户在适应机器的逻辑。根据研究结果,本文认为“过程”是人际传播与人机传播的重要结合点,且“发展的”取向的人际传播理论更适用于人机传播语境。本文同时对人机关系、人机文明和技术政治等相关话题进行了讨论。

作者简介

罗龙翔,北京大学新媒体研究院、美国加州大学戴维斯分校传播学系联合培养博士生。

王兵,清华大学新闻与传播学院、美国伊利诺伊大学香槟分校传媒学院联合培养博士生。

王秀丽(通讯作者),北京大学新媒体研究院长聘副教授、博士生导师。

智能语音助理(Artificial Voice Assistants,AVAs)中的代表性产品——智能音箱具有低门槛、可借助语音实现便捷互动的特点,包括儿童在内的家庭成员均可成为其主要使用者。这为人机传播(Human-machine Communication,HMC)研究者由浅至深地从功能禀赋、人机关系及哲学伦理等三个层面来分析诸多相应议题(Guzman & Lewis,2020)提供了贴近现实生活的切入点。

目前人机传播研究较为明显的特点和局限包括:第一,相关研究虽已逐渐向人机关系等较为深刻的话题发展(彭兰,2022),但多聚焦于“技术接受”这个人机关系的建立阶段(Entry Stage),尚未将关注点进一步推至人机传播的过程,分析用户如何与机器(人)密切联系(Engage)的细节(罗龙翔,王兵,王秀丽, 2021),并顺承人机互动的实践轨迹来发展相应知识体系(全燕,2023)。第二,大量HMC文献均围绕计算机作为社会行动者(Computers as Social Actors, CASA)范式和“媒介等同”等少数理论展开(牟怡,许坤,2018)。虽有学者指出可结合人际传播理论来探讨人机传播议题(彭兰,2022),但“怎样结合”仍待检验。第三,现有文献多关注个体用户与机器(人)的一对一互动,少有关注日常场景中多主体对机器的共同使用行为(Co-use)(Wang,Luo & Wang,2023)。

因此,结合人际传播研究成果、“共同媒介参与”(Joint Media Engagement,JME)理论、录像分析法(Video Analysis)及对视频内容的质性分析,本研究旨在通过观察日常生活中家庭成员与智能音箱互动的细节,来分析人机传播过程中的 “失灵”(Breakdown)现象及相应的“修复”(Repair)措施。本文期望以此提炼、归纳和概括相应现象背后的理论意义,补苴既有研究,在为智慧生活提供实践参考的同时,推动人机关系研究发展,管窥人机传播所映射的未来,以及透视相应传播过程中微妙的“身体—技术”政治。

一 文献回顾

基于主旨、目的与前述认知,文献回顾将从三个方面展开。

(一)人际传播及其与HMC研究的联系

在漫长的发展史中,人际传播学者遵循社会科学、人文主义、文化研究和批判研究等不同智识传统,建构了以个人心理、话语/互动、身份和关系为中心的诸多理论(Braithwaite & Schrodt,2022:2-4)。在现代人际传播研究早期,受二战后信息论和行为主义心理学发展的影响,学者们倾向于将人际传播视为以告知或劝服为主要目的、处于发送与接收两端的传播者之间的讯息传递行为,这种二元特征视角下的人际传播也被称为“二元沟通”(Dyadic Communication)(王怡红,2015)。

然而,二元沟通式的人际传播研究很快受到批驳,其中的代表性观点认为,这一视角过于刻板和机械,容易使研究陷入方法论本质主义(Methodological Essentialism)的陷阱(Popper,1966:103-104)。因此不少传播学与社会学者舍弃在“绝对标准”上纠缠,将人际传播的研究路径从关注个体转向关注“过程”,并逐渐就此达成基本共识:人际传播并不仅仅只是发送与接受讯息,还是一个创造、分享讯息和意义,以及发展、维持和改变身份与关系的象征性过程(Symbolic Process)(Braithwaite & Schrodt,2022:4)。

从过程视角来理解人际传播,既符合“人际”的核心要义,也强调了“传播” 在符号和意义上的双重内涵——“人际”意味着传播者间的关系可以在互动过程中实现由陌生到亲密的质的变化,这是群体传播和大众传播相对难以实现的目标(Miller,1978);“传播”则意味着伴随互动这一借助象征符而实现的行为,传播者间的意义和共识也得以产生,即传播是人际关系赖以存在的状态(Cooley,1909:45)。可以说,在过程视角下,人际传播不仅关注信息的传递,还关注意义与关系的发生及发展(王怡红,1996),研究问题因而逐渐集中于如何处理传播过程中所遇到的正常或特殊挑战,以及如何创造、保持和发展关系(胡春阳,2009)。

人机传播是指人类与作为传播者(Communicator)的机器(人)之间进行双向、可持续互动的传播形态(罗龙翔,王兵,王秀丽,2021)。与人际传播一样, HMC不仅关注符号在传播者间的传递,还关注传播过程中人与机器(人)间的意义生产与关系发展(牟怡,2022:25-29)。学者们通常试图通过识别传播过程中的特殊现象,界定与有效传播(Effective Communication)相关的技能来更好地理解人际传播(Hartley,1999:37-38),而在参考人际传播框架来研究人机传播时,关注重点之一则在于人机传播过程中的交流努力、交流障碍与交流效果(彭兰, 2022)。因此,人际传播与人机传播至少在对“传播”本义的理解、分析视角及研究重点等方面具有共同话语空间。这一基础认识成为本研究关注人机传播中失灵与修复现象的理论起点。

(二)传播过程中的失灵现象及其修复

对概念的分析可明确这样一种认知:作为符号过程的传播是“第一性”的,作为意义生产与关系存续的传播是“第二性”的,无前者则遑论后者。而失灵与修复均关系作为“第一性”的传播过程是否顺畅、有效,且同时会影响作为“第二性”的传播。在内涵上,作为一种传播失败(Communication Fail)现象,失灵指传播过程中所遭遇的障碍,主要表现为信号无法在传播者之间有效传输,或交流过程被打断导致传播者无法成功交换信息和实现意义共享(Beneteau,Richards,Zhang,Kientz,Yip & Hiniker,2019);修复是指传播双方在遭遇障碍后所进行的旨在恢复有效沟通和互相理解的努力(Beneteau,Richards,Zhang,Kientz,Yip & Hiniker,2019;Most,2002)。在面对面的人际传播过程中,传播者的表达能力、倾听能力或理解能力不足等原因经常造成传播失灵(Gagné,Stelmacovich & Yovetich,1993),其中,儿童在与他人交流时会更加频繁地遭遇失灵现象(Flippin,2024)。相应地,包括儿童在内的表达者常采用口头或非口头方式来修复人际传播过程中的失灵,具体策略则包括重复表述、简化语言、修改或调整表述、提供关键词或添加更多细节信息等(Gagné,Stelmacovich & Yovetich,1993;Garvey,1975);信息接收方也会要求交流的另一方通过复述内容、修改或简化措辞等方式,来使自身能够明晰对方的意图(Gallagher,1981)。

可以确定的是,失灵现象也存在于人机传播过程中。人类学者露西·萨奇曼(Lucy Suchman)分析了不同情境中用户对专家系统的手动操作过程,发现用户在与机器互动时常常遭遇“错误警报”(the False Alarm)和“花园路径”(the Garden Path)两种失灵现象。其中,前者指机器的反馈方式不符合用户对其程序的主观设想,后者指机器的“无反应”和“重复错误反应”导致人机互动的过程就像花园小径一样弯弯绕绕。两种失灵都会导致用户与机器进入一种等待对方回应的尴尬状态,致使人机传播失效(Suchman,2007:161-167)。就智能语音助手而言,虽然语音交互的方式带来了诸多便利,但用户自身(如发音方式)和系统(如语音识别)等关系到声音符号的问题(Beneteau,Richards,Zhang,Kientz,Yip & Hiniker,2019;Kim, H.,Kim, J. & Kang,2022),均会造成失灵现象频发,进而导致人们不能与机器顺畅地互动(Luger & Sellen,2016)。因此,关注失灵与修复这两类现象,不仅可以探究日常人机传播过程中普遍存在的一些阻碍,也可借此观察各传播主体在尝试恢复有效人机交流时所做出的努力,并以此检验相应人际传播理论在HMC领域的适用性。

(三)共同媒介参与及家庭智能音箱使用

家庭作为能够满足成员高频、持续互动和成员间均具有亲密关系的特殊场景,在分析媒介共用或用户与机器间的多对一互动上具有天然的优势。更为重要的是,作为具有高互动性和强情感链接的重要空间和传播场域,家庭能直观、细致地体现出日常生活的平常性(Ordinariness)。通过关注平常性的现象与行为,可以窥见人与媒介技术互动过程中所体现出的技术思想与秩序形式(Silverstone,1994:154179)。这种与现代生活相联系的技术思想与秩序形式,是现代性在精神与文化层面的具体展现(王晓升,2017)。共同媒介参与是研究媒介共用行为的代表性理论,主要指多主体之间的媒介共同使用行为。这种行为可以是自发的或有计划的,且能在任何时间与地点发生,主要类型包括多主体关于媒介的共同观看、搜索、阅读、娱乐和创造等。此外,共同媒介参与还包括人们围绕媒介内容或使用行为所进行的互动与意义生产过程(Ewin, C. A.,Reupert,McLean & Ewin, C. J.,2021)。

共同媒介参与的主要研究对象是儿童和家长群体,这与其历史因循密切相关(Takeuchi & Stevens,2011:10)——芝麻街工作室在1969年对儿童剧《芝麻街》第一季开播后的效果评估结果及其后续研究都证明,在与儿童共同观看电视的过程中,家长常常扮演一种类似“脚手架”(Scaffolding)的辅助角色,且共同观看行为对儿童的认知发展与社会化过程具有积极作用(Yelland & Masters,2007)。近年来,各类数字交互性媒体和应用程序的兴起为儿童的游戏、学习和其他社会性技能的发展提供了支持,国内外有关视频游戏、视频通话技术、电子书、平板电脑和手机等共同媒介参与的研究也不断增多(Ewin, C. A.,Reupert,McLean & Ewin, C. J.,2021;《国际新闻界》传播学年度课题组,2024)。这些成果一方面支持了芝麻街工作室的研究,另一方面也表明针对不同媒介,儿童与家长间共同媒介参与的效果并不一致,家长辅助儿童使用不同媒介的策略也不尽相同(Nathanson,2002)。

就与本文相关的成果而言,首先,研究者们证明了包括儿童在内的家庭成员会基于信息和娱乐等多种需求来使用各类智能语音助手(Lovato & Piper,2015)。其次,国内外文献发现智能音箱能在用户的日常生活中扮演工具、朋友和宠物等不同角色(罗龙翔,王兵,王秀丽,2021)。再次,在使用专门为其开发的产品时,儿童在人机传播的过程中仍然会更加频繁地遭遇失灵现象(Yen et al.,2018)。虽然得出了上述结论,但相应文献所采取的文字用户日志和深度访谈等方法无法进一步对人机传播的过程及相应细节进行分析,即无法探查人机互动过程中人类的肢体语言等可以促进人机交流的社交线索(Social Cues),故而在一定程度上限制了相关研究的发展。因此,本文在将视角聚焦于家庭场景和儿童群体后,首先提出研究问题一(RQ1):既然已有针对性的产品进入家庭,为何儿童在使用智能音箱时,依然会更加频繁地遭遇人机传播失灵现象?

同时,与现实人际传播一样,人们在人机传播过程中往往能敏锐地意识到失灵现象的存在,且会自主地按照人际传播的技巧和手段来对其进行修复,但由于修复行为对儿童而言是一项巨大的挑战,儿童遇到人机传播失灵现象时,往往会向家长求助(Yilmazyildiz,Read,Belpeame & Verhelst,2015)。这说明,修复人机传播的过程涉及作为传播主体的机器(Guzman & Lewis,2020)、儿童与家长三方。因此,为回应研究主旨,本文进一步提出研究问题二(RQ2):当与智能音箱交流失灵时,智能音箱、儿童自身与作为成年人的家长所采取的修复措施有何不同?

此外,正如人际传播理论所述,有效的传播,或者说意义的产生与关系的发展,依赖于交流方之间双向的表达、倾听与理解(Braithwaite & Schrodt,2022:130-143)。进一步来看,若人脑在“物”这一层面上的相同结构和特质,是人与人之间实现有效沟通与相互理解的前提,那如何应对人脑与机器之间“质”的区别,则是实现有效人机传播无法回避的问题。在符号主义(Symbolism)、联结主义(Connectionism)和行为主义(Behaviorism)三个主要人工智能流派的学术与实践脉络中(王广赞,易显飞,2018),一直存在一个甚少经受检验的前置假设:是机器在学习、模拟和适应人类思维与行为,即开发者期待由机器来承担促进有效人机交流的责任。然而,通过前文的梳理不免生发出这样一个与现有默会假设相差异,且需要通过观察失灵与修复的细节来予以回答的疑问,即研究问题三(RQ3):在人机传播过程中,是机器始终在适应人的思维与行为吗?用户自身是否也在或主动或被动地适应机器?

二 研究方法

本研究以UGC (User Generated Content)视频作为研究资料,在两个层面对其展开分析:一是遵循录像分析法的思路来观察家庭成员与智能音箱互动的序列与细节;二是使用主题分析法(Thematic Analysis)对视频的内容进行质性分析,以更详细地回答研究问题。具体介绍如下:

(一)资料搜集与基础编码

录像(Video)是一种可以用于分析不同生活场景中自然发生的行为、活动和现象的可靠研究资料(Heath, Hindmarsh & Luff,2010:1)。选择用户生成并上传至社交媒体平台的UGC视频作为录像分析资料的原因在于:作为一种数据资料, UGC视频虽非尽善尽美,但其与录像分析的核心思路、价值取向和风格相契合;此外,UGC视频也被证明是一种可靠资料,能够为研究者提供一种非介入性的、不涉及伦理争议的方式来研究日常生活与私密空间中的人机传播过程;同时,虽然社交媒体平台中的相关视频多为家长拍摄,但在实际拍摄过程中,儿童配合家长“表演”的可能性较小,这保证了视频中核心信息的原始性和自然性(Wang,Luo & Wang,2023)。具体来看,本研究以资料较为易得的抖音和西瓜视频平台作为UGC录像资料的主观抽样来源。除去新闻、娱乐和营销等视频,这两大平台有许多记录真实生活的UGC视频,其中不少视频展示了家庭成员与智能音箱的互动过程。因此,研究人员以“小度”“天猫精灵”“小爱同学”(中国智能音箱出货量前三位的厂牌)及 “智能音箱”“孩子”“儿子”“女儿”等关键词的不同排列组合方式分别在两大平台进行数据检索,检索时间为2018年2月8日(最早的相关视频发布日期)至2022年3月31日。

按最高点赞(抖音)和最热(西瓜视频)两个标准从高到低进行排序筛选后,研究人员分别从抖音(N=248)和西瓜(N=142)平台获得共计390份录像。去除无关与低质内容后,最终获得74份质量较高且符合研究主旨的样本录像。样本资料总时长约350分钟,为避免在线资料丢失,所有样本录像均进行了备份。在样本中,家庭成员使用的智能音箱包括配置屏幕和未配置屏幕两类。

编码时,依据平台中公开的账号资料,研究者首先对74份样本录像进行了基础归类。同时,依据样本录像资料的标题、文案、内容、账号信息及相应账号的其他作品等信息,本研究着重对视频中儿童的年龄情况进行了记录。最终样本的儿童年龄分布为:幼儿期(3岁及以前,N=39)、学龄前(4岁至6岁,N=26)和学龄期(7岁及以后,N=9)。

(二)录像分析

录像分析近年来被许多学者用于分析日常生活中的传播行为和传播过程。在思路上,录像分析与常人方法论(Ethnomethodology)及会话分析(Conversational Analysis)一脉相承,认为日常生活中的社会互动是可被观察的(observable);在作用上,该方法所提供的互动视角(Interactional Perspective),使传播学研究者能够在无介入的情况下严肃对待日常生活中的社会行为文本;在风格特点上,该方法则有着对细节的独特欣赏与追求(甘雨梅,2020)。因此,使用这一方法可以清晰地听到或看到造成人机传播失灵的因素,并观察到传播主体在恢复有效人机交流时所采用的各类语言或动作等社交线索,让研究者得以用综合的视角来回应研究问题及相应理论。

本研究聚焦于来自家庭场景的录像,主要原因如下:首先,家庭是最为常见、覆盖几乎所有社会成员生活经验的场景,对家庭场景的录像资料进行研究,其结论具有广泛的参考意义;其次,作为社会的最基本组成单位,家庭是社会关系与社会结构的透视镜(朱秀凌,2018),解读技术发展过程中家庭结构与家庭成员的关系,是以小见大地理解社会转型与时代变迁的重要方式;再次,由一对夫妻及未婚子女组成的核心家庭(Nuclear Family)是一切家庭结构的基础(Murdock,1949:1-17),因此将“父母与儿童”作为使用智能音箱的“多主体”加以研究,既是对共同媒介参与理论脉络的回应,也是基于将社会学思路纳入分析的考量。

在内容转录与结果呈现方面,录像分析关注视频中的互动序列,对其的转录并非只是对视频中对话的文字转写,同样需要关注非语言要素(肢体语言、动作、环境等)的再现(甘雨梅,2023)。因此,本文将参考会话分析学家盖尔·杰弗森(Gail Jefferson)(2004)所提出的转录规则,来对74份样本视频中的相关内容进行转写和呈现。

(三)主题分析

录像分析法为关注人机传播的过程提供了分析工具,但由于录像数据往往具有复杂、形式多样且缺乏结构性等特征,因此需要对UGC视频内容进行更具概括性的分析。主题分析法可以克服这些问题并达到研究目的(Nowell,Norris,White & Moules,2017)。具体来看,主题分析法能够识别、组织、描述和报告在数据集中反复出现的意义模式,具有严密性、透明性、科学性和可操作性,包括六个步骤:搜集资料和熟悉数据、初步编码、寻找主题、回顾主题、定义并命名主题以及形成报告(Braun & Clarke,2006)。遵守上述步骤,研究人员在两位传播学专家的指导、监督和评估下展开了主题分析。

首先,研究者选取所需视频并分别编号,在仔细观看视频的基础上,通过人工转录将关键信息、视频中的对话转化为近4万字的文字资料。其次,依据主旨和研究问题,在转录过程中初步将录像文本内容归入“失灵”和“修复”两个主题,并发展出“人机传播失灵的原因”“智能音箱的修复措施”“儿童的修复措施”及“父母的辅助性修复措施”4个次级主题以回答RQ1和RQ2,同步整理可以回答RQ3的相应资料。再次,研究者遵循主题分析的基本思路不断归纳、检验和调整样本中体现的意义模式,结合录像分析阶段转录的细节片段,最终得到如下研究结果。

三 研究结果

(一)人机传播“失灵”的原因

就RQ1而言,导致儿童等家庭成员与智能音箱交流失灵的原因主要来自机器自身,而幼儿期和学龄前儿童更为频繁地遭遇失灵现象,这与其语言机能水平和智识发展水平密切相关。表1为造成人机传播失灵的主要原因及其相应表现。一方面,就机器自身而言,智能音箱在识别灵敏性、互动稳定性、语料多元性及内容与功能丰富性等方面的缺陷,会使儿童在与其互动时遭遇失灵现象。具体来看,V7(录像编号,下同)、V18、V37、V44、V48和V66等多段样本视频显示:儿童在明确喊出唤醒词或说出指令后,智能音箱都无法敏捷响应。在这些案例中,智能音箱也存在交流中途突然失去信号连接、自动终止对话和闪退等系统不稳定现象。此外,现有智能音箱产品主要识别的是普通话,致使其无法与部分使用方言的儿童进行交流。最后,若儿童所提的问题超出智能音箱的内容库范围,或涉及用户个人隐私等问题,智能音箱难以提前预设答案,也易造成失灵。

另一方面,相较于成年人,幼儿期或学龄前儿童的语言机能发展尚不充分,常常无法说出成分完整的句子,且不少儿童存在“大舌头”、发音过尖等吐字与发音问题,导致智能音箱无法被唤醒或无法识别具体指令。例如在V39中,2岁的女孩常常用“度度”代替“小度小度”,因而无法成功进入人机互动过程。同时,许多儿童对语速或节奏感的掌握不当也导致失灵。例如在一些录像中,不少儿童存在边说边想、交流间隔时间过长等行为,这些停顿被智能音箱识别为独立的会话单元,因此其反馈的内容常常与儿童的指令毫不相关。同样,儿童语速过快、缺乏停顿也会导致失灵。例如在V18中,一位4岁女孩看到香蕉后,想询问“香蕉”的英文表述,但其不加停顿地表达为“天猫精灵香蕉的英文怎么说”,而智能音箱在面对这一缺乏停顿的指令时仅回复了一句“我在”,却无法识别后续内容。此外,儿童常使用倒装、省略、口头禅等不够规范或随意性较强的日常表述,不契合智能音箱的信息处理逻辑,也导致了交互过程中的失灵。

就儿童的智识水平而言,儿童尚处于智力发展的关键阶段,整体上尚不具备按照技术逻辑来与智能音箱交流的能力,这也导致了失灵现象频发。例如V20和 V49中都存在儿童先说具体指令,再以倒装形式于句子末尾使用唤醒词的情况。许多儿童时常忘记说唤醒词或提出过长的指令,有时也无法全面、准确地表达自己的真实需求,因此无法收到智能音箱的合理反馈。例如V33的4岁女孩原本想询问蛀牙的治疗办法,但其“嘴里长虫子了怎么办”的表述却使智能音箱直接反馈 “我不明白你的意思”。此外,在许多录像中,儿童都有一些新奇却“超纲”的问题,如“乌龟怎么跳舞”(V35)、“播放女巫的声音”(V45)等,均未引发智能音箱的回应。

除了对话交流中的失灵,当一些孩子(如V45、V74)将水果、玩具、遥控等物品递给智能音箱,希望其可以“看到”“触摸到”这些物品,产生无声化和“拟人化”分享行为时,智能音箱也没有任何反应。

(二)人机传播的“修复”方式

当遭遇失灵现象时,智能音箱、儿童和家长的反应各不相同。

1. 智能音箱采取的“修复”措施

根据用户对传播失灵的不同反应,智能音箱所采取的修复措施主要包括负面型与正面型两种,具体分类如表2所示。

就负面型措施而言,智能音箱无任何反应或直接结束对话的“不理不睬”方式常常会激起儿童的愤怒、失落或歇斯底里的情绪或行为。例如样本V5中,学龄前女孩的人机互动过程便形象地说明了这一结果。视频转写片段1:

01 ((女孩提出玩益智游戏,智能音箱无应答))

02 女孩:小爱同学,你要是还不听我的话我就不理你了

03 ((智能音箱无应答))(2)

04 女孩:((开始喊叫))> <小爱同学我要发火了

05 ((智能音箱无应答))(1.5)

06 女孩:((拍打智能音箱))↑哎呀!小爱同学啊啊啊啊啊啊,哼

在一些场景下,智能音箱在接收到正确的指令后却提供了用户并不需要的内容来“蒙混过关”,也会使儿童产生类似“笨蛋鬼”(V8)的抱怨。同时,智能音箱向用户“赔礼道歉”后结束对话的方式,也会引起如V31的负面情绪和反应。视频转写片段2:

01 ((男孩尝试用智能音箱解开电视锁屏密码失败后))

02 男孩:小度小度,气死我了你,气死我了

03 智能音箱:((在男孩发泄情绪时识别到唤醒词))在呢

04 男孩:我打你信不信,我要你开锁

05 智能音箱:抱歉,暂时不支持这样的操作

06 男孩:你道歉有什么用,我不用你道歉,小度小度……

07 智能音箱:((再次识别到唤醒词))在呢

08 男孩:((听到“在呢”之后一愣))你这个白眼狼,我不跟你玩了

就主动型措施而言,智能音箱会简要处理儿童用户的指令或信息,并依此来 “献计献策”,如要求用户重复指令或补全指令。同时,智能音箱在处理信息后,也会通过“刨根究底”的方式来向用户二次确认信息,以提高指令处理的准确性。在绝大多数情况下,在收到正面型的修复措施反馈后,儿童与家长通常会配合智能音箱的反馈,最终取得较好的人机互动效果。

2. 儿童自身采取的“修复”措施

儿童自身的修复措施包括语音和语义修复,以及非口头语言修复。其中,孩子最常采用的是语音与语义修复,这一方式又可以分为“简单修复”和“深度修复”。简单修复是指在不改变句子结构与内容的情况下,通过重复指令或唤醒词、提高音量、纠正发音、变换或放慢节奏、强调关键词等5种不同措施来修复互动过程。然而重复指令或唤醒词(如V17、V27和V42)和加大声音或叫喊(如 V1)这两种方式往往不能取得良好的效果;相较而言,有意识地纠正发音(如 V19)、调整说话速度(如V49)或增强关键指令词汇的重音(如V6)一般能起到较好的修复效果。

上述5种简单修复方式在幼儿期和学龄前儿童中较为常见,而当没有奏效时,一些较年长的学龄期儿童会采用改变指令的语法构造或词汇排序方式、精简或者具体化自己的指令等深度修复方式。例如录像资料中年纪最大的10岁男孩(V43)在和智能音箱说“播放《体面》”没有奏效时,主动采用较慢的语气说“请播放于文文演唱的《体面》”而最终使指令奏效。

同时,不少儿童也会借助肢体语言等非口头语言的方式来修复人机传播过程。例如,对儿童面部表情的观察显示,儿童在遭遇失灵时会失落或生气地注视智能音箱,并说着类似“气死我了”(V31学龄期男孩)和“我不和你玩儿了”(V32学龄期女孩)的话语。并且无论是幼儿期儿童(如V71的3岁男孩)、学龄前儿童(如 V61的4岁女孩)还是学龄期儿童(如V50的8岁男孩),在碰到失灵时都会采取拍打、摇晃、推开或举起设备的行为试图引起智能音箱的反馈。还有不少儿童采用身体靠近设备的方式(如V22的3岁男孩爬向智能音箱说悄悄话),尝试让设备“听” 得更清楚来修复传播过程。

3. 家长采取的“修复”措施

当遭遇失灵现象时,除少数放弃交流的情况外,儿童普遍倾向于求助父母。少部分父母未理睬儿童的求助,大部分父母会积极地予以回应,部分父母甚至在孩子求助前就已主动参与到修复过程中。综合视频样本所呈现的信息,基于介入程度不同,父母的辅助性修复方式主要分为以下4种:“鼓励引导”“提供建议”“行为示范”和“直接辅助”。

“鼓励引导”指父母采用鼓励的口吻或提供具有暗示和引导性质的信息等手段,间接地帮助孩子完成人机交流。“提供建议”的父母会直接地指出孩子在与智能音箱交流时存在的问题,并告诉其应该采取何种措施,如改变论述方式、更换语音指令等。部分家长会采用“行为示范”的方式来身体力行地告知孩子如何修复与智能音箱的交流过程。当收到儿童的求助时,部分父母会直接介入儿童与智能音箱的交流过程,帮助孩子清晰、直接地说出指令,以修复交流失灵。

值得一提的是,在大多数学龄前、学龄期儿童的样本录像中,当接收到求助时,父母通常不会采取“行为示范”方式,而是先尝试“鼓励引导”和“提供建议”等措施。只有当孩子经过自我尝试且无法自主完成修复时,父母才会直接介入到修复过程中。需要强调的是,上述4种辅助修复模式经常被混合使用,且在具体生活场景中的边界也较为模糊,但可以依据交流场景所呈现出的主要特色进行划分。表3列出了孩子和家长的各类修复措施主题。

(三)传播过程中人与机器的相互适应

基于对前述结果的抽象与概括,以及对不同语言线索的反刍,本部分重点回答RQ3。一方面,智能音箱所采取的修复措施体现了其促进有效人机传播的努力,尤其是在“献计献策”和“刨根究底”等正面型方式下,智能音箱能够为用户提供 “再说一次”或“再说得完整些”等建议,以使人机传播在失灵后迅速恢复。在现实人际传播遇到障碍时,交流方经常会要求对方重复发言或转换表述。因此可以说,智能音箱也在采用类似人类行为的方式修复传播。

另一方面,通过前文举例的视频样本可以发现,儿童在向智能音箱发送指令并与之互动时,常期待智能音箱予以快速、准确的应答。但与人工智能设备开发与应用的程序设置不同,儿童跳跃式的思维、表达方式与语言习惯,使智能音箱无法高效、准确地予以应对,在修复相关失灵现象时也显得较为乏力。此时则需要儿童采取相应的方式来实现有效的沟通。如果说“非口头语言修复”属于儿童在遭遇失灵现象时的情绪性反应,那么“简单修复”方式,尤其是较年长儿童所采取的“深度修复”,可视作是儿童基于习得的人机传播经验的适应性方式。换言之,儿童对机器的主动适应不仅体现在学习和掌握机器运行时的数理逻辑,还不自觉地体现在身体行为等方面。例如在V47号样本中,研究者观察到一位4岁男孩同时采用声音线索和体态语言线索,可清晰地说明这一点。视频转写片段3:

01 男孩:((正常音量))小爱同学小点声

02 智能音箱:((唤醒失败))(3)

03 男孩:((身体靠近))小爱同学——小点声((停顿,重复指令))

04 智能音箱:好的,音量调到百分之六十

05 男孩:小爱同学,再小点

06 智能音箱:什么?再说一遍,我好期待

07 男孩:↑小点声!((抬高音量,轻轻拍打两下))

08 智能音箱:请说得更完整些吧

09 男孩:oo再把声音调小一点

10 智能音箱:好的((任务完成))

讨论

(一)功能反馈:促进有效人机传播的微观技术努力

共同媒介参与研究的主要目的之一是优化不同媒介产品的界面设计(Ewin, Reupert,McLean & Ewin,2021),这与人机传播在“功能层”的研究诉求及目的(Guzman & Lewis,2020)相一致。因此,本文研究结果的价值之一在于,发现了儿童的语言技能水平和智识发展水平并未被充分考虑进智能音箱的设计思路当中。然而,即便在设计思路上更像回复式或应答式(request or response)产品而非对话式(conversation)产品(Porcheron,Fischer,Reeves & Sharples,2018),随着2022 年以来以ChatGPT为代表的生成式人工智能技术的发展,许多新兴智能音箱产品所搭载的数据系统得以持续进行机器学习并实现联网升级,进而更优异地理解上下文、完成多轮对话和内容生成。因此,从语音识别和内容匹配等技术角度来不断克服人机传播失灵现象,是值得期待的。

同时,目前的人工智能产品研发多围绕技术的逼真性来强调“媒介在场” (Media Presence),而忽视了依赖身体和空间的“社会在场”(Social Presence)(邓建国,2022)。如前所述,儿童在修复人机传播过程时在表情、体态和动作等方面所做的努力,均无法被智能音箱等产品所捕捉、识别和处理。因此,除了询问情境信息、设定个性化表达、联系上下文语境以外,相应产品还可通过安装摄像头,以及表情、动作识别系统等,来完善基于不同社交线索的人机互动过程,并通过更加精准、大规模的深度学习,来丰富“主动型修复”的类型。

(二)关系发展:人际传播理论观照的人机传播研究

提出微观技术策略远非本文追求。本研究将视野前延至人机传播的发生阶段,结合相关概念、理论资源和“过程”视角,对用户与智能音箱交流的符号过程以及相伴随的意义产生过程进行了分析,相应结果在整体上支持了引用人际传播理论来考察人机传播现象的可行性与必要性。当然,为避免结论率尔成章,有必要因循回望,基于人机传播语境来对人际传播理论进行检验。

关于人际传播过程的研究具有四种理论路径:定律的(Law-governed)、规则的(Rule-governed)、情景的(Situational)和发展的(Developmental)(Miller,1978)。其中“定律的”和“规则的”或将人际传播的规律等同于物理学定律,或将人际传播视为具有明确意图和具体规则的理性行为。然而,现实生活中的人际传播从来没有亘古不变的定理,也并非完全的理性行为(例如无目的的闲谈),故而这两种路径要么饱受诟病,要么难以成熟。同样,依据研究结果,人机传播过程虽然涉及机器的程序与数学逻辑,但现实存在的种种失灵现象以及家庭成员与智能音箱间无明确意图的人机互动行为,不仅使以“定律的”方式来理解人机传播过程显得捉襟见肘,也使“规则的”方式在人机传播语境下显得过于偏执。

“情景的”路径主要观点是将物理接近性、感官渠道数量、反馈速度及传播者数量等作为标准,以区分人际传播与人内传播、群体传播和大众传播等其他传播形式之间的不同,具有明显的信息论色彩(Miller, 1978)。可以说,将“情景的”路径粗糙地套入人机传播研究是不负责任的。这是因为:一方面,在物理接近性、感官渠道数量和反馈速度等问题上的纠缠,易将“传播”问题窄化为“媒介/渠道” 问题,不仅会使HMC研究回到技术客体化的旧章,也会使其陷入对细枝末节过分关注的僵局。另一方面,现实中“到底多少传播者之间的交流算人际传播”是难以绝对量化的问题,“多主体共用”的人机传播实践与现实本身也要求突破“二元沟通”式的思维。

“发展的”路径将人际传播视为信息发送者和接受者为创造共同意义而交流信息的过程。由于人际关系始终处在某种特定的过程中,即过程是关系的存在状态,且关系既可以是进步的,也可以是退步的(刘蒙之,2009),因此,相较而言,“发展的”路径能更加妥帖地反映“传播”的双重性,既回应了什么是 “人际的”,也展现出意义生产与关系发展过程的动态与弹性。相应地,这一取向下的理论也能集中解释作为符号过程的传播受何种因素的影响,以及人际关系建立、亲密化、断联、转折和重建等“全生命周期”中的关键问题(Baxter & Bullis,1986)。

进一步综合现实情况与研究结果来看,人机互动是一个涉及口头语言及非口头语言的交流过程(Verbal and Nonverbal Process)(Braithwaite & Schrodt,2022:179),其“失灵”通常表现为这一过程中的技术(Technic)问题;有效的人机交流最直观地体现在作为语言符号的交互具有连续性,而“修复”则通常体现为解决这些技术问题时所做的微观努力。此外,像现实生活中的人际沟通那样,人与机器(人)也正是在一次次流畅和有效的沟通中来共同生产意义,并由此发展出种种至近至远、至深至浅、至亲至疏又妙不可言的关系。因此,本研究对人机传播失灵与修复现象的观察、归纳与总结,其理论意义至少还体现在两个方面:一是在具体的思考与分析维度上,证明能够从可着手的互动细节或社交线索出发,以修复人机传播失灵、改善人机交流与推动人机关系发展。二是在整体上明确人机传播与人机关系相关问题可借助“发展的”人际传播理论加以解释,并促使HMC研究超越信息论的限制,进入社会科学研究所擅长的领地。

(三)哲学之思:人机共生的社会与人机文明的未来

在分析人机传播主体间相互适应的过程时,关注点会自然而然地延伸至人机关系、情感与更具哲学意义的话题。首先,在试图与机器建立关系时,人类追求的是无障碍互动(王颖吉,王袁欣,2021),期待机器足够智慧、真诚、敏感、有个性且具备同理心,以及像家人那样与自己建立可以“穿越漫长岁月”(胡春阳,2009)的感情与亲密关系。评估这一目标实现与否的标准,在于传播主体的表达清晰度、自我披露程度,以及传播主体彼此间能否采用解释的(Explanatory)而非描述的(Descriptive)方式来个性化地称呼和形容对方(Berger & Calabrese, 1975)。然而,本文所揭示的现象是残酷的——由于声音符号传播过程的断链、误读或曲解,以及身体语言等符号无法被识别、处理和理解,人与机器之间的关系发展受到了较大的限制。换言之,人机传播失灵现象、智能音箱基于数理规则的“千人一面”式反馈,以及“不理不睬”或“蒙混过关”等修复方式,必然在相当长的一段时间内使得人机关系在初始阶段停滞不前。并且,传播双方的“理解”,除强调理性层面的共识以外,还强调情绪与情感层面的互相“看见”、包容与抱持,因此,即便机器学习能在数理上不断趋向完美逻辑,但其所展示出来的词不达意、傲慢与无礼等现象却说明,目前人类与机器之间的所谓“感情”与家庭成员彼此间的亲密感情全然不同,其在相当大的程度上可能只是人类情绪的想象性知觉。

其次,研究结果显示,失灵现象以及机器对其的修复,在更多时候仍然是一个需要解决的客体性问题。因此,可以说,将机器或人工智能技术视为可以改变家庭乃至整个社会结构的传播主体或自主性力量,目前看来依旧只是一种热情洋溢的畅想。退一步说,即便许多产品已经足够智能,具有成为家庭成员、建立人机间亲密关系和改变家庭结构的潜力,但用户与智能音箱等机器互动和建立关系的过程,必然伴随着对“何为人”“何为家庭”以及“何为社会”的省思乃至再定义(Zhao, 2006)。人类现在或许还无法准确预测未来人机共生社会的具象图景,但可以明确的是,这个社会一定需要继承目前人际传播所要求的共情和真诚等普遍准则,以及现实人类社会所共享的平等与互惠等宝贵特质。若人类能就“人际关系是人的主体性的一部分”(Liestøl,Morrison & Rasmussen,2003:398-413)取得共识,那么在放弃机器狂想和技术依赖之后需要正视的迫切问题是人机关系如何影响人的主体性,以及存在于人际关系与人际传播过程中的社会,如何向存在于人机关系和人机传播中的赛博格化社会转变,而这些问题可以依托于人类自身理念得到妥善回答。

再次,在借助家庭场景来透视社会中的机器与媒介技术问题时,许多学者常将机器或技术产品视为可被“家居化”(Domestication,也常译为“驯化”)的对象,认为在摆放、使用和解释技术产品的“家居化”过程中能够以人的意志或需求来改变家庭中的沟通方式和结构(杨雅,苏芳,2022)。但本研究的结果却展现出与这些观点截然不同的微观“身体—技术”政治,体现出了更深层的人机交流秩序隐忧。具体而言,在修复人机传播失灵时,用户(尤其是儿童用户)非但不能随心所欲地支配技术产品,还得主动学习符合机器精准、线性和具有结构性特征的表达与思维逻辑,并在体态、姿势等身体行为上适应技术。更进一步来看,莫里斯·梅洛-庞蒂(1945/2021:34)一直将儿童放在特殊的研究位置,认为儿童没有经受工具理性和科学规训,在认识世界与事物的“本质直观”(Wesensschau)上具有比成年人更明显的优势。但视频资料所展现出的细节说明,就像日常人际传播中的弱势者总需要配合强势者一样,无论是在语言和思维层面,还是在被梅洛-庞蒂视为中介世界与肉身的身体层面,“智能原住民”及其后的世代们在最具日常性的场景中与机器互动时,都将像火烤食物生成了锌和铁等化合物,进而促进大脑与器官的进化那样,在无数个隐蔽的瞬间被迫对技术律令进行“反向适应”(Reverse Adaptation)(兰登·温纳,1977/2004:86-90),并且,一个略微悲观的预期是,其适应速度可能永远也跟不上机器学习的进步速度。因此,在进行人机传播时,如何看待和应对人与作为传播者的机器之间支配互动的内容、程序与结构秩序这一具有精神与文化现代性意义的议题,远比单纯呼唤“人的主动性”和跳出“人类中心主义”更为重要。

结语

以家庭成员在日常生活中围绕智能音箱的“共同媒介参与”为切口,本文对人机传播过程中的失灵与修复等问题进行了探讨,并结合相关理论对研究结果进行了讨论。后续研究可对除父母与儿童外的其它家庭成员进行更全面的考量。同时,未来研究还需进一步回到日常生活的更多场景中,观察、记录和分析人与机器在技术接受、共处、中辍和放弃等不同阶段的体验,以使人机传播更加真切地体现“关系”特质和生命现实。这一过程可能是繁杂的,但在充分交流个人和社会总体体验的基础上,人类能更全面地形成一个关于人机交流、人机关系和人机共存的社会知识库,这将帮助人们克制认识论上的无理由乐观或盲目悲观,将思考的重点转向哪些关于机器与技术的经验值得被继承,又有哪些迷思应该被遗忘。

本文系简写版,注释与参考文献从略,原文刊载于《国际新闻界》2024年第8期。

来源:国际新闻界杂志

相关推荐