摘要:人工智能技术的发展推动了社交机器人在社会科学研究中的应用。本文从计算传播学的视角出发,探讨社交机器人田野实验的概念界定、方法建构、实验设计及其实际应用,认为社交机器人田野实验结合了大数据分析与仿真方法的优势,已发展为一种高度可控的实验法。社交机器人田野实验为观
本刊官方网站:
摘要
人工智能技术的发展推动了社交机器人在社会科学研究中的应用。本文从计算传播学的视角出发,探讨社交机器人田野实验的概念界定、方法建构、实验设计及其实际应用,认为社交机器人田野实验结合了大数据分析与仿真方法的优势,已发展为一种高度可控的实验法。社交机器人田野实验为观察、分析与理解数字媒体环境中的传播现象提供了新思路,将助力于新闻传播学理论的验证、探索与拓展。在实证研究部分,本文通过社交机器人田野实验对过滤气泡的成因进行了初步探索。研究发现,即使控制了社交机器人账号的阅读行为偏好,其在随机阅读实验后仍可能陷入过滤气泡。
作者简介
吴晔,北京师范大学新闻传播学院教授,计算传播学研究中心主任。
黎樟浩,北京师范大学新闻传播学院博士研究生。
闵勇(通讯作者),北京师范大学计算传播学研究中心教授。
基金项目
本文系北京市社会科学基金项目“全媒体语境下信息流行病学的理论、方法与应用研究”(项目编号:21DTR040);教育部人文社会科学研究规划基金项目“基于社交机器人的跨平台信息茧房形成机制与治理策略研究”(项目编号:23YJA860011)的阶段性成果。
一
引言
实验法根植于自然科学的实证主义范式,旨在高度控制无关变量的前提下,对研究对象进行不同的实验刺激,以探究自变量与因变量之间的关系,检验理论假设或因果命题。实验法对于建立和评估理论至关重要,成为社会科学的主流研究方法(罗俊,2020)。在传播学中,媒体效果相关研究大量运用了实验法。从20世纪20年代起,在佩恩基金会的资助下研究者们采用实验法开展了“电影对青少年的影响”系列研究。卢因(Kurt Lewin)等人将自然实验运用到群体动力学研究中。第二次世界大战期间,霍夫兰(Carl Hovland)等人通过控制实验进行了说服研究。移动互联网的发展,尤其是社交媒体的普及,让大规模线上实验成为可能(Watts,2007),并推动了一系列突破性成果(Bond et al.,2012;Kramer,Guillory & Hancock,2014)。
社交机器人作为一项日趋成熟的技术,能够模拟真实用户的行为。学者们逐渐开始在社交媒体平台中部署社交机器人并开展田野实验(Chen,Pacheco,Yang & Menczer,2021;Ledford,2020;刘河庆,梁玉成,2023)。该方法能够在真实环境中精确控制实验变量,并为研究者提供日志数据,具有检验及拓展新闻传播理论的潜力。本文将系统地梳理社交机器人田野实验相关概念和研究,分析其在计算传播学研究中的发展脉络、优势、应用以及未来展望。
二 社交机器人田野实验的发展脉络及优势
(一)机器行为范式下的社交机器人
机器行为范式强调所谓的“机器”并不仅局限于技术或具体的机械实体,而应该广泛地考察包括所有人工制造的物体及其引发的现象(Rahwan et al.,2019)。在传播学领域,人机传播理论从上世纪90年代开始兴起。纳斯(Clifford Nass)等人在斯坦福大学开展一系列人机互动实验并总结了“计算机为社会行动者”范式(the Computers are Social Actors Paradigm,CASA),在《媒体等同》中进一步阐释了“媒体等同于人”的观点(Reeves & Nass,1996:305)。研究发现人们像对待人一样对待媒体,并根据计算机等媒体表现出来的社会化线索形成一定的社会规则,并上升为无意识行为(Nass & Moon,2000)。学者们在此基础上将交互对象拓展到更多的技术载体中,提出“媒介是社会行动者”(the media are social actors paradigm,MASA)(Lombard & Xu,2021)。张洪忠和王兢一(2023)将机器行为范式引入新闻传播学实证研究中,并将机器行为定义为“人工智能技术参与的信息传播活动”,如通过社交机器人账号设置公众议程。
在机器行为范式下,本文将社交机器人(social bot)定义为一套能自动生产内容并在社交媒体上与用户互动的、试图模仿并可能改变人类行为的算法系统;在实践中,社交机器人账号是被研究者控制的,能通过仿真模拟人类用户以完成曝光、阅读、点赞、评论、转发等行为的虚拟账号。大量证据表明,社交机器人和算法已经成为影响信息传播的关键因素(Lazer,2015;Ferrara,Varol,Davis,Menczer & Flammini,2016)。在计算宣传的背景下,社交机器人常以发布争议性话题(韩娜,孙颖,2022)、干预信息扩散(师文,陈昌凤,2020)和设置特定议程(赵蓓,张洪忠,2023)等负面形象被认知。因此,社交机器人检测一直是计算机科学领域关注的焦点。其中针对Twitter的社交机器人账号识别方法Botometer(Davis,Varol,Ferrara,Flammini & Menczer,2016)被广泛关注和应用。然而该方法的判断结果并非绝对的,以ChatGPT为代表的大模型将使得社交机器人账号更加接近于人类用户的表达方式,进一步模糊二者的界限,以至于人类用户和识别算法都难以区分账号类型(Ferrara,2023)。据此,社交机器人在人机传播中正逐渐扮演传播主体的角色(张洪忠,王競一,2023),成为活跃的社会行动者(Ferrara,Varol,Davis,Menczer & Flammini,2016),并影响着社会规则(申琦,王璐瑜,2021)。学者们认为,如今的社交机器人可以被看成是和人类一样的主体,从“媒介是人的延伸”延伸到“媒介是人”(高山冰,汪婧,2020),甚至成为智能新物种(宋美杰,刘云,2023)。这些研究暗示着搭载人工智能技术的社交机器人在定位和功能上越来越逼近人类,为社交机器人田野实验奠定了理论和实践基础。
(二)作为“第四象限”的社交机器人田野实验
本文认为,在人工智能技术的加持下,社交机器人田野实验(social bot field experiment)已成为一种可控的,能在真实媒体环境进行因果检验的实验方法。此方法遵循实验法的核心逻辑,通过在真实媒体环境中部署社交机器人账号,分析实验组与对照组之间差异,以评估实验刺激或干预措施所产生的影响,揭示变量间的因果关系。如图1所示,以实验环境和实验被试为划分依据,可以将实验研究归为四类(Salganik,2018),其中横坐标表示实验室环境或田野环境,纵坐标表示真人或非人。第一象限为自然实验,第二象限是实验室实验,第三象限为仿真实验,第四象限为社交机器人田野实验(见图1)。
根据罗俊(2020)对不同实验方法的比较,可以从样本代表性、环境仿真度、实验可控性、主试偏差、受试偏差、可重复性、可证伪性、内部效度和外部效度等方面评估上述四种实验(见表1)。社交机器人田野实验在提供真实环境中的随机分组和控制方面具有明显优势,同时相较于自然实验,它还能够降低伦理风险。例如,在2010年美国国会选举期间,研究者改变了Facebook用户的社交媒体信息环境,直接影响了数百万人的政治表达、信息获取以及现实世界中的投票行为(Bond et al.,2012)。若以社交机器人田野实验开展类似研究则能在较大程度上规避风险。然而,社交机器人田野实验也存在外部效度较低等弊端,得到的结论未必能推广到人类用户中。与仿真实验相比,社交机器人田野实验能够获得真实的田野反馈,但也提高了实验成本,例如难以在短期内测试多个不同参数对实验结果产生的影响。
(三)社交机器人田野实验的特点与优势
田野实验结合了田野调查和实验研究的优势,在社会科学中被广泛使用,其主要特点是能够让研究者在真实世界中直接观察和分析自然状态下的现象和行为,从而使得结论更具解释力。社交机器人田野实验承袭了田野实验的特点,同时具备以下四个方面的优势。
1. 日志数据
社交机器人田野实验允许研究者在保护用户隐私的前提下收集社交机器人账号的日志数据。通过分析日志数据,研究者可以重塑信息环境——了解社交机器人在实验过程中被哪些信息曝光,如何参与信息传播过程,如何与其他实体(如人类用户、平台算法)进行交互等。通过识别和分析日志数据中的信源特征、文本特征、社交网络特征、信息消费偏好以及注意力周期序列等,研究者可以挖掘信息传播模式及其潜在影响因素。此外,日志数据可被用于还原社交机器人账号的完整活动轨迹。研究者可以通过追踪社交机器人账号的历时演变,探究产生组间差异的因果机制。
2. 高度控制
当解除实验室环境的限制后,田野实验常难以对无关变量进行高度控制,使得随机误差对研究结果产生干扰。社交机器人田野实验则能满足这一实验设计要求。研究者能够根据实验设计对社交机器人账号的行为进行高度控制。例如,研究者严格控制社交机器人账号的阅读内容,以探究YouTube平台对特定阅读行为的反馈机制(师文,陈昌凤,2023)。除此之外,由于社交机器人账号的每步行为都是可被记录和可解释的,这也为评估和排除无关变量对实验结果造成的干扰提供了可能。
3. 开源复现
可重复性和可证伪性构成了理论建构的两大核心标准。社交机器人田野实验允许研究者预先注册实验流程并公开其源代码。这提高了研究过程的透明度,也便于伦理风险的评估和审查。通过在不同时间内反复对同一媒体平台上进行社交机器人田野实验,研究者能够细致观察并系统记录该平台随时间推移所经历的动态变化,这也为系统地进行荟萃分析提供数据支持。
4. 技术枢纽
相较于脚本程序,社交机器人具有更高的可拓展性。具体而言,研究者能够通过API(Application Programming Interface)接口,为社交机器人账号集成人工智能技术,包括大模型(Large Language Model)、情感分析、主题识别和文本生成等。这使得社交机器人账号能够更准确地对真实用户进行仿真。例如,社交机器人账号可以分析其他用户的发布内容,根据是否符合自身偏好来选择订阅或关注;基于新闻标题的类型快速判断是否点击阅读;利用上下文信息来判断是否转发或生成相关评论等(Min,Jiang,Jin,Li & Jin,2019)。这为社交机器人田野实验的研究设计提供了更多可能。
三 社交机器人田野实验的设计方案
本节首先对社交机器人田野实验的一般设计流程进行了梳理,进而总结了以算法、平台和社群为研究对象的设计方案,以探索社交机器人田野实验的可行性与理论潜力。研究者依据不同的研究对象和问题,可以通过控制社交机器人不同程度的仿真程度和介入方式开展田野实验。
(一)社交机器人田野实验的实施流程
社交机器人田野实验的实施流程主要分为三个阶段(见图2)。在准备阶段,研究者主要负责提取平台用户特征并构建社交机器人的运行环境。通过大数据爬虫、问卷调查等方法,获取用户群体的行为特征、社交关系特征、信息消费特征与人口属性特征等,以完成社交机器人对人类行为的模拟及账号设定。同时,为适应不同的实验平台,研究者需要建构社交机器人账号基本操作API。例如,当YouTube的推荐算法如何影响党派信息的曝光时,研究者需要设计特定的API接口,使得社交机器人账号能够进行“点击侧栏推荐页视频”、“返回首页点击视频”等操作(Hosseinmardi,Ghasemian,Rivera-Lanas,Horta Ribeiro,West & Watts,2024)。据此基础,研究者可根据实验目的,按社交机器人的仿真策略的差异或账号设定的不同进行实验分组。
在实施阶段,研究者对社交机器人账号进行初始化设置后,将其部署至田野环境中并执行实验任务。根据实验任务的不同,研究者采集相应的数据,如社交机器人行为数据、与平台互动产生的数据、以及信息曝光数据等。此外,研究者需定期维护社交机器人的活跃状态和运行环境,以保证实验的可行性。在分析阶段中,研究者根据社交机器人账号的分组情况,对收集的各类数据进行数据挖掘与分析,通过组内变化、组间差异等分析结果回应诸如传播效果评估、人机交互影响、网络社群分析等研究问题。
来源:国际新闻界杂志