袁雨晴、陈昌凤 | 道德物化:大模型人机价值对齐的技术伦理进路

360影视 2024-12-05 11:00 4

摘要:以ChatGPT、Sora为代表的大模型在语料库、人工标注编码等方面存在着政治、性别、种族等方面的偏见,使得人机价值对齐问题成为关注的焦点。新一代人工智能带来的价值观和伦理问题,已经成为关乎人类未来的紧迫而重大的论题。人机价值对齐有何思想源流?有哪些研究的面向

【摘要】以ChatGPT、Sora为代表的大模型在语料库、人工标注编码等方面存在着政治、性别、种族等方面的偏见,使得人机价值对齐问题成为关注的焦点。新一代人工智能带来的价值观和伦理问题,已经成为关乎人类未来的紧迫而重大的论题。人机价值对齐有何思想源流?有哪些研究的面向?有怎样的理论路径和实践指导?本文从现实语境和理论基础出发,从道德物化的新技术伦理进路中探究人机价值对齐问题。道德物化通过发掘技术的道德能动性,将抽象的道德观念嵌入具体的技术结构与情境中,提供了一种内部的、技术伴随性的伦理思路,从而寻求人机价值对齐的三大路径:价值敏感性设计、构建人工智能道德体以及强化算法审计。

【关键词】大语言模型;人机交互;价值对齐;智能伦理;道德物化

一、问题缘起:大模型中的偏见投射

人工智能历经数十年的发展,在21世纪第二个十年开始,进入了破局创新的新阶段,并终于跨越技术奇点:具备高可用性、高拟人化的预训练大模型横空出世。2022年11月30日,OpenAI发布了新型聊天机器人ChatGPT,它能结合上下文语境完成内容生成、文本翻译、代码编辑等多种任务;2023年3月14日,ChatGPT迭代至GPT-4,具备了更高的内容生成以及识图、生图能力;2024年2月15日,OpenAI又发布了大模型Sora, 它根据用户的提示文本创建约60秒的逼真视频,进一步深化了对物理世界的模拟。从ChatGPT到GPT-4再到Sora, 大模型实现了从文生文、文生图向文生视频的极大跃升。与此同时,谷歌的Gemini, Anthropic的Claude、xAI的Grok, 以及脸书、百度、字节跳动、腾讯、阿里等的大模型等也在不断升级,中国在2023年以来在爆炸式发展中涌现了至少二百个大模型,生成式人工智能的第一家上市公司“出门问问”已于2024年4月下旬在港交所挂牌上市。

大模型如火如荼的发展,意味着其应用的不断推广。在大模型赋能社会生活各个方面的背景下,我们也有必要警惕其中存在的价值偏见风险。大模型的基础是机器学习,包括三类,简而言之即:一是无监督学习,系统从被给予数据中学习理解,找到模式、规律来提炼、呈现;二是监督学习,系统从被给予已分类或标记的例子中学习,习得模型然后对未见过或不清楚基本事实的例子进行预测;三是强化学习,系统在有奖惩的环境中学习,找到最小化惩罚和最大化奖励的最优方法。这些学习均会带来价值偏见的问题。

已有研究显示,计算机系统内存在着对特定个人或群体系统性的、不公平的价值歧视。弗里德曼(Batya Friedman)和内森鲍姆(Helen Nissenbaum)提出了以下三种偏见类型:第一是既有的偏见,即在计算机技术系统产生以前,人类社会中已然形成和树立的道德伦理价值偏向,会映射到计算机的程序中——通过无监督学习或监督学习或强化学习,均会将既有的价值观带入到系统中,生成偏见性内容。有学者通过实证研究发现ChatGPT总体上代表了西方的、受过教育的、工业化、民主观的的价值观。还有学者运用模拟实验,让ChatGPT扮演政治角色,以政治罗盘的方式测量出ChatGPT代表了左翼的立场,诸如美国的民主党、巴西的卢拉以及英国的工党等党派。这些研究揭示出以ChatGPT为代表的现阶段大语言模型可能会扩大系统性的政治偏见以及现有政治进程的风险与挑战。第二是技术性的偏见,这主要是由计算机系统内硬件和软件的技术标准、规范等因素形成。OpenAI在最初发布时训练大模型主要使用Common Crawl大型文本数据集,Sora现阶段的视频语料包括了Youtube、电影等来源。这些互联网数据本身就难以覆盖全面的用户群体和地域。在监督学习中,人工数据标注阶段,参与训练过程的标注编码人员及研究人员由于其主观偏好、编码解读、操作失误等多种因素还会形成标注偏差。第三是突发性偏见。该偏差主要产生于计算机系统在应用于真实具体的情境时,由于社会文化环境的变化对计算机的价值适用性的新要求而导致。在ChatGPT发布初期的4个月内,研究显示,当ChatGPT分别应用于美国、日本、中国、法国、德国的交流语境时,它对美国文化的理解性和适配程度更高,生成的内容也体现出低权力区分、高个人主义、低不确定性规避、注重生活质量、弱男性气质、强调短期的美国价值导向。

随着大模型日益与人类的日常生活、创意创造、思想文化逐渐产生深层互动,成为智媒时代的基础设施,其内嵌的偏见也使得“人机价值对齐”(Human-Machine Value Alignment)成了一个重要的问题。早在20世纪60年代,维纳就描述了价值对齐的问题:机器的目标,即我们真正想达到的目标。人机价值对齐就是让人工智能系统的目的与其设计者和用户的意图相契合,或与普适价值观、客观道德标准相契合。相关研究发现,没有经过对齐的大模型在面临简单的道德选择判断时,只有60.2%的准确率。

价值观偏向对人类将会形成严重的威胁,人工智能带来的价值观和伦理问题,已经成为关乎人类存亡的重大问题。如何确保那些模型捕捉到我们的规范和价值观,理解我们的意思或意图,并以我们想要的方式行事,已经成为计算机科学领域最核心而急迫的问题—即“人机对齐问题”。2023年7月,Open AI宣布成立了一个名为“Super alignment”(超级对齐)的项目组,旨在四年内构建一个值得人类信任的、接近人类水平的自动对齐研究员,让大模型更加得可靠安全。2024年1月,OpenAI又成立了“Collective alignment”(集体对齐)团队,吸纳更多来自社会学、哲学、经济学等人文领域的学者专家通过社会人文的途径研究对齐问题。

人机价值对齐有何思想基础和源流?人机价值对齐有哪些重要的面向?能否寻求人机价值对齐的理论路径和实践指导?本文主要从现实语境和理论基础出发,并从道德物化(materializing morality)的技术伦理观中,探寻人机价值对齐的理论和实践指导。

二、人机价值对齐:哲学基础与多重面向

(一)技术价值论:人机价值对齐的基本假设

技术、工程是否关涉人类价值观?谷歌的前资深工程师尊格(Zunger)曾指出,人们有时会忽视工程技术与人类社会、人类规范和人类价值观的密不可分。他在2017年写道:从本质而言,工程就是合作、协同以及与同事和客户的共情。人机价值对齐有个基本和前提,即:技术是有价值负荷的,并非中立和价值无涉的,这是技术价值论的核心观点。技术价值论是技术哲学中的重要思想流派之一。技术的主要思想流派—技术决定论、社会决定论和社会互动论者,则从不同的视角解释了技术价值的不同来源。

一是技术的价值来源于其内部复杂的系统。这是技术决定论的立场。法国著名的哲学家埃吕尔(Jacques Ellul)认为,技术的价值只能由技术所构成的复杂系统所赋予,而且该价值的衍生和变化也都只能由技术自身的发展逻辑决定,不受人类的控制和约束。随着现代科技的日趋精益化,技术的力量并不仅仅在于革新而迸发出的生产力,而是多项技术整合联结后产生的新能力。技术已经演化为复杂的黑箱系统,加大了被人理解和操控的难度。埃吕尔还提出了“技术社会”的概念,在技术社会中,技术不仅仅是某个具体的工具,而是抽象为一种技术文化现象,用以形容力量和效率,身处其中的人们极易形成一种“技术无意识”的状态。无独有偶,技术哲学家兰登·温纳(Langdon Winner)使用“技术律令”(technological imperative)一词来指涉由技术形成和衍生的结构,需要人类配合一整套工具、制度、体系,甚至是环境的重建,这是技术自主性和政治性的集中体现。由于人们无法完全预料技术的走向和发展,只能调整自我的节奏和目标来反向适应技术的变化。其他领域也有不少持这类观点的人士,如著名互联网预言家凯利(Kevin Kelly)、著名经济学家阿瑟(W.Brian Arthur)、著名历史学家赫拉利(Yuval Noah Harari)等。

二是技术的价值来源于人类的意识外化。这是社会决定论的立场。马克思的丰富思想被不同技术思想流派引用。虽然其著述中没有明确提及“技术”一词,但是通过他对工业、机器大生产等现象的分析,可以窥见他的技术思想。技术是人类生命意向的外在投射,是人物种生命的客观化,是人改造自然、不断实践的中介和体现,其效益和力量来自于人类作为实践主体的存在。而科技发展的本身就是在模塑人对象化的本质力量。技术不仅是一种效率增益的工具,还折射出人类世界的价值取向与社会关系更深层的内在规定,表征了部分社会属性。因此,我们不能仅仅从表面的有用性角度来理解科技的最新成果,以至于忽略了技术本身在模塑人的价值观。马克思还警醒我们不能被技术所“异化”,而是要在技术的加强中实现人的解放和全面发展。同样地,马丁·海德格尔(Heidegger)点明了技术的本质是对人类主体性的展现,技术能够揭示和解蔽人类的存在方式,以此展现它的强大能力。作为一种实践性的人类活动,需要了解技术的社会性使用方式,在工具性的整体处境和文化性的社会处境中实现对技术的诠释。

三是技术的价值来源于技术具体的设计和使用情境,体现了社会互动论的思想。以布鲁诺·拉图尔(Bruno Latour)为代表的STS(Science, Technology, and Society)学派注重科学、技术与社会的互动,反映了后人类主义的价值论立场。拉图尔通过对美国的一个神经内分泌学实验室进行民族志的考察,发现实验室是一个自然与社会相互交织的知识生产场域。以促甲状腺激素释放因子的科学研究为例,他得出科学事实建构并非是一件纯粹、客观和自然的过程,而是由科学家之间的关系权力结构、实验室规章制度、基金支持、通过投资垄断排除竞争对手等多种社会因素共同决定。科学事实得到“承认”是政治、商业、文化、社会、个人性格、法律等一切偶然因素共同磋商的结果。由此,他参与提出了行动者网络理论(Actor-Network Theory, ANT),将技术视为具有能动性的非人行动者(non-human),与其他包括人类、思想、观念、机构等在内的行动者之间是一种地位平等的、去中心化的状态,它们共同参与构成了异质性的、动态变化的网络。技术所带来的正面或者负面效用,则取决于技术和不同行动者之间进行转译(translation)的过程。行动者之间通过问题呈现、利益赋予、征召以及动员等转移过程,为每一次网络的变动带来了不同的影响。行动者网络理论打破了“人-物”二元对立、主客二分的本体论与认识论,有机调适了技术决定论和社会决定论的断裂。

(二)一致性、社会化与中介性:人机价值对齐的多重面向

机器学习已经通过计算机科学深度融入了从神经科学、心理学到社会科学乃至人文学科。“人机价值对齐”也成为多学科共同探究的重要领域,并且从不同视角可以形成多重面向。在大模型的语境下,计算机科学、社会学以及传播学对人机对齐就有着不同的解读和阐释。

从计算机视角出发,人机的价值对齐主要是指大模型所输出的结果与人类的价值观相一致。而价值不对齐产生的原因可能来自大模型系统内理想规范、设计规范以及展示规范三者之间的差异。2022年,Science Robotics期刊聚焦了“人机如何进行实时双向价值对齐”的问题,通过设计一个人机实时协作的互动游戏,提出了一个可解释的人工智能(Explainable Artificial Intelligence, XAI)系统,阐述了一种机器实时理解人类价值观的计算框架。

在社会学视域下,人机价值对齐的本质是AI的社会化过程。让AI通过“镜中我”的方式,在他人的反馈和评估中不断校正自己的行为,从而逐步习得人类社会的价值观。这也是目前ChatGPT等大模型所采用的基于人类反馈的强化学习的训练方式。在这个过程中,由于AI不断提升自我学习能力,人类将经历与“弱人工智能→通用人工智能→超级人工智能”的对齐过程。AI的社会化不仅限于和人类进行互动的过程,也是不同AI模型互相习得价值观的过程。目前,有学者构建了一个“模拟社会”,让丰富多样的大模型在该空间内自由地交互反馈,不断矫正行为,进行“印象管理”,给彼此留下一个较好的印象,从而收获社会化的价值。

从传播学的角度思考,可以引入“中介性”的概念。人机价值对齐实则是人与人之间的价值观经过大模型这一中介代理后能否保持一致的问题。深入来看,大模型学习的是互联网上人类实际大量输出的内容,而输出的结果被要求符合人类普世的道德价值偏向。因此,大模型成为人类价值观传播的一个重要渠道和中介,实现的是应然层面的人类价值观和实然层面的人类价值观、全球性的人类价值观以及地方性的人类价值观之间的对齐。这本质上是“价值”这一传播内容在不同传播主体之间进行传播的过程。例如:大模型设计中的价值和真正使用中产生的价值能否实现从设计者到用户之间的无缝传递?实际上,大模型中介会因为数据集偏差、数据质量、算法权重、语义理解等技术因素,以及价值观的多义性和模糊性等文化因素的干扰,产生熵增,难以达到完全的对齐。而“对齐”意味着价值传播效果的衡量。对齐的程度越高,则价值传播的效果就越好。

不同学科的理论资源为人机价值对齐提供了不同面向的理解。AI价值对齐涉及意图对齐、行为对齐、激励对齐以及内在对齐等多个层次。在此基础上,人机价值对齐主要包括了以下的三阶目标:首先是确保人工智能系统的安全性,减少人工智能伤害人类行为的可能性。其次,是进行人机之间的信任校准。人类如果对人工智能信任不足,则无法最大化发挥其效能;但如果人类完全相信人工智能,就可能引发人工智能欺骗、操控等伦理问题。因此,需要保持人机信任的动态平衡。最后,是形成人机之间的有效协作机制。基于安全和信任的前提,人类与机器将协作高效完成多项任务,最终达到人机共生的理想状态。

三、道德物化:

人机价值对齐的技术伦理思路

技术哲学自发展之初,经历了三次重大转向:20世纪90年代,经验转向以技术价值论为核心,通过面向社会以及面向工程的方式,关注具体、微观的技术与社会的互动关系,从大写的技术聚焦到小写的技术;2010年左右,随着新技术应用日益广泛,社会亟需评估其潜在的风险和负面效应,伦理转向则加强了对技术发展和伦理学道德要素内在关联的考察。如今,技术哲学的第三次转向——内在转向(又称“物”伦理转向)有机融合了具体的技术经验与抽象的伦理原则。道德物化就是代表性的理论之一。

道德物化理论是由荷兰技术哲学家维贝克(Peter-Paul Verbeek)提出的一种积极伦理学的思路。维贝克在阿特胡斯(Hans Achterhuis)提出的“将装置道德化”、“物质伦理学”的物理空间基础之上,引入了赛博关系、复合关系等人与技术的关系,进一步丰富了道德物化理论在信息伦理领域的应用。不同于卢卡奇笔下人被外物奴役、主体性被剥夺的消极立场,道德物化的核心是指将抽象的道德观念通过合理恰当的技术设计嵌入到具体的技术结构、功能和使用场景中,使得技术能够对人类的道德认知、道德判断、道德选择以及道德行为产生积极的引导和规范作用,从而让无形的道德被物质化铭刻,这也是人类在日常的生产生活中践行道德的一种技术方式。以乘客系汽车安全带为例,在美国早期的一些汽车设计中,如果不系安全带将无法打火,汽车会不断报警并发出提示音,直到乘客系上为止。通过对技术环境的恰当设计,引导人们遵守一些社会道德规范。作为现代技术伦理的新发展,道德物化的以下三个主要特征将为人机价值对齐提供有意义的思路。

(一)技术的道德能动性

维贝克受到了拉图尔(Bruno Latour)等学者对非人行动者能动性思想的启发,主张开放性的人技关系,认为技术物并不是一个被动的、消极的、任人使用的工具,而是具备一定的道德能动性,能够引发人类善良或者罪恶的行为。调节(mediation)是维贝克思想中的重要概念,也是技术道德能动性的重要体现。减速带是维贝克经常说明的例子——通过在道路上设计减速带,降低司机的行驶速度,提高驾驶员出行的安全性,更加道德地遵守路上的交通规则。又如,在美国,有一座“种族主义天桥”,建筑师将天桥设计得十分矮小,主要是为了便利乘坐私家车的白人通行;而生活拮据、只能乘坐公共汽车的黑人则被阻止通过。技术通过高度的设计形成了种族道德歧视。在维贝克看来,技术不仅能够调节人类如何感知世界的方式,也能够调节世界如何呈现给人类的样态。用红外相机凝视一棵树,原本通过裸眼观察到树的大部分特征消失了,同时,由红外相机这一技术中介透视出的新特征呈现给了人类:树的健康状况。技术通过知觉转化或者行动转译的方式对经验或者实践进行调节。正如唐·伊德(Don ihde)提出的:技术能够运用知觉调节的方式,产生人与技术的具身、它异、诠释和背景的四种关系,从而参与形构了人类的经验。在具身关系中,技术犹如海德格尔的“锤子”,抽身而去,以透明的方式,仿佛和人的具身合为一体,形成“(我-技术)-世界”的关系;在它异关系中,技术是梅洛庞蒂形容的羽饰,借助工具来拓展微观知觉,本身就成为了一个关注的对象,形成“我-技术-(世界)”的关系;在诠释关系中,人本身能够意识到技术,但是会把技术解释成为其他东西,形成“我-(技术-世界)”的关系;在背景关系中,技术作为宏观知觉成为了背景,构成了“我-技术-(世界)”的关系。不同于唐·伊德归纳性地总结整合人与技术的关系,维贝克从规范性的理论建构出发,以“调节”之概念,勾连起人与技术的主体性问题,探讨技术如何形塑人类的道德经验。

意向性是技术道德能动性的基础。然而,技术的意向性是不稳定的、多样的以及潜在的,包括了赛博格式的、复合型的以及增强的意向性。客观上,技术由于缺乏意识,在调节的过程并不能完全被设计者和用户识别所有的作用。人类也并非一味地受到技术的物律约束和规训,而是通过与技术的互动调节中,实现价值的对齐和主体能动性的建构。因此,道德物化的结果是将非人类实体也纳入到道德共同体中,有可能产生“人-技”道德实践的复合型意向主体,通过人技共构,结合道德自律和他律,形成道德共律的规范力量。

(二)作为内部的技术伦理学

不同以往的技术哲学将技术视为一种外部性的、侵入式的对象和力量、人类世界敌对的整体现象进行审视和评估,认为技术是对人类道德品质本真性以及现实存在的意义性的威胁,从而将技术领域和社会伦理领域分离和割裂,使得伦理学成为了一种人类社会独有的领域。维贝克认为应当发展一种“内部”的技术伦理学,使得设计者、技术物、使用者、使用情境都在一个内在的整体中进行着道德伦理实践。伦理并非是技术外生性的产物,而是原发性地、内在于技术的底层逻辑和发展方向。技术有助于形塑我们的道德实践和生活质量,为人们的道德判断提供相应的决策信息。技术的道德意蕴变成技术发展的一个显性要素,技术调节本身就蕴含着某种道德相关性。维贝克以一种交互性的后人类主义的内部性视角重新思考人与技术的关系,打破了主客二分的对立观点,顺应了技术日益渗透社会生活的趋势,具备一定的统摄性与整合性。亚里士多德(Aristotle)认为“技艺”是一种以善为目的的理智德性。同样地,道德实践也不能仅仅依靠形而上学的理论准则和精神资源,而是要与技术及其相关的物质环境相关联,技术在这其中兼具了行动者和条件的双重角色。

(三)技术伴随的过程转向

维贝克提倡技术伴随(technology accompaniment)的观点,认为技术与人类是伴生的,技术是人类一部分的条件,构成了现代人类根本性的境遇,因此我们必须学会与它一起生活,在与技术的关系中形成自身。我们不应当仅仅关注人与技术的差异性,而是要寻求关联;不能仅从技术产生的结果出发,进行道德规范和伦理反思,而是应当在技术的设计框架、结构功能以及使用场景等多个流程过程中嵌入公序良俗的道德观念;不能仅仅发展道德判断的一些理论和语言框架,还应当包括道德物质基础设施的设计与维护。同时,我们需要认识到伦理学不仅仅是一种对行为结果的反思性思辨,更是一种参与过程的实践。技术伴随并非抹平人与技术之间的界限,而是要借助技术改善人性,以正确和负责任的方式形成人与技术之间的自由关系以及相互共存的品质。

维贝克借用了影视学中“脚本预演”的概念。正如脚本规定着演员在舞台上的表演,技术也在规定着人们的行为及相关的使用情境。通过让设计者预先设想技术的应用场景和用户的使用情境来制定理解和评估技术影响的框架。这需要设计者具备一定的“道德想象力”,超越具体的自我和情境的约束与限制,在理解技术如何形成和影响人类实践、社会交往关系的基础之上,综合考察与权衡利益相关者可能产生的行为倾向,以更为宽广的伦理和道德感受能力,创造性地预测超越技术基本功能之外的应用场景。由此,工程师和伦理学家将道德价值“授权”给技术人工物。当前,随着虚拟现实技术的逐渐成熟和应用普及,仿真模拟的新型方法能够帮助设计者对技术的调节分析进行虚拟再现,前置多种利益攸关者的道德价值判断与选择,从而及时调整技术的道德调节作用,实现对技术意向性的积极建构。

(四)警惕“技治主义”去道德化风险

道德物化理论提醒我们当社会出现道德危机时,不一定全部是因为人类的道德水平出现了问题,有可能一部分是由于人与技术之间存在着“文化滞后”,技术没有及时更新道德观念所致。因此,协调和弥合工具理性和价值理性之间的鸿沟,有助于解决道德危机。

与此同时,我们也需要警惕“道德物化”背后隐含的“技治主义”(technocracy)的家长制风险。技治主义又称技术专家治理主义或者技术统治主义,主张技术至上,专家治国,以先进的科技作为权力的集中体现和管理方式,容易滑向极端的唯科学技术倾向。在承认和利用技术对人类的引导和改变的同时,人类也异化为技术的玩物。因此,应当以用户可理解的透明度为原则,让公众积极参与技术设计的民主协商过程,避免让技术专家和技术律令主导了道德价值的导向,维护和捍卫人类的自由道德意志。

此外,道德物化并不等于去道德化,让技术取代道德的位置,以技术的复杂性来消解道德的责任感,瓦解人类的道德信仰。而是通过技术的道德调节作用,进一步明确抽象的道德含义,使其更好地被技术理解和采用。道德物化既非助推也非操纵,而是借用技术为人类提供更为自由的选择。从这个层面来说,道德物化进一步拓展了人类道德责任的场景和边界。

四、实践指导:价值敏感性设计、

人工智能道德体与算法审计

道德物化理论为人机价值对齐提供了除法律强制自律、道德他律以外的另一种可能——道德的人技共律。学者在“道德物化”的框架下,构建了“ChatGPT的信息伦理道德价值系统”,包括在认知与经验层面以“安全、可信、可控、提升效率”为主的规范性道德价值,在判断与评价逻辑方面以“公平公正”、“社会责任”为主的道德价值思维;还有在道德动机和道德需要层面以“信息素养”和“以人为本”为主的道德价值观。具体到实践,价值敏感性设计、构建人工智能道德体以及强化算法审计是三种可行的路径。

(一)价值敏感性设计

价值敏感性设计(Value-Sensitive Design)是技术哲学中工程创新实践的进路,主张在技术设计阶段就将抽象的伦理价值进行具象化与可操作化,前置性地、建构性地植入到人工物系统中,从而实现“价值偏差”的最小化。价值敏感性设计可以成为道德物化的前置阶段。例如在20世纪90年代的美国,人们对网页浏览侵犯隐私的顾虑极大提升,因此,工程师们便将“用户知情并同意”的机制引入到浏览器页面中。价值敏感性常见的方法有利益相关者分析、价值来源分析、价值维度的可扩展性评估、价值敏感性的行为反射模型、在线知情同意模型等。目前,价值敏感性设计已经被广泛应用于自动驾驶、增强现实、核技术、普适计算等领域。

价值敏感性设计需要综合概念性、经验性和技术性的“三方方法论”。在概念层面,应当对人类社会的道德价值进行哲学层面的思辨和概念工具的整合;在经验层面,可以运用社会科学、统计学或者心理学中的问卷、访谈、文献、认知测量等研究方法将人类的道德价值观进一步量化,得出操作化的指标;在技术性层面,需要借助计算机技术,将量化后的指标通过技术性的方案设计开发融入到人工智能的硬件和软件系统中。

具体在大模型的技术语境中,我们首先需要识别利益相关者,包括了大模型研发公司、算法工程师、人工数据标注师、使用者等直接利益相关者,以及工作或者生活受到大模型影响冲击的群体等间接利益相关者;还应当关注算法、算力、数据等非人类利益相关者。在此基础之上分析和明确利益相关者的价值来源和互动关系,对道德价值的合理性、关系的冲突性等因素进行有效的平衡,明确“为何对齐”、“和谁对齐”以及“对齐什么”的问题。其次,寻找能够物质化规范价值的方式方法,从“过程性”的视角入手,在道德价值相关的数据集、人工标注编码规范、指令微调、上下文学习、优化函数、基于人类反馈的强化学习、提示词矫正、评分模型等方面,通过奖励攻击、错误目标、权利追寻等技术性操作,解决“如何对齐”的问题。再次,需要设计者具备一定的道德想象力,思考在创意文本、文本翻译、信息搜索、视频图片生成等不同的情境中使用者的认知、态度和行为能够体现何种道德品质,出现何种道德风险,大模型在道德调节中起到何种作用,并通过脚本或者仿真的方式对大模型的价值情境进行调节分析,这个过程可以融入到大模型的“预训练”过程中,进行“模拟对齐”的尝试。接着,对大模型的设计者责任、对人类自由的影响、对社会民主的威胁等一系列因素进行评估,制定“对齐效果”的测评体系,并且以“用户可理解的透明度”提高对齐策略的可解释性,打破“算法黑箱”。最后选择一种设计,兼具技术功能与道德价值功能,进行“价值对齐”的实践。以上过程可以反复迭代,在不断与人类进行交互中达到一种价值对齐的动态平衡。

(二)构建人工智能道德体

摩尔(Moor)提出了“人工智能道德体”(Artificial Moral Agents)的概念,用以指涉具有自主性和道德伦理敏感性的人工智能代理,它们能够根据道德原则和规范,在复杂的或者模糊的情境中避免不道德行为或者从事有道德行为。人工智能道德体有望应用在无人驾驶车辆、智能房屋、类人机器人等领域。而构建人工智能道德体,有助于将大模型的评估从具体的效率、风险指标评估向抽象的道德价值层面扩展,不仅降低道德风险,还能促进人类与大模型之间的协作。

对人工智能道德的关注可以追溯到艾萨克·阿西莫夫(Isaac Asimov)提出的“机器人三定律”:(1)机器人不得伤害人类,或者看到人类受到伤害而袖手旁观;(2)机器人必须服从人类的命令,除非这条命令与第一条相矛盾。(3)机器人必须保护自己,除非这种保护与以上两条相矛盾。机器人三定律主要是从消极自由的角度出发,以“不作恶”为底线约束机器的行为。

而随着大模型智能化的涌现,人工智能道德体需要具备道德理解能力、道德诊断能力、道德矫正能力和道德维持能力。从积极自由的角度出发,激发大模型“主动行善”的能力。道德理解能力是大模型能够准确理解用户输入指令、交流反馈中涉及的道德价值内涵。尤其是在以中文为代表的高文化语境中,如何准确理解内容的表层含义以及隐喻指涉含义之间的异同,是一项重要的难题和任务。道德诊断能力是当大模型面临着多元道德价值冲突、多重利益攸关者的立场冲突时,能够综合各方面因素进行最优判断的能力。例如,大模型往往能够在面临人类直接的道德询问时展现出“无私中立”的立场,但是在一些复杂隐性的故事写作、推理逻辑判断时,会不经意间泄露偏见。这是今后应当优化完善的方向。道德矫正能力是大模型适应复杂灵活、丰富多样的社会文化情境、降低大模型突发性偏见、不断自我完善的重要能力之一。当大模型做出错误的价值选择和判断时,能够根据用户的提示语或者上下文语境及时调整答案的道德倾向。以及让大模型通过自我强化的无监督学习进行“纠错”,提高价值对齐的可扩展性,从而实现自动的价值对齐。道德维持能力主要是指大模型增强内容生成的稳定性。目前,大模型在面对同一问题时,经常出现多个差异化的答案,随机性较强。未来应当增强模型的一致性和稳定性。与人工智能道德体相伴而生的是人工智能道德编辑师。一方面,他们可以通过形式化的逻辑道德推理、启发式的搜索或者案例推理的方法,帮助人工智能道德体提高道德能力。另一方面,在确保大模型可调自主性的同时,必要时接管智能系统的控制权,从而确保大模型的有效运行以及用户的满意度。

(三)强化算法审计

算法审计是指对算法的运行逻辑进行直接或间接的审查,并行代码规则、社会价值以及公共秩序等方面进行修复,常被用于测量算法代码中隐藏的阶级、种族、性别等维度的歧视。算法审计以逆向工程的方式系统解析黑箱逻辑,从而对算法形成的价值偏见进行客观的测评。审计的主体不仅包括由研究者、技术专家以及政策制定者在内的专业性的、自上而下的、合作众包式的审计,也涵盖了由用户发起的、适用于日常生活场景的集合性审计。多重利益相关者的参与,使得算法审计成为了一种内外部结合的有效监督方式。目前,在新闻传播领域,算法审计主要应用在搜索引擎与推荐算法等技术。作为道德物化的反馈阶段,常见的专业性算法审计方法包括了以下四种:一是代码审计,以回溯敏感函数和通读代码的方式从基础层内部进行审计,这种方式能够从源头深入地了解算法的运行逻辑,但是要求算法系统的代码必须是开源和公开的;二是爬取审计,反复输入、测试模型算法,并对输出结果进行监测,从外部进行审计,该方法对数据获取权限要求较高,在目前互联网各大平台日益收紧外部的数据爬取权限的背景下,该方式具备一定的难度;三是代理审计,通过编程模拟大量“虚拟”用户的行为与真实的算法系统进行交互,该方法目前在的科研中应用较多,学者们运用“计算实验”的方法,通过手机号或者IP代理,对大规模的用户行为模拟进行深入分析,但是该方法中的用户为虚拟设置,可能会对审计结果形成一定偏差;四是协作审计,通过招募真实的用户与算法系统交互,获取相关输出结果进行审计,该方法能够真实还原算法的使用场景,从终端进行分析。但是,招募成本也相对较高。而用户的日常算法审计则主要包括以下三大步骤:首先是需要识别算法的问题所在;其次,通过共同体社区构建、专业技术声援和共享相关知识的方式连接支持的网络;最后,启动对算法的漏洞修复,通过数据的声明和话语之间的协商,完成算法审计的效果。作为一种对“技术无意识”的有力抵抗,算法审计也能够在一定程度上有效规避“技治主义”的风险。

算法审计,是推动大模型日益向行业模型(垂类模型)应用化过渡落地的重要环节。针对大模型的算法审计应当是全生命周期的,以“面向过程”的动态算法审计为主要思路,对大模型在需求、设计、开发、生成、应用、监测、反馈等环节有可能存在的各类偏见风险都应该进行溯源审计与治理,设计模块化方案,提高审计明确的可操作性。尤其增强对其在前端开发过程中的模型构建和数据库的审计,这是以往审计容易忽视的环节。具体而言,在专业审计方面,对大模型涉及的数据集构建方式和认证方式、数据质量把控、数据和模型分类方式、模型敏感词识别、内容真实性等进行技术性地审计评估。正如我国在《生成式人工智能管理条例》中要求的,开展数据标注质量评估,对标注内容的准确性进行抽样核验。在日常生活审计方面,为大模型用户畅通在不同使用情境中的评分反馈通道,优化“基于人类反馈的强化学习”。将人机之间的道德价值融入到审计机制中,重点关注大模型可能产生的“价值幻觉”等算法和伦理风险。此外,对大模型的审计不应要求一味地打开全部的黑箱。而是在“风险-收益”的理性框架下,平衡商业利益与伦理准则,结合大模型具体的使用情境和审计需求,采用分类分级的的审计思路,灵活选用审计方式,并设计相应的审计奖励机制,形成一种良性、反向的公共赋权动态循环,有助于对大模型的价值纠偏,以及计算基础设施的修复和重建。

人机价值对齐是大模型走向强人工智能进程中所要面临和解决的重要挑战。道德物化理论在充分发掘技术道德能动性的基础之上,提供了一条内部性的、技术伴随性的现代技术伦理的调适之路。未来,随着道德价值观的时代变化性和技术的飞速迭代涌现,人机价值对齐将是一个持续性的动态优化过程。

袁雨晴,清华大学新闻与传播学院博士生;

陈昌凤,清华大学新闻与传播学院教授、博士生导师;

原文刊载于《南京社会科学》2024年第6期,参考文献从略,引用请参考原文。

本文转自 | 数字交往

来源:雷霆战神王

相关推荐