摘要:OpenAI旗下的视频生成模型Sora一经正式开放使用,旋即引发国内外科技爱好者和音视频创作者的广泛讨论。自2024年2月Sora初次发布公测视频后,各类文生视频、图生视频模型纷纷上线,其中便包括海螺、即梦、混元等国产大模型。竞相研发视频大模型的现象映照出人工
OpenAI旗下的视频生成模型Sora一经正式开放使用,旋即引发国内外科技爱好者和音视频创作者的广泛讨论。自2024年2月Sora初次发布公测视频后,各类文生视频、图生视频模型纷纷上线,其中便包括海螺、即梦、混元等国产大模型。竞相研发视频大模型的现象映照出人工智能技术的快速迭代与创造性应用,也提示着诸多问题与隐患的存在。
原文 :《以发问与鉴别应对人工智能技术挑战》
作者 | 中国传媒大学 刘俊/教授 贾奕星/硕士研究生
图片 | 网络
当下,人工智能技术在中国的飞速发展受到内生动力和外部压力的双重影响,前者筑基于有力的政策支持、完备的产业结构和高水平的人才队伍之上。自2017年印发《新一代人工智能发展规划》以来,中国政府不断在人工智能的研发和应用上投入大量的财力、物力,支持和引导人工智能技术赋能新型工业化生产。人工智能专业在高校的纷纷开设,更无疑为人工智能人才的规模化培养奠定了坚实基础,使得更多优势人才能够投入到人工智能技术的研发和应用上。而与此同时,美国在科技研发上对中国的限制也在倒逼中国企业摆脱对西方技术支持的依赖,不断开拓着自主研发的边界。截至2024年,我国的生成式人工智能领域专利申请量超过3.8万件,居世界首位,中国在诸多AI创新领域展现出足以与西方抗衡的实力。
当然,人工智能技术在以一日千里的速度加速迭代的同时也凸显出两个亟待回应的现实问题。其一是目前看来较为显性的问题,即人工智能技术下的内容生成高度依赖使用者的发问能力,即发问成为内容生产当中的核心机制。其二是更需迫切应对和未雨绸缪的问题,即深度伪造技术的广泛应用呼唤鉴伪技术的跟进和使用者鉴别能力的提升。
机器代笔:智能生成下的发问机制
毫无疑问,人工智能技术深刻改变了人类生产信息内容的方式。从前,人们执笔记录,起决定作用的是对世间万象的疑惑和凝思,所用之笔固然必需,但终究不过是归纳和显影思想的工具。而今,信息内容生产者的笔不再是毛笔、打字机或电脑键盘,而是转型为具备自主生成能力的“神笔”。人们在写作短文和生成视频时,不再需要逐字敲打和逐镜拍摄,只需向大模型提问和发出指令,便可得到相对可靠的回应。
当然,发问式的生成机制并不意味着信息内容生产不再具有区分度,任何提问者都能借助大模型得到理想的结果。以视频生成为例,如果提问者并不熟悉视频拍摄的光学属性和影像语法,便无法通过准确的发问令大模型满足他心目中模糊的视觉期待。因此,人工智能加持下的文字和音视频生产,将更加考验使用者在专业素养支撑下的发问能力,提问水平的高低将直接影响着信息内容生产的质量和格调。
同时,虽则人工智能技术可以依凭人的发问完成“代笔”,但在信息内容的评判端,把关和判断的主动权仍旧在人,取决于由人的思考能力和判断能力所统摄的媒介素养、认知素养、审美素养和价值素养。因此,当人工智能技术发展足够成熟时,我们将迎来的不仅仅是人工智能模型、大数据之争,更是人工智能使用者的素养之争。
从当下发展态势来看,人工智能大模型能够较为周严地解答那些便于检索和推算的具体问题,但对原创性的、高度抽象问题的思考尚且停留在初级阶段。因此,当下的信息内容生产者若不想为人工智能取代,便要在发问时有意识地从太过具体的问题中跳脱出来,转向对复杂问题的深度思辨。
因此,在笔者看来,未来的大模型用户亟需留意对以下三类问题的思考:第一是真问题,即能够真实切中社会疑难的问题,而非空泛的观点输出和材料堆砌;第二是大问题,即回应人类发展历程中深层困惑的哲学命题,而非常识性的科普;第三是元问题,即对发问的本体性展开思考,追寻问题本身的意义。当然,对真问题、大问题和元问题的发掘并非空穴来风,而是建立在问题意识的培养上,其根基仍然是基础性的阅读。
在人工智能看似能够回答一切问题、知识迅速贬值的境况下,有针对性的精读和深读应当被视作发问能力培养的必要环节。日本数学家新井纪子在其著作《当人工智能考上名校》中提出,在与人工智能共存的社会,阅读能力的培养将使得人们葆有自学能力和求知欲,而这才是使人无法被人工智能替代的关键。可以预见,自主学习和灵活发问的能力,将成为未来人工智能之争,以至人工智能使用者素养之争的重要决胜点。
眼见非实:深度伪造下的鉴别机制
相比生成端的发问机制,人工智能在其传播与接受端所展现的鉴别机制,则因牵涉更广泛的社会议题受到更加迫切的关注。其鉴别机制的形成,建立在人工智能技术尤其是文生视频、图生视频技术不断成熟的情况下,深度伪造的信息内容日渐增多,已在一定程度上影响到信息接受者的认知和判断。
当前,许多通讯稿、推广文章乃至中短视频看似行文活泼、画面逼真,实际上却都是由人工智能生成的。有时,这些机器生成的信息内容会在不显眼处自我标注,说明“此视频由AI生成”;但普遍的情况是,如不做特别要求,这些信息内容则会自我伪造,令观看者预设其确是由真实作者撰写和拍摄的。
由此,一种对“事实欺骗”的警惕将在观看者的内心当中深埋,“眼见为实”的观念遭到瓦解,不实影像的泛滥将对个人信誉、新闻伦理和政治格局产生不可估量的影响。如果说,深度伪造在电影制作中尚且具有造梦的功能,能够通过对年老演员的年轻化面容生成,带给观众视觉惊奇与独特的审美体验,那么深度伪造由虚拟影像向日常生活的逼近,则愈发重塑着信息传受格局与社会秩序。意大利媒介理论家西蒙尼·纳塔莱在其著作《媒介的欺骗性:后图灵时代的人工智能和社会生活》中指出,相比恶意欺骗,人工智能的“庸常欺骗”,其实更能够通过潜移默化的方式,日常性地影响人们的身份认同和自我建构。
在深度伪造技术不断“乱人耳目”的情况下,人工智能的鉴别机制构建显现出鲜明的重要性和紧迫性。
一方面,音视频鉴伪技术需要紧跟深度伪造技术的发展,以快速、高效的技术手段迅速识别虚假视频,从而尽快切断虚假视频的传播链条,在伪造内容掀起舆论、引发风波之前澄清事实。当前,深度伪造的音视频内容,虽然可以在声音、口型、动作等方面以假乱真,但在微表情及步态的连贯性生成上,尚且与真实影像存在差距,因此对帧间一致性、行为模式和生物特征等方面的技术性检查,将成为鉴伪过程中的关键。这里值得提及的是,目前许多深度伪造的中短视频,并非由文字或图片直接生成。深度伪造技术在对某一人物进行仿像生成时,需要在深度学习此人音视频资料的基础上,对与此人样貌、体态相近的“演员”进行动作捕捉,从而计算出以假乱真的数字分身。这样真假参半的深度伪造内容,无疑对鉴伪技术提出了更高的要求。
另一方面,在技术之外,人的主体性也是鉴别机制中的关键因素。鉴伪技术虽然能够相对快速和准确地鉴别信息内容的真伪,但判断权始终不应在机器,而应在人本身。面对愈加成熟的深度伪造技术,信息内容的接受者应当不断提高媒介素养与知识储备,充分发挥人的主体性,批判性地对可疑信息内容做出来源分辨,从而最大限度避免为深度伪造内容所欺骗。同时,行业主体和传播平台也应秉持技术向善的原则,及时鉴别和限制深度伪造使用者,维护用户及消费者的信息和隐私安全。
文章为社会科学报“思想工坊”融媒体原创出品,原载于社会科学报第1938期第6版,未经允许禁止转载,文中内容仅代表作者观点,不代表本报立场。
本期责编:潘 颜
《社会科学报》2025年征订
点击下方图片网上订报↓↓↓
严肃的人工智能研究慎用拟人化概念 | 社会科学报
见地 | 生成式人工智能为教育现代化带来新契机
来源:社会科学报