摘要:生成式人工智能,作为人工智能技术的一个分支,是基于生成对抗网络(GAN)、预训练大模型、多模态技术融合的产物,通过已有的数据寻找规律,利用泛化能力形成相关内容。2022年底,随着美国OpenAI公司推出的以通用大语言模型为底层技术的聊天机器人Chat⁃GPT在
郑悦迪
编者按:习近平总书记强调,人工智能是新一轮科技革命和产业变革的重要驱动力量,加快发展新一代人工智能是事关我国能否抓住新一轮科技革命和产业变革机遇的战略问题。在数字化浪潮席卷全球的今天,生成式人工智能(AIGC)的迅猛发展正深刻改变着内容创作、传播与利用的方式,同时也对传统知识产权法律体系带来前所未有的挑战。AI生成内容是否构成作品?训练数据使用是否构成侵权?平台责任如何界定?这些问题已成为关注焦点。在今年知识产权宣传周期间,本报特别推出两篇专题文章——《生成式人工智能著作权纠纷的司法应对》与《生成式人工智能平台侵犯信息网络传播权的裁判路径》,聚焦生成式人工智能的司法应对主题,展现人民法院在平衡技术创新与权益保护中的智慧与担当,让技术发展始终运行在法治轨道上。敬请关注。
□ 郑悦迪
武凡熙 作
生成式人工智能,作为人工智能技术的一个分支,是基于生成对抗网络(GAN)、预训练大模型、多模态技术融合的产物,通过已有的数据寻找规律,利用泛化能力形成相关内容。2022年底,随着美国OpenAI公司推出的以通用大语言模型为底层技术的聊天机器人Chat⁃GPT在社交媒体上走红,国内各大科技企业也纷纷加入人工智能大模型技术竞争行列,开始加快相关产业布局,例如百度“文心”大模型、阿里巴巴“通义”大模型、腾讯“混元”大模型、华为“盘古”大模型、字节跳动“豆包”大模型等均是国内人工智能大模型研发应用领域的成功范例。2025年年初,由我国人工智能初创企业DeepSeek 开发的大语言模型R1问世并迅速火爆全球,让世界重新审视和理解中国创新模式与路径。
人工智能是引领新一轮科技革命和产业变革的战略性技术,具有溢出带动性很强的“头雁”效应。人工智能的“头雁”效应不仅有助于实现技术变革、推动产业深度转型升级,更是当前加快培育新质生产力的重要抓手。当前,生成式人工智能正在逐渐渗入传统的文学艺术创作领域,极大增强了人类文艺创作实践的深入程度、涉及广度和具体内容的复杂程度,在丰富人民群众精神文化生活,促进教育科学文化事业发展繁荣的同时,也带来了一系列法律问题,对立法、司法提出了新挑战。
一、生成式人工智能的可版权性
《最高人民法院关于审理著作权民事纠纷案件适用法律若干问题的解释》第十五条规定,由不同作者就同一题材创作的作品,作品的表达系独立完成并且有创作性的,应当认定作者各自享有独立著作权。司法实践中,对该条要求的“创作性”的理解已基本达成一致,即对表达的安排是否体现了作者的个性化选择、判断。既有案件对生成式人工智能独创性的认定也遵循了这一标准,重点考察用户在使用生成式人工智能系统辅助创作过程中,是否对文字、线条、色彩等表达元素作出了选择与安排;不因使用了人工智能工具而否定生成内容的可版权性,但依然坚持“以人为中心”的基本理念,区分人的创造性智力贡献与机器的智能功能,进行个案认定。
关于生成式人工智能独创性认定的宽严尺度,美国版权局近期发布的报告《著作权与人工智能(第二部分):可版权性》反映了从严把握独创性标准的态度。该报告认为,用户反复修订提示并不能改变输出过程的工作原理,无论是一次还是多次,用户都无法控制输出中的表达元素;用户最终确定选择的输出内容只是其对人工智能系统解释的接收,不是包含表达的创作。这与美国法院曾经在涉及新技术的知识产权授权标准问题上走过弯路有关。其早期对待商业方法专利采取过度开放的政策,导致严重的不正当竞争后果,甚至引发金融危机。
对我国法院而言,坚持既往案例衡量生成式人工智能独创性的思路和基准,适当收紧赋予生成式人工智能著作权保护的条件更为稳妥。
二、生成式人工智能著作权的归属
若认可具有独创性的生成式人工智能能够构成法定作品类型,则作品原始权利归属是接下来需要解决的法律问题。司法实践中,对此问题经历了从“研发者所有”到“使用者所有”的演变过程。“Dreamwriter”案系早期观点的典型代表,该案判决认为,案涉作品系软件研发团队主持创作的法人作品。研发团队在数据输入、触发条件设定、模板和语料风格取舍上的安排与选择属于与案涉文字作品特定表现形式之间具有直接联系的智力活动,Dreamwriter软件的自动运行并非无缘无故或具有自我意识,其自动运行的方式体现了研发者的选择。这一时期,计算机软件根据研发者预设的算法与模板,经过数据筛选与函数计算自动生成内容,决定其表现形式与表达元素的主要因素是研发者确定的软件运行规则。
近两年来,引发著作权法律纠纷的生成式人工智能的技术原理显然不同,以神经网络为核心的深度学习算法存在“黑箱”,并基于概率学知识增加了输出内容的随机性,使模型研发者对生成内容的支配力相对减弱。新技术背景下,当使用者将人工智能模型作为创作工具,按照自己的审美标准和个性判断,对表达细节进行选择和安排时,生成内容体现了使用者的意志,司法裁判倾向于认定生成式人工智能著作权归属于模型使用者。
三、生成式人工智能服务提供者的著作权侵权责任
民法典规定的网络服务提供者间接侵权主体是技术提供者,而非内容提供者。由于对侵权内容生成和传播的控制程度不同,生成式人工智能服务提供者既可能是技术提供者,也可能是内容提供者,二者的区分需要根据技术支持模式和所处开发应用阶段进行个案认定。
生成式人工智能平台提供相应技术的支持模式主要有三种类型:第一,模型开发与应用服务一体式平台,基于自主开发的基础模型部署具有集成功能的人工智能服务,以Deepseek、ChatGPT等为典型代表;第二,先接入第三方技术提供的预训练大模型,再经过自己的训练后,向特定市场提供执行具体任务的生成式人工智能服务平台;第三,直接调用第三方的大模型而不进行自主性训练的服务平台。对于具有网络技术服务提供者和信息内容提供者双重身份的生成式人工智能平台,需要区分不同的行为类型分别适用不同规定。第三种模式下的生成式人工智能平台未参与模型训练阶段,只是发挥了生成式人工智能网络传播媒介的作用,属于技术服务提供者,可适用“避风港规则”,存在主观过错的,应承担间接侵权责任。
在直接侵权语境下,生成式人工智能与人类创作的作品,或者受著作权法保护的生成式人工智能作品与被诉侵权作品,是否构成实质性相似的认定,原则上适用传统作品实质性相似的判断标准和判断方法。在间接侵权语境下,生成式人工智能服务提供者主观上知道或者应当知道用户行为是侵权行为,客观上为他人实施侵权行为提供了帮助,涉及服务提供者承担的注意义务和主观过错、责任承担方式的认定,及“避风港”规则的适用。
网络服务提供者的主观过错包括对网络用户侵害信息网络传播权行为的明知或者应知。在生成式人工智能应用场景下,以深度学习算法为核心的大模型,可以在学习训练数据的基础上,自我调整模型内部参数或权重。该技术特性决定了即使参与算法设计和模型开发的团队也无法预见,包含具体作品的输入数据对于输出内容是否有特别影响或特别价值。囿于人工智能系统有限的可解释性和透明度,仅充当信息通道的网络服务提供者更加不具备能够预见和控制系统运行结果的信息管理能力,因此不能因未采取预防性的内容过滤或屏蔽措施,就笼统认定其具有主观过错。而且,“应当知道”主观认知状态的认定要与行业惯例及平台信息管理能力相契合,这也是用于判断网络服务提供者主观过错标准之一的“红旗标准”的内在要求。
网络服务提供者应承担的注意义务,不仅来源于法律规定,也来源于网络服务提供者与网络用户达成的服务协议。《生成式人工智能服务管理暂行办法》《互联网信息服务深度合成管理规定》《人工智能生成合成内容标识办法》等对服务提供者应尽的注意义务如建立健全投诉举报机制、潜在风险提示、显著标识等,作出了明确规定。此外,生成式人工智能服务提供者是否应当承担一定程度的版权过滤义务,是值得探究的议题。现阶段,要求生成式人工智能服务提供者尽到输入端和输出端的主动过滤义务,在技术上和经济上的可行性受到质疑。更何况特定类型的输入及其对应的输出是否构成著作权侵权,依然存在较大争议。贸然就此为生成式人工智能服务提供者设定过滤义务,会减损人工智能产业本应发挥的社会福利增进效应。
生成式人工智能服务提供者原则上适用“通知-必要措施”一般规则,其特殊性主要体现在“合格通知”和“采取必要措施”要件的认定方面。司法实践经验表明,通知书记载的信息足以准确定位被诉侵权作品时,可认定为有效的通知。人工智能技术原理中采纳了概率学的知识,导致其输出具有一定的随机性,可重复性受到较大制约。向生成式人工智能系统输入相同提示词,很有可能会得到不同的输出,特别是在输入开放性极强的文学艺术内容提示词时,该特征体现得尤为明显。故此,对于权利人提交的侵权通知,生成式人工智能服务提供者采取所属领域的常规做法和普通技术手段可以确定被诉侵权内容的生成原理的,则该通知属于合格的通知。个案中,网络服务提供者接到侵权通知后应当采取何种处理措施、履行何种注意义务,是由案涉网络服务平台的技术原理所决定的。例如,以API调用模型方式提供技术服务的生成式人工智能平台,对于从输入指令转化为输出内容的模型处理过程缺乏控制力,关于其接到侵权通知后应当采取的必要措施,平台在尽到转通知义务的同时,针对生成式人工智能包含的特定元素启动输出端过滤措施,可以获得豁免侵权责任的机会。
生成式人工智能服务提供者版权间接侵权采取过错责任原则。网络服务提供者的主观过错是就具体侵权行为而言,基于“主客观相一致”原则,其实施的帮助侵权行为以及承担的“停止侵害”责任也应当是就具体侵权行为来说的。因此,生成式人工智能服务提供者只就诉讼中权利人举证证明的利用平台已生成的或者即将生成的侵权内容,以删除或断开侵权内容、关键词过滤等技术手段承担停止侵害责任。
四、模型训练的合法化路径
关于生成式人工智能大模型语料训练是否构成著作权侵权,理论界及产业界围绕合法化路径展开讨论,提出了不同的立法或法律解释方案,主要包括以下几种:
(1)机器学习、数据训练本质上属于非表达性使用,不构成著作权法上的侵权行为。
(2)模型训练过程中对海量作品的使用,不会影响原作品的正常使用,也不会不合理地损害著作权人的合法权益,理论上应当属于合理使用范畴。
(3)机器学习对他人作品的复制只是临时复制,或者并非以传播作品为目的,不侵犯著作权。然而,著作权直接侵权的归责原则系无过错责任,不考虑行为人的主观过错,因此模型训练者是否以传播为目的复制作品不影响其侵权与否的认定。在技术层面,人工智能模型训练对数据的使用,虽然多数情况下因节省存储空间、提升数据安全、减少隐私风险的需要,将在短期内从本地或云端存储设备上删除,但不排除特殊情况下,为了模型持续优化、再训练使用而将训练数据长期甚至永久保留的可能性。可见,模型训练复制存储训练数据的时间长短,视使用目的和管理策略不同而调整。具体案件中,不能将模型训练使用作品行为不加以技术区分,一概认定为临时复制而豁免侵权责任。
(4)相较于合理使用制度,法定许可制度的优势在于缓解产业矛盾和弥补市场失灵。著作权法规定了四种法定许可情形。在立法未新增法定许可情形的条件下,司法认定机器学习和数据挖掘为法定许可没有法律依据或者法律解释的空间。此外,训练数据对模型性能的价值在于量而非质,一般的许可费率计算方法和基准可能无法充分补偿作者,制约创新激励效用的发挥。明确的付费标准和可行的支付方法是法定许可制度顺利实施的必要保障。
(5)无论是法定许可,还是一揽子许可,均需借助著作权集体管理组织配合执行许可使用费的收取与转付等合同事项。生成式人工智能大模型技术的发展方向之一是多模态,要求训练数据类型多样化,包含文本、图片、音频、视频等,它们对应的作品类型将分别归入不同的著作权集体管理组织职能范围,海量训练数据“取得授权难、付费使用难”问题是采纳著作权集体管理路径绕不开的障碍。即便针对模型训练数据这种特殊对象,成立专门的著作权集体管理组织,由于受到《著作权集体管理条例》第七条第二款第二项的限制,新成立的集体管理组织与既有集体管理组织各自的业务范围仍需进一步厘清。另外,因实际操作中难以就规模庞大的训练数据集取得事前授权,若实施著作权集体管理延伸制度,或称“选择- 退出”机制,可能会使其在运作效率、透明度和垄断嫌疑方面遭受更多非议,更重要的是该制度制约了著作权人原本应当享有的私权。因此,我国立法机关对此采取尤为谨慎的政策。
着眼于解决涉人工智能模型训练行为定性的法律依据问题。目前,司法实践中可供选择的路径是认定构成非表达性使用或者合理使用。前者因人工智能模型训练将数学计算方法与表达元素处理交织在一起,模糊了“思想”与“表达”的界限,采取该路径认定模型训练行为的合法性对法官的技术知识储备提出了较高要求。后者则聚焦于著作权法第二十四条第一款列举的十二种使用情形,其中存在解释空间的作品使用情形仅限于“科学研究”。虽然该项规定的复制行为只能是“少量复制”,但是基于目的解释方法,此处的“改编、翻译、播放、少量复制”行为以不超出科学研究需要为限。海量训练数据是人工智能模型训练的基石,预训练的通用模型可供各市场主体接入服务,或经微调后开发专业模型,应用潜力巨大。数据输入、模型训练阶段的数据使用行为,比后续数据输出和内容生成传播阶段的行为具有更强的公益性。因此,笔者认为可以考虑从宽解释“科学研究”合理使用情形下“少量复制”的含义,并且对数据训练主体作扩大解释,不论模型部署、产业应用落地后是否会带来商业利润,仅在模型训练阶段将所有科技企业和研发团队均视作科研人员。
在我国新一代人工智能发展战略的统领下,生成式人工智能著作权纠纷司法政策的确立是具体案件中明确裁判规则、统一裁判尺度的根基。强化原创作者的著作权保护,激发全民创新活力、源源不断产出优质的原创性内容,不仅是社会主义精神文明建设的必要保障,更是新技术持续发展的基础原料。在人工智能产业与原创内容产业博弈中,通过法律解释与法律适用,维系二者利益平衡,是司法机关服务保障新质生产力发展、知识产权强国建设的重要内涵。总之,知识产权制度“以人为本”的基本理念从未发生改变,准确把握生成式人工智能技术原理,理论坚守与规则调适并重,借鉴与整合传统网络著作权侵权判断规则,是司法实践直面技术挑战,推动著作权法治建设的理性探索。
(作者单位:国家法官学院)
来源:蚌埠检察