AIGC系列回顾与更新(78)

360影视 国产动漫 2025-05-26 17:38 3

摘要:之前我们看过一系列适用反法对数据权益寻求保护的案例,法院在对数据权益进行审查时,都会将数据来源合法性纳入审查范围。主张数据权益的原告,举证时会提交数据来源合法性相关证据,被告答辩时也往往会围绕数据来源合法性、合理使用边界等提出异议。(看完AI模型案就会更新这个

被告曾从训练数据来源合法性角度质疑原告模型竞争权益。

之前我们看过一系列适用反法对数据权益寻求保护的案例,法院在对数据权益进行审查时,都会将数据来源合法性纳入审查范围。主张数据权益的原告,举证时会提交数据来源合法性相关证据,被告答辩时也往往会围绕数据来源合法性、合理使用边界等提出异议。(看完AI模型案就会更新这个系列)

尽管本案中A公司主张权益保护的是模型结构和参数(且未将参数作为数据集合形式寻求保护),不涉及参数集合或者训练数据集合,但其举证也有“数据来源合法——权益基础稳定”的影子:

原告提交《劳动合同》、《外包服务框架协议》及补充协议、员工信息页面、采购订单、研发日志、日漫效果历程文档、AI动漫验收标准文档等证据。这类证据除了可用于支持研发成本、索赔额类主张,也用于支持其训练数据来源相关主张——A公司聘用手绘师对照Faceu软件公开的真人照片绘制50696张漫画,前述漫画数据为模型训练阶段的全部漫画数据。原告提交抖音APP《用户服务协议》相关约定,用以主张“变身漫画特效的漫画数据归属于A公司”。协议规定,“公司在抖音软件及相关服务中提供的内容(包括但不限于软件、技术、程序、网页、文字、图片、图像、音频、视频、图表、版面设计、电子文档等)的知识产权属于公司所有。未经公司许可,任何人不得擅自使用抖音软件及相关服务中的内容”。在B公司质疑其训练数据来源合法性时,也提交相应反证:

B公司认为A公司使用非法获取的人脸照片数据进行模型训练,因违反个保法相关规定而不应属于反法保护的合法权益,为证明其主张,B公司提交下列证据:1)生效日期分别是2017年、2019年的两份FaceU软件服务条款与隐私政策;2)FaceU软件界面截图,拟共同证明A公司训练数据属于非法收集和使用用户个人敏感生物信息。

对此,A公司提交FaceU软件《产品体验报告》、当前(诉讼期间)版本FaceU软件“拍同款”模块中可以看到用户2019年9月25日上传的公开特效照片,拟共同证明:1)2019年版本的FaceU软件具有用户公开照片的选项和路径;2)涉案模型训练数据中的真人数据部分系用户自行公开或合法公开的数据。

如果法院基于举证情况对B公司主张不予支持,审查方法和结论其实都还是比较容易理解的。但是一二审法院是基于以下理由驳回被告主张的:1)一审法院认为训练数据合法性问题不影响在反法下对被诉行为进行评价;2)二审法院则认为,A公司在本案中仅主张变身漫画特效的模型(结构和参数)构成其竞争利益,而B公司并没有提交证据证明A公司获取人脸照片数据的行为与该公司选择并使用何种AI模型的结构和参数直接相关,故对B公司该上诉主张不予支持。

前者与我们以往看的数据权益类案件裁判思路差别很大,后者则存在“直接相关”标准不明的问题。这两种观点都有可能导致“无论训练数据来源是否合法,都不影响最终研发成果——模型的权利/权益保护”这一结果。

尤其是按照二审意见,1)只有在A公司就训练数据主张数据权益时,才涉及对训练数据来源合法性的审查;2)除非B公司能举证证明“获取数据的行为和选择并使用何种模型结构和参数直接相关”,否则,训练数据来源合法与否,不影响AI模型(含结构、参数)权益认定。这里就有两个问题:

“直接相关”是指什么,判断标准是什么,当事人在诉讼中到底要如何举证“直接相关”;以及,认定训练数据来源合法与否不影响模型权益认定,会造成什么影响。

专家证人曾提出,案涉开源模型的原理结构、基本框架相同,但深度训练后呈现的模型会有所不同。如果是证明字面意义上的直接相关,A公司本身关于独创性的主张对软件功能目标、模型功能目标、训练数据收集、模型训练和结构、参数调整等之间如何相互影响、相互作用已经作出说明,尤其是A公司作出说明的目的是为了证明各环节如何在实现“风格化”中发挥作用。

A公司称其在CycleGAN模型基础上调整变身漫画特效模型结构及参数,并利用风格化量产阶段形成的训练数据(手绘师制作的漫画)与相对应的真人数据进行训练,即:1)输入成对数据并根据输出情况(是否得到符合预期的图片)对模型结构和参数进行调整,反复输入、训练、调整(扩充训练数据、手动修复无法调整的漫画瑕疵和算法优化);2)当模型可以生成符合预期的效果时,确定最终的模型结构和参数——变身漫画特效产品最终选用的模型为PIX2PIX模型。真人数据在两个环节发挥重要作用,一是创建训练数据集时,手绘师是对照Faceu软件中的真人照片绘制漫画,数量多达5万余张;二是模型训练时需要输入手绘漫画和相应的真人数据以进行输出和后续比对、调整。

此外,A公司在主张其成像具有独创性时提交了与其他动漫形象、其他动漫化工具成像的比对类证据,在解释比对结果为何会呈现“差异”时也强调“人脸”“真人比例”的作用:

提交和宫崎骏电影漫画人物、阿拉蕾、食戟之灵、境界触发者等动漫形象的比对结果,结果显示二者在构图、人物线条、视觉风格等方面存在显著区别。A公司强调显著区别存在的原因在于这些动漫形象“未拘泥真人比例”;提交和百度智能云人像动漫化平台成像进行比对结果。结果显示在两平台上传、拍摄三幅相同的照片,动漫化后的图像在线条、脸型、肤色、五官、头发等处均有差异。A公司强调其特效以人脸和真实背景为基础,按照真人比例重构五官并进行微调,实现漫画风格实时转化;在具体细节上,A公司特效采用纤细柔和棕色线条勾勒人像,基本呈现真人表情,缩小下半脸比例,调整皮肤色泽为白色,拉长眉毛长度,缩短眉毛宽度,更改眼睛颜色为蓝绿色,以短线条修饰鼻子,适当缩小嘴巴比例,柔化下巴两端及头发纹理、发丝等。

也就是说,原告举证本身也可以显示真人数据在研发过程和效果实现方面的关联与作用。

A公司特效产品面市后并未披露特效模型相关技术细节(当时只披露了巨量运算依托的是其关联公司自研的推理引擎)。从一篇2021年发表的、作者包括A公司关联公司AI团队的论文看(Few-shot Knowledge Transfer for Fine-grained Cartoon Face Generation),人脸转动漫的图像视觉效果比对往往涉及原图像(即真人图像)、生成器的注意力图、鉴别器局部和全局注意力图和图像转换结果图。虽然不确定这篇论文是否与A公司特效产品相关,但结合其他人脸图像转换模型相关论文(比如《人脸-素描合成:一个新的挑战》)也可以看到人脸数据集,尤其是高质量人脸数据集对模型性能优化的重要性。

回到本案,相关举证虽然无法支持A公司主张模型生成内容构成作品,但都显示出:1)A公司在训练数据的收集、处理和使用过程中存在“选择”;2)A公司会基于训练数据的内容、质量以及输出效果,对模型结构和参数进行调整;3)真人数据与漫画数据的比对情况与“选择”和“调整”都“直接相关”。二审在竞争权益认定部分也明确了训练数据对模型训练和提升的作用。

如果这些不属于“直接相关”,那么很有可能会出现“无论训练数据来源是否合法,都不影响最终研发成果——模型的权利/权益保护”的情况,因为在含义、标准不明确的情况下,当事人也不知道如何举证证明“直接相关”。如果价值引导是“模型权益保护的前提是基础模型来源合法、训练数据来源合法”,就需要明确什么是“直接相关”及其判断标准。

另一个问题是,如果A公司举证无法证明其人脸数据来源合法,或者说,无法举证用户授权范围涵盖了“用作训练数据”,那么,将:1)基于人脸图像绘制的漫画用作训练数据;2)输入“漫画-相应的人脸图像”成对数据进行模型训练;3)将输出与预设标准进行比对,以作进一步选择和调整,这些行为是否落入合理使用范围?目前来看,还没有明确答案。

年初汤森路透诉ROSS一案,法院判定ROSS使用Westlaw内容的行为已经不属于合理使用,这一认定在生成式AI议题下被广泛提及,但需要注意的是,法官在裁决意见中也特别强调ROSS的AI不是生成式AI,其意见仅针对非生成式AI(参考本系列55-57),这说明法官意识到生成式AI技术特性和应用层面的差异会对法律适用有影响,在形成统一规则前仍需回归个案判断。提到Westlaw,今天有公众号发布了非法抓取“北大法宝”数据构成不正当竞争案的裁判结果,看完这个案例就继续更新数据权益系列。

明天继续看被告浅触即离的“开源协议”答辩点。

来源:YunfangW

相关推荐