摘要:昨天提到二审定性分析有两个细节问题值得关注,一是审查经营者是否就AI模型享有竞争权益时,不能抛开被诉行为而泛谈经营者所具有的竞争优势或交易机会,应当结合被诉行为对于竞争秩序等的损害来判断。二是AI模型领域的商业道德问题。
昨天提到二审定性分析有两个细节问题值得关注,一是审查经营者是否就AI模型享有竞争权益时,不能抛开被诉行为而泛谈经营者所具有的竞争优势或交易机会,应当结合被诉行为对于竞争秩序等的损害来判断。二是AI模型领域的商业道德问题。
反法司法解释第三条第一款规定,特定商业领域普遍遵循和认可的行为规范,人民法院可以认定为反不正当竞争法第二条规定的“商业道德”。
二审法院结合行业实际情况,将AI模型相关领域商业道德界定为——“从事人工智能模型研发经营的企业不得未经许可直接使用他人通过数据训练改进而来的模型结构和参数,此为人工智能模型领域公认的商业道德”。
最近两年,AI模型套壳、抄袭问题备受关注,但现有法律规则、行业规范和惯例对模型权利属性、保护范围、侵权认定规则等尚无直接、明确、具体的规定。二审法院将AI模型的架构、参数等技术比对纳入商业道德判断范围,虽然有观点对比对范围(或者说保护范围)提出异议,但整体审查思路和方法对实务指导意义很大:
对于模型开发运营主体来说,在对模型主张著作权、专利权和商业秘密保护都有明显障碍的情况下,证明对模型开发和运营的“经营投入”“竞争优势”或“交易机会”更具有可操作性——如果连基本经营投入类证据(比如提交相关人力资源投入、技术许可投入、算力资源投入、训练数据投入等证据)都无法提供,做诉的意义也不大,除非有胜诉目标之外的考虑。技术细节层面,明确要保护的范围(比如模型结构和参数方面具体要保护的范围)是可以明确的,一方面可以在取证举证环节高度关注与在先、公开内容或反向工程可获得内容的比对,以及模型效果、功能层面的比对;一方面可以结合证据规则构建证据链。这一过程不仅可以帮助权利人判断权利基础的稳定性、维权可能性,更能有效评估风险——本身是否存在“未经许可直接使用他人通过数据训练改进而来的模型结构和参数”的行为。按照本案二审法院的裁判意见:1)该等行为违反AI模型领域商业道德的行为,具有不正当性;2)该等行为与AI模型领域的市场竞争秩序“直接相关”,技术抄袭导致AI模型市场供求机制、创新机制或者准入机制、价格机制、信息机制、信用机制扭曲的,会被判定为需要进行规制。回顾本案,二审解决的问题是模型技术抄袭判断方法和定性依据问题,明确:1)在AI模型研发和经营过程中,未经许可直接使用他人通过数据训练改进而来的模型结构和参数的行为属于违反商业道德的行为,具有不正当性;2)当该等行为导致AI模型市场供求机制、创新机制或者准入机制、价格机制、信息机制、信用机制扭曲时,会被认定为扰乱市场竞争秩序,需要进行规制。
没有解决的问题是技术抄袭判断标准,换句话说,模型结构和参数哪些相同,相同到什么比例、什么程度会被认定构成抄袭。
AI模型案:结构与参数
本案经技术比对,双方涉案模型的整体网络结构、非相邻子网络连接关系、卷积层层数及升采样位置完全一致,36个核心卷积层中33个参数数据相同,相似比例高达91.7%。尽管被告主张少量参数差异,但法院认定这些差异“对网络性能及最终漫画效果的影响微小,从用户感官角度可忽略不计”,最终一审法院认定B公司模型抄袭A公司模型具有较高的可能性,二审法院认定B公司模型直接使用了A公司模型的结构和参数。
在对模型由结构和参数构成无异议的背景下,有观点对结构、参数各自的可保护性,以及参数比对范围提出异议。
二审判决查明事实部分对“模型结构”和“模型参数”的定义指向分别是“连接方式”和“具体数值”:
模型的结构,是指模型各个组成部分的连接方式,结构、数量、位置和顺序等。模型的组成部分可以包括不同的层(如卷积层、BN层、非线性激活层)、升采样模块、激活函数等等。模型的参数,是通过大量训练和调整形成的成果,是具体数值。如卷积层的输入数据的通道数,输出数据的通道数、卷积核的大小、卷积运算的步长、是否使用偏置以及对图片的填充等等均以参数表示。异议观点认为判决对“参数”的定义不符合深度学习领域的常规理解,其比对的“参数”属于模型结构层面的“超参数”——事先设定好的、不会根据模型训练而改变的模型架构层面的参数。基于以下因素,异议观点认为本案应当比对的是“权重/偏置(Weight/Bias)参数”:
参考杨立昆对深度学习大模型的定义:“大模型包括两个部分,一是代码,实际上代码相对简单,没有太多创新之处;二是模型的训练和权重,这是开发中的重要部分,目前主要由大公司完成”。其中“代码”实际上指的就是模型架构,杨立昆认为这部分“相对简单”,原因在于很多基础架构在上世纪80年代末就已经完成,且很多经典架构(例如ResNet, Transformer)都是开源的。模型抄袭认定中真正应该比对的是神经网络经过训练得到的神经元之间的“权重/偏置(Weight/Bias)参数”(即上述定义中的“训练和权重”)——对于大规模神经网络(比如LLM)而言,权重/偏置参数需要耗资巨大的训练过程才能获得。本案原告在开源版的CycleGAN基础上进行“再训练”,应当具体比较原被告模型之间的权重参数,而非被当作模型参数的“超参数”。有作者在讨论欧盟立法下AI模型的数据库保护路径时,对模型结构和参数的解读也提出超参数属于架构层面,真正寻求保护的是“权重参数”。作者认为:
与软件开发者编写的计算机程序不同,AI领域的机器学习模型大多依赖于通过大量数据训练所形成的庞大人工神经网络。通常,此类模型采用“变换器架构”。这些模型并非由个人进行编写或编码,而是通过自动化的训练过程自动生成。在数据预处理完成且架构确立(训练前模型所具备的特征与特性称为超参数)之后,计算机需经过漫长的过程和高昂的成本投入,从而“自发”地获取知识。最终成果,即所生成的模型,包含两个文件——一个简洁的运行文件,用于模型运作(包括模型架构);另一个则为更大的参数或参数文件(以浮点数形式表示)。权重是描述网络神经元之间连接关系的数学表达式。正如Martin Andres所言:“在机器学习领域,权重便是一切——其为经过几周甚至几个月的系统训练后,所获得的终极‘宝藏’。”回到本案,判决全文没有提及“权重参数”“超参数”字样,从代理人办案手记看,原告方注意到这个问题并且认为专家比对时已经涉及“权重参数”。具体情况明天看。
来源:YunfangW