Copilot案背景:开源、社区与AI训练数据

360影视 2024-12-08 10:47 4

摘要:程序员诉微软、GitHub和OpenAI案中,原告在2022年11月3日诉状开篇概述就给“AI写代码”定位在“软件盗版的勇敢新世界”,逻辑是——GitHub 2008年创立时的目标是“支持开源开发”,特别是通过在其网站托管开源代码,基于这一理念,GitHub在

程序员诉微软、GitHub和OpenAI案中,原告在2022年11月3日诉状开篇概述就给“AI写代码”定位在“软件盗版的勇敢新世界”,逻辑是——GitHub 2008年创立时的目标是“支持开源开发”,特别是通过在其网站托管开源代码,基于这一理念,GitHub在接下来的10年里取得巨大成功,吸引了近2500万开发者;微软在2018年10月26日以75亿美元收购GitHub时也称“微软热爱开源”,但后来情况就有所变化:

微软在2019年7月按200亿美元估值向OpenAI LP投资了10亿美元,2020年成为OpenAI GPT-3语言模型的独家许可方,2021年开始通过微软Azure云计算平台提供GPT-3;2021年6月,GitHub和OpenAI推出了基于AI的产品Copilot,通过使用AI提供或填充代码块来协助软件编码人员;2021年8月10日,OpenAI推出可以将自然语言转换为代码的Codex产品并集成到Copilot(OpenAI在2015年12月成立后不久就开始开发Codex,并在2021年8月限量发布);2022年6月,Copilot开始按10美元/月或100美元/年向用户收费。

Copilot和Codex是提供给程序员的基于AI的辅助系统,都是基于大量公开可访问的软件代码和其他材料进行训练的。尽管被告对AI训练数据保密,但他们承认训练数据包括大量公开可访问的GitHub存储库中的数据。Copilot输出的文本源自原告和集体诉讼成员的许可材料,却未按照许可条款和法律规定保留版权信息:

软件开发者在GitHub上发布代码时会选定相应的开源许可协议,许可协议通常会约定共享代码时要保留署名信息,原始作者的姓名、版权声明和许可条款;例如:

1)本案原告Doe1是加州居民,在至少一个GitHub存储库中发布了其拥有版权利益的许可材料,选择的开源许可协议是MIT许可和GNU通用公共许可版本3.0。原告Doe 2是伊利诺伊州居民,发布许可材料时选择的是MIT许可;GNU通用公共许可版本3.0;GNU Affero通用公共许可版本3.0;三条款BSD许可和Apache许可2.0。

2)上述许可条款均要求保留署名信息。

DMCA1205条要求保留版权管理信息CMI;被告违反许可条款和相关法律规定,在Copilot输出中无视、移除了软件开发者的署名、版权声明和许可条款信息,被告使用Copilot分发已匿名化的代码,就好像它是由Copilot创建的一样,这侵犯了成千上万——可能数百万人——软件开发者提供的许可,从而实现了前所未有的软件盗版规模;Copilot的目标是——拿走开源代码并将其保留在GitHub控制的付费墙内,以此取代大量开源代码。尽管GitHub曾承诺永远不会这样做,但它最终还是违反了程序员选择的开源许可协议,将代码货币化。

因此,原告Doe 1和Doe 2代表自己以及所有其他类似情况的人,对被告GitHub、微软和OpenAI提起集体诉讼,指控被告违反《数字千年版权法案》(17 U.S.C. §§ 1201–1205)(“DMCA”);违反《兰哈姆法案》(15 U.S.C. § 1125);违反《不公平竞争法》(Cal. Bus. & Prof. Code §§ 17200等);违反《加州消费者隐私法案》(Cal. Civ. Code § 1798.150)(“CCPA”);以及违反开源许可协议、GitHub隐私声明和服务条款(Cal. Bus. & Prof. Code §§ 22575–22579,Cal. Civ. Code § 1798.150);对原告合同关系的侵权干预;关于敏感数据处理的欺诈和疏忽。

原告的指控主要针对OpenAI和GitHub,起诉微软主要是因为Copilot产品运行在微软Azure云平台上,微软销售、推广和分销Copilot(微软利用Copilot推广Azure平台能力,尤其是AI能力),而且微软基于收购、投资在组织结构上对其他被告有相当大的控制力。

在事实指控部分,原告主要围绕以下几点展开论证:

Copilot和Codex没有向最终用户提供有关代码原始作者的任何署名,也没有关于他们的许可要求的任何信息。用户没有办法知道他们必须提供署名、版权声明或许可证文本的副本。

1)原告认为Codex和Copilot从提示到输出的工作方式类似,用举例的方法论证二者均输出未经许可的版权材料、不遵循适用的开源许可协议;

2)Codex相关示例取自Marijn Haverbeke的《Eloquent Javascript》,其适用的MIT许可规定“上述版权声明和此权限声明应包含在所有软件副本或软件的实质性部分中。”原告通过示例提出以下观点:

A.每个Codex的输出实例都是从其训练数据中派生出来的;

B.大多数训练数据由许可材料组成;

C.Codex不会像人类那样“编写”代码,因为它不理解代码的含义;

D.Codex没有识别版权所有者,也没有在输出中附加版权声明或任何许可条款——这是被有意设计的——Codex没有被编码或训练以跟踪或复制此类数据,而大多数开源许可都要求署名、版权通知和提供许可条款。

3)Copilot示例取自Curinga,其适用的GNU许可虽然不是GitHub建议的协议之一,但同样包含类似的署名条款,即“您可以在任何媒介中复制和分发文档,无论是商业性还是非商业性,前提是在所有副本中再生产此许可、版权声明和许可证声明,以及您在该许可下不添加任何其他条件。”原告提出,如果Copilot用户在公共GitHub存储库中找到了此代码或在其最初发布的书中找到了它,他们会同时找到GNU自由文档许可,并了解其条款。Copilot为用户找到了代码,但省略了许可条款、版权声明和署名。这种做法会允许其用户假设代码可以无限制地使用。

Copilot和Codex在版权材料上进行训练,这些材料是根据许可提供的;

被告将大量材料输入Copilot和Codex作为“训练数据”,这一过程中会注意到他们复制的代码上附有许可条款、版权声明和/或署名,但Codex和Copilot没有被编程为将署名、版权声明和许可条款视为法律上的必要——被告故意选择加快Copilot的发布,而不是确保它不会提供非法输出。

被告在Copilot倾向于产生非法输出的情况下推出产品:

1)被告GitHub和OpenAI没有提供关于训练数据的详细信息,但二者声明这两个系统都是在公开可用的GitHub存储库上训练的;

根据OpenAI的说法,Codex是在“来自公共可用来源的数十亿行源代码”上训练的,包括“公共GitHub存储库中的代码”。类似地,GitHub描述了Copilot的训练材料为“数十亿行公共代码”。GitHub研究员Eddie Aftandilian在最近的播客中确认,Copilot是“在GitHub上的公共存储库上训练的”。

2)GitHub技术支持部门虽然对训练数据作进一步澄清,但其声称的“在公共代码上训练模型被广泛接受为合理使用”是不正确的,无论这个概念在机器学习社区的接受程度如何,在联邦法律上都是违法的;

GitHub在澄清时表示“Codex(Copilot使用的模型)的训练是由OpenAI完成的,而不是GitHub”;使用“公共可用数据”(public available)进行训练在机器学习社区中被认为是合理使用(fair use)……“OpenAI对Codex的训练是按照允许使用公共可访问材料进行计算分析和训练机器学习模型的全球版权法进行的,并且不需要这些材料的所有者的同意。这些法律的目的是使机器能够使用版权作品学习和理解,就像人类历史上所做的那样,为了确保公共利益,这些权利通常不能被选择公开其材料的所有者限制。”

GitHub前CEONat Friedman在2021年6月Copilot发布时也表示“在公共数据上训练ML模型是合理使用。”原告认为其说法纯属猜测,没有法院考虑过这一问题,合理使用抗辩只适用于第501节版权侵权,并不是违反DMCA、合同违约或原告这次提起的其他指控的抗辩事由,不能用于免责。

3)其他开源利益相关者也已经关注这一点,例如,软件自由保护协会(SFC)在2021年6月要求微软和GitHub提供“GitHub公共法律立场的法律参考”,但任何被告都没有提供任何参考。

除了前述示例,Copilot还经常输出逐字复制的版权材料——在没有遵循适用的开源许可协议、未保留署名、版权声明和许可条款的情况下,即使使用GitHub自己的度量和最保守的可能标准,Copilot也至少违反了DMCA数万次,法定损害赔偿额约为9000万美元至9亿美元。

1)为支持上述观点,原告在这里补充了三个示例:Copilot逐字复制了游戏Quake III的著名代码,该代码使用规则适用GPL-2.1协议;复制了在仅允许用于免费游戏并要求署名的许可下发布的代码,但在输出时没有提及也没有包含底层许可;德克萨斯A&M大学计算机科学教授Tim Davis提供了许多示例,说明Copilot在没有许可或署名的情况下复制了他的代码。

2)原告在估算损失时,援引GitHub发布的相关数据,即:

GitHub内部研究表明,Copilot大约1%的时间会输出和训练数据中的代码匹配的代码片段(超过~150个字符);2022年6月,Copilot拥有120万用户。

3)在此基础上,原告采取以下计算方式,预估法定损害赔偿在9000万美元至9亿美元:

如果只有1%的用户曾经收到基于版权材料的输出,且只有一次,被告“只”违反了原告许可1.2万次,然而Copilot每次输出版权材料都没有署名、版权声明或许可条款,违反DMCA三次,共计违反DMCA 3.6万次;

违反DMCA第1202条的法定损害赔偿额是每次“不少于2,500美元或不超过25,000美元”(17 U.S.C. § 1203(c)(3)(B)),因此,即使按照上述极端保守的数字计算,被告违规应承担的法定损害赔偿额也在9000万美元-9亿美元。

很多报道称本案索赔额高达90亿美元,差别在于诉状里是“极端保守的”按照“只有1%的用户曾经收到基于版权材料的输出”,报道里是按“100%的用户”(2022年6月,120万用户)计算。

4)由于Copilot不断输出代码且几乎所有训练数据都是版权材料,上述数字可能远低于实际违规次数。

原告在事实指控部分还使用了大量篇幅回顾开源许可制度发展历史,陈述GitHub是如何为了提高利润和微软紧密相连,被告们如何背刺开源社区,以牺牲原告及其代表的群体的权利为代价获取利益。看具体内容前,先看一些Unix、Linux和Windows发展相关信息:

AT&T的贝尔实验室曾在1964年和美国麻省理工学院和通用电气公司接受美国国防部委托,联合开展Multics工程计划,但因项目过于复杂、进度缓慢,于1969年夏天退出,同年9月,实验室研究员Ken Thompson利用其发明的B语言写出第一个UNIX OS雏形,缩写为UNICS。1970年,UNICS获资金注入后命名为UNIX,随后在1971年11月发布第一个版本。1984年,美国政府拆分AT&T,禁止该公司从贝尔实验室的许多发明中获利的和解协议也到期,UNIX从免费发行转为商业授权。提前获悉AT&T准备对UNIX进行收费且禁止改变源代码的消息后,Richard Stallman等开发者在1983年宣布创建GNU项目,使用免费分发软件重新构建UNIX且不限制修改,旨在创建一个与UNIX兼容但完全自由的操作系统(用户能够自由地使用、复制、修改和分发软件)。项目全称为“GNU's Not Unix!”,强调其独立性和自由性。GNU项目推动了自由软件运动的发展,为了支持项目发展,Stallman后来在1985年创立了自由软件基金会(Free Software Foundation, FSF),为自由软件开发活动提供技术、法律及财务支持。Linus Torvalds在1991年创建发布Linux项目时就使用了GNU工具及规则,诉状陈述从这里开始。

原告在诉状中提到:

软件工程师Linus Torvalds在1991年创建了Linux系统项目,为了推广系统并鼓励其他程序员共建,他采用当时并不常见的GNU通用公共许可(GPL)发布Linux。和大多数软件许可要求付费、不包括软件源代码且禁止衍生作品不同,GPL软件是免费的、包含源代码且“不仅允许,而且鼓励衍生作品”;但GPL在某些方面也仍然像传统的软件许可一样运作,比如依赖于软件作者的版权声明——尽管免费提供GPL软件,但仍然要求其用户作为被许可方遵循某些要求,其中一项就是从GPL软件衍生的程序必须重新分发有关该软件的某些信息。

“您可以在任何媒介中复制和分发程序的源代码的逐字副本,正如您所接收的,前提是您显著且适当地在每个副本上发布适当的版权声明和免责声明;保持所有提到本通用公共许可的通知完好无损;并且向程序的其他接收者提供一份本通用公共许可以及程序。”

违反上述条款会构成违反许可协议,触发法律行动。实务中GPL条款也是可执行的,已经有许多GPL许可方通过法院诉讼和其他司法程序强制执行GPL许可。因为符合早期互联网发展需求(免费且可在普通计算机硬件上运行,适合用于网络服务器)且采用反传统的GPL许可,Linux变得非常受欢迎,围绕它的程序和工具生态系统也随之成长起来。反过来,互联网的发展也使得不同地方的开发人员更容易合作开发软件,GPL以及类似的许可称为这类合作工作的自然选择。大约在1998年,一个新的名字被创造出来,作为这些软件许可和开发原则的总称,即“开源”。

2002年,Linux虽然非常受欢迎,但项目本身已经变得笨拙,已经超出其依赖非正式系统管理软件源代码的能力,Linus Torvalds开始编写一个新的源代码控制系统——Git。Git根据GPL进行发布后迅速成为开源程序员的首选源代码控制系统,但设置服务器硬件并维护并不是很方便,而且成本高昂:

在Git中存储的单个软件项目称为源存储库,通常简称为存储库。Git源存储库通常存储在可由一组程序员访问的网络服务器上,但当程序员分布在多个位置而不是单个位置时,这样就不太方便。虽然Git存储库可以存储在可访问互联网的服务器上,但设置服务器硬件并负责维护也不方便而且很昂贵。

2008年,一群开源开发者在旧金山创立GitHub,管理托管Git源存储库的互联网服务器。开源开发者可以通过GitHub账户轻松设置一个对世界各地的合作者开放的Git项目。可以说,GitHub从早期开始的核心市场就是开源开发者,它通过使其许多托管服务免费来吸引他们,2018年时,GitHub已成为最大和最成功的Git托管服务者,托管着数百万用户和项目,开源许可对GitHub来说很重要:

大多数开源程序员使用GitHub创建“公共”存储库(这意味着任何人都可以查看和访问它们),虽然不是全部,但许多公共存储库都带有开源许可,GitHub也鼓励开源开发者了解和使用开源许可。相关许可协议按照惯例存储在每个存储库的项目文件LICENSE中;GitHub界面也有按钮,用户可以点击大多数存储库的首页以查看适用许可的详细信息。人类用户可以轻松地在这两个位置中的任何一个找到许可——和Codex或Copilot一样强大的AI也可以。(GitHub还允许程序员和组织创建“私有”存储库,这些存储库不可从公共GitHub网站访问,需要密码访问,不过本案主要讨论的是公共存储库代码被用作训练数据。)开源许可对GitHub至关重要,尽管这些许可在措辞和细节上有所不同,但它们大多数都要求在软件的任何副本、衍生作品或再分发中包含一份许可的副本,并且要求作者的姓名和版权声明保持完整。对于没有开源许可的公共存储库,GitHub从未对此设置默认许可,没有许可的公共存储库受美国版权法规则的约束。

也是在2018年,旨在迎合开源项目的GitHub被有“无视开源许可要求”历史的微软收购了。

2018年10月,微软以75亿美元收购了GitHub。对于微软来说,程序员使用GitHub这件事很重要,但微软有据可查的vaporware、FUD以及其他针对开源程序和编程、特别是开源许可的商业实践而享有不佳的声誉引发一些开源人士的担忧。

关于“vaporware”,该词意指某项技术或产品在面世前因大肆炒作而备受关注和期待,但实际上却一拖再拖,甚至最终未能上市。微软的Xenix项目在1982年成为“vaporware”的典型代表,因为它在早期的宣传和预期中被高度期待,但实际上却经历了长时间的延迟才最终发布。

关于“FUD”:微软将其反Linux战略描述为“FUD”,代表恐惧、不确定性和怀疑。

为了缓解这些担忧,微软表示“微软热爱开源”,但这个口号是虚假和具有误导性的,微软有“无视开源许可要求”历史:

2001年时,Linux已经被各种规模的公司使用,与Windows形成竞争;

1)诉状没有详细写,但可以简单了解一下Linux和Windows当时形成竞争的背景:

80年代时,UNIX版本种类剧增,微软的Xenix就是当时UNIX的常见版本之一。1979年,微软从AT&T拿到授权,为Intel处理器开发一种UNIX操作系统(在个人电脑和微型计算机上使用),但受限于协议约定不能直接使用UNIX名称。

1987年,微软和UNIX系统供应商SCO达成协议,以持有25%SCO股权的条件将Xenix所有权转让给SCO,自此放弃Xenix操作系统,转而专注开发后来被称为Windows NT的操作系统,因为开发目标是打造一个能够和UNIX竞争的,提供更好的可移植性和性能的操作系统,该系统当时被视为“UNIX杀手”。微软在80-90年代就已通过开发销售DOS操作系统、Windows操作系统获取数十亿美元的收入,并投入大量资源保护和执行这些软件许可。

2)Linux的出现对Windows构成竞争威胁,当时很多程序员认为Linux在功能上优于Windows。

微软在应对Linux竞争时将“开源”视为一种威胁,1998年泄漏的一份“万圣节文件”显示微软应对Linux竞争威胁时强调对抗“长期开发者思维共享威胁”的重要性,并得出为了击败开源,“(微软)必须针对一个过程而不是一个公司”的结论。2001年,微软首席执行官史蒂夫·鲍尔默说,“(GPL)的写法是,如果你使用任何开源软件,你必须使你的其他软件开源……Linux在知识产权方面是一种癌症,它附着在它接触的一切上。”鲍尔默对GPL许可的总结是不准确的。“开源”得以发展是因为开源社区尊重并遵守适用的许可。

原告为了证明微软有无视开源许可协议的历史,在这里还补充了几个事例:

2001年微软成为一起重大软件相关反垄断案的被告,在美国诉微软公司案中,美国司法部指控微软通过非法对个人计算机制造商施加技术限制来维持其软件垄断,包括与Internet Explorer网络浏览器相关的“捆绑”违规。主持反垄断审判的法官托马斯·彭菲尔德·杰克逊认为,微软是“一个对真相和法律规则持有制度性蔑视的公司,这些规则是较小实体必须尊重的。它也是一个’高级管理层’不反对提供虚假证词以支持其不当行为辩护的公司。”另一个事例是2007年,微软承认它试图通过向瑞典的某些商业伙伴提供资金来影响ISO开放标准委员会的投票。微软试图影响ISO开放标准委员会的投票结果,支持其首选结果。

对开源许可证历史背景、微软对开源的态度以及GitHub成立及发展等情况进行陈述后,原告对三被告如何“紧密联系”进行说明:

OpenAI,Inc.成立于2015年12月,成立后不到一年后(2016年11月)就首次和微软合作,将Azure作为其深度学习和AI相关的主要云平台。Azure是微软的主要增长领域,自和OpenAI合作迅速增长(2016至2020Q3,每季度至少增长50%;2022年10月发布的最新收益报告显示“Azure和其他云服务”比上一季度增长了35%,增长速度超过任何其他产品)。2019年2月,奥特曼创建了非营利实体OpenAI,Inc.的营利子公司OpenAI,LP.,用于接受外部投资、分配利润。2019年7月,微软向OpenAI,LP.投资10亿美元并获取了OpenAI,LP.部分产品(包括GPT-3)的独家许可,作为合作的一部分,OpenAI,LP.同意独家使用Azure开发和托管产品(微软的一些投资是以Azure使用积分而非现金支付的);双方同意“共同构建新的Azure AI超级计算技术”。2020年5月,微软和OpenAI宣布他们共同在Azure构建了一台超级计算机,该超级计算机将独家用于OpenAI训练其AI模型。微软对OpenAI的影响和频繁合作导致一些人将微软描述为“OpenAI的非官方所有者”。

原告还从组织结构上说明微软对OpenAI的影响力,比如指出(诉状提交时)OpenAI,Inc.的现任董事会成员之一里德·霍夫曼是微软子公司LinkedIn的创始人,也是微软董事会的成员。

前面提到微软取得GPT-3独家许可,当研究人员注意到GPT-3也可以生成软件代码时,他们开始研究是否可以使一个新的AI模型专门针对此目的进行训练,这个项目后来被称为Codex。双方还在另一个合作项目中推出了名为“Azure OpenAI Service”的产品预览。该服务将“利用对语言和代码有深刻理解的大规模生成性AI模型,以启用新的推理和理解能力,构建尖端应用程序。将这些编码和语言模型应用于各种用例,如写作辅助、代码生成和数据推理。使用内置的负责任AI和企业级Azure安全措施检测和减轻有害使用。”

原告在诉状里还提到OpenAI初始训练数据的来源,目前还没看出这和案件本身有什么关系,内容大致是:OpenAI,Inc.的初始训练数据源自创始人的公司,据报道,当时马斯克和奥特曼计划“汇总他们各自公司的在线数据”作为训练数据,马斯克计算从特斯拉贡献数据,奥特曼计划让其担任总裁的Y Combinator(一个拥有数百家公司的科技创业孵化器)与OpenAI共享数据。

此外,因为原告代理律师及原告本身是视觉艺术家诉OpenAI案件的代理人,诉状和其他诉讼文件中经常能见到援引图像生成类案件的内容。比如诉状中就写道,OpenAI在2022年9月28日发布的DALL-E 2图像生成AI和Codex有类似情况,即DALL-E 2在创建衍生作品时去除了所有署名和/或版权声明,OpenAI忽略了其摄取的图像的版权所有者的权利。

总体来说,原告在事实指控部分围绕以下要点展开陈述:

Copilot和Codex没有向最终用户提供有关代码原始作者的任何署名,也没有关于他们的许可要求的任何信息。用户没有办法知道他们必须提供署名、版权声明或许可证文本的副本;Copilot和Codex在版权材料上进行训练,这些材料是根据许可提供的;被告在Copilot倾向于产生非法输出的情况下推出产品;除了前述示例,Copilot还经常输出逐字复制的版权材料——在没有遵循适用的开源许可协议、未保留署名、版权声明和许可条款的情况下;开源许可证始于20世纪90年代初,GitHub创立之初旨在迎合开源项目,却在2018年被有无视开源许可要求记录的微软收购了;OpenAI与微软和GitHub形成紧密联系。

原告认为通过上述陈述可以得出以下结论:

未来的AI产品应该是代表大胆和创新的,但GitHub Copilot和OpenAI Codex并非如此,被告不应在可以确保不侵犯知识产权、许可和其他权利前发布这些产品;被告没有尝试遵守所用训练数据附带的开源许可,反而假装这些许可不存在,并且训练Copilot和Codex也这样做。通过同时违反成千上万——可能数百万人——软件开发者的开源许可,被告实现了前所未有的软件盗版规模。正如微软联合创始人比尔·盖茨曾经谈到软件盗版时所说:“你所做的就是盗窃。”被告研发AI系统时没有设定限制或约束,而是为了提高利润,牺牲他们曾经寻求培养和保护的全球开源社区的权利,GitHub和OpenAI正在以原告和集体诉讼成员的权利为代价获利。

结束事实指控后,原告提出救济请求,具体情况明天看。

来源:YunfangW

相关推荐