摘要:2025年2月9日,经济合作与发展组织(OECD)发布了题为《人工智能基于数据抓取的知识产权问题》(Intellectual Property Issues in Artificial Intelligence Trained on Scraped Data)
2025年2月9日,经济合作与发展组织(OECD)发布了题为《人工智能基于数据抓取的知识产权问题》(Intellectual Property Issues in Artificial Intelligence Trained on Scraped Data)的专题报告。该报告由杜克大学教授李・蒂德里希(Lee Tiedrich)、卡琳・佩尔塞(Karine Perset)和萨拉・菲亚略・埃斯波西托(Sara Fialho Esposito)撰写,经OECD科学、技术和创新局副局长奥德丽・普隆克(Audrey Plonk)监督指导完成。报告于2025年1月30日经全球人工智能伙伴关系组织(GPAI)书面程序批准并解密,由OECD秘书处筹备出版。该报告深入探讨了人工智能技术快速发展背景下,数据抓取(Data Scraping)在模型训练中的应用及其对知识产权(IP)体系的冲击。启元洞见编译了其核心内容,以供读者参考。
引言
01 Part
人工智能,包括生成式人工智能,正在知识产权领域引发复杂问题:知识产权法律通过保护创作者推动创新,这些法律在不同司法管辖区虽有差异,但共同原则是授予创作者对其作品的某些权利。为了在保护知识产权所有者权利的同时兼顾更广泛的社会利益,知识产权法律通常包括有限的、特定情境下的例外,如合理使用或文本和数据挖掘(TDM)条款。
数据抓取用于编译训练人工智能系统的数据带来了重大挑战:人工智能模型的开发、测试和验证依赖于对大型数据集的访问,这推动了对训练数据需求的激增。数据抓取是收集此类数据的常用方法,但未经同意或未向权利持有人支付费用的抓取活动可能涉及多种知识产权和其他类似权利的侵权问题,包括版权、数据库信息产权、商标权、名誉权等。
数据抓取:人工智能创新的双刃剑
02 Part
本文将“数据抓取”定义为“通过自动化工具从第三方网站、数据库或社交媒体平台提取信息的行为”,其核心流程包括数据收集、预处理、存储及模型训练。例如,大型语言模型(如GPT-3)的训练数据中,超过80%来自Common Crawl等公开网络抓取数据集。这类数据为人工智能模型提供了多样化的语言表达和跨领域知识,但也埋下隐患——抓取内容可能包含受版权保护的书籍、文章、图像,甚至个人隐私信息。
数据显示,当前约70%的人工智能训练数据集缺乏清晰的来源许可信息。2023年一项对1800个常用数据集的审计发现,部分数据集包含盗版内容,如“Books3”数据集涉嫌收录17万本未经授权的书籍,被用于训练Meta的Llama等知名模型。此类争议已引发多国诉讼,美国作家协会、《纽约时报》等机构已对OpenAI、微软等企业提起诉讼,指控其未经许可使用受版权保护内容训练人工智能,欧盟、日本等地也出现类似案件。
人工智能数据抓取生态系统
03 Part
人工智能数据抓取生态系统包括商业、非商业和政府实体,它们参与和/或从数据抓取中受益。关键参与者可以分为不同的群体,每个群体都有特定的角色和挑战。
研究机构和学术界通常使用数据抓取来收集用于学术和科学目的的数据。研究人员利用这些数据进行研究、开发新的人工智能模型和改进分析方法,从而推动科学知识的发展和前沿技术的进步。例如,抓取的数据已被用于增强可持续性分析和改进气候建模。尽管其研究目标通常是合法的,但这些机构和研究人员在抓取数据时可能面临复杂的法律挑战,如导航版权和数据隐私法规。一些司法管辖区为研究目的或合理使用原则提供了特殊例外,但有些法律框架可能很复杂,特别是当研究涉及国际数据集时,这些数据集可能受多个法律标准的约束。
人工智能数据聚合商收集并使抓取的数据可供第三方使用。这些聚合商可能基于开源和/或付费基础提供数据。一些人工智能数据聚合商,如Common Crawl、LAION和EleutherAI,作为非营利组织,它们在网站上免费提供抓取的数据,其数据对训练人工智能模型极为重要。
技术公司和平台运营商既是数据抓取的来源,也是常规的数据抓取者。这些平台经常成为数据抓取的目标,因为它们托管了大量用户生成内容和其他有价值的数据,这些数据对于开发人工智能模型非常有价值。平台运营商通常会实施反抓取技术(如验证码和互联网协议地址阻止)和服务条款限制,以规范或阻止对其数据的未经授权访问。这些措施旨在保护平台的数据资产,同时解决IP和隐私问题,保障用户权益。此外,许多技术公司也会进行数据抓取活动,以增强其产品和服务。数据抓取支撑了这些平台的几个关键商业模式,包括搜索引擎、账户或网站聚合、价格比较工具和定向广告。例如,LinkedIn承认使用抓取数据来改进其自身服务,这反映了技术公司通常在数据抓取生态系统中扮演的双重角色。
内容创作者,包括作家、摄影师、记者和艺术家,是人工智能数据抓取生态系统中受到直接影响的群体。他们的作品通常在未经知情或同意的情况下被用于训练人工智能系统,在某些司法管辖区,这种行为可能被视为版权侵权。由于人工智能开发者通常操作不透明,创作者往往难以确定其作品是否已被纳入训练数据集中。
斯坦福大学基础模型研究中心的一份报告发现,大多数先进人工智能系统的开发者对数据的来源和合法性披露不透明,14名开发者中只有1名披露了有关数据创作者、版权状态和数据许可证的细节。这种缺乏透明度的情况使得下游开发者或部署者难以验证许可合规性,加剧了数据来源相关问题。
法律困境:全球规则碎片化
04 Part
现行知识产权法律体系多制定于人工智能技术普及之前,难以适应数据抓取引发的复杂问题。各国法律对“合理使用”“文本与数据挖掘(TDM)例外”等关键概念的解释存在显著差异。
欧盟通过《数字单一市场版权指令》允许研究机构在合法获取数据的前提下进行TDM,但版权所有者可通过合同或技术手段“选择退出”(Opt-out);日本《著作权法》允许出于“非娱乐目的”的TDM,包括商业用途;美国依赖“合理使用”原则,需通过司法案例逐案判断;新加坡2021年修订的《版权法》新增“计算数据分析例外”,明确允许基于数据分析的机器学习,但禁止衍生内容用于其他目的。
法律碎片化导致跨国企业面临合规难题。例如,欧盟《人工智能法案》要求通用人工智能模型提供者遵守欧盟版权法,即使模型在境外训练,只要输出用于欧盟市场即需担责,这种“长臂管辖”凸显了国际协调的必要性。
政策工具箱:行为准则、技术工具与公众教育
05 Part
为平衡人工智能创新与权利保护,OECD提出四大政策方向:
(1)自愿行为准则:制定跨国“数据抓取行为准则”,明确术语定义(如区分数据抓取、网络爬虫等技术细节),要求企业披露训练数据来源、尊重技术保护措施(如网站robots.txt协议),并建立违规登记与追责机制。准则可参考G7《广岛人工智能行为守则》,区分商业与非商业用途,鼓励平台采用“数据集卡片”(Dataset Cards)标注数据许可信息。
(2)标准化技术工具:开发支持版权管理的技术方案。例如,改进现有robots.txt协议,设计机器可读的“选择退出”标识;探索数据访问控制工具,允许版权方通过API授权使用,并集成自动付费系统。欧盟正推动此类工具研发,以配合《人工智能法案》的透明度要求。
(3)标准合同条款:针对数据提供者与人工智能开发者的合作协议,设计兼顾灵活性与合规性的模板条款。例如,OpenAI与美联社、Shutterstock等机构的内容授权协议,或成为行业参考范式。
(4)公众意识提升:通过教育项目帮助创作者理解权利边界,指导人工智能用户遵守使用限制(如避免生成侵权内容),并推动企业公开模型训练的伦理审查流程。
未来挑战:技术迭代与利益平衡
06 Part
高质量训练数据可能在2026年前耗尽,迫使企业转向语音转录、合成数据等新型抓取手段,进一步加剧法律风险。同时,人工智能生成内容对个人形象权、艺术风格模仿等新型侵权形式的界定仍存争议。例如,人工智能生成的“虚拟歌手”是否侵犯原声音乐人的权利?模仿画家风格的人工智能作品是否构成道德权利侵害?这些问题亟待法律与伦理框架的更新。
OECD呼吁各国政府、企业与社会组织加强合作,在保护创新激励与公共利益之间寻求平衡。正如报告主笔之一,杜克大学教授李·蒂德里奇(Lee Tiedrich)所言:“没有一刀切的解决方案,但通过技术规范、合同创新与国际对话,我们可以为人工智能的可持续发展铺平道路。”
转自丨启元洞见
研究所简介
国际技术经济研究所(IITE)成立于1985年11月,是隶属于国务院发展研究中心的非营利性研究机构,主要职能是研究我国经济、科技社会发展中的重大政策性、战略性、前瞻性问题,跟踪和分析世界科技、经济发展态势,为中央和有关部委提供决策咨询服务。“全球技术地图”为国际技术经济研究所官方微信账号,致力于向公众传递前沿技术资讯和科技创新洞见。
地址:北京市海淀区小南庄20号楼A座
_er
来源:全球技术地图