摘要:过去十年中,人工智能的飞速进步在很大程度上依赖于扩大神经网络的规模,并使用越来越多的数据对其进行训练。这种“扩展化”方法在提高大型语言模型(LLMs)能力方面表现出了出人意料的有效性,不仅使其在模仿对话语言方面表现更为出色,还赋予了它们诸如推理等的“涌现特性”
AI开发人员正在快速“清空”互联网中的数据,以训练诸如ChatGPT背后的大型语言模型。以下是他们试图解决这一问题的方法。
互联网是一个浩瀚的人类知识海洋,但它并不是无限的,而人工智能(AI)研究人员几乎已经将其“榨干”了。
过去十年中,人工智能的飞速进步在很大程度上依赖于扩大神经网络的规模,并使用越来越多的数据对其进行训练。这种“扩展化”方法在提高大型语言模型(LLMs)能力方面表现出了出人意料的有效性,不仅使其在模仿对话语言方面表现更为出色,还赋予了它们诸如推理等的“涌现特性”。然而,一些专家表示,这种扩展策略的极限可能即将到来。其一是由于计算所需的能源需求急剧增加;其二则是因为LLM开发者正在耗尽用于训练模型的传统数据集。
今年,一项具有广泛影响力的研究量化了这一问题:虚拟研究机构Epoch AI的研究人员预测,到2028年,用于训练AI模型的典型数据集的规模将达到公共在线文本总量的估计规模。换句话说,大约在四年内,AI可能会耗尽可用于训练的数据(详见“数据耗尽”)。与此同时,数据所有者(如新闻出版商)也开始收紧其内容的使用规则,进一步限制对数据的访问。这种情况导致了“数据公地”规模的危机。麻省理工学院(MIT)剑桥分校的AI研究员、数据来源倡议(Data Provenance Initiative)的负责人Shayne Longpre指出,这一现象正对AI数据集的获取产生深远影响。
即将到来的数据训练瓶颈可能已经开始显现。“我强烈怀疑这已经在发生了,”Longpre表示。
数据耗尽
数据显示,训练大型语言模型所用的文本数据量正在逼近互联网中可用的文本数据总量,预计到2028年,开发者使用的数据集规模将等同于整个互联网可用的文本量。
虽然一些专家认为,数据访问的限制可能会减缓AI系统的快速进步,但开发者们正在寻找应对方法。 “我不认为大型AI公司有人在恐慌,”Epoch AI的马德里研究员、2028年“数据枯竭”研究的主要作者Pablo Villalobos表示。“至少他们没有给我发过这样的邮件。”
例如,旧金山的知名AI公司OpenAI和Anthropic都已公开承认这一问题,并暗示他们已计划采用应对策略,包括生成新数据和寻找非常规数据源。OpenAI的发言人告诉《自然》杂志:“我们使用了多种数据来源,包括公开可用的数据、通过合作伙伴获取的非公开数据、合成数据生成以及来自AI训练师的数据。”
即便如此,数据短缺的危机可能会迫使生成式AI模型的类型发生巨大变革,可能从大规模的通用LLM转向更小、更专业化的模型。
过去十年间,LLM的发展显示了其对数据的巨大需求。尽管一些开发者并未公布其最新模型的具体参数,但Villalobos估计,自2020年以来,训练LLM所使用的“标记”(tokens,即词语的部分)的数量已增长了100倍,从数千亿增长到数十万亿。
这可能已经消耗了互联网中很大一部分的内容,尽管由于互联网总文本量过于庞大,精确估计仍十分困难。Villalobos估计,当前互联网的总文本量约为3,100万亿个标记。各种服务使用网络爬虫来抓取这些内容,然后消除重复内容,过滤掉不良内容(如色情内容),以生成更干净的数据集。一个名为“RedPajama”的常用数据集包含了数十万亿个单词。一些公司或学术机构也会自行爬取和清理数据,以制作专门用于训练LLM的定制数据集。互联网中只有一小部分被认为是“高质量”的,比如人类编辑的、社会可接受的文本,这些文本通常存在于书籍或新闻中。
然而,互联网可用内容的增长速度出乎意料地缓慢。Villalobos的研究估计,互联网可用内容的年增长率不到10%,而AI训练数据集的规模每年却增长一倍以上。将这两个增长趋势投射到未来的情境中,预计2028年这两条趋势线将会交汇。
与此同时,内容提供商正日益使用软件代码或修订其使用条款,以阻止网络爬虫或AI公司抓取他们的数据。Longpre和他的同事们于2023年7月发布了一份预印本,显示出数据提供者封锁特定爬虫的趋势急剧上升。2023年,在三个主要的清理后数据集中,受限制的标记仅占不到3%;但到2024年,这一比例上升到了20%到33%。
目前,关于数据使用的法律诉讼正在进行,原告试图为用于AI训练的数据提供者争取赔偿。2023年12月,《纽约时报》以侵犯版权为由起诉了OpenAI及其合作伙伴微软;2024年4月,Alden Global Capital旗下的八家报纸联合提起了类似的诉讼。被告方的反驳是,AI应该被允许像人类一样读取和学习在线内容,这属于“合理使用”。OpenAI公开表示,认为《纽约时报》的诉讼“毫无根据”。
如果法院支持数据提供者应获得经济补偿的观点,这将使得AI开发者和研究人员更难获得所需数据,特别是对资金有限的学术研究人员来说。Longpre认为,学术界的研究人员将受到最严重的打击。
AI扩展策略面临的数据危机可能是一个重大挑战。虽然在不增加训练数据的情况下扩大模型的计算能力或参数数量是可行的,但这往往会导致AI的训练成本高昂且效率低下。Longpre指出,这种方式通常不受欢迎。
寻找新数据的一个潜在方法是获取非公共数据,比如WhatsApp消息或YouTube视频的转录内容。虽然以这种方式抓取第三方内容的合法性尚未得到司法确认,但公司可以使用自己的数据。许多社交媒体公司也表示,他们利用自己的内容来训练AI模型。例如,Meta表示,其虚拟现实头显Meta Quest收集的音频和图像用于训练AI。但不同公司的政策有所不同。视频会议平台Zoom的服务条款明确规定,不会使用客户内容来训练AI系统,而转录服务OtterAI则表示会使用去标识化和加密的音频和转录数据进行训练。
一些AI公司开始使用“合成数据”来训练AI,即AI为AI生成数据。2024年,OpenAI宣布其每天生成1000亿个单词,这一年可生成36万亿个单词——相当于当前AI训练数据集的规模。
尽管如此,合成数据也面临一些问题,比如“递归自我强化”,这可能导致模型的学习质量下降。一项2023年的研究将这一现象称为“模型自噬障碍”(Model Autophagy Disorder),简称“MAD”。
面对数据危机,开发者开始转向小而高效的LLM,这些模型专注于特定任务,要求精炼的专用数据和更好的训练技术。
一项2024年的研究表明,由于算法的改进,训练一个具有相同性能的LLM所需的计算能力每八个月减少一半。OpenAI表示,其最新的o1模型更强调“推理训练”并依赖于反馈,这为扩展方法增添了新维度。
总的来说,AI的发展可能不再需要依赖更大的数据,而是从“更聪明的算法”中获益。Stanford大学的Andy Zou表示,AI可能只需“坐下来思考”,因为它的“基础知识库”可能已经比任何个人的知识储备都要丰富。
来源:人工智能学家