AI数据枯竭：盛宴将尽？未来之路在何方？

摘要：然而，正如前OpenAI联合创始人Ilya Sutskever在NeurIPS 2024大会上所指出的，预训练时代即将结束，数据作为AI的“化石燃料”正日益枯竭。

人工智能（AI）在过去十年取得了令人瞩目的成就，这很大程度上归功于神经网络规模的扩大和海量数据的训练。

然而，正如前OpenAI联合创始人Ilya Sutskever在NeurIPS 2024大会上所指出的，预训练时代即将结束，数据作为AI的“化石燃料”正日益枯竭。

AI训练数据很可能在四年后耗尽，这一严峻现实迫使我们不得不思考：当AI吞噬完世界上的知识后，它的未来之路在何方？

一、数据饥渴：AI的“化石燃料”危机

AI，特别是大型语言模型（LLMs）的训练，依赖于海量文本和代码数据。Epoch AI的研究员Pablo Villalobos预测，到2028年左右，用于训练AI模型的数据集的规模将与公共在线文本总量相当，这意味着AI训练数据很可能在四年后耗尽。

这种“数据饥渴”的现象并非空穴来风。自2020年以来，用于训练大语言模型的数据增长了100倍，每年翻倍，而互联网可用内容的增长速度却远低于此。这种供需失衡预示着AI发展即将面临“化石燃料”危机。

与此同时，内容提供商也开始加强数据保护，禁止AI公司抓取其数据用于训练。麻省理工学院AI研究员Shayne Longpre的研究显示，数据提供商对特定爬虫的封锁数量急剧增加，高质量网络内容的封锁比例显著上升。

此外，《纽约时报》等媒体对OpenAI和微软提起的侵权诉讼，也加剧了AI开发者获取数据的难度。

二、应对策略：探索数据新大陆

面对数据枯竭的挑战，AI公司正在积极探索各种应对策略，主要包括以下几个方面：

收集非公开数据: 例如WhatsApp消息、YouTube视频的文字记录等。Meta就曾表示他们使用虚拟现实耳机Meta Quest收集的数据来训练AI。然而，这些非公开数据大多质量较低或重复，且总量有限，只能暂时缓解数据不足的困境。

利用专业数据集: 例如天文学、基因组数据等。斯坦福大学AI研究员Fei-Fei Li认为，健康护理、环境、教育等领域蕴藏着丰富的未被开发的数据。然而，这些专业数据集是否适合训练通用大语言模型还有待验证。

合成数据: 通过AI生成数据来训练AI。OpenAI每天生成的单词量已经与当前的AI训练数据集规模相当。合成数据在规则明确的领域，如国际象棋、数学、计算机编码等表现良好，在医疗等真实数据有限或敏感的领域也有应用前景。然而，合成数据也存在缺陷，例如递归循环可能加剧错误，降低模型学习质量，甚至导致“模型自噬障碍（Model Autophagy Disorder）”。