AI数据枯竭:盛宴将尽?未来之路在何方?

360影视 2024-12-16 21:32 4

摘要:然而,正如前OpenAI联合创始人Ilya Sutskever在NeurIPS 2024大会上所指出的,预训练时代即将结束,数据作为AI的“化石燃料”正日益枯竭。

人工智能(AI)在过去十年取得了令人瞩目的成就,这很大程度上归功于神经网络规模的扩大和海量数据的训练。

然而,正如前OpenAI联合创始人Ilya Sutskever在NeurIPS 2024大会上所指出的,预训练时代即将结束,数据作为AI的“化石燃料”正日益枯竭。

AI训练数据很可能在四年后耗尽,这一严峻现实迫使我们不得不思考:当AI吞噬完世界上的知识后,它的未来之路在何方?

一、 数据饥渴:AI的“化石燃料”危机

AI,特别是大型语言模型(LLMs)的训练,依赖于海量文本和代码数据。Epoch AI的研究员Pablo Villalobos预测,到2028年左右,用于训练AI模型的数据集的规模将与公共在线文本总量相当,这意味着AI训练数据很可能在四年后耗尽。

这种“数据饥渴”的现象并非空穴来风。自2020年以来,用于训练大语言模型的数据增长了100倍,每年翻倍,而互联网可用内容的增长速度却远低于此。这种供需失衡预示着AI发展即将面临“化石燃料”危机。

与此同时,内容提供商也开始加强数据保护,禁止AI公司抓取其数据用于训练。麻省理工学院AI研究员Shayne Longpre的研究显示,数据提供商对特定爬虫的封锁数量急剧增加,高质量网络内容的封锁比例显著上升。

此外,《纽约时报》等媒体对OpenAI和微软提起的侵权诉讼,也加剧了AI开发者获取数据的难度。

二、 应对策略:探索数据新大陆

面对数据枯竭的挑战,AI公司正在积极探索各种应对策略,主要包括以下几个方面:

收集非公开数据: 例如WhatsApp消息、YouTube视频的文字记录等。Meta就曾表示他们使用虚拟现实耳机Meta Quest收集的数据来训练AI。然而,这些非公开数据大多质量较低或重复,且总量有限,只能暂时缓解数据不足的困境。

利用专业数据集: 例如天文学、基因组数据等。斯坦福大学AI研究员Fei-Fei Li认为,健康护理、环境、教育等领域蕴藏着丰富的未被开发的数据。然而,这些专业数据集是否适合训练通用大语言模型还有待验证。

合成数据: 通过AI生成数据来训练AI。OpenAI每天生成的单词量已经与当前的AI训练数据集规模相当。合成数据在规则明确的领域,如国际象棋、数学、计算机编码等表现良好,在医疗等真实数据有限或敏感的领域也有应用前景。然而,合成数据也存在缺陷,例如递归循环可能加剧错误,降低模型学习质量,甚至导致“模型自噬障碍(Model Autophagy Disorder)”。

三、 未来之路:超越预训练,迈向智能进化

尽管上述策略可以在一定程度上缓解数据不足的问题,但从长远来看,AI的未来发展需要超越预训练,探索新的发展路径。

更小、更专业的模型: 数据不足可能会迫使AI公司转向更小、更专业的细分模型,专注于特定领域的任务,而不是追求构建庞大的通用大语言模型。

自我反思与智能进化: 卡内基梅隆大学的研究生Andy Zou认为,AI已经拥有了庞大的知识库,下一步的关键在于“静下心来思考”。这意味着AI需要发展出自我反思和推理的能力,从现有的知识中提炼出更深层次的理解,并进行自主学习和进化。

强化学习和人机协同: 强化学习可以通过与环境的交互来提升AI的决策能力,而人机协同则可以将人类的专业知识和创造力与AI的计算能力结合起来,共同解决复杂问题。

四、 投资方向和建议

在AI数据枯竭的背景下,投资者需要关注以下几个投资方向:

专注于数据生成和增强技术的公司: 例如合成数据生成公司、数据标注公司等。

开发更小、更专业AI模型的公司: 例如专注于医疗、金融、法律等领域的AI公司。

研究AI自我反思和推理能力的公司: 例如致力于开发认知架构、推理引擎等技术的公司。

五、 结语

AI数据枯竭是AI发展面临的严峻挑战,但也蕴藏着新的机遇。通过探索新的数据来源、发展新的学习方法,AI可以超越预训练,迈向智能进化的新阶段。对于投资者而言,关注AI领域的新趋势,才能抓住未来的投资机会。

来源:余汉波

相关推荐