摘要:就在上周五的 NeurIPS 上,OpenAI 的前首席科学家 Ilya Sutskever 在他的分享中表示:尽管现有数据仍能推动人工智能的发展,但这个行业里称得上可用的新数据已经接近枯竭。正如石油是有限资源一样,互联网中由人类生成的内容也是有限的。我们已经
就在上周五的 NeurIPS 上,OpenAI 的前首席科学家 Ilya Sutskever 在他的分享中表示:尽管现有数据仍能推动人工智能的发展,但这个行业里称得上可用的新数据已经接近枯竭。正如石油是有限资源一样,互联网中由人类生成的内容也是有限的。我们已经达到了数据的峰值,未来不会再有更多数据,我们必须利用现有的数据,因为互联网只有一个。
Ilya Sutskever 的发言或许反映出数据的发展方向正在发生转变:从依赖海量数据的预训练模型转向更加注重智能体、合成数据和推理等领域。这种转变一定程度上预示着 AI 技术发展的新趋势。
这次,我们选择以数据作为切入点,来讨论一下数据的发展方向,以及在这基础上的 AI 走向。
本期嘉宾
刘子纬:南洋理工大学助理教授
研究领域:刘子纬的研究兴趣涵盖计算机视觉、机器学习和计算机图形学。他博士师从汤晓鸥教授,曾在加州大学伯克利分校(2017-2018 年)担任博士后研究员,后在香港中文大学(2018-2020 年)担任研究助理。刘子纬曾获得多项荣誉,包括 PAMI Mark Everingham 奖 、《麻省理工科技评论》亚太区 35 岁以下科技创新 35 人、ICBS 科学前沿奖 、CVPR 最佳论文奖候选人以及亚洲青年科学家奖学金。他的研究成果已转化为产品,包括微软 Pix、SenseGo 和谷歌 Clips。
赵昊:清华大学智能产业研究院(AIR)助理研究员/助理教授、光轮智能首席科学家
研究领域:赵昊博士专注于几何与认知层面的场景理解及其在机器人中的应用,于计算机视觉与机器人国际期刊和会议(CVPR, ICCV, ECCV, IJCV, CVIU, ISPRS, T-IP, T-MM, NeurIPS, ICLR, RA-L, ICRA, IROS)上发表近 30 篇论文。赵昊博士是清华大学最大的机器人社团“天空工场”的创始人和负责人之一,曾参与孵化 10 余家高新技术创业公司。赵昊博士曾获得 LSUN, Holistic3D, LID 等多项学术竞赛冠军。
主持人
秦明杨:《麻省理工科技评论》中国社区运营负责人、奥克兰大学计算语言学方向硕士
时间轴
05:11
大模型的训练使用到了什么数据?
12:53
合成数据 vs 生成数据
19:06
合成数据的应用场景
26:33
推理类数据对于自动驾驶和具身智能的意义
29:39
合成数据的生产方式
35:00
自动驾驶和具身智能领域的数据合成方式
38:19
影响合成效率的因素有哪些?
42:00
对学界和业界来说,合成数据的更新频率是怎样的?
45:12
评估合成数据的标准
49:19
合成数据可以被称为是一个产业或者产业链上的一环吗?
55:31
合成数据方面值得关注的方向
62:42
合成数据是否可以迁移到 AI4S 来推动其他学科的发展?
内容聚焦
本期播客分别从学术和产业的角度,讨论了合成数据的概念、生产过程和评价标准,深入分享了合成数据对 AI 产业的重要性,以及未来随着生成数据和合成数据的合并使用,将对 AI 以及 AI4S 的重要意义和发展趋势。
合成数据 vs 生成数据
合成数据(Synthetic Data)和生成数据(Generated Data)是两个在人工智能和机器学习领域中经常使用的概念,它们都涉及到创建用于训练和测试模型的数据集。合成数据是通过模拟或算法生成的数据,它通常基于现实世界数据的模式和分布,但不是直接从现实世界中采集的。生成数据是指利用生成模型(尤其是大模型)创建的数据,这些数据不仅模仿现实数据的分布,而且在某种程度上具有原创性和真实性。合成数据更注重可控性,可以根据特定的需求和规则来生成,而生成数据更注重真实性,它模仿现实世界数据的外观和特征,但可能不完全受控。随着技术的发展,两者被越来越多地被结合起来使用,以发挥各自的优势。
合成数据产业
数据作为 AI 公司核心竞争力的体现,在 AI 发展中处于核心地位。随着 AI 技术的进步,数据的需求和消耗速度增加,合成数据作为一种解决方案,可以帮助突破数据量瓶颈,尤其是在获取真实数据困难或成本高昂的场景中。此外,合成数据产业被视为一个广泛的领域,不仅包括专门的数据供应商,也涵盖了所有涉及数据生产、处理和合成的 AI 工程师和科学家。合成数据在提高模型性能、推动 AI 技术进步以及在特定领域如自动驾驶和机器人技术中的应用潜力巨大。随着中国生产力的发展和对 SaaS 模式接受度的提高,合成数据产业在中国也有望逐渐兴起并成为 AI 领域的一个重要分支。
关于未来趋势的研判
在未来一年内,我们预计会在不同模态数据的融合方面取得显著进展,这对于训练能够理解和处理多种类型数据的统一多模态大模型至关重要。在接下来的 1 到 2 年里,自动驾驶和智能系统领域的闭环仿真器将集成人工智能技术,这不仅将增强它们在感知任务上的能力,还将使它们能够进行复杂决策,从而显著提高生产效率和智能系统的实用性。
视频合成数据预计将给视频理解行业带来重大突破,特别是在多媒体内容理解和监控领域。这些进步将促使互联网公司的算法变得更加智能,进而改善内容推送和用户交互体验。在自然语言处理(NLP)领域,尤其是对于类 似于 o1 这样 的推理能力,合成高质量的推理数据将有助于提升模型的推理能力,使模型更加智能,能够解决更多复杂的问题。
合成数据和生成数据的融合将成为一个明显趋势,这一趋势旨在结合两者的优势,提高数据的真实性和可控性。在未来 3 到 5 年内,我们可能会看到更加动态和开放的合成数据环境的出现,这些环境类似于电视剧《西部世界》中的概念,使得 AI 系统能够在其中实时获得反馈并不断进化。
此外,合成数据技术有望扩展到生命科学和材料科学等其他领域,从而对这些学科的发展产生深远影响。这些跨领域的应用将进一步推动合成数据技术的发展,并可能在多个行业中引发变革。
制作团队
主持人: 秦明杨
剪辑:嘉鱼
运营:大壮
本播客内容为 DeepTalk 原创制作,未经许可,禁止任何形式的复制、改编或引用。
来源:萱滋教育