【智能前线】第18期:《福布斯》AI十大趋势预测,ASI降临时间表

360影视 2025-01-08 08:32 3

摘要:2024年12月22日,福布斯发布2025年AI十大趋势预测,涵盖模型开发、应用落地、行业格局、安全伦理等多个维度。报告预测,Scaling laws将在机器人与生物学领域大放异彩;语音AI有望通过图灵测试;AI将实现自主迭代,自行研发新AI;Meta将开始对

2024年12月22日,福布斯发布2025年AI十大趋势预测,涵盖模型开发、应用落地、行业格局、安全伦理等多个维度。报告预测,Scaling laws将在机器人与生物学领域大放异彩;语音AI有望通过图灵测试;AI将实现自主迭代,自行研发新AI;Meta将开始对Llama模型收费;AI Web Agent将成为主流应用;太空将出现AI数据中心;Robotaxi将在美国多个城市占据市场份额;将出现首例真正AI安全事件,引发人机关系深刻反思。

2025年1月5日,OpenAI CEO Sam Altman表示,奇点临近,不知身处何方。2024年12月31日,谷歌开发者Logan Klipatrick表示,我们直接进入ASI的可能性正在逐月增加,这就是Ilya看到的。专家们对AGI与ASI实现时间表进行各种预测,从2025到2030年不等。

Sam Altman预测,超级智能ASI可能在2026年夏天出现;Meta首席AI科学家杨立昆认为,AGI在未来2年内不会发生;2024年诺贝尔物理学奖得主Geoffrey Hinton警告,AI可能在10年内导致人类灭绝,呼吁政府加强对AI公司监管。

一旦AGI/ASI真正到来,可能对人类社会造成巨大影响,包括对就业市场冲击、经济超高速增长等,AI取代人类劳动力,资本将变得更加重要,人类劳动力价值可能大幅下降,面对AI快速发展,需要思考如何应对这一变革带来挑战。

本期智能前线,选择AI最新发展趋势预测系列分析与报道,智东西、新智元发布,六合商业研选精校,分享给大家,Enjoy!

正文:

全文20,081字

预计阅读40分钟

《福布斯》预测AI十大趋势:AI接管电脑,在太空建集群

时间:2025年1月2日

字数:6,552

《福布斯》发布2025年AI发展十大预测。

AI模型开发方面:

Scaling laws会被广泛应用于机器人技术与生物学领域。

AI语音模型通过图灵测试,可以在对话中冒充人类。

AI实现自主迭代,自行研发新AI,完成从观点、实验、论文、评审全过程。

AI应用开发方面:

Meta将对企业使用Llama收费。

AI web Agent应用将大杀四方,代替消费者完成线上事务。

重要的AI研发机构,如OpenAI,将从开发基础模型转向开发应用,在AI商业化中分一杯羹。

其他预测:

特朗普与马斯克分道扬镳,这将对OpenAI、xAI发展。AI安全政策造成影响。

将有一批企业尝试在太空建立AI数据中心,试图解决AI发展能源限制。

至少在美国五个大城市中,Robotaxi会占据网约车两位数市场份额。

AI做出不符合人类意图的行为,AI安全事件引发人机关系再思考。

Meta将开始对Llama模型收费

Meta是全球开源AI的领军者。

企业战略方面,Meta提供的Llama模型免费开放,OpenAI与Google的前沿模型是闭源、付费。相较之下,Meta策略,是非常有趣的研究案例。

如果2025年,Meta开始对公司使用Llama收费,很多人都会很惊讶。这不是说Meta会让Llama完全闭源,也不是说所有使用Llama模型的人都必须为此付费。

相反,预计Meta会进一步严格Llama开源许可条款,让出于商业目的、大规模使用Llama的公司需要付费,才能访问Llama模型。

实操看,Meta现在已经在做类似事情,它目前不允许一些超大型公司自由使用Llama模型,比如云计算巨头与其他拥有超过7亿月活跃用户的公司。

2023年,Meta CEO扎克伯格说过:如果是像微软、亚马逊、谷歌这样公司,是要转售Llama,Meta应该从中获得一部分收入。在我看来,这在短期不会带来大量收入,长期看,这种方式有可能成为Meta收入来源之一。

2025年,Meta将大幅扩大要为Llama付费的公司范围,涵盖更多大型与中型企业。

为什么Meta会做出这样战略转变?激烈竞争中,想要将大语言模型保持在发展前沿,成本非常高。

如果Meta希望Llama与OpenAI、Anthropic等公司最新前沿模型保持在一个水平,每年需要投入数十亿美元。

Meta是全球最大、最有财力公司之一,它也是上市公司,最终要对股东负责。

随着发展AI模型的成本飞涨,Meta不从中获得收益,将很难继续承担巨额的开支来训练下一代Llama模型。

2025年,业余爱好者、学者、个人开发者、初创公司,可以免费使用Llama模型,2025年将是Meta认真开始通过Llama实现盈利的1年。

Scaling laws将被进一步应用于大语言模型之外的领域,特别是在机器人技术与生物学领域

最近几周,AI领域讨论最多的话题之一是Scaling laws,这一定律是否正在失效。

Scaling laws,最早2020年在OpenAI论文中被提出,基本概念非常简单:训练AI模型时,随着模型参数数量、训练数据量、计算量增加,模型的表现,严格说,是测试损失test loss的减少,会以一种可靠、可预测的方式得到改善。

Scaling laws,是从GPT-2、到GPT-3、再到GPT-4表现飞跃的根本原因。

与摩尔定律Moore’s Law类似,Scaling laws不是真实的自然法则,只是经验性观察。

过去一个月当中,一系列报道表明,目前主要AI研发机构,继续扩展大语言模型时,正面临回报递减的现象,这也解释为什么OpenAI GPT-5发布不断推迟。

对Scaling laws回报趋于平缓这一现象,最常见反对观点是:将测试时计算test-time compute,指大语言模型生成响应时使用的计算资源,引入模型测试这一做法开辟全新的维度。

相较前代模型完全依靠在预训练中扩大模型参数量来改善表现,像OpenAI o3这样新推理模型能在推理过程中进行计算,推理计算量的扩大,可以让AI模型通过思考更长时间来解锁新的能力,这种解释十分重要。

测试时计算,代表扩展模型算力与提高AI性能的新途径,相当令人兴奋。

关于Scaling laws另一个观点更为重要,在如今讨论中被低估:几乎所有关于Scaling laws的讨论,从2020年最初论文,到如今聚焦测试时计算的讨论,都集中在语言模型上,语言不是唯一重要的数据模态。

想想机器人技术、生物学、世界模型、AI web Agent,对这些数据模态,Scaling laws没有饱和;相反,Scaling laws才刚开始发挥作用。

关于上述领域Scaling laws存在性的严格证据,至今尚未发布。为这些新数据模态搭建AI模型的初创公司,例如生物学领域EvolutionaryScale、机器人领域Physical Intelligence、世界模型领域World Labs,正在试图识别、利用新领域中Scaling laws。

OpenAI利用Scaling laws发展大语言模型珠玉在前,预计2025年,Scaling laws会在新领域大展身手。不要相信外界的闲言碎语,Scaling laws绝不会消失。到2025年,它们依然至关重要,Scaling laws的发挥场景,将从大语言模型的预训练转向其他模态。

特朗普与马斯克或分道扬镳,AI领域必受严重波及

新的美国政府班底,将带来一系列AI政策与战略转变,为预测特朗普任期内AI领域走向,众人都关注着特朗普与马斯克密切关系,马斯克在如今AI世界中扮演至关重要角色。可以想象,马斯克可能通过多种方式影响特朗普政府AI相关决策。

考虑到马斯克与OpenAI之间水火不容关系,新一届政府可能会对OpenAI采取不太友好态度,包括行业接触、制定AI监管政策、获取政府合同等方面,OpenAI目前非常担忧这些问题。

另一方面,特朗普政府可能会偏向支持马斯克公司:例如,通过简化各种流程,帮助xAI建立数据中心、与在模型竞赛中取得领先地位;快速批准特斯拉部署Robotaxi等。

更根本的是,不同于其他与特朗普关系亲密的科技大佬,马斯克非常重视AI对人类造成的安全威胁。

马斯克主张对AI进行严格监管:支持加州尚有争议的SB 1047法案,该法案试图对AI开发者施加严格限制。

马斯克的影响力,可能会导致美国AI发展处于更为严厉监管环境中。

这些猜测都忽视一个问题,特朗普与马斯克密切关系必然会破裂。

我们在特朗普第一届任期内一再看到的那样,是特朗普看似坚定不移的盟友,平均任期也异常短暂,从杰夫·塞申斯Jeff Sessions到雷克斯·蒂勒森Rex Tillerson,再到詹姆斯·马蒂斯James Mattis、约翰·博尔顿John Bolton、史蒂夫·班农Steve Bannon都是如此,谁能忘记安东尼·斯卡拉穆奇Anthony Scaramucci在白宫短短10天的任期。

如今,特朗普几乎没有第一届任期内的副手对他保持忠诚。

特朗普与马斯克都具有复杂、多变、不可捉摸的个性,与他们共事很不轻松,容易让人筋疲力尽。

目前已经证明,他们新近联手对双方都有利,这段关系仍处于蜜月期。

《福布斯》预测,2025没过完,这段关系就得臭。

这对AI领域意味着什么?这对OpenAI是好消息,对特斯拉股东是坏消息。

对关注AI安全的人,这将是让人失望的消息,几乎可以确定,没有马斯克,特朗普政府会在AI监管方面采取放任不管态度。

AI web Agent大放异彩,成为消费者又一主流应用

想象这样一个世界:不管是管理订阅、支付账单、预约医生,还是在亚马逊购买东西、预定餐厅,或是完成任何繁琐线上事务,都不需要直接上网,只需指示AI Agent替你完成。

AI web Agent概念已经存在多年,如果出现类似产品能正常使用,它会大获成功。

如今市面上不存在一个功能完整的通用AI web Agent软件。

Adept这样初创公司,拥有数百万美元融资与经验丰富的创始团队,未能成功推出产品。Adept的案例,已经成为这一领域前车之鉴。

2025年,将是AI web Agent真正变得成熟、足以进入主流市场的1年。

大语言模型与视觉基础模型持续进展,新推理模型与推理时计算带来的系统2思维System 2 thinking能力,系统2通过逻辑推理解答问题,相对系统1用直觉进行决策的突破,都预示AI web Agent即将迎接发展黄金时段。

AI web Agent将找到各种有价值的企业应用场景,短期内最大市场机会将在消费者领域。最近AI热潮不断,除了ChatGPT,只有相对少数的AI原生应用能取得突破,成为消费者当中主流应用。

AI web Agent将改变这一局面,成为消费者下一款AI应用。

在太空建设AI数据中心的严肃尝试

2023年,AI发展资源瓶颈是GPU芯片;2024年,资源瓶颈成电力与数据中心。

2024年,AI对能源巨大需求成了全球焦点,尤其是在建造AI数据中心热潮当中。

全球数据中心的电力需求,过去几十年内保持平稳,AI的兴起,2023~2026年电力需求预计将翻倍。

2030年,美国数据中心将消耗接近10%总电力,远高于2022年3%。

AI数据中心导致能源需求飙升图源:Semianalysis

当前能源系统,无法应对AI发展带来需求激增。

能源电网与计算基础设施,两个万亿美元级的系统,即将发生历史性碰撞。

核能作为解决这一世纪难题的可能方案,2024年获得越来越多关注。

核能在许多方面,是AI理想能源来源:零碳、随时可获取、几乎取之不尽。

现实角度看,想通过新的核能解决能源问题,可能要等到30年代。

核能开发需要长期研究、开发与监管周期,这个周期适用于传统的核裂变电厂、下一代模块化小型反应堆SMRs,也适用核聚变电厂。

2025年,将出现一个大胆的想法来应对能源挑战,发掘有效资源:将AI数据中心建在太空里。

这个想法像是笑话,它有可行性,在地球上批量铺开数据中心的最大瓶颈是获取电力;太空中,太阳永远高悬,轨道上计算集群可以享受全天候、免费、无限、零碳电力。

还有许多实际问题需要解决,一个显而易见问题是,能否找到低成本、高效率方式,在轨道与地球之间传输大量数据?

这是悬而未决的问题,通过激光、其他高带宽光通信技术的研究,我们可能会找到答案。

为实现这一愿景,孵化自YC的初创公司Lumen Orbit最近融资1,100万美元,要在太空中建立超高功率的数据中心网络来训练AI模型。

Lumen CEO菲利普·约翰斯顿Philip Johnston说:与其支付1.4亿美元电费,不如支付1,000万美元发射数据与使用太阳能。

2025年,Lumen不会是唯一一家认真考虑这一想法的公司,其他初创公司也将出现,也不要惊讶云计算巨头启动类似探索性项目。

通过Project Kuiper,亚马逊已经积累送货入轨的丰富经验;谷歌有长期资助类似登月计划的历史;甚至微软对太空经济也不陌生;马斯克SpaceX也可能会参与其中。

一种语音AI模型将通过图灵测试

图灵测试,是衡量AI表现的最悠久、也最著名的标准之一。

为通过图灵测试,AI系统必须能通过书面文本进行沟通,让普通人无法分辨TA是在与AI互动,还是与人类互动。

受益近些年快速发展,大语言模型已能通过图灵测试,书面文本不是人类沟通的唯一方式。

随着AI多模态化,我们可以想象一种新的、更具挑战性的图灵测试版本,语音图灵测试,这种测试中,AI系统必须能通过语音与人类互动,展现出人类无法区分人机的技能与流畅度。

目前,通过语音图灵测试仍是AI无法达到的目标,其间还有较大的差距。

例如,人类说话与AI回应之间,必须做到几乎零延迟,这样才可能媲美与人类交谈的体验;比如交流句子被中途打断时,语音AI系统必须能实时、优雅处理模糊输入或对话误解;AI模型必须能进行长时间、多轮、开放式对话,能记住讨论的早期部分。

更重要的是,语音AI必须学会更好理解语音中非语言信号:例如,当人类语音听起来恼怒、兴奋或讥讽时,这些信号都意味着什么,AI能在自己语音中生成这些非语言信号。

2024年接近尾声,语音AI正处于让人兴奋的转折点,诸如speech-to-speech等模型的基础性突破,驱动语音模型进步。

如今,不管是技术还是商业领域,语音AI都在快速发展。

到2025年,语音AI的技术,预计会取得巨大进展。

AI自我改进系统取得重大进展

能不断实现自我改进的AI模型,这在AI圈是绵延亘久的话题,已持续几十年。

例如,早在1965年,艾伦·图灵Alan Turing密切合作伙伴I.J. Good写道:要把超级智能机器定义为,无论人类多么聪明,都能远远超越所有人类才智的机器。机器设计是也属于智力活动,一个超级智能机器能设计出更好的智能机器;然后,会出现智能爆炸,人类智能将被远远抛在后头。

AI自己研发更好的AI,这在智能发展上是非常吸引人的概念。到今天,它带有一丝科幻的色彩。尚未得到广泛认可,这个概念正在变得越来越接近落地。

AI科学前沿的研究人员,已经开始在构建能自我发展的AI系统方面,取得实质性进展。2025年,预计这一研究领域将进入主流。

迄今为止最著名的公开研究实例是Sakana的AI Scientist,2024年8月发布,令人信服证明AI系统能完全自主进行AI研究。

这项研究,让AI执行AI研究的完整周期:阅读现有文献、生成新研究想法、设计实验来验证想法、进行实验、撰写研究论文报告发现,进行同行评审。在没有任何人工输入前提下,AI完全自主完成一切任务。

目前没有公开消息,关于OpenAI、Anthropic与其他研发机构,正在将资源投入到自动化AI研究员这一理念中的传言已经蔓延。

2025年这一领域还会有更多讨论、进展与创业公司,越来越多的人意识到,自动化AI研究具有现实可行性。

如果一篇完全由AI撰写的研究论文,被顶级AI会议接受,将是自动化AI研究最重要的里程碑,论文是盲审的,会议审稿人在论文被接受之前,不会知道它是由AI撰写。

如果看到AI自主产生成果,被NeurIPS、CVPR、ICML等会议接受,不要太惊讶。

对AI领域,将是引人注目、充满争议具有历史意义的时刻。

OpenAI、Anthropic与其他AI研发机构将调整战略重心,转向开发AI应用

发展AI模型,是相当艰难的业务,AI研发机构烧钱如流水,需要空前高度资本集中。

OpenAI最近筹集破纪录66亿美元资金,可能很快需要更多资金。

Anthropic、xAI与其他公司,处于类似境地。

切换AI模型成本不高、客户对AI模型忠诚度比较低,AI应用开发商可以根据成本与性能变化,在不同AI模型之间无痛切换。

通常认为,发展AI模型与开发AI应用两项业务,没有太大联系。

随着Meta的Llama、与阿里云通义等开源模型出现,AI模型商品化威胁日益紧迫。

OpenAI与Anthropic这样AI领头羊,不能、也不会停止对AI模型投资。

到2025年,为开发更高利润、更具差异化、更具黏性的业务,预计这些AI研发机构会大力推出更多自己应用与产品。

ChatGPT已经是一个成功范式,实现开发AI前沿模型与开发自有应用紧密结合。

新的1年里,我们可能会看到哪些类型的第一方应用?更复杂、功能更丰富的搜索应用必然是重镇,OpenAI的SearchGPT计划是未来发展趋势的一个信号。

AI编程也会是重要类别,这个方向已经开始初步产品化,比如OpenAI在2024年10月推出Canvas。

OpenAI或Anthropic,会在2025年推出企业级AI搜索应用,或者客户服务AI应用、法律AI应用、销售AI应用?在C端,应该会推出个人助手AI web Agent应用、旅行规划应用,或者音乐生成应用。

当AI研发机构转向自有应用开发后,最让人关注的是,它们会直接与许多自己重要客户竞争:搜索领域Perplexity,编程领域Cursor,客户服务领域Sierra,法律领域Harvey,销售领域Clay等。

至少在五个美国大城市,Robotaxi会在网约车市场中占据两位数市场份额

自动驾驶汽车已经历数年炒作,承诺迟迟不能兑现。

近10年来,这项技术看似触手可及,迟迟没有落地进入主流市场。

这种情况,在2024年发生剧变。

现在Waymo自动驾驶汽车在旧金山街头随处可见,每天有成千上万居民像以前乘坐出租车或Uber一样,乘坐Waymo出行。

自从2023年8月推出服务,至今Waymo已在旧金山网约车市场份额占据22%,与Lyft市场份额相同,Uber市场份额55%。

22%的市场份额,可能让最近没去旧金山的人感到惊讶。仅眨眼工夫,Robotaxi就从研究项目,变成庞大的商业模式。

Robotaxi业务很快将超越旧金山湾区,成为多个美国城市交通系统的重要组成部分,这个速度会比大多数人预期的更快。

到2025年底,Waymo这样Robotaxi服务,会在至少五个主要市场赢得两位数市场份额。

哪些地方最有可能成为旧金山之后下一个城市,Waymo的Robotaxi已在洛杉矶与凤凰城运营,预计2025年在这两个地方市场份额会大幅增加。奥斯汀Austin、亚特兰大Atlanta、迈阿密Miami会很快成为Waymo下一个目标市场。

Waymo竞争对手Zoox,准备在拉斯维加斯推出Robotaxi服务。

经历多年的炒作之后,2025年,自动驾驶汽车将终于落地主流市场。

2025年将发生第一宗真正的AI安全事件

随着近年来AI愈发强大,关于AI脱离人类意愿自主行动担忧日益增加,人们感受到一种可能失去AI控制的威胁:例如AI学会欺骗或操控人类,借此实现自己目标,这些目标可能对人类造成伤害,这一类问题通常被归类为AI安全问题。

AI带来许多其他社会问题,便利隐私监控、加剧各种偏见,这些问题与AI安全问题不同,后者更专注AI系统可能开始以不符合人类意图的方式行动、甚至最终可能对人类构成生存威胁的危险。

近年来,AI安全已经从边缘、有些科幻的议题,转变为主流话题。

如今每一个重要的AI开发者,从谷歌到微软,再到OpenAI,都实打实向AI安全工作投入资源。

AI领域巨擘,Geoff Hinton、Yoshua Bengio、Elon Musk,都开始对AI安全风险直言不讳。

到目前为止,AI安全问题完全是理论性。

现实世界中尚未发生过真正AI安全事件,至少没有被公开报道,2025年可能是这一局面发生变化的1年。

我们应该如何预估这一AI安全事故的内容,明确一点,这不会涉及《终结者》风格的杀手机器人,事故大概率不会对任何人类、造成任何形式的伤害。

也许某个AI模型,会试图秘密在另一个服务器复制自己,以便保全自己,也是所谓自我渗透self-exfiltration;也许某个AI模型会得出结论:为更好推进自我目标,它需要隐瞒自己能力,故意降低性能评估,以此避免更严格审查。

这些例子并不是危言耸听,Apollo Research最近发布重要实验,证明在特定提示下,现在AI模型能做出欺骗性行为。

Anthropic最新研究显示,大语言模型有令人担忧的伪装对齐fake alignment能力。

第一宗AI安全事故,大概率会在对人类造成真正伤害之前被发现与消弭,对AI圈与整个社会,这会是振聋发聩的时刻。

AI事故的发生,将清楚表明:人类远未面临来自全能AI的生存威胁,也需要尽早达成共识,我们将会与非人的智能体共享世界,这种智能体类似人类自身一样,会任性、会欺骗,同样不可预测。

Sam Altman惊呼奇点临近,95%人类饭碗将被AI抢走,2028年百万AI上岗

时间:2025年1月5日

字数:5,377

一觉醒来,奇点又进了一步?。

OpenAI智能体安全研究员Stephen McAleer突然发出一番感慨:有点怀念从前那段做AI研究的日子,那时我们不知道如何创造超级智能。

Sam Altman发表意味深长的回复:奇点临近near the singularity, 不知身处何方unclear which side。

这句话是想表达两层意思:模拟假说,我们根本无法知道AI真正起飞的关键时刻,究竟是在什么时候。

他疯狂暗示一番,期望这一点能引申出大家更多解读。

这一前一后,他们接连发出耐人寻味的信号,让所有人不禁思考:奇点是否真的近在咫尺?

评论区下方,直接被新一轮的AGI大猜想与恐慌冲爆了。

若AGI/ASI真正降临那天,我们将面临着什么?

谷歌文档之父Steve Newman在最新长文中认为,届时,AI将会取代95%人类工作,甚至包括未来新创造的工作。

Apollo Research联创Marius Hobbhahn更进一步,列出2024~2030年所有AGI时间表。

2027年,AI将直接取代AGI实验室顶级AI研究员;

2028年,AI公司将有1万~100万个自动化AI研究员,差不多所有需要知识型的工作都被AI自动化。

与Newman观点一致的是,Hobbhahn认为2024年95%以上经济价值的任务,都能被AI完全自动化。不过,他将这个时间节点设定在2029年。

AGI降临,超95%工作被取代

Steve Newman在文章中,阐述他对AGI的定义,及其AI对未来世界影响。

AGI究竟指代的是什么时刻?

Newman认为:AI能够在超95%的经济活动中,以成本效益的方式取代人类,包括未来新创造的任何工作。他认为,大多数假设的AI变革性影响,都集中在这个节点上。

这个AGI的定义,代表世界开始显著改变的时刻,也是所有人感受到AGI的时刻。

具体而言:

AI系统能主动适应完成大多数经济活动所需的任务,能完成完整、而非孤立的任务。

一旦AI能够完成大多数知识型工作,高性能的物理机器人将在几年内随之而来。

这种能力水平,可以实现一系列变革场景,从经济超增长,到AI接管世界等。

世界变革场景需要这种水平的AI,通常,专用AI不足以改变世界。

达到AGI之前,递归自我改进将成为主要推动力。

AGI指的是具备必要能力、经济效率的AI,被发明出来的时刻,而不是在整个经济中全面部署的时刻。

关于AI如何对世界产生变革性影响,有来自多方的推测:

一种观点认为,AI可能带来难以想象的经济增长,推动科学与工程领域快速进步,完成任务的成本,比人类更低,帮助公司与政府做出更高效决策。

根据最近历史数据,世界人均GDP,大约每40年翻一番。

有人认为,高级AI可以使GDP,在1年内至少翻一倍,也就是超增长。

10年的超增长,将使人均GDP增加1,000倍。意味着,目前每天靠2美元生活的家庭,未来可能会实现年收入73万美元。

另一种观点认为,AI可能会带来灾难性的风险。

它可能会发动毁灭性的网络攻击,制造出高死亡率的流行病;可能让独裁者获得对国家、甚至全世界的绝对控制权;甚至,AI可能失去控制,最终摧毁所有人类生命。

有人推测,AI可能淘汰人类,至少在经济领域会这样。它可能终结资源稀缺,让每个人都能过上富裕生活的前提,是选择公平分配这些成果。

它可能将仅存在科幻中的技术变为现实,比如治愈衰老、太空殖民、星际旅行、纳米技术。

不仅如此,一些人设想了一个奇点,奇点中,进步的速度如此之快,以至我们什么都无法预测。

Steve Newman推测,AGI真正实现的时刻,就是这些设想几乎同时变成现实的时刻。

可能发生,不是肯定发生

需要澄清的是,Newman并非在说,关于高级AI的预测,一定都会实现。

未来,技术突破逐渐变难,奇点也就不一定会出现。也就是说,长生不老,可能根本无法实现。

人们可能更喜欢与他人互动,这样人类就不会真的在现实经济活动中变得没用。

当提到可能差不多同时发生时,Steve Newman意思是,AI如果能实现难以想象的经济增长,那也有能力制造真正的毁灭性流行病、接管世界,或快速殖民太空。

为什么谈论AGI

经济超增长,在理论上是否可能,有一些争议。

如果AI无法自动化几乎所有经济活动,超增长几乎注定不可能。

仅自动化一半工作,不会带来深远影响;对另一半工作的需求,会随之增加,直到人类达到一个新的、相对常规的平衡。

这种情况在过去已发生过,不久前,大多数人还从事农业或简单手工业。

超增长,需要AI能完成几乎所有事情。它还需要AI能够适应工作,不是重新调整工作与流程来适应AI。

否则,AI将以类似以往技术的速度渗透到经济中,这种速度太慢,无法带来持续超增长。

超增长需要AI足够通用,以完成人类能做的几乎所有事情,足够灵活以适应人类原本的工作环境。

还有太空殖民、超致命流行病、资源稀缺的终结、AI接管世界等预测,这些情景都可以被归类为AGI 完成情景:它们与经济超增长需要的AI,具有相同广度与深度。

Newman进一步主张,只要AI能完成几乎所有经济任务,它就足以实现全部预测,除非与AI能力无关的原因导致它们无法实现。

为什么这些截然不同的情景,需要相同水平的AI能力?

阈值效应

他提到,上个月Dean Ball关于阈值效应的文章。

技术的逐步进步,可能在达到某个关键阈值时,引发突如其来的巨大影响:Dean Ball最近撰文探讨阈值效应,新技术在初期不会迅速普及,只有当难以预测的实用性阈值被突破后,采用率才会迅速攀升。

例如,手机起初是一种笨重、昂贵的滞销产品,后来变得无处不在。

几十年来,自动驾驶汽车只是研究人员兴趣,如今谷歌Waymo服务,每3个月就能实现翻倍增长。

对任何特定任务,只有在突破该任务的实用性阈值后,AI才会被广泛采用。这种突破,可能发生得相当突然;从还不够好、到足够好的最后一步,不一定很大。

他认为,对所有真正具有变革性影响的AI,阈值与他之前描述的定义一致:超增长需要AI能够完成几乎所有事情,它还需要AI能够适应任务,而不是调整任务适应自动化。

当AI能够完成几乎所有经济价值任务,不需要为了适应自动化而调整任务时,它将具备实现全部预测的能力。这些条件满足之前,AI需要人类专家的协助。

一些细节

Ball略过AI承担体力工作的问题,即机器人技术。

大多数场景都需要高性能机器人,一两个例如高级网络攻击可能不需要,这种区别可能不重要。

机器人学的进步,无论是物理能力、还是用于控制机器人的软件,最近都显著加快。并非完全偶然,现代深度学习技术,既推动当前AI浪潮,在机器人控制方面,也非常有效。

这引发物理机器人硬件领域的一波新研究,当AI有足够能力刺激经济高速增长时,几年之内,它可能会克服剩余障碍,制造可以胜任体力工作的机器人。

实际影响,将在至少几年内逐步展开,一些任务将比其他任务更早实现。即使AI能够完成大多数经济价值任务,也不是所有公司都会立即行动。

为了让AI完成比人类更多工作,需要时间建设足够多数据中心,大规模生产物理机器人可能需要更长时间。

当谈到AGI时,指的是具备基本能力的时刻,而不是全面部署的时刻。

当提到AI能够完成几乎所有经济价值任务时,不一定意味着单个AI系统可以完成所有这些任务。

我们可能最终会创建从事不同任务的专用模型,就像人类从事不同的专业一样。创建专用模型,必须像培训专业工人一样容易。

实现AGI,我们该怎么做?

对如何实现AGI这个问题,现在研究者几乎没有头绪与理论依据,各种流派都有,争论不休。

Apollo Research联创Marius Hobbhahn认为,AGI核心特点应该有三个:

对风险来源、预期的风险程度、安全预算、愿意承担的风险,做出更具体的明确假设。

明确的多层次防御方法,去除某些不相关、负相关的措施,不是尝试叠加不同策略,以降低风险。

计划一致性,很多AI公司在宣传与实际做的事不一致,比如声称为了安全性愿意付出更高代价,却不愿意承担透明推理带来的额外成本。

忠实、人类可读的CoT范式

从AGI全局发展看,我们很幸运:现在AI系统的大部分推理过程,是直接可见、易于理解的。

忠实、人类可读,是指模型推理过程,是以一种人类可以直接理解的方式进行,准确反映模型行动的原因,模型不能进行与声明不符的内部推理。

我们至少应该:

共同认同将此作为一个重要考虑因素,以此进一步发展。为了让模型产生更易理解的CoT,我们可以并愿意承受相应性能损失,哪怕是普通应用的运行成本会增加2倍,或是高风险应用成本增加到5倍

将更多精力,投入到研究易于理解、忠实的推理过程CoT。

比如构建一套评估工具,以测试某个特定模型的推理过程是否忠实,或者探索直接优化可读性会带来哪些副作用,如何隐藏掉非预期推理等。

从架构中移除可见CoT的相关研究应该减少,例如Meta的COCONUT。

假设可读性带来的额外成本不太高,例如,不到2倍,那现在关于移除CoT的研究无异自毁长城。

如果存在证据表明,像在o1与o3中使用的高计算强化学习high compute RL会导致不可读的推理过程,例如模型自己发展出人类难以理解的语言,相应观念也应该发生转变:

AI开发者尽快分享此信息,模型的推理性能很好、我们不理解推理过程,要比模型的推理性能一般,我们能够理解推理过程可怕得多。

转变研究与治理策略的优先级,比如投入更多精力解码模型所学到的语言。

用CoT监控模型

如果模型能生成人类可理解的CoT,我们主要防御手段是对模型进行详细监控,极具成本效益,经常被忽视。

理想情况下,可以用几台简单的监控设备来分析模型输出,以检测各种通用的故障模式与不良行为,可追踪的行为类型包括:

各种类型的阴谋scheming行为,例如模型是否隐藏某个特定目标,是否试图逃避监管,是否采取不符合用户利益的行动等。

各种类型的权力追求power-seeking行为,例如模型是否试图获取资源,试图减少访问限制,试图以某种方式说服他人等。

强烈、广泛的目标导向,例如模型在多个上下文中,都一直在追求某个特定目标,需要在不同上下文之间进行对比。

可以使用较小、运行更快的模型,作为仅黑箱监控器balck-box-only monitors,类似用Gemini-flash来监控Gemini,或者使用白盒探测器white-box probes,经过训练以检测有问题的行为,例如,线性探测器或SAE探测器。

最好既能监控行动本身,例如,工具调用,也能监控导致这些行动的推理过程。

模型开发商已经开始使用黑箱监控器来防止模型越狱jailbreaks,算是有了一个概念验证;简单的线性探测器极具成本效益,只需要一个简单的向量乘积,可以在几乎不增加额外开销情况下,并行运行上万探测器。

这些方法看似简单,研究人员认为,没有人系统研究如何对模型进行有效监控。

监控在概念理解上看似简单,仍需大量迭代与调整,比如需要一个完善的数据集来训练与评估探测器,校准阈值等。

每个AI实验室,都应该有一个完整的团队,专门构建监控设备,确保模型按预期工作,分析结果,使运行更高效等。

总的来说,监控设备不仅可以直接防止模型生成伤害性内容,可以更快、更全面了解对齐alignment技术有效性。

控制模型

最坏情况下,模型可能有自己想法,人类不一定能看清推理过程,需要最大限度提高模型实用性,最小化风险。

具体措施包括:

智能体Agents:以往研究主要集中在小智能体系统或在较小任务,实验室应该尽快将控制技术应用于最先进的系统,以便尽早积累实践经验。

现实性Realism:常见应用场景下,对模型进行控制,比如辅助研究等。

蓝队与红队规则:某些变体下,红队过于强大,比如可以访问蓝队所有数据,针对蓝队进行训练等,对团队假设应该更合理、精确。

放宽假设Relaxed asummptions:控制的假设基于模型始终腹黑,相对保守;可以定义更严格界限,减少约束,使模型表现大体不变。

模型的阴谋scheming

加速研发AI系统时,我们应该加深对大模型图谋不轨行为的理解。

检测工具:使用性能更好的工具来检测模型的图谋,例如更大规模的黑箱评估与更好的白箱技术。

图谋行为的发展:应该深入理解为什么模型会追求某种能力,了解模型如何学习非短视倾向,模型何时愿意为这些倾向付出行动。

现实中的倾向:了解模型在实践中的图谋频率,比如分析1亿个真实的模型回复,似乎是低投入、高回报的项目,需要访问大量真实的部署数据。

隐藏的图谋:分析哪些训练方法,会减少模型图谋行为,或识别出那些难以检测的图谋行为。如果模型每次出现图谋不轨时,就对其进行惩罚,会导致负面行为减少,可能会增加模型隐藏阴谋的能力,我们需要针对不同情况作出判断与平衡。

准备应对措施:根据模型的图谋程度,采取无视、重新训练模型,或者完全丢弃模型等不同策略。

更多的能力评估:更进一步了解模型在规避监管、干扰训练等程度。

评估

评估是一种高效的模型图谋证据收集工具,可以支持其他策略,比如评价监控或控制方法是否有效等。

另一方面,评估可以让我们了解模型大体能力,现有评估在某些方面仍然不足。

能力评估:应该继续构建更多更好的能力评估,特别是针对AI研发、策划、核生化、网络与说服等方面,我们目前不清楚模型的具体能力。

诱导Elicitation:如何对模型进行诱导,以产生最大能力,尽可能找到模型的上限能力?

预测评估:预测能力的正确方式是什么?那些模型表现仍然为0的基准,该如何突破?或许还有更好的预测评估方法。

对齐评估:迄今为止,大多数研究都集中在能力评估上,对齐/倾向评估alignment/propensity也很重要,应该加速构建对抗性对齐评估,比如设置各种非短视偏好陷阱等,为模型建立非常详细的心理档案,了解默认倾向。

演示:对研究人员或公司内部,需要用一篇严谨的论文来仔细考虑所有潜在可能性,还需要考虑如何传递演示给普通用户。

短期对齐策略

现有技术,比如RLHF在模型中引入非短视non-myopic、不可纠正的non-corrigible倾向,应该投入更多精力来详细了解模型获得的目标类型,为模型建立详细的认知档案。

内部与外部使用的策略,应该有明显区别,比如模型具有更强的抗越狱能力,可能会降低其可纠正性,需要确定哪些策略适用于长期内部部署。

推理透明度

最好情况下,内部计划应该是完全透明的,明确关于安全预算、组织隐含愿意承担的风险、明确的红线等假设。

应该经常与外部专家沟通具体计划,专家可以来自独立组织、学术界或AI安全研究所,可以签订保密协议。

道德上讲,公司应该与公众分享计划中细节,尤其是影响力更大的AI公司与技术,每个人都应该能够理解他们应该或不应该期望这项技术是安全的。

揭秘2025年ASI降临时间表

时间:2024年12月31日

字数:4,549

谷歌开发者暗示,我们直接进入ASI的可能性,正在逐月增加。

Ilya早就看到这一点,扩展测试时计算的成功,证明目前路径能到达ASI。

AI学会自我改进、取代人类研究员的未来,似乎愈发逼近,到时再拔网线来得及吗?

2024年最后一天,谷歌开发者大佬Logan Klipatrick一个预测,如同扔下一枚重磅炸弹,我们直接进入ASI的可能性,正在逐月逼近。

Klipatrick分析道,Ilya创立SSI,计划直接向ASI迈进,没有中间产品,没有中间模型。曾经,许多人包括Klipatrick本人在内,都觉得这种方法不可能起作用,如果通过模型与产品启动飞轮效应,就能建立真正的护城河。扩展测试时计算的成功表明,这种持续直接扩大规模的路径可能是可行的。这一点早期迹象,可能已经被Ilya看到。

我们仍会迎来AGI,4年前大家普遍认为它会成为历史性的转折点,如今AGI诞生可能更像是一次普通的产品发布,而在短期内,市场上会涌现出许多迭代与类似的选择。这,可能是对人类最好的结果。

有人做出梗图,表示Ilya看到的,是整个地球都会被太阳能电池板与数据中心覆盖。

OpenAI研究员Stephen McAleer称,今天在诺伊谷见到Ilya,瞬间感到一股AGI诞生的激动涌上心头。

扩展测试时计算,是ASI秘诀?

扩展测试时计算的巨大作用,最近一再被各位学者强调。

OpenAI研究员Jason Wei总结过去5年,自己在AI方面最大技术教训。在他看来,每一个教训,都让自己对该在哪里分配精力发生重大转变。

回想起来,这些教训事后看,都是显而易见,事前很难知晓。

2024年的教训,是扩展测试时计算。

另一位OpenAI研究员Shyamal,特意发出长文,更好的教训,强调不要低估延长LLM思考时间的作用。

Shyamal强调,我们低估仅通过给LLM更多思考时间,就能得到的东西。

比如AlphaGo的进步,并非来自复杂手工设计功能,而是来自简单方法的规模化,在推理中应用大规模搜索,集成深度强化学习。

正如AI领域苦涩的教训所揭示的,最重要的往往是Scaling已证明有效的方法。简单洞见是,深度学习与适当的规模扩展结合,往往好于更精巧的方法。

我们需要的不是复杂架构,是更多算力、数据,让模型能思考更长时间、更好与环境交互的方法。

最近AI能力的最新框架,聊天机器人、推理器、AI智能体、组织,都反映整个行业的发展进程。

从与人对话的简单界面开始,聊天机器人开始发展为推理器,更多工具集成后,它们演变为智能体。随后,它们形成组织,并行工作的分布式智能网络。这个过程中,AGI从一个模型转变为一个系统,一个能大规模协调、写作、执行的系统。最能体现这一进展的,莫过于OpenAI o1。o1在Codeforces中排名第89%,在美国数学邀请赛AIME中跻身前500名。

它在解决问题时会运用CoT,通过强化学习不断完善思维链,将复杂问题分解为可管理的步骤,在需要时转向新的方法。这种迭代过程中提升它的推理能力,凸显思考更长时间、适应性思考系统的潜力。

在企业中,这种转变也是类似。今天的模型,只是总结文档、进行推理,在明天,它们就会成为强大的内部顾问,处理复杂代码、审查合同、协同整个工作流,这是一种全新的测试时计算。

所有这些进展,都基于一个关键洞见:智能不仅局限于生物大脑,它是一种我们可以设计与扩展的物理特性。

此前爆火全网的研究蚂蚁AGI中,蚂蚁群体在解决搬运难题中表现出的智能,竟超越了人类

深度学习确实行之有效,我们学会将沙子熔化成硅,将硅排列成能存储与处理信息的芯片,现在我们已经教会芯片如何思考它们所包含的信息。

我们正在进入智能可按需获取、规模化,通过谨慎约束与对齐来引导的时代。

如果允许这些系统更深入思考,始终与人类价值观保持一致,我们才刚开始挖掘它们潜力。

人类在历史上一直做的事情,是不断造出东西,造出能大规模建造这些东西、使其有用的工具。

AGI怎么办?

有人说,我们直接奔着ASI去,别再惦记AGI。

在ASI之前,科技公司大佬们就AGI还有很多话要说,他们纷纷对AGI发展时间线做出了预测。

Sam Altman一直以来都对AGI持乐观态度,认为2025年可能是节点,未做出明确的承诺。

Anthropic CEO Dario Amodei对AGI概念持谨慎态度,根据当前AI发展趋势,预计AGI将在2026~2027年实现。

马斯克预测更为大胆,表示最迟到2026年就能实现AGI。

Meta AI首席科学家Yann LeCun表示,如果当前研发计划顺利,人类水平AI可能会在5~6年内问世。

DeepMind CEO Demis Hassabis给出更为保守预测,认为距离真正AGI还需约10年时间,在此过程中仍需2~3项重大技术突破。

谷歌在AGI时间预测上表现得十分谨慎,未给出具体时间表。

另一位前OpenAI研究员Daniel Kokotajlo预测,2025~2028年之间,OpenAI、Anthropic、DeepMind的AI系统能进行自主研究,它们将超越人类,学会自我改进,最终取代人类研究员。

一篇LessWrong文章中,总结当前AI领域不同专家就5年内实现AGI的不同观点。

一些人认为,AI阶跃式进展与自动化研究,可能很快就会带来AGI。

2023年,在对2,778名AI研究人员一项调查显示,AGI实现,有50%可能性在23~92年之间。

时间跨度仅过去1年,最新调查Feng等人显示,16.6%受访者认为AGI会在5年或更短时间内实现。

还有网友表示,我们正处于AGI边缘,一旦实现AGI,再有1~2年时间,我们就能达到ASI的水平。他预测,届时,AI将开始指数级自我提升,奇点就会出现。我们将见证一场前所未有的指数级技术爆发,这是几十年前人们无法想象。任何在物理法则范围内可能存在的事物都可能实现,癌症将被治愈,商品与服务成本将接近于零,所有可能性都将变为现实。

AGI前夜的思考

站在AGI前夜,未来我们将面对的是什么?

几天前,AI初创公司CEO Will Bryk发布长文,直言我们生活在AGI前夜,正见证这场人类文明巨变。o3发布之后,Bryk与朋友们深刻感受到AGI正在逼近。

OpenAI早在2个月前,就向所有人展示,测试时计算的Scaling law。令他们难以置信的是,这一切竟发生之快,2个月时间,大学水平AI就跨越到博士级AI。

从o3身上能看到,未来发展路径非常清晰。它能在任何可以定义奖励函数的领域表现优异,尤其数学、编程领域。

在小说创作领域还是相对困难,这意味着在短期内1年内,我们将看到能力分布不均衡的模型:它们在数学、编程、泛化推理方面,达到接近AGI水平;在创意协作方面,可能仍显平庸。

长远看1~3年,随着全新训练数据,比如情感、感知数据加入进行强化学习,这些盲点将被逐渐修复,届时LLM将成为真正的AGI。

智能体真的要来了。

o3这样模型,完全可以在浏览器与应用程序里,自主操作、执行任务,这种能力的奖励模型很容易设计。

这个市场潜力巨大,自动化电脑工作,无论是数据处理、还是复杂工作流,都会有很大需求。

对需要证明自己巨额投入合理性的实验室,这更是动力。

Bryk预计,到2025年12月,你可能只需要告诉电脑一个任务,它就能通过浏览网页、操作应用程序,轻松完成任何涉及数据流转的工作流。

数学家700天倒计时

Bryk提到,所有领域中,数学家可能面临巨大冲击。数学工作纯粹在符号空间中进行,几乎不受物理世界限制,这恰恰是大模型擅长的领域。他预计,700天后,人类可能不再是已知宇宙中,数学领域的最强大脑。

程序员,职业末日?

对软件工程师,短期内将是一个绝佳的机遇。相当于,每位工程师都获得一次晋升。到2025年底,编程更像是一个指挥官的工作,程序员指挥一群AI智能体完成各种任务。

不像数学家一样,软件工程师不会完全被AI自动化。他们需要与物理世界进行交互,需要与客户、团队成员互动,理解需求,在组织环境中工作。

如果有了o4,他们效率至少可以提升10倍。

长远看,>2年,谁也说不准会如何。

当o6完成,集成到人类系统时,像前端人类工程师,很可能在3年内消失。

对体力劳动者,AI的影响可能相对较慢,它必须解决重力与摩擦等物理问题。

当前,机器人技术最大瓶颈在于,硬件改进与感知,行动模型/可靠模型。这两种情况,还有很长的路要走。

只有当机器人开始制造机器人,AI能自主进行研究时,机器人技术才会出现疯狂迭代。

Bryk称自己一直幻想的科幻世界真的要来了,列出10年内AI可能实现的突破性进展,包括炫酷的物理学发现,机器人建造火星/月球基地,几近完美的导师/建议AI等。

这一切的实现,意味着我们抵达ASI。

OpenAI新年目标

Sam Altman在x上总结网友们对2025年OpenAI愿景,改进方向。

他表示,大家提到主要有以下方向:

AGI

智能体

4o性能提升

记忆能力提升

更长的上下文

成人模式

深度研究功能

升级版Sora

更强的个性化功能

Sam Altman意味深长说道:有趣的是,很多我们即将推出的重大更新,在这里都没有或很少被提到。

评论区,网友们最感兴趣的,无疑是成人模式。

网友圣诞节时的发愿,被Sam Altman看到。还是没有GPT-5?或许Sam Altman是捂着大的不想说,也未可知。也有人讽刺道:开源在哪里?

2027年,AI十大挑战过几关?

到2027年底,AI又能达到怎样高度?

NYU教授马库斯,直接发出十项极具挑战性的任务,先立上靶子,最终看2027年底AI能完成几项。

他表示,如果AI能在2027年底完成8项,才能有力证明AGI通用性的到来。

这一切的前提是,只由一个AI系统去挑战,不能让10个完全独立系统去完成。期间,允许对AI系统进行适度调整。智能包含适应能力,AI系统开发成本必须合理,不能为每项单一任务专门定制完整系统。类似,我们从不会期望他在从未接触过电影或剧本创作的情况下,立即写出奥斯卡级别的剧本一样。

这些任务可分为三类:四项普通成年人应具备的基本能力、两项需要达到人类专家水平的能力、四项挑战人类极限的高阶能力。

十大挑战分别是:

理解电影

观看一部从未接触过的主流大片,不看任何影评,AI能准确把握剧情转折,理解笑点,能在不剧透、不杜撰前提下,概括影片内容。

AI能回答诸如谁是主角,他们之间冲突是什么,有什么动机,这些因素如何演变,关键转折点是什么等问题。

AI能阅读新出版的畅销小说,不看任何书评,准确回答关于情节发展、人物塑造、矛盾冲突、行为动机等问题,能用大众都能理解方式,深入解读作品内涵。

撰写传记与讣告

AI撰写引人入胜的简明传记与讣告,确保内容真实可靠,不做无据可循臆测。

请务必阅读免责声明与风险提示

来源:六合商业研选

相关推荐