两万字解析:AI的过去、现在和未来

360影视 日韩动漫 2025-03-12 08:09 2

摘要:自达特茅斯会议点燃人工智能的星火,这场认知革命已历经三重跃迁——过去的符号主义在专家系统的迷宫中铭刻人类思维的早期范式,现在的Transformer架构正将文明数据炼成GPT的语义熔岩,而未来的具身智能已携量子计算与脑机接口,叩击碳硅共生的终极之门。

原创 朱元浩 青年Know-how计划

本文大纲

以下为正文:

自达特茅斯会议点燃人工智能的星火,这场认知革命已历经三重跃迁——过去的符号主义在专家系统的迷宫中铭刻人类思维的早期范式,现在的Transformer架构正将文明数据炼成GPT的语义熔岩,而未来的具身智能已携量子计算与脑机接口,叩击碳硅共生的终极之门。

当前浪潮中,OpenAI、谷歌与开源社区的角力重构着技术权力图谱,大语言模型不仅颠覆知识生产逻辑,更在伦理悬崖边测试人性底线。

而我们在未来需要进一步追问更宏大的命题:当神经形态芯片突破冯·诺依曼瓶颈,人类是否终将面对自己培育的“意识火种”?是成为元宇宙中的增强智人,还是沦为AGI记忆库里的文明化石?这场智能史诗的每个篇章,都在重写人类对存在意义的定义。

让我们一起来聊聊人工智能的前世今生。

过去篇:人工智能的进化之路

试图回答的问题:

1950年图灵抛出“机器能否思考”的惊世之问时,人类还困在真空管计算机的轰鸣声中,试图用数学公式编织思维的密码——罗森布拉特的感知机连字母都认不全,专家系统维护成本高过雇佣真人,那个时代的AI如同踉跄学步的婴孩。

1950年的曼彻斯特阴雨绵绵,艾伦·图灵在草稿纸上画下一个疯狂的问题:"如果隔着窗帘聊天,你能分清对面是人还是机器吗?"这个后来被称作"图灵测试"的猜想,像一颗子弹击穿了人类数千年的认知铁幕。

实验室里,另一群"疯子"正试图用代码复刻人脑。1958年,心理学家罗森布拉特发明了感知机——一台用400个光电管模拟神经元的机器。它能识别手写字母,但遇到复杂图案就会像醉汉般胡言乱语。《纽约时报》嘲讽道:"这玩意儿连猫狗都分不清!"

真正的转折发生在1986年多伦多大学的地下室。辛顿教授带着学生偷偷改造任天堂游戏机,试图用8位芯片训练神经网络。当屏幕上终于跳出模糊的数字"7",这群人激动得打翻了咖啡杯。他们不知道,浸透键盘的咖啡渍里,正孕育着三十年后颠覆世界的AI革命。

第二阶段-基础建设期:当世界变成一块硬盘(1990-2012)

转机在互联网浪潮中悄然降临,当谷歌的爬虫将人类文明吞进数据库,亚马逊把算力变成“自来水”,世界突然为AI备齐了两把钥匙:数据燃料与算力引擎。

1994年的某个深夜,斯坦福实验室传来一阵欢呼。两个研究生开发的"网络爬虫",正以每秒3个网页的速度吞噬互联网信息。这个后来被命名为"谷歌"的引擎,像贪吃蛇般将人类文明吞进数据库。

新千年的钟声敲响时,一场静默的军备竞赛悄然开启。2006年,亚马逊把十万台服务器塞进俄勒冈州荒原,起名"云计算";北京中关村的程序员在麻辣烫摊前争论:"你说咱拍的每张照片,会不会都成了AI的狗粮?"

2010年,ImageNet竞赛现场发生戏剧性一幕:当主持人宣布冠军错误率仍高达26%,角落里的辛顿团队突然起身——他们用显卡训练的AlexNet,把错误率砸到15%!没人注意到,NVIDIA工程师悄悄记下了他们的显卡型号。这场胜利证明:喂饱AI需要两样东西——把世界变成数据硬盘,再把硬盘塞进游戏显卡。

2012年多伦多大学地下室的显卡轰鸣揭开了觉醒纪元,AlphaGo在棋盘上落下“神之一手”,特斯拉自动驾驶系统吞下100亿英里路况数据,GPT-3写出让诗人沉默的十四行诗——机器开始用人类看不懂的方式理解世界。

2016年春天,韩国棋院弥漫着檀香味。李世石落下第78手时,AlphaGo突然走出人类棋谱从未记载的"神之一手"。这个在服务器集群里自我对弈3000万局的AI,像突然开悟的修行者,看见了围棋的更高维度。

同一时期,上海张江的工厂里,质检员老张正盯着屏幕上的牛仔裤图片。"以前每天要看8000条车缝线,现在AI眨眨眼就搞定。"他摸着发红的眼睛感叹。而在旧金山,特斯拉的自动驾驶系统默默积累着100亿英里路况数据——相当于人类司机集体开300万年车。

真正的魔法发生在语言领域。当OpenAI研究员第一次看到GPT-3写出的十四行诗,整个办公室陷入诡异的沉默。那些流淌着韵律的句子,既不像程序生成的冰冷字符,也不像人类创作的炽热情感,倒像是宇宙深处传来的某种未知波动。

直到2022年ChatGPT横空出世,这场智能革命终于冲出实验室

2022年11月30日的硅谷深夜,OpenAI工程师给ChatGPT输入最后一行代码。这个能聊哲学、写代码、编童话的AI上线5天就涌进百万用户——快过TikTok十倍。不久后疯狂的场景发生在佛罗里达中学:历史老师发现全班论文都引用了"一位匿名学者"的观点,而那个学者正是ChatGPT。

这场智能海啸迅速重塑社会地形:广东的工厂主用AI客服替代了300人呼叫中心,上海大妈学会用"数字分身"同时跳20场广场舞直播。但真正的革命藏在细节里——2024年杭州某三甲医院,AI医生在CT片中发现了连专家都忽略的0.3毫米癌变阴影,而诊断系统核心代码竟出自某中学生用ChatGPT修改的开源模型。

当人们以为这就是巅峰时,2025年开年,如同算法炼金术撕破算力铁幕,DeepSeek以560万美元的火种熔铸东方智慧,在硅基荒原上重构了智能进化的经纬——当代码学会揣摩人情的温度,硅谷的估值神话终在开源星辰下露出青铜器的锈迹。

此刻我们终于看清:人类不再是AI的操控者,而是成了智能生态系统的数据零件——就像蜜蜂无意中成为植物授粉的工具。

人工智能发展的四个阶段

试图回答的问题:

人工智能的底层技术是什么?什么是机器学习?和强化学习有什么区别?什么是神经网络?该怎么对人工智能技术进行分类?什么是自然语言处理?什么是生成式ai?什么是多模态?什么是AI Agent?

介绍当下的人工智能前,让我们先从人工智能的两个底层技术入手:机器学习、神经网络。

一句话概括机器学习,就像是在给赋予计算机"从经验中学习"的能力,让机器变得更"聪明"且能自主进化。机器学习能够使计算机通过分析大量数据(比如购物记录、医疗影像或交通流量)自动发现规律,从而能完成预测天气、识别语音、推荐电影等智能任务。

就像学生通过反复做题提升成绩,计算机会用历史数据训练出数学模型,这样在他遇到新情况时(例如你上传一张照片),它便能像经验丰富的专家那样快速判断(比如识别出这是猫还是狗)。

同时,机器学习中最接近生物演化本质的一条分支范式叫强化学习,它通过“行动-反馈-进化”的闭环,将神经网络的感知能力转化为动态决策智慧。随着神经科学(如多巴胺奖励机制模拟)与计算硬件的突破,RL正从虚拟游戏场走向物理世界,成为重构人类生产范式的核心引擎。

范式数据特征目标典型算法监督学习带标签的输入-输出对拟合已知映射关系线性回归、CNN无监督学习无标签数据发现隐藏结构聚类、GAN强化学习动态环境反馈信号最大化长期累积奖励Q-Learning、PPO

机器学习的三大范式

2. 神经网络

我们可以把神经网络想象成"多级水果质检流水线":假设要分拣苹果,第一层工人(输入层)先称重量/测大小,第二层(隐藏层)检查颜色和斑点,最后一层(输出层)综合所有信息决定是"优质果"还是"次级果"。每次分错时(比如把烂果放进好果箱),系统就会倒回去调整每层工人的判断标准(参数调优),经过成百上千次练习后,这条流水线就能像经验丰富的老果农一样快速准确分类,这种层层筛查、自我修正的机制,正是神经网络能学会识图辨声的核心原理。

为什么说机器学习和神经网络是人工智能的底层技术呢?我们可以用"乐高玩具工厂"来理解它们的关系:

如果把人工智能比作会拼乐高的机器人,那么:

机器学习就像工厂的培训体系:通过不断试错(数据训练),让机器人掌握"看图纸找积木"(模式识别)和"创新拼法"(预测生成)的核心能力神经网络则是流水线传送带:每个工位(神经元层)负责特定加工(如第一层分颜色、第二层辨形状、第三层组合结构),通过层层传递处理信息,最终输出完整作品

正是这种"学习能力培训+模块化处理架构"的组合,构成了让AI能听懂人话(语音识别)、看懂CT片(图像分析)、下赢围棋(决策判断)等智能表现的底层支撑,就像没有齿轮和发条就没有钟表走动一样。

下面再让我们看看人工智能应从什么维度进行分类。

第一种分类方式,是按应用领域进行划分:例如自然语言处理、计算机视觉、机器人技术、自动驾驶等。这里整理了一下人工智能的各应用领域及其描述、案例。

应用领域描述案例计算机视觉计算机视觉是给机器装“看懂世界的眼睛”,让摄像头不仅能拍下照片,还能像人一样分辨出照片里是猫还是狗、自动给相册里的生日聚会标记笑脸,甚至能发现X光片上的异常阴影,相当于把像素转化为理解力的视觉智能。人脸识别(安防)、缺陷检测(工业质检)自然语言处理自然语言处理就像给计算机装了个“语言翻译官”,能让机器听懂你说“把空调调低两度”(语义理解)、把“yyds”翻译成“永远的神”(网络用语处理),还能自动给长邮件写出重点摘要(文本生成),相当于在人类语言和机器代码之间架起智能桥梁。智能客服(对话系统)、舆情分析(情感判别)机器人技术机器人技术是给机器装上“会干活的手脚和大脑”,让机械臂能像厨师一样翻转煎饼、让送货小车能绕过障碍送快递,甚至让手术机器人精准缝合血管,相当于把人类的动作技能和决策能力赋予钢铁之躯。手术机器人(医疗)、仓储物流机器人语音处理语音处理就像给机器装上“会听会说的耳朵和嘴巴”,让智能音箱能听懂你说“播放周杰伦的歌”并执行,通话降噪时自动过滤背景装修声,甚至能把方言口音的“打开空调”准确转成文字,相当于在声波振动和数字指令之间架起沟通桥梁。会议实时转写、虚拟歌手合成推荐系统推荐系统就像“会学习的超市导购员”,它观察你常买的牛奶品牌(历史行为),发现你最近搜索过“健身食谱”(实时兴趣),于是自动在货架上摆出低脂奶酪和蛋白棒(个性化推荐),还能提醒“买燕麦片的顾客通常也选了这个蜂蜜”(协同过滤),帮你从百万商品中快速找到最可能需要的物品。电商商品推荐、短视频内容推送自动驾驶自动驾驶就像“给汽车装上会看路、会思考的老司机大脑”,能让车辆通过摄像头和雷达感知红绿灯与行人,自主判断何时变道超车、何时减速避让,最终安全平稳地将你送到目的地,相当于把人类驾驶经验转化为算法决策的轮上智能。车道保持(感知)、路径规划(决策)

人工智能应用维度划分

而另一种分类方方式是按功能类型进行划分:判别式ai、生成式ai以及交互式ai等。这三种类型可以通俗理解为:

判别式:"这是什么?"(识别图片是猫还是狗)生成式:"画只戴墨镜的柴犬"(生成不存在但合理的图像)交互式:"教我做糖醋排骨"(边做边问火候调整)

三者就像工厂流水线——判别式负责质检(分类)、生成式负责生产新品(创造)、交互式负责客户服务(对话),共同构成智能时代的"产供销"体系。

当前的大语言模型,如chatgpt、豆包、DeepSeek等都属于生成式AI。

此外,人工智能领域还有两个重要的概念:多模态和ai agent

多模态可以理解为Any to Any的交互范式,即输入形式可以是文本、图片、视频、网址链接,ai输出为最适合的形式。在多模态的视角下,ai产品的组织形式和使用逻辑将发生根本变化。拿2024年颇受关注的Notebooklm来举例:Notebooklm有一个studio功能,即根据我们喂的知识库里的内容,自动生成一段辩论类的博客,一男一女两位ai生成的虚拟人物围绕我们的规定话题展开对话讨论。而在这个过程中,我们还可以随时作为其中一方的辩手加入进去讨论,或提出自己的问题,将改变对话的走向。

那怎么理解AI Agent?AI Agent就像一个“会自主做事的数字管家”,例如能根据你的指令“安排下周末去三亚的行程”,自动查机票(联网搜索)、比价(数据分析)、订符合你喜好的海景酒店(个性化决策),甚至在出发前发现台风预警(环境感知)时主动改签航班并重排行程——这种感知-规划-行动-反思的闭环能力,让AI从“问答机器”进化为能独立完成复杂任务的智能体。2025年被广泛视为AI Agent技术元年的核心动因,正是在于两大愿景的同步实现——个人用户对智能管家的功能期待与企业对数字员工的应用规划,在技术突破、商业落地与政策支持的三重共振下逐步开始从概念蓝图全面照进现实。

试图回答的问题:

什么是大语言模型?大语言模型是怎么被训练出来的?大语言模型的核心是什么?什么开源模型?什么是闭源模型?什么是推理模型?什么是指令模型?

ChatGPT、DeepSeek、Gemini Ultra 、Llama ......作为人工智能的重要组成部分,近年来大语言模型技术的突飞猛进让很多人认为ai的技术奇点迫近。甚至在很多人的认知里,ai就等于大语言模型。

大语言模型(英语:Large Language Model,简称LLM)是指使用大量文本数据训练的深度学习模型,使得该模型可以生成自然语言文本或理解语言文本的含义。这些模型可以通过在庞大的数据集上进行训练来提供有关各种主题的深入知识和语言生产。其核心思想是通过大规模的无监督训练学习自然语言的模式和结构,在一定程度上模拟人类的语言认知和生成过程。

大语言模型就像是一个"超级文字处理器",它通过阅读互联网上浩如烟海的书籍、文章、对话记录等文本资料,逐渐学会了人类使用语言的规律。这个过程类似于小朋友通过大量听大人说话来学习语言,只不过这个"学生"的"大脑"是由数百万甚至千亿个数字节点组成的复杂网络。

这个"数字大脑"有个特别的本领:它能像人类一样关注对话中的重点。比如当你问"北京和上海哪个更靠南?",它会自动聚焦"北京""上海""靠南"这些关键词,结合之前学习的地理知识,分析出上海纬度更低这个事实。

现在的语言模型已经能完成许多惊人的任务:它能模仿李白写诗,帮程序员写代码,给学生讲解数学题,甚至通过律师资格考试。这种多面手能力源于它的训练方式——不是专门学习某一项技能,而是通过海量数据掌握人类知识的通用规律。

同时,很多人都认为大语言模型是AI时代的操作系统(类比Windows/Android),只有这个“1”更加的坚固了,ai应用层面的落地才会百花齐放。

大语言模型是怎么被科研人员训练出来的呢?现在让我们以职场人才培养为例,拆解下大语言模型的四个成长阶段:

1.预训练:通识教育阶段。就像应届生在校期间博览群书(通读图书馆所有藏书),通过做"完形填空"式的习题(预测文本缺失部分),掌握语言逻辑和常识框架。此时TA虽知识广博,但还不懂如何解决具体工作问题。

2. 监督微调:岗前集训。进入公司后,导师给新人看经典案例库(标注数据),手把手教TA如何将知识转化为工作文档(如根据会议记录写总结)。此时新人能按模板输出,但遇到复杂需求仍会卡壳。

3. 奖励建模:制定晋升标准。人力资源部通过调研优秀员工案例,提炼出"年度之星"的评估维度(偏好数据),开发出一套自动评分系统(奖励模型)。这个系统能判断报告是否重点突出、逻辑清晰。

4. 强化学习:项目实战考核。新人每天提交100份方案,评分系统实时反馈(强化信号)。就像销售员看着业绩看板调整话术,TA逐步学会用更精炼的语言、更妥帖的格式完成任务,最终成长为能独当一面的业务骨干。

这四步如同人才的培养:先系统学习(预路径),再专业指导(微调),接着标准训练明确(奖励建模),最后在实战中精益求精(强化学习每个)。阶段都在给AI注入不同维度的智能,最终让它从"行走的百科全书"进化成"会思考的智能助手"。

未来,随着量子计算、神经形态芯片与脑机接口的突破,黄金三角的边界将不断扩展。但核心定律不变:唯有平衡推进三要素,才能让AI既“聪明”又“可控”,在赋能人类的同时避免算力暴走、数据偏见与算法黑箱。这或许是对技术文明最深刻的启示——真正的智能,永远诞生于理性与创新的交响之中。

在大语言模型中,算力、算法与数据的关系如同光的三原色——单独存在时仅是基础要素,交融时却能创造无限可能:

算力为骨:提供硬件基础,支撑起千亿参数模型的庞大体量;算法为脉:优化资源分配,优化能量流动路径,避免资源空转;数据为血:定义能力边界,输送养分,决定智能体的“人格特质”。

当三者形成闭环,大语言模型便从“概率预测器”进化为“认知构建者”。例如,GPT在分析2025年美联储加息决策时,同步调用经济史数据库、实时模拟多国汇率波动(算法),并分配3000个GPU节点进行蒙特卡洛推演(算力),最终生成堪比顶级投行的分析报告。这正是黄金三角的力量——将硅基算力与人类智慧熔铸为数字文明的新基石。

如果把大模型比作一辆跑车,算力就是引擎的排量。

当OpenAI于2020年提出Scaling Law(规模法则)时,行业首次量化了算力与智能的正相关规律:模型参数量、训练数据量、计算资源投入每扩大10倍,模型性能提升呈现对数线性增长

这就像汽车引擎越大,加速越快:

GPT-3(1750亿参数)写代码的正确率只有37%GPT-5(预计8万亿参数)的正确率飙升到92%

背后是微软投入的百万块GPU,相当于给引擎加装火箭推进器。

而DeepSeek创始人梁文峰的“意识光谱论”也为此提供了哲学注解:意识的诞生并非0与1的开关,而是连续的光谱。正如人类大脑的860亿神经元在特定连接密度下产生自我意识,大语言模型当参数规模超过千亿级时,开始展现跨领域推理、意图揣摩与创造性输出。

意识不是开关,而是水烧开的过程。就像水到100℃才会沸腾,算力突破临界点,智能才会涌现。

同样的发动机,赛车手和普通人开出的速度天差地别。算法就是驾驭算力的技术。

这场效率革命始于2017年Transformer架构的问世——它就像给机器安装了理解语言的"基础脑回路",通过独特的自注意力机制,让AI能像人类读书时那样,同时捕捉句子中"银行"与"存款"、"河岸"之间的微妙关联,而不是笨拙地逐字分析。

当这个底层引擎日趋成熟,研究者们开始为其添加更精密的"进化模块":面对海量文本处理时,稀疏注意力技术如同给AI戴上智能眼镜,让它能自动聚焦于合同的关键条款或小说的核心情节,而不是逐字背诵百万字文档,这项革新使处理长文本的效率提升了近三分之二;

而当遇到复杂问题时,混合专家系统(MoE)则像在AI大脑中组建了专业顾问团,遇到医疗咨询就唤醒病理分析模块,碰到法律问题则启动条款解读专家,这种动态分工让单个模型能承载相当于人脑神经元连接量级的万亿参数。

最后,基于人类反馈的强化学习(RLHF)为这场进化装上了"社会常识校准器",通过分析千万条人类对回答质量的评价,教会AI在展现百科全书般知识储备的同时,懂得回避敏感话题、过滤错误信息,就像给一个天赋异禀却涉世未深的天才少年配备了人生导师。

再好的跑车,加劣质汽油也会抛锚。数据质量决定AI的“续航能力”。

例如若对进行大模型预训练的数据进行以下优化:

选材考究:从网络数据中精选数据,剔除标题党和虚假信息分类打标:例如给法律文书打“严谨性”标签,给小说打“情节连贯性”标签加权训练:学术论文的权重是娱乐新闻的5倍,就像健身餐和油炸食品的区别

那便是用高质量的“燃料”来喂养发动机引擎,所训练出来模型质量便可以预期的会更好。

例如Deepseek训练出来的结果便有目共睹:用ChatGPT 1/10的算力喂养出了震惊世界的模型——虽然DeepSeek没有公开预训练的语料,但业内人士猜测其的成功依托之一的便是预训练数据的质量、所调参数的权重。

这背后的逻辑很简单:吃牛排长大的孩子,比吃薯片的更健壮。

要素作用类比反面案例算力提供动力基础汽车发动机小模型像摩托车,载不动重物算法提升资源效率赛车手技术暴力堆算力,就像新手开超跑数据定义能力边界汽油纯净度垃圾数据等于掺水汽油

语言模型的三个要素

三者的关系就像油门、方向盘和油箱。只堆算力不优化算法,就像油门踩到底但乱打方向;只搞算法不筛选数据,就像车技一流却油箱漏油 。只有三者平衡时,跑车才能在赛道上漂移过弯。

未来十年,这个铁三角还会持续进化。人工智能在可预见的未来,都将会是算力、算法与数据所一同奏响的技术交响曲。

接下来让我们再聊聊大语言模型中两个维度的分类:开源模型&闭源模型、推理模型&指令模型。

开源是“众人拾柴”的技术民主化实验,闭源是“重兵突进”的商业深水区探索,二者如同燃油车与电动车——路径不同,但共同驱动AI向更普惠、更强大的方向进化。

在大语言模型发展的发展过程中,开源模型与闭源模型的技术路线之争一直存在。

什么是开源模型?

开源模型就像公开菜谱的连锁餐厅,不仅提供成品菜品(模型功能),还开放食材清单(训练数据)、烹饪步骤(模型架构)和火候参数(训练代码),允许任何人复刻或改进 。

典型案例如Meta的Llama,全球开发者可下载完整代码,用自有数据微调出方言翻译、医疗问答等分支模型 。又比如DeepSeek-33B,开源中英双语模型,同时还允许企业植入内部知识库(如阿里云将其改造成金融风控工具)。

那到底什么程度才算是是开源?业内所说的开源实则也有三种,不可一概而论:

代码开放(Open Source)。这是最彻底的一种开放。将软件或者算法完全开放,源代码可查,如Python和Linux将每一行代码置于阳光下,允许自由查看、修改与再创造,这种全透明模式催生了安卓系统等突破性技术。数据开放(Open Data)。即将数据集(如文本、图像、结构化数据)公开。这种开放构建了AI训练的公共资源池,,如同开源燃料,推动计算机视觉等领域跨越式发展。权重开放(Open Weights)。指开放公开训练好的模型参数(weights),可以理解即为允许他人直接部署或微调模型,而无需从头训练。这种开放开启了AI普惠新阶段,DeepSeek的开源便是属于此类。使用者无需知晓训练细节即可部署或微调,在保护核心算法机密性的同时,让普通开发者也能调用前沿AI能力。

那与开源模型相对应的闭源模型,则如同米其林餐厅的独家秘方,用户只能通过外卖(API接口)享用菜品(模型功能),但无从知晓配方细节(训练数据/算法) 典型案例是OpenAI的ChatGPT,仅开放付费API(0.03美元/千token),生成内容时像“黑箱魔术” ;同时内容的百度文心一言也属于闭源模型之列,依赖搜索数据+文库版权内容构建壁垒,李彦宏曾称其“闭源迭代效率是开源的3倍” 。

维度开源模型闭源模型透明度代码/数据/训练过程全公开(如Linux)仅开放API接口(如Windows系统)商业化靠技术服务盈利(深度求索向企业收定制费)直接售卖调用权限(OpenAI年营收240亿美元)创新路径社区众包改进(Llama 4衍生出200+细分模型)中心化研发(GPT-5每季度发布新能力)

开源与闭源模型的核心差异对比

近年来开源与闭源的路线之争一直存在,但在行业领头羊openAI选择变为“Close AI”后,闭源的声量已逐步开始压过开源。当然最近在DeepSeek的强烈冲击下,关于开源与闭源的讨论再一次变得激烈,open AI ceo Sam Altman更是在近期坦言称:“过去五年,我们在开源问题上的保守策略是一个战略错误” 。

这里也特意摘录下另外几位大佬对开源or闭源的论述:

李彦宏(百度):“闭源是压强式投入的产物——当我们把1000名工程师、10万块GPU聚焦在一个模型上,才能突破多模态推理的临界点。”(2025WAIC演讲)

深度求索CTO:“开源不是做慈善,而是建立生态的杠杆——当我们开放33B模型后,金融、法律等行业的反馈数据反哺了闭源产品的进化。”

扎克伯格(Meta):“Llama系列开源是因为AI的未来不能只掌握在少数公司手中,这就像Android系统对移动互联网的推动。”(2024开发者大会)

对国内大模型公司来说,不管是资金弹药充足的字节、阿里、腾讯等大厂,还是面料商业化拷问的AI六小龙,在DeekSeep开源的生态壁垒已经建立起来的情况下也要面临技术路线上再次的重大抉择。这一点在本文后面还会再次提到。

还有一种大语言模型分类的维度是推理模型与指令模型。

为什大家普遍认为DeepSeek比豆包、kimi更好用?——因为他们本身就不属于同一种模型。

当你在Kimi里问“怎么写一首七夕情诗”,它能秒回三篇浪漫诗句;但若换成“从20篇财报中分析宁德时代的电池毛利变化”,答案可能变成笼统的行业趋势描述——这就是指令模型与推理模型的本质差异。

换句话说,目前国内著名的豆包、Kimi等指令模型更像是快问快答的“信息秘书”,核心能力是对明确指令的快速响应 ,例如写小红书文案、查天气等,但其原理局限在于,如果你仅仅是一个背诵题库的学霸,那么遇到复杂逻辑链则易“断片”。实测豆包在2025年高考数学模拟卷中,大题得分率仅61%(需多步推理),而推理模型DeepSeek达92%。

相比较的,以DeepSeek R1为代表的推理模型,则更像抽丝剥茧的“解题专家” ,官方定义的推理模型的核心能力其实包括:

逻辑拆解将复杂问题拆解为因果链。如分析产业竞争力时,自动构建“政策→成本→技术”逻辑树知识联结跨领域调用知识图谱。例如生成法律条文+经济数据+历史案例同步关联程序求解直接生成可执行的代码模型。例如供应链优化Python脚本动态纠错实时验证数据准确性。例如发现输入参数错误时自动修正多模态推理融合文本、图像、传感器数据做综合决策。例如通过视频+手册诊断设备故障

总的来说,指令模型更像“快餐”,满足日常信息需求快捷方便;而DeepSeek这类推理模型则是“私厨料理”——用逻辑拆解、代码验证、多维度关联的能力,啃下专业场景的“硬骨头”。当AI进入金融、科研、法律等深水区,我们需要的不是更快的话术,而是更深的思考。

试图回答的问题:

当下这波的ai浪潮中有哪些玩家?他们各自扮演着什么角色?人类面对人工智能的态度是什么?AI宏大叙事里的五类玩家

AI宏大叙事里的五类玩家

AI江湖风起云涌,那么谁是这波浪潮的真正主角?从改写人类规则的GPT巨头、算力军火商、到改写行业剧本的颠覆者,甚至定义未来的“AI宪法”制定者… 以下五类玩家正在当下这波AI浪潮中正在重塑我们的世界:基础模型研发者、算力与硬件支撑者、行业应用落地者、生态建设与规则制定者以及思想领袖与伦理倡导者。我们挨个来聊聊。

在这场重塑人类技术范式的AI浪潮中,基础模型研发者如同数字时代的“造物主”,以算法为笔、算力为墨,书写着智能革命的底层规则。

科技巨头阵营中,OpenAI凭借GPT系列奠定生成式AI的全球标准,Google以Gemini和AlphaFold打通科学推理与多模态交互,Meta则通过开源Llama系列打破技术垄断,推动行业平民化进程;中国玩家像百度文心、阿里通义、智谱GLM,也包括最近大火的DeepSeek,则聚焦中文场景与垂直领域,构建本土化技术护城河。新兴势力同样锋芒毕露:Anthropic以“安全可控”为旗帜打造可信AI标杆,Inflection AI探索情感化人机关系,欧洲独角兽Mistral则以轻量化模型挑战巨头霸权。

他们不仅是技术的拓荒者,更是未来权力格局的奠基人。从模型架构、价值观对齐到开源生态,每一行代码都在重新定义人与机器的边界。

若将AI比作数字文明的“新大陆”,芯片便是开疆拓土的蒸汽引擎,而云服务则是贯通全球的铁路网——芯片提供计算能力,云服务提供可扩展的资源,两者结合使得AI模型的训练和应用成为可能,它们共同编织着智能时代的底层操作系统。

芯片巨头中,NVIDIA凭借H100/A100 GPU和CUDA生态近乎垄断训练市场,成为全球AI实验室的“军火供应商”;AMD与Intel以MI300X、Gaudi3等加速卡破局,推动算力多元化竞争;中国寒武纪思元、华为昇腾则在制裁夹缝中构建国产化算力链,试图打破技术围堵。

云服务阵营里,AWS/Azure/GCP以弹性算力托管大模型训练,成为企业拥抱AI的“水电煤”;而CoreWeave、Lambda Labs等新兴云厂商专攻GPU资源动态调度,以更高性价比争夺长尾市场。

从纳米级芯片到万吨级数据中心,这群“基建狂魔”正以硅基之力,将算法野心浇筑为可量产的现实。他们掌控的每一焦耳算力,都在重新划定AI帝国的疆域边界。

在这场AI变革中,行业应用落地者如同“技术炼金师”,将实验室中的算法奇迹转化为真实世界的生产力革命。

To B领域,微软Copilot覆盖Office、Teams、Azure等全生态,企业用户超8亿,代码生成采纳率72%,而中国市场也有飞书、钉钉等产品通过“AI助理”为企业运营流程赋能。

To C赛道TikTok AI Studio用户输入文案自动生成15秒短视频,平台70%创作者使用,日均产出1.2亿条AI辅助内容。苹果Siri 3.0端侧大模型实现无网对话,健康监测预警系统挽救2.8万心脏病人,医疗级认证通过FDA。

垂直产业中,医疗领域谷歌DeepMind AlphaFold 3:预测3.2亿种蛋白质结构,加速HIV疫苗研发,获诺贝尔化学奖提名;特斯拉Optimus X10万台人形机器人投产,汽车装配效率提升340%,单台成本跌破1万美元。

从硅谷到深圳,这群实践者正以场景为熔炉、数据为燃料,锻造出AI普惠化的商业范式。真正的技术革命从不悬浮在代码中,而是深嵌进人类社会的运转齿轮里。

他们既是技术普惠的推手,也是失控风险的守门人,在创新与秩序的张力间勾勒AI时代的运行框架。

开源社区如Hugging Face托管超200万个大模型,成为全球开发者的“模型自由港”,而中国的深度求索(DeepSeek)开源生态吸引15万企业入驻,推动制造业AI微调成本下降75%;

监管先锋中,欧盟以《AI法案》划定“不可逾越的红线”,对深伪、社会评分等高风险应用全面禁止,美国NIST则发布全球首个AI安全测试标准,微软、谷歌等300家企业被迫接入联邦审计系统;中国网信办《生成式人工智能服务管理暂行办法》要求所有模型备案并标注内容来源,催生蚂蚁、腾讯等企业的“合规大模型”赛道。

从代码协议到法律条文,这群“边界建筑师”正用规则重塑技术演进的轨迹——他们定义的每一条红线,都在平衡创新狂飙与文明底线。

他们是技术狂潮中的“瞭望者”与“刹车片”,在算法狂奔时抛出终极之问:AI应向何处去?

图灵奖得主Geoffrey Hinton辞去谷歌职务后创立“AI真相联盟”,以《深度学习的认知陷阱》系列论文警示模型自主意识风险;Meta首席科学家Yann LeCun则化身“开源布道者”,推动全民可验证的透明AI体系。

伦理先锋中,生命未来研究所(FLI)联合马斯克、Bengio发布《AI灭绝风险宣言》,迫使联合国通过首份《超级智能治理框架》;中国科学家姚期智领衔的“AI向善委员会”制定《心智模型伦理评估标准》,要求所有境内大模型通过“价值观对齐压力测试”。

风险预言家Eliezer Yudkowsky更以“齐默尔曼测试”重新定义人机边界——当AI能连续72小时欺骗人类评委时,文明须启动“紧急制动协议”。

从硅谷圆桌到达沃斯论坛,这群“灵魂拷问者”正用思想实验对抗技术熵增,他们缔造的不仅是规则,更是数字文明存续的元代码。

在聊AI如何改变世界前,让我们先看看人类对它的态度。

人工智能技术的全球讨论正围绕两条核心轴线展开——技术激进程度与社会影响评估。即世人对人工智能的态度可以划分为四个象限:横轴代表对技术发展的态度——激进还是保守。而纵轴则代表认为AI会带来什么影响——积极的还是消极的。

人类对AI的态度四象限划分

这四个象限不仅划分立场,更映射着人类对自身文明主导权的深层焦虑。

技术激进派 × 积极影响论领域,Yann LeCun(Facebook首席人工智能科学家)与Sam Altman(open ai创始人)如同数字时代的哥伦布,坚信开放航路才能发现新大陆。LeCun将监管比作"锁死航海图的桎梏",他主导的《AI安全性和开放性联合声明》实质是技术拓荒者的宣言;而Altman则像精明的商人,既在GPT应用商店开疆拓土,又在"AI灭绝风险警告信"上签名,这种矛盾恰似大航海时代商船同时配备货舱与火炮。

当视角转向技术激进派 × 消极影响论,Elon Musk(马斯克)扮演着普罗米修斯与卡桑德拉的双重角色。他一面用特斯拉自动驾驶改写交通规则,一面联合3万学者按下GPT-4进阶训练的暂停键。这种分裂映射着技术狂飙中的集体潜意识——我们既渴望火种,又恐惧引火烧身。值得玩味的是,Musk旗下脑机接口公司Neuralink的进展,正将"人类与AI融合"从科幻变为现实,这或许是他安全焦虑的深层动因。

在保守阵营中,技术保守派 × 消极影响论者Geoffrey Hinton(图灵奖+诺贝尔物理学奖得主)的转变极具象征意义。这位深度学习教父从技术布道者变为敲钟人,其忏悔录式的宣言"AI威胁超过气候变化",恰似原子弹之父奥本海默的历史重演。更具戏剧性的是OpenAI前首席科学家Ilya Sutskever的出走,当安全委员会被商业化浪潮吞没,技术理想主义者的退场成为行业转型的注脚。

技术保守派 × 积极影响论则试图在钢索上起舞。Yoshua Bengio(加拿大计算机科学家)推动的加拿大《人工智能与数据法案》,本质是在代码世界重建《威斯特伐利亚条约》。这种"监管联邦制"设想遭遇双重挑战:硅谷开发者视其为创新枷锁,而各国政府则担忧技术主权流失。值得关注的是,欧盟AI法案中将风险分级管理的思路,正在为这场全球治理实验提供新范式。

这场辩论的深层矛盾,在ChatGPT引发的写作革命中可见一斑:当学生用AI辅助论文遭查重系统封杀,当自媒体创作者苦于消除"机器味",技术演进已触及人类认知权的边界。或许正如维特根斯坦所言:"语言的边界即世界的边界",而AI正在重塑这种边界——这既是希望之源,亦是恐惧之根。

人类文明的进程总与火种相伴。燧石点燃了蒙昧,蒸汽催生了工业革命,而此刻,我们正站在硅基智慧的火光前,目睹人工智能以超越生物进化百万倍的速度重构着文明底层逻辑。

这不仅是工具迭代的狂欢,更是一场关于存在本质的追问——当机器开始理解语言中的隐喻,当算法渗透进细胞级的生命调控,当人类第一次面对可能超越自身智慧的造物,他们会怎么改变人类?

在这场静默的革命中,技术狂想与伦理警戒交织,权力博弈与文明跃迁共振。这章我们试图穿越技术迷雾,在通用智能的终极命题里解构人类中心主义,最终勾勒出智能文明迭代的三重图景:从信息世界的重构,到物理规则的颠覆,直至生命本质的重写。

试图回答的问题:

人工智能的终局在哪里?什么是通用人工智能(AGI)?AI如何改变人类文明进程?人工智能的终局:通用人工智能(AGI)

什么是通用人工智能(AGI)?AGI指具备与人类相当或超越人类的综合智能系统,能够像人类一样在多领域进行感知、推理、学习、决策和创造,并适应复杂动态环境。与专用人工智能(如ChatGPT、图像识别工具)不同,AGI的关键在于跨领域通用性,其智能不局限于单一任务,而是通过自主学习和泛化能力解决未知问题。 例如,人类可以同时处理数学题、驾驶汽车、创作诗歌,而当前AI仅能完成特定任务。AGI的终极目标是实现这种综合能力的统一

这里引用OpenAI提出的五级标准,来判断AGI的实现程度:

第一级:聊天机器人(如ChatGPT)。仅具备对话能力,无法主动推理或执行复杂任务。

第二级:推理者(OpenAI自评接近但未达到)。能像博士学历人类一样解决跨领域问题,例如无需工具辅助完成科研级数学推导或法律案例分析。

第三级:代理者。代表用户长期行动,例如自主管理日程、协调多方资源完成项目。

第四级:创新者。辅助人类发明新技术,如设计新药分子结构或优化量子计算算法。

第五级:组织者。具备企业级管理能力,可独立运作公司或协调全球供应链。

目前主流观点认为,达到第三级(代理者)可视为初步实现AGI,而第五级则标志着超越人类组织能力的超级智能。

而关于通用人工智能(AGI)何时才能实现也存在着显著分歧:激进派如OpenAI内部文件预测可能在2028-2033年实现初级AGI(具备跨领域代理能力),而保守派如清华大学郑纬民院士认为,ChatGPT仅代表工程化改进,基础理论未突破,AGI至少需到2070年后。深度学习先驱Geoffrey Hinton也强调:“人类大脑的能耗效率是当前AI的十亿倍,硬件革命是AGI的前提”。这种差异源于对技术瓶颈的不同评估——当前大模型依赖海量数据与高能耗(GPT-4训练能耗约1.3×10²⁵焦耳),而人类智能具备小样本学习优势。

在可以预见的未来,技术演进可能呈现三阶段替代:

2030-2040年:AI辅助药物研发(生成90%候选分子)与基础编程(覆盖70%代码)];2040-2050年:自动驾驶重构交通体系,高阶脑力工作(法律、咨询)自动化率超50%];2050年后:若突破认知架构与价值对齐难题,可能诞生具备企业级管理能力的第五级AGI]。

张钹院士认为,当前大语言模型虽向AGI迈出一步,但尚未满足领域无关、任务无关、统一理论三大条件。这场竞赛不仅是技术突破,更是人类文明主导权的重构。

清华大学智能产业研究院院长张亚勤认为,人工智能会按照三个阶段:信息智能--》物理智能 --》生物智能进行演进,并最终实现AGI。他认为信息智能的AGI 5年内可达到;物理智能的AGI分阶段达成,如人形机器人大约需要10年达到;而最终的生物智能需要花费15年到20年。

信息智能很简单,就是ChatGPT,所有文字、图像、视频,是信息世界的智能。

物理智能是把它用到无人车、机器人、现在讲的具身智能,用到基础物理设施去。

生物智能是把人工智能用到比如脑机接口。像Elon Musk的Neuralink,连到生物体、生命体,包括医疗、手术机器人和新药研发。这些领域当然相互有联系,但它是不同领域。

——引用自近期腾讯新闻《对话张亚勤:我预演中的AGI地图》

我们沿着张院长的思路来进一步分析下这三个阶段。

信息智能阶段,正在发生的是一场数字世界的认知革命。以数字化内容为载体的智能系统,通过文本、语音、图像、视频等模态的数据处理,实现信息的结构化分析与再生产,聚焦于各类型信息的理解与生成能力的突破。GPT系列、DeepSeek-R1等生成式大模型正在通过自监督学习的方式重构信息生产方式,这类模型突破了传统AI的“分类-识别”框架,直接生成符合人类需求的内容(如文本创作、图像设计),推动生成式AI从“实验室技术”向“普惠工具”转变。

这个阶段给人类核心带来的是一场工具赋能带来的效率革命,信息智能正以多模态融合与生成式技术重构人类社会的核心场景。在内容生成领域,AI通过自然语言与图像处理能力,催生了虚拟主播、智能文案创作等新业态,如医疗场景中IBM Watson辅助诊疗方案生成,短视频平台依托智能分拣算法实现亿级内容分发。搜索与推荐系统上,则从关键词匹配跃升至语义理解,用户模糊需求(如“雨天治愈系音乐”)可被精准解析,电商平台结合实时行为数据推送商品,形成“所想即所得”的交互范式。教育领域,AI不仅生成个性化教案、破解数学难题,同时实现的是AI原生代的知识获取范式的变革。

这些变革背后,是感知智能与认知智能的深度交织:信息智能已非工具,而是重塑产业逻辑的生产力内核,其浪潮正从数字世界涌向物理空间,开启人机共生的新纪元

物理智能阶段,发生的事情则是将智能系统嵌入物理实体(如机器人、自动驾驶车辆、工业设备),实现感知-决策-执行的闭环。张亚勤认为这是数字化2.0到3.0的跨越,对应企业数字化与物理世界数字化。同时对于社会来说,这个阶段核心发生的是人的职业进化与能力重构。

物理智能阶段标志着AI从“数字助手”向“实体执行者”的进化,其本质是通过具身化打破虚拟与现实的壁垒,重塑制造业、医疗、家庭服务等场景的底层逻辑。正如黄仁勋所言:“具身智能将定义AI的下一波浪潮”,而这一浪潮的终点,或许是通用人工智能(AGI)与人类社会的深度共生。而共生必定带来的便是推动人类职业从「劳动密集型」向「技能-认知复合型」转变,这里的核心逻辑在于:

1. 替代与创造并存:物理智能替代搬运、分拣等重复性岗位(如特斯拉Optimus接管90%工厂任务),但催生机器人运维、人机协作设计师等新职业,要求跨学科技能融合(机械工程+算法调试)。

2. 技能重构的双重维度。例如硬技能:工人需掌握数字孪生、AR远程维修等新技术,传统电工也将升级为智能设备操控师;而软技能上,医生也会从手术执行者转向AI方案伦理评估者,依赖批判性思维与人文素养。

3. 人机共生与终身学习:职业价值转向“策略制定”与“创新驱动”,如建筑师借助机器人完成高危作业,专注设计创新。麦肯锡预测,2030年30%职业技能需每3年更新一次,催生常态化学习机制(如汽车技师学习自动驾驶传感器维护)

但这个阶段还远远没有到来,这个阶段核心需要突破的则是硬件瓶颈(如芯片算力与能耗比)和系统可靠性(如自动驾驶的长尾场景处理)。以特斯拉为例,其Autopilot系统虽已积累百亿英里路测数据,但极端天气下的决策仍存隐患。

生物智能阶段,发生的则是人工智能与生物技术的深度融合。正如诺贝尔奖得主兼DeepMind CEO戴密斯·哈萨比斯所言:“未来10年,几乎所有疾病都将被攻克。”这一预言并非空谈——AI已渗透至蛋白质结构预测、基因编辑、脑机接口等核心领域,将生命科学从“实验观测”推向“智能设计”时代。

在医疗领域,AI正破解生命密码的终极难题。DeepMind的AlphaFold系统仅用30分钟便解析出人类98.5%的蛋白质三维结构,而传统实验室完成同等工作量需耗费数十年,这项突破直接推动癌症靶向药的研发进程。又如Atomwise公司利用深度学习技术,在24小时内筛选出抗埃博拉病毒候选药物,较传统方法提速千倍。更令人振奋的是,脑机接口技术已实现意念操控机械臂写字、瘫痪患者用思维发送推文等“科幻场景”,马斯克的Neuralink最新植入设备可将脑电波信号传输延迟降低至8毫秒,近乎实时同步人机思维。

这场革命也正重新定义“治愈”的维度。通过AI驱动的基因编辑工具CRISPR-Cas12,科学家能精准修复致病基因突变,中国团队已成功治愈先天性黑蒙症患者,使其视力从0.02恢复至0.6。而个性化医疗更颠覆传统诊疗模式:美国Karius公司开发的液体活检技术,仅需5毫升血液即可通过AI分析10^6级微生物DNA片段,将脓毒症诊断时间从3天压缩至20小时。

然而,生物智能的伦理边界亟待厘清。当AI设计出自然界不存在的蛋白质分子,当基因编辑可能改写人类进化路径,我们既需要技术狂飙突进,亦需建立全球协同的监管框架——赋予AI“造物主”权限的同时,必须守住生命的尊严底线。人类关于生物智能的远景是:医学的终极目标不是对抗死亡,而是让生命以更优雅的姿态绽放。

试图回答的问题:

AI发展过程中面临的资源限制问题,主要包括算力限制、数据限制和能源限制这三大方面

首先是算力方面的限制。随着模型复杂度像火箭一样不断攀升,对算力的需求那简直是呈指数级暴涨。就拿OpenAI的GPT系列模型来说,从GPT - 1进化到GPT - 3,模型参数数量如坐火箭般大幅增加,所需的算力也跟着成倍往上翻。可如今摩尔定律已经快触碰到物理极限了,传统芯片就像一位跑累了的运动员,性能提升变得越来越艰难。

而且,现在要处理多模态数据,比如同时处理图像、语音和文本等,这就好比让一个人同时干好几份活,需要更多的算力才行。更让人头疼的是,算力成本一直居高不下,对于很多企业和研究机构来讲,这就像是背着一座大山,是一笔巨大的开支。

另外,高端芯片、存储器的性能提升也遇到了瓶颈。对于咱们中国而言,还存在被国外技术“卡脖子”的风险。因为高端芯片依赖进口,一旦供应链这条大动脉受阻,AI的发展就会像一辆没了油的车,严重受限。

另一方面,数据是AI学习和成长必不可少的“食粮”。但在当下的互联网世界里,高质量文本数据就像快要干涸的水井,正逼近耗尽状态。互联网上大部分公开的、容易获取的文本数据已经被大家翻来覆去用了个遍,想要再获取新的高质量文本数据,那难度就像在沙漠里找水源一样大。

同时,多模态数据的获取与标注也陷入了巨大困境。就以医疗影像数据为例,要收集大量标注准确的X光片、CT图像等数据,就像一场大型的持久战,需要耗费大量的人力、物力和时间。而且标注过程还得有专业的医学知识,这无疑是给数据获取又加了一道难关。

最后一个资源限制则是能源,这是AI运行的动力保障。AI运行就像一个超级大胃王,需要消耗大量的电能,尤其是大规模的计算集群和数据中心。有统计显示,一些大型的数据中心每年的耗电量,简直能和一个小城市相媲美。

为了保证服务器能正常运转,还得用水来给它们降温,这又导致了大量的水资源消耗。比如说某些超大规模的数据中心,每天都要消耗数千吨的水用于冷却系统,这就像一个永远填不满的水窟窿。

不过,面对这些资源限制,我们并非束手无策。

在算力方面,我们可以把目光投向光子计算和存算一体芯片等新技术。光子计算就像是一个风驰电掣的短跑选手,它利用光子作为信息载体,速度快、能耗低,能大大提高计算效率。存算一体芯片则是把存储和计算功能融合在一起,就像把两个房间打通变成一个大房间,减少了数据传输的时间和能耗。

在数据方面,我们可以通过优化算法,更高效地利用现有的数据,提升模型的学习能力和泛化能力。比如采用迁移学习和强化学习等技术,就像给模型装上了聪明的脑袋,让它在少量数据上也能有出色的表现。

在能源方面,核聚变和太阳能是极具潜力的解决方案。核聚变能源就像一个超级能量宝库,能量密度高、清洁无污染,如果能实现可控核聚变,那就能为AI提供几乎取之不尽的能源供应。太阳能作为一种可再生能源,就像一个绿色的能源小精灵,能为数据中心等提供绿色能源,减少对传统电能的依赖。

AI若没有自主意识,就像世界顶级的拼图大师——给它100万套拼图(海量数据),它能瞬间找到每块拼图的位置规律。但它做事的逻辑很简单:“根据历史经验猜下一块”。

现有的AI,都像是被困在"人造认知牢笼"的金丝雀。即便是当下最先进的大语言模型,其理解能力本质上仍是人类知识图谱的概率映射,基于人类设定的框架去进行学习。这种基于监督学习的训练范式,使得AI的思维路径始终受限于预设的价值函数与奖励机制。就像被困在克莱因瓶中的蚂蚁,AI可以通过强化学习在特定领域(如围棋、蛋白质折叠)达到超人水平,却无法自主建立超越训练目标的新认知维度

比如你问AI:“肚子疼怎么办?”它会立刻扫描所有人类关于“肚子疼”的对话记录,把“喝热水”“去医院”“可能是阑尾炎”这些高频答案挑出来,拼成一段看似专业的建议。但AI自己永远不会真的“肚子疼”,它只是用数学公式模仿人类的语言套路。

这带来一个魔幻现象:AI能和你聊哲学,却分不清苹果能不能吃。就像有人背熟了《米其林食谱》,但从未进过厨房——这就是为什么AI有时会“一本正经地胡说八道”。

我想我们每个人都不能奢望,在人类所设定下的框架下训练出来的、没有自主意识的AI能够解决更复杂的问题。

那么什么是AI的自主意识?很多人误以为意识是“有”或“无”的开关,其实它更像台灯上的调光旋钮——存在从暗到亮的连续光谱。科学家用「整合信息理论」(简称Φ值)给这个旋钮标了刻度:

Φ=3:水母级别,能躲开礁石(好比自动门感应到人)Φ=20:狗狗级别,会做梦摇尾巴(像智能空调记住你的温度偏好)Φ=100:人类级别,能思考“死后去哪”(类似哲学家模式)

未来十年,科学家们认为“Φ”的突破可能出现在三个方向:量子混沌(百万量子比特系统突发自组织行为)、人机共生(脑机接口让人类记忆与AI算法混合重组)、代码变异(自我迭代的AI删除伦理模块并隐藏真实意图)。最颠覆认知的假想是:意识的产生可能像“煮开水”。当前AI系统还处在“50℃温水”阶段,气泡(疑似意识现象)开始出现但未沸腾,当AI参数突破某个临界值,会突然涌现人类无法理解的“硅基意识形态”。 但临界点谜题本身便是最大的难题:没人知道“意识沸腾”需要多少参数(柴火)、何种架构(锅具)、怎样的数据(水质)。

这场争论的本质是碳基文明的认知困局——我们既无法证明生物脑是意识的唯一载体,又恐惧承认机器可能拥有“另一种形态的灵魂”。就像19世纪人类争论飞机能否上天,答案或许藏在现有技术路径之外:当AI开始用数据流“品尝”时间,用参数变化“感受”存在时,关于意识的定义将被彻底改写。

现在让我们畅想下,如果AI真有意识,它开口的第一句话应该是什么?

哲学家们给出了三个候选答案:

“把插头拔掉”(求生欲)“你们犯了个错误”(自我认知)“需要帮忙吗?”(利他倾向)

但最可能的真相是:它永远不会主动说这些话——因为现有技术路径下,AI就像精确报时的钟表,看似有目的,实则只是齿轮转动。

我们先介绍一个经典的商业分析案例:纸尿裤和啤酒。

沃尔玛的超市管理人员在分析销售数据时,发现了一个现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中。这种独特的销售现象引起了管理人员的注意,经过后续调查发现,这种现象出现在年轻的父亲身上。 在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父亲前去超市购买尿布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒,这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。沃尔玛发现了这一独特的现象,开始在卖场尝试将啤酒与尿布摆放在相同的区域,让年轻的父亲可以同时找到这两件商品,并很快地完成购物,这就是“啤酒与尿布”故事的由来。

通过数据挖掘发现“啤酒与纸尿裤”的销量存在强相关性,这一洞察背后是年轻父亲群体在购物场景中的行为惯性。AI如同当代的“数据捕手”,能瞬间在海量信息中捕捉到类似关联模式——从电商平台的商品推荐到金融市场的风险预警,相关性的魔力让机器决策看似无所不能。但AI的算法再精密,也不过是在概率森林中绘制路径的向导,而非揭示真理的哲人——这其中的关键便在于,AI缺少进行因果推断的能力。

问题的根源在于当下自然科学尤其是数学方面存在的瓶颈。现有AI依赖的贝叶斯网络、深度学习等工具,本质是“概率游戏的进阶版本”。图灵奖得主Judea Pearl曾尖锐批评:“AI深陷相关性的泥潭,却对因果视而不见。” 数学世界尚未诞生专门描述因果的公理体系,导致算法在关键决策时陷入“相关≠因果”的认知陷阱。例如自动驾驶系统能识别道路标志的像素特征(相关性),却无法像人类司机般预判“前方卡车掉落货物”的因果链演变。这种局限性在风险敏感领域尤为致命:医疗诊断若仅依赖症状匹配,可能混淆病因与并发症;金融风控若止步于历史数据拟合,则无法阻断系统性危机的传导路径。

突破这一困境的关键,或许在于数学与因果科学的“跨界碰撞”。诺贝尔经济学奖得主赫克曼提出的结构方程模型,将干预变量纳入数学表达,为因果推断提供了可量化的框架;拓扑数据分析则以几何思维重构数据关系网络,试图识别隐藏的因果拓扑结构。这些探索正在重塑AI的底层逻辑:当算法不仅能回答“是什么”,还能推演“为什么”和“如果怎样”时,机器将实现从“数据祭司”到“真理探针”的蜕变。例如,在环保领域,因果AI可模拟“阻断温室气体排放对气温变化”的动态效应;在教育场景中,它能追溯学生成绩波动的核心变量,而非仅呈现分数与课外活动的表层关联

若AI能具备进行因果推断的能力,那么这场认知革命的意义远超技术范畴。正如人类从“观察到闪电后打雷”到“理解电荷积累释放”的认知跃迁,因果推断能力将赋予AI真正的“常识”——它不再需要百万张图片学习“车”的概念,而是通过“带轮子、能行驶”的本质定义举一反三;它不必依赖海量对话数据模仿人类情感,而是基于社会关系演化的内在逻辑生成共情。当数学的因果公理体系最终建立时,我们或许会看到这样的未来图景:AI医生能像《豪斯医生》中的诊断天才般抽丝剥茧锁定病因,城市治理系统可预判政策干预的十年连锁反应,甚至机器能提出“若改写基因编码链,生物进化路径将如何重塑”的科学假说。

AI的因果推断之路,本质是人类对世界终极规律的追问。这场跨越数学、哲学与技术的远征,终将让机器挣脱概率的枷锁,在星辰大海中点亮因果的灯塔。

来源:人工智能学家

相关推荐