摘要:当前,大模型的“幻觉”问题备受关注,被视为技术落地的“阴影”。AI幻觉就像难以根治的“顽疾”,困扰着AI落地的每一个环节。然而,在这场技术与可靠性的较量背后,未来个体的生存法则,或许早已悄然改变,指向了新的价值"坐标系"。
当前,大模型的“幻觉”问题备受关注,被视为技术落地的“阴影”。AI幻觉就像难以根治的“顽疾”,困扰着AI落地的每一个环节。然而,在这场技术与可靠性的较量背后,未来个体的生存法则,或许早已悄然改变,指向了新的价值"坐标系"。
模型“幻觉”的消解路径
与AI幻觉的较量,注定是一场“人机博弈”的持久战。
AI在自然语言理解、内容生成等领域拥有了令人惊叹的能力飞跃,但如影随形的“幻觉”问题,始终像一团阴影,笼罩在AI可靠性与可信度提升的道路上,是将其从实验室推向更广阔应用场景时,必须直面的“深渊”。
Vectara的分析报告《DeepSeek-R1 hallucinates more than DeepSeek-V3》显示,DeepSeek-R1在特定评估基准下的幻觉率高达14.3%,与其基座版本DeepSeek-V3那相对克制的3.9%相比,简直“画风突变”。
图片截取自:Vectara报告《DeepSeek-R1 hallucinates more than DeepSeek-V3》
专注于信任度评估的Vijil也发布报告称,在其针对幻觉的专项测试中,DeepSeek-R1的"通过率"约为68.42%。换句话说,仍有约31.58%的回答存在幻觉。
图片截取自:VIJIL信托报告
评估数据的背后,指向了大模型在控制幻觉方面的潜在挑战。这场关于AI幻觉率的“罗生门”,无疑给模型的稳定性和可靠性打上了一个问号。
细究这一“顽疾”的根源,胡凝认为,以DeepSeek为代表的推理模型,与传统基础模型相比,在核心的“思维链”构造上存在着本质差异,这决定了其产生幻觉的关键症结也有所不同。
IEEE数字金融与经济标准委员会专家委员、桐元软件CEO 胡凝
事实上,对推理模型而言,为了实现模拟复杂的逻辑过程,会将思维链分解为多步骤的中间推理环节。这一设计本身是为了实现更精细的控制和更明确的执行指令。然而,风险也恰恰潜藏于此——每一步的“思考”和计算都可能引入微小误差,并在链条的延伸中积累、放大,最终导致结论南辕北辙。
“DeepSeek使用MoE结合推理来节省算力,但如果对于领域专家定位出现错误,点亮的知识结构和原始语义不符,则会出现‘张冠李戴’的幻觉问题。”胡凝如是说。
与此相对的是,基础模型采用了更为内隐和整体的推理方式,其内部状态相对集约。更关键的在于,其赖以训练的数据规模通常极为庞大且多样化,这使得它们在面对新颖或模糊查询时,拥有了更强的泛化能力,并在推理过程中具备了一定的动态修正潜力。
当然,如同所有AI模型面临的挑战,基础模型同样无法完全避免“幻觉”现象。“其产生诱因或许更多地根植于从海量数据中习得的模式本身固有的偏差或噪声,而非简单的逻辑断裂。”胡凝强调
数据的特性与处理方式本身,也是影响模型幻觉表现的另一个核心要素。
对此,胡凝指出,推理模型在训练时,往往依赖于针对特定领域或任务构建的高度相关的局部知识语料。而问题在于,如果这些语料在人工筛选、标注或结构化过程中本身就内含了逻辑跳跃或隐性错误,模型在学习时便可能将这些“瑕疵”内化。
除了数据内容本身的潜在瑕疵,推理模型的训练方式及其数据特性,也影响着模型的表现。
推理模型在训练阶段有时会为了优化特定的“正确推理步骤”而进行“剪枝”,而一旦“剪枝”过度,便牺牲了模型在面对复杂、开放式问题时进行多路径探索和验证的灵活性。
“从数据量级上看,用于推理任务的数据集与基础模型进行通用预训练时接触的海量知识相比,规模往往小得多。而这可能导致推理模型在覆盖各种推理场景的多样性和边缘案例的全面性上存在先天不足,限制了其在特定情景下的鲁棒性。”胡凝强调。
相比之下,基础模型得益于其海量多样化的训练数据,更容易习得更全面和稳健的语言规律和知识体系。但即便如此,在其更整体化的推理过程中,如果某个中间步骤产生了貌似符合逻辑的“幻觉”,这个错误的“基石”也可能随着推理链条的展开而进一步被强化和放大。
因此,“消灭”AI幻觉目前没有一劳永逸的“灵丹妙药”,其注定是一项系统性的、需要多条战线协同推进的复杂工程。
这场“较量”力求从多个维度同时发力:
一方面,要深入改进模型本身的结构和算法,提升其内在的逻辑一致性和鲁棒性。另一方面,不断提升训练数据的质量控制和多样化水平。
更重要的是,需要引入外部的“裁判”和“知识库”,通过RAG(检索增强生成)等技术,让模型在生成内容时能够“查证”和“核验”,而不仅仅是依赖“涌现”。
同时,持续优化和创新RLHF等强化学习微调技术,以更精细地引导模型生成符合事实和人类认知的内容。
此外,亦要发展更先进的评估方法和提升模型的可解释性,帮助我们理解模型为何会“脑补”,才能更好地对症下药。
“超级个体”的三重价值
随着AI技术的普惠化与能力的持续增强,胡凝预见,一个以“超级个体”为标志的新时代即将到来加速。
然而,这并不意味着个体之间将趋于同质化。
恰恰相反,“超级个体”之间的差异化将更为明显。胡凝指出,这种差异不再是简单的体力或基础技能的差异,而是更深层次的能力分层,其主要体现在个人对AI工具的整合能力、独特思维模式的培养,以及专业领域深度三个方面。
如果探究细化胡凝提出三个维度,可以发现其是构筑个体核心竞争壁垒、在AI时代塑造独特价值的关键所在。
“AI工具的整合与协同能力”。其不仅仅是会使用AI工具,更是理解不同AI工具的优势与局限,并能像指挥“交响乐团”一样,将其无缝地融入到自己的工作流、学习过程和价值创造链中。这种能力考验的是个体的学习适应性、系统思维以及将前沿技术转化为实际生产力的智慧。其是将AI从“工具”升级为“协作伙伴”的关键。
“独特思维模式的培养”。在信息爆炸、AI能快速生成标准化内容的时代,真正有价值的是那些无法被轻易复制、带有强烈个人烙印的思维方式。这包括批判性思维、创新性思维、跨领域联想能力、以及构建自己独特认知框架的能力。这种“人之所以为人”的深度思考和结构化认知,是应对复杂问题和产生原创见解的核心引擎。
“专业领域的深度与专精”。AI更多是一个“放大器”。其能极大提升效率、拓展能力边界,但其所“放大”的内容,归根结底取决于个体在特定专业领域内的积累和造诣。没有深厚的专业基础,AI即便强大,也如同无本之木、无源之水。只有在某一领域达到精深,才能有效地利用AI去解决该领域的难题,产生突破性的成果。
然而,这仅仅是构筑个体核心竞争力的第一阶段。
真正拉开“超级个体”之间差距,使其具备上述“三重”差异化价值的,并非AI工具本身,而是与个体深度绑定的、能够反映和放大个人特质的AI辅助系统——即个性化Agent。胡凝强调,个性化Agent可以记录个体的思考过程、学习偏好,并据此提供量身定制的辅助,使创造性思维和专业技能得到指数级放大。
这与红杉 AI 峰会闭门会上红杉合伙人Konstantine 提出的设想有着递进式的呼应。Konstantine 认为,未来的 AI,不只是彼此通信,而是组成一个可以交换价值的系统网络。”
AI工具普及 用创意和“交付”建立价值“护城河”
红杉资本近期那场为期6小时、云集150位顶尖AI创始人的闭门峰会,恰好从商业视角,为胡凝的结构预判提供了注脚和证实。红杉所描绘的,是具备身份、行动和信任契约的AI“代理人”,正在组成一个能够彼此协作、完成复杂任务的“智能体经济网络”。这或许就是胡凝所言,冲破组织边界、由“网络节点”构成的未来协作图景。
在智能体网络里,个体或是AI赋能下的“超级个体”——正转型为任务的“编排者”和资源的“调度者”。而人的价值,则不再是设计指令让AI服从,而变成了设计并启动这个网络的协作流程。
超级个体崛起之下,经济的底层逻辑也将被颠覆。
胡凝认为,其将从依赖规模走向依赖“创意”和“注意力”。独一无二的思维和创造力,会成为新时代的“硬通货”。
而这种路径,目前已经逐渐显现,“下一轮 AI,卖的不是工具,而是收益”红杉资本的考量直戳人心。更多客户不再为AI这个“工具”本身买单,他们只掏钱买AI实际“干出来”的、写进报表里的“成果”。
这一趋势下,胡凝的判断给出了“解法”:当AI工具普及,其边际价值递减,真正的价值护城河,在于用AI创造出的、别人难以轻易复制的独特“成果”。创意和如何实现创意,成了新的稀缺资源。
进一步的,他还提出了未来超级个体的三条“生存之道”。
第一条路:提供他人难以复制的创造性内容和服务,而实现路径则是把创意变成能端到端交付的“成果型产品”。
“成果型产品”的定义逐渐明确,其能跑完一个完整任务流程,结果可被度量和归因,并且能越跑越好。创意不能是空中楼阁,而是能用AI或其他资源打包交付的“硬通货”,市场只为可验证的“交付”买单。
第二条路:成为特定知识领域的信任节点和验证者。用户不再是简单“使用”工具,而是将任务“委托”给智能体,然后等待结果。这一过程中,谁能持续、可靠地交付高质量结果,谁就在这个委托网络中积累了宝贵的“交付记录”。这些记录构成了新时代的“信任背书”,更能成为验证信息、值得托付的“信任节点”。
第三条路:设计和优化AI系统本身。而这项工作的核心,已经不只是调参数、设计prompt,而是调“结构”。红杉的观点是,AI的瓶颈不在模型,而在如何把模型融入流程和工具链的“架构工程”。
这也正是胡凝所指的“设计和优化”工作的精髓。
值得注意的是,胡凝也提到了能耗和信息茧房等伴生难题。AI能耗问题会形成新的资源竞争态势,计算资源、电力和冷却设施将成为限制性因素,可能导致"计算资源阶层"的出现。
同时,AI形成的信息茧房将对社会产生深远冲击。个性化agent在强化个人认知和能力的同时,也可能放大确认偏见,导致社会认知分化加剧。
“当每个人都沉浸在由AI精心打造的信息环境中,社会共识形成变得更加困难,可能出现"平行现实"现象——不同群体生活在截然不同的信息生态系统中,彼此间的基本事实认知都无法达成一致。”胡凝强调,这种信息分层将进一步加剧社会极化,挑战民主决策和社会治理的基础。
解决这一问题需要开发“‘认知多样性(破茧房)’和“跨茧房对话”的系统或相关的协议,确保超级个体在获得个性化增强的同时,仍能接触到多元观点和共享现实,维持社会凝聚力和集体决策能力。
“认知多样性(破茧房),可维护和鼓励社会中存在不同的观点、思维方式和知识体系,并主动打破个体被困在单一信息环境中的状态;“跨茧房对话”则是要建立机制促进持有不同观点、处于不同信息茧房中的个体之间进行交流和对话,增进相互理解。
也是在此基础上,胡凝从企业角度谈及,未来的企业将不再是主要的生产或服务提供者,而是转向为以个性化Agent为中心的生态系统和基础设施提供者,以及环境培育者。
具体而言,包括构建支持个性化认知模型训练的平台、开发用于映射和理解个体思维模式的工具,以及建立促进不同Agent之间有效协作的协议和标准。
来源:至顶网一点号