从开发视角，思考AI产品落地的方向

摘要：随着AI技术的飞速发展，如何将AI能力有效集成到产品中，成为开发者和产品经理面临的重要课题。本文从开发视角出发，深入探讨AI产品落地的方向和策略。作者通过分析AI与传统产品的正交关系，提出了AI Agent、AI生态、AI+和私人AI助理等几个具有潜力的AI产

随着AI技术的飞速发展，如何将AI能力有效集成到产品中，成为开发者和产品经理面临的重要课题。本文从开发视角出发，深入探讨AI产品落地的方向和策略。作者通过分析AI与传统产品的正交关系，提出了AI Agent、AI生态、AI+和私人AI助理等几个具有潜力的AI产品方向，并结合实际案例，详细阐述了这些方向的技术实现和应用场景。

作为一名移动客户端开发，一直以龙哥为榜样思考产品层面的问题，大模型发展至今，我也一直在思考怎么以AI的能力，制作出一些带magic的小玩意。

一、认知：什么样的产品应该用AI去做（AI产品的方向应该怎么做）

显然并不是所有的产品都适合用AI去集成。

在chatGpt3刚出来的时候，因为gpt效果太差，且费用太贵，曾经和朋友聊天的时候，有打算针对特定问题集成答案，用户命中问题则直接回复答案。

幸好当时没做，以我现在的认知来看，这种方案就完全是螳臂当车，类似于打算在LLM洪流之下，想通过个人来接住洪流的冲击力，这样的产品显然会被LLM成长起来的能力直接碾压过去。

夹在传统互联网和LLM之间，到底怎么样找一个落脚点去把两者更好的集成？

我纠结了很久，也实验过一些demo，最后最后，我在Manus创始人分享的一个视频切片里，找到了我自认为问题的答案：

大家可以看图，LLM的能力应该要跟我们做的产品能力是正交的。什么叫正交？

学过数学的我们都知道，就是两个方向是完全互不影响的，比如做一个AI的产品，如果后续会因为LLM能力过于强大（比如多模态、比如提速、比如低成本）而倒掉，那这个产品和LLM就不是正交的。

但如果我们的产品，会随着LLM的能力强大，产品能力也变得更强大，那么这样的产品定位就是正交的。

有了这个大思路，在去看业内很多的AI产品，有些产品甚至一眼就能看到它的生命终点。

二、具体落脚：哪些方向做AI产品比较丝滑？

标题里所说的”大的认知前提”，指的就是”AI产品能力应该和LLM是正交的”。

好，那接下来聊聊我们如果要做一个AI产品，大概可以从哪几个方向出发（只是我个人的思考，欢迎大家补充讨论）。

1. AI Agent

使用过Manus这款产品的同学，应该十分清楚 AI Agent 这个方向的重要意义了，没使用过的同学建议去Manus官网看看示例。

AI Agent 领域的技术实现我有所了解，技术实现不是很难，难在workflow的构建，以及成本（也是受workflow影响）。

拆解AI Agent的工作流↑，我们可以发现AI Agent确实帮我们做了非常多的事情，尤其是「收集信息」部分，是AI Agent的王炸级能力。

但AI Agent有目前有两个方向的原罪，只要想着去做这个方向的产品，一定会碰到的两个问题：甲方困境和深度瘫痪。

1）甲方困境

什么叫甲方困境，作为程序员的我们可能都清楚，做一个需求，最复杂是了解需求是什么，到底想要达到什么样的效果，而写代码反而是最简单的。

AI Agent也是一样的，比如我们让AI Agent写一个”坦克大战”，虽然这只是简单的一句话，但”坦克大战”从一句话到具体交付，中间要商量的细节可太多了，就不论UI样式，光是策略方案就已经够复杂的了。

但 AI Agent 无论是从LLM模型本身，还是离线产品的宣传理念，对于在工作过程中怎么样尽可能丝滑反问使用人需求，都是一个难题。

2）深度瘫痪

深度瘫痪也很好理解，只要是用过chatGPT api写demo的同学都知道，当你的对话轮次越来越多时，同样的一个问题，你消耗的token会越来越多。

为什么？这是你要把你的上下文带给AI，让他在回答里当下这句话的时候，能记住你之前说了什么。

所以，足够深度的上下文信息，足以让AI的使用变得又贵又慢，这是AI基础实现Transformer本身导致的，所有历史对话拼接为长序列输入。

当然了，现在主流的AI Agent，是混合了长序列输入和检索增强生成(RAG) 方案的，尤其是「收集信息」，

基本都是由模型自己通过 embedding 转成向量数据库来进行学习，这是一个折中的方案，但RAG的方案会让AI使用起来没那么聪明（相比长序列）。

2. AI生态

AI生态指的是在原先能够闭环的生态里，使用AI打造AI驱动的生态。比如：各家的App，或者更大一点：手机。

可能看到这里你脑海中已经想象出一个画面：”你早上起来打开手机，对手机AI说，帮我点一份早餐，和昨天口味一样，备注多放点辣”

但大家有没有想过，这个技术很难吗？为啥LLM诞生之前，不做这样的能力？

其实以AI手机为例，既然是闭合生态，理论上所有指令集都是可以串联的，所以这个串联调用的能力，早都已经可以搞定了。

之所以在LLM时代，要把这件事重新提起，最根本的原因是因为LLM “听得懂人话了”，LLM通过超大参数训练，具备了目前AI界最强大的一个能力，”理解语义”。

“理解语义“在不同时代有不同的视线，我将之分为3个时代：惊喜的1.0时代、停滞的2.0时代、重生的3.0时代。

惊喜的1.0时代

这个时代机器听懂人类语言的方式，依赖的技术是”语音量化”，机器通过将收集到的语音进行量化，并和自己指令库的指令集进行对比，如果匹配上了就执行指令。

这个时代最大的问题，就是”精准匹配”。以我家里一个松下取暖器为例，系统给它内置的指令是”松下取暖气，打开取暖器”。

但如果我说成”松下取暖气，请打开”，它就完全听不懂我在说什么，更不用主动关怀的AI理解了。

停滞的2.0时代

2.0时代的巅峰也是NLP的巅峰，NLP曾经根据有限的聚类效果解决过一些问题，但基本仅限于玩具场景，

在准确度要求99%以上的场景，没有哪个公司敢把产品真正放上去。

这个时代的经典代表就是各家的AI语音助理，比如智障Siri、雷军儿子的小爱同学等等。

重生的3.0时代

LLM 最大的特点就是更理解人类的表达了。

在1.0时代，如果我们的系统有10个指令，那么用户只能使用10句话对其进行驱动。在2.0时代，如果我们的系统有10个指令，那么用户大概可以使用10*n句话对其进行驱动（n的值取决于工程师配置的相似数据库）。在3.0时代，如果我们的系统有10个指令，那么用户可以使用无限种方式对其进行驱动。这就是LLM最大的作用！

好，依旧来举例说明，我是一位极氪001汽车的车主，在我的车机升级到大模型方案之前，所有车主都会吐槽车机非常笨，听不懂人话。

但车机升级到大模型方案之后，和车机对话的体感普遍更好了，比如我们上车后对车机说: “今天工作有点累，我现在有点热”

那么车机会回复：”是否要打开休息模式？空调温度已经为你下调了2度”。

能理解这个例子吗，虽然车机依旧还是”打开休息模式、调节空调温度”这样传统的指令，但人们驱动它的方式变得更加多元且精准了。

所以回到AI生态来看，闭环生态下的指令集触手可得，指令集所搭建的高效率武器也不是瓶颈，但现在可以触发开枪的技术诞生了，那就LLM。