摘要:随着AI技术的飞速发展,如何将AI能力有效集成到产品中,成为开发者和产品经理面临的重要课题。本文从开发视角出发,深入探讨AI产品落地的方向和策略。作者通过分析AI与传统产品的正交关系,提出了AI Agent、AI生态、AI+和私人AI助理等几个具有潜力的AI产
随着AI技术的飞速发展,如何将AI能力有效集成到产品中,成为开发者和产品经理面临的重要课题。本文从开发视角出发,深入探讨AI产品落地的方向和策略。作者通过分析AI与传统产品的正交关系,提出了AI Agent、AI生态、AI+和私人AI助理等几个具有潜力的AI产品方向,并结合实际案例,详细阐述了这些方向的技术实现和应用场景。
作为一名移动客户端开发,一直以龙哥为榜样思考产品层面的问题,大模型发展至今,我也一直在思考怎么以AI的能力,制作出一些带magic的小玩意。
一、认知:什么样的产品应该用AI去做(AI产品的方向应该怎么做)显然并不是所有的产品都适合用AI去集成。
在chatGpt3刚出来的时候,因为gpt效果太差,且费用太贵,曾经和朋友聊天的时候,有打算针对特定问题集成答案,用户命中问题则直接回复答案。
幸好当时没做,以我现在的认知来看,这种方案就完全是螳臂当车,类似于打算在LLM洪流之下,想通过个人来接住洪流的冲击力,这样的产品显然会被LLM成长起来的能力直接碾压过去。
夹在传统互联网和LLM之间,到底怎么样找一个落脚点去把两者更好的集成?
我纠结了很久,也实验过一些demo,最后最后,我在Manus创始人分享的一个视频切片里,找到了我自认为问题的答案:
大家可以看图,LLM的能力应该要跟我们做的产品能力是正交的。什么叫正交?
学过数学的我们都知道,就是两个方向是完全互不影响的,比如做一个AI的产品,如果后续会因为LLM能力过于强大(比如多模态、比如提速、比如低成本)而倒掉,那这个产品和LLM就不是正交的。
但如果我们的产品,会随着LLM的能力强大,产品能力也变得更强大,那么这样的产品定位就是正交的。
有了这个大思路,在去看业内很多的AI产品,有些产品甚至一眼就能看到它的生命终点。
二、具体落脚:哪些方向做AI产品比较丝滑?标题里所说的”大的认知前提”,指的就是”AI产品能力应该和LLM是正交的”。
好,那接下来聊聊我们如果要做一个AI产品,大概可以从哪几个方向出发(只是我个人的思考,欢迎大家补充讨论)。
1. AI Agent
使用过Manus这款产品的同学,应该十分清楚 AI Agent 这个方向的重要意义了,没使用过的同学建议去Manus官网看看示例。
AI Agent 领域的技术实现我有所了解,技术实现不是很难,难在workflow的构建,以及成本(也是受workflow影响)。
拆解AI Agent的工作流↑,我们可以发现AI Agent确实帮我们做了非常多的事情,尤其是「收集信息」部分,是AI Agent的王炸级能力。
但AI Agent有目前有两个方向的原罪,只要想着去做这个方向的产品,一定会碰到的两个问题:甲方困境 和 深度瘫痪。
1)甲方困境
什么叫甲方困境,作为程序员的我们可能都清楚,做一个需求,最复杂是了解需求是什么,到底想要达到什么样的效果,而写代码反而是最简单的。
AI Agent也是一样的,比如我们让AI Agent写一个”坦克大战”,虽然这只是简单的一句话,但”坦克大战”从一句话到具体交付,中间要商量的细节可太多了,就不论UI样式,光是策略方案就已经够复杂的了。
但 AI Agent 无论是从LLM模型本身,还是离线产品的宣传理念,对于在工作过程中怎么样尽可能丝滑反问使用人需求,都是一个难题。
2)深度瘫痪
深度瘫痪也很好理解,只要是用过chatGPT api写demo的同学都知道,当你的对话轮次越来越多时,同样的一个问题,你消耗的token会越来越多。
为什么?这是你要把你的上下文带给AI,让他在回答里当下这句话的时候,能记住你之前说了什么。
所以,足够深度的上下文信息,足以让AI的使用变得又贵又慢,这是AI基础实现Transformer本身导致的,所有历史对话拼接为长序列输入。
当然了,现在主流的AI Agent,是混合了 长序列输入 和 检索增强生成(RAG) 方案的,尤其是「收集信息」,
基本都是由模型自己通过 embedding 转成向量数据库来进行学习,这是一个折中的方案,但RAG的方案会让AI使用起来没那么聪明(相比长序列)。
2. AI生态
AI生态指的是在原先能够闭环的生态里,使用AI打造AI驱动的生态。比如:各家的App,或者更大一点:手机。
可能看到这里你脑海中已经想象出一个画面:”你早上起来打开手机,对手机AI说,帮我点一份早餐,和昨天口味一样,备注多放点辣”
但大家有没有想过,这个技术很难吗? 为啥LLM诞生之前,不做这样的能力?
其实以AI手机为例,既然是闭合生态,理论上所有指令集都是可以串联的,所以这个串联调用的能力,早都已经可以搞定了。
之所以在LLM时代,要把这件事重新提起,最根本的原因是因为LLM “听得懂人话了”,LLM通过超大参数训练,具备了目前AI界最强大的一个能力,”理解语义”。
“理解语义“在不同时代有不同的视线,我将之分为3个时代:惊喜的1.0时代、停滞的2.0时代、重生的3.0时代。
惊喜的1.0时代
这个时代机器听懂人类语言的方式,依赖的技术是”语音量化”,机器通过将收集到的语音进行量化,并和自己指令库的指令集进行对比,如果匹配上了就执行指令。
这个时代最大的问题,就是”精准匹配”。以我家里一个松下取暖器为例,系统给它内置的指令是”松下取暖气,打开取暖器”。
但如果我说成”松下取暖气,请打开”,它就完全听不懂我在说什么,更不用主动关怀的AI理解了。
停滞的2.0时代
2.0时代的巅峰也是NLP的巅峰,NLP曾经根据有限的聚类效果解决过一些问题,但基本仅限于玩具场景,
在准确度要求99%以上的场景,没有哪个公司敢把产品真正放上去。
这个时代的经典代表就是各家的AI语音助理,比如智障Siri、雷军儿子的小爱同学等等。
重生的3.0时代
LLM 最大的特点就是更理解人类的表达了。
在1.0时代,如果我们的系统有10个指令,那么用户只能使用10句话对其进行驱动。 在2.0时代,如果我们的系统有10个指令,那么用户大概可以使用10*n句话对其进行驱动(n的值取决于工程师配置的相似数据库)。 在3.0时代,如果我们的系统有10个指令,那么用户可以使用无限种方式对其进行驱动。这就是LLM最大的作用!
好,依旧来举例说明,我是一位极氪001汽车的车主,在我的车机升级到大模型方案之前,所有车主都会吐槽车机非常笨,听不懂人话。
但车机升级到大模型方案之后,和车机对话的体感普遍更好了,比如我们上车后对车机说: “今天工作有点累,我现在有点热”
那么车机会回复:”是否要打开休息模式?空调温度已经为你下调了2度”。
能理解这个例子吗,虽然车机依旧还是”打开休息模式、调节空调温度”这样传统的指令,但人们驱动它的方式变得更加多元且精准了。
所以回到AI生态来看,闭环生态下的指令集触手可得,指令集所搭建的高效率武器也不是瓶颈,但现在可以触发开枪的技术诞生了,那就LLM。
3. AI+
AI+ 的思路其实和几年前互联网+的口号一样,但AI+的颠覆效果并不如互联网+,AI+在我看来,是补齐传统移动互联网产品功能的一些短板。
既然是优化原有功能的体验,那么接下来的做事方法论也就很简单了:
收集原有互联网产品遗留的痛点难点、通过画甘特图评估卡点任务整理AI的基建能力,比如:聚合相似、文本总结等将第1步收集的诉求 和 第2步整理的AI基建 进行碰撞,看看有没有可以match上的。AI是一个很好的生产力工具,尤其是在文本处理和总结上,我们平时的工作在处理各种各样的群消息,那么在群消息这里是不是可以引入AI能力呢?
4. 私人AI助理
私人AI助理是我觉得非常惊艳,但现在被大家低估的一个AI落地点,在我看来,部署本地AI知识库的浪潮,应该要超过部署Nas。
每个人都想要一个既懂自己,又能辅助自己成长,又对自己绝对忠诚的AI助手(类似钢铁侠中的Jarvis,我给自己的私人AI助理也是起名叫Jarvis hhh)。
私人AI助理属于一个基建平台,在该平台上可以衍生出非常多的能力,目前我会让我的AI助理定期review我的代码,针对我所学习的内容进行深化提问等等。
甚至于在我的设想中,以后每个公司都会出现一个公司级别的私人AI助理(或者应该叫超级大脑),类似于生化危机电影中的红色皇后。
因为只有AI才能源源不断接收外界的信息,只有AI才能针对如此多的信息进行调度,提前对潜在风险进行预警。
好,一不小心光整理对AI产品的思绪就写了那么多,希望对大家能有点帮助。
本文由 @冰以东 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自Unsplash,基于CC0协议
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务
来源:人人都是产品经理