摘要:10月12日,Campfire在Steam和手机上推出了一款名为Cozy Friends的消费者人工智能聊天产品。想象一下,带有人工智能代理的《动物之森》或《模拟人生》。在最初的30天里,用户与人工智能代理交换了170多万条信息。这超出了Campfire的最佳
10月12日,Campfire在Steam和手机上推出了一款名为Cozy Friends的消费者人工智能聊天产品。想象一下,带有人工智能代理的《动物之森》或《模拟人生》。在最初的30天里,用户与人工智能代理交换了170多万条信息。这超出了Campfire的最佳预期,并验证了我们最终擅长对话式人工智能产品。
我们花了一年时间建造才到达那里。我们不得不建造大量工具,其中一些工具翻了两次,并将头撞到各种墙壁上几个月,最终制作出一个像样的人工智能聊天产品。
我想更快地构建更好的人工智能聊天产品,并帮助其他人避免我们痛苦的经历。为此,我正在开源我所有的学习,并在Sprites中推出我们所有的内部人工智能工具,这是我们用于构建、优化和扩展对话人工智能代理的多合一工具。
下面,我提供了我们在开发人工智能聊天产品时学到的七大教训。最重要的是,您应该将人工智能聊天输出视为一个复杂的功能,而不是单个大型语言模型(LLM)的包装。有了这个框架,以下是我的提示:
系统提示是用户和应用程序状态的函数
您的系统提示需要像React应用程序一样构建和管理,随着用户意图和数据而演变,而不是像静态的HTML网页一样。
您可以将系统提示视为应用程序状态的函数——它需要动态,并根据用户旅程的进展而演变。这甚至不是一个由两三个静态提示组成的分段函数。您需要根据对话的演变、来自思想链工作流程的元数据、总结、用户的个人数据等修改或完全替换提示。您希望在任何给定的用户状态下包含或省略其中的一部分,以获得更好的结果。这篇关于Character.ai提示设计的博文是一个很好的资源。
简而言之,将提示视为一组动态指令,需要维护以控制您的用户体验,更像用户在应用程序的给定屏幕上对用户可见的UI元素,而不是在用户旅程开始时锁定的一次性指令集。
选择确定性结果,特别是在早期用户旅程中
在大多数在线产品中,您通过复杂的入职流程精细控制用户的“零日”体验,然后将他们释放到神奇的空白画布上,做他们想做的事。使用人工智能聊天产品,您可能希望保持相同的理念,并为用户构建确定性聊天结果,特别是在他们的头几天。但是那是什么?
人工智能应该在前五条消息中提出某个主题或建议,还是在第二天被提示采取某种行动?人工智能是否应该在特定时间改变话题,以保持用户的参与度?激活时刻有对话坡道吗?您想在入职期间使用聊天格式从用户那里提取一些信息来个性化体验吗?
如果您正在构建消费品,上述所有问题的答案很可能是肯定的。
使用模型混合
当您将同一线程中的消息路由到具有正交功能的两到六个模型,而不是总是去同一个模型时,结果会改善。假设你有擅长散文和角色扮演的A型,以及擅长推理的B型。如果你只是在A和B之间发送其他每条消息,多回合对话的结果最终会大大改善。
除了为高级提示运行拆分测试外,这是最容易获胜的、影响巨大。但要明智地选择模型。
使用脚本回复
就像LLM一样令人惊叹,它们最好以受控的方式部署聊天,而不是作为一个神奇的谈话盒。您可以使用较小的模型来推断一些有关用户输入的语义,并经常路由到预先编写的响应。这将为您节省大量资金,同时实际上会提供更好的用户体验。
如果您能构建一个简单的决策树,并具有一些语义推理来路由服务于共同的用户旅程,那么您最终可能会得到一个比每个响应都来自推理更好的产品。
制作令人惊叹的对话开场白
我们从我们的核心对话系统中构建了一个完全独立的推理系统,使用以前的聊天、以前的记忆、他们在应用程序中最近的操作的摘要,以及一些随机的种子,让人工智能角色开始良好的对话。如果你不这样做,你的人工智能将产生某种版本的“嗨!我今天能帮你什么忙吗?”比你想要的更频繁。
人工智能对人工智能聊天的质量迅速下降
在用户测试期间,我们反复看到空白画布问题——用户不知道该输入什么来聊天。我们添加了一个“魔杖”,在用户的声音中提供三个人工智能生成的信息。虽然它解决了短期用户摩擦,但使用魔杖的用户搅得更快。当我们研究聊天记录时,我们发现人工智能对人工智能的聊天在几圈内就退化为无稽之谈。
有一个明确的指标来判断人工智能输出
如果你只是提示并测试你的聊天机器人,以获取几条消息,并称它足够好......相信我,这还不够好。您的人工智能输出需要在100次对话后、多个会话和不同的用户角色保持质量。
您需要尝试许多不同的变体,并建立一个清晰的反馈循环,使用Likert分数或简单的ELO分数,在变体之间进行选择,以查看您的用户在聊天中发现哪些内容有吸引力或有用。
我们发现,使用另一种具有通用LLM的推论来判断输出(例如,提示“从1到5的尺度,这次对话有多有趣?”以GPT4o为判断者运行)产生了与用户反馈不同步的不良结果。
总而言之,对系统提示进行振动并称其为一天的日子早已一去不复返了。听起来很明显,如果你的产品是人工智能,那么人工智能最好很棒。这将是决定你成功的第一个因素。人工智能新奇时代已经结束。您将需要一个明确的框架和大量的实验来取悦您的用户并为他们提供价值。祝你好运!
作者:Siamak Freydoonnejad是Campfire的联合创始人。
来源:AI中国一点号