摘要:在人工智能浪潮中,AutoGLM 作为一款备受瞩目的产品,声称能实现“一边想一边干”的强大功能。然而,它是否真的能成为产品调研的好助手?本文作者通过亲身实践,从多个维度对 AutoGLM 进行了深度测试与分析,供大家参考。
在人工智能浪潮中,AutoGLM 作为一款备受瞩目的产品,声称能实现“一边想一边干”的强大功能。然而,它是否真的能成为产品调研的好助手?本文作者通过亲身实践,从多个维度对 AutoGLM 进行了深度测试与分析,供大家参考。
媒体宣传说智谱清言可以“一边想一边干”,于是我立刻申请内测,开始使用 AutoGLM,期盼它能自主运行,帮我订一杯奶茶。结果是它只是帮我打开了美团网站,输出了一堆没用的信息,奶茶依然留在了奶茶店,没有出现在我的桌面上。
我随后又尝试了官网宣传的“订酒店”功能,结果还是一长串搜索与分析,最终也没有真正帮我完成酒店预订。
最终,我放弃了它“干”的功能,转而测试它“想”的能力,尝试用它来做一些深度分析。
从官网的用例来看,目前 AutoGLM 的核心功能,个人认为还是集中在 Deep Research 层面。我下载了 mac 版本的桌面应用,同时也下载了 Chrome 的 AutoGLM 插件。从插件的信息来看,支持自动运行的网站包括知乎、微博、百度等十几个网站。正如官网所说,目前该产品功能仍处于实验阶段,期待后续能够真正实现“一句话订酒店”的愿景。
我测试了一个“节假日西安周边游”的出行规划。从它的思维链可以看出,它的 workflow 包括:常规搜索、AutoGLM 搜索、工具调用、内容思考、总结输出。首次在小红书上的搜索失败,随后改用搜索引擎进行全局搜索。通过 tool observation 获取信息,从知乎、小红书、抖音等社交媒体进行详细搜索。
在搜索过程中,它会自动启动 Chrome 浏览器,可以看到 AutoGLM 的操作过程,比如调整小红书搜索帖子的过滤器,从“综合”调整为“最热”。操作过程中,浏览器会出现蓝色光晕闪现,表示正在工作中。
大约 10 分钟后输出了一份行程规划。但结果价值不大。因为是节假日,必然会遇到交通拥堵等问题,本应提前规划自驾路线,而报告中并未提供相应的出行路线规划。
官网介绍视频讲解了 AutoGLM 的技术路径:从通用基座模型 GLM-4,到推理能力大幅提升的 GLM-Z1-Air,再到强化学习训练出“沉思”能力的 GLM-Z1-Rumination,最终融合为 AutoGLM 的执行力。于是我开始横向对比它的“沉思能力”。
这几天我在研究 AI 在电子阅读器中的应用情况,于是随手用 AI 来做一份产品市场分析,用类似 AutoGLM 的“沉思”功能来测试它的思考整合能力到底如何。
在 Mac 客户端中输入 Prompt:“分析目前电子阅读器 AI 应用的情况,从产品功能、定价策略、用户评价、更新日志、社交媒体监听(受欢迎程度、用户反馈以及互动情况)、App Store / Google Play Store 数据分析(下载量、评分、评论内容、更新频率)等方面进行调查,必须依据最新的数据进行分析;另外分析未来 AI 在电子阅读器领域的应用趋势。”
尽可能让 Prompt 思考得更全面,并横向对比其他 AI 模型的推理能力。
输入 Prompt 后,客户端开始工作,首先进行免责申明,提示目前仍处于实验阶段。随后进行常规搜索,第一步完成推理后,生成搜索关键词。接着提示我确认品牌,我补充输入:“以亚马逊等主流品牌为基础研究,地区以欧美为主,中国为辅进行分析。”AutoGLM 再次搜索关键词,并在推理与搜索过程中自动启动了 Chrome,让用户实时看到其搜索流程。说实话,第一次看到它自动弹出网页并演示自动搜索过程还挺新鲜,但如果一直这样操作,就会影响用户体验。在用户进行多任务工作时,突然开启大量网页,不仅无实际帮助,反而还需要用户手动关闭,增加负担。
报告输出后,内容依然逃不过“大而全、泛泛而谈”的通病,对我需要的信息阐述不够细致,倒是展示了一堆额外信息。尤其是在数据范围方面并未详尽说明,比如价格和 Google Play Store 的数据分析基本缺失,提示无法获取相关数据。我理解这可能是因为智谱的网络环境限制了访问 Google 网页。
对比 ChatGPT-4o 的 Deep Research,它给的数据相对更“详尽”,对数据的解读也较为到位。用户评论总结有据可依,关键结论都附有网页链接,节省了二次搜索验证的精力。
而 Gemini 的 Deep Research 表现介于两者之间,虽然提供了数据描述,但没有像 ChatGPT 那样结构化地以表格形式清晰呈现。不过也提供了基本的数据与分析。从这个角度来看,ChatGPT 在这一项指标上胜出。
再来看 Manus 的表现,它同样提供了数据,并以结构化的方式进行了总结分析。对于常规研究,这些信息基本够用。目前给出的分析细节与数据可信度略低于 ChatGPT。
AI 对现有数据的整合能力很强,但对未来的预测仍然是基于现有数据的衍生与推演,我们也做了一些测试。
关于未来电子阅读器 AI 的应用分析,ChatGPT 给出了几个方向:
1.阅读器从“被动呈现”转向“主动交互”。AI 可以成为阅读伙伴,与读者共同探讨阅读内容。这是一个有趣的方向,但我个人认为阅读更偏向沉浸式体验,频繁交互可能反而影响体验。
2.AI 覆盖整个阅读流程,从“读前-读中-读后”全流程满足用户细分需求。这对于产品设计初期是很好的创意来源。
3.更自然的语音交互。这项发展已经非常接近现实,可能会对有声读物市场产生一定冲击。
4.推动端侧模型和云端模型的结合。类似手机产品,会有越来越多的 AI 功能通过端侧模型处理,进而推动硬件处理器发展。
此外,还有一些总结性的风险提示。
AutoGLM 的“沉思”功能提供的方向相对概括:
1.个性化体验
2.深度理解
3.多模态交互
4.跨设备同步
5.社交阅读
但整体分析偏简单,缺乏足够细节来“令人信服”。感觉像是“为了 AI 而 AI”。这些总结点目前主流阅读器已有实现,没有提出令人眼前一亮的新点子,显得平庸。对产品设计前期的头脑风暴也没能提供有力支持。
再来看 Gemini 提出的方向:
1.更智能的内容推荐
2.更自然的交互方式
3.增强的语言学习功能
4.AI 驱动的文本分析与理解
5.更强大的辅助功能
6.更互动的动态电子书
看完 Gemini 的分析,以及虽然没有展示但已测试的 Manus,可以看出各家对未来的预测已趋同,本质上并无太大差异。这说明,AI 能提供全面概括,但真正挖掘新的 AI 需求,仍需“以人为本”的体感洞察。
我们再来看下 Manus 的表现,它同样给出了数据,并且以结构化的进行了总结分析,对于常规性的研究,这些信息基本够用,目前给出的分析细节及数据可信度略低于 ChatGPT 。
综合来看,AutoGLM、ChatGPT、Manus、Gemini 对产品调研确实有积极作用。在传统桌面调研路径中,AI 节省了大量时间和精力,能够轻松获取基础产品信息。同时,AI 的智能性也可扮演产品助理角色,补充我们的思路。但在涉及定性层面研究时,仍需要“人肉”调研,真实使用产品、观察用户、聆听用户声音,才能深入挖掘产品需求。
我认为 AutoGLM 的优势,最终还是应聚焦在能够 执行用户操作 的任务上,比如电子购物、智能填表等。如果它能在执行力方面做出差异化,才能在众多思维链 AI 产品中脱颖而出。
来源:人人都是产品经理