Manus完成任务测试：潜力媲美实习生，但也存在‘偷懒’现象

摘要：自上周初创公司Monica发布通用AI Agent——Manus以来，它迅速在网络上走红，不仅在中国，全球范围内也引发了广泛关注。Twitter联合创始人Jack Dorsey、Hugging Face产品负责人Victor Mustar等科技界知名人士纷纷对

自上周初创公司Monica发布通用AI Agent——Manus以来，它迅速在网络上走红，不仅在中国，全球范围内也引发了广泛关注。Twitter联合创始人Jack Dorsey、Hugging Face产品负责人Victor Mustar等科技界知名人士纷纷对其表示赞赏，有人甚至将其视为“第二个DeepSeek”。

Manus自称是全球首款真正意义上的通用AI Agent，整合了多个AI模型（如Anthropic的Claude 3.5 Sonnet及阿里巴巴开源的Qwen的微调版本）以及多种独立运行的智能体。它不仅能生成和提供想法，更能独立思考并采取行动，将想法付诸实践来真正解决问题，具备从规划到执行全流程自主完成任务的能力，如撰写报告、制作表格等。这使它区别于那些基于单一大型语言模型家族设计、主要用于对话交互的AI聊天机器人。

尽管备受瞩目，但真正使用过Manus的人却寥寥无几。截至目前，在“等待名单”上只有不到1%的用户收到了邀请码（具体等待人数尚不清楚，但仅从兴趣度来看，Manus的Discord频道就拥有超过18.6万名粉丝）。《麻省理工科技评论》有幸获得了访问Manus的机会，对其进行了深度体验。

在与Manus合作的过程中，我感受到了与一位高度智能且高效的人类实习生相似的体验。尽管它偶尔会误解任务要求、做出错误假设，或是为了加快进度而“偷工减料”，但它能够清晰地解释自己的思考过程，具有很强的适应性，并在接受详细指导或反馈后显著提高性能。

与Monica类似，Manus的默认设置也是英文界面，设计简洁明了。初次使用，用户需要输入有效的邀请码，然后系统会引导用户进入一个与ChatGPT或DeepSeek相似的登录页面。左侧显示之前的会话记录，中间是聊天输入框。页面还展示了公司精选的一些示例任务，从商业策略开发到互动学习，再到定制音频冥想课程等。

与其他基于推理的AI工具（如ChatGPT DeepResearch）一样，Manus能够将任务分解为多个步骤，并自主浏览网络以获取完成任务所需的信息。与众不同的是“Manus's Computer”窗口，它不仅可以让用户观察智能体正在做什么，还可以在任何时候进行干预。

为了测试其功能，我给Manus布置了三项任务：整理一份报道中国科技领域的知名记者名单、搜索纽约市的两居室房源、提名《麻省理工科技评论》每年评选的“35岁以下科技创新35人”候选人。以下是Manus的完成情况：

在任务1中，Manus最初给出的记者名单只有五个名字，并附带了五个“荣誉提名”。它对某些记者的代表作进行了标注，但对其他人却没有。当我询问原因时，Manus坦诚地表示：“由于试图加快整理过程，时间限制导致部分工作做得不够细致。”在我坚持要求一致性和完整性后，它提供了一份包含30名记者的详尽名单，并注明了他们目前的工作单位和代表作。我可以像指导人类实习生一样提出修改建议，而Manus也能够恰当地回应。虽然它最初忽略了某些记者雇主变更的信息，但在我的要求下重新检查后，很快就进行了修正。另外，输出结果可以下载为Word或Excel文件，便于编辑或分享。然而，在尝试访问付费新闻文章时，Manus遇到了验证码障碍。由于我能够一步步跟进，所以可以轻松接手并帮助完成这些任务。我认为这方面有很大的改进空间，如果未来的Manus版本能在遇到这类限制时主动寻求帮助，将会进一步提高效率。

在任务2中，我给出了一系列限制条件，包括预算、宽敞的厨房、户外空间、曼哈顿市中心的可达性，以及距离主要火车站步行七分钟范围内等。Manus最初对模糊的要求理解过于字面化，完全排除了没有私人露台或阳台的房源。不过，在我进一步指导和澄清后，它生成了一个更广泛且有用的清单，分层次提出建议，并提供了简洁的要点概括。最终生成的结果看起来就像出自知名产品评测网站Wirecutter，包含诸如“最佳综合选择”、“最佳性价比”和“豪华选项”等副标题。这个任务（包括来回沟通）花费不到半小时，少于整理记者名单所需的一个多小时，这或许是由于房源信息在网上更加公开和结构化。

任务3最具挑战性。我让Manus为今年的“35岁以下科技创新35人”评选提名50人。这项任务量巨大，我们通常每年会收到数百份报名申请。Manus首先将任务分解成了几个步骤，包括回顾以往的名单以了解选拔标准、制定搜索策略以识别候选人、收集姓名并确保候选人的多样性等。制定搜索策略是整个过程最耗时的部分。虽然Manus没有明确说明其方法，但从“Manus's Computer”窗口可以看到它迅速浏览了大量著名研究型大学网站、科技奖项公告以及新闻。然而，当Manus尝试访问学术论文和付费内容时再次遇到了障碍。网络搜索长达三个多小时，在此期间它多次询问我是否可以缩小搜索范围，但只提供了三名具有完整背景资料的候选人。在我要求提供完整的50人名单时，它最终生成了一份名单，但某些学术机构和领域的代表性非常高，似乎反映出它的研究过程并不全面。在我指出这个问题并要求它从中国寻找五位候选人后，它编制了一份可靠的五位候选人名单，但这些候选人似乎都偏向于在中国媒体上备受关注的人物。最终，由于系统警告继续输入过多文本可能会降低Manus的性能，我不得不选择放弃。

总体而言，我发现Manus是一款非常直观的工具，即便是没有编程背景的用户也能轻松上手使用。在三项任务中，它有两项任务提供的结果优于ChatGPT DeepResearch，尽管完成这些任务所需的时间更长。Manus似乎比较适合那些需要广泛使用开放互联网进行研究但范围相对有限的分析任务，即处理类似于熟练人类实习生在一天工作时间内能够完成的工作。

然而，并非一切都非常顺利。Manus还经常遭遇崩溃和系统不稳定的问题，在处理大量文本时可能会遇到卡顿。比如，当我尝试启动新请求时，“由于当前服务负载较高，无法创建任务，请几分钟后重试”的消息多次出现在我的屏幕上；偶尔“Manus's Computer”也会在一个页面上长时间冻结。据Manus首席科学家季逸超（Peak Ji）所说，其故障率高于ChatGPT DeepResearch，团队目前正在着手解决这个问题。

值得注意的是，有媒体报道称Manus每项任务的成本约为2美元，仅为DeepResearch成本的十分之一。如果Manus团队加强其服务器基础设施，我认为该工具或将成为个人用户的首选，尤其是白领专业人士、独立开发者和小型团队。

最后，我认为Manus的工作过程相对透明且具有协作性，这一点非常有价值。它在执行过程中会主动提问，并将关键指令作为“知识”存储在其记忆中以备将来使用，从而提供了一个“易于定制的智能体”体验。此外，每次会话都可以回放和分享，这也很方便。我预计我会在日常生活以及工作中继续使用Manus来完成各种任务。

虽然将Manus与DeepSeek进行比较可能并不完全恰当，但这进一步证明了中国的AI公司不仅在基础模型上进行创新，还在以自己的方式积极推动自主AI智能体的应用和发展。

|人工智能|视觉算法|大数据|充电桩|储能系统集成|智慧充电运营平台| |新能源电动汽车||新能源||智慧信息化系统|解决方案|运营平台建设|

华远系统是致力于人工智能（AI算法以及流媒体技术），信息软件技术，新能源、物联网等领域的集成商，在智慧社区，智慧园区，智慧停车，充电桩（储能充电站/光储充）及充电桩软件管理平台，储能系统集成，车联网有整套解决方案以及成功的项目案例。

说明：本文章所引用的资料均通过互联网等公开渠道合法获取，仅作为行业交流和学习使用，并无任何商业目的。其版权归原资料作者或出版社所有，小编不对所涉及的版权问题承担任何法律责任。若版权方、出版社认为本文章侵权，请立即联系小编删除。

来源：华远系统

标签：智能体 manus 季逸超 chatgptdeepresea

本文地址：https://news.43u.com.cn/a/718964.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐