腾讯研究院AI速递 20250311

360影视 日韩动漫 2025-03-11 08:02 2

摘要:Manus采用多agent协作架构,使用Claude和Qwen的微调模型,用户仅与执行agent通信,正在内部测试Claude 3.7;

生成式AI

一、 Manus AI 被「越狱」了?创始人紧急回应并官宣开源计划

1. Manus的"越狱"事件实为设计的一部分,每个用户都可直接访问沙盒,不存在安全漏洞;

2. Manus采用多agent协作架构,使用Claude和Qwen的微调模型,用户仅与执行agent通信,正在内部测试Claude 3.7;

3. Manus并未使用MCP协议,而是受《Executable Code Actions Elicit Better LLM Agents》研究启发,使agent能执行代码行为解决问题。

二、 MCP硅谷疯传!Anthropic协议解锁AI智能体「万能手」

1. MCP是一种标准化协议,使AI智能体能与外部工具和数据源无缝连接,一次搭建可替代传统方式下的上亿次配置;

2. MCP提供单一协议、动态发现和双向通信三大优势,使智能体能实时获取信息并触发操作,赋予"万能手"能力;

3. 已有多个MCP应用案例爆发,包括行程规划、智能代码编辑器和数据分析等场景,引发开发者快速构建商业化MCP服务器热潮。

三、 微软官宣开源Magma多模态AI ,轻松拿捏网页、机器人

1. 微软开源多模态AI基础模型Magma,能在环境中理解多模态输入并与实际情况联系,已被CVPR接收,支持网页导航和机器人操作;

2. Magma创新性提出Set-of-Mark和Trace-of-Mark两大标注方法,前者为关键对象提供高层次"关注标记",后者捕捉动作时序变化;

3. 模型由3900多万条样本预训练,采用ConvNeXt-XXL视觉网络和Llama-3-8B语言模型,团队大部分为华人,一作杨健伟为微软资深研究员。

四、 稚晖君预告揭晓!智元发布首个通用具身基座模型GO-1

1. 智元机器人发布全新ViLLA架构和GO-1通用具身基座模型,解决机器人"看得懂做不来"的难题,可直接利用人类操作视频转化为可执行动作;

2. ViLLA架构通过Latent Action Tokens预测隐式动作,结合VLM和MoE专家模型,打通认知与动作两个维度,实现四级训练数据的综合利用;

3. GO-1基座模型在五种复杂度任务测试中成功率达78%,比现有最优模型提高32%,具备人类视频学习、小样本泛化、一脑多形和持续进化四大突破能力。

五、 「古董」GPU也能跑DeepSeek同款GRPO!显存只需1/10

1. Unsloth优化DeepSeek同款GRPO训练算法:上下文长度增10倍,显存需求降90%,仅需5GB即可训练Qwen2.5;

2. 通过高效线性算法、智能梯度checkpoint和共享GPU内存三大创新,将20K上下文下Llama 3.1显存从510GB降至54GB;

3. 新版支持完整日志记录、自动补丁处理和FP8缓存,让16年发售的"古董级"GTX 1060也能训练推理模型。

六、 字节开源MoE加速库COMET,细粒度计算-通信重叠

1. 字节开源MoE加速库COMET:细粒度计算-通信重叠技术使单层MoE提速1.96x,端到端模型加速1.71x,万GPU集群验证省下数百万GPU小时;

2. COMET即插即用、支持所有MoE并行策略,针对MoE通信瓶颈(占运行时间47%)提供根本解决方案;

3. 通过共享张量依赖解析和自适应工作负载分配,相比DeepSeek方案,COMET直接接入现有框架,获MLSys'25顶级评分。

七、 草稿链代替思维链,推理token砍掉80%,显著提效?

1. Zoom团队提出"草稿链"代替思维链:通过生成简洁、信息密集的中间结果,推理token减少80%-90%,显著降低延迟和算力成本;

2. 方法简单易实现,无需修改模型或微调,只需更新提示词示例,保留可解释性且适用于闭源模型,能将月处理百万请求的成本从3800美元降至760美元;

3. 在算术、常识和符号推理任务上,草稿链准确率与思维链相当,甚至部分任务略有提升,但零样本设置下效果会显著下降,小模型上性能差距更大。

前沿科技

八、 深圳机器人跑步惊呆歪果仁,与人类无异,网友:北马见

1. 深圳众擎机器人PM01展示超拟人跑步姿态,身高1.38米、重40公斤、全身24个自由度,起跑、跑步和停跑过程的关节协调几乎无"机器人味",引发国外网友热议;

2. PM01此前已凭借全球首例前空翻技巧火出圈,其"兄长"SE01(170cm、55kg、32自由度)则以超拟人步态获得关注,PM01目前售价8.8万元;

3. 下月(4月13日)北京将举办首例"人机共跑"半程马拉松,人类与人形机器人将同时起跑、同跑一条路线,开创全球先例。

报告观点

九、 红杉对话OpenAI团队:期待Agent,强化学习将重回主流

1. OpenAI Deep Research团队认为AI Agent将成为2025年最具突破性技术,通过端到端强化学习让智能体更高效处理复杂搜索和推理任务,把数小时工作压缩至数分钟;

2. Deep Research不依赖预设流程图而采用端到端训练,灵活应对不可预测情况,广泛应用于市场分析、医疗研究和代码开发,将拓展至私人数据搜索;

3. 强化学习重回主流,因大型语言模型已成熟,现可针对明确奖励函数优化,让复杂决策系统更高效,这是构建强大AI Agent的关键方法。

十、 Github超2万星,OpenManus核心作者聊Agent发展趋势

1. OpenManus团队基于MetaGPT技术积累,仅用3小时复刻Manus,采用端到端规划和多智能体协作框架;

2. Agent规划能力既依赖模型本身提升,也需要外部结构辅助,如工具选择和memory管理是主要技术挑战;

3. Agent商业化未来将通过代码生成领域率先落地,同时使用小模型组合和优化token消耗以降低成本。

来源:腾讯研究院

相关推荐