摘要:AMD 推出了基于全开源的 3B 参数语言模型 Instella;类 Manus 的开源项目百花齐放,包括 OpenManus、CAMEL-AI 的 owl 和 OpenHands 等新兴项目,主打模块化开发、实时交互、跨平台协作等功能,推动 AI 工具生态更
AMD 推出了基于全开源的 3B 参数语言模型 Instella;类 Manus 的开源项目百花齐放,包括 OpenManus、CAMEL-AI 的 owl 和 OpenHands 等新兴项目,主打模块化开发、实时交互、跨平台协作等功能,推动 AI 工具生态更加开放、易用和创新。
同时,Meta 与高校联合发布了专注于大模型智能体评估的 MLGym 框架;在工具领域,SolGraph 和 Mistral OCR 等新工具涌现,特别是在区块链和光学字符识别领域展现出独特优势。Gemini 引入了类似 ChatGPT 的代码沙箱执行功能,增强了交互体验;视频与交互领域,Tavus 推出了情感智能的视频交互模型 Phoenix-3、Raven-0 和 Sparrow-0,为视频沟通带来了更加逼真的体验。
Hugging Face 基金会的 Audio-Reasoner 在音频理解上取得突破;AMD 发布了完全开源的语言模型 Instella;DeepSeek 与字节跳动旗下大模型表现出色,逐渐在消费端占据重要地位;Karpathy 提出的 Vibe Coding 方式则预示未来 AI 与开发者深度协作的趋势,值得关注。
大模型
1. AMD 宣布推出全开源的 3B 参数语言模型「Instella」,该模型基于 128 张 AMD Instinct MI300X 显卡训练,性能与 Llama 3.2 3B、Gemma-2 2B 和 Qwen 2.5 3B 等同类模型相当。Instella 以此前的 1B 模型「AMD OLMo」为基础,展现了在 AMD 显卡上进行语言模型训练的可行性,相关工件已在 GitHub 上公布。
Instella
开源/类Manus项目
1. 开源Manus - OpenManus 项目在 GitHub 上开源,旨在解决 AI 工具生态中的封闭体系、高门槛接入和僵化工作流的问题。该项目由 MetaGPT 团队在 3 小时内完成开发,核心是模块化的 Agent 系统,允许开发者自由组合功能模块,支持多种顶级语言模型。OpenManus 具备实时反馈机制和强大的工具链,提供友好的开发者体验,代表了 AI 助手开发的新范式,促进开源社区的合作与创新。
OpenManus
2. 开源Manus - CAMEL-AI 推出了开源项目 OWL,成功复刻了通用智能体 Manus,并在 GAIA Benchmark 中达到了 57.7% 的最佳性能,超越了其他竞争者。OWL 不仅免费提供给开发者使用,还支持灵活的工具链和执行环境,避免了 Manus 高昂的内测费用。该项目还包括跨平台操作能力,旨在打造更强大的开源智能助手,鼓励开发者积极参与贡献和测试。
OWL
3. 开源Manus - OpenHands 旨在利用人工智能帮助开发者完成编码、命令执行和网络操作。作为首个在 SWE-bench 测试中得分超过 50% 的 AI 工具,OpenHands 具备强大的兼容性和多智能体协作能力,能减少开发者的工作量。其主要功能包括代码编写与修改、命令行操作、网页资源检索、API 调用集成及代码片段复制与应用,涵盖多个领域的基准测试,为学术和工业界提供支持。
OpenHands
4. 类Manus - Convergence Template Hub 是一个智能体商店,提供一系列具联网能力的任务专用智能体模板,执行过程可视化,用户可在右侧窗口查看智能体功能。尽管通用智能体目前能力有限且效率低下,但整合 MCP 的智能体或许是一个不错的方向。
Convergence Template Hub
基准
1. Meta 与多所大学联合推出了 MLGym,这是一个专门用于评估和开发大型语言模型(LLM)智能体的框架。MLGym 包含 MLGym-Bench 基准测试,涵盖 13 个来自不同领域的开放式 AI 研究任务,如计算机视觉、自然语言处理和强化学习。该框架允许研究人员利用强化学习算法集成和训练智能体,智能体能够自主选择行动并执行复杂任务。MLGym 还提供了一种简单的方式定义任务和数据集,确保评估的公正性和客观性,旨在全面提升 AI 研究的效率和效果。
MLGym
工具
1. SolGraph 是首个基于 Solana 区块链的 AI 工作流协议,旨在通过链上基础设施实现快速、透明且可验证的 AI 应用,结合了 LangGraph 的动态工作流和 Solana 的高性能,提供开放、模块化的执行层。
SolGraph
2. Mistral AI 推出了 Mistral OCR,这是一款先进的光学字符识别 API,具备卓越的文档理解能力,能够识别复杂文档元素如图像、表格和公式,支持多语言和多模态处理。其性能在多项基准测试中表现优异,处理速度也远超同类产品,每分钟可处理高达 2000 页文档。此外,Mistral OCR 引入了 “文档即提示” 的概念,允许用户提取特定信息并输出为结构化格式,满足数据隐私要求的用户还可选择自托管部署。
Mistral OCR
编码
1. Gemini 新增了代码执行功能,用户可以在 Python 沙箱中运行代码并支持图表输出,类似于之前的 ChatGPT 功能,仍然可以在 AI Studio 免费使用并支持 API 调用。
Gemini
数字人
1. Tavus 推出系列具有情感智能的对话视频接口(CVI)AI 模型,包括 Phoenix-3、Raven-0 和 Sparrow-0,这些使 AI 在视频交互中能够真实地感知、理解和交流。Phoenix-3 实现了全脸渲染,捕捉人类面部表情;Raven-0 具备持续视觉处理和情感理解能力;而 Sparrow-0 优化了对话的节奏和时机。通过这些技术,AI 可以与用户进行更自然、流畅的互动,展现出更高的情感适应性和理解力。开发者可以通过简单的 API 快速构建具有情感智能的 AI 助手,开启全新的人机互动时代。
Tavus
视频
1. 可灵推出的 AI Effects 功能可以生成指定效果的视频,类似于之前的 Pika,采用单独训练的 LoRA,具有成本低和传播效果好的优势。
可灵
音频
1. Audio-Reasoner 是一个先进的大型音频语言模型,通过链式思维 (CoT) 推理在音频任务中实现深层推断,基于 Qwen2-Audio-Instruct 构建,并在 MMAU-mini 和 AIR-Bench-Chat 等基准上表现优异。该模型利用 CoTA 数据集进行训练,支持多种音频类型的理解,取得了最佳的预训练结果。
Audio-Reasoner
评测
1. 3 月 6 日,HuggingFace 更新了大模型榜单,阿里通义千问 QwQ-32B 模型成功登顶,超越微软 Phi-4 和 DeepSeek-R1 等模型。该模型在数学、代码和通用能力上实现了质的飞跃,以更小的参数提升了整体性能,并可在消费级显卡上本地部署,降低应用成本。千问 QwQ-32B 在多个权威基准测试中表现出色,特别是在数学和代码能力评测中与 DeepSeek-R1 不相上下,远超 OpenAI-o1-mini。当前,该模型已在多个平台开源,用户可免费下载或通过阿里云调用模型 API 服务,还可在通义 App 中免费体验。
HuggingFace 大模型榜单
论文
1. Light-R1-32B 是一种专门针对数学问题的语言模型,经过特别训练,其训练成本仅约 1000 美元,表现超越了 R1-Distill,并在数学竞赛中取得优异成绩。该模型基于 Qwen2.5-32B-Instruct,采用课程学习的方式,通过监督微调和直接偏好优化提升性能,同时强化思维链,确保推理过程的有效性。此外,所有训练数据、代码和流程均公开,方便复现和研究。
Light-R1-32B
2. 一项新的研究提出了一种多模态 Few-shot 3D 分割方法,能够在极少标注样本的情况下,融合文本、2D 和 3D 信息,从而提升模型对新类别的学习与泛化能力。该方法由哥本哈根大学和苏黎世联邦理工学院的研究人员开发,解决了传统 3D 理解模型在识别新类别时需重新标注数据的挑战,展示了通过整合不同模态信息实现更有效的小样本学习的潜力。新模型 MultiModal Few-Shot SegNet (MM-FSS) 在多个实验中表现出最佳性能,表明多模态信息在 3D 场景理解中的重要性。
Few-shot 3D
3. 7B 的 DeepSeek 蒸馏 Qwen 模型通过新方法 LADDER 在 MIT 积分大赛中取得了 93 分,超越了以往的 o1 表现。LADDER 利用自我生成和求解简化问题的变体,进行自我改进,避免了依赖人工标注数据,显著提升了模型的学习效率和准确性。此外,创新的测试时强化学习方法 TTRL 也帮助模型在推理阶段动态生成更简单的积分问题,从而积累经验,提高了整体解题能力。
LADDER
其他
1. a16z 发布了 2025 年全球生成式 AI 应用前 100 排行榜,其中 DeepSeek 在网页端排名第二,用户在 20 天内突破一千万,速度快于 ChatGPT。ChatGPT 在网页端和移动端双双排名第一,周活跃用户达 4 亿。中国多个大模型如字节跳动的豆包和月之暗面等也进入榜单,表现突出。移动端中,百度 AI 搜索和夸克 AI 分别排名第 4 和第 6。
2. ChatGPT 在 2024 年下半年恢复了显著增长,周活跃用户数在不到六个月内翻了一番,从 2023 年 11 月的 1 亿增长至 2024 年 2 月的 4 亿。用户最初对该应用的需求源于新奇感,但随着新模型和功能的发布,使用量显著增加。移动端用户增长稳定,月增幅在 5% 至 15% 之间,目前有 1.75 亿用户通过移动设备访问。尽管面临竞争对手 DeepSeek 的挑战,ChatGPT 仍在月独立访问量和移动活跃用户数上保持领先。
观点
1. Anthropic 的 CPO Mike Krieger 在 20VC 播客中探讨了 AI 未来的发展方向,认为 AI 将超越传统工具和助手的角色,演变为智能引导者,能够主动洞察用户需求并辅助决策。他指出未来的软件开发人员需具备跨学科的多面手能力,并设想了未来三年的软件开发工作模式。同时,他提到 DeepSeek 的成功使他反思其发展过程中的失误,并认为 Claude 也应更早意识到这一 AI 体验的重要性。
2. Anthropic 预测到 2026-2027 年,AI 的智力水平将达到诺贝尔奖得主的标准,并提出六项建议以促使美国加速 AI 创新和风险管理,包括国家安全测试、强化出口管控、提升实验室安全等。同时,五角大楼计划将 AI 智能体应用于军事规划,以提升决策速度和精准度,推动国防现代化。
Anthropic
3. Manus 在产品交互上实现了显著的创新,用户体验非常直观且易于上手,但其技术实现依赖于模型能力和数据质量,尚未形成稳固的护城河。尽管它在任务规划和执行方面表现出色,但由于模型和上下文的限制,最终生成的结果往往平庸。要形成护城河,Manus 需要在用户数据的沉淀和个性化优化方面取得进展,以吸引和留住用户,提升产品体验并不断迭代。
Manus 的护城河在哪里?
4. 自动化系统在提高效率的同时,也带来了诸多讽刺性问题,包括人类技能退化、警觉性下降以及人类监督的困难。尽管自动化使工作变得更简单,但当系统出错时,操作员往往因为缺乏实践而难以有效介入。此外,复杂的系统需要更多的警报,反而可能导致混乱,而高水平的自动化依赖于人类在关键时刻的判断和干预,这使得人类的责任和技能保持显得尤为重要。因此,为了有效应对自动化带来的挑战,必须在技术与人类能力之间找到合适的平衡。
论文:《自动化的反讽》(Ironies of Automation)[译]
5. Vibe Coding(氛围编码) 是前 OpenAI 研究员 Karpathy 提出的一种新编码方式,强调通过与 AI 的互动而非传统编程技巧来生成代码。硅谷的初创公司越来越多地将代码生成交给 AI,尤其是在初期用户量较少时表现出高效性。然而,随着项目复杂度增加,调试和维护的难度也随之上升。虽然 AI 编程工具可能会改变开发者的工作方式,降低对传统编程技能的依赖,但仍需理解生成代码的基本原理,以确保其可维护性和可靠性。未来的编程工作将面临 AI 与人类开发者之间的协作与实验,同时也在不断模糊 “谁是真正程序员” 的界限。
来源:HuggingFace