腾讯研究院AI速递 20250407

360影视 日韩动漫 2025-04-07 00:01 4

摘要:Llama 4系列采用MoE架构发布三款模型:Scout(109B参数)、Maverick(402B参数)和Behemoth(2T参数),实现原生多模态支持;

生成式AI

一、Llama 4周末突袭,全网首测,多模态惊艳代码却翻车?

1. Llama 4系列采用MoE架构发布三款模型:Scout(109B参数)、Maverick(402B参数)和Behemoth(2T参数),实现原生多模态支持;

2. 苹果Mac设备成为部署稀疏MoE模型的"性价比之王",统一内存成本远低于GPU显存,单台M3 Ultra推理速度可达50 token/秒;

3. Llama 4在多模态识别方面表现出色,支持10M上下文窗口,但代码能力偏弱,不如DeepSeek-V3或GPT-4.5。

二、奥特曼官宣:o3和o4-mini抢先上线!GPT-5推迟推出

1. 奥特曼宣布GPT-5虽推迟但将免费开放,称"能把GPT-5做得比原先想象的更好",但整合过程比预期更难;

2. OpenAI的o3和o4-mini模型将在几周内上线,同时计划开源一个强大推理模型,网友猜测o1-mini可能性最大;

3. GPT-5将成为统一智能体验,不再区分o系和GPT系,将简化模型选择并判断何时需要深度思考。

三、Gemini更新API文档,投入「Agent协议」MCP的怀抱

1. 谷歌官方宣布Gemini API支持MCP协议,加入OpenAI和Anthropic等AI巨头阵营,仅用4天时间完成部署;

2. MCP作为连接AI应用与外部工具、数据源和系统的开放标准协议,被比作1993年的HTTP,有改变技术格局的潜力;

3. 谷歌支持MCP协议存在利弊:可轻松连接各种数据源和工具,但也面临依赖由竞争对手主导标准的风险。

四、Midjourney V7正式上线:杀手锏10倍速「草稿模式」?

1. Midjourney V7 Alpha 发布,提升了对文本和图像提示的理解能力,图像质量和细节表现显著提升;

2. 推出"草稿模式"作为杀手锏功能,成本减半但速度提升10倍,支持对话式交互和语音操作,适合快速创意迭代;

3. 新增"模型个性化"功能,需花约5分钟解锁,能更好理解用户需求和审美偏好,未来60天将每1-2周更新新功能。

五、周五,DeepSeek公布推理时Scaling新论文,R2要来了?

1. DeepSeek发布推理时Scaling新论文,提出自我原则批评调整(SPCT)方法,促进通用奖励模型(GRM)更有效的推理时间可扩展性;

2. 基于此技术开发了DeepSeek-GRM-27B模型,通过多次采样扩展计算,能生成多样化原则集并投票选出最终奖励,性能超越多个开源模型;

3. 研究表明SPCT在推理阶段的扩展性收益甚至超过了增加模型规模带来的训练效果提升,为LLM后训练和推理发展提供新方向。

六、DreamActor-M1替代动捕?基于DiT的人体动画生成框架

1. 字节跳动发布DreamActor-M1视频生成框架,只需一张参考图像就能模仿视频中人物行为,实现高质量人体动画,引发网络热议;

2. 该技术基于扩散式Transformer(DiT),采用混合引导机制融合面部特征、3D头部球体和身体骨架,能准确保留人物身份特征并保持时间连贯性;

3. 与现有技术相比,DreamActor-M1在肖像、半身和全身动画生成任务中表现优异,引发业内猜测这项技术可能将逐渐取代传统动作捕捉。

七、Arc浏览器团队新品Dia一手体验,最牛开发都在做AI浏览器?

1. The Browser Company发布新品AI浏览器Dia,与其原产品Arc区别明显,采用"极简AI入口"设计理念,深度整合GPT-4o和Gemini Flash 2.0;

2. Dia支持个性化设置,用户可自定义AI回答风格和学习方式,提供多达20档的风格强度调节,目标是让AI成为浏览器底层能力而非仅是功能;

3. AI浏览器成为Agent落地突破口,无论创业公司还是大厂都在这一领域发力,呈现三种技术路线:传统浏览器+AI、深度集成AI的浏览器、专为AI设计的浏览器。

八、美国生物数据库禁止中国用户使用,但中国或早有应对预案

1. 美国国家癌症研究所维护的SEER数据库等全球权威科研数据库禁止中国用户访问,涉及癌症流行病学等重要医学研究数据;

2. 中国科研人员对此早有心理准备,认为虽短期内对医学研究冲击较大,但中国已建立本土数据库应对,研究人员也可通过国际合作绕过限制;

3. 专家呼吁中国加快基础数据库建设以获取话语权,并认为此次限制可能促使中国科研界反思依赖性问题,加强美国以外的学术合作。

前沿科技

九、把宇树的网红机器狗「剥皮拆骨」,发现了它倒立行走的秘密

1. 知名维修网站iFixit邀请机器人专家对宇树科技的消费级四足机器狗Go2进行全面拆解,揭示了其内部结构设计及运作原理;

2. Go2内部结构包含32节18650电芯组成的电池组、Unitree 4D LiDAR-L1激光雷达和12个关节电机,关节采用互锁齿轮机制和金属表面确保强度;

3. 专家评价Go2集成化程度高、模块化设计优良,维修相对便捷,但激光雷达埋得过深且颈部结构单薄,续航和耐用性仍有提升空间。

报告观点

十、Cerebras CEO:3-5年后对Transformer、英伟达依赖将降低

1. Cerebras CEO Andrew Feldman预测3-5年后AI行业对Transformer架构的依赖将大幅降低,英伟达市场份额或从垄断地位降至50-60%;

2. Cerebras采用晶圆级集成技术,克服了传统芯片SRAM容量有限的问题,其推理芯片通过大容量高速SRAM解决了GPU依赖HBM存储器导致的内存带宽瓶颈;

3. AI市场将在未来5年增长超100倍,Feldman认为推理领域不存在CUDA锁定效应,并称现有算法效率极低,存在巨大优化空间,AI行业在算力、算法和数据三方面均有突破可能。

👇订阅下方合集,获取每日推送

来源:腾讯研究院

相关推荐