DeepSeek 发布 Prover-V2 模型;小米首个推理大模型开源;饿了么宣布超百亿补贴加入外卖战局 | 极客早知道

360影视 动漫周边 2025-05-01 09:09 2

摘要:据悉,DeepSeek-Prover-V2-671B 使用了更高效的 safetensors 文件格式,并支持多种计算精度,方便模型更快、更省资源地训练和部署,参数达 6710 亿,或为去年发布的 Prover-V1.5 数学模型升级版本。在模型架构上,该模型

DeepSeek 发布 Prover-V2 模型,参数量达 6710 亿4 月 30 日消息,DeepSeek 于 AI 开源社区 Hugging Face 上发布了一个名为 DeepSeek-Prover-V2-671B 的新模型。据悉,DeepSeek-Prover-V2-671B 使用了更高效的 safetensors 文件格式,并支持多种计算精度,方便模型更快、更省资源地训练和部署,参数达 6710 亿,或为去年发布的 Prover-V1.5 数学模型升级版本。在模型架构上,该模型使用了 DeepSeek-V3 架构,采用 MoE(混合专家)模式,具有 61 层 Transformer 层,7168 维隐藏层。同时支持超长上下文,最大位置嵌入达 16.38 万,使其能处理复杂的数学证明,并且采用了 FP8 量化,可通过量化技术减小模型大小,提高推理效率。(来源:新浪科技)小米开源「Xiaomi MiMo」大模型:为推理而生,以 7B 参数超越 OpenAI o1-mini4 月 30 日消息,小米大模型团队通过「Xiaomi MiMo」公众号宣布,小米开源首个「为推理而生」的大模型 Xiaomi MiMo,联动预训练到后训练,全面提升推理能力。据介绍,MiMo 是来自全新成立不久的「小米大模型 Core 团队」的初步尝试。在数学推理(AIME 24-25)和代码竞赛(LiveCodeBench v5)公开测评集上,MiMo 仅用 7B 的参数规模,超越了 OpenAI 的闭源推理模型 o1-mini 和阿里 Qwen 更大规模的开源推理模型 QwQ-32B-Preview。官方表示,MiMo 推理能力的提升,由预训练和后训练阶段中数据和算法等多层面的创新联合驱动,包括:

预训练:核心是让模型见过更多推理模式

数据:着重挖掘富推理语料,并合成约 200B tokens 推理数据。

训练:进行了三阶段训练,逐步提升训练难度,总训练 25T tokens。

后训练:核心是高效稳定的强化学习算法和框架

算法:提出 Test Difficulty Driven Reward 来缓解困难算法问题中的奖励稀疏问题,并引入 Easy Data Re-Sampling 策略,以稳定 RL 训练。

框架:设计了 Seamless Rollout 系统,使得 RL 训练加速 2.29 倍,验证加速 1.96 倍。(来源:IT 之家)

可生成 AI 播客:谷歌 NotebookLM 音频概览功能新增 76 种语言支持,包含中文4 月 30 日消息,谷歌宣布其基于人工智能的笔记和研究助手工具 NotebookLM 的「音频概览(Audio Overviews)」功能新增 76 种语言支持。该功能于去年推出,旨在通过人工智能虚拟主持人根据用户上传到 NotebookLM 的文档(如课程阅读材料或法律摘要)生成播客,帮助用户以另一种方式理解和消化文档中的信息。谷歌表示,此前「音频概览」功能仅支持用户账户所设置的首选语言。如今,公司新增了「输出语言」选项,用户可以自由选择生成「音频概览」的语言。谷歌强调,用户可以随时更改语言设置,这样就能根据需要轻松创建多语言内容或学习材料。谷歌在一篇博客文章中举例说明了这一功能的实用性:「例如,一位准备关于亚马逊雨林课程的教师可以与学生共享多种语言的资源,比如葡萄牙语纪录片、西班牙语研究报告和英语学习报告。学生们可以将这些资料上传到 NotebookLM,并在他们偏好的语言中生成关键要点的音频概览。」(来源:IT 之家)Meta 公布 2025 财年第 1 财季财报:营收 423.14 美元,同比增长 16%5 月 1 日消息,Meta 公司4 月 30 日发布博文,公布了 2025 财年第 1 财季(截至 3 月 31 日)的财报业绩,营收达到 423.14 亿美元,同比增长 16%;净利润 166.44 亿美元,同比增长 35%。Meta 在 2025 财年第 1 财季交出了一份亮眼的成绩单。总营收达到 423.14 亿美元(IT 之家注:现汇率约合 3078.03 亿元人民币),较去年同期的 364.55 亿美元增长 16%,若按固定汇率计算,增长率更是高达 19%。净利润从去年的 123.69 亿美元跃升至 166.44 亿美元(现汇率约合 1210.73 亿元人民币),增幅达 35%;每股摊薄收益(EPS)从 4.71 美元提升至 6.43 美元,增长 37%;运营利润为 175.55 亿美元,同比增长 27%,运营利润率从 38% 提升至 41%。Meta 旗下应用家族(Family of Apps)的日活跃用户(DAP)平均达 34.3 亿,同比增长 6%;广告曝光量(Ad Impressions)同比增长 5%,每条广告平均价格上涨 10%,推动广告收入达到 413.92 亿美元,占总营收的绝大部分。Meta AI 的月活跃用户接近 10 亿,显示其在人工智能领域的快速布局。此外,公司现金流表现强劲,经营活动现金流为 240.26 亿美元,自由现金流为 103.34 亿美元,现金及有价证券总额达 702.3 亿美元。(来源:IT 之家)微软第三季度营收 700.7 亿美元,高于市场预期微软第三季度营收 700.7 亿美元,预估 684.8 亿美元;第三季度每股收益 3.46 美元;第三季度智能云业务营收 268 亿美元,预估 259.9 亿美元;第三财季云营收 424 亿美元,分析师预期 422.2 亿美元;第三财季 Azure 增长对人工智能(AI)业务贡献 16 个百分点,分析师预期公司 15.6 个百分点。美股盘后涨超 6%。(来源:新浪科技)苹果加速印度布局,塔塔 / 富士康新工厂被曝组装生产 iPhone 16e 等机型4 月 30 日消息,路透社 4 月 29 日发布博文,报道称苹果公司在印度南部的两家新工厂已启动生产。其中一家由塔塔电子(Tata Electronics)运营的工厂已开始生产老款 iPhone,而另一家由富士康(Foxconn)建设的工厂将在 5 月启动发货。IT 之家援引博文介绍,位于印度南部泰米尔纳德邦霍苏尔(Hosur)的塔塔电子新工厂已于近日投产,首批生产线专注于生产老款 iPhone 型号。而富士康在卡纳塔克邦班加罗尔投资 26 亿美元建设的新工厂,也将在数日内启动首条生产线。据悉,该工厂每小时可生产 300 至 500 台 iPhone,首批产品包括 iPhone 16 和 16e 型号。消息人士透露,该富士康工厂预计在 2027 年 12 月全面建成,届时将创造约 5 万个就业机会。(来源:IT 之家)消息称宁德时代拟下月在港上市,或成四年来最大规模新股发行4 月 30 日消息,据路透社援引两位知情人士消息称,电池制造巨头宁德时代计划于下月启动在香港的上市程序,预计将成为该市四年来规模最大的股票发行。消息人士称,此次交易的建簿过程——即邀请投资者对股权发行进行投标的过程,预计将于 5 月 12 日起始的一周开始。此前另有知情人士透露,此次发行可能筹集至少 50 亿美元(IT 之家注:现汇率约合 363.71 亿元人民币)。宁德时代未立即回应置评请求。其中一位消息人士补充说,宁德时代建簿的规模和时间可能会发生变化。报道称,宁德时代此次登陆港股将成为近 4 年香港规模最大的一次上市。2021 年,快手通过首次公开募股筹集了 62 亿美元(现汇率约合 451 亿元人民币)。宁德时代此前在一份监管文件中表示,筹集的部分资金将用于在匈牙利建设一座价值 73 亿欧元(现汇率约合 604.72 亿元人民币)的电池工厂。(来源:IT 之家)饿了么宣布超百亿补贴加入外卖战局外卖战场的热度再度加码。4 月 30 日,饿了么宣布进一步加大平台补贴力度,即日起开启平台「饿补超百亿」大促。针对补贴,饿了么表示不打竞争口水仗,「只发真福利」。目前,饿了么 App 已上线「超百亿」口令词入口。(来源:富途牛牛)英伟达新工具开放使用,可根据 3D 场景创建 AI 图像,配置要求 RTX 40804 月 30 日消息,英伟达推出了一款新工具,允许开发者首先在 3D 中创建图像,然后生成 AI 图像。这个工具名为 Nvidia AI Blueprint for 3D-guided generative AI,4 月 30 日起即可下载,适用于配备 RTX 4080 GPU 或更高型号的计算机,它通过将 Blender 的 3D 建模软件与 Black Forest Lab 的 FLUX.1 图像生成器连接起来工作。用户可以使用 Blender 中的 3D 对象(如建筑物、植物、动物和车辆)绘制场景,然后将其用作创建 2D 图像的参考。用户可以手动调整观看位置或某些对象应放置的位置,与仅使用文本描述相比,这种方法在生成 2D 图像时可以提供更多细节控制。例如,如果你脑海中有一个非常具体的城市图像——建筑物的形状和高度,显示的树木或汽车数量,甚至你观看的角度,此时就可以使用该工具在 Blender 中手动创建一个大概的样子。(来源:IT 之家)消息称 Meta 第三代雷朋联名智能眼镜将于 10 月发售,配单色显示屏及手环控制器据彭博社报道,Meta 旗下第三代 Ray-Ban 雷朋联名智能眼镜将于今年 10 月发售,目前 Meta 已安排部分员工在周末加班,加班加点研发这款设备。该眼镜相比前两代最大的特色就是配备了一块单色(预计为绿色)显示面板,同时带有可以佩戴在手腕上的「手环」风格控制器,定价在 1000 至 1400 美元(IT 之家注:现汇率约合 7274 至 10184 元人民币)之间。据悉,第三代雷朋联名智能眼镜将内置相机、照片、地图等应用,同时还支持快速查看来自手机应用的通知。该眼镜内置安卓系统,但无法安装第三方 App,同时眼镜的各项功能将「严重依赖手机」。Meta「内部人士」透露,第三代雷朋联名智能眼镜拍照质量将「媲美 iPhone 13」。(来源:IT 之家)荣耀手表全新系列官宣,两款新品将至在4 月 30 日下午的荣耀 MagicBook Pro 16 2025 新品发布会上,荣耀预告了荣耀手表全新系列。从预告海报可以看到,荣耀手表全新系列将包含两款产品,一款是硬朗风格,另一款是圆润风格。外观方面,新品提供棕色和黑色两款配色,手表屏幕覆盖蓝宝石玻璃,表壳则采用钛合金材质,这款新品的续航时间据称可以达到 15 天。功能上,新品支持自由潜水等 100 多种运动模式,支持快速健康扫描、健康早晨报告以及全天健康追踪等。(来源:IT 之家)纽约地铁探索引入 AI 技术:提前预警异常行为,预防犯罪发生美国纽约大都会运输署(MTA)表示,其正在探索使用人工智能系统对该市地铁站台上的犯罪和危险行为进行「预测性预防」。MTA 首席安全官迈克尔・肯珀(Michael Kemper)表示,该机构正在「研究并试点使用人工智能等技术,以感知地铁站台上可能出现的麻烦或不当行为」。他在周一的 MTA 安全委员会会议上解释说:「如果有人行为异常、失去理智,这可能会触发警报,从而促使安保人员或警方采取行动。」他强调,警方可能会「在事情发生前」就做出反应。肯珀补充道:「人工智能是未来。」他提到,MTA 目前正在与科技公司合作,研究「什么样的技术可以在地铁系统中发挥作用」。不过,他并未透露 MTA 正在与哪些公司合作,人工智能将如何实施,以及人工智能摄像头将被期望检测到的具体行为类型。(来源:IT 之家)*图片来源:Hugging Face

来源:极客公园

相关推荐