刚刚,DeepSeek首曝V3降成本秘诀!软硬协同突破Scaling天花板
DeepSeek最新论文深入剖析了V3/R1的开发历程,揭示了硬件与大语言模型架构协同设计的核心奥秘。论文展示了如何突破内存、计算和通信瓶颈,实现低成本、高效率的大规模AI训练与推理。不仅总结了实践经验,还为未来AI硬件与模型协同设计提出了建议。
deepseek scaling 软硬 scaling天花板 2025-05-16 09:19 3
DeepSeek最新论文深入剖析了V3/R1的开发历程,揭示了硬件与大语言模型架构协同设计的核心奥秘。论文展示了如何突破内存、计算和通信瓶颈,实现低成本、高效率的大规模AI训练与推理。不仅总结了实践经验,还为未来AI硬件与模型协同设计提出了建议。
deepseek scaling 软硬 scaling天花板 2025-05-16 09:19 3
本文由来自香港城市大学、麦吉尔大学(McGill)、蒙特利尔人工智能实验室(MILA)、人大高瓴人工智能学院、Salesforce AI Research、斯坦福大学、UCSB、香港中文大学等机构的多位研究者共同完成。第一作者为来自香港城市大学的博士生张启源和
该综述来自阿联酋人工智能大学、中佛罗里达大学、谷歌 DeepMind 和牛津大学等多所机构,涵盖通过强化学习增强 LLM 的技术、监督式微调、测试时扩展以及 LLM 后训练基准评估等内容。
训练 llm scaling scalinglaw cot 2025-05-01 16:08 5
“对于机器人来说,现在的规模仍处于 Scaling Law 里非常早期的状态。”解浚源解释道,“尽管赛道火热,但相较于大模型公司来说,大家的规模和估值都还较低,现在制约具身智能领域的不是算力和资本的投入,而是硬件迭代的客观周期,即做量产可靠的机器人、管理大规模
智能 scaling scalinglaw 千寻 浚源 2025-04-29 16:26 7
2024年底理想汽车发表论文《Preliminary Investigation into Data Scaling Laws for Imitation Learning-Based End-to-End Autonomous Driving》,作者多达17
英伟达 scaling scalinglaw 端到端 2025-04-21 14:55 5
为了进一步推动技术交流与产业融合,4 月 18 日,由 CSDN 联合高端 IT 咨询与教育平台 Boolan 主办的 2025 全球机器学习技术大会(ML-Summit 2025)在上海虹桥西郊庄园丽笙大酒店盛大开幕。作为年度最具影响力的 AI 技术盛会之一
盛大 机器学习 scaling scalinglaw 李建忠 2025-04-19 18:52 5
GPT-4.5项目启动于约两年前,目标是实现比GPT-4聪明10倍的模型,最终从有效算力投入上看是达到了。整个GPT-4.5项目在某种意义上是验证Scaling Law有效性的大型实验。结果证明Scaling Law持续有效,并可能在未来很长时间内依然有效。
altman scaling scalinglaw sam 2025-04-11 19:44 5
刚刚,一位AI公司CEO细细扒皮了关于Llama 4的五大疑点。甚至有圈内人表示,Llama 4证明Scaling已经结束了,LLM并不能可靠推理。但更可怕的事,就是全球的AI进步恐将彻底停滞。
随着大模型训练成本急剧攀升、优质数据逐渐枯竭,推理阶段扩展(Test-Time Scaling, TTS) 迅速成为后预训练时代的关键突破口。与传统的“堆数据、堆参数”不同,TTS 通过在推理阶段动态分配算力,使同一模型变得更高效、更智能——这一技术路径在 O
北京时间 3 月 31 日,近期几度融资的智谱在中关村论坛上正式发布「AutoGLM 沉思」—— 一个能探究开放式问题,并根据结果执行操作的自主智能体(AI Agent)。它能够模拟人类的思维过程,完成从数据检索、分析到生成报告。
agent scaling scalinglaw c glm 2025-03-31 18:44 10
视频作为包含大量时空信息和语义的媒介,对于 AI 理解、模拟现实世界至关重要。视频生成作为生成式 AI 的一个重要方向,其性能目前主要通过增大基础模型的参数量和预训练数据实现提升,更大的模型是更好表现的基础,但同时也意味着更苛刻的计算资源需求。
自然界中,为何萤火虫会同步闪烁?为何不同材料的表面生长遵循相似规律?2025年玻尔兹曼奖授予Mehran Kardar和Yoshiki Kuramoto,表彰他们分别通过KPZ方程和Kuramoto模型解答了这些难题。这两个看似简单的模型揭示了非平衡系统从无序
玻尔兹曼 scaling scalinglaw 自然界 ku 2025-03-19 03:14 9
自然界中,为何萤火虫会同步闪烁?为何不同材料的表面生长遵循相似规律?2025年玻尔兹曼奖授予Mehran Kardar和Yoshiki Kuramoto,表彰他们分别通过KPZ方程和Kuramoto模型解答了这些难题。这两个看似简单的模型揭示了非平衡系统从无序
玻尔兹曼 scaling scalinglaw yo 自然界 2025-03-18 17:10 8
Scaling Law 由 OpenAI 团队于 2020 年正式提出,并在其论文《神经语言模型的扩展定律》(Scaling Laws for Neural Language Models)中进行了详细阐述。Scaling Law 揭示了模型性能与模型规模、数
训练 谷歌 scaling scalinglaw 通信量 2025-03-18 03:12 9
谷歌发布了1000亿文本-图像对数据集,是此前类似数据集的10倍,创下新纪录!基于新数据集,发现预训练Scaling Law,虽然对模型性能提升不明显,但对于小语种等其他指标提升明显。让ViT大佬翟晓华直呼新发现让人兴奋!
在追求人工智能极限的道路上,"更大即更强" 似乎已成为共识。特别是在数学推理这一被视为 AI 终极挑战的领域,业界普遍认为需要海量数据和复杂的强化学习才能获得突破。然而,来自上海交通大学的最新研究却给出了一个令人震惊的答案:仅需 817 条精心设计的样本,就能
大模型推理性能的提升,真的只能靠堆数据、加算力吗?李飞飞等用仅1000个样本微调模型,并提出预算强制(Budget forcing)技术,成功让推理能力随测试计算量增加而提升。他们的s1-32B模型在多个基准测试中超越闭源模型OpenAI o1-preview
Scaling Law 撞墙了吗?这算得上是近段时间 AI 领域最热门的话题之一。近日,资深机器学习研究科学家 Cameron R. Wolfe 更新了一篇超长的博客文章,详细介绍了 LLM scaling 的当前状况,并分享了他对 AI 研究未来的看法。
llm scaling scalinglaw 2025-02-02 15:59 12
从人型机器人、AI眼镜,从推理模型到AI Coding……分别从产品侧和技术侧,把今年最有料的8个大热门趋势一网打尽,干货过年。
我们正身处一场技术革命的历史开端,以ChatGPT为标志的这轮AI科技浪潮是算法和软件诞生以来人类科技最重要的技术变革,由此开启了以智能为核心的第四次工业革命。这次AI变革是由以Scaling law为底层逻辑的基础模型驱动,其整体的发展脉络由基础模型的技术逻
scaling scalinglaw 德丽 2025-01-21 18:55 16