无监督RL的粗略分析
近期,无监督RL在社区也掀起了一阵热潮,主打一个 多快好省(不能训太长step)有效果,且不论文章里面的evaluation是否存在问题,本文简要分析一下这些文章的出发点以及一些形而上学的直观分析。
近期,无监督RL在社区也掀起了一阵热潮,主打一个 多快好省(不能训太长step)有效果,且不论文章里面的evaluation是否存在问题,本文简要分析一下这些文章的出发点以及一些形而上学的直观分析。
实不相瞒。第一次看到“模型上下文协议”(Model Context Protocol,简称 MCP)这个术语时,我和大多数开发者一样:随便扫了一眼教程,然后就默默跳过了。我当时心想:“太抽象了”。
LLM+奖励模型 :当下的迫切需求!大模型生成的毒性内容、幻觉等问题严重影响落地,而奖励模型虽对提升对齐效果作用显著,但目前泛化能力都很弱,难以应对复杂任务。可以关注代理型奖励模型、自我反思奖励模型……
这项由挪威奥斯陆大学的塔马斯·比斯特雷(Tamas Bisztray)领导,联合阿联酋技术创新研究院、匈牙利厄特弗什·洛兰德大学等多个国际机构的研究团队完成的突破性研究,发表于2025年6月18日的计算机科学预印本论文库arXiv上。有兴趣深入了解的读者可以通
他山石智库以多年积累的顶级专家资源,精选推荐国内外人工智能领域重量级专家,2025已开放合作邀约。如有大会发言、企业内训、代言背书等需求,请联系他山石智库。
在当今数字化转型浪潮中,企业对知识管理的需求日益增长,而AI技术的融入为企业知识库的构建带来了新的机遇。本文将深入剖析企业RAG(检索增强生成)知识库项目的全生命周期设计,从项目启动到落地实施,详细解读如何从零开始构建知识库,如何提升知识库的召回率与准确率,以
操作 Windows 程序、自动对账发票、预订航班和酒店——这些只是新一代大型语言模型(LLMs)为 AI 智能体带来的众多可能性中的几个。研究人员将这一阶段的进化称为“大型行动模型(Large Action Models)”,简称 LAMs。
这个方法要求教师模型像优秀的人类教师一样,根据已知解决方案输出清晰的逐步解释,而不再是从头开始自己解决。
近日,空间理解模型SpatialLM发布首份技术报告,该模型来自于空间智能公司群核科技。 据悉,该模型于今年3月正式开源,并在开源后迅速与DeepSeek-V3、Qwen2.5-Omni一起登上全球最大的开源社区HuggingFace全球趋势榜前三。
llm 建模 科 spatiallm spatiallm技术 2025-06-24 10:51 4
近期,前特斯拉AI总监、OpenAI创始成员Andrej Karpathy在YC AI Startup School的演讲可谓是火爆科技圈。他以《Software in the era of AI》为演讲主题,结合了自己在特斯拉、OpenAI和斯坦福的工作经验
全书分为三部分,依次介绍语言模型的原理、应用及优化。第一部分“理解语言模型”,解析语言模型的核心概念,包括词元、嵌入向量及Transformer架构,帮助读者建立基础认知。第二部分“使用预训练语言模型”,介绍如何使用大模型进行文本分类、聚类、语义搜索、文本生成
本文尝试从零开始,用python实现一个极简但完整的大语言模型,在过程中把各种概念“具象化”,让大家亲眼看到、亲手写出self-attention机制、transformer模型,亲自感受下训练、推理中会遇到的一些问题。
在这个到处是大模型和深度学习的时代,很多人都开始怀疑,传统的强化学习方法是不是已经过时了。但 Sutton 的回应恰恰说明了一个核心问题:你越是在“黑盒”盛行的年代,越需要掌握最基本的原理。
数学证明不仅要得出 “对” 的答案,更要给出逻辑闭合、层层严谨的推理过程。在不等式问题中尤其如此 —— 哪怕最终答案是对的,只要中间某一步出现纰漏,整个证明就可能不成立。我们不禁提问:这些答案是模型通过严密推理得出的,还是只是通过 “看起来合理” 的过程猜出来
机器之心报道编辑:杜伟在 AI 领域,英伟达开发的 CUDA 是驱动大语言模型(LLM)训练和推理的核心计算引擎。不过,CUDA 驱动的 LLM 推理面临着手动优化成本高、端到端延迟高等不足,需要进一步优化或者寻找更高效的替代方案。近日,CMU 助理教授贾志豪
“构建超级智能不过是个工程问题。”2023 年,OpenAI 首席执行官山姆・奥特曼(Sam Altman)曾这样表示。这似乎暗示着 OpenAI 的研究人员已然知晓构建超级智能的可行路径,只待投入时间与精力搭建所需系统。
当学生们越来越习惯用 ChatGPT 辅助完成论文写作时,一项来自 MIT 的最新研究为我们敲响了警钟。这项长达 206 页的研究通过脑电图(EEG)监测和认知分析发现,使用大型语言模型(LLM)如 ChatGPT 进行写作任务,会导致用户认知负债的累积,长期
最近,一只有着圆眼睛、尖耳朵、长着獠牙的小精灵火遍全球,她就是由泡泡玛特出品的潮玩产品LABUBU。在被HelloKitty、Bearbrick等海外IP主导了几十年的潮玩市场,中国品牌正在慢慢成为一股不可忽视的力量。
大型语言模型(LLMs)随处可见,从日常应用到高级工具都可以看到他们的身影。虽说使用起来很容易,但如果要运行自己的模型就是另外一回事了。比如对模型进行微调并处理了一些隐私敏感数据,复杂性就会增加。在这篇文章中,我们将分享在构建我们自己的 LLM 推理系统时所学
研究设计包括三个组别(LLM组、搜索引擎组和纯大脑组),通过四个会话观察不同工具对写作的影响。