llm

无监督RL的粗略分析

近期,无监督RL在社区也掀起了一阵热潮,主打一个 多快好省(不能训太长step)有效果,且不论文章里面的evaluation是否存在问题,本文简要分析一下这些文章的出发点以及一些形而上学的直观分析。

llm 自然语言处理 rl uda 监督rl 2025-06-27 16:07  2

121W,确实可以封神!

LLM+奖励模型 :当下的迫切需求!大模型生成的毒性内容、幻觉等问题严重影响落地,而奖励模型虽对提升对齐效果作用显著,但目前泛化能力都很弱,难以应对复杂任务。可以关注代理型奖励模型、自我反思奖励模型……

模型 推理 llm 关键帧 reward 2025-06-27 04:40  3

一篇看懂:企业RAG知识库项目的全生命周期设计(纯干货)

在当今数字化转型浪潮中,企业对知识管理的需求日益增长,而AI技术的融入为企业知识库的构建带来了新的机遇。本文将深入剖析企业RAG(检索增强生成)知识库项目的全生命周期设计,从项目启动到落地实施,详细解读如何从零开始构建知识库,如何提升知识库的召回率与准确率,以

rag llm 知识库 rag知识库 企业rag 2025-06-26 10:29  5

LLM的关键转折:LAM,究竟是什么?

操作 Windows 程序、自动对账发票、预订航班和酒店——这些只是新一代大型语言模型(LLMs)为 AI 智能体带来的众多可能性中的几个。研究人员将这一阶段的进化称为“大型行动模型(Large Action Models)”,简称 LAMs。

智能体 llm rpa gui lam 2025-06-25 14:40  4

读创今日荐书 | 如何理解大模型底层技术?

全书分为三部分,依次介绍语言模型的原理、应用及优化。第一部分“理解语言模型”,解析语言模型的核心概念,包括词元、嵌入向量及Transformer架构,帮助读者建立基础认知。第二部分“使用预训练语言模型”,介绍如何使用大模型进行文本分类、聚类、语义搜索、文本生成

模型 llm 荐书 杰伊 多斯特 2025-06-23 20:34  4

从零开始200行python代码实现LLM

本文尝试从零开始,用python实现一个极简但完整的大语言模型,在过程中把各种概念“具象化”,让大家亲眼看到、亲手写出self-attention机制、transformer模型,亲自感受下训练、推理中会遇到的一些问题。

代码 llm python idx python代码 2025-06-20 19:35  5

大模型火了之后,这本书更像圣经了

在这个到处是大模型和深度学习的时代,很多人都开始怀疑,传统的强化学习方法是不是已经过时了。但 Sutton 的回应恰恰说明了一个核心问题:你越是在“黑盒”盛行的年代,越需要掌握最基本的原理。

模型 llm gym rl 圣经 2025-06-21 12:31  4

大模型为何难成为「数学家」?

数学证明不仅要得出 “对” 的答案,更要给出逻辑闭合、层层严谨的推理过程。在不等式问题中尤其如此 —— 哪怕最终答案是对的,只要中间某一步出现纰漏,整个证明就可能不成立。我们不禁提问:这些答案是模型通过严密推理得出的,还是只是通过 “看起来合理” 的过程猜出来

模型 gemini 推理 llm 数学证明 2025-06-22 20:53  3

从“中国市场”到“中国定义”

最近,一只有着圆眼睛、尖耳朵、长着獠牙的小精灵火遍全球,她就是由泡泡玛特出品的潮玩产品LABUBU。在被HelloKitty、Bearbrick等海外IP主导了几十年的潮玩市场,中国品牌正在慢慢成为一股不可忽视的力量。

llm 潮玩 玛特 labubu rce 2025-06-20 17:30  3

企业级语言模型自托管优秀实践

大型语言模型(LLMs)随处可见,从日常应用到高级工具都可以看到他们的身影。虽说使用起来很容易,但如果要运行自己的模型就是另外一回事了。比如对模型进行微调并处理了一些隐私敏感数据,复杂性就会增加。在这篇文章中,我们将分享在构建我们自己的 LLM 推理系统时所学

模型 llm 语言 rabbitmq sse 2025-06-20 17:23  3