深度长文|AI大模型的“侦探”与“罪犯”:一场关于学习效率的意外揭秘
当今最先进的大语言模型,以其惊人的文本生成能力改变着世界。从流畅自然的对话,到条理清晰的报告,再到富有创意的故事,它们似乎无所不能。然而,要让这些庞然大物真正“听话”、输出符合人类偏好的结果,仅仅依靠海量数据进行预训练是远远不够的。一个关键的后续步骤——微调(
当今最先进的大语言模型,以其惊人的文本生成能力改变着世界。从流畅自然的对话,到条理清晰的报告,再到富有创意的故事,它们似乎无所不能。然而,要让这些庞然大物真正“听话”、输出符合人类偏好的结果,仅仅依靠海量数据进行预训练是远远不够的。一个关键的后续步骤——微调(
学习动态(Learning dynamics)描述了特定训练样本的学习过程如何影响模型对其他样本的预测,为我们理解深度学习系统的行为提供了有力工具。我们通过分析不同潜在响应之间影响积累的逐步分解,研究了大型语言模型在不同微调类型中的学习动态。我们的框架能够统一
在 AI 的世界里,大型语言模型(LLMs)凭借强大的参数量和计算能力,已经能够生成与人类偏好高度一致的回答,成为 ChatGPT 等明星产品的核心。然而,这些“大块头”模型对算力和内存的需求极高,难以在手机、边缘设备等资源受限场景中普及。
近期,我们团队发布了 Ligth-R1,是第一个从零复现满血版 DeepSeek-R1 的工作(几个小时后QWQ-32B发布),虽然大家都在关注 QWQ-32B,但是 QWQ-32B 只开源了模型,而我们把模型、数据、代码全部都开放出来了。
近日,三六零自研AI大模型360智脑7B参数升级版(360Zhinao2-7B)正式开源,现已上线Github开源社区(github.com/Qihoo360/360zhinao2),可免费商用。该模型是继今年4月 360Zhinao1-7B 开源后的重要更新
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqiz