scalinglaws资讯

深度长文｜多模态 Scaling Laws 新篇章：Chinchilla 范式已破？数据、模型、算力最优平衡点正在重塑

人工智能领域，如同物理学曾经历的那样，一度渴望找到普适的“定律”。当 DeepMind 的研究者们在 2022 年揭示了大型语言模型（LLMs）的Chinchilla Scaling Laws (Hoffmann et al., 2022)[1]时，整个行业似

目前我们见到的很多多模态大模型应用是「组合式」的：其中集成了数个单独预训练的组件，例如将视觉编码器连接到 LLM 上并继续进行多模态训练；而在谷歌 Gemin 2.0 推出之后，原生多模态模型（NMM）被认为是正确的方向。

实验表明，RFT 对特定任务的提升具有很高的数据效率。通过对样本有限的时空感知目标进行多任务 RFT，他们开发出了视频 MLLM——VideoChat-R1，其在不牺牲聊天能力的前提下，在时空感知任务上实现了 SOTA，同时展现了时空推理能力。与 Qwen2.

数据的多样性和规模：增加训练数据的多样性和数量能够显著提升奖励模型（RM）的性能；策略训练的效率：初期增加响应样本能够提高策略训练效果，但收益会迅速趋于平稳；RLHF 的 scaling 效率低于预训练：RLHF 的计算资源投入带来的回报递减，整体 scali

rlhf laws scalinglaws 2024-12-24 11:50 15