LeCun团队提出NWM-可控视频生成模型，刘知远团队提出Densing Law

摘要：近期，来自清华大学刘知远教授团队发现并提出大模型的Densing Law —模型能力密度随时间呈指数级增长，2023年以来能力密度约100 天翻一倍。这意味着每100天，我们可以用一半参数量实现当前最优模型相当的性能。LeCun团队提出NWM-可控视频生成模型

想把握最新的科技进展和研究成果，却发现自己的阅读速度根本赶不上文献产出的速度？
别担心，AMiner AI会帮助你高效检索和阅读文献！

AMiner AI，一款集发现论文、分析论文、理解论文、写作论文于一体的科研小助手。它会帮助你更加游刃有余地穿梭在学术海洋中，让科研变得更加有趣和高效！

近期，来自清华大学刘知远教授团队发现并提出大模型的Densing Law —模型能力密度随时间呈指数级增长，2023年以来能力密度约100 天翻一倍。这意味着每100天，我们可以用一半参数量实现当前最优模型相当的性能。LeCun团队提出NWM-可控视频生成模型，模型能适应更复杂的环境，并且与World Labs和DeepMind的世界模型一样，也能基于单张图像生成连续一致的视频。为了方便大家阅读，只列出了论文标题、AMiner AI综述等信息，如果感兴趣可点击查看原文，PC端数据同步（收藏即可在PC端查看），每日新论文也可登录小程序查看。
如果想要对某篇论文进行深入对话，可以直接复制论文链接到浏览器上或者直达AMiner AI页面：「链接」

2024年12月10日精选新论文列表：

1.Natural Language Reinforcement Learning
本研究借鉴人类学习过程，提出了自然语言强化学习（NLRL）方法，将强化学习与自然语言表示相结合，重新定义了任务目标、策略、价值函数、贝尔曼方程和策略迭代等强化学习概念。通过结合大型语言模型（如GPT-4）的最新进展，实现了NLRL的实际应用。在表格型马尔可夫决策过程（MDP）上的初步实验表明，NLRL框架在有效性、效率和可解释性方面表现良好。

链接：Natural Language Reinforcement Learning - AMiner VIP

2.Large Multi-modal Models Can Interpret Features in Large Multi-modal Models
这篇论文探讨了如何理解和解释大规模多模态模型（LMMs）的内部神经表示。研究提出了一种多功能的框架，用于识别和解释LMMs中的语义。首先，研究者使用稀疏自动编码器（SAE）将表示分离成人类可理解的特征。接着，他们构建了一个自动解释框架，利用LMMs自身来解释在SAE中学到的开放语义特征。通过使用LLaVA-NeXT-8B模型和LLaVA-OV-72B模型进行分析，研究展示了这些特征能有效指导模型行为。研究结果表明，这些发现有助于更深入地理解LMMs在特定任务中表现出色的原因，揭示了它们的错误性质及可能的纠正策略，并为揭示LMMs内部机制与人类认知过程的相似性提供了新的见解。

链接：Large Multi-modal Models Can Interpret Features in Large Multi-modal Models - AMiner VIP

3.Navigation World Models
本文提出了一种名为导航世界模型（NWM）的可控视频生成模型，该模型可以根据过去的观察和导航动作预测未来的视觉观察。NWM采用了一种条件扩散变换器（CDiT）来捕捉复杂的环境动态，并在大量的人类和机器人视角视频上进行训练，参数规模达到10亿。在熟悉的环境中，NWM能够通过模拟来规划导航轨迹，并评估这些轨迹是否实现了预期目标。与具有固定行为的监督导航策略不同，NWM在规划过程中可以动态地融入约束条件。实验证明，NWM在从头开始规划轨迹或对来自外部策略的轨迹进行排序方面均有效。此外，NWM利用其学到的视觉先验，能够从单个输入图像中想象出在不熟悉环境中的轨迹，这使得它成为下一代导航系统的一种灵活且强大的工具。

链接：Navigation World Models - AMiner VIP

4.From Individual to Society: A Survey on Social Simulation Driven by Large Language Model-based Agents
这篇论文综述了基于大型语言模型驱动的社交模拟领域的最新进展。论文指出，传统社会学研究中依赖人类参与存在成本高、难以扩展和伦理问题等挑战。文章介绍了如何利用大型语言模型来模拟人类行为，从而在多个交叉学科研究中复制个体反应。论文将模拟分为三种类型：个体模拟、场景模拟和社会模拟。个体模拟模仿特定个体或人口群体；场景模拟中，多个代理在特定情境下合作实现目标；社会模拟则模拟代理社会内部的互动，反映现实世界的复杂性和多样性。文章详细讨论了每种模拟类型的架构、关键组件、目标或场景分类以及评估方法，并总结了常用的数据集和基准。最后，论文探讨了这三种模拟类型的发展趋势。

链接：From Individual to Society: A Survey on Social Simulation Driven by Large Language Model-based Agents - AMiner VIP

5.PaliGemma 2: A Family of Versatile VLMs for Transfer
该论文介绍了一种名为PaliGemma 2的视觉语言模型系列，它是基于Gemma 2语言模型系列的PaliGemma模型的升级版。论文中将SigLIP-So400m视觉编码器与不同规模的Gemma 2模型（从2B到27B）结合，并在三种分辨率（224px、448px和896px）下分阶段训练，以赋予模型广泛的迁移学习能力。研究探讨了模型大小、分辨率以及学习率等影响迁移性能的因素，并通过扩展迁移任务的范围，包括表格结构识别、分子结构识别、乐谱识别等多种OCR相关任务，以及长细粒度字幕和放射学报告生成任务，展示了PaliGemma 2在这些任务上取得了最先进的结果。