LeCun团队提出NWM-可控视频生成模型,刘知远团队提出Densing Law

摘要:近期,来自清华大学刘知远教授团队发现并提出大模型的Densing Law —模型能力密度随时间呈指数级增长,2023年以来能力密度约100 天翻一倍。这意味着每100天,我们可以用一半参数量实现当前最优模型相当的性能。LeCun团队提出NWM-可控视频生成模型

想把握最新的科技进展和研究成果,却发现自己的阅读速度根本赶不上文献产出的速度?
别担心,AMiner AI会帮助你高效检索和阅读文献!

AMiner AI,一款集发现论文、分析论文、理解论文、写作论文于一体的科研小助手。它会帮助你更加游刃有余地穿梭在学术海洋中,让科研变得更加有趣和高效!

近期,来自清华大学刘知远教授团队发现并提出大模型的Densing Law —模型能力密度随时间呈指数级增长,2023年以来能力密度约100 天翻一倍。这意味着每100天,我们可以用一半参数量实现当前最优模型相当的性能。LeCun团队提出NWM-可控视频生成模型,模型能适应更复杂的环境,并且与World Labs和DeepMind的世界模型一样,也能基于单张图像生成连续一致的视频。为了方便大家阅读,只列出了论文标题、AMiner AI综述等信息,如果感兴趣可点击查看原文,PC端数据同步(收藏即可在PC端查看),每日新论文也可登录小程序查看。
如果想要对某篇论文进行深入对话,可以直接复制论文链接到浏览器上或者直达AMiner AI页面:「链接」

2024年12月10日精选新论文列表:

1.Natural Language Reinforcement Learning
本研究借鉴人类学习过程,提出了自然语言强化学习(NLRL)方法,将强化学习与自然语言表示相结合,重新定义了任务目标、策略、价值函数、贝尔曼方程和策略迭代等强化学习概念。通过结合大型语言模型(如GPT-4)的最新进展,实现了NLRL的实际应用。在表格型马尔可夫决策过程(MDP)上的初步实验表明,NLRL框架在有效性、效率和可解释性方面表现良好。

链接:Natural Language Reinforcement Learning - AMiner VIP

2.Large Multi-modal Models Can Interpret Features in Large Multi-modal Models
这篇论文探讨了如何理解和解释大规模多模态模型(LMMs)的内部神经表示。研究提出了一种多功能的框架,用于识别和解释LMMs中的语义。首先,研究者使用稀疏自动编码器(SAE)将表示分离成人类可理解的特征。接着,他们构建了一个自动解释框架,利用LMMs自身来解释在SAE中学到的开放语义特征。通过使用LLaVA-NeXT-8B模型和LLaVA-OV-72B模型进行分析,研究展示了这些特征能有效指导模型行为。研究结果表明,这些发现有助于更深入地理解LMMs在特定任务中表现出色的原因,揭示了它们的错误性质及可能的纠正策略,并为揭示LMMs内部机制与人类认知过程的相似性提供了新的见解。

链接:Large Multi-modal Models Can Interpret Features in Large Multi-modal Models - AMiner VIP

3.Navigation World Models
本文提出了一种名为导航世界模型(NWM)的可控视频生成模型,该模型可以根据过去的观察和导航动作预测未来的视觉观察。NWM采用了一种条件扩散变换器(CDiT)来捕捉复杂的环境动态,并在大量的人类和机器人视角视频上进行训练,参数规模达到10亿。在熟悉的环境中,NWM能够通过模拟来规划导航轨迹,并评估这些轨迹是否实现了预期目标。与具有固定行为的监督导航策略不同,NWM在规划过程中可以动态地融入约束条件。实验证明,NWM在从头开始规划轨迹或对来自外部策略的轨迹进行排序方面均有效。此外,NWM利用其学到的视觉先验,能够从单个输入图像中想象出在不熟悉环境中的轨迹,这使得它成为下一代导航系统的一种灵活且强大的工具。

链接:Navigation World Models - AMiner VIP

4.From Individual to Society: A Survey on Social Simulation Driven by Large Language Model-based Agents
这篇论文综述了基于大型语言模型驱动的社交模拟领域的最新进展。论文指出,传统社会学研究中依赖人类参与存在成本高、难以扩展和伦理问题等挑战。文章介绍了如何利用大型语言模型来模拟人类行为,从而在多个交叉学科研究中复制个体反应。论文将模拟分为三种类型:个体模拟、场景模拟和社会模拟。个体模拟模仿特定个体或人口群体;场景模拟中,多个代理在特定情境下合作实现目标;社会模拟则模拟代理社会内部的互动,反映现实世界的复杂性和多样性。文章详细讨论了每种模拟类型的架构、关键组件、目标或场景分类以及评估方法,并总结了常用的数据集和基准。最后,论文探讨了这三种模拟类型的发展趋势。

链接:From Individual to Society: A Survey on Social Simulation Driven by Large Language Model-based Agents - AMiner VIP

5.PaliGemma 2: A Family of Versatile VLMs for Transfer
该论文介绍了一种名为PaliGemma 2的视觉语言模型系列,它是基于Gemma 2语言模型系列的PaliGemma模型的升级版。论文中将SigLIP-So400m视觉编码器与不同规模的Gemma 2模型(从2B到27B)结合,并在三种分辨率(224px、448px和896px)下分阶段训练,以赋予模型广泛的迁移学习能力。研究探讨了模型大小、分辨率以及学习率等影响迁移性能的因素,并通过扩展迁移任务的范围,包括表格结构识别、分子结构识别、乐谱识别等多种OCR相关任务,以及长细粒度字幕和放射学报告生成任务,展示了PaliGemma 2在这些任务上取得了最先进的结果。

来源:小倩说科技

相关推荐