清华团队提出大模型“密度定律”；足球领域首个视觉语言基础模型

摘要：今日值得关注的大模型前沿论文SwiftEdit：50 倍速文本引导图像编辑清华团队提出大模型“密度定律”足球领域首个视觉语言基础模型Aguvis：首个完全自主的纯视觉 GUI agentGoogle DeepMind：利用运动轨迹控制视频生成大模型数学新基准：

今日值得关注的大模型前沿论文SwiftEdit：50 倍速文本引导图像编辑清华团队提出大模型“密度定律”足球领域首个视觉语言基础模型Aguvis：首个完全自主的纯视觉 GUI agentGoogle DeepMind：利用运动轨迹控制视频生成大模型数学新基准：成功率最高 2%Meta 推出「高效追踪一切」模型SOLAMI：首个端到端社交视觉-语言-动作建模框架RevThink：使用逆向思维增强 LLM 推理想要第一时间获取每日最新大模型热门论文？点击阅读原文，查看「2024必读大模型论文」合集，以及申请加入「大模型技术分享群」。SwiftEdit：50 倍速文本引导图像编辑文本引导图像编辑技术使用户能够通过简单的文本输入，利用基于多步扩散的文本到图像模型的广泛先验进行图像编辑。然而，这些方法往往无法满足现实世界和端侧应用对速度的要求，因为涉及到昂贵的多步反演和采样过程。为此，VinAI Research 团队推出了 SwiftEdit，这是一种简单而高效的编辑工具，可实现即时文本引导的图像编辑（0.23 秒）。SwiftEdit 的先进之处在于它的两个新贡献：一步反演框架，通过反演实现一步图像重建；掩码引导编辑技术，利用注意力重缩放机制执行局部图像编辑。大量实验证明了 SwiftEdit 的有效性和效率。特别是，SwiftEdit 可实现即时文本引导的图像编辑，其速度比以往的多步骤方法至少快 50 倍，同时在编辑结果方面具有竞争力。论文链接：https://arxiv.org/abs/2412.04301项目地址：https://swift-edit.github.io/