85倍速度碾压:苹果开源FastVLM,能在iphone直接运行的视觉语言模型

360影视 日韩动漫 2025-05-17 12:14 3

摘要:机器之心报道作者:+0、刘欣FastVLM—— 让苹果手机拥有极速视觉理解能力当你用苹果手机随手拍图问 AI:「这是什么?」,背后的 FastVLM 模型正在默默解码。最近,苹果开源了一个能在 iPhone 上直接运行的高效视觉语言模型 ——FastVLM(F

机器之心报道作者:+0、刘欣FastVLM—— 让苹果手机拥有极速视觉理解能力当你用苹果手机随手拍图问 AI:「这是什么?」,背后的 FastVLM 模型正在默默解码。最近,苹果开源了一个能在 iPhone 上直接运行的高效视觉语言模型 ——FastVLM(Fast Vision Language Model)。一旦使用动态策略,tile 数量越少的设定能获得更好的精度 - 延迟表现。随着硬件发展与内存带宽提升,FastVLM 在无需 tile 拆分的前提下实现更高分辨率处理将成为可行方向。4、与 token 剪枝及下采样方法的比较研究者进一步将不同输入分辨率下的 FastViT-HD 与经典的 token 剪枝方法进行对比。如表 5 所示,采用层次化主干网络的 VLM 在精度 - 延迟权衡上明显优于基于等维(isotropic)ViT 架构并借助 token 剪枝优化的方法。在不使用剪枝方法、仅利用低分辨率训练的前提下,FastViT-HD 可将视觉 token 数降至仅 16 个的水平,且性能优于近期多个 token 剪枝方案。有趣的是,即便是当前最先进的 token 剪枝方法(如所提出的 [7, 28, 29, 80]),在 256×256 分辨率下,整体表现亦不如 FastViT-HD。更多详细内容请参见原论文。© THE END转载请联系本公众号获得授权投稿或寻求报道:liyazhou@jiqizhixin.com原标题:《85倍速度碾压:苹果开源FastVLM,能在iphone直接运行的视觉语言模型》

来源:科技大鹅童

相关推荐