85倍速度碾压：苹果开源FastVLM，能在iphone直接运行的视觉语言模型

摘要：机器之心报道作者：+0、刘欣FastVLM—— 让苹果手机拥有极速视觉理解能力当你用苹果手机随手拍图问 AI：「这是什么？」，背后的 FastVLM 模型正在默默解码。最近，苹果开源了一个能在 iPhone 上直接运行的高效视觉语言模型 ——FastVLM（F

机器之心报道作者：+0、刘欣FastVLM—— 让苹果手机拥有极速视觉理解能力当你用苹果手机随手拍图问 AI：「这是什么？」，背后的 FastVLM 模型正在默默解码。最近，苹果开源了一个能在 iPhone 上直接运行的高效视觉语言模型 ——FastVLM（Fast Vision Language Model）。

一旦使用动态策略，tile 数量越少的设定能获得更好的精度 - 延迟表现。随着硬件发展与内存带宽提升，FastVLM 在无需 tile 拆分的前提下实现更高分辨率处理将成为可行方向。4、与 token 剪枝及下采样方法的比较研究者进一步将不同输入分辨率下的 FastViT-HD 与经典的 token 剪枝方法进行对比。如表 5 所示，采用层次化主干网络的 VLM 在精度 - 延迟权衡上明显优于基于等维（isotropic）ViT 架构并借助 token 剪枝优化的方法。在不使用剪枝方法、仅利用低分辨率训练的前提下，FastViT-HD 可将视觉 token 数降至仅 16 个的水平，且性能优于近期多个 token 剪枝方案。有趣的是，即便是当前最先进的 token 剪枝方法（如所提出的 [7, 28, 29, 80]），在 256×256 分辨率下，整体表现亦不如 FastViT-HD。更多详细内容请参见原论文。© THE END转载请联系本公众号获得授权投稿或寻求报道：liyazhou@jiqizhixin.com原标题：《85倍速度碾压：苹果开源FastVLM，能在iphone直接运行的视觉语言模型》

来源：科技大鹅童

标签： iphone 苹果模型开源 fastvlm

本文地址：https://news.43u.com.cn/a/1624820.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!