vlm

具身智能与自动驾驶的结合点:VLA

具身智能拥有支持感知和运动的物理身体,可以进行主动式感知,也可以执行物理任务。更重要的是,具身智能强调“感知-行动回路”(perception-action loop)的重要性,即感受世界—对世界进行建模—进而采取行动—进行验证并调整模型的过程。自动驾驶与具身

智能 vlm mpc vla helix 2025-03-24 21:55  2

高阶智驾不可不知的四个词:端到端、D2D、VLM、VLA

几年前谈到自动驾驶,厂家卷的还是芯片算力和激光雷达数量,但如今消费者已经意识到,硬件的丰俭与实际的智驾能力并不成正比,很多时候都是割韭菜的噱头。最典型的例子是放言“4颗(激光雷达)以下别说话”的机甲龙,以及搭载4颗英伟达Orin芯片,总算力达到1016 TOP

noa d2d 端到端 vlm vla 2025-03-23 09:40  3

理想 MindVLA 答网友热门问题

3月18日,理想汽车在NVIDIA GTC 2025大会上推出了新一代自动驾驶技术——MindVLA 大模型。这个模型结合了视觉、语言和行为三大智能,开创了机器人大模型的新范式。用通俗易懂的语言来说,VLA可以理解为看到、听到的同时也能做到。

热门 noa 端到端 vlm mindvla 2025-03-21 17:07  4

关于高阶智驾不可不知的四个词:端到端、D2D、VLM、VLA

几年前谈到自动驾驶,厂家卷的还是芯片算力和激光雷达数量,但如今消费者已经意识到,硬件的丰俭与实际的智驾能力并不成正比,很多时候都是割韭菜的噱头。最典型的例子是放言“4颗(激光雷达)以下别说话”的机甲龙,以及搭载4颗英伟达Orin芯片,总算力达到1016 TOP

noa d2d 端到端 vlm vla 2025-03-19 19:29  3

手写数学问题的终极挑战!FERMAT基准揭示VLM潜力

本文介绍了一项名为FERMAT的研究,旨在评估视觉语言模型(VLM)在检测、定位和纠正手写数学错误方面的表现。该研究设计了一个包含超过2,200个手写数学解决方案的数据集,并对九种不同的VLM进行了测试。结果表明,当前的VLM在处理手写文本时存在显著的局限性,

vlm fermat基准 fermat 2025-01-15 05:35  10

数据不够致ScalingLaw撞墙?CMU和DeepMind新方法可让VLM

最近 AI 社区很多人都在讨论 Scaling Law 是否撞墙的问题。 其中,一个支持 Scaling Law 撞墙论的理由是 AI 几乎已经快要耗尽已有的高质量数据,比如有一项研究就预计,如果 LLM 保持现在的发展势头,到 2028 年左右,已有的数据储

cmu deepmind vlm 2025-01-04 04:34  9

VLM-OCR-Demo:一个使用VLM用于OCR任务的示例

上一篇文章TesseractOCR-GUI:基于WPF/C#构建TesseractOCR简单易用的用户界面中我们构建了一个方便使用TesseractOCR的用户界面,今天构建一个类似的界面,使用Semantic Kernel接入视觉模型,测试一下用视觉模型做O

ocr kernel vlm 2024-12-10 09:53  8