vlm资讯_360影视

首搭3块图灵AI芯片和全本地端VLA+VLM模型，小鹏G7预售价23.58万

今日，小鹏G7正式亮相以及发布预售。作为2025年小鹏首款全新车型，小鹏G7共推出Max和Ultra两个版本，预售价23.58万元。在202年6月11起到小鹏G7上市日，购买小鹏G7的用户均可享2000元意向金抵扣5000元购车金的权益，同时可与上市权益叠加使

模型 g7 vlm 图灵 vlm模型 2025-06-11 21:55 9

首创像素空间推理，7B模型领先GPT-4o，让AI能像人一样眼脑并用

然而，当前主流VLM仍被困在「文本茧房」中——依赖文本token间接翻译视觉信息，在高清图像中的微小物体、视频里的动态细节等场景中，常常因缺乏直接视觉操作能力而「视而不见」。

模型推理 vlm 内在激励眼脑 2025-06-09 17:49 10

VLA是自动驾驶的下一代技术吗？

相比其他车企每次在新品发布会上相对正式地谈论自己的智能化战略，理想汽车每次都会单开一个访谈，来面对面沟通自己对智能辅助驾驶的思考。

技术端到端李想 vlm vla 2025-06-05 14:58 8

小模型逆袭屠榜！30倍数据效率+13倍模型压缩效果暴增近10%！

亮点直击新发现：旨在解决由编辑指令与原始-编辑图像对之间错位引起的噪声监督问题，这是先前工作忽视的根本性问题，如下图2所示。修正监督：利用扩散生成先验指导视觉语言模型，为原始-编辑图像对生成更匹配的编辑指令。强化监督：引入基于三元组损失的对比监督，使编辑模型能

模型文生图像编辑 vlm 先验 2025-05-17 01:03 10

港科、北交、复旦等提出针对 VLM 的大规模预训练对抗攻击 AnyAttack | CVPR 2025

近年来，视觉语言模型（Vision-Language Models, VLMs）在多模态 AI 领域展现了重要的研究价值和应用潜力，但其安全性问题也逐渐受到关注。例如，攻击者可能通过对抗样本操控模型输出，导致模型生成错误信息或内容被篡改等风险。传统对抗攻击方法

训练复旦 cvpr vlm anyattack 2025-04-21 19:39 13

从零搭一套可复现、可教学、可观察的RLforVLM训练流程

在过去的几个月中，越来越多的研究尝试将 RL Scaling 的成功应用扩展到视觉语言模型（VLM）领域 —— 刷榜、追性能、制造 “Aha Moment”，整个社区正高速奔跑， RL for VLM 的边界也在不断被推远。

训练 rl vlm rlforvlm训练 rlforvlm 2025-04-09 18:00 12

从零搭一套可复现、可教学、可观察的RL for VLM训练流程，我们试了试

在过去的几个月中，越来越多的研究尝试将 RL Scaling 的成功应用扩展到视觉语言模型（VLM）领域 —— 刷榜、追性能、制造 “Aha Moment”，整个社区正高速奔跑，RL for VLM 的边界也在不断被推远。

训练 aha rl vlm vlm训练 2025-04-09 12:05 10

从零搭一套可复现、可教学、可观察RL for VLM训练流程，我们试了试

在过去的几个月中，越来越多的研究尝试将 RL Scaling 的成功应用扩展到视觉语言模型（VLM）领域 —— 刷榜、追性能、制造 “Aha Moment”，整个社区正高速奔跑，RL for VLM 的边界也在不断被推远。

训练 aha rl vlm vlm训练 2025-04-09 12:03 9

智能驾驶水面之下，“AI推理之争”暗流涌动

如果说，智能驾驶此前还在围绕VLM（视觉-语言模型）与VLA（视觉-语言-动作模型）、一段式与两段式、无图和有图等维度展开竞争，那么从今年开始，智驾竞争已悄然进入深水，一场更底层的较量正在算力集群与算法架构之间展开。

智能推理 vlm vla ai推理 2025-04-01 10:22 11

网上晒图要当心！AI六成可能知道你在哪儿

给AI一张全新的照片，它能以相当高的准确率还猜出照片在哪个城市拍摄的。在新研究中，表现最好的AI模型，猜出图片所在城市的正确率比人类高62.6%！以后网上晒图可要当心了，AI可能知道你在哪里！

gemini 地理信息 llama vlm vlms 2025-03-30 21:25 11

VLA，是不是自动驾驶的下一站？

中国农历新年结束没多久，马斯克就给中国的特斯拉车主送上一份大礼——2月26日，在毫无征兆的情况下特斯拉向中国区购买了FSD的HW4.0车主开启了功能推送。

llm 高斯 fsd vlm vla 2025-03-27 22:35 14

具身智能与自动驾驶的结合点：VLA

具身智能拥有支持感知和运动的物理身体，可以进行主动式感知，也可以执行物理任务。更重要的是，具身智能强调“感知-行动回路”（perception-action loop）的重要性，即感受世界—对世界进行建模—进而采取行动—进行验证并调整模型的过程。自动驾驶与具身

智能 vlm mpc vla helix 2025-03-24 21:55 13

高阶智驾不可不知的四个词：端到端、D2D、VLM、VLA

几年前谈到自动驾驶，厂家卷的还是芯片算力和激光雷达数量，但如今消费者已经意识到，硬件的丰俭与实际的智驾能力并不成正比，很多时候都是割韭菜的噱头。最典型的例子是放言“4颗（激光雷达）以下别说话”的机甲龙，以及搭载4颗英伟达Orin芯片，总算力达到1016 TOP

noa d2d 端到端 vlm vla 2025-03-23 09:40 13

英伟达团队发布最新具身模型 Cosmos-Reason1，在物理世界推理中碾压 Qwen、GPT-4o 等多个 VLM 模型

英伟达 GTC 大会热度飙升。继黄仁勋在英伟达大会上发布基础世界模型 Cosmos 引发业内讨论后，英伟达团队近日又发布了一个新的物理世界大模型：Cosmos-Reason1。

模型英伟达推理 vlm vlm模型 2025-03-21 19:59 13

理想 MindVLA 答网友热门问题

3月18日，理想汽车在NVIDIA GTC 2025大会上推出了新一代自动驾驶技术——MindVLA 大模型。这个模型结合了视觉、语言和行为三大智能，开创了机器人大模型的新范式。用通俗易懂的语言来说，VLA可以理解为看到、听到的同时也能做到。

热门 noa 端到端 vlm mindvla 2025-03-21 17:07 13

成效初显！基于DeepSeek强化学习的医疗VLM策略来了

在人工智能跨界医疗的浪潮中，如何赋能视觉语言模型（VLM）去 “看懂” 多种类型的医学影像，并在疾病诊断、病灶分析等任务中给出可信解释，已成关键挑战。

医疗 deepseek vlm 医疗vlm vlm策略 2025-03-21 14:26 13

关于高阶智驾不可不知的四个词：端到端、D2D、VLM、VLA

几年前谈到自动驾驶，厂家卷的还是芯片算力和激光雷达数量，但如今消费者已经意识到，硬件的丰俭与实际的智驾能力并不成正比，很多时候都是割韭菜的噱头。最典型的例子是放言“4颗（激光雷达）以下别说话”的机甲龙，以及搭载4颗英伟达Orin芯片，总算力达到1016 TOP

noa d2d 端到端 vlm vla 2025-03-19 19:29 15

化解机器人的「幻觉」：北大发布OmniManip，VLM结合双闭环系统

近年来视觉语⾔基础模型（Vision Language Models, VLMs）在多模态理解和⾼层次常识推理上⼤放异彩，如何将其应⽤于机器⼈以实现通⽤操作是具身智能领域的⼀个核⼼问题。这⼀⽬标的实现受两⼤关键挑战制约：

vlm 闭环系统 omnimanip 2025-01-22 17:44 13

手写数学问题的终极挑战！FERMAT基准揭示VLM潜力

本文介绍了一项名为FERMAT的研究，旨在评估视觉语言模型（VLM）在检测、定位和纠正手写数学错误方面的表现。该研究设计了一个包含超过2,200个手写数学解决方案的数据集，并对九种不同的VLM进行了测试。结果表明，当前的VLM在处理手写文本时存在显著的局限性，

vlm fermat基准 fermat 2025-01-15 05:35 20

数据不够致ScalingLaw撞墙？CMU和DeepMind新方法可让VLM

最近 AI 社区很多人都在讨论 Scaling Law 是否撞墙的问题。其中，一个支持 Scaling Law 撞墙论的理由是 AI 几乎已经快要耗尽已有的高质量数据，比如有一项研究就预计，如果 LLM 保持现在的发展势头，到 2028 年左右，已有的数据储

cmu deepmind vlm 2025-01-04 04:34 20