首搭3块图灵AI芯片和全本地端VLA+VLM模型,小鹏G7预售价23.58万
今日,小鹏G7正式亮相以及发布预售。作为2025年小鹏首款全新车型,小鹏G7共推出Max和Ultra两个版本,预售价23.58万元。在202年6月11起到小鹏G7上市日,购买小鹏G7的用户均可享2000元意向金抵扣5000元购车金的权益,同时可与上市权益叠加使
今日,小鹏G7正式亮相以及发布预售。作为2025年小鹏首款全新车型,小鹏G7共推出Max和Ultra两个版本,预售价23.58万元。在202年6月11起到小鹏G7上市日,购买小鹏G7的用户均可享2000元意向金抵扣5000元购车金的权益,同时可与上市权益叠加使
然而,当前主流VLM仍被困在「文本茧房」中——依赖文本token间接翻译视觉信息,在高清图像中的微小物体、视频里的动态细节等场景中,常常因缺乏直接视觉操作能力而「视而不见」。
相比其他车企每次在新品发布会上相对正式地谈论自己的智能化战略,理想汽车每次都会单开一个访谈,来面对面沟通自己对智能辅助驾驶的思考。
亮点直击新发现:旨在解决由编辑指令与原始-编辑图像对之间错位引起的噪声监督问题,这是先前工作忽视的根本性问题,如下图2所示。修正监督:利用扩散生成先验指导视觉语言模型,为原始-编辑图像对生成更匹配的编辑指令。强化监督:引入基于三元组损失的对比监督,使编辑模型能
近年来,视觉语言模型(Vision-Language Models, VLMs)在多模态 AI 领域展现了重要的研究价值和应用潜力,但其安全性问题也逐渐受到关注。例如,攻击者可能通过对抗样本操控模型输出,导致模型生成错误信息或内容被篡改等风险。传统对抗攻击方法
在过去的几个月中,越来越多的研究尝试将 RL Scaling 的成功应用扩展到视觉语言模型(VLM)领域 —— 刷榜、追性能、制造 “Aha Moment”,整个社区正高速奔跑, RL for VLM 的边界也在不断被推远。
训练 rl vlm rlforvlm训练 rlforvlm 2025-04-09 18:00 10
在过去的几个月中,越来越多的研究尝试将 RL Scaling 的成功应用扩展到视觉语言模型(VLM)领域 —— 刷榜、追性能、制造 “Aha Moment”,整个社区正高速奔跑,RL for VLM 的边界也在不断被推远。
在过去的几个月中,越来越多的研究尝试将 RL Scaling 的成功应用扩展到视觉语言模型(VLM)领域 —— 刷榜、追性能、制造 “Aha Moment”,整个社区正高速奔跑,RL for VLM 的边界也在不断被推远。
如果说,智能驾驶此前还在围绕VLM(视觉-语言模型)与VLA(视觉-语言-动作模型)、一段式与两段式、无图和有图等维度展开竞争,那么从今年开始,智驾竞争已悄然进入深水,一场更底层的较量正在算力集群与算法架构之间展开。
给AI一张全新的照片,它能以相当高的准确率还猜出照片在哪个城市拍摄的。在新研究中,表现最好的AI模型,猜出图片所在城市的正确率比人类高62.6%!以后网上晒图可要当心了,AI可能知道你在哪里!
中国农历新年结束没多久,马斯克就给中国的特斯拉车主送上一份大礼——2月26日,在毫无征兆的情况下特斯拉向中国区购买了FSD的HW4.0车主开启了功能推送。
具身智能拥有支持感知和运动的物理身体,可以进行主动式感知,也可以执行物理任务。更重要的是,具身智能强调“感知-行动回路”(perception-action loop)的重要性,即感受世界—对世界进行建模—进而采取行动—进行验证并调整模型的过程。自动驾驶与具身
几年前谈到自动驾驶,厂家卷的还是芯片算力和激光雷达数量,但如今消费者已经意识到,硬件的丰俭与实际的智驾能力并不成正比,很多时候都是割韭菜的噱头。最典型的例子是放言“4颗(激光雷达)以下别说话”的机甲龙,以及搭载4颗英伟达Orin芯片,总算力达到1016 TOP
英伟达 GTC 大会热度飙升。继黄仁勋在英伟达大会上发布基础世界模型 Cosmos 引发业内讨论后,英伟达团队近日又发布了一个新的物理世界大模型:Cosmos-Reason1。
3月18日,理想汽车在NVIDIA GTC 2025大会上推出了新一代自动驾驶技术——MindVLA 大模型。这个模型结合了视觉、语言和行为三大智能,开创了机器人大模型的新范式。用通俗易懂的语言来说,VLA可以理解为看到、听到的同时也能做到。
在人工智能跨界医疗的浪潮中,如何赋能视觉语言模型(VLM)去 “看懂” 多种类型的医学影像,并在疾病诊断、病灶分析等任务中给出可信解释,已成关键挑战。
几年前谈到自动驾驶,厂家卷的还是芯片算力和激光雷达数量,但如今消费者已经意识到,硬件的丰俭与实际的智驾能力并不成正比,很多时候都是割韭菜的噱头。最典型的例子是放言“4颗(激光雷达)以下别说话”的机甲龙,以及搭载4颗英伟达Orin芯片,总算力达到1016 TOP
近年来视觉语⾔基础模型(Vision Language Models, VLMs)在多模态理解和⾼层次常识推理上 ⼤放异彩,如何将其应⽤于机器⼈以实现通⽤操作是具身智能领域的⼀个核⼼问题。这⼀⽬标的实现受两⼤关键挑战制约:
本文介绍了一项名为FERMAT的研究,旨在评估视觉语言模型(VLM)在检测、定位和纠正手写数学错误方面的表现。该研究设计了一个包含超过2,200个手写数学解决方案的数据集,并对九种不同的VLM进行了测试。结果表明,当前的VLM在处理手写文本时存在显著的局限性,
最近 AI 社区很多人都在讨论 Scaling Law 是否撞墙的问题。 其中,一个支持 Scaling Law 撞墙论的理由是 AI 几乎已经快要耗尽已有的高质量数据,比如有一项研究就预计,如果 LLM 保持现在的发展势头,到 2028 年左右,已有的数据储