vlm训练

从零搭一套可复现、可教学、可观察的RL for VLM训练流程，我们试了试

在过去的几个月中，越来越多的研究尝试将 RL Scaling 的成功应用扩展到视觉语言模型（VLM）领域 —— 刷榜、追性能、制造 “Aha Moment”，整个社区正高速奔跑，RL for VLM 的边界也在不断被推远。

训练 aha rl vlm vlm训练 2025-04-09 12:05 10