villa架构

比美国Figure AI更进一步！“稚晖君”团队抛出最新具身基座大模型GO-1，提出ViLLA架构

论文显示，该模型开创性地提出了一个Vision-Language-Latent-Action (ViLLA) 架构，由VLM(多模态大模型) + MoE(混合专家)组成，可以利用人类视频学习，完成小样本快速泛化，在现实世界的灵巧操作和长时域任务中展现出了卓越能