GPT-4o能拼好乐高吗?首个多步空间推理评测基准:闭源模型领跑 为此,上海人工智能实验室联合同济大学与清华大学,提出了全新基准LEGO-Puzzles,以乐高拼搭为载体,首次系统评估现有多模态大模型(MLLMs)在多步空间推理(multi-step spatial reasoning)任务中的实际表现。 推理 评测 乐高 闭源 闭源模型 2025-04-23 11:04 3