魔改AlphaZero后,《我的世界》AI老玩家问世,干活不用下指令

360影视 国产动漫 2025-04-12 18:33 2

摘要:表 3 比较了预训练模型和 SFT 模型以及基于 Assistance Games 的策略。作者使用结合 piKL 的人类模型对每个模型进行了超过 1000 轮评估,并报告了与表 1 相同的指标。预训练策略和 SFT 策略均略微减少了实现相似目标完成率所需的人

机器之心报道编辑:泽南、杨文人和智能体共享奖励参数,这才是强化学习正确的方向?大模型驱动的 AI 助手又升级了。本周五,科技圈正在围观一个陪你一起玩《我的世界》的 AI。表 3 比较了预训练模型和 SFT 模型以及基于 Assistance Games 的策略。作者使用结合 piKL 的人类模型对每个模型进行了超过 1000 轮评估,并报告了与表 1 相同的指标。预训练策略和 SFT 策略均略微减少了实现相似目标完成率所需的人类操作数量(约 4-5 个)。SFT 策略平均构建了约 3% 的目标结构。相比之下,使用 AssistanceZero 训练的策略将人类操作数量减少了约 65 个,同时提高了目标完成率;它构建了约 26% 的目标。作者还比较了 AI 助手与真人的表现。比较四种条件下的人类玩家:独自一人(无助手)、使用 SFT 策略、使用 AssistanceZero 训练的助手以及与专家人类助手一起进行游戏,每个参与者连续五次建造同一栋房屋。第一次用于练习,帮助受试者熟悉《我的世界》的操作和目标结构,随后受试者在四种条件下以随机顺序建造房屋。在每次互动结束后,受试者对其整体实用性进行评分,结果显示经过 AssistanceZero 训练的助手表现明显优于 SFT 助手,并接近人类基准。其中,参与者对 AssistanceZero 能够从纠正中有效学习的能力印象深刻。例如,在人类破坏一两个错误方块后,AssistantZero 也能破坏多个错误方块,相比之下 SFT 助手则完全没有帮助。伯克利的研究人员希望,基于 Assistance Games 的工作最终可以帮助大语言模型实现解决复杂问题的能力。参考内容:https://x.com/cassidy_laidlaw/status/1910708807258534008© THE END转载请联系本公众号获得授权原标题:《魔改AlphaZero后,《我的世界》AI老玩家问世,干活不用下指令》

来源:小楼会飞游戏

相关推荐