突破！自然语言强化学习（NLRL）：一个可处理语言反馈的强化学习框架

摘要：本论文由伦敦大学学院、上海交通大学、布朗大学、布里斯托大学、新加坡国立大学以及萨里大学的研究者合作完成。冯熙栋是论文第一作者，即将毕业于伦敦大学学院。目前是Google DeepMind的Research Scientist，主要研究方向包括强化学习与生成模型

本论文由伦敦大学学院、上海交通大学、布朗大学、布里斯托大学、新加坡国立大学以及萨里大学的研究者合作完成。冯熙栋是论文第一作者，即将毕业于伦敦大学学院。目前是Google DeepMind的Research Scientist，主要研究方向包括强化学习与生成模型。刘博是本推文作者，新加坡国立大学二年级博士生，研究强化学习、推理及机器学习系统在复杂现实环境中的应用。