nlrl

突破！自然语言强化学习（NLRL）：一个可处理语言反馈的强化学习框架

本论文由伦敦大学学院、上海交通大学、布朗大学、布里斯托大学、新加坡国立大学以及萨里大学的研究者合作完成。冯熙栋是论文第一作者，即将毕业于伦敦大学学院。目前是Google DeepMind的Research Scientist，主要研究方向包括强化学习与生成模型