科学家打造“变分偏好学习”技术,将AI偏好辨识准确率提高10%
娜塔莎·雅克(Natasha Jaques)是美国华盛顿大学的助理教授。此前在美国麻省理工学院读博期间,她曾开发一种语言模型微调技术,后被用于OpenAI使用基于人类反馈强化学习(RLHF,Reinforcement Learning from Human F
娜塔莎·雅克(Natasha Jaques)是美国华盛顿大学的助理教授。此前在美国麻省理工学院读博期间,她曾开发一种语言模型微调技术,后被用于OpenAI使用基于人类反馈强化学习(RLHF,Reinforcement Learning from Human F