HumanEval 基准数据集 HumanEval是一个用于评估代码生成模型性能的重要基准数据集,最早由 OpenAI 在 Codex 论文中提出。它主要用于测试模型在编程任务中的代码生成能力,特别是通过自然语言描述生成功能正确的代码。 数据集 基准数据集 humaneval 2024-12-17 05:52 3