基准数据集

HumanEval 基准数据集

HumanEval是一个用于评估代码生成模型性能的重要基准数据集，最早由 OpenAI 在 Codex 论文中提出。它主要用于测试模型在编程任务中的代码生成能力，特别是通过自然语言描述生成功能正确的代码。