status

人类最后一次考试,AI惨败正确率<10%!数百顶级专家联手出题,DeepSeek竟是王者

AI实验室有新榜单可刷了,跃跃欲试如果模型在HLE中获得高分,将表明模型在封闭式、可验证的问题以及前沿科学知识方面的专家级表现,但这并不意味着模型具备自主研究能力或「通用人工智能」(AGI)。HLE测试的是结构化的学术问题,而非开放式研究或创造性问题解决能力,

考试 deepseek status 2025-01-26 09:54  9