科学家们使用DeepSeek

360影视 2025-02-04 04:19 2

摘要:DeepSeek-R1自1月20日发布以来,因其高效且低成本的特性,迅速引起全球科学界的关注。研究人员发现,DeepSeek-R1在解决数学和科学问题方面的能力与OpenAI 的o1模型相当。此外,DeepSeek-R1的开源性质使科学家能够根据自身需求进行定

DeepSeek-R1自1月20日发布以来,因其高效且低成本的特性,迅速引起全球科学界的关注。研究人员发现,DeepSeek-R1在解决数学和科学问题方面的能力与OpenAI 的o1模型相当。此外,DeepSeek-R1的开源性质使科学家能够根据自身需求进行定制和优化。

DeepSeek-R1 的低成本和开放性为研究人员提供了前所未有的便利。他们可以通过DeepSeek提供的应用程序接口(API)以极低的成本访问该模型。此外,研究人员还可以将模型下载到自己的服务器上进行本地运行和进一步开发,这在许多封闭源模型中是无法实现的。

自发布以来,DeepSeek-R1已被大量研究人员用于训练自定义推理模型。根据Hugging Face的数据,自发布以来,该网站已记录了超过 300 万次 DeepSeek-R1 不同版本的下载量,包括独立用户已构建的版本

在对DeepSeek-R1在数据驱动的科学任务上的初步测试中,研究人员发现该模型在数学和编程任务上表现出色。例如,在加州大学伯克利分校编写的数学问题集MATH-500中,DeepSeek-R1 达到了97.3%的准确率,超越了 96.3% 的人类参与者。然而,DeepSeek-R1 在某些任务上仍存在挑战,研究人员需要具备相关领域的专业知识,以有效利用该模型。

(提示:MATH-500:包含500个测试样本的MATH评测集,全面考察数学解题能力。LiveCodeBench:评估真实编程场景中代码生成和问题解决能力的高难度评测集。)

DeepSeek-R1 的发布引发了全球科技界的广泛关注。美国科技公司对其低成本和高效性能表示担忧,认为这可能对现有商业 AI 模型构成挑战。然而,DeepSeek-R1 的开源和低成本特性也被视为推动 AI 技术民主化的重要一步,使更多研究人员能够参与到 AI 的研究和应用中来。

科学任务

在对R1在数据驱动科学任务上的能力进行初步测试时(这些任务选自涉及生物信息学、计算化学和认知神经科学等主题的真实论文),Sun 表示该模型的表现与o1不相上下。她的团队要求这两个AI模型完成他们设计的一套名为ScienceAgentBench的题组中的20个任务,其中包括数据分析和数据可视化等任务。两种模型正确解决的挑战大约只有三分之一。Sun 还指出,通过 API 运行 R1 的费用比 o1 低 13 倍,但 R1 的“思考”时间比 o1 慢。

在数学领域,R1也展现出潜力。英国牛津大学的数学家和计算机科学家 Frieder Simon要求这两个模型在抽象的泛函分析领域构造一个证明,并发现R1的论证比 o1更有希望。不过,他表示,鉴于此类模型也会犯错,研究人员要想从中获益,必须具备辨别优劣证明的能力

对R1充满热情的很大原因在于它以“开放权重”方式发布,这意味着其算法中各部分之间学到的连接可以供后续构建利用。下载 R1 或者 DeepSeek 发布的体积更小的“蒸馏”版本的科学家们,可以通过额外训练(即微调)来提升模型在各自领域的性能。Sun 说,给定合适的数据集,研究人员甚至可以训练该模型以改善其在科学过程中特定编码任务上的表现。

参考

[1]https://www.nature.com/articles/d41586-025-00275-0?linkId=12723713

[2]https://huggingface.co/datasets/HuggingFaceH4/MATH-500

[3]https://github.com/openai/prm800k/tree/main?tab=readme-ov-file#math-splits

来源:NASA爱好者

相关推荐