来自美国的新 AI 模型超越中国的 DeepSeek V3

摘要：Ai2，非营利组织位于西雅图的人工智能研究所（Artificial Intelligence Research Institute）发表据开发人员称，这个神经网络能够超越 DeepSeek V3 已经在全球掀起了波澜。

Ai2，非营利组织位于西雅图的人工智能研究所（Artificial Intelligence Research Institute）发表据开发人员称，这个神经网络能够超越 DeepSeek V3 已经在全球掀起了波澜。

开发人员声称，在 PopQA 基准测试中，包含一组 14,000 个维基百科知识问题，Tulu 3 405B 的性能不仅优于 DeepSeek V3 和 GPT-4o，还优于 Llama 3.1 405B 模型。在其 GSM8K 测试课程，包含小学水平的数学问题。

根据内部测试，Tulu 3 405B 也领先于 OpenAI 的 GPT-4o 通过一些指标。此外，与最新的 Tulu 3 405B 不同是开源的。AI 模型包含 4050 亿个参数，而其训练需要 256 个 GPU 并行运行。

Tulu 3 405B 神经网络的主要特点之一是强化和可验证奖励（RLVR）。这意味着 AI 模型在具有可验证结果的任务上进行了训练，例如解决数学问题和遵循指示。

Tulu 3 405B 可用于通过 Ai2 聊天机器人 Web 应用程序进行测试，训练代码可以在 GitHub 和 Hugging Face 平台上。

来源：A7a369

标签：模型 deepseek deepseekv3

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!