我国推出开放式人工智能模型DeepSeek V3 -比GPT-4 o快

摘要：DeepSeek V3 可以处理各种文字处理任务，包括撰写文章、电子邮件、翻译和生成代码。开发人员进行的测试结果显示，该模型超越了大多数开放式和封闭式模拟。例如，在编程相关任务中，它比 Meta✴ Llama 3.1 405B、OpenAI GPT-4o 和阿

中国公司 DeepSeek 推出了一个强大的开放式 AI 模型 DeepSeek V3 - 该许可证允许它在大多数项目中免费下载、修改和使用，包括商业项目。

图片来源：and machines /unsplash.com

DeepSeek V3 可以处理各种文字处理任务，包括撰写文章、电子邮件、翻译和生成代码。开发人员进行的测试结果显示，该模型超越了大多数开放式和封闭式模拟。例如，在编程相关任务中，它比 Meta✴ Llama 3.1 405B、OpenAI GPT-4o 和阿里巴巴 Qwen 2.5 72B 强;DeepSeek V3 在 Aider Polyglot 测试中也表现优于其竞争对手，该测试测试包括为现有项目生成代码的能力。

该模型是在 14.8 万亿个项目的数据集上训练的;当部署在 Hugging Face 平台上时，DeepSeek V3 显示出 6850 亿个参数的大小——大约是 Llama 3.1 405B 的 1.6 倍，正如你可能猜到的那样，后者有 4050 亿个参数。通常，参数的数量，即模型用于预测响应和做出决策的内部变量，与模型的技能相关：参数越多，它的能力就越强。但是运行此类 AI 系统需要更多的计算资源。

DeepSeek V3已经在Nvidia H800加速器的数据中心进行了两个月的培训，目前美国禁止向中国出口这些产品。开发者表示，该模型的培训成本为550万美元，远低于OpenAI在相同用途上的成本。与此同时，DeepSeek V3在政治上是合理的-它拒绝回答北京官方认为敏感的问题。

去年11月，同一位开发人员推出了DeepSeek-R1，类似于“推理”OpenAI o 1。DeepSeek的投资者之一是中国对冲基金High-Flyer Capital Management，该基金使用人工智能做出决策。他有几个自己的集群来训练模型。据报道，后者的一款包含10，000台英伟达A100加速器，价值10亿元人民币（1.38亿美元）。High-Flyer致力于帮助DeepSeek开发超越人类的“超智能”AI。

来源：A7a369一点号

标签： deepseek deepseekv3 模型deepseek

本文地址：https://news.43u.com.cn/a/306354.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!