摘要:DeepSeek V3 可以处理各种文字处理任务,包括撰写文章、电子邮件、翻译和生成代码。开发人员进行的测试结果显示,该模型超越了大多数开放式和封闭式模拟。例如,在编程相关任务中,它比 Meta✴ Llama 3.1 405B、OpenAI GPT-4o 和阿
中国公司 DeepSeek 推出了一个强大的开放式 AI 模型 DeepSeek V3 - 该许可证允许它在大多数项目中免费下载、修改和使用,包括商业项目。
图片来源:and machines /unsplash.com
DeepSeek V3 可以处理各种文字处理任务,包括撰写文章、电子邮件、翻译和生成代码。开发人员进行的测试结果显示,该模型超越了大多数开放式和封闭式模拟。例如,在编程相关任务中,它比 Meta✴ Llama 3.1 405B、OpenAI GPT-4o 和阿里巴巴 Qwen 2.5 72B 强;DeepSeek V3 在 Aider Polyglot 测试中也表现优于其竞争对手,该测试测试包括为现有项目生成代码的能力。
该模型是在 14.8 万亿个项目的数据集上训练的;当部署在 Hugging Face 平台上时,DeepSeek V3 显示出 6850 亿个参数的大小——大约是 Llama 3.1 405B 的 1.6 倍,正如你可能猜到的那样,后者有 4050 亿个参数。通常,参数的数量,即模型用于预测响应和做出决策的内部变量,与模型的技能相关:参数越多,它的能力就越强。但是运行此类 AI 系统需要更多的计算资源。
DeepSeek V3已经在Nvidia H800加速器的数据中心进行了两个月的培训,目前美国禁止向中国出口这些产品。开发者表示,该模型的培训成本为550万美元,远低于OpenAI在相同用途上的成本。与此同时,DeepSeek V3在政治上是合理的-它拒绝回答北京官方认为敏感的问题。
去年11月,同一位开发人员推出了DeepSeek-R1,类似于“推理”OpenAI o 1。DeepSeek的投资者之一是中国对冲基金High-Flyer Capital Management,该基金使用人工智能做出决策。他有几个自己的集群来训练模型。据报道,后者的一款包含10,000台英伟达A100加速器,价值10亿元人民币(1.38亿美元)。High-Flyer致力于帮助DeepSeek开发超越人类的“超智能”AI。
来源:A7a369一点号