摘要:近日,李开复在接受《南华早报》采访时表示,他的公司已放弃此前训练自研万亿大语言模型的策略,转而完全依赖 Deepseek 的开源模型。
大数据文摘出品
近日,李开复在接受《南华早报》采访时表示,他的公司已放弃此前训练自研万亿大语言模型的策略,转而完全依赖 Deepseek 的开源模型。
他还介绍,Deepseek 的发布在中国引发了“ChatGPT 时刻”,激发了人们对 AI 应用的广泛热情。这一变化促使众多中国硬件和软件供应商调整策略,将其服务与 Deepseek 模型对接。
“我们必须把 Deepseek 作为核心发展方向,”李开复说道。这一决定是在今年 1 月下旬作出的,当时中国众多企业高管对 Deepseek 模型的需求激增。
另外,据科技媒体 转述,李开复认为,Deepseek 采取免费、开源的模式,对 OpenAI 构成了根本性的挑战。“对 Sam Altman 来说,最大的噩梦就是他的竞争对手是免费的,”李开复表示。“我已经遇到很多人,他们因为 Deepseek 是免费的而取消了 ChatGPT 订阅。”
"The biggest nightmare for Sam Altman is that his competitor is free," Lee says. "I've already met many people who have canceled their ChatGPT subscriptions because Deepseek is free."目前,李开复的初创公司零一万物共有 200 多名员工,未来将专注于为企业客户定制 Deepseek 模型,重点服务金融、游戏和法律行业。
同时据科技媒体 报道,李开复还有如下观点:
“只有当一个预训练模型能够吸引数亿用户时,它的价值才真正成立,”李开复说道。“所以,阿里巴巴可以做到,Google 可以做到,Deepseek 可以做到,字节跳动也可以做到,但我们这些公司做不到。”
尽管战略方向发生了变化,李开复仍强调零一万物在技术上的核心竞争力。“如何训练模型、如何调整参数、如何进行强化学习、如何实现快速推理?这一最后一步,只有具备大模型能力的公司才能做到。”
在另一场接受彭博社的采访中,李开复强调了美国和中国大语言模型领域正在进行的整合趋势。他预测,开源模式最终将占据主导地位,而大模型的预训练将仍然仅限于少数几家主要公司。
李开复指出 OpenAI 和 Deepseek 之间在运营成本上的巨大差异。据报道,OpenAI 在 2024 年的运营成本高达 70 亿美元,而李开复称 Deepseek 仅需其中的 2% 左右。
“问题并不在于谁的模型比对手强 1%。我认为它们都已经非常优秀了。但真正的问题是,OpenAI 的模式是否可持续?”李开复表示。
他形容 Deepseek 为“可以无限持续”的企业,因为其创始人拥有足够的资金来维持当前运营,并且计算成本已降低了 5 到 10 倍。“面对这样一个强劲的竞争对手,我想 Sam Altman 可能睡得不太安稳。”李开复说道。
图片来源:新华社
在大模型领域,Deepseek算得上是最争气的娃。这两天它发布了 全新升级的 AI 模型,进一步提升编程能力。
这次的发布是,DeepSeek-V3 模型的升级版 DeepSeek-V3-0324,参数规模从原版 V3 的 6710 亿略微提升至 6850 亿。与此同时,DeepSeek 还调整了该模型的开源许可协议,改为 MIT 许可证,与此前的 DeepSeek-R1 模型保持一致。
最新的 V3-0324 版本在多个基准测试中实现了重大性能提升”,并针对以下关键领域进行了优化:
前端 Web 开发
中文写作能力(新增“互动式改写”功能)
中文搜索能力(增强报告分析功能)
图注:新版 V3 模型的百科知识(MMLU-Pro, GPQA)、数学(MATH-500, AIME 2024)和代码任务(LiveCodeBench)表现均有提升
据 DeepSeek 介绍,此次更新已在 开源 AI 社区平台 Hugging Face 上发布,新模型不仅能够应对现实世界的复杂挑战,还在准确性和效率方面树立了新的行业标准。
前端开发能力增强
在 HTML 等代码前端任务上,新版 V3 模型生成的代码可用性更高,视觉效果也更加美观、富有设计感。
动图展示了一个由模型生成的演示多个小球在指定空间范围内运动的 p5.js 程序,包含若干可以调整重力、摩擦力等参数的滑动按钮,并以赛博朋克风格的 HTML 呈现
中文写作升级
在中文写作任务方面,新版 V3 模型基于 R1 的写作水平进行了进一步优化,同时特别提升了中长篇文本创作的内容质量。
上下滑动查看全文
中文搜索能力优化
新版 V3 模型可以在联网搜索场景下,对于报告生成类指令输出内容更为详实准确、排版更加清晰美观的结果。
上下滑动查看完整内容
上下滑动查看全文
今年 1 月,DeepSeek 发布的 R1 模型 以性能媲美 OpenAI 顶级产品的表现,引发了业界轰动,并一度登顶 苹果美国 App Store 免费榜。这一现象甚至导致美国市场的 AI 概念股集体下跌。
DeepSeek 表示,其最新 V3 模型的训练成本仅为 600 万美元,远低于 OpenAI 训练 GPT-4 所花费的 1 亿美元,同时使用的算力仅为 Meta 训练 Llama 3.1 的 10%。这一低成本、高效率的策略,使 DeepSeek 成为全球 AI 领域 极具竞争力的挑战者。与完全开源 AI 不同,DeepSeek 模型采用 “开放权重” 机制,允许开发者在一定限制下使用和修改模型,而非完全开放源代码。
via https://www.scmp.com/tech/tech-trends/article/3303403/ai-entrepreneur-lee-kai-fu-bets-his-start-ups-future-deepseek-and-open-source?module=top_story&pgtype=section
GPU算力按需租用
A100/H100 GPU算力按需租用,
秒级计费,平均节省开支30%以上!
来源:大数据文摘