DeepSeek到底是真开源还是假开源?业内:已经有足够多细节学习

360影视 2025-02-02 22:11 2

摘要:近日,在国内某问答平台上,一则关于 DeepSeek 的提问登上问题热门排行榜。这一问题的描述是:“如何评价 DeepSeek 自称开源?但似乎并未开源(Open Source),仅为 Open Model?”

近日,在国内某问答平台上,一则关于 DeepSeek 的提问登上问题热门排行榜。这一问题的描述是:“如何评价 DeepSeek 自称开源?但似乎并未开源(Open Source),仅为 Open Model?”

那么,DeepSeek 是否真的只是“自称开源”?其开源程度到底如何?它的开源能否起到“一鲸落万物生”的作用?对于这两个问题,DeepTech 本次采访的五位 AI 专家无一例外均给出了正面回答。

谈 DeepSeek 开源:“没吃上猪肉,但至少近距离看了猪跑”

对于 DeepSeek 的开源,香港城市大学宋林琦教授十分形象地说:“我们这次虽然没能吃上猪肉,但是至少近距离的看了下猪跑。”其表示,此前他和团队一直关注 AI 领域的商业模式,其中最赚钱的往往是“卖卡”和“卖课”,即 GPU 硬件销售和 AI 课程销售。

而专注于 AI 技术研发和 AI 应用的企业则普遍面临盈利难题。DeepSeek 的贡献在于有效降低了大规模训练对于 GPU 资源的依赖,缓解了 AI 产业链中的关键瓶颈。

这一变革有望推动 AI 价值链的重塑,使 GPU 端长期积累的超额利润向 AI 技术和应用端转移,进而形成一个健康的商业闭环,助力 AI 产业的可持续发展。

此前曾在 Meta 担任 Staff 研究科学家、现任北京大学助理教授李萌也表示,从 DeepSeek 开源技术细节来说,对于他这样一名 AI 研究者来说,这里面已经有非常多的细节值得学习了。

他说:“我相信 DeepSeek 在工程中一定还有很多技术细节,例如数据如何清洗、训练过程的细节等。这些都需要很多额外的实验和探索。”

李萌表示,大模型的训练包括模型、训练框架、训练数据和其他训练细节。目前,DeepSeek 已经把模型架构和参数开源,而训练框架尤其是训练数据的开源在业界少有先例。

但是,DeepSeek 通过技术报告的形式,将 GPRO 等训练算法、目标函数等技术细节公布出来,对于大家理解整个训练过程很有帮助。同时,由于 DeepSeek 的模型能够被外界直接访问,这让外界 AI 开发者可以基于它去做模型复现,而这就已经足够难得。

事实上,大模型的复现并非易事。以 OpenAI 的 o1 模型为例,由于它没有公开任何技术细节,导致很多学界团队和业界团队都很难复现 o1 模型。但是,DeepSeek 的开源极大降低了外界 AI 开发者复现模型的难度,目前至少已有两支高校团队成功复现了 DeepSeek 的模型。

此外,李萌表示 DeepSeek-R1 的开源也让外界 AI 开发者可以更好地了解思维链(COT,Chain of Thought)技术在先进成熟模型上的应用,更让外界 AI 开发者不用再像以前那样只能在网上扒一些内容,因此可以说 DeepSeek 的开源迈出了大模型领域的重大一步。

浙江大学张克俊教授进一步指出, DeepSeek 开源地支持了思维链推理的模型,增强了复杂推理能力,能够助力 AI 研究者针对特定主题的深度探索;同时,该模型也在不断提升多领域适用性,不仅支持高质量内容生成,经过技术扩展后有望成为多任务处理的基础架构。

DeepSeek 开源:降低 AI 社区的资源门槛

“DeepSeek 的开源确实让外界 AI 开发者的研究成本降了不少。就像有人开玩笑所说的 DeepSeek 的模型是‘大模型界的拼多多’,因此特别适合高校团队。”香港大学黄超教授表示。

比如,在开发智能体和检索增强生成技术时,外界 AI 开发者可以直接使用 DeepSeek 开源的预训练模型和框架,这比使用 GPT 系列模型具有更大的成本优势。这不仅让更多资源有限的外界 AI 开发者也能参与到大模型研究中,更能让他们把更多精力放在创新和优化上。

之前,很多 AI 技术掌握在业界大厂手里。AI 学界由于 GPU 资源等限制,没有办法去尝试一些新想法。

这曾让宋林琦和团队在提出新的课题想法时,根本不知道什么样的技术 work、什么样的技术不 work。而现在,通过 DeepSeek 的开源技术再叠加 DeepSeek 开源的低成本训练技术,比如混合专家、大模型小型化技术的蒸馏、量化压缩、对齐机制、多任务注意力混合架构、去随机负载平衡等,能让宋林琦这样的外界 AI 开发者进行更快速的试错。

同时,DeepSeek 模型的开源也会让 AI 相关应用受益。其所使用的高效训练方法以及由此打造的更小型化的模型,不仅意味着更低的算力需求,也直接降低了 Token 成本,这让大模型的推理和生成变得更加经济高效。对于需要长期调用大模型进行复杂计算的应用场景而言,这具有极大的价值。

比如,在 AI for Science 领域,大模型已被广泛用于蛋白质结构预测、材料科学模拟、分子动力学计算等方向,而计算成本的降低也意味着更多科研团队均能负担得起高精度的 AI 计算,这让其可以使用更高效的小型化大模型完成类似任务,在提高研究效率的同时还能扩大 AI 的应用范围,同时还能加速科学发现的进程。

再比如,在 AI for Math 领域,大模型已被用于自动解题、数学证明生成、优化数学推理能力等任务,在数学教育和数学科研中的作用愈发凸显。

而 DeepSeek 在降低 AI 训练和降低推理成本上的突破,也能降低上述研究的资源门槛。

DeepSeek 开源:让 AI 开发者看到更多可能

香港大学黄超教授表示,目前其团队已经开始用上 DeepSeek。其表示,DeepSeek 的工具和模型确实很给力。比如,在开发一些复杂任务时,DeepSeek 模型的效果还算不错,也让外界 AI 开发者看到了基于更多大模型基础能力开展探索和应用落地的可能。特别值得一提的是,DeepSeek-R1 模型使用强化学习来增强模型推理能力的设计,这和黄超团队的研究方向特别契合。之前,他和团队也曾尝试使用低成本的强化学习方法,以让模型在 Agent 任务中表现得更好,比如让 AI 在复杂环境中做出更聪明的决策等。而 DeepSeek- R1 所采用的奖励函数设计方案以及如何在不增加太多计算开销的情况下提升模型的推理能力等方法,都给其带来了较多启发。接下来,他和团队打算继续基于 DeepSeek 做一些更有意思的探索。

比如通过结合使用 DeepSeek 的强化学习方法看看能否让 Agent 在多轮对话中表现得更“聪明”,再比如研究如何在一些需要长期规划的复杂任务中让 Agent 表现得更好等。“总之,DeepSeek 不仅帮我们节省了成本,还让我们看到了更多可能性,感觉接下来的研究会越来越有趣。”黄超表示。

DeepSeek 模型在众多任务中极佳的性能-效率平衡,让人们看到了多专家模型、知识蒸馏、课程学习等技术的优势。因此,宋林琦团队打算结合自身经验,探索 DeepSeek 模型在 AI 模型训练以及推断效率领域的技术探索。

基于公开报道以及实际使用感受,他认为 DeepSeek 目前主要通过关键词过滤等方式对输出内容安全进行控制。但是,如何更好地保障内容的安全生产对于上下游的应用依旧十分重要。因此,他和团队将针对模型的价值观对齐开展研究,以便提升模型的自我监管能力,争取能在更大程度上降低偏见内容和有害内容的输出。

上海交通大学长聘教轨副教授王铮表示:“DeepSeek 这类‘好用又便宜’的大模型非常值得研究和应用。我的研究主要聚焦于数据挖掘和大数据技术领域。在 ChatGPT 刚发布的时候,我们曾经估算过在大数据场景下其使用成本会是天文数字。为此,我们实验室发起了 rLLM 项目,开展大数据与大语言模型高效协同的探索。未来,我们计划进一步研究如何结合各大模型的领域优势与推理成本,以实现大模型智能数据分析的最佳性价比。”

与此同时,本文的五位受访者都是高校老师,因此他们一方面都希望自己的研究能够影响到业界,另一方面也希望自己培养出来的学生能够回馈到产业。

李萌表示,对于大模型的业界开发者来说,如果只做工程等于是必死无疑。因为,大模型不仅需要工程能力,还需要学术研究能力。而对于没有太多 GPU 的学界来说,基于 DeepSeek 同样能有很多研究方向值得探索。

通过和产业界的合作,学术界能够帮助业界解决新的问题,同时也有助于培养学生,未来能更好地走到产业中去。

《金融时报》的一篇评论文章也肯定了 DeepSeek 的开源,该文章写道:“让我们把这视为历史上的一个时刻。1440 年,约翰内斯·古腾堡(Johannes Gutenberg)将印刷机带到了欧洲,这一发明打破了之前由精英掌握的知识垄断。DeepSeek 的成就延续了这一使信息更易获取的传统。其低成本推理模型证明 AI 可以属于每个人,而不仅仅是那些囤积代码、芯片和资本的人。”

参考资料:

运营/排版:何晨龙

来源:DeepTech深科技

相关推荐