揭秘DeepSeek:极客的中国技术理想主义故事——科技企业必经之路

摘要：DeepSeek，这家曾被低估的中国大模型创业公司，最近再次掀起波澜。一年前，它因背后量化私募巨头幻方的强大计算资源而引发关注；如今，凭借一款名为DeepSeek V2的开源模型，它成为中国大模型价格战的导火索。这个模型的推理成本仅为每百万token 1元人民

DeepSeek，这家曾被低估的中国大模型创业公司，最近再次掀起波澜。
一年前，它因背后量化私募巨头幻方的强大计算资源而引发关注；如今，凭借一款名为DeepSeek V2的开源模型，它成为中国大模型价格战的导火索。这个模型的推理成本仅为每百万token 1元人民币，相当于Llama3 70B的七分之一，GPT-4 Turbo的七十分之一，因此被称为“AI界的拼多多”。

有趣的是，与大厂的烧钱补贴不同，DeepSeek不仅降价，还实现了盈利。这得益于它在架构上的突破：创新的MLA注意力机制将显存占用降至传统架构的5%-13%，自研的DeepSeekMoE稀疏结构进一步降低计算量。
这一创新也让DeepSeek在硅谷名声大噪，甚至被称为“来自东方的神秘力量”。多位顶尖分析师盛赞其技术突破，认为它可能成为中国AI领域的新标杆。
更特别的是，DeepSeek专注于技术开源，不涉足C端应用，也未融资，显得格外“另类”。但正因如此，它赢得了社区的自发传播，成为真正的黑马。

本团队基于AIGC原创科技公司概念图

DeepSeek正在逐渐成为中国大模型领域的一面旗帜。通过技术创新与社区共享，它不仅提升了全球对中国AI技术的认知，还为其他创业公司提供了创新的路径参考。

DeepSeek的许多决策都与众不同。截至目前，在中国的7家大模型创业公司中，它是唯一一家放弃“既要又要”路线，至今专注于研究和技术，未涉足面向消费者的应用的公司。它也是唯一一家未全面考虑商业化，坚定选择开源路线，甚至都没融资的公司。这些使得它经常被遗忘在牌桌之外，但在另一端，它又经常在社区被用户自发传播。

DeepSeek的成功案例表明，社会应当允许、包容甚至支持那些敢于冒险、走不寻常路线的人和团队去尝试。过去，跟随西方的代工、模仿、抄袭、低价内卷的模式已经走到了尽头。西方自身在资本红利期未能解决其结构性问题，因此我们不能再盲目跟随西方探索未来的道路。社会需要鼓励和保障具有极客精神、敢于走原创创新道路的人和团队。

国产大模型之前很少涉足架构层面的创新，也是因为很少有人主动去打破那种成见：美国更擅长从0到1的技术创新，而中国更擅长从1到10的应用创新。何况这种行为非常不划算——新一代模型，过几个月自然有人做出来，中国公司只要跟随、做好应用即可。对模型结构进行创新，意味着没有路径可依，要经历很多失败，时间、经济成本都耗费巨大。

DeepSeek显然是逆行者。在一片认为大模型技术必然趋同，跟随是更聪明捷径的喧哗声中，DeepSeek看重“弯路”中积累的价值，并认为中国的大模型创业者除应用创新外，也可以加入到全球技术创新的洪流中。

也许DeepSeek的阶段性成功，在未来往回看，可能是一次里程碑，也可能是一次重大转折点。

我们团队当然比不上顶级的AI创新企业。但是我们也开始领悟到“弯路”的重要性。踏实做好积累，做这个社会真正需要的内容，而不是沿着某种“安全路径”重复造轮子。

来源：地球村新讯

标签：极客 deepseek 理想主义

本文地址：https://news.43u.com.cn/a/366647.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!