摘要:DeepSeek,这家曾被低估的中国大模型创业公司,最近再次掀起波澜。一年前,它因背后量化私募巨头幻方的强大计算资源而引发关注;如今,凭借一款名为DeepSeek V2的开源模型,它成为中国大模型价格战的导火索。这个模型的推理成本仅为每百万token 1元人民
DeepSeek,这家曾被低估的中国大模型创业公司,最近再次掀起波澜。
一年前,它因背后量化私募巨头幻方的强大计算资源而引发关注;如今,凭借一款名为DeepSeek V2的开源模型,它成为中国大模型价格战的导火索。这个模型的推理成本仅为每百万token 1元人民币,相当于Llama3 70B的七分之一,GPT-4 Turbo的七十分之一,因此被称为“AI界的拼多多”。
有趣的是,与大厂的烧钱补贴不同,DeepSeek不仅降价,还实现了盈利。这得益于它在架构上的突破:创新的MLA注意力机制将显存占用降至传统架构的5%-13%,自研的DeepSeekMoE稀疏结构进一步降低计算量。
这一创新也让DeepSeek在硅谷名声大噪,甚至被称为“来自东方的神秘力量”。多位顶尖分析师盛赞其技术突破,认为它可能成为中国AI领域的新标杆。
更特别的是,DeepSeek专注于技术开源,不涉足C端应用,也未融资,显得格外“另类”。但正因如此,它赢得了社区的自发传播,成为真正的黑马。
本团队基于AIGC原创 科技公司概念图
DeepSeek正在逐渐成为中国大模型领域的一面旗帜。通过技术创新与社区共享,它不仅提升了全球对中国AI技术的认知,还为其他创业公司提供了创新的路径参考。
DeepSeek的许多决策都与众不同。截至目前,在中国的7家大模型创业公司中,它是唯一一家放弃“既要又要”路线,至今专注于研究和技术,未涉足面向消费者的应用的公司。它也是唯一一家未全面考虑商业化,坚定选择开源路线,甚至都没融资的公司。这些使得它经常被遗忘在牌桌之外,但在另一端,它又经常在社区被用户自发传播。
DeepSeek的成功案例表明,社会应当允许、包容甚至支持那些敢于冒险、走不寻常路线的人和团队去尝试。过去,跟随西方的代工、模仿、抄袭、低价内卷的模式已经走到了尽头。西方自身在资本红利期未能解决其结构性问题,因此我们不能再盲目跟随西方探索未来的道路。社会需要鼓励和保障具有极客精神、敢于走原创创新道路的人和团队。
国产大模型之前很少涉足架构层面的创新,也是因为很少有人主动去打破那种成见:美国更擅长从0到1的技术创新,而中国更擅长从1到10的应用创新。何况这种行为非常不划算——新一代模型,过几个月自然有人做出来,中国公司只要跟随、做好应用即可。对模型结构进行创新,意味着没有路径可依,要经历很多失败,时间、经济成本都耗费巨大。
DeepSeek显然是逆行者。在一片认为大模型技术必然趋同,跟随是更聪明捷径的喧哗声中,DeepSeek看重“弯路”中积累的价值,并认为中国的大模型创业者除应用创新外,也可以加入到全球技术创新的洪流中。
也许DeepSeek的阶段性成功,在未来往回看,可能是一次里程碑,也可能是一次重大转折点。
我们团队当然比不上顶级的AI创新企业。但是我们也开始领悟到“弯路”的重要性。踏实做好积累,做这个社会真正需要的内容,而不是沿着某种“安全路径”重复造轮子。
来源:地球村新讯