摘要:几年前,37Signals 的联合创始人兼 CTO、也是 Ruby on Rails 的作者 David Heinemeier Hansson(DHH)算了一笔账:公司每年花在云服务上总共花费了 3,201,564 美元,相当于每月 266,797 美元,实在
整理 | 苏宓
出品 | CSDN(ID:CSDNnews)
几年前,37Signals 的联合创始人兼 CTO、也是 Ruby on Rails 的作者 David Heinemeier Hansson(DHH)算了一笔账:公司每年花在云服务上总共花费了 3,201,564 美元,相当于每月 266,797 美元,实在太烧钱了。于是在经过一番评估之后,他高调宣布,将带领团队“下云”——把服务从 AWS、Google 等云服务上迁回自建的数据中心。彼时粗略估算,这一决策将在接下来的 5 年里为公司节省至少 700 万美元。
自那以后,DHH 俨然成了“下云”路线的坚定拥护者,每年都会在博客或社交媒体上更新最新进展,分享他们脱离云厂商怀抱的具体做法和节省下来的成本。
这不,近日他在 LinkedIn 上更新了最新的动态:37signals 即将彻底告别 AWS,将 18PB 数据迁移到自家基础设施,自此将年度基础设施账单从开始时的 320 万美元压缩到远低于 100 万美元,完成了“云遣返”。
这不仅让人好奇,他们究竟是怎么做到的?这是否适用于其他公司?
“上云”成本太过高昂?
“在使用 AWS S3 超过十年之后,我们终于要说再见了。我们即将开始将 Basecamp、HEY 以及所有历史应用的数据(总计数个 PB 级别)迁移到全新的 Pure Storage 闪存设备上。”DHH 在帖子中说道。
37signals 是 Basecamp 和 HEY 等产品背后的公司。其中,Basecamp 是一款面向团队协作的 Web 项目管理平台,采用 SaaS 模式运营,服务于来自全球五大洲、166 个国家的用户,超过 75,000 家企业和组织在使用它,此前已在云端稳定运行十余年。
另一款产品 HEY 是一项功能全面的电子邮件服务,自推出之初几乎完全部署在云端。其架构中使用了 AWS 提供的一系列服务:包括通过 EKS 在 Kubernetes 集群中运行完整的 Rails 应用,通过 Aurora RDS 托管 MySQL 数据库,通过 Elasticache 提供 Redis 服务,并通过 OpenSearch 实现搜索功能。此外,37signals 的其他传统应用也依托 EKS 和 RDS 构建。
早在 2022 年,DHH 和他的团队就在裸机、虚拟机,还有 Kubernetes 容器上折腾过一圈,也试用了不少云厂商提供的服务。但一番尝试下来,他们发现,对像他们这样业务稳步增长的中型公司来说,长期租用云计算资源其实并不划算。
DHH 曾表示,「我们列出了 2022 年上云花费的具体明细,这是在高度优化、每月仔细审查、严重讨价还价之后还需要 320 万美元,但更久之前的账单是这笔金额的两倍多。我们几乎“榨干了柠檬中的每一滴水”,而且这是一个需要不断重复的工作。」
与此同时,运营商嘴里那些“降低复杂度、节省运维成本”的承诺,最后也都没兑现。
基于此,DHH 还重新做了成本对比。他发现,单是云端支出一年就高达 320 万美元,而若转为采购高性能 Dell 服务器并自行运维,成本则显著降低。
告别每年 150 万美元的存储费!
于是,他们在过去几年间陆续将应用“下云”迁移。
实践之下,他于 2024 年公布了首阶段成果:花费 70 万美元购入 Dell 服务器,承担原本部署在 AWS 上的计算工作负载,每年云账单节省约 200 万美元。
在取得初步成效后,DHH 再度加码——计划将存储在 AWS S3 上的数据迁移到自家的数据中心。
对此,就在今年 3 月,DHH 还发文道,“如果我们没能如期退出 S3,那就是每天 5,000 美元的代价。”
“目前,我们每年在 AWS S3 上的开支接近 150 万美元,用于托管 Basecamp、HEY 以及其他所有产品的文件。之所以能将价格压到这个水平,是因为我们签了一个为期四年的长期合约。而这份合约将在今年夏天的 6 月 30 日到期,这也是我们彻底“下云”的最后期限”,DHH 称,其已经在两个主要的数据中心安装好了替代方案——来自 Pure Storage 的设备,总共 18PB 的存储容量,并通过长距离复制确保安全性。
「那是一整柜高速 NVMe 存储模块,每块卡现在都能容纳 150TB 数据,堪称一柜美学。」DHH 说。
DHH 表示,采购 Pure Storage 这批设备共计花费 150 万美元,而年运维成本仅 20 万,“比每年烧掉 150 万轻松多了!”。随着这笔投入逐步摊销完,他预计节省效果会很快显现。
此外,选择 Pure Storage 系统的原因之一还是因为其兼容 S3 API,这使得他们从而无需像许多自建方案那样依赖 CEPH、Minio 等对象存储软件来运行在通用硬件之上。这一技术选择简化了应用层的迁移工作,降低了系统复杂度。
「到这里,我们每年的基础设施支出也从最初的 320 万美元压到了不到 100 万,相当于每年直接省下 200 多万。而且整个系统还是由原来的团队运维,没多一分人手。」DHH 补充道。
其实这个项目得以良好地开展,DHH 称也离不开 AWS 的帮助。因为 AWS 同意免除 25 万美元的数据传出费用(即下载数据时的费用)。Hansson 写道:“这花了点时间才获批,但最终我们争取到了。”
据外媒分析,AWS 取消数据传出费用的决定,或与 2024 年 3 月生效的《欧洲数据法案》密切相关。该法案要求云服务提供商移除用户在服务切换过程中面临的各种障碍,包括合同条款、技术限制和高昂的迁出费用。受此推动,AWS 在全球范围内取消了数据传输相关的附加收费。
DHH 表示:“等到所有数据顺利迁出,我们将在今年夏天彻底关闭 AWS 账号。到那时候,能够真正告别每年 150 万美元的 S3 账单,绝对值得大肆庆祝一番!”
“下云”引发的争议
DHH 总结道,“在某些情况下,云确实是个不错的选择,但整个行业通过花招让大家误以为云是唯一的出路。这也解释了为何云厂商和他们的广告、公关随处可见。他们在让人们相信‘拥有自己的硬件不现实’或‘运维 Linux 服务器太难’这件事上赚了太多的钱!”
不过,尽管 37signals 节省数字看起来令人振奋,外界也指出该计划尚未完全反映所有隐性成本,如硬件更新周期、额外运维负担、电力与冷却成本等。
实际上,早在 2016 年,Dropbox 就曾走出类似路径,把业务从 AWS 迁回自建数据中心,被视为混合云战略的成功典范。
但这类“去云”操作也并非毫无争议。
对此,医疗健康清算机构 Stedi 创始人 Zack Kanter 在 X 上发文指出,37signals 花费了两年半时间进行了一场近乎“曼哈顿计划”式的去云化尝试,目标是削减基础设施成本。然而,这一过程似乎是以几乎完全放弃人工智能功能为代价的——至少在其官网上,用户至今仍找不到相关功能的迹象。对任何成长型公司而言,机会成本始终不容忽视。
Zack Kanter 以上述提及的 Dropbox 为例,指出该公司早期通过将存储从 AWS 迁移到自建数据中心,成功节省了约 7500 万美元,成为混合云战略的经典案例。然而,Kanter 强调,这种分析忽视了一些关键问题,譬如:
1)为了维护基础设施,公司需要招募顶级工程师从事高度重复、缺乏差异化的底层工作,这将带来长期的文化成本和创新瓶颈;
2)一旦放弃使用云平台原生服务,企业构建的就是一套“非标准化”架构,而这类基础设施一旦形成,很难再被复用或轻松重建。
换句话说,表面看起来降低了销售成本(COGS),但实质上企业是用人力替代了 API。在多数情况下,与其通过招聘和管理成本昂贵的工程团队来自建底层能力,不如直接“用信用卡购买”那些按需可扩展、服务即人才的云能力。
Zack Kanter 称,几乎所有资金充裕的软件公司 CEO 都会告诉你,招人是当前发展的最大瓶颈。因此,将标准化服务迁回本地只会加剧这一瓶颈。相比之下,更优的策略是尽可能将人力成本转化为外部 API 成本。价格高低并非关键,核心在于效率和可扩展性。
此外,需要注意的是:利润率其实是一种相对概念。企业往往能通过会计手段灵活处理人工成本的归属(如将其计入研发费用),但云服务开支则被清晰地计入销售成本。结果是,去云化在账面上可能提升了毛利率,却未必真实反映企业长期价值。衡量一家公司的真正价值,最终还是要看企业价值(EV)和市场表现。Dropbox 就是一个具有代表性的案例。虽然其基础设施迁移在财务报表中改善了毛利率,但市场反应却较为冷淡。公司自 2014 年 C 轮估值达到 100 亿美元后,市值几乎没有明显增长。
造成这种现象的原因之一在于:Dropbox 的核心功能在那段时间被逐步商品化。而工程资源长期投入在节省成本的方向,也使其在产品创新上步履维艰。
Kanter 的看法:“一位年长且经验丰富的程序员曾教给我一个思路:把基础设施的开销按用户拆分来看。虽然这些数字在我个人的银行账户面前显得庞大,但如果你每年节省了 50 万美元,而这笔钱是用于服务一百万用户的,那么从单位成本来看,这几乎可以忽略不计。与此同时,迁移也意味着机会成本。所有投入到迁移工作中的人力,本可以用来开发新的、能带来收入的产品。我想这也是为什么在许多公司里,虽然云成本令人头疼,却往往难以排上优先级的原因。”
尽管如此,过去四年间,37signals 完成了从云计算到存储的全面迁回本地,节省了可观的成本。虽然外界对此评价不一,但这一探索无疑为其他中型技术公司提供了值得借鉴的实践。
值得注意的是,在不同阶段、不同体量、不同目标下,“云”与“本地”的优劣并非绝对,而是取决于对效率、控制、创新、成本的平衡判断。
那么,你怎么看这种“下云”的方式?
参考:
https://news.ycombinator.com/item?id=43936754
来源:CSDN一点号