写点什么

疯狂马斯克的“极限”计划居然成功了?!“下云”后成本降低 60%,部分功能代码精简 90%,30 天急速迁移服务器

  • 2023-10-30
    北京
  • 本文字数:4946 字

    阅读完需:约 16 分钟

大小:2.35M时长:13:40
疯狂马斯克的“极限”计划居然成功了?!“下云”后成本降低60%,部分功能代码精简90%,30天急速迁移服务器

AI 大模型超全落地场景&金融应用实践,8 月 16 - 19 日 FCon x AICon 大会联诀来袭、干货翻倍!

2022 年 10 月 27 日,经历了长达半年的拉锯战之后,马斯克终于将 Twitter(现已更名 X)收归囊中,这笔 440 亿美元的收购案也终于迎来了大结局。入主 Twitter 后,马斯克进行了大刀阔斧的改革,如今一年过去了,Twitter 发生了哪些变化?

 

2023 年 10 月 27 日,X 工程技术发布帖子称,过去一年是 X(Twitter)平台全面推进工程技术探索的一年。除了大家在 X 应用端看到的直观调整之外,团队还在幕后完成了以下一系列重要改进。其中包括:

 

  • 关闭萨克拉门托数据中心,并重新配置了 5200 台机架和 14.8 万台服务器,每年节约超 1 亿美元。共释放出 48 兆瓦的功率配额、拆除重达 6 万磅的网络梯架,必要设备后续将被重新配置至其他数据中心。

  • 优化了 X 的云服务使用方式,着手将更多工作负载迁往本地基础设施。这一转变使 X 每月的云成本降低了 60%。所有媒体/blob 工作均已下云,这让 X 的整体云数据存储量缩减了 60%,还成功将云数据处理成本降低了 75%。

 

此外,X 还发生了以下变化:

 

  • 围绕单一产品框架整合了 For you(为您推荐)、Following(关注)、Search(搜索)、Profiles(个人资料)、Lists(列表)、Communities(社区)和 Explore(探索)等技术栈。

  • 从头开始全面重建了 For you 服务与排名系统,代码行数从 700K 缩减至 70K精简比例高达 90%,计算占用量降低 50%,根据请求得分计算的帖子吞吐量增长了 80%。

  • 统一了 For you 和视频个性化及排名模型,显著提高了视频推荐的质量。

  • 重构了技术栈内的 API 中间件层,通过删除超 10 万行代码和数千个未实际使用的内部端点、清理未采用的客户端服务等方式完成了架构简化。

  • 精简后的元数据获取延迟降低了 50%,全局 API 超时错误减少了 90%。

  • 阻断 bot 和内容抓取的速度较 2022 年提高了 37%。平均而言,X 每天阻断超 100 万次 bot 注册攻击,并将直接垃圾邮件减少了 95%。

  • 构建本地 GPU 超级计算集群,并设计、开发和交付了 43.2 Tbps 的新网络体系架构以支持这些集群。

  • 扩展网络主干容量与冗余,每年节约 1390 万美元。

  • 开始进行自动峰值流量故障转移测试,用以持续验证整个平台的可扩展性与可用性。

 

自接手 X 以来,马斯克为了缩减成本挖空心思,其中包括裁员、推行“极端硬核”企业文化、拖欠办公室租金……在公司的运营开支方面,马斯克去年刚接手 X 时便指示团队通过削减云服务和额外的服务器空间,力争每天在基础设施上节省 300 万美元。

省钱大法一:云服务太贵了,马斯克要“下云”

 

2020 年 12 月,Twitter 宣布将使用亚马逊云科技为其主时间线提供支持。当时的消息称这将是一份“多年期”协议,但没有透露任何具体数字。彼时 Twittr 公司 CTO Parwal Agrawal 在一份声明中表示,Twitter 和亚马逊云科技将合作扩展该社交媒体的基础设施、加快功能发布速度,并扩大其功能组合。

 

据 The Information 2023 年 3 月报道,这笔交易为期五年半,合同总值 5.1 亿美元。根据报道,无论是否使用相应容量,Twitter 都同意向亚马逊云科技付费。而且亚马逊云科技不愿就具体条款进行重新谈判。根据交易细则,Twitter 的月度亚马逊云科技支出大约在 773 万美元

 

如今,Twitter 已经不再使用亚马逊云科技的实时时间线功能,转而选择了 AWS for Spaces 等其他服务。Twitter 后续可能使用 Google Cloud Platform(GCP)运行其时间线业务。根据 Twitter 与亚马逊云科技之间签订的合同细节,马斯克执掌的社交媒体巨头还计划使用:

 

  • 亚马逊云科技云基础设施,用于补充 Twitter 的本地功能,帮助该公司在全球范围内扩展其实时服务。

  • 采用 Amazon Elastic Compute Cloud (Amazon EC2)服务中基于 Arm 架构的亚马逊云科技 Graviton 2 实例,以运行其云工作负载。

  • 借助亚马逊云科技容器服务,Twitter 将在其混合基础设施当中统一构建并交付新的功能和服务。

  • Amazon CloudFront,即亚马逊云科技的超高速内容交付网络(CDN)服务,能够以低延迟、高速率向全球客户分发数据、应用程序、视频和 API。

  • Amazon DynamoDB,即亚马逊云科技的键值数据库,可大规模提供个位数毫秒级性能。

 

目前,Twitter 已经与谷歌签订了一份价值 10 亿美元的合同,且相关承诺早在与亚马逊云科技合作之前就已敲定。另据报道,Twitter 将在 2023 年向谷歌支付总计 3 亿美元,这也是总价值约 10 亿美元的多年期合作协议的一部分。

 

随着马斯克入主 Twitter 并开启削减成本计划,Twitter 的基础设施支出大幅减少。根据题为“深度削减成本”的 Slack 内部消息,Twitter 计划从云服务和服务器容量方面入手,省下 150 万到 300 万美元。此外,Twitter 还试图与亚马逊云科技、Google Cloud 以及甲骨文就合同内容展开重新谈判,但供应商们纷纷表示拒绝。

 

根据最新公告,马斯克通过将工作从云端转移到 Twitter 自己的服务器上,每月的云成本降低了 60%,整体云数据存储量缩减了 60%,还成功将云数据处理成本降低了 75%。

下云就能解决问题?

 

近年来,为了节省成本,不少公司开始下云。不过,并非所有公司都适合下云,需要结合自身实际业务情况来做判断。比如,GitLab 在 2016 年底时候就表示计划要“下云”,不过团队“在收到数百条充满建议和警告的评论和邮件后,最后还是决定将 GitLab.com 保留在云端。

 

此外,37signals 旗下一款流行的基于云服务的项目管理软件 Basecamp 也曾想“下云”。Basecamp 的上云历程已经超过十年,而且其前两年发布的产品 HEY 也一直在云端运行。但 Basecamp & HEY 联合创始人 David Heinemeier Hansson 发文表示将要“下云”。

 

“我们用过亚马逊云科技、也用过谷歌云,试过裸虚拟机、也体验了 Kubernetes 容器编排。我们知道云能提供哪些功能,其中大部分都有实际应用。现在我们终于得出结论:对于像我们这样一家增长稳定的中型企业来说,租赁基础设施资源总体上看是笔糟糕的买卖。云服务商做出的降低复杂性、控制运营成本等承诺从来就没能实现,所以我们正在筹划脱离云端、重归本地。”

 

不过,在 David Heinemeier Hansson 撰写的关于离开云计算的思考中,他特别提到了两个情况是不能离开云计算的。一种是流量极低,一种是复杂不均衡:

 

  • 第一个极端是当您的应用程序非常简单且流量很低,通过使用完全托管的服务来降低复杂性确实能够节省成本。这是 Heroku 铺就的道路,也是 Render 等其他服务商所追随的道路。当您没有客户时,这是一个绝佳的起点,即使在您开始拥有一些客户后,它仍能推动您的业务发展。(然后,一旦使用量激增,账单飙升到天际线上时,您可能会面临一个好问题,但这是一个合理的权衡。)

  • 第二个极端是当您的负载非常不规则时。当您的使用量出现剧烈波动或巨大峰值时。当基线只是您最大需求的一小部分时。或者当您不知道您需要十台服务器还是一百台时。在这种情况下,没有什么比云端更好了,就像我们在推出 HEY 时学到的那样,突然有 30 万用户在三周内注册尝试我们的服务,而我们的预测是六个月内有 3 万用户。

省钱大法二:数据中心大迁移

 

为了节省成本,去年 12 月,马斯克还关闭 Twitter 加州数据中心。

 

据悉,在平安夜前夕,纳斯克飞往加利福尼亚州的萨克拉门托——Twitter 三大主要计算存储设施之一的所在地——切断了维持该社交网络平稳运行的服务器。有知情人士表示,虽然有员工担心关闭这些服务器可能导致各种问题,但节省资金是首要任务。

 

随后,世界各地的用户报告 Twitter 服务中断。一些用户反馈 Twitter 出现很多奇怪的错误消息,比如看到空白页面、无法回复推文或关注热门话题,还有人被迫退出登陆。有熟悉 Twitter 基础设施的人士表示,如果萨克拉门托的设施仍在运行,它就可以在其他数据中心出现故障时提供备份计算能力,从而帮助缓解问题。

 

此外有消息称,当时马斯克为了省钱,计划将萨克拉门托的服务器搬到波特兰,基础设施团队称这项工作至少要九个月才能完成,马斯克一怒之下直接搭乘私人飞机跑去机房,拔了网路线与电源就搬上大卡车开始转移,最后整个工作一个月就完成了。

 


在今年 9 月出版的《埃隆·马斯克传》中,详细讲述了马斯克亲自迁移服务器的故事(节选,经编辑):

 

2022 年 12 月 22 日深夜,位于 X 公司 10 楼的会议室,马斯克正在与两名基础设施经理进行紧张的交谈。

 

位于萨克拉门托的一家数据服务公司允许 X 公司延长其服务器租约,以便在 2023 年有序迁出。一名显得有些紧张的基础设施经理告诉马斯克:“今天早上,他们回来告诉我们说这个计划不再适用,因为他们认为我们在财务上不再稳健。”

 

这个设施每年花费 X 公司超过 1 亿美元。马斯克想通过将服务器迁移到 X 公司在俄勒冈州波特兰的其他设施来节省这笔费用。另一位经理表示这项工作不能立即进行。她平静地说:“我们至少需要六到九个月的时间,因为萨克拉门托仍然需要服务流量。”

 

马斯克沉默了几秒钟,然后宣布:“你们有 90 天时间来完成这项任务。如果你们做不到,你们可以辞职。”这名经理开始详细解释迁移服务器到波特兰的障碍。“机架密度不同,电力密度也不同,”她说。“所以机房需要进行升级。”她开始详细介绍更多原因,但被马斯克打断。“这让我的大脑感到压抑,”马斯克说道,“你知道头爆炸的表情符号吗我的脑袋现在就是这个感觉。真是一堆屁话。波特兰明显有大量的空间,从一个地方迁移到另一个地方简直小菜一碟。”

 

“你们需要做的就是将服务器迁移到波特兰,”马斯克说道,“如果超过 30 天,我会很震惊。”他停顿了一下,重新计算。“找一家搬家公司,运输电脑需要一个星期,然后再花一个星期来连接它们。两周。就应该这样。”

 

所有人都默不作声。但马斯克仍在发火。“如果你们租了一个 U-Haul (一家租车公司),你们可能自己就能完成。”两位 X 公司的经理看着他,试图判断他是否是认真的。马斯克的两位亲密助手 Steve Davis 和 Omead Afshar 也在场。他们多次看到过他这样,知道他可能真的这么认为。

 

12 月 23 日星期五晚上,James 和他的弟弟 Andrew(马斯克的表弟)与马斯克一起从旧金山飞往奥斯汀,当飞机飞过拉斯维加斯时,James 提出了一个建议,他们现在就可以移动服务器。一个名为 Alex 的来自乌兹别克斯坦的 X 员工帮助他们进入了 X 公司的数据中心,内部共有大约 5200 个冰箱大小的机架,每个机架有 30 台电脑。每个机架重约 2500 磅,高 8 英尺。但马斯克认为“这些东西看起来并不难移动”,他向保安借了一把小刀,抬起地板上的一个通风口,这让他可以撬开地板面板。然后他爬到服务器下面,用小刀撬开了一个电箱,拔掉了服务器插头,等着看会发生什么。没什么异常发生。服务器已经准备好迁移。

 

第二天——圣诞前夜,马斯克召集了增援。Ross Nordeen,与他的朋友 James 在 Tesla 工作,从旧金山驱车而来。他在联合广场的 Apple Store 花了 2000 美元,买下了所有的 AirTags,这样服务器在迁移过程中就可以被跟踪。然后他去了家得宝,花了 2500 美元买了扳手、断线钳、头灯和拧下地震螺栓所需的工具。

 

Steve Davis,马斯克的忠诚副手,找人租了一辆半挂车,并安排了搬家车。其他来自 SpaceX 的援助队员也已到达。这些服务器机架都有轮子,所以团队能够断开其中四个并将它们推到待命的卡车上。这表明,这五千两百多个服务器可能在几天内全部移动。 “伙计们干得好!”马斯克兴高采烈地说。

 

到这周结束时,他们已经使用了萨克拉门托所有可用的卡车。尽管该地区受到了雨的袭击,他们在三天内移动了 700 多个机架。该设施之前的记录是一个月移动 30 台。这仍然留下了大量的服务器在设施中,但这群人已经证明了它们可以被快速移动。其余的部分在 1 月份由 X 公司的基础设施团队处理。

 

马斯克的疯狂举动引发了不少争议。网友海狗油 90 认为,“几乎没有人明白数据中心搬迁要搬的是服务、数据,而不是服务器本身,也不明白 X 这样的公司,服务连续性、数据一致性值多少钱。”

 

网友酷憋哥评论称:“除了证明马斯克胆子大,这个案例没有什么正面的意义,试想一下,哪个普通打工人可以做出这么鲁莽的决定?他或她是否能承担由这种行为导致的严重后果?所以最终只有老板能做这种事情,只要他愿意。”


参考链接:

https://twitter.com/XEng/status/1717754398410240018

https://www.cloudzero.com/blog/twitter-aws

https://twitter.com/thecat/status/1705860673149059115

https://weibo.com/1727858283/NkRTyymTQ

https://mp.weixin.qq.com/s/7xdSNegYf9zoH7tB8jMDuQ

公众号推荐:

AIGC 技术正以惊人的速度重塑着创新的边界,InfoQ 首期《大模型领航者AIGC实践案例集锦》电子书,深度对话 30 位国内顶尖大模型专家,洞悉大模型技术前沿与未来趋势,精选 10 余个行业一线实践案例,全面展示大模型在多个垂直行业的应用成果,同时,揭秘全球热门大模型效果,为创业者、开发者提供决策支持和选型参考。关注「AI前线」,回复「领航者」免费获取电子书。

2023-10-30 15:0413134

评论 6 条评论

发布
用户头像
除了他的第一性原理,spaceX有一帮他的能干兄弟也很关键
2023-11-21 12:02 · 浙江
回复
用户头像
老板说的都对,这结果也只有老板可以承担。
2023-11-13 15:45 · 湖南
回复
用户头像
用 Twitter 快十年了,最近看到的广告和垃圾推文是史上最多。
2023-11-04 09:06 · 上海
回复
用户头像
得罪了广告主,没人愿意在上面投放广告了。这X恐怕还要贬值。
2023-11-04 09:01 · 美国
回复
用户头像
就是这样搞,所以X估值现在就220亿了。钱是省了,但是总估值也减了一半。理论上现在买就只要220亿了。
2023-11-04 09:00 · 美国
回复
用户头像
只有不信邪的马斯克老板才敢这么降本增效。形势比人强,老板管形势。
2023-10-31 07:21 · 北京
回复
没有更多了
发现更多内容

大咖汇聚,KaiwuDB 邀您共话 AI+ DB 发展新趋势

KaiwuDB

KaiwuDB AIDB

云桌面如何部署?云桌面系统方案部署详细教程

青椒云云电脑

云桌面 云桌面系统

低代码平台技术分享官丨工作流应用场景之任务交接

inBuilder低代码平台

工作流 低代码

公链技术开发

西安链酷科技

区块链技术 区块链技术开发 公链开发 公链团队

回归营销初心,2023金投赏鲸鸿动能专场聚焦品牌重塑

最新动态

什么是多云? 为什么我们需要多云可观测性 (Observability)?

NineData

多云服务 多云架构 多云管理 多云 多云多源

披荆斩棘的芒果 TV:基于 StarRocks 的云原生湖仓架构升级

StarRocks

实现即时沟通与协作的全功能IM即时通讯系统

WorkPlus

9月活动回顾(免费领取PPT)|火山引擎DataLeap、ByteHouse多位专家带来DataOps、实时计算等前沿技术分享!

字节跳动数据平台

数据库 大数据 火山引擎 DataLeap 企业号10月PK榜

天谋科技时序数据库 IoTDB 与 openEuler 操作系统完成兼容性互认证

Apache IoTDB

WorkPlus安全专属的企业IM助力政企高效协作

WorkPlus

区块链交易所开发

西安链酷科技

数字货币合约交易所开 交易所 合约交易所开发

数字货币 加密货币开发公司 虚拟币发行

西安链酷科技

加密货币 数字货币钱包开发 IDO代币预售

深入浅出了解华为云API网关的Gzip功能

华为云PaaS服务小智

云计算 软件开发 API 华为云

体育赛事直播平台源码解决方案,开发搭建系统架构的重要组成部分

软件开发-梦幻运营部

持续测试新范式:拨压测一体化

阿里巴巴云原生

阿里云 云原生 压测 拨测

语音识别技术:现状、挑战与未来发展

来自四九城儿

“鲸鸿动能·品牌共创计划”发布,多项权益助力品牌激发无限潜能

最新动态

更现代化方式实现明暗模式,两行CSS搞定!

这我可不懂

CSS

软件测试/测试开发/校招推荐 |中科创达软件股份有限公司岗位开放

测试人

程序员 软件测试 招聘 测试开发 内推

软件测试/测试开发丨基于人工智能的代码分析与 Bug 检测实战

测试人

人工智能 程序员 软件测试 自动化测试 测试开发

基于 ACK Fluid 的混合云优化数据访问(四):将第三方存储目录挂载到 Kubernetes,提升效率和标准化

阿里巴巴云原生

阿里云 Kubernetes 容器 云原生 ACK

Dapp开发技术团队 以太坊智能合约框架有哪些 区块链DAPP开发

西安链酷科技

DeFi质押挖矿 区块链开发

Native SQLite Manager for mac(SQLite数据库管理器) 1.26.1全新激活版

mac

苹果mac Windows软件 Native SQLite Manager SQLite 数据库的工具

算启新程 智享未来,英特尔携中国移动为行业数字化转型提供新动能

E科讯

SQL和Python,哪个更容易自学?哪个更适合数据工作的编程新手?

高端章鱼哥

Python sql

基于Vue构建的快速开发框架

树上有只程序猿

Vue 低代码

代币发行出售私募平台技术开发公司

西安链酷科技

IDO代币预售

前端代码重复度检测

南城FE

JavaScript 前端 代码

邀你见证一本思维小册子的诞生:《豆哥宝典:思维模型》

豆哥

AI 思维模型 GPT 宝典

简单聊聊低代码

互联网工科生

低代码 数字化

疯狂马斯克的“极限”计划居然成功了?!“下云”后成本降低60%,部分功能代码精简90%,30天急速迁移服务器_云计算_凌敏_InfoQ精选文章