2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

亚马逊将自有服务数据的压缩从 Gzip 切换为 Zstd

作者:Renato Losio

  • 2022-10-09
    北京
  • 本文字数:1149 字

    阅读完需:约 4 分钟

亚马逊将自有服务数据的压缩从Gzip切换为Zstd

最近,亚马逊前副总裁Adrian Cockcroft在推文中特别指出了从 gzip 切换到 Zstandard 压缩所带来的好处,这在社区中引发了关于压缩算法的讨论。其他大公司,包括 Twitter 和 Honeycomb,也分享了使用 zstd 获得的收益。

 

最近,Dan Luu分析了推特存储节省的情况,并在推特上发起了一场对话:

我想知道 Yann Collect 创建 zstd 到底消除了多少浪费。我估算了下 Twitter 的数值(与大型科技公司相比微不足道),从 HDFS 切换到 zstd 每年节省的数量大约为 8 位数的中值。在世界范围内(非年化),这个数值应该不低于 9 位数?

 

Cockcroft 回复说:

亚马逊从 gzip 切换到 zstd,压缩 S3 存储量减少了大约 30%,达艾字节的规模。

 

Zstandard(其 C 语言实现 zstd 更为知名)是由 Facebook 公司的Yann Collet开发的无损数据压缩算法,在多种数据集上提供了很高的压缩比和非常好的性能。该参考实现库是一个遵循 BSD 许可的开源软件,它提供了一个速度极快的解码器,允许我们在速度和压缩比之间做大范围权衡。

 

起初,Cockcroft 的表述在社区中引发了质疑,一些开发人员询问亚马逊如何在 S3 上压缩客户数据。亚马逊一名内部员工澄清道

Adrian 说错了,或许是所有人都误解了他的意思。他的意思并不是说 S3 改变了存储压缩客户数据的方式。他的意思是亚马逊改变了在 S3 中存储自有服务数据(主要是日志)的方式——从 gzip 日志切换到 ztsd 日志,我们(作为 S3 的一个客户)能够将 S3 存储成本降低 30%。

 

Honeycomb 首席开发者大使Liz Fong-Jones赞同切换到 zstd:

我们不把它用于列文件,因为那太慢了,但我们把它用于 Kafka(…),在生产环境中从 snappy 切换到 zstd 后,Honeycomb 节省了 25%的带宽。(…)不仅仅是存储和计算,对我们来说,是网络。亚马逊跨 AZ 的数据传输非常昂贵。

 

Reddit一个热门的帖子中,noirknight 是众多提供正反馈的用户之一:

我的公司几年前也做过类似的事情,也看到了类似的好处。只要可能,我们都使用 zstandard,不仅仅是存储,还有其他东西,比如内部 HTTP 通信。

 

以下是用户treffer在Hacker News上的评论

速度特别快的压缩算法(zstd、lz4、snappy、lzo……)是值得我们付出 CPU 成本的,而且几乎没有什么缺点。问题在于找到最佳契合点,在不产生 CPU 瓶颈的情况下减少当前的瓶颈,不过在这方面,zstd 也提供了最大的灵活性。

 

亚马逊在一些托管服务的 API 中公开了 Zstandard 和对其他压缩算法的支持。例如,在Amazon Redshift中引入Zstandard支持后,这家云提供商针对云数据仓库开发了自己的算法AZ64。按照他们的说法,其专有压缩算法比 zstd 编码节省 5-10%的存储空间,并且速度快 70%。

 

亚马逊官方没有就其内部数据使用的压缩技术或相关的 S3 存储节省发表任何评论。

 

原文链接:

https://www.infoq.com/news/2022/09/amazon-gzip-zstd/


相关阅读:

Node.js|使用 zlib 内置模块进行 gzip 压缩

一种优于 gzip 的压缩方式 Brotli

2022-10-09 15:338655

评论

发布
暂无评论
发现更多内容

Note16新机594元起,魅族要“逆天”?

趣解商业

科技 汽车 魅族 数码

手把手教你如何利用CodeBuddy编写属于自己的AI助手

芯动大师

CodeBuddy首席试玩官

Apache Seatunnel & Amazon Bedrock 助力生成式 AI 应用规模化生产实践

亚马逊云科技 (Amazon Web Services)

在Oracle到GreatSQL迁移中排序规则改变引发的乱码问题分析及解决

GreatSQL

联想百应智能体新升级,卡位AI战局的“锁钥之地”

脑极体

AI

Easysearch 时序数据的基于时间范围的合并策略

极限实验室

Performance merge easysearch

【HarmonyOS next】ArkUI-X休闲益智猜字谜【基础】

RunkBear

iOS Developer HarmonyOS NEXT ArkUI框架

一键三连不求人!用 CodeBuddy 写个浏览器插件自动点赞、评论、收藏

不惑

CodeBuddy首席试玩官

提高敏捷性,塑造财务规划的未来趋势

智达方通

企业管理 全面预算管理 财务管理

2025杭州国际安防产品展会(杭州安博会)团队走进石家庄宣传

AIOTE智博会

安防展 安博会 浙江安博会 杭州安博会

MCP 协议为何不如你想象的安全?从技术专家视角解读

Baihai IDP

程序员 AI LLM AI Agent MCP协议

5月15日,向量数据库:数据库与AI的交叉点”线上技术直播,文附详细演讲介绍!

NineData

AI Milvus 向量数据库 NineData 数据库与 AI 的交叉点

2个小时!我自己搭建了一套安全管理系统!

中烟创新

哈尔滨等保测评、等保测评公司、机构怎么选

黑龙江陆陆信息测评部

得物自研DSearch3.0搜索核心引擎升级之路

得物技术

搜索引擎

Blender 入门教程(一):模型创建

北桥苏

blender

AIGC 创作者必备!梦精灵提示词管理器让创作效率起飞​

龙正哲

Uniapp开发鸿蒙购物项目实战教程:实现首页轮播图

幽蓝计划

鸿蒙跨平台开发

Playwright和Selenium,深度解析两大测试框架的“王者之争”

测试人

软件测试 playwright selenium

《算法导论(第4版)》阅读笔记:p49-p58

codists

算法

MCP教程:一文教你用 Trae 实现网页自动化测试

TRAE.ai

计算机 #程序员 Trae

DotNet 入门(二):项目运行

北桥苏

.net

PySide vs PyQt:Python GUI开发史诗级对决,谁才是王者?

程序员晚枫

Python 开源 qt GUI

INFINI Console 纳管 Elasticsearch 9(一):指标监控、数据管理、DSL 语句执行

极限实验室

elasticsearch console

LLM“力大砖飞”的时代,OCR专有模型还有意义吗?

合合技术团队

算法 OCR 大模型 #人工智能

链上交易平台 MyStonks 上线美股代币链上市场,首批 5000 万美元美股资产由富达托管

TechubNews

HarmonyOS 如何实现传输中的数据加密

网罗开发

鸿蒙 HarmonyOS HarmonyOS NEXT

等保测评、黑龙江等保。等保测评公司

黑龙江陆陆信息测评部

使用 Databend 全新体验!一文看懂 Databend 可视化管控平台 BendDeploy

Databend

亚马逊将自有服务数据的压缩从Gzip切换为Zstd_架构_InfoQ精选文章