写点什么

亚马逊将自有服务数据的压缩从 Gzip 切换为 Zstd

作者:Renato Losio

  • 2022-10-09
    北京
  • 本文字数:1149 字

    阅读完需:约 4 分钟

亚马逊将自有服务数据的压缩从Gzip切换为Zstd

最近,亚马逊前副总裁Adrian Cockcroft在推文中特别指出了从 gzip 切换到 Zstandard 压缩所带来的好处,这在社区中引发了关于压缩算法的讨论。其他大公司,包括 Twitter 和 Honeycomb,也分享了使用 zstd 获得的收益。

 

最近,Dan Luu分析了推特存储节省的情况,并在推特上发起了一场对话:

我想知道 Yann Collect 创建 zstd 到底消除了多少浪费。我估算了下 Twitter 的数值(与大型科技公司相比微不足道),从 HDFS 切换到 zstd 每年节省的数量大约为 8 位数的中值。在世界范围内(非年化),这个数值应该不低于 9 位数?

 

Cockcroft 回复说:

亚马逊从 gzip 切换到 zstd,压缩 S3 存储量减少了大约 30%,达艾字节的规模。

 

Zstandard(其 C 语言实现 zstd 更为知名)是由 Facebook 公司的Yann Collet开发的无损数据压缩算法,在多种数据集上提供了很高的压缩比和非常好的性能。该参考实现库是一个遵循 BSD 许可的开源软件,它提供了一个速度极快的解码器,允许我们在速度和压缩比之间做大范围权衡。

 

起初,Cockcroft 的表述在社区中引发了质疑,一些开发人员询问亚马逊如何在 S3 上压缩客户数据。亚马逊一名内部员工澄清道

Adrian 说错了,或许是所有人都误解了他的意思。他的意思并不是说 S3 改变了存储压缩客户数据的方式。他的意思是亚马逊改变了在 S3 中存储自有服务数据(主要是日志)的方式——从 gzip 日志切换到 ztsd 日志,我们(作为 S3 的一个客户)能够将 S3 存储成本降低 30%。

 

Honeycomb 首席开发者大使Liz Fong-Jones赞同切换到 zstd:

我们不把它用于列文件,因为那太慢了,但我们把它用于 Kafka(…),在生产环境中从 snappy 切换到 zstd 后,Honeycomb 节省了 25%的带宽。(…)不仅仅是存储和计算,对我们来说,是网络。亚马逊跨 AZ 的数据传输非常昂贵。

 

Reddit一个热门的帖子中,noirknight 是众多提供正反馈的用户之一:

我的公司几年前也做过类似的事情,也看到了类似的好处。只要可能,我们都使用 zstandard,不仅仅是存储,还有其他东西,比如内部 HTTP 通信。

 

以下是用户treffer在Hacker News上的评论

速度特别快的压缩算法(zstd、lz4、snappy、lzo……)是值得我们付出 CPU 成本的,而且几乎没有什么缺点。问题在于找到最佳契合点,在不产生 CPU 瓶颈的情况下减少当前的瓶颈,不过在这方面,zstd 也提供了最大的灵活性。

 

亚马逊在一些托管服务的 API 中公开了 Zstandard 和对其他压缩算法的支持。例如,在Amazon Redshift中引入Zstandard支持后,这家云提供商针对云数据仓库开发了自己的算法AZ64。按照他们的说法,其专有压缩算法比 zstd 编码节省 5-10%的存储空间,并且速度快 70%。

 

亚马逊官方没有就其内部数据使用的压缩技术或相关的 S3 存储节省发表任何评论。

 

原文链接:

https://www.infoq.com/news/2022/09/amazon-gzip-zstd/


相关阅读:

Node.js|使用 zlib 内置模块进行 gzip 压缩

一种优于 gzip 的压缩方式 Brotli

2022-10-09 15:337815

评论

发布
暂无评论
发现更多内容

云原生微服务的下一站:Proxyless Service Mesh

华为云开发者联盟

微服务 云原生 华为云 华为云开发者联盟

推送没人看?MobPush助力APP运营提质增效

MobTech袤博科技

MobPush后台配置教程

MobTech袤博科技

智能推送

dapp质押挖矿、理财分红系统定制开发

西安链酷科技

区块链 dapp 去中心化 交易所 质押挖矿

支付宝代扣接口签约的各种问题排查(建议收藏)

盐焗代码虾

支付宝 代扣

Node.js 中 HTML 解析的终极指南:探索各种方法

Liam

JavaScript node.js html 前端 Web

Stable Diffusion 的提示词使用技巧

3D建模设计

Stable Diffusion 自动纹理

利用稳定扩散快速修复图像

3D建模设计

人工智能「 Stable Diffustion 图像修复

焱融全闪 | 高算力时代下的国产存储之光

焱融科技

MobPush智能推送:数智化运营释放APP用户生命周期价值

MobTech袤博科技

KaiwuDB 内核解析 - SQL 查询的生命周期

KaiwuDB

数据库 sql查询 生命周期 KaiwuDB

生信领域|焱融存储为极智基因打造高性能生物医学平台

焱融科技

以技术创新,让美好发生!第二届华为云杯“少年开发者”人工智能大赛总决赛成功落幕

彭飞

浙大材料学院高性能存储实践,加速 AI 新材料科研创新

焱融科技

After Effects 2024 for Mac(ae视频特效制作工具) v24.0.2永久激活版

mac

windows 苹果mac After Effects 2024 AE2024 视频特效制作软件

HarmonyOS数据管理与应用数据持久化(二)

HarmonyOS开发者

企业级API资产如何管理

RestCloud

API 资产管理 API 接口

跨平台.NET IDE集成开发 JetBrains Rider注册码激活版

mac大玩家j

代码编辑器 Mac软件

YRCloudFile V7.0.0发布| 新增 EC 数据冗余保护功能

焱融科技

混合云场景下基于 Fluid 的焱融高效存储方案

焱融科技

.NET CORE 之gRpc使用

gogo

dapp开发需要多少钱、dapp软件开发公司

西安链酷科技

软件开发 dapp 去中心化 交易所

JAVA 调用Open AI 接口生成图片url并直接在浏览器上响应显示

风清扬

openai 图片生成 AI绘画 ChatGPT chatgpt api

Lightsail CDN 现已对 Lightsail Container Services 作为来源进行支持

亚马逊云科技 (Amazon Web Services)

CDN Amazon Lightsail Amazon CloudFront

一图看懂华为云CodeArts Link六大特性,带你体验一站式跨平台数据互联

华为云PaaS服务小智

云计算 软件开发 华为云

MobPush智能推送工具,助力实现用户全生命周期管理

MobTech袤博科技

智能推送

MobPush自定义智能标签,赋能精细化运营

MobTech袤博科技

智能推送

ATC汽车电子与软件技术周:汽车行业客户使用静态代码扫描工具的案例与建议

龙智—DevSecOps解决方案

ACT

我们该如何规划自己的职业生涯?

老张

职业规划 职场成长

剑指pulsar之数据写入流程

少年游侠客

消息队列 pulsar 写数据

软件项目验收计划书

金陵老街

亚马逊将自有服务数据的压缩从Gzip切换为Zstd_架构_InfoQ精选文章