AICon 上海站|日程100%上线,解锁Al未来! 了解详情
写点什么

亚马逊将自有服务数据的压缩从 Gzip 切换为 Zstd

作者:Renato Losio

  • 2022-10-09
    北京
  • 本文字数:1149 字

    阅读完需:约 4 分钟

亚马逊将自有服务数据的压缩从Gzip切换为Zstd

最近,亚马逊前副总裁Adrian Cockcroft在推文中特别指出了从 gzip 切换到 Zstandard 压缩所带来的好处,这在社区中引发了关于压缩算法的讨论。其他大公司,包括 Twitter 和 Honeycomb,也分享了使用 zstd 获得的收益。

 

最近,Dan Luu分析了推特存储节省的情况,并在推特上发起了一场对话:

我想知道 Yann Collect 创建 zstd 到底消除了多少浪费。我估算了下 Twitter 的数值(与大型科技公司相比微不足道),从 HDFS 切换到 zstd 每年节省的数量大约为 8 位数的中值。在世界范围内(非年化),这个数值应该不低于 9 位数?

 

Cockcroft 回复说:

亚马逊从 gzip 切换到 zstd,压缩 S3 存储量减少了大约 30%,达艾字节的规模。

 

Zstandard(其 C 语言实现 zstd 更为知名)是由 Facebook 公司的Yann Collet开发的无损数据压缩算法,在多种数据集上提供了很高的压缩比和非常好的性能。该参考实现库是一个遵循 BSD 许可的开源软件,它提供了一个速度极快的解码器,允许我们在速度和压缩比之间做大范围权衡。

 

起初,Cockcroft 的表述在社区中引发了质疑,一些开发人员询问亚马逊如何在 S3 上压缩客户数据。亚马逊一名内部员工澄清道

Adrian 说错了,或许是所有人都误解了他的意思。他的意思并不是说 S3 改变了存储压缩客户数据的方式。他的意思是亚马逊改变了在 S3 中存储自有服务数据(主要是日志)的方式——从 gzip 日志切换到 ztsd 日志,我们(作为 S3 的一个客户)能够将 S3 存储成本降低 30%。

 

Honeycomb 首席开发者大使Liz Fong-Jones赞同切换到 zstd:

我们不把它用于列文件,因为那太慢了,但我们把它用于 Kafka(…),在生产环境中从 snappy 切换到 zstd 后,Honeycomb 节省了 25%的带宽。(…)不仅仅是存储和计算,对我们来说,是网络。亚马逊跨 AZ 的数据传输非常昂贵。

 

Reddit一个热门的帖子中,noirknight 是众多提供正反馈的用户之一:

我的公司几年前也做过类似的事情,也看到了类似的好处。只要可能,我们都使用 zstandard,不仅仅是存储,还有其他东西,比如内部 HTTP 通信。

 

以下是用户treffer在Hacker News上的评论

速度特别快的压缩算法(zstd、lz4、snappy、lzo……)是值得我们付出 CPU 成本的,而且几乎没有什么缺点。问题在于找到最佳契合点,在不产生 CPU 瓶颈的情况下减少当前的瓶颈,不过在这方面,zstd 也提供了最大的灵活性。

 

亚马逊在一些托管服务的 API 中公开了 Zstandard 和对其他压缩算法的支持。例如,在Amazon Redshift中引入Zstandard支持后,这家云提供商针对云数据仓库开发了自己的算法AZ64。按照他们的说法,其专有压缩算法比 zstd 编码节省 5-10%的存储空间,并且速度快 70%。

 

亚马逊官方没有就其内部数据使用的压缩技术或相关的 S3 存储节省发表任何评论。

 

原文链接:

https://www.infoq.com/news/2022/09/amazon-gzip-zstd/


相关阅读:

Node.js|使用 zlib 内置模块进行 gzip 压缩

一种优于 gzip 的压缩方式 Brotli

2022-10-09 15:338346

评论

发布
暂无评论
发现更多内容

数智析碳,节能降碳

鲸品堂

节能管理 实战案例 双碳 企业号 2024年11月PK榜

安徽淮南有等保测评机构吗?在哪里?

行云管家

等保 等保测评 淮南

Go 并发控制:errgroup 详解

江湖十年

Go 面试 后端 并发

质量视角下的系统稳定性保障--稳定性保障常态化自动化实践

京东科技开发者

小心互联网行业的“高薪”陷阱

老张

职场成长 认知 职场晋升

文献解读-Unifying comprehensive genomics and transcriptomics in individual cells to illuminate oncogenic and drug resistance mechani

INSVAST

基因数据分析 生信服务 基准与方法研究 Sentieon

京东商品详情数据接口(JD.item_get)丨京东API接口指南

tbapi

京东API接口 京东商品详情接口

加油站运营系统(源码+文档+部署+讲解)

深圳亥时科技

如何使用Java开发抖音API接口?

科普小能手

API Java 开发 1688 API 接口 1688商品详情接口

AlmaLinux 9.5 正式版发布 - RHEL 二进制兼容免费发行版

sysin

RHEL AlmaLinux

人工智能 | ReACT 推理模式

测吧(北京)科技有限公司

测试

配置NVIDIA Container Runtime和容器运行GPUStack教程

SEAL安全

Docker 容器 大模型 LLM GPU集群

软件测试/人工智能 | ReACT 推理模式

测试人

软件测试 测试开发

用户身份与访问管理IAM和人工智能的融合应用

芯盾时代

人工智能 iam 统一身份管理平台

配置NVIDIA Container Runtime和容器运行GPUStack教程

GPUStack

Docker 容器 大模型 LLM GPU集群

并发编程体系概述

京东科技开发者

百度智能云千帆大模型平台引领企业创新增长

Baidu AICLOUD

智能体 agent LLMOps 模型精调

大促系统优化之应用启动速度优化实践

京东科技开发者

HyperWorks一维单元创建与模型连接管理

智造软件

教程 仿真 hyperworks 有限元

得物彩虹桥架构演进之路-负载均衡篇

得物技术

云计算 负载均衡 云原生 #架构

华光环能:从财务预算向战略导向全面预算转型升级

用友智能财务

财务 实践案例 企业数智化

AI工具百宝箱|任意选择与Chatgpt、gemini、Claude等主流模型聊天的Anychat,等你来体验!

可信AI进展

影响LED显示屏显示效果的因素有哪些?

Dylan

显示器 LED显示屏 全彩LED显示屏 led显示屏厂家 效果图渲染

快递行业定义以及特点简单分析

行云管家

等保 等级保护 快递

维度爆炸背景下uv计算在Feed业务的高效实践

百度Geek说

WebAssembly--目标及核心优势

江湖修行

前端 Web WebAssenbly

模具企业MES系统需求分析及解决方案

万界星空科技

mes 模具mes 万界星空科技mes 模具行业 模具加工

亚马逊将自有服务数据的压缩从Gzip切换为Zstd_架构_InfoQ精选文章