
Netflix 已完成其关系型数据库基础设施向 Amazon Aurora 的大规模整合,据称性能提升高达 75%,成本降低 28%。这家流媒体巨头从 EC2 上自主管理的 PostgreSQL 数据库转向了托管的 Aurora 服务,凸显出整个行业正在将运维负担转移至云原生数据库平台的趋势。
面对数据库环境碎片化的挑战,Netflix 在线数据存储(ODS)团队长期受困于部署自定义二进制文件、补丁升级和手动扩展等繁琐的运维工作。之前的架构依赖自主管理的分布式 PostgreSQL,存在延迟不稳定以及故障恢复流程复杂等问题。通过迁移至 Amazon Aurora PostgreSQL 兼容版,该团队旨在统一技术策略,同时保留开发人员熟悉的 PostgreSQL 引擎特性。
迁移效果在关键微服务中立竿见影且成效显著。Netflix 持续交付平台Spinnaker的平均延迟降低了 50%,从 67.57 毫秒降至 41.70 毫秒。策略引擎服务表现更为突出,关键端点的延迟下降了 75%,从 26.72 毫秒缩短至 6.51 毫秒。这些改进主要得益于Aurora的架构设计——将计算与存储分离,并采用基于日志的写入机制。该设计使数据库能将 75%的实例内存分配给共享缓冲区,远超标准 PostgreSQL 通常 25-40%的分配比例。
对于这种运营转变,Netflix 在线数据存储团队资深软件工程师 Ammar Khaku评论说:“我们不再需要在 EC2 上构建和部署带有内部安全及指标相关补丁的自定义二进制文件。转向现成的托管型 Aurora PostgreSQL 服务,让我们能够专注于业务逻辑和数据访问模式。”
Netflix 的转型经历与其他大型企业迁移至托管云数据库的案例如出一辙。三星电子将逾11亿用户从传统Oracle数据库迁移至Aurora平台,其驱动因素同样涉及许可成本与微服务所需的灵活性。松下航空电子公司也表示,迁移至该平台后成本降低 80%,而且查询速度显著提升。这些案例揭示出了一个普遍规律:迁移的投资回报主要来自消除许可费用与管理开销。
然而,评估类似举措的工程师应注意,Aurora 并非适用于所有工作负载的万能解决方案。虽然 Netflix 从共享存储模型中获得了好处,但独立的基准测试表明,性能可能存在细微的差异。例如,Tiger Data的测试表明,对于特定的时间序列密集型工作负载,像 Timescale 这样的专用 PostgreSQL 扩展能提供比 Aurora 更快的摄取速率和更低的存储成本。此外,像 CockroachDB 或 TiDB 这样的分布式 SQL 替代方案提供了多写入能力,解决了 Aurora 的单写入限制——对于全球性写入密集型应用来说,这可能成为瓶颈。
尽管存在这些架构上的差异,但 Netflix 从中获得的运营效益显而易见。此次迁移充分利用了 Aurora 的快速故障转移能力——读副本可在 100 毫秒内升级为写副本,相较于以往需要人工干预的情况,显著提升了系统可用性。这种可靠性,加上消除了无差别的繁重工作,使这家流媒体提供商能够以更大的灵活性支持其庞大的用户群。
原文链接:
https://www.infoq.com/news/2025/12/netflix-migrates-amazon-aurora/







评论