写点什么

盘点:2018 年双 11 背后的蚂蚁核心技术

  • 2019-08-29
  • 本文字数:3349 字

    阅读完需:约 11 分钟

盘点:2018年双11背后的蚂蚁核心技术

小蚂蚁说:

你们都很关心的 “OB 双 11 大促实战分享” 专题来啦!本系列将为你系统性的介绍 OceanBase 支撑蚂蚁双 11 背后的技术原理和实战分享。

从平台到架构,再到实现,一起来探索蚂蚁双 11 这场神秘的技术之旅吧!


2018 年的双 11 十周年,最终成交额以 2135 亿元创纪录收官,支付宝系统在这场“商业奥运会”中再次经受住了考验。这也是 OceanBase 顺利支撑蚂蚁双 11 的第五年。


从五年前,只有 10%流量切到 OceanBase 上,到如今 OceanBase 2.0 版本成功支撑 2018 年双 11 的支付宝核心链路。每年不变的是一如既往的表现平稳,丝般顺滑,变化的是技术能力的不断升级和迭代。今年的双 11,OceanBase 2.0 扛起了大梁,性能比去年提升了 50%,真正实现了“零成本”支撑大促。

一、2018 双 11 大促使用了哪些核心技术?

今年的双 11,OceanBase 致力于通过底层架构及平台能力的提升,来实现双 11 稳定性、成本优化、性能及效率方面的全方位的提升。相较以往始终如一“丝般顺滑”的大促能力外,2018 年的双 11,OceanBase 更加注重长久技术能力的沉淀:


  • OceanBase2.0 版本首次上线支付宝的核心链路,包括交易、支付系统,为“峰值百万支付能力”的三年战略沉淀了通用的“极致弹性”的分布式数据库能力,夯实了百万支付的底层基座。

  • 在底层存储介质方面,OceanBase 2.0 核心链路首次 100%运行在容器上,同时存储计算分离架构上线,大幅降低资源成本的同时夯实统一存储基座。

  • 在智能化运维的实践方面,OCP(OceanBase 云平台)着眼于 SQL 优化诊断、故障根因分析和智能容量规划等数据库关键场景,将数据库专家的经验与 AI 算法/机器学习相结合,提供智能化的数据库服务。

  • 在平台能力的沉淀上,OCP 引入 Orchestration 理念,通过编排/复用原子变更任务灵活,实现大促快速弹出/弹回的流程,同时平台内置变更免疫及变更三板斧能力(可监控/可灰度/可回滚),极大的提升了大促整体的稳定性和效率;在整个大促期间,OCP 自动执行 40000+变更,最终实现全程零故障。


在商业产品化方面:智能化运维及平台能力抽象出大促及对外商业化场景,建设通用能力来覆盖蚂蚁内外场景

二、OceanBase 2.0 & 百万支付

每年双 11 的压力在不断创造新高,支付系统需要具备百万每秒的支付能力,那么一个亟待解决的问题是:如何解决最小数据分片的峰值能力超过单机性能的问题。


OceanBase 2.0 应运而生,其目标是在应用无感知的情况下对数据分片进一步拆分,将数据 sharding 到无限多的机器上,实现极致弹性能力优雅支撑百万支付峰值。

1.百万支付架构

如下图的百万支付架构所示,传统数据库的弹性架构,将数据进行物理拆分到不同机器,业务在数据访问、研发、后期维护及数据配套设施上都非常繁琐;同时拆分后资源很难快速回收,且数据拆分及聚合无法实现业务无损。



相比于传统数据库的弹性架构,OceanBase 2.0 架构完全不侵入业务,内部通过分区实现数据分片的自组织及负载均衡,通过生成列及分区规则实现自动路由,通过分区聚合(partition_group)消除分布式事务性能开销以提升性能,从而实现无损线性伸缩。另外,数据分片间 share_nothing 及多版本的架构,实现分片故障隔离及单点故障消除的高可用架构。

2.性能提升

为实现“零成本大促”,OceanBase 2.0 花了非常多的精力致力于性能的提升。相比 OceanBase1.0,2.0 在分布式架构上全面升级,如原生 sharding/分布式事务优化/优化事务提交日志开销。


OceanBase 作为底层基础软件,任何微小的性能提升都会为业务节省大量资源,秉承持续优化的匠心,OceanBase 2.0 在数据库底层架构、系统实现层面及数据库运行环境全方位进行优化。最终,OceanBase 2.0 相比 1.0 提升了 50%的性能,实现今年双 11 大促的零机器增加。

三、OceanBase 容器化 & 存储计算分离

双 11 峰值需要大量的资源支撑,而峰值后资源处于低水位状态,如何快速申请/释放这部分资源?双 11 当天非支付链路资源空闲,大促是否可以抢占这批资源?大促不同活动时间错峰,不同链路的资源可否实现快速腾挪?类似的资源问题不一而足。


大家可以发现以上问题的本质在于:如何最大化程度降低双 11 当天的资源成本?这是大促技术要实现的一个核心价值。


双 11 大促资源成本与两个因素相关,一个是大促资源的总数目,另一个是持有时长。我们可以通过系统优化提升单机性能,来降低大促资源的总数目(如前章节提到的 OceanBase 2.0 的性能优化)。


那么如何降低持有时长呢?我们统一的思路是:用“高峰期抢占/低峰值释放资源”的方式来大幅降低持有时长;其两个关键前提技术就是容器化和存储计算分离。

1.OceanBase 容器化

OceanBase 容器化的核心思想是“资源调度”,大促目标就是“OceanBase 能够被快速调度到各种资源载体上(如离线资源、云资源、峰值无压力的数据库其他集群)”;容器化屏蔽了底层资源载体的差异化,具备弹性部署高效的优点,是资源调度的前提条件。OceanBase 打造自身调度能力,深入结合副本、租户的概念,精细化资源画像,使得 OB 容器化部署快速实现分时复用、资源抢占及混部。

2.存储计算分离

存储计算分离,顾名思义,将数据库运行依赖的计算资源和存储资源部署到不同的资源载体上,从而实现数据库的弱状态化,使得数据库可分别对存储和计算资源进行弹性伸缩。其好处是显而易见的。


典型场景:


大促态——CPU 资源需求激增,而存储资源增幅很小,那么我们可以针对性对计算资源的机型进行扩容,从而降低资源成本且提升扩容效率;


日常态——OB LSM 架构将离散 IO 转化成顺序 IO,因此存储的 IO 能力不是瓶颈,更多的是存储空间上的需求;存储计算分离后,多集群间可降低存储碎片,共享整体存储资源池,提升资源利用率。

四、平台智能化

随着业务规模的快速增长,系统稳定性 SLA 预发严峻和 OceanBase 部署的多样化,传统平台已无法满足我们的需求,可以预见不久的将来,运维将成为业务扩展的瓶颈。因此,OceanBase 平台正在逐步走向智能化道路实现智能运维。


OCP 着眼于 SQL 优化诊断、故障根因分析和智能容量等大促关键场景,目标是将运维专家的技术经验和 AI 算法/机器学习技术相结合,分解运维关键技术,开发成一系列的智能运维模型,应用于大规模运维系统中。


众所周知,SQL plan 的正确性对数据库运行至关重要。OCP 针对风险场景 SQL,在千万峰值压力下,实时进行 plan 正确性比对,并对可能存在性能变坏隐患的 SQL 进行分钟级修正。


容量水位是大促至关重要的一环,OCP 通过数据建模/智能水位预测对集群/租户/docker 进行容量画像,结合 OceanBase 内置 Tenant Group 能力,实现容器/集群/租户等多个维度的自动扩缩容,同时计算容量 plan 在集群/租户维度混部,实现最佳负载均衡部署【 深度部署资源利用率达到(n-1)/n 】,大幅节省了机器资源。


OCP 作为 OceanBase 的“智能大脑”,实时监控数据库运行状态,小至单条 SQL plan,大至数千台机器容量,真正做到了生产环境智能化全覆盖。未来,OCP 还将不断创新数据库智能化的运维之路,打造更加完善的数据库自治体系。

五、生态与连接

蚂蚁金服与金融机构最早建立的连接是基于支付业务的合作,后来又逐渐扩展了很多其他普惠金融类的业务,比如网商银行的同业合作,借呗/花呗等。如今随着在蚂蚁金服内部多年积累的技术能力与产品能力,OceanBase 也将全面走向外部,对所有行业开放,通过科技作为新的连接纽带助力企业的数字化转型。


过去金融业 IT 系统的基础架构建设基本都来自国外,如 IBM、甲骨文、EMC 这些公司构建底层架构,其中门槛最高的就是数据库的整体平滑替换。OceanBase 团队从成立之初就肩负着使命,即我们要做一款通用数据库真正的去推动整个社会的进步,能够让整个社会的生产力发生变化。


从 2016 年底,OceanBase 就开始准备走出去,用技术改变业务形态;用技术创造新的业务模式,与更多企业建立更为紧密的连接关系。近两年对外服务的过程中,通过与 ISV 的深度合作与赋能,不仅提供 OceanBase 内核的能力,也不断丰富周边配套产品生态,涵盖使用数据库过程中的方方面面。


未来,我们将继续致力于提供高可用、高性能、低成本的数据库服务,相信通过科技的连接助力更多企业,让科技的产出变成可以量化的业务价值。



本文转载自公众号蚂蚁金服科技(ID:Ant-Techfin)。


原文链接:


https://mp.weixin.qq.com/s/UMZxWgjI3HxtR1FneS06dA


2019-08-29 18:321096

评论

发布
暂无评论
发现更多内容

复盘上次Redis缓存雪崩事故,中级Java工程师面试题

Java 程序员 后端

Nacos 开源、自研、商业化三位一体战略解读

阿里巴巴中间件

云计算 阿里云 微服务 云原生 nacos

桐乡引入百度智能云开物工业互联网,数字经济再提速

百度大脑

人工智能

成熟的区块链技术是解决供应链金融痛点问题的根本出路

CECBC

堪比狗血剧!18名Java程序员凭阿里P8笔记,同时斩获大厂offer

Java 编程 面试 阿里 大厂

“融合创新”是区块链的应用发展趋势吗?

CECBC

Rust 与 C++:深入的语言比较

奔着腾讯去

c++ rust 安全 编程语言 并发

敬自由:破壁人华为,开启PC的无界探索

脑极体

读完这份阿里高质量性能优化全解,我的系统终于不再频繁瘫痪了

Java 阿里巴巴 编程 面试 金九银十

关系型数据库如何存储树形结构?

王博

硬核!4396万字神文精解高并发高可用系统实战,分布式系统一致性文档一经面试震惊寰宇!

Java 编程 架构 面试 程序人生

在线JSON转io-ts工具

入门小站

工具

计算机操作系统学习笔记 | 操作系统功能

Regan Yue

操作系统 9月日更

Kafka 常用工具脚本总结

Se7en

MQ是一种新的通信模式

风翱

MQ 9月日更

oh,我的老伙计,你看看这近五十个dapr视频

newbe36524

k8s dapr

人类视觉神经科学助力音视频产业革命 - 弱网下的极限实时通信

RTE开发者社区

音视频 弱网下的极限实时视频通信

FLV格式解析

轻口味

android 音视频 RTMP 9月日更

网络安全之一个渗透测试小案例

网络安全学海

网络安全 信息安全 渗透测试 WEB安全 安全漏洞

【Vuex 源码学习】第一篇 - Vuex 的基本使用

Brave

源码 vuex 9月日更

网络攻防学习笔记 Day135

穿过生命散发芬芳

网络基础 9月日更

移动WEB开发会用到的 5 个API

devpoint

WebGL canvas Fetch 9月日更

JavaScript进阶(上)

Augus

JavaScript 9月日更

2021年区块链被列为“七大重点产业之一”

CECBC

☕【JVM技术指南】「理论总结笔记」Java虚拟机垃圾回收认知和调优的"思南(司南)"【上部】

码界西柚

JVM GC 垃圾回收算法 9月日更

16. 奇点来临?

Databri_AI

人工智能

音视频剪辑DIY:用Python快速入门音视频剪辑

老猿Python

Python 音视频 视频剪辑 Moviepy 引航计划

基础+缓存雪崩+哨兵+集群+Reids场景设计,经验分享

Java 程序员 后端

想要掌握未来嘛?这份腾讯高工撰写的Redis实战笔记就告诉你什么是未来!

Java 腾讯 面试 大厂 金九银十

linux之dos2unix命令

入门小站

Linux

聊聊新工具Hutool

卢卡多多

POI 数据导入 9月日更

盘点:2018年双11背后的蚂蚁核心技术_文化 & 方法_天街_InfoQ精选文章