写点什么

带宽利用率提升 50%,腾讯云联网架构方案解析

2020 年 12 月 10 日

带宽利用率提升 50%,腾讯云联网架构方案解析

企业 A 是一家互联网公司,当前在云上计算资源已经接近 10W 核,华东地域专线流量 24G+,资源部署以华东为主、华北、华南、西南等可用区为辅。该企业属于典型的混合云架构,本文主要分享企业 A 如何通过云联网架构优化实现带宽利用率提升 50%,希望与大家一同交流。


一、云联网背景介绍


1. 对等连接概述


对等连接(Peering Connection)是一种大带宽、高质量的云上资源互通服务,可以帮助打通腾讯云上的资源通信链路。对等连接具有多区域、多账户、多种网络异构互通等特点,支持 VPC 间互通、VPC 和黑石私有网络互通,满足不同业务的部署需求。



2. 传统专线概述


混合云架构前期都是使用传统的专用通道打通用户 IDC 与云上 VPC。如果一根物理专线需要打通多个 VPC,需要通过不同的 VLAN ID 分别创建专用通道来连接多个 VPC。



3. 云联网概述


云联网(Cloud Connect Network,CCN)为用户提供云上不同 VPC 间、VPC 与本地数据中心间(IDC)内网互联的服务。具备全网多点互联、路由自学习、链路选优及故障快速收敛等能力。


云联网覆盖全球 20+ 地域,支持 100+Gbps 带宽以及最高可达 99.99% 的可用性,为用户轻松构建极速、稳定、安全、灵活的全球互联网络,典型应用场景如下:


  • VPC 与 VPC 间高质量内网互联:在线教育多个地域的实时音视频系统、游戏加速多地域内网互联、多地域容灾架构。

  • VPC 与 IDC 间内网全互联:一个专用通道打通多个 VPC,实现单次接入全网互联,如混合云场景。



云联网对比对等连接和传统专线的优势如下图所示:



下文将从企业 A 的实际出发,介绍企业 A 采用腾讯云联网的架构优化实践。


二、企业 A 架构现状介绍


1. 企业 A 混合云背景介绍


企业 A 核心业务位于华东地区,在上海有两个 VPC,一个自建 IDC。在北京、成都、广州、HK 各有一个 VPC,其中 HK 的 VPC 用于接入海外业务。


最终通过对等连接以及传统专线通道实现所有云上 VPC 与自建 IDC 的互联互通(由于传统架构互联线路较多暂不提供具体拓扑,下文提供了分解拓扑)。


2. 公有云 VPC 通过对等连接互联架构



  • 企业 A 上海地域当前是两个 VPC,一个是业务 VPC,另外一个是用于测试的 VPC,同地域两个 VPC 之间理论上不限制带宽,除非底层数据中心的 DCI 互联带宽(DCI 互联带宽都是上 T 级别)被打满才会导致同地域对等连接丢包;

  • 企业 A 的少量海外业务通过香港 2 区的 VPC 做接入,再通过 100Mbps 的对等连接实现打通上海 5 区的核心业务 VPC;

  • 企业 A 分布在华东、华北、华南、西南的业务 VPC 通过对等连接全互连实现业务互访。


3. 公有云 VPC 与自建 IDC 通过传统专线互联架构




名词解释:NGW(底层专线网关集群)、QCAR(网络设备)、QCPL(网络设备)IDC(数据中心)。


  • 企业 A 公有云 VPC 到自建 IDC 每天峰值总流量 24Gbps,正常四条 10G 专线均分流量为:24Gbps * 25% = 6Gbps;

  • 当前企业 A 的传统专线架构是专线 1 与 2、专线 3 与 4 相互备份,当专线 1 故障,那么专线 1 的流量会转发到专线 2,所以每条专线的带宽使用率不建议超过 50%;

  • 由于企业 A 业务快速增长,当前每条专线的带宽使用率已经达到 60%。如果上图 2 的专线 1 故障,就会有 12Gbps 的流量转发到专线 2,最终导致专线 2 带宽拥塞而丢包影响业务。


4. 当前互联架构的挑战


  • 公有云 VPC 之间互通要建立全互连的对等连接,并且每次增加 VPC 都有增加大量对等连接和路由,最终导致维护成本越来越高;

  • 跨地域对等连接的底层网关集群故障无法自动切换路由恢复,止损耗时久;

  • 企业 A 自建 IDC 到腾讯云的四条专线,如何实现中断任何一条,另外三条专线可用均分故障链路的流量,最终通过最低的成本解决丢包问题;

  • 企业 A 有四个公有云 VPC 需要和自建 IDC 互通,那么需要四个专线网关,以及 16 个 BGP 邻居和专线通道。后续每增加一个 VPC 就会增加四个专线通道,最终导致专线的运维成本增加。


三、云联网改造方案介绍


1. 公有云 VPC 通过云联网互联架构设计



  • 企业 A 所有 VPC 只需要加入新建云联网实例,即可实现相互路由自动学习,无需维护大量对等连接和大量手工添加的路由;

  • 所有存量 VPC 以及后续增量 VPC 互通的流量都需要通过云联网实现,可以将该云联网实例看作企业 A 的虚拟骨干网;

  • 多 AZ(可用区)网关集群容灾,可用性比对等连接更高;

  • 跨地域云联网网关之间会有拨测,最终选择最优路径来降低延迟,提升业务稳定性。


2. 公有云 VPC 与自建 IDC 通过云联网互联架构设计




名词解释:CCNGW(云联网类型专线网关)、QCAR(网络设备)、QCPL(网络设备)IDC(数据中心)。


  • 企业 A 所有 VPC 以及四个专线网关都加入同一个云联网实例最终实现相互访问,并且无论几个 VPC 和自建 IDC 互通只需要 4 个专线通道即可(简化配置复杂度,简单可靠);

  • 云上 VPC 路由下一跳是云联网,然后通过 ECMP(负载均衡)四份流量到 4 个云联网专线网关,最终通道底层路由将流量通过四条物理专线转发到自建 IDC(逻辑转发路径:VPC---CCN---专线网关---专线---IDC);

  • 假设企业 A 的物理专线 1 再次中断,那么 QCPL1 无法收到自建 IDC 的 BGP 路由。最终通过路由收敛使得云联网将流量转发给云联网专线网关 2-4,从而实现任意一条物理专线故障都会将流量均分给其他三条专线;

  • 在成本不增加的情况下,通过云联网的改造将专线带宽利用率从理论值 50% 提升到 75% 实现降本增效。


四、云联网改造总结


1. 云联网改造带来的实际收益


  • 企业 A 所有云上 VPC 不必两两之间创建对等连接,只需要加入云联网即可实现全部的互联互通,降低了云上 VPC 的运维成本;

  • 企业 A 跨地域 VPC 互通的网关集群实现多 AZ 容灾,提升跨地域互通的可用性;

  • 企业 A 的四条专线峰值总流量 24Gbps 情况下中断任意一条都会通过路由收敛自动恢复业务,不必依赖于被动等待专线修复或者降级其他业务来恢复,最终提升专线的高可用性;

  • 企业 A 云上 VPC 与 IDC 互通只需要创建 4 个 BGP 邻居即可,也不必为每个云上 VPC 创建专线网关,最终极大降低专线的运维成本。


2. 云联网改造注意事项


线上业务改造需要很谨慎,建议前期做好深度调研,比如相关业务特征,带宽容量评估,当前架构的梳理,当前架构的缺点,新架构是否解决老架构缺点,各个地域的改造难度,是否可以平稳切换到新架构等。


双方一起确认新架构灰度基本步骤,基本原则是:先灰度测试 VPC,然后按 VPC 业务量从小到大的顺序进行灰度。


未使用过云联网的用户建议先创建测试 VPC 熟悉云联网配置方法,具体可参考文末提供的相关文档。


真正灰度前拉通腾讯云网络专家评估新老架构的底层网关路径差异,网关集群的带宽容量,底层路径 MTU 差异,云联网限速算法(截止 2020 年 11 月依然存在均分算法和分布式算法两种,出于带宽利用率最大化考虑建议分布式算法)等。每次灰度迁移都需要有明确的变更步骤、验证步骤、回退步骤,最终来确保灰度顺利完成。


每个账号云联网数量限制 5 个,每个云联网可以绑定的网络实例(例如 VPC 就是一个网络实例)数量限制 25 个。


云联网跨地域带宽限速方式有两种,一种是地域出口限速(单地域云联网总的出口限速),另外一种是地域间限速(地域 A 到地域 B 之间的带宽限速)。


参考文档

[1] 测试 VPC 配置文档:https://cloud.tencent.com/document/product/877/18752

[2] 对等连接迁移云联网配置文档:https://cloud.tencent.com/document/product/877/18854

[3] 传统专线网关迁移云联网专线网关配置文档:https://cloud.tencent.com/document/product/877/31037




头图:Unsplash

作者:李彬文 - 腾讯云售后架构师

原文带宽利用率提升50%,腾讯云联网架构方案解析

来源:云加社区  - 微信公众号 [ID:QcloudCommunity]

转载:著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。


2020 年 12 月 10 日 19:171484
用户头像
云加社区 腾讯云官方开发者社区

发布了 208 篇内容, 共 22.4 次阅读, 收获喜欢 120 次。

关注

评论

发布
暂无评论
发现更多内容

Java世界的“烂”包管理

阿喜伯

maven Git Submodule

依赖倒置-好莱坞原则

yupi

把主机放在家里

centos Homework

优化工程师逻辑视角下的微信“拍一拍”功能

Earth_Polarbear

人工智能 微信 系统工程 优化逻辑

终于有人把 java代理 讲清楚了,万字详解!

java金融

Java jdk 后端 动态代理 cglib

在项目中随手把haseMap改成了currenHaseMap差点被公司给开除了

java金融

Java 后端 BigDecimal金额 Arrays.asList

golang-pprof实战笔记

卓丁

golang pprof 性能分析

啥是CPU缓存?又如何提高缓存命中率呢?

八两

架构师训练营第三周学习总结

张明森

区块链系列教程之:比特币的钱包与交易

程序那些事

比特币 区块链 智能合约 钱包 交易

由一次管理后台定时推送功能引发的对 RabbitMQ 延迟队列的思考 (二)

LSJ

Java RabbitMQ 延迟队列 优先级队列

【Golang runtime学习笔记-启动过程分析】

卓丁

golang 初始化 runtime 汇编 go汇编

实现一个redis命令--nonzerodecr

老胡爱分享

redis 源码分析 源码阅读

行业观察丨区块链如何与工业互联网深度融合

CECBC区块链专委会

区块链技术 工业互联网 分布式存储

Kafka面试题:基础27问,必须都会的呀!

Java小咖秀

大数据 kafka 分布式 队列 延时消息

策略模式解析

七哥爱编程

设计模式 策略模式

架构师训练营 Week 03 关于反应式Web框架Flower

Wancho

三流程序员大晚上不睡觉,竟然在做这件事

Janenesome

写作平台 碎碎念

从拼多多突破阿里和京东两大巨头绞杀,市值破千亿美金来看职业价值链

非著名程序员

程序员 程序人生 职业规划 程序员成长 职业成长

能走出来的,都不叫困境

zkback

如何做好职场印象管理?

石云升

职场 印象管理 职场形象

游戏夜读 | RPG的美式和日式

game1night

[架构师训练营] 2 依赖倒置

悬浮

在 React 仓库中的那些 package

teabyii

源码 前端 React

Week3 命题作业

星河寒水

极客大学架构师训练营

2020年6月19日 服务器性能剖析

瑞克与莫迪

ARTS - Week Five

shepherd

Java algorithm

[安利] 可能会让你爱上书写的工具组合!

猴哥一一 cium

Typora markdown markdown编辑器 玩转写作平台

ArrayList哪种循环效率更好你真的清楚吗

java金融

Java 后端 ArrayList 循环效率 方式

一款跨平台免费的开源 SQL 编辑器和数据库管理器!

JackTian

数据库 sql GitHub 开源项目 实用工具

2020最新阿里Java高级面试题(首发,50道附答案)

互联网架构师小马

带宽利用率提升 50%,腾讯云联网架构方案解析-InfoQ