QCon 全球软件开发大会(北京站)门票 9 折倒计时 4 天,点击立减 ¥880 了解详情
写点什么

带宽利用率提升 50%,腾讯云联网架构方案解析

2020 年 12 月 10 日

带宽利用率提升 50%,腾讯云联网架构方案解析

企业 A 是一家互联网公司,当前在云上计算资源已经接近 10W 核,华东地域专线流量 24G+,资源部署以华东为主、华北、华南、西南等可用区为辅。该企业属于典型的混合云架构,本文主要分享企业 A 如何通过云联网架构优化实现带宽利用率提升 50%,希望与大家一同交流。


一、云联网背景介绍


1. 对等连接概述


对等连接(Peering Connection)是一种大带宽、高质量的云上资源互通服务,可以帮助打通腾讯云上的资源通信链路。对等连接具有多区域、多账户、多种网络异构互通等特点,支持 VPC 间互通、VPC 和黑石私有网络互通,满足不同业务的部署需求。



2. 传统专线概述


混合云架构前期都是使用传统的专用通道打通用户 IDC 与云上 VPC。如果一根物理专线需要打通多个 VPC,需要通过不同的 VLAN ID 分别创建专用通道来连接多个 VPC。



3. 云联网概述


云联网(Cloud Connect Network,CCN)为用户提供云上不同 VPC 间、VPC 与本地数据中心间(IDC)内网互联的服务。具备全网多点互联、路由自学习、链路选优及故障快速收敛等能力。


云联网覆盖全球 20+ 地域,支持 100+Gbps 带宽以及最高可达 99.99% 的可用性,为用户轻松构建极速、稳定、安全、灵活的全球互联网络,典型应用场景如下:


  • VPC 与 VPC 间高质量内网互联:在线教育多个地域的实时音视频系统、游戏加速多地域内网互联、多地域容灾架构。

  • VPC 与 IDC 间内网全互联:一个专用通道打通多个 VPC,实现单次接入全网互联,如混合云场景。



云联网对比对等连接和传统专线的优势如下图所示:



下文将从企业 A 的实际出发,介绍企业 A 采用腾讯云联网的架构优化实践。


二、企业 A 架构现状介绍


1. 企业 A 混合云背景介绍


企业 A 核心业务位于华东地区,在上海有两个 VPC,一个自建 IDC。在北京、成都、广州、HK 各有一个 VPC,其中 HK 的 VPC 用于接入海外业务。


最终通过对等连接以及传统专线通道实现所有云上 VPC 与自建 IDC 的互联互通(由于传统架构互联线路较多暂不提供具体拓扑,下文提供了分解拓扑)。


2. 公有云 VPC 通过对等连接互联架构



  • 企业 A 上海地域当前是两个 VPC,一个是业务 VPC,另外一个是用于测试的 VPC,同地域两个 VPC 之间理论上不限制带宽,除非底层数据中心的 DCI 互联带宽(DCI 互联带宽都是上 T 级别)被打满才会导致同地域对等连接丢包;

  • 企业 A 的少量海外业务通过香港 2 区的 VPC 做接入,再通过 100Mbps 的对等连接实现打通上海 5 区的核心业务 VPC;

  • 企业 A 分布在华东、华北、华南、西南的业务 VPC 通过对等连接全互连实现业务互访。


3. 公有云 VPC 与自建 IDC 通过传统专线互联架构




名词解释:NGW(底层专线网关集群)、QCAR(网络设备)、QCPL(网络设备)IDC(数据中心)。


  • 企业 A 公有云 VPC 到自建 IDC 每天峰值总流量 24Gbps,正常四条 10G 专线均分流量为:24Gbps * 25% = 6Gbps;

  • 当前企业 A 的传统专线架构是专线 1 与 2、专线 3 与 4 相互备份,当专线 1 故障,那么专线 1 的流量会转发到专线 2,所以每条专线的带宽使用率不建议超过 50%;

  • 由于企业 A 业务快速增长,当前每条专线的带宽使用率已经达到 60%。如果上图 2 的专线 1 故障,就会有 12Gbps 的流量转发到专线 2,最终导致专线 2 带宽拥塞而丢包影响业务。


4. 当前互联架构的挑战


  • 公有云 VPC 之间互通要建立全互连的对等连接,并且每次增加 VPC 都有增加大量对等连接和路由,最终导致维护成本越来越高;

  • 跨地域对等连接的底层网关集群故障无法自动切换路由恢复,止损耗时久;

  • 企业 A 自建 IDC 到腾讯云的四条专线,如何实现中断任何一条,另外三条专线可用均分故障链路的流量,最终通过最低的成本解决丢包问题;

  • 企业 A 有四个公有云 VPC 需要和自建 IDC 互通,那么需要四个专线网关,以及 16 个 BGP 邻居和专线通道。后续每增加一个 VPC 就会增加四个专线通道,最终导致专线的运维成本增加。


三、云联网改造方案介绍


1. 公有云 VPC 通过云联网互联架构设计



  • 企业 A 所有 VPC 只需要加入新建云联网实例,即可实现相互路由自动学习,无需维护大量对等连接和大量手工添加的路由;

  • 所有存量 VPC 以及后续增量 VPC 互通的流量都需要通过云联网实现,可以将该云联网实例看作企业 A 的虚拟骨干网;

  • 多 AZ(可用区)网关集群容灾,可用性比对等连接更高;

  • 跨地域云联网网关之间会有拨测,最终选择最优路径来降低延迟,提升业务稳定性。


2. 公有云 VPC 与自建 IDC 通过云联网互联架构设计




名词解释:CCNGW(云联网类型专线网关)、QCAR(网络设备)、QCPL(网络设备)IDC(数据中心)。


  • 企业 A 所有 VPC 以及四个专线网关都加入同一个云联网实例最终实现相互访问,并且无论几个 VPC 和自建 IDC 互通只需要 4 个专线通道即可(简化配置复杂度,简单可靠);

  • 云上 VPC 路由下一跳是云联网,然后通过 ECMP(负载均衡)四份流量到 4 个云联网专线网关,最终通道底层路由将流量通过四条物理专线转发到自建 IDC(逻辑转发路径:VPC---CCN---专线网关---专线---IDC);

  • 假设企业 A 的物理专线 1 再次中断,那么 QCPL1 无法收到自建 IDC 的 BGP 路由。最终通过路由收敛使得云联网将流量转发给云联网专线网关 2-4,从而实现任意一条物理专线故障都会将流量均分给其他三条专线;

  • 在成本不增加的情况下,通过云联网的改造将专线带宽利用率从理论值 50% 提升到 75% 实现降本增效。


四、云联网改造总结


1. 云联网改造带来的实际收益


  • 企业 A 所有云上 VPC 不必两两之间创建对等连接,只需要加入云联网即可实现全部的互联互通,降低了云上 VPC 的运维成本;

  • 企业 A 跨地域 VPC 互通的网关集群实现多 AZ 容灾,提升跨地域互通的可用性;

  • 企业 A 的四条专线峰值总流量 24Gbps 情况下中断任意一条都会通过路由收敛自动恢复业务,不必依赖于被动等待专线修复或者降级其他业务来恢复,最终提升专线的高可用性;

  • 企业 A 云上 VPC 与 IDC 互通只需要创建 4 个 BGP 邻居即可,也不必为每个云上 VPC 创建专线网关,最终极大降低专线的运维成本。


2. 云联网改造注意事项


线上业务改造需要很谨慎,建议前期做好深度调研,比如相关业务特征,带宽容量评估,当前架构的梳理,当前架构的缺点,新架构是否解决老架构缺点,各个地域的改造难度,是否可以平稳切换到新架构等。


双方一起确认新架构灰度基本步骤,基本原则是:先灰度测试 VPC,然后按 VPC 业务量从小到大的顺序进行灰度。


未使用过云联网的用户建议先创建测试 VPC 熟悉云联网配置方法,具体可参考文末提供的相关文档。


真正灰度前拉通腾讯云网络专家评估新老架构的底层网关路径差异,网关集群的带宽容量,底层路径 MTU 差异,云联网限速算法(截止 2020 年 11 月依然存在均分算法和分布式算法两种,出于带宽利用率最大化考虑建议分布式算法)等。每次灰度迁移都需要有明确的变更步骤、验证步骤、回退步骤,最终来确保灰度顺利完成。


每个账号云联网数量限制 5 个,每个云联网可以绑定的网络实例(例如 VPC 就是一个网络实例)数量限制 25 个。


云联网跨地域带宽限速方式有两种,一种是地域出口限速(单地域云联网总的出口限速),另外一种是地域间限速(地域 A 到地域 B 之间的带宽限速)。


参考文档

[1] 测试 VPC 配置文档:https://cloud.tencent.com/document/product/877/18752

[2] 对等连接迁移云联网配置文档:https://cloud.tencent.com/document/product/877/18854

[3] 传统专线网关迁移云联网专线网关配置文档:https://cloud.tencent.com/document/product/877/31037




头图:Unsplash

作者:李彬文 - 腾讯云售后架构师

原文带宽利用率提升50%,腾讯云联网架构方案解析

来源:云加社区  - 微信公众号 [ID:QcloudCommunity]

转载:著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。


2020 年 12 月 10 日 19:171492
用户头像
云加社区 腾讯云官方开发者社区

发布了 213 篇内容, 共 23.1 次阅读, 收获喜欢 130 次。

关注

评论

发布
暂无评论
发现更多内容

区块链跨境承兑商支付系统开发,usdt支付平台搭建

WX13823153201

区块链 数字货币

如何有效防止sql注入

Java旅途

作业二

Kiroro

22种超全用户触点采集,易观方舟SDK又更新了

易观大数据

高中生写LOL外挂1年狂赚500万,落网前刚买下120万保时捷...

程序员生活志

编程 程序员 外挂

架构师培训第10周练习

小蚂蚁

欲速也可达:Battle接口测试训练系统的1分钟快速说明

陈磊@Criss

Git删除仓库中的文件和文件夹

陈磊@Criss

两数之和

书旅

数据结构 算法 数据结构与算法

5G从小就梦想着自己要迎娶:高速率、低时延、大容量三个老婆

华为云开发者社区

5G IoT 通信 华为云 NB-IoT

什么是死信队列

Java旅途

RabbitMQ

PIP的报错Could not fetch URL https://pypi.org/

陈磊@Criss

架构师训练营第十周总结

邵帅

原创 | 使用JPA实现DDD持久化-R:数据的世界

编程道与术

Java hibernate DDD JDBC jpa

Grafana和ES打造的Nginx的仪表盘

陈磊@Criss

微信小程序的自动化测试框架

陈磊@Criss

架构师0期Week10作业2

Nan Jiang

第十周.命题作业

刘璐

Web前端性能优化,应该怎么做?

华为云开发者社区

运维 前端 HTTP js 前端性能优化

弹性计算的内部概念:弹性扩张、弹性收缩、弹性自愈

陈磊@Criss

标新立异的日志归档:用更少的内存归档大规模测试日志

陈磊@Criss

Clover:解决Java8和Cobertura的问题以及解决方法

陈磊@Criss

吴桐:数字货币具有稳定的避险性吗

CECBC区块链专委会

区块链 数字货币 链政经济

架构师0期Week10作业1

Nan Jiang

第十周.总结

刘璐

该了解一波了!零基础入门Nginx

程序员的时光

nginx Docker

看DLI服务4核心如何提升云服务自动化运维

华为云开发者社区

Serverless 运维 运维自动化 华为云 DLI

作业一

Kiroro

python判断文件和文件夹是否存在、创建文件夹

陈磊@Criss

jmeter 执行python脚本

陈磊@Criss

pipreqs:生成python项目的requirements

陈磊@Criss

边缘计算隔离技术的挑战与实践

边缘计算隔离技术的挑战与实践

带宽利用率提升 50%,腾讯云联网架构方案解析-InfoQ