NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

揭秘下一代腾讯云高性能网络技术

  • 2019-11-12
  • 本文字数:2034 字

    阅读完需:约 7 分钟

揭秘下一代腾讯云高性能网络技术

大数据时代带来的数据流动性,对承担数据流动的网络技术带来了新挑战。11 月 7 日,在腾讯云主办的首届 Techo 开发者大会现场,腾讯云对下一代高性能网络技术进行了揭秘。

数据中心网络带宽演进的三个阶段

随着 5G、AI、云计算的普及和场景应用,越来越多的设备被连接,数据洪流随时随地产生和分享,对网络架构和处理数据的能力提出了新需求,而腾讯云对于高性能网络软件架构的思考,也经历了数据中心网络带宽演进的三个阶段:


第一阶段,公有云数据中心的服务器接入带宽在 2014 年从千兆迈入万兆。这个阶段所有的网络虚拟化软件通过内核模块实现, 通过横向扩展来满足网关的性能需求, 由于内核框架本身性能的局限性,实现的性能指标今天看起来很差,但是能够满足当时的客户诉求。


第二阶段,2017 年随着视频行业和游戏加速行业的兴起,云网络逐步开始从 10G 向 25G 迁移,这些行业上云对虚拟化网络提出了百万级别稳定的包处理能力需求,对 VM 的网络互访时延及时延的稳定性要求也更加苛刻。


在这种背景下, 虚拟化网络的技术突破点是 DPDK,整个虚拟网络的架构并没本质变化,只是虚拟网络软件用 dpdk 重新实现,提升了单台机器的性能。


第三阶段,预计到 2020 年底公有云数据中心的服务器接入带宽即将达到 100G。主要驱动力来自于虚拟化密度的提升。事实上,在今年底已有 196 核的 CPU 面世,虚拟化密度直接翻倍,可预期的未来,4HT 的技术会出现,虚拟化密度会继续大幅度提升,对网络基础设施架构的能力会带来非常大的挑战。


显然,不同的网络带宽时代,对虚拟化网络的软件架构会有不一样的要求。尤其是随着腾讯内部自研业务的大量上云,内网互访流量非常的大,overlay 访问 underlay 的支撑服务流量可以百 T 计,大流量的冲击下,集中式网关的资源问题和 scale 能力成为一个非常大的问题。

下一代腾讯云高性能网络技术两大突破口

对于腾讯云来说,下一代高性能网络技术突破有两个:超稳虚拟化平台、网关的演进。乍一看,两者似乎关系不大,但想要搭建下一代高性能网络技术就像是建房子,超稳虚拟化平台是支撑房子的地基,而网关则是贯穿房子墙面的的钢筋骨架。


“网络架构的元素会简化,要减少集中式网关的使用,核心是边界的高性能网关,以及高性能稳定的虚拟化底层平台”, 金峰现场说道。



金峰表示,超稳虚拟化平台,腾讯云内部有一个专门的云基项目去支撑。这个项目对网络虚拟化,存储虚拟化和计算虚拟化都做了大量的重构和优化,计算虚拟化大幅度优化 KVM 性能损耗,为社区贡献了超过 100 个核心 patch,在全球的互联网厂商中都名列前茅,可以保证在大多数场景下实现虚拟化相比物理机单核性能损耗在 5%以内。


网络虚拟化优化了各种不同场景的处理性能,不局限于优化快转表的性能,对于纯粹的包转发模式也做了大量的查询匹配优化,性能能做到 2M PPS 以上,此外 vswitch 可以自动判断每个数据包应该采用的转发模式,分别使用包转发,基于软件的快转表转发,和基于硬件的快转表转发, 为每种不同场景提供最适合的转发模式来保障性能。云基项目支撑的高稳虚拟化平台在腾讯内部的自研上云业务中大规模使用,支撑了 QQ,微信等核心业务的苛刻性能要求。值得一提的,业界支撑自研上云大多使用 baremetal 方案,腾讯云完全用虚拟化支撑了核心业务的自研上云。


有了超稳虚拟化这个扎实的房子地基,作为“钢筋骨架网络”的网关就可以持续演进,表现在三个方面:1、业务网关 NFV;2、内部服务去网关;3、边界网关硬件化。


首先,基于超稳的虚拟化平台,腾讯云可以将 LB, NAT 等业务网关放在虚拟化平台上,复用虚拟化平台本身的资源池优势,无感知调度迁移,高性能网络,优先级 QOS 等能力,保障自身的性能和稳定性。此外集中式网关变为分散的虚拟化网关,故障域大大缩小,对整体的可用性也有很大的收益。


其次,去除物理网关。对于用户访问对象存储,数据库等基础服务,此前会有一个有状态网关来做 overlay-underlay 转换,自研上云之后,几百 T 的内网带宽让这种集中式有状态网关的成本和可用性难以承受,将 overlay 和 underlay 的边界从网关移到每台提供基础服务的物理服务器上,每台物理服务器插入一个内核模块,提供 VPC 的被动访问接入能力。


第三,就是边界网关的硬件化,腾讯云已经在和一些合作伙伴进行这方面的预研,一台硬件网关可以提供 5-10 个 100G 软件网关集群提供的性能,在大网络吞吐时代对于边界网关的规模可控具有非常大的意义。


金峰表示,除了 VPC 网络之外,100G 网络当前最大的场景来自于大数据、AI 带来的低延迟高吞吐网络需求,这对于 RDMA 网络有非常强烈的诉求。


腾讯云采取 VPC overlay + rdma underlay 双网络的方式来承载基于 GPU direct 的 AI 多机训练业务;目前 100G rdma 网络已经在腾讯的云上 GPU 算力平台上得到应用,服务了腾讯内部的诸多 AI 类业务。


“下一代的高性能网络,腾讯云期望是一个结构简单的网络,它并不一定是绝对数值最好的,但是一定是对客户有保障的,能够满足客户各种不同场景的性能和可用性诉求”, 腾讯云 IAAS 专家工程师金峰总结道。


2019-11-12 17:56923

评论

发布
暂无评论
发现更多内容

母婴后浪品牌频出,各个细分市场有哪些发展潜力?

易观分析

母婴

“StarRocks 极客营” 重磅来袭,和技术大牛一起推开数据库梦想之门!

StarRocks

数据库 大数据 StarRocks

收藏很久的资源整合网站,一个网站一个世界

小炮

网络安全:绕过MSF的一次渗透测试

网络安全学海

黑客 网络安全 信息安全 渗透测试 安全漏洞

一文搞定 Flutter 底部弹窗实现

岛上码农

flutter 跨平台 ios开发 Android开发 3月月更

在线JSON转HTML,TABLE表格工具

入门小站

工具

运维审计系统是堡垒机么?跟堡垒机有啥区别?

行云管家

运维 堡垒机 运维审计系统

Kubernetes API规范:为optional的字段使用pointer

工程师薛昭君

API Kubernetes 集群

多场景推进 服务网格在联通的落地实践(下)

百度大脑

【网络安全】网络安全的重要性你知道吗?

行云管家

网络安全

什么技术,让浩鲸科技拿下中国移动大奖?

鲸品堂

中国移动

敏捷实践|好的用户故事怎么写?

LigaAI

用户故事 敏捷实践

电脑就是我的安全感|ONES 人物

万事ONES

招聘 软件工程师

春分耕种时,AI“现身”田间地头

百度大脑

743 网络延迟时间

好吃不贵

如何进行高效的版本管理,版本管理的方法

阿里云云效

云计算 阿里云 项目管理 云原生 版本管理

在线HTML压缩格式化工具

入门小站

工具

恒源云(GpuShare)_MaskFormer:语义分割可以不全是像素级分类

恒源云

语义分割 像素分割 MaskFormer

小程序容器技术,App热更新与敏捷开发新方案

Speedoooo

敏捷开发 APP开发 热更新 小程序容器 动态更新

从 SVN 迁移到极狐GitLab

极狐GitLab

svn 迁移 极狐GitLab

计算机编码规则之:Base64编码

程序那些事

Java base64 nio 程序那些事 3月月更

centos7.6安装MySQL5.7采坑指南

云原生

MySQL 数据库 sql centos

Centos7安装Nginx

云原生

nginx centos 部署

TDesign 更新周报(2022年3月第3周)

TDesign

数字化原住民|ONES 人物

万事ONES

软件 招聘 软件工程师

Git 如何回退代码

秋天

科幻变现实:喷下即疗愈,生物3D打印绘就生命密码图

脑极体

深入浅出事务的本质,附 OceanBase 事务解析14问!

OceanBase 数据库

oceanbase OceanBase 社区版

一周热点回顾|虎符交易所上线多链合一;俄央行称加强监控加密资产等P2P交易

区块链前沿News

区块链 虎符交易所

使用 ABAP 开发的一个基于 Web Socket 的小工具,能提高程序员日常工作效率

Jerry Wang

自动化 前端开发 websocket 程序员进阶 3月月更

Python迎来31岁生日,蝉联年度编程语言排行榜冠军

Python猫

Python

揭秘下一代腾讯云高性能网络技术_服务革新_云加社区_InfoQ精选文章