10 月 23 - 25 日,QCon 上海站即将召开,现在购票,享9折优惠 了解详情
写点什么

热迁移、RTC 计时与安全加固…腾讯云 KVM 性能优化实践验谈

  • 2017-11-13
  • 本文字数:2884 字

    阅读完需:约 9 分钟

前不久,KVM Forum 大会发布了 2017 年最新 KVM 开源贡献榜,腾讯云因其向 KVM 内核贡献了 46 个 patch,成为全球唯一一家上榜的公有云厂商。据了解,这些补丁大多是腾讯云在实战过程中的经验总结,主要用于改善和解决 KVM 虚拟机在热迁移,时钟计时、嵌套虚拟化等方面的使用问题以及修复一些安全漏洞。

在开源的所有 patch 里,比较引人注目的是,腾讯云率先采用快速写保护、共享脏页位图、优化热迁移块大小等一系列方式,优化热迁移效率以及提升热迁移成功率。那么,它的虚拟机热迁移过程和具体方法是什么?腾讯云又如何看待 KVM 技术开源?KVM 现在面临着哪些新的挑战?带着这些问题,InfoQ 采访了腾讯云高级工程师肖光荣,就腾讯云的 KVM 开源技术与开源思路做了简单交流。

InfoQ:简单阐述一下 KVM 虚拟化技术以及 KVM 和云计算的关系?

肖光荣: KVM 是 Kernel-based Virtual Machine 的简称,KVM 要求 CPU 支持硬件虚拟化技术(如 intel VT 或 AMD-V),是 Linux 下的全虚拟化解决方案。KVM 由处于内核态的 KVM 模块和用户态的 QEMU 两部分构成。内核模块实现了 CPU 和内存虚拟化等决定关键性能和核心安全的功能并向用户空间提供了使用这些功能的接口,QEMU 利用 KVM 模块提供的接口来实现设备模拟、 IO 虚拟化和网络虚拟化等。单个虚拟机是宿主机上的一个普通 QEMU 进程,虚拟机中的 CPU 核(vCPU)是 QEMU 的一个线程,VM 的物理地址空间是 QEMU 的虚拟地址空间(图 1)。

vCPU 线程经过 KVM 模块提供的系统调用进入到宿主机内核态,在内核态切换到 CPU 的非根模式,即 guest 模式,此时虚拟机内的 CPU 获得宿主机 CPU 资源,得以执行。在 guest 模式中,遇到敏感指令无法直接执行,或者有特定的内部异常和外部中断产生,vCPU 会退出到根模式由 KVM 内核或 QEMU 来模拟执行(图 2)。

KVM 虚拟化技术是当前云计算中计算虚拟化的主流技术,是云计算的核心底层能力,使用 KVM 把多台物理机虚拟化后,组成一个大的虚拟资源池,方便用户从资源池中按需分配计算能力,提升资源的使用效率,同时保证多用户资源之间的隔离性、安全性。

InfoQ:腾讯云此次向 KVM 社区贡献的 46 个 patch 主要解决了哪些问题?

肖光荣:这 46 个 patch 是我们在实战过程中的经验总结,用于改善和解决 KVM 虚拟机在实际运营过程中遇到的一些问题,这些 Patch 主要应用在以下三个方面:

  • 时钟方面重构 KVM 的 RTC 计时框架。让 windows 虚拟机的时钟系统在时钟频率频繁调整的情况下保持精准。重构 KVM LAPIC Timer 的模式切换和频率调整的模拟,使其完全与硬件行为保持一致。优化 KVM LAPIC Timer 时钟中断注入的延迟。发现并解决了使用硬件辅助的 VMX Preemption Timer 模拟的 KVM LAPIC Timer 时的各种抢占问题。
  • 嵌套虚拟化方面重构异常注入的逻辑。解决了嵌套虚拟化下异常丢失的问题。添加异步缺页异常 (Async Page Fault) 在嵌套虚拟化下的支持。这些问题的解决,使得嵌套虚拟化更加稳定和高效,可以让更多的用户在不导镜像的情况下,将业务迁移上云。
  • 修复 KVM 将宿主机信息外泄的问题。修复 KVM 在模拟 CPUID 指令和处理虚拟机设备访问时,意外地将宿主机上的内存泄露到虚拟机。

InfoQ:腾讯云在虚拟机热迁移技术上有比较明显的突破,能否讲解一下虚拟机的迁移过程以及腾讯云如何提升热迁移性能?

肖光荣:虚拟机热迁移是一项非常重要的技术,热迁移可以在用户几乎无感知的情况下将虚拟机从当前宿主机迁到另外的宿主机,热迁移主要用于解决一些软硬件不可逆场景下的虚拟机可用性问题,如:宿主机硬件批次性隐患、宿主机内核内存泄漏等。腾讯云内部大量地使用热迁移来提升虚拟机的可用性,从近一年的统计数据来看,已经做到虚拟机的可用性大于物理机。

虚拟机的热迁移主要有下面几步:

  • 在目标宿主机上准备虚拟机运行环境,如挂载共享存储,创建虚拟网络等;
  • 从源宿主机建立到目标宿主机的连接,用于传输虚拟机的状态,比如内存;
  • 源端需要捕捉内存的更改并记录在内存传输过程中有哪些页面被改动,这些脏页需要在下一轮迭代中继续传输;
  • 传输全量内存;
  • 本轮内存传输完毕后,如果剩下的脏页数量能在设定的停机时间内传输完毕,那么将虚拟机停机,否则继续传输脏内存,直到脏内存的量收敛到可以在预定时间内传输完成为止;
  • 传输余下的脏内存,以及停机时 CPU 寄存器和各个子系统的状态;
  • 此时源端和目标端的虚拟机状态完全一致,在目标端让虚拟机恢复运行,迁移完毕。

如上所述,源端需要去捕获内存的更改,在当前的环境下是采用写保护和脏页位图的方法,即先把内存全部变为只读,在虚拟机写内存时就会产生异常被 KVM 内核模块捕获并且记录到脏页位图,该脏页位图最后被复制到 QEMU,据此 QEMU 能知道哪些内存被更改。

对于脏页内存的捕获,我们主要通过两大方式提升热迁移效率:1)采用快速写保护算法,该算法是无锁的并且算法复杂度为 O(1),这就意味着它的性能与虚拟机的内存大小和工作负载无关。2)采用 KVM 内核模块和 QEMU 共享脏页位图的方法,实现零拷贝以及减少用户态和内核态的上下文切换。

另外在迁移脏块的时候,针对子机内部 IO 性能下降的问题,优化热迁移块大小,避免传输无用数据,提升热迁移成功率。当然,腾讯云还有很多其他提升热迁移性能和稳定性的优化方法,在此就不一一列举了。

InfoQ:腾讯云如何看待云厂商们对 KVM 开源的贡献和支持问题?

肖光荣:腾讯云一直秉承开放,共享的心态参与开源,凭借庞大的用户群和 KVM 集群规模,腾讯云在 KVM 虚拟化上做了深入的研究和丰富的实践。腾讯云自 2017 年 5 月加入 Linux 基金会以来,更加大了回馈社区的力度。在 KVM 内核领域,已经是贡献度最高的公有云厂商。

过去,大型开源项目一直鲜见中国大型企业的身影,所以开源界一直诟病中国企业只索取不贡献,作为公有云的一线厂商,我们希望通过实际行动转变开源界的看法。

当前 KVM 虚拟化技术是各家云厂商使用的主流虚拟化技术,腾讯云有一个专门负责做开源的团队,该团队一方面将持续创新以来解决腾讯云线上遇到的各种挑战并且将产出反馈给社区,另一方面探索云计算领域的新技术,做好前沿技术的预演和积累。同时我们也希望各大云厂商加大对 KVM 项目的投入,积极参与到社区,共同应对新硬件,新架构给 KVM 带来的挑战。

InfoQ:KVM 技术现在面临着哪些新的挑战?

肖光荣:一方面,Intel 不断推出新 CPU 架构:haswell、broadwell、skylake 到 cascadelake,网络带宽从 10G 到 25G 再到 100G,更新的硬件架构,更高的网络带宽需要更高效的虚拟化才能将硬件的性能充分发挥。另一方面,GPU、FPGA 在 KVM 上的虚拟化、池化有待突破,否则 GPU、FPGA 的整体利用率无法提升。虚拟机网络性能一直是虚拟化的短板,利用智能网卡等技术可以将网络性能做到和物理机旗鼓相当,但同时也让热迁移变得困难。

嘉宾介绍

肖光荣,腾讯云开源团队负责人,操作系统专家。肖光荣在 Linux 内核、KVM 社区工作近十年,是 Ftrace, MM, Networking 等子系统的活跃贡献者。近几年主要工作在虚拟化领域,是 KVM 的核心开发者,Virtual NVDIMM 子系统的维护者。肖光荣向社区提交了大量 Patch,在华人内核贡献者中排名 Top 15,在内核和 KVM 社区拥有巨大影响力。

2017-11-13 21:013979
用户头像

发布了 24 篇内容, 共 11.8 次阅读, 收获喜欢 2 次。

关注

评论

发布
暂无评论
发现更多内容

vivo 游戏黑产反作弊实践

vivo互联网技术

游戏黑产 游戏礼券

TBB 开源库及并发 Hashmap 的使用

KaiwuDB

KaiwuDB TBB开源库 Hashmap使用

【参考设计】2KW AC/DC数字电源方案

元器件秋姐

设计 电路 方案 电源 数字电源

LED透明屏和LED玻璃屏的区别

Dylan

分辨率 视频 图像 屏幕亮度 LED

海外交友源码平台搭建:基础功能的实现(一)

山东布谷科技

软件开发、 源码搭建 海外市场 语音交友源码

一种实现Spring动态数据源切换的方法 | 京东云技术团队

京东科技开发者

spring aop 企业号 6 月 PK 榜 数据源切换

高性能网络 SIG 月度动态:联合 IBM 就 SMC v2.1 协议升级达成一致,ANCK 率先完成支持

OpenAnolis小助手

开源 ibm 高性能网络 anck 龙蜥sig

浅谈API安全

权说安全

API 安全

Java 内存与缓存管理:应对大数据场景的优雅高效策略

xfgg

Java 6 月 优质更文活动

细说敏捷测试-敏捷实战中的探索 | 京东云技术团队

京东科技开发者

敏捷开发 测试 敏捷测试 企业号 6 月 PK 榜

AI+电力、大模型主题人工智能师资培训班重磅招募中

飞桨PaddlePaddle

人工智能 百度 paddle

强化学习从基础到进阶-案例与实践[1]:强化学习概述、序列决策、动作空间定义、策略价值函数、探索与利用、Gym强化学习实验

汀丶人工智能

人工智能 深度学习 强化学习 深度强化学习 6 月 优质更文活动

软件测试/测试开发丨Pytest结合数据驱动-CSV

测试人

程序员 软件测试 自动化测试 csv pytest

海南正规等级保护测评单位有哪些?叫什么名字?

行云管家

等保 等级保护 海南 等保测评单位

详解4种模型压缩技术、模型蒸馏算法

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 企业号 6 月 PK 榜

Typora绿化版

源字节1号

开源 软件开发 前端开发 后端开发 小程序开发

基于双层缓存(DLC)机制解决热点缓存并发重建问题

xfgg

Java' 6 月 优质更文活动

即时通讯技术文集(第17期):社交软件红包技术专题 [共12篇]

JackJiang

网络编程 即时通讯 IM

IT自动化运维工具用哪款?需要考虑哪些因素?

行云管家

IT运维 自动化运维 IT自动化运维

强化学习从基础到进阶-常见问题和面试必知必答[1]:强化学习概述、序列决策、动作空间定义、策略价值函数、探索与利用、Gym强化学习实验

汀丶人工智能

人工智能 深度学习 强化学习 深度强化学习 6 月 优质更文活动

观点碰撞燃爆会场|2023开放原子全球开源峰会区块链分论坛圆满落幕

开放原子开源基金会

区块链 开源 开放原子全球开源峰会 开放原子

龙智携手Atlassian亮相DevOps国际峰会:释放团队潜力,以协作挑战不可能

龙智—DevSecOps解决方案

DevOps ITSM ITSM软件 工作管理

Airtest图像识别测试工具原理解读&最佳实践 | 京东云技术团队

京东科技开发者

图像识别 移动开发 UI自动化测试 企业号 6 月 PK 榜 Airtest

模型当道 开源聚力|2023开放原子全球开源峰会开源大模型分论坛圆满收官

开放原子开源基金会

开源 大模型 开放原子全球开源峰会 开放原子

可观测性最佳实践 | 警惕!未知的风险正在摧毁你的系统

观测云

可观测性 运维监控 观测云 云原生可观测 可观测性用观测云

618夏日“折”学家活动上线!开通表盘会员解锁百变腕间风格

最新动态

蚂蚁集团自动化混沌工程 ChaosMeta 正式开源

ChaosMeta

高可用 混沌工程 故障演练 kubernetes 运维 混沌测试

Java 中优雅的 RESTful API 设计:实现高效且易维护的接口

xfgg

Java RESTful API 6 月 优质更文活动

Seata Saga 模式快速入门和最佳实践

阿里巴巴云原生

阿里云 云原生 seata

赋能中国软件,共筑开放生态|2023开放原子全球开源峰会软硬协同开源分论坛成功举办

开放原子开源基金会

开源 开放原子全球开源峰会 开放原子 软硬协同开源

热迁移、RTC计时与安全加固…腾讯云KVM性能优化实践验谈_DevOps & 平台工程_江柳_InfoQ精选文章