【转帖】虚拟化与云计算技术硬核内幕

虚拟化,计算技术,硬核,内幕 · 浏览次数 : 0

小编点评

**超分配** 超分配是指在虚拟化系统中,利用时分复用机制将多个物理CPU或HT分配给多个虚拟机使用,从而让虚拟机共用物理HT的数量超过物理HT数量。 **虚拟机调度机制** 在Linux中,虚拟机调度机制使用QEMU进程来实现虚拟机与物理系统的资源共享。QEMU进程可以被绑定到特定的硬件HT上,从而实现虚拟机的资源分配。 **超分配的实现** 在Linux KVM中,每个虚拟机就是一个用户空间的QEMU进程,而分配给虚拟机的vCPU就是该QEMU进程的一个线程。由于Linux是一个SMP操作系统,每个线程都可以被调度到任意一个CPU,因此超分配可以利用多个硬件HT为多个虚拟机提供相同的CPU资源。 **时间管理大师** “时间管理大师”是一种在Linux操作系统中用于虚拟机资源管理的技术。它允许用户在虚拟机上指定每个虚拟机应该分配多少CPU资源,并确保这些资源在虚拟机之间公平分配。

正文

这种将物理硬件分配给多个使用者的技术,叫做“时分复用”。计算机操作系统的任务调度模块,实质上提供的就是将CPU以“时分复用”的方式给不同任务使用的机制。

那么,如果在虚拟化系统中,也利用时分复用机制,将一个物理CPU或HT分配给多个虚拟机使用,就可以让多个虚拟机共用1个物理HT,也就是在虚拟机操作系统视角看到的CPU数量多于宿主机的物理HT数量。这就是所谓的“超分配”。

在Linux自带的KVM中,超分配实际上是默认的方式。

下图是Linux KVM中,vCPU的实现方式:

一般在每台物理服务器上,会有2-4个物理CPU,每个物理CPU内部都会有若干个Core。Intel的处理器在开启了VT技术后,每个Core有两个HT(Hyper-Threads),在宿主机上的Linux操作系统看来就是两个CPU。

如某台服务器配置了2颗Intel 5218R CPU,每颗有20核,整机40核,那么,服务器上的操作系统可以检测到80个HT,也就是在操作系统看来,整机有80个CPU。

在Linux侧,KVM中,每一个VM就是一个用户空间的QEMU进程,而分配给VM的vCPU就是该QEMU进程的一个线程Thread。如某VM有4个vCPU,那么,这个QEMU进程中就有4个Thread。

由于Linux是一个SMP操作系统,在没有特殊设置的前提下,Linux的每个线程或进程,都可以被Linux调度到任意一个CPU。如果用户期望虚拟机的vCPU独占一个HT,可以通过把vCPU对应的QEMU进程下的thread绑定到HT来实现。

如图,VM1的vCPU0和vCPU1被绑定到两个硬件HT,每个vCPU都有对应的硬件HT。

而VM2,采取了“时间管理大师”的方式进行调度,如图,VM2的vCPU0和vCPU1,对应的QEMU线程在同一个硬件HT上运行,CPU会利用时分复用的方式调度两个QEMU的线程,也就是将一个硬件HT作为2个vCPU提供给虚拟机使用。

看到这里,大家可能会有一个疑问:VM上的vCPU是运行了包括GuestOS本身在内的多任务的,而它又只是QEMU的一个线程,这不是矛盾的吗?这个线程实际上到底会让物理CPU的HT执行什么样的指令呢?

Intel通过增加了VT-X系列机制,在VM Entry和VM Exit中让一个HT可以在宿主机状态和虚拟机状态之间切换。

实际上,当VM的vCPU发生VM Exit,退回到hypervisor的时候,就是退回到QEMU中,也就是当前VM GuestOS上的程序代码在运行时被切掉,CPU转而执行QEMU的代码!

如果这个vCPU是超分配出来的,也就是对应的QEMU线程会与其他VM的vCPU共用一个HT,那么,在系统的时钟中断中,会无条件切断虚拟机vCPU在这个HT上的运行,并引发VM Exit,中断处理程序会做下面这些事情:

  1. 保存vCPU的运行现场(各寄存器),特别是保存在堆栈中的切断时的程序指针(CS:IP)、标志位(EFLAGS)、堆栈选择子SS和堆栈指针SP;
  2. 进入Linux的任务调度程序;
  3. 确定该HT上应当运行的下一个任务,并将该任务上次被时钟中断切掉时的现场恢复到CPU的各寄存器;
  4. 最后执行iret指令,把下一个任务的SS,SP,EFLAGS和CS:IP数据恢复到CPU的这两个寄存器,CPU开始执行下一个任务;

由于这个HT已经被虚拟化KVM所管理,上面只会运行分配给不同VM的vCPU对应的线程,因此,下一个任务一定是其他VM对应的QEMU里面,拉起vCPU的线程。这个线程会再次通过VM Entry,转到上次这个vCPU被时钟中断切断的执行现场,继续执行该vCPU服务于虚拟机时的程序。

这样,Linux操作系统的“时间管理大师”功能就可以用于虚拟机对CPU资源的时分复用啦!

文章知识点与官方知识档案匹配,可进一步学习相关知识
CS入门技能树Linux入门初识Linux31245 人正在系统学习中

与【转帖】虚拟化与云计算技术硬核内幕相似的内容:

【转帖】虚拟化与云计算技术硬核内幕

这种将物理硬件分配给多个使用者的技术,叫做“时分复用”。计算机操作系统的任务调度模块,实质上提供的就是将CPU以“时分复用”的方式给不同任务使用的机制。 那么,如果在虚拟化系统中,也利用时分复用机制,将一个物理CPU或HT分配给多个虚拟机使用,就可以让多个虚拟机共用1个物理HT,也就是在虚拟机操作系

[转帖]KVM与ESXi 对比

关于KVM KVM,深受开源、国产虚拟化、云计算厂家欢迎,费用可以无视,可定制,配合的开源云管平台很丰富,但是对入门用户不友好,第三方工具不够多,无代理备份方式受限于KVM所选择的Linux发行版本,导致各个版本的第三方工具支持力度不高。大厂喜欢,企业用户不喜欢。 关于Vmware ESXi,商业版

[转帖]Oracle Linux 9 - Oracle 提供支持 RHEL 兼容发行版

https://sysin.org/blog/oracle-linux-9/ Oracle Linux 是一个开放、全面的操作环境,提供虚拟化、管理、云原生计算工具和操作系统,通过一个统一的支持解决方案满足您的业务需求。Oracle Linux 与 Red Hat Enterprise Linux

[转帖]虚拟化: 物理CPU与VCPU的关系 || 内存上限说起 VMware内存分配初探

本文章整合了一下(vSphere&FusionSphere)内存的相关知识: 1.虚拟化CPU与VCPU关系 2.虚拟化的内存分配 1、vSphere 物理CPU与VCPU的关系 为方便识别虚拟的资源和物理(或叫真实的)资源,本人文章中以小写字母v前缀标识虚拟资源,小写字母p前缀标识物理资源。例如:

[转帖]Linux 调优篇:虚拟化调优(hugepage 大页内存)* 叁

一. 大页(HugePages)概念 Hugepage的引入二. hugepages相关概念三.Regular Pages 与 HugePages a、Regular Pages b、Huge Pages四. hugepage 优点五.调优方法 5.1 在Host侧查看各个numa节点上的大页分配情

【转帖】Linux 调优篇:虚拟化调优(hugepage 大页内存)* 叁

一. 大页(HugePages)概念 Hugepage的引入二. hugepages相关概念三.Regular Pages 与 HugePages a、Regular Pages b、Huge Pages四. hugepage 优点五.调优方法 5.1 在Host侧查看各个numa节点上的大页分配情

[转帖]国产服务器CPU架构与行业研究报告(节选三)

https://zhuanlan.zhihu.com/p/510768926 ​ 已认证帐号 已关注 2 人赞同了该文章 目录 1 服务器与CPU技术综述1.1 服务器综述1.1.1 服务器的发展历史1.1.2 服务器的组成1.1.3 服务器的分类1.1.4 服务器集群与冗余技术1.1.5 虚拟化技

[转帖]VMware与KVM全方面对比

https://blog.csdn.net/tony_vip/article/details/104286976?spm=1001.2014.3001.5502 1 、 功能对比 2 、 管理工具对比 3 、 Guest OS 系统及硬件支持对比 4 、 KVM 虚拟化常见问题 5 、 KVM 与

[转帖]SPEC测试arm服务器性能,SPECJVM2008测试处理器性能_服务器评测与技术-中关村在线...

首先,我们使用SPECJVM2008测试最新至强E5处理器的虚拟化性能。 SPECJVM2008是一种通用的多线程Java基准测试工具,它能够反映JRE(Java Runtime Environment)运行Java的环境集合(包含JVM标准实现及Java核心类库)性能表现。该套测试工具主要体现物理

[转帖]方神: 银河麒麟V10SP1桥接配置网卡总结

简介 公司计划再XC服务器上做业务软件的兼容测试,为了满足需要,想利用操作系统自带的KVM虚拟化做些虚拟机。再配置过程中发现虚拟机无法与宿主机通信,无法访问外网。以下对该问题做些简要的故障分析记录。 环境说明 服务器: 飞腾S2500*2 128Core 1T内存 操作系统: #版本 Kylin L