博客园与啊里云的故障假设:高需与低配(补充了降频论)

网友投稿 902 2022-11-27

博客园与啊里云的故障假设:高需与低配(补充了降频论)

博客园与啊里云的故障假设:高需与低配(补充了降频论)

背景:

博客园自从上了啊里云,故障频繁,使得大伙每星期都在看故障报告,对503不知不觉也建立直了深厚的友谊。故障从硬盘IO到SLB到应用级别的,各自怀疑,各自检测,都各自坚持没问题,但情况是问题依旧。而解决的方式是博客园不断的购买高配,但仍逃不出503的魔掌。最终,博客园把怀疑点指向了啊里云的CPU。啊里云,也怀疑是博客园自身程序问题。 对此问题,园里园外都比较关心,所以,在这背景下,我假设性的分析一下。

注意,以下内容纯属个人意淫,假设性内容,不代表符合事实,仅供各位看热门的参考:

由于啊里云和博客园各执一念,互不相让,所以个人个人只好给个折衷的猜测,都有问题,或者都没问题。

终结假设点就是:啊里云的低配配不上博客园的高需。

一:假设博客园是高需程序:

我们假设博客园的程序, 在程序上可能混杂多款时尚组件,而无法掌握原理和核心,进而在优化上没能发挥;导致过渡依赖缓存,而原生的程序平均执行时间长,导致缓存失守部分不能负载大量并发,造成系统负担重,需要高配来支持。

二:假设啊里云没有提供高配置:

首先,要假设啊里云的云产品,虚拟化技术并没有超过业界领先水平Xen。

然后,我们看一下以下信息(摘自互联网),来了解两个概念,CPU与VCPU:

1: 物理CPU与虚拟VCPU

xen客户机启动的时候,虚拟CPU是由dom0系统决定固定在某个物理CPU核心上的,这个分配具有随机性,比如我们的机器上有2个双核的处理 器,也就是说有4个cpu核心,同时我们分配4个核给我们的虚拟客户机,那么我们在客户机也看到4个cpu核心的,但是这四个vcpu核心并不是真的对应 着物理机器上的四个核,可能四个虚拟cpu对应的是物理cpu中的1~4个核,也就是说有下面4个可能: 4vcpu=1cpu 4vcpu=2cpu 4vcpu=3cpu 4vcpu=4cpu vcpu指虚拟CPU核心 cpu指物理CPU核心 因 此,当我们的虚拟客户机上如果运行的是运算密集型的任务的时候,就必须看看我们vcpu与物理CPU的对应,必要的情况下手工固定VCPU到物理CPU 上,使该虚拟机可以使用所有的物理核心;而如果你正在运行IO密集型任务,那么最好就分配一个超线程或整个核给dom0,并且固定其他的域让他们不能使用 CPU 0。

大体上就是说:虽然博客园买的是8核的,但是否真对应上物理机的8个核,这是未知数,实际情况是<=8。

所以,如果博客园买了一个高配置的8核(VCPU),实际只分配到4个物理CPU,性能就降低一半,变成低配了。

所以我们再假设:博客园运气很背:

博客分开买了4台8核,一共号称32核跑博客站,根据上述理论,实际真实CPU可能在(1-32个)具体有几个还得看人品。如果4台机,随机都在物理4个核上,那就亏大了,高价钱买了低配置,如果在8个核上,也还是亏,如果在16个核上,还是亏一半。所以,这是第一个假设成立,博客园就是跑在低配上。

如果,博客园运气特好,刚好分配到32个对应的物理机上,或者如果啊里云重视,亲自帮博客园改参数设置对应关系,那我们再看下面的假设。

补充假设:啊里云的CPU降低了主频,或者说是算法平均:

我们假设博客园买的8核CPU2.4GHmz主频,啊里云按8人用标准给每个VCPU分配了300MHz,这样就实现了就算8个用户都跑满虚拟的100%CPU,总物理也才刚好100%。所以理论上,只要分配超底的主频,和限制使用人数,可以达到隔离作用。 但现实是,分配过低的主频,会造成CPU性能下降,资源极大浪费,所以,一般IDC商会分配在600MHz这般,这种低频一般够小站使用了。

这样如果是4个用户使用,4*600M=2.4G基本隔离,如果是8个用户使用,如果平均使用50%也基本隔离。

如果有4个人跑满,那剩下的4个人无论使用多少,肯定也就挂了,所以通过管理,只能关站,并只能清退这部分人了。 所以,如果啊里云把主频降的低,博客园就跑低配了;

如果啊里云主频设的高或没限制,那是不可能的,因为算法必须保证用户的平均使用率。所以问题就是主频究竟在一个怎样的合适值中了(一般按国际标准,是1/4 CPU的限制,即4人用的标准,实际使用增加到6-8个人)。

根据大中华环境猜测,赚钱第一原则,总CPU基本核是固定的,而用户数是不断增加长的。所以:反正限多少主频,你也看不出来,实际多少个人在共享使用,你也看不出来了。

根据以上实际性的假设,所以博客园本身就是运行在了降级的CPU上。

假设2:CPU资源竞争

首先确定的一点,从来就没有什么救世主,也没有CPU绝对隔离一说。

说CPU独立隔离,那是客服常见的忽悠手段,稍为看一下CPU的相关知识,就知道只能靠算法来决定怎么分配而已,隔离相对限制而言。

不信我们可以看下面的摘段(取自互联网):

2012-05-22 17:22:20|  分类: 虚拟化-XenServer |字号 订阅背景:在Xen环境下,内存与CPU分配是可以动态改变的。通过动态更改内存与CPU分配,可以达到优化虚拟机性能的目的。通常情况下,我们的虚拟机分配物理cpu的资源为自动分配的。当在一个物理机器上面分配多个虚拟机,并且虚拟机的cpu总和超过实际物理机器的cpu数量时,并且各个虚拟机在高负载的情况下,高负载的虚拟机会调用其他虚拟机器的资源这次发现的问题是我们公司某系统新上线了三台虚机服务器,上线后发现,在流量是平均分配的前提下,新上的机器的负载比老机器高,新上的机器负载在8左右,而老机器的负载在4左右,查询了机器的配置和参数设置,新老机器都一样。后来通过iostat指令,发现新机票的steal值非常高,大于在40左右,而老机器的steal只有0.1左右。经与老大咨询,steal的值高会代表实体机的CPU负载高。后经由老大发现,新上线的三台虚拟机在一台实体机上,每个虚机分配了四个CPU,而实体机是个8CPU的服务器,导致了三个虚机之间征用CPU。(cpu要打开超线程!!!)

通过上述说明,CPU间是存在资源竞争的,对于资源竞争问题。

一般的IDC商家,是会对长期占用高CPU的VPS租用用户进行清退的,因为这会影响到其它用户。

而对于啊里云,目前为了用户,也在推广期,估计在管理上,用户量大,人员少,目前估计不会有这种手段,所以类似于放任用户无限制的使用CPU。

所以啊里云的用户间更容易发生抢占资源的行为。

于是博客园的程序,平时好好的,某些情况CPU不行了,可能是CPU资源互抢了,抢不过人家就503了。

为什么博客园抢不过人家,这里我也有一个假设:

虚拟技术有两个标识来标识VCPU,就是under和over,记录每个VCPU平均的负载。如果平时高的,到资源竞争时,优先级就变低,平时低的,到资源竞争时,优先级就会变高。看博客园的cpu截图,平时也不低,所以真到资源竞争,就没啥优势了,抢不过人家了。

所以根据以上的假设:

1:如果博客园优化下程序,不再那么需要高需;

2:啊里云提供货真价实的32核高配(对同个用户名进行开通的所有主机按实核分配),再控好分配时的实际使用人数;

3:或者啊里云的用户自觉点,别老上那些吃CPU的站;

也许。。。

再次重申,以上内容纯属个人意淫YY假设,可能与事实存在较大出入。欢迎大伙讨论。 。。

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:小网站架构优化:从100并发抗到4000并发
下一篇:不该活着的SqlHelper和DBHelper
相关文章

 发表评论

暂时没有评论,来抢沙发吧~