关键业务服务器对可靠性要求非常严格,调研机构曾调查过不同行业,关键业务中断服务带来的金钱损失:服务器宕机1分钟,平均会使运输业损失15万美元,银行业损失27万美元,通信业损失35万美元,制造业损失42万美元,证券业损失45万美元。而根据ITIC最新2018年底统计,1小时停机损失: 1小时停机损失,来源ITIC 前些年关键业务服务器的金标准是要做到5个9,现在已经要求6个9,甚至7个9。他们是什么意思呢? X个9,表示在1年时间的使用过程中,服务器可以正常使用时间与总时间(1年)的比值。 5个9:(1-99.999%)*365*24*60=5.26分钟,表示1年非计划停机时间不超过5.26分钟。 6个9:(1-99.9999%)*365*24*60*60=31.5秒,表示1年非计划停机时间不超过30秒。 7个9:(1-99.99999%)*365*24*60*60=3.15秒,表示1年非计划停机时间不超过3秒。 ITIC统计2018年80%的企业最低要求4个9,可靠性要求增长非常迅速: 来源ITIC 服务器能够做到这么短的非计划停机时间,除了在操作系统上要求严格外,硬件上的保证是重中之重。服务器的RAS(Reliability, Availability,Serviceability 高可靠性、高可用性、高服务性)特性(feature)曾经是大型机的骄傲,也是它们高高在上身价的基础,但紧接着X86在RAS功能上的补足,服务器市场已经几乎被X86服务器占据。关键业务服务器由于历史和维护原因,还有部分市场份额不在X86的掌控之中,但非X86高可靠性的神话已经破灭。根据ITIC统计: 来源ITIC X86服务器不但占据绝大部分,而且可靠性也仅仅比Power 服务器低一点点。 那么这些RAS功能都是些什么呢?绝对不是焚香祷告哦 而是实打实的硬功夫!RAS的根本在于提供硬件庸余来避免错误;出错后及时发现、纠正和避免错误扩散;替换掉出错的设备等等。下面我们来分别了解一下。 内存镜像 对计算机比较了解的同学都知道磁盘的RAID模式,RAID提供了数据冗余来保证数据安全。当然RAID是服务器上的必备要求,但你知道吗,内存也有同样的模式,那就是内存镜像(Memory Mirror)。内存镜像将4个通道的内存成对存储相同的数据,类似磁盘的RAID 1,内存的数据在硬件上就被保存了两份,当一份损坏时还有备份,而更妙的是这些是对软件透明的。 这个冗余度和RAID1一样是很大的,一半的资源在大部分情况下闲置了,在提高可靠性的同时浪费也十分严重,有没有稍微省钱点的做法呢?当然有,那就是内存备用(Memory Sparing),简单来说就是保留了部分内存,当出错再把这些内存拿来顶上。它的颗粒度可以到DIMM甚至以Rank为单位。 SDDC、SDDC+1、DDDC和ADDDC 大家知道1位奇偶校验码可以发现1位的错误,但不能纠正,对于2位以上连发现都发现不了。ECC好一些,但对于很多位错误就无能为力了。SDDC (Single Device Data Correction,单设备数据校正 )可以纠正X4的单设备错误: 注意是1RX4, 来源SuperMicro
|
Powered by Discuz! X3.4
© 2001-2023 Discuz! Team.