家电维修网

 找回密码
 注册
家电维修网 网站首页 电脑维修 查看内容

服务器每年只停机30秒怎么做到的

2019-1-22 13:37| 发布者: 南召修电视| 查看: 475| 评论: 0

摘要: 关键业务服务器对可靠性要求非常严格,调研机构曾调查过不同行业,关键业务中断服务带来的金钱损失:服务器宕机1分钟,平均会使运输业损失15万美元,银行业损失27万美元,通信业损失35万美元,制造业损失42万美元, ...
SDDC+1不但可以纠正X4的内存错误,还可以把出错的颗粒替换掉,让它下次不再出错


SDDC+1不但可以纠正X4的内存错误,还可以把出错的颗粒替换掉,让它下次不再出错:

来源Supermicro

DDDC(Double Device Data Correction )可以和Lockstep一起,将两个DIMM拼拼,纠正两个X4颗粒的错误:

来源Supermicro

DDDC+1和ADDDC(Adaptive Double Device Data Correction)这里就不再介绍,有兴趣的可以自行Google。

内存巡警

这些都是内存访问的时候发现错误了如何处理,但是还有些错误可能发生在没有访问的区域,这些区域错误不加处理,积少成多,可能超过DDDC的纠错能力。这就需要Patrol Memory Scrubbing的帮助了。它会像高速巡警一样,借助一个特殊的引擎,帮助定期扫描内存的可能出现的错误。Demand Scrubbing会把发现错误的数据,纠正后写回去,避免错误积累。

错误的报告和隔离

本专栏有过两篇文章介绍出错的问题:

计算机硬件出错了会发生什么?

WHEA原理和架构

作为服务器必备的功能,WHEA会把错误向操作系统报告,操作系统可以选择做出相应的动作。BIOS还可以设置poison位来标定出错的范围。

CPU、内存和设备的热插拔

硬件发生了错误,即使已经通过各种手段(SDDC等)得到纠正,但隐患已经埋下。硬件一旦发生错误,可能会越来越严重,慢慢变得不能够纠正而变成严重错误。为了避免发生这种情况,需要把出错的设备移除和替换。

那么操作系统报告给管理员错误后,该怎么办呢?按照一般的想法就是关机换设备吧。但这种操作是严重影响x个9的可用性数据的。必须在操作系统还在持续提供服务的情况下更换设备、内存甚至CPU!

也许你听说过PCIe设备的热插拔,但内存和CPU的热插拔就比较高冷了。CPU和内存热插拔和PCIe类似,有个attention开关。在按下后,BIOS、操作系统和硬件会合作把设备周边电路隔离、内核对象移除和变更,在完成后会有状态指示灯显示准备工作结束,可以动手移除了。CPU和内存插入和这个相反,但都要BIOS、操作系统和硬件支持,十分复杂,但整个操作下来也十分炫酷。

结论

6个9甚至7个9是个系统工程,需要整体上考虑。除了这些RAS功能之外,服务器硬件如磁盘驱动器等等也与民用不同,十分昂贵。

这些功能整体推高了服务器的价格,Google、FB、亚马逊和阿里等等大型云服务公司决定另辟蹊径,从操作系统级别的软件冗余来解决系统X个9的可靠性问题,这样一台服务器出错,直接整台offline,而不是CPU或者内存的更换。于此同时另外2到3台服务器还在持续提供服务,服务不会中断。

但是大型关键部门如银行电信等,还在借助传统的RAS来保证系统的可靠性。

12

最新评论

电脑维修热门推荐文章

QQ|门户地图|网站地图|家电维修|手机版|家电维修技术论坛 ( 蜀ICP备14030498号-16 川公网安备51102502000162号 )

GMT+8, 2025-5-26 12:03

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

返回顶部