2017上半年数据中心为什么故障频发?
数据中心故障频发
2017年6月微博数据中心因电力原因故障,造成了微博“黑色一小时”,紧接着饿了么机房也出现故障,导致商家无法接单,客户无法取餐。2017年2月28日晚8点39分,百度移动端搜索发生故障,搜索请求无法显示结果,至晚9点21分恢复,历时42分钟。亚马逊的云服务出现过持续数小时故障,故障起因是AWS S3(云存储)团队在进行调试时输入了一条错误指令,本应该将少部分的S3计费流程服务器移除,可是最终意外地移去了大量的服务器,2016年1月18日Microsoft Office 365的用户的电子邮件账户出现问题,微软将故障归咎于一次错误的软件更新,但是其初次修复的尝试并没有解决问题,在最初的故障出现五天之后,第二次电子邮件故障又爆发了,这一次激怒了很多用户。2016年4月22日11时28分,某数据中心服务商位于北京亦庄的数据中心供电中断,在该机房托管的多家金融机构和73家村镇银行的所有设备宕机,服务全部中断长达7小时以上!
根源在于运维管理
对于这些数据中心机房故障,中国信息通信研究院专家对事故原因进行总结说,故障多发的原因关键还是在运维管理上,所谓“三分技术,七分管理”,数据中心的故障大多源自于人祸。运行中的数据中心,应减少人为参与的机会,要对人为行为进行充分的管理和评估。
大量的事实表明,数据中心提供的服务品质优劣主要是运维管理水平决定的。加强运维人员的管理,提升运维人员的技能水平,才能减少人为犯错的机会,避免产生人祸。数据中心是一个非常复杂的IT系统,难免会出现这样那样的问题,从而引发故障,若能够通过有效管理减少其中人祸部分的因素,将能有效提升数据中心的运行稳定性。