首页 > 行业新闻 > 正文

数据中心里发生的天灾人祸
2017-07-30 02:44:45   来源:   评论:0 点击:

数据中心要想全年不间断运行,最大的敌人就是天灾人祸,得出这样结论的理论基础是已经有太多的血的教训摆在面前,太多数据中心曾发生过的严重故障均与天灾和人祸有关。曾有人统计过一些大大小小影响较大的数据中心故障,百分之八十均与人有关,另外有百分之十与那些不可抗拒的天灾有关。一个数据中心如果能将这两个方面避免,肯定不再会出现严重的业务中断事故,或者是信息泄露的安全事件。不过,绝大多数的人觉得在天灾人祸方面无能为力,只能眼见着它去发生而手足无措,实则不然,科学地对数据中心进行管理,从两个方面去入手,就可以消除天灾人祸,以及由此给数据中心带来的伤害。本文就来说一说数据中心里发生的天灾人祸,如何去面对。

天灾指的是高温、洪水、台风、暴雨、地震、雷电等自然灾害,这些天气破坏力强,有时超过人的能力所及。比如几年前超级飓风桑迪,纽约和新泽西州数据中心受到了此次飓风的影响,包括曼哈顿下城地区的洪水和一些设施的停机,周围地区数据中心发电机运行失常。飓风桑迪所带来的影响超出了一般单一的中断事故,为受灾地区数据中心产业带来了规模空前的灾难。还有几年前在北爱尔兰都柏林出现的闪电,其引起亚马逊和微软在欧洲云计算网络因为数据中心停电而出现大规模宕机故障。闪电击中都柏林数据中心附近变压器,导致其爆炸。爆炸引发火灾,使所有公用服务机构的工作暂时陷入中断,导致整个数据中心出现宕机。这类故障数不胜数,在大自然的面前,人的力量是渺小的,不过不能因为它强大,我们就不去考虑和阻止。首先,要做好数据中心冗余备份,最好是多地数据中心备份,这样就算一处数据中心故障,处于世界任意角落的数据中心都可以接管业务继续运转,只要没有出现地球末日,就能提供不间断业务。当然,要做到这样冗余备份,需要花费很多人力和财力,不是所有的数据中心都能做到的。即便做不到,也要在数据中心的任何系统设计考虑冗余性,提升数据中心的提供不间断服务的能力;其次,数据中心要有一支能打硬仗的运维团队,运维团队在出现问题之后,能够快速解决问题,将损失降低到最低。特别是遇到一些自然灾害天气之后,要及时上报,及时采取应急措施。第三,既对抗不起,不如就躲其锋芒。在数据中心选址的时候,首要考虑的就是当地的自然灾害情况,历史上这个地区的天气情况,不要将数据中心建在火山口附近、地震频发地区,要远离容易出现台风的地区等等。

人祸指的是因为人为错误引发数据中心故障,据研究已得出了结论,高达75%的宕机事故是因为一些人为错误引起的。像几年前天津滨海新区某物流公司危险品仓库集装箱堆场起火爆炸,造成周边众多人员伤亡以及大范围的建筑物损毁。据国家超级计算天津中心主任刘光明介绍,受爆炸影响,天河一号不得不出于安全考虑而人工关机。面对这样的突发事件,连国家超算中心都不得不靠关机来躲避风险,这是人为错误导致的暴力掠夺。在美国阿图。葛文德写的《清单革命》里曾写道:人类的错误可以分为两大类型:第一类是“无知之错”,我们犯错是因为我们没有掌握相关知识;第二类是“无能之错”,我们犯错并非因为没有掌握相关知识,而是因为没有正确地使用这些知识。不管是哪种错误,给数据中心带来的损失可能是致命的。阿图同时认为,人人都会犯错,在复杂问题面前更是如此。那么如何防止错误与失败?只有通过一场简单至极的变革:清单革命。所谓清单革命,就是把复杂的操作事先就充分分解成尽量细的操作步骤,在专家审核好这些步骤后,成为标准,然后就要求操作者严格按清单操作。《清单革命》其实也特别适用于数据中心,将数据中心里复杂系统分分类,将在何时何地做哪些操作都形成标准,避免人为操作错误。实际上,要做出数据中心的清单是非常困难的,很多突发情况在清单里没有提及。比如发生地震,有些地区几十年都没有遇到过地震,突然发生一次,遇到时发现清单里没有指定操作步骤,或者操作步骤根本与实际情况不符,毕竟制定清单的专家或许自己都没有经历过地震,又怎能制定出完美的标准步骤。还有很多数据中心有很多详尽的标准制度,有的甚至都印制出来挂在墙上,但却少有人去仔细看,制度成为一种摆设,当遇到数据中心故障时,此时才想到看制度,操作不熟练,出错是难免的。对于这样的现状,最好就是进行模拟演练,对数据中心可能面临出现的各种复杂情况进行模拟,然后对操作人员进行训练,同时对操作步骤进行修正,直到达到完美,实践是检验的唯一标准。为什么现在软件定义数据中心这么火?就是因为用软件来代替人去执行一些指令,减少人为出错,从而提升数据中心的可靠性。

面对天灾人祸,数据中心并非无能为力。数据中心要从初期规划设计、机房建成的验收测试、机房运营过程中对机房的定期检测、对突发状况的预案、到后期运维的管理都应遵照一定标准,以确保数据中心安全运行。用科学的方法,加强人员培训,多做一些故障模拟演练,从而减少人祸;同时要勇于面对天灾,对那些不可预知的自然灾害做到防患于未然,最终达到提升数据中心运行可靠性的目的。

相关热词搜索:数据中心

上一篇:微软、谷歌等巨头争相追逐,芯片成AI的重要战场
下一篇:IDC数据中心这些隐患您是否知道

分享到: 收藏
评论排行