全站搜索

总统致歉、CEO辞职,选对第三方数据中心运营商到底有多重要

分类:新闻中心 713 0
10月15日下午3时19分,韩国SK公司C&C板桥数据中心发生火灾,导致韩国两大互联网巨头Naver和Kakao服务中断,金融交通运输等几乎所有部门受到严重影响,总统尹锡悦为此致歉,Kakao联席CEO引咎辞职,堪称韩国数据中心历史上前所未有的灾难性事件。

据韩国警方消息,火灾事故发生在数据中心地下3层的电器室,当时并没有工作人员在场作业,锂电池以堆放的形式放在五个电池架上,事发时其中一个电池产生火花,并引发火灾。

火灾发生后,电力也开始出现故障。

下午3点33分,数据中心的部分服务器电力供应被切断。

下午4时52分,消防部门称“必须用水灭火,有短路的危险,请切断电源。” 因而数据中心运营商SK C&C 切断了对整个数据中心的供电。这时,数据中心所有服务器功能都停止了。

但随后在火势进一步蔓延过程中,不间断电源(UPS)也发生了着火。但警方确定起火首先发生在电气室的电池,而不是UPS室附近。消防部门分析,当整个数据中心因火灾而断电时,UPS也中断了服务、无法正常工作。

经过8小时的扑救,这场火灾最终于15日晚上11点46分左右被扑灭,事故虽未造成人员伤亡,但这场前所未有的互联网灾难还远未结束…

据《韩国时报》报道,本次火灾导致了约3.2万个服务器瘫痪,Naver和Kakao被迫中断服务。但对比之下,NAVER因为具有较完善的灾备系统流程在几小时内就恢复了服务,而包括Kakao Talk在内的Kakao系列服务则中断了一天左右才逐步恢复,要知道仅Kakao Talk在韩国就拥有4300-4700万的活跃用户(韩国全国人口约为5100万),影响力基本等同于我国的微信和支付宝的结合体。

随着公众的不满持续发酵,总统尹锡悦为此出面致歉,Kakao联席CEO引咎辞职,作为主管部门的科学技术信息通信部长官李宗昊更是在3天内被迫两度向公众道歉。

在后续调查中,经联合调查组初步鉴定,起火点估计在电池模块内部,截至目前,电池产生火花的具体原因尚不清楚,有研究人员认为:“可能是电池本身有问题,也可能是过充保护装置出错。”联合调查组推测考虑电池和机架本身缺陷、配电线问题等可能是导致事故的原因,韩国相关部门将对采集的电池模块进行精确评估,预计需要三周以上的时间。

但无论具体的原因如何,对于数据中心行业来说这就是一次运维失误导致的聊天软件故障,从警方及相关部门的初步鉴定结果来看,板桥数据中心在运维方面暴露了一些非常基础的问题:

1、“联合调查组推测考虑电池和机架本身缺陷、配电线问题等可能是导致事故的原因”,意味着板桥数据中心在设备的安装、上架、布线方面本身就具有严重缺陷,运营方无视安全隐患的行为,为此次火灾埋下了不安的种子。

金石易服为客户提供数据中心整体交付实施服务时,无论是拆卸、运输、测电、硬件检测、服务器上下架、服务器并柜等项目,还是整机柜一体化布线、改配拆解等工作,都会有专职项目经理把关所有流程和交付结果,时刻准备处理突发事件,确保服务符合交付标准,不存在安全隐患。

2、“电池以堆放的形式放在五个电池架上”,暴露了运维人员对待工作的态度极不负责,且安全意识淡薄,日常巡检环节的缺失也是造成此次事故的重要原因。

金石易服可围绕IT架构运维、网络运维、运维体系建设等项目提供7*24小时一站式IT运维服务解决方案,运维人员均接受严格的规范化操作培训,配备完善的巡检流程和沟通机制,为企业数据中心提供设备可用性、业务连续性、系统安全和平台迁移保障在内的综合保障服务。

3、“火灾发生后,电力也开始出现故障”,扑救过程中供电系统及不间断电源(UPS)的混乱操作体现了板桥数据中心在故障应急预案方面严重缺失,无法行之有效的配合消防进行扑救,间接造成了数据中心的进一步损失。

金石易服积极配合数据中心制定故障应急预案和消防处置措施,预案涵盖事故预警、信息报告、指挥协调、地企应急联动、环境应急监测等多项处置环节,重点演练火灾、电路故障等常见极端事故的应急处置以及多级联动下的协调指挥和救援资源调配,保障在突发情况下可迅速妥善处理。

金石易服作为老牌第三方数据中心运维服务提供商,已深耕数据中心运维领域近20年,在保障数据中心平稳安全运行方面具有丰富经验。今后,金石易服也将持续致力于数据中心运维领域,积极履行社会责任,将丰富的处置经验总结、归纳、提炼为执行标准进行推广,为行业安全、稳定发展做出应有贡献。

上一篇: 下一篇:

您好!请登录

点击取消回复
    展开更多
    咨询建议

    loading...