数据机房断电危害及机房动力设备监控解决方案

2020-01-18 作者:亚洲城动态   |   浏览(69)

前些日子,广东睿江机房遭遇了雷电危机,部分服务器自动重启。影响了青云的服务正常运行。

企业数据中心建设涉及建筑施工、强电、弱电、暖通制冷、网络、消防、监控、机柜微环境和装饰装修等多个工序,几十个关键环节,上千种产品和型号,这些基础设施还要与上层服务器、存储和网络等IT系统进行有机的配合,其复杂性已经远远超出了一般企业IT技术人员的能力范围,没有高水平的技术人员以及丰富的实践经验是没有办法应对数据中心高可靠性运营需要的。 

笔者曾经参观过睿江公司位于广东佛山的电信机房,包括机房、网络核心、配电室、安保、消防、UPS供电和地下的柴油发电机。综合来看,还是一家很不错的机房。而且作为南方地区老牌IDC提供商睿江来说,应该在防雷处理上做的很好,被雷击还是很少见的。

如今企业的信息系统已经更多的集中到以数据中心为核心的系统平台。与此同时,全球化令企业业务规模快速发展,也使得系统平台更加庞大,所需要处理的数据规模呈现爆炸性增长的需求,企业业务对系统平台的依赖性与日俱增,这就对以数据中心为核心的系统平台的可靠性提出了非常高的要求,一旦数据中心有任何闪失,随之而来的将是收入损失、停产、生产力降低、处罚/诉讼、客户丢失等有形损失,以及会产生负面效应、客户不满、企业信誉降低等无形损失,可谓是牵一发动全身,确保企业业务连续性已经是当今企业最重要的课题。

那么怎么选择一家合格的IDC机房呢?

企业数据中心建设涉及建筑施工、强电、弱电、暖通制冷、网络、消防、监控、机柜微环境和装饰装修等多个工序,几十个关键环节,上千种产品和型号,这些基础设施还要与上层服务器、存储和网络等IT系统进行有机的配合,其复杂性已经远远超出了一般企业IT技术人员的能力范围,没有高水平的技术人员以及丰富的实践经验是没有办法应对数据中心高可靠性运营需要的。与此同时,居高不下的运维成本,也使得企业数据中心很难依靠自身的力量管理发展。在这种情况下,越来越多的企业开始把目光投向了那些具有高可用等级的公共数据中心服务,为了与现有IDC数据中心业务进行区分,人们将具有高可用等级的公共数据中心服务称为EDC。

今天笔者跟大家一起讨论一下:

与IDC业务相比,EDC具有更高级别的数据中心可靠性,具有更加完善的基础设施平台,以高效可靠供电为例,EDC会提供双路市电,外加柴油发电机的供电保护,其中每一路市电均配有N或者N 1的UPS供电保护,如此一来,任何一路市电供电中断,都不会影响IT系统的供电。即使两路市电同时中断,也还有柴油发电机的供电保护,按照设计要求,柴油发电机通常有不低于72小时的油料储备,同时这些数据中心还与其附件的加油站签署有油料保障协议,几乎可以做到万无一失。

一、 供电供电方面在IDC主要负责三个方面,在无断电的情况下,一般使用的两路市电,也就是我们在机柜上面看到的A路电和B路电。两路市电要通过两个配电所拉过来的电力才算,从一个配电所拉过来的两根线不认为是两路市电供电。如果在遭遇两路市电同时断电的情况下,UPS备用电源电池开始工作,供电时间最少不能低于30分钟。如果备用电池也没有电了,会怎么办呢?这个使用,机房的柴油发电机会工作起来,直接为机柜进行供电,或者为备用UPS电池进行持续供电。而柴油发电机的工作时间是保证在市电恢复前一直工作的。有些机房是柴油发电机供电24小时。

但真的是这样吗?我们不幸地看到,不断有高等级数据中心宕机事件见诸报端,如2011年12月13日,亚马逊旗下英国、法国、德国和西班牙数据中心宕机超过一个半小时,在过去的几年时间内,全球最大的支付平台PayPal、Google gmail系统、微软数据中心、iWeb CL数据中心、Chase.com网上银行、knocked Intuit网站数据中心均发生过严重的宕机事件,有些宕机时间甚至超过了24小时。国内的高等级数据中心也不能够幸免,有些具有2(N 1)外加柴油发电机的可靠供电保障的数据中心,也一度发生了电力中断的事件。

二、 消防消防方面,在IDC机房已经得到了长足的进步。最开始IDC机房使用的市面上面比较普遍的干粉灭火器!一旦遇到轻微的触发报警,几大罐甚至更多的灭火器将一次性喷洒完。后果就是所有的服务器均不能在使用了。近些年,IDC机房已经开始使用惰性气体来进行灭火措施!这样在灭火的同时,尽量保证服务器在火情结束后还能正常使用。但是,也同时出现了问题,一旦发生火情。在机房进行操作的工程师,请马上离开机房!否则年纪轻轻挂在机房实在无颜面对江东也好,还是江西也好的父老乡亲啊!

谈到数据中心高可用性,万国数据副总裁梁艳表示:“数据中心高可靠性并不仅仅是高等级数据中心设计以及产品设备的简单堆砌,高投入并不一定带来高可靠。数据中心的高可用性需要一整套管理的方法论和指标体系,其中,很多需要进行量化。为此,万国数据创造性地提出了适用性的概念,强调可用性的建设应该围绕业务发展的需求,通过整合ISO20000、ISO27001、BS25999标准在可用性方面的要求,结合自身多年的实践,创造了业界首套IT高可用管理体系方法论,从评估、规划、实施、运行与监控等5个层面实现。同时,通过引入制造业 SOP的管理方式,对数据中心的标准作业进行管理,从而为用户提供专业化的指导和安全高可用的保障。”

三、 防雷IDC机房的防雷措施也是有着非常严格的要求的,建筑物一定会有避雷针,所有的插口都是需要地线的,包括在机柜门或者机柜内部,都是有防雷击的走线,这个很好查看,只要看看机柜里面是否有走线就可以了!

仍以高可靠供电为例,2(N 1)外加柴油发电机的保护只是基础,还需要高可用的管理体系,依靠运行管理,及时发现系统在运行中的隐患。目前很多数据中心还停留在事后告警的阶段,即发生了故障或错误提供告警,根本不具备主动式高可用实时监控服务的能力。如果监管水平到位,将可以有效提高数据中心的可用性,避免数据中心中断给用户带来的损失。

四、 安防这点在IDC机房尤其重要,很好的安防组成包括24小时的保安、机房入室授权、机房门禁、所有通道的24小时摄像头。在总要的地方是否有报警装置,24小时的值班工程师等等。从前很多机房使用的是开放式机柜,这样进入机房的其他厂商无论有意还是无意,都可以拔掉你得网线、电源线或者重启、关闭服务器。现在的机房使用的封闭的机柜,前后都有机柜门,这样有效的防治他人操作你机柜的设备。这个也是考察的重点。

对于用户而言,也需要挑选哪些真正具有高可用等级保障的公共数据中心服务,有些数据中心对外宣传具有高效可靠供电的保障,设计了2(N 1)外加柴油发电机的 安全保障,但实际上,仅是在某一个特定区域按照2(N 1)设计,用作样板工程和对外宣传,这就需要用户在柴油发电机配置台数和总功率方面认真加以核算,挑选哪些真正具有高水平的保障的数据中心。

五、 湿度和温度IDC根据国际标准,温度在20-25度之间,而湿度在需要保持在百分之45-55之间。之所以有这样的要求,主要是因为服务器过热之后会有保护措施而自动断电,在服务器冷却之后才会自动重启。比如早期的DELL服务器系列在温度达到55°的时候,就会自动关机,以保护主板。湿度的要求主要是进行机房的无尘管理,湿度过低会造成大量粉尘,粉尘过高会造成静电。不要小看静电,静电瞬间的电流是可以直接击穿服务器主板的。有些机房,为了防止粉尘进入机房,会在门口铺一个粘贴板,将鞋底的分产粘掉,或者直接穿鞋套进入机房。比如世纪互联的M5和M6机房。

机房配电、UPS、蓄电池、发电机监控的重要性

六、 值班工程师现在大部分的机房无论是一线运营商(电信、联通、移动),还是二线运营商(世纪互联、蓝汛、睿江等)都会配有24小时的值班工程师。这样,无论你无论在什么地方,什么时间都可以对你得服务器进行重启或者布线的操作。对(世纪互联、蓝汛、睿江)这样的高级别运营商,甚至可以进行操作系统的安装和网络设备的简单操作。

数据机房的正常运行的保障就是供电能够得到保障,而供电设备包括了配电(220v、380v或者高压电)、UPS、蓄电池、发电机等,而市电是机房主要供电方式,当市电停止之后,机房能够自动切换到UPS或者是发电机,由这些设备继续为机房供电。

七、 机房授权系统这点很少在其他的文章上面看到,但是为什么笔者要提呢?首先,良好的授权系统,可以印证我是不是存放服务器的客户。以免造成离职员工、其他了解公司机房的其他社会人员进行授权操作服务器等等。这方面做的比较好的有世纪互联、蓝汛。那怎么才是好的授权系统呢?首先要将能够进入机房或者能够让机房工程师操作的人员,在IDC进行备案。并留下手机号码,公司邮箱,身份证号,姓名这些信息,必要时用于IDC进行核验身份。授权机房操作或者进入机房,需要用备案邮箱和电话进行邮件申请,一次来判断是否是客户身份。离职员工由客户公司主动申请裁掉授权人名单,然后更新授权人名单!

在机房监控系统里面,为机房供电的设备我们都称之为动力设备。动力设备是机房监控系统里面非常重要的一部分,通常会对市电、UPS、发电机、蓄电池进行以下参数监控:

八、 最后以上都是笔者选择机房的一些条件,没有引入大量的技术参数和标准。只给那些刚步入运维行业,和没有选择过机房的人员进行参照。如果需要更详细的,请留言。最后,睿江的IDC还是可以的。无奈不可抗力因素的问题!才导致了这次事故!

1、 市电 常规的数据机房会采用380v的电压供电,普通的监控机房会采用220v供电。机房监控系统主要对三相电压、三相电流、有功功率、无功功率、缺相的等数据进行采集分析。当市电停断后,系统通过短信、语音、声光等方式对机房维护人员进行告警。

2、 UPS UPS又称之为后备电源,当市电停电后,UPS自动启动对机房或者是一些不可断电区域进行继续供电。然而,UPS供电只能是应急处理供电,无法长时间提供电能;供电时间根据蓄电池的容量来定。UPS监控常规监控数据一般包括:输入电压的监测、输出电压的监测、旁路电压监测、电池电流、电池温度、电池剩余时间等。(UPS只能进行监测一般不进行控制;监控的数据根据厂家提供的协议)

3、 发电机 发电机相对于UPS,能对机房提供的电能时间更长。发电机监控的数据一般为油温、油位、转速、油机的输出电压、市电功率、市电供电状态等。

4、 蓄电池 蓄电池的监控可分为电池组监控和单节电池监控。参数一般包括:电池总电压、电池电流、电池温度等。

5、 文章选自:机房监控系统

本文由yzc216亚洲城发布于亚洲城动态,转载请注明出处:数据机房断电危害及机房动力设备监控解决方案

关键词: 亚洲城官网 yzc216亚洲城