机房应急预案
在学习、工作乃至生活中,保不齐会遇到一些意料之外的事件或事故,为了将危害降到最低,时常需要预先编制应急预案。我们该怎么去写应急预案呢?以下是小编为大家收集的机房应急预案,供大家参考借鉴,希望可以帮助到有需要的朋友。
机房应急预案1
IDC数据中心机房的安全无疑是整个计算机信息系统安全的前提,如果数据中心机房存在这样那样的不安全因素,从而导致发生数据中心机房事故,则整个信息系统的安全也就不可能实现。
随着网络信息化建设的不断深入,加强机房各类设备、系统以及信息与网络安全等方面应对突发事件的处理能力将是我们目前面临的一项重要任务。为确保系统及机房安全与稳定,以保证正常运行为宗旨,按照“预防为主,积极处置”的原则,本着建立一个有效处置突发事件,建立统一指挥、职责明确运转有序、反应迅速处置有力的机房安全体系的目标,将正在发生或已发生事故的损害程度减轻到最低。
1、维保预防措施
1、建立健全机房维保技术人员管理制度
1.1在正常工作日内,信息技术人员负责对机房进行监控,主要职责是:巡视网络设备及系统的运行情况,发生异常情况及时处理,消除故障隐患。
1.2周末、节假日及重大会议期间技术人员轮流值班,负责处理有关异常情况。
2、应提高对机房可靠性、可用性、安全性等方面的认识,既要重视信息系统安全,又要重视机房的运行维护管理,重视对计算机硬件、软件及网络设备的.维护。要树立大局意识和忧患意识,对机房设施安全的重要性给予足够的重视。
3、应重点加强管理制度的执行。管理制度包括预防维护流程和紧急情况处理预案两个方面。要制定相应的管理制度,包括机房管理岗位制度、机房操作规程等,以明确岗位职责。为应对机房中可能会发生的紧急情况,如火灾、断电、数据丢失、设备失灵等,应按各种紧急情况分列处置措施,还要对预案进行演练。
4、应不断提高机房管理人员的技术水平。机房设施非常复杂,涉及很多专业和系统,维护人员只有通过不断的总结以往出现的各种问题进行后续学习和培训,提高技术水平,才能避免更多的相同的问题及异常情况甚至事故的发生。
5.应加强供配电、照明等电源子系统的监测。同时应重点对温度、湿度、灰尘、有害气体等进行评估和监测。还要加强静电防护、干扰源分析及保护、雷击
防护、电磁干扰、振动控制,防火、防水等工作。
5、应加强对进入机房人员的管理。工作人员行为、素质等因素均可能对机房安全造成影响,因此,除管理制度约束外,门禁和视频监视等物理安全策略均可有效提高机房安全水平。
7、应定期对机房设施进行安全评估。最好每年聘请第三方机构进行安全评估,专业评估机构拥有专家力量,能够比较安全地对所有的设备进行操作,不会因为误操作引起机房故障。
8、机房内严格采取防雷、防火、防尘、防静电等措施以及机房24小时监控等措施。
9、认真做好数据备份工作,定期做一次数据库完全备份,每月检查服务器运行和备份情况。
10、对机房的主要网络设备(路由器、主干交换机等)进行工作时间内全程监控,发现异常情况应及时进行处理,确保整个网络的正常运行。
2、应急处置措施
2.1机房漏水应急预案
(1)发生机房漏水时,第一目击者应立即通知运维服务小组,并及时报告监控系统突发故障应急领导小组。
(2)若空调系统出现渗漏水,运维服务小组负责人应立即安排停用故障空调,清除机房积水,并及时联系设备供应方处理,同时启动备用空调,必要情况下可临时用备用空调对服务器进行降温。
(3)若为墙体或机房门渗漏水,运维服务小组负责人应立即采取有效措施确保机房安全,及时清除积水,维修墙体或门窗,消除渗漏水隐患。 2.2设备发生被盗或人为损害事件应急预案
(1)发生设备被盗或人为损害设备情况时,使用者或管理者应立即报告系统突发故障应急领导小组,同时保护好现场。
(2)系统突发故障应急领导小组接报后,通知用户保卫部门、相关领导,一同核实审定现场情况,清点被盗物资或盘查人为损害情况,做好必要的影像记录和文字记录。
(3)事发单位和当事人应当积极配合公安部门进行调查,并将有关情况向系统突发故障应急领导小组汇报。
(4)系统突发故障应急领导小组安排运维服务小组、事发单位及时恢复系统正常运行,并对事件进行调查。运维服务小组和事发单位应在调查结束后一日内书面报告系统突发故障应急领导小组。事态或后果严重的,应向相关领导汇报。 2.3机房长时间停电应急预案
(1)定期检查机房供电设备的运行状况和电路线缆器材情况,当发生下列突发事件时,按照以下方案进行处置:
(2)当机房发生市电供电突然停电或是电源异常时。首先应和后勤部门联系确认正常停电以及预计停电时间。检查不间断电源的电池可供电时间,确保设备正常运行,如遇到突然断电,应及时将空调等不在UPS电源供电范围内的设备及时断电,预防突然来电时瞬间电流过大导致设备损坏等现象。
(3)当确定停电时间超出机房UPS承载范围后,首先确定停电的范围以及受影响的设备范围。并及时通知各部门做好停电应急准备。然后通知机房电源维护人和设备的负责人到达现场,做好各设备的电源停电准备。在UPS供电电量仅剩10%之后,严格按操作手册停掉各服务器的电源,最后停核心交换机和路由器,等待电力恢复。
(4)当确定停电原因是在本身供电系统范围内,立即汇报给负责领导,并及时联系相关维护人员达到现场检修。对于恢复时间无法预计的,要通知后勤部门做好柴油机发电及移动电源车供电准备
(5)恢复供电后,严格按照操作程序逐步恢复机房设备和UPS的供电,以防瞬间电流过大造成设备损坏。
2.4通信网络故障应急预案
(1)发生通信线路中断、路由故障、流量异常、域名系统故障后,操作员应及时通知本单位信息系统管理员,经初步判断后及时上报运维服务小组和系统突发故障应急领导小组。
(2)运维服务小组接报告后,应及时查清通信网络故障位置,隔离故障区
域,并将事态及时报告系统突发故障应急领导小组,通知相关通信网络运营商查清原因;同时及时组织相关技术人员检测故障区域,逐步恢复故障区与服务器的网络联接,恢复通信网络,保证正常运转。
(3)事态或后果严重的,应向应急指挥办公室和相关领导汇报。 (4)应急处置结束后,运维服务小组应将故障分析报告,在调查结束后一日内书面报告系统突发故障应急领导小组。 2.5网络病毒事件应急预案
(1)发现不良信息或网络病毒时,信息系统管理员应立即断开网线,终止不良信息或网络病毒传播,并报告指挥调度中心运维服务小组和系统突发故障应急领导小组。
(2)运维服务小组应根据系统突发故障应急领导小组指令,采取隔离网络等措施,及时杀毒或清除不良信息,并追查不良信息来源。
(3)事态或后果严重的,应向监控中心办公室和相关领导汇报。 (4)处置结束后,运维服务小组应将事发经过、造成影响、处置结果在调查工作结束后一日内书面报告系统突发故障应急领导小组。 2.6服务器软件系统故障应急预案
(1)发生服务器软件系统故障后,运维服务小组负责人应立即组织启动备份服务器系统,由备份服务器接管业务应用,并及时报告系统突发故障应急领导小组;同时安排相关责任人将故障服务器脱离网络,保存系统状态不变,取出系统镜像备份磁盘,保持原始数据。
(2)运维服务小组应根据系统突发故障应急领导小组的指令,在确认安全的情况下,重新启动故障服务器系统;重启系统成功,则检查数据丢失情况,利用备份数据恢复;若重启失败,立即联系相关厂商和上级单位,请求技术支援,作好技术处理。
(3)事态或后果严重的,应向监控中心应急指挥办公室和相关领导汇报。 (4)处置结束后,运维服务小组应将事发经过、处置结果等在调查工作结束后一日内报告系统突发故障应急领导小组。
2.7黑客攻击事件应急预案
(1)当发现网络被非法入侵、网页内容被篡改,应用服务器上的数据被非法拷贝、修改、删除,或通过入侵检测系统发现有黑客正在进行攻击时,使用者或管理者应断开网络,并立即报告系统突发故障应急领导小组。
(2)接报告后,系统突发故障应急领导小组应立即指令运维服务小组核实情况,关闭服务器或系统,修改防火墙和路由器的过滤规则,封锁或删除被攻破的登陆帐号,阻断可疑用户进入网络的通道。
(3)运维服务小组应及时清理系统,恢复数据、程序,恢复系统和网络正常;情况严重的,应向监控中心应急指挥办公室和相关领导汇报,并请求支援。
(4)处置结束后,运维服务小组应将事发经过、处置结果等在调查工作结束后一日内报告系统突发故障应急领导小组。 2.8核心设备硬件故障应急预案
(1)发生核心设备硬件故障后,运维服务小组应及时报告系统突发故障应急领导小组,并组织查找、确定故障设备及故障原因,进行先期处置。
(2)若故障设备在短时间内无法修复运维服务小组应启动备份设备,保持系统正常运行;将故障设备脱离网络,进行故障排除工作。
(3)运维服务小组故障排除后,在网络空闲时期,替换备用设备;若故障仍然存在,立即联系相关厂商,认真填写设备故障报告单备查。
(4)事态或后果严重的,应向监控中心应急指挥办公室和相关领导汇报。 2.9业务数据损坏应急预案
(1)发生业务数据损坏时,运维服务小组应及时报告系统突发故障应急领导小组,检查、备份业务系统当前数据。
(2)运维服务小组负责调用备份服务器备份数据,若备份数据损坏,则调用磁带机中历史备份数据,若磁带机数据仍不可用,则调用异地备份数据。
(3)业务数据损坏事件超过2小时后,运维服务小组应及时报告系统突发故障应急领导小组,及时通知业务部门以手工方式开展业务。
(4)运维服务小组应待业务数据系统恢复后,检查历史数据和当前数据的
差别,由相关系统业务员补录数据;重新备份数据,并在工作结束后一日内报告系统突发故障应急领导小组。 2.10雷击事故应急预案
(1)遇雷暴天气或接上级部门雷暴气象预警,运维服务小组应及时报告系统突发故障应急领导小组,经请示同意后关闭部分服务器,切断电源,暂停内部计算机部分网络工作。
(2)雷暴天气结束后,运维服务小组报经系统突发故障应急领导小组同意,及时开通服务器,恢复内部计算机网络工作,对设备和数据进行检查。
(3)因雷击造成损失的,运维服务小组应会同相关部门进行核实、报损,并在调查工作结束后一日内书面报告系统突发故障应急领导小组。必要时,应向监控中心应急指挥办公室和相关领导汇报。 2.11空调设备故障应急预案
若机房专用空调损坏,应第一时间启用机房备用空调,并通知厂家上门进行维修,并及时报告相关领导请示,获得授权后按机房设备关闭顺序关闭各类设备。 2.12火灾事故应急预案
(1)一旦机房发生火灾,应遵照下列原则:首先确保人员安全;其次保护关键设备、数据安全;三是保护一般设备安全;
(2)人员疏散的程序是:机房工作人员立即按响火警警报,并通过119电话向公安消防请求支援,所有人员戴上防毒面具,所有不参与灭火的人员按照预先确定的线路,迅速从机房中撤出;
(3)人员灭火的程序是:首先切断所有电源,启动自动喷淋系统或使用灭火器,灭火值班人员戴好防毒面具,从指定位置取出泡沫灭火器进行灭火。 2.13电源设备故障应急预案
机房目前使用UPS系统,在紧急情况发生时,应按如下步骤进行关机:(1)确认所有负载均已安全关机。
(2)关闭UPS负载电源。
(3)将UPS的系统启用开关切换到off的状态。 (4)将电池连接断路器切换到off的位置。
机房应急预案2
第一条:机房意外停电后,首先确定停电的范围以及受影响的设备范围。
第二条:确认停电的范围为本公司或本机房,应立即联系工机科电话汇报。估算电力可能恢复的时间,并通知直接上级。
第三条:如果确认停电的时间在1个小时内,可以在UPS正常供电的时间内,等到电力恢复。如果不能确认在2个小时内恢复供电,需及时到达现场。做好各设备的'电源停电准备。在UPS供电达1.5个小时后,严格按操作手册停掉存储和各应用服务器的电源,最后停核心交换机和路由期。等待电力恢复,电力恢复供电后转第七条执行。如果确认停电的范围仅在于本机房电源故障,立即汇报给机房电源维护负责人。
第四条:机房维护负责人将掉电的电源柜总空开和分空开的状态处于下电状态。并向直接领导汇报,马上联系相关厂家,如有可能请厂家立即到现场支持。第五条:将掉电的所有的设备电源状态处于下电状态,以防止电源柜加电对设备的冲击。
第六条:等各厂家和相关的人员到齐后,商议设备恢复时因注意的事项,并形成相关文档。
第七条:电力室恢复供电后,先不要急于给电源柜加电,等待10—20分钟后,再开始给电源柜加电,以防止供电不稳或再次掉电。
第八条:供电正常后,确定设备处于下电状态后,打开电力柜的总控开。第九条:根据设备加电顺序,启动分项空开。第十条:设备加电顺序,网络交换类设备正常后再给磁盘阵列柜加电,存储状态检查正常后,启动主机(以上各设备务必按操作手册的启动顺序上电)。第十一条:设备启动正常后,开始启动数据库。第十二条:数据库启动正常后,开始启动中间件服务器。第十三条:中间件服务器正常后,启动应用程序。
第十四条:机房设备进行全面点检,确认所有设备运行和服务正常。
机房应急预案3
1.总则
1.1编制目的
为高效有序地做好机房火灾事故的应急处置工作,避免或最大程度地减轻火灾事故造成的损失,保障员工生命和企业财产安全,维护社会稳定。
1.2编制依据
《中华人民共和国安全生产法》《江苏省消防条例》
1.3适用范围
适用于机房火灾事故的现场应急处置和应急救援工作。
2.事件特征
2.1事件类型及危险性分析
2.1.1电气线路短路、过载、接触电阻过大,静电,雷击等强电侵入,机房内电脑、空调等用电设备长时间通电过热、设备故障等原因均可能引起计算机房的火灾事故。
2.1.2机房火灾事故会造成计算机设备损坏、系统故障网络中断或瘫痪,影响网络的安全运行。
2.1.3火灾产生的有毒烟雾污染机房的空气,造成人员中毒、窒息等人身伤亡事故。
3.应急组织及职责
3.1火灾应急指挥部
应急指挥部总指挥:
机房火灾应急抢险指挥:
成员:
3.2指挥部人员的职责
3.2.1指挥的职责:全面指挥突发事件应急救援工作。
3.2.2高低压专业职责:组织、协调本部门人员参加应急处置和救援工作,对发生险情机房切断电源。
3.2.3智能化专业职责:监控相关区域事故情况。
3.2.4空调专业职责:发现异常情况,及时切断空调、通风系统,做好运行方式的调整和故障设备的隔离。
4.应急处置
4.1现场应急处置程序
4.1.1最早发现火情者应立即向值班长和机房负责人汇报,机房负责人到现场指挥灭火,同时报告公司领导,启动本预案。
4.1.2机房负责人根据事故状态及危害程度做出相应的应急决定,指挥疏散现场无关人员,各应急救援队立即开展救援。
4.1.3事故扩大时,拨打119报警电话请求市消防队支援。报警内容:单位名称、地址、着火物质、火势大小、着火范围。把自己的电话号码和姓名告诉对方,以便联系。同时还要注意听清对方提出的问题,以便正确回答。打完电话后,要立即到交叉路口等候消防车的到来,以便引导消防车迅速赶到火灾现场。4.2现场应急处置措施
4.2.1机房负责人组织人员迅速查明着火原因。4.2.2发生火灾事故后,运行值班人员在人身安全不受危害的情况下要坚守本职岗位,确保设备运行。
4.2.3火灾初起阶段,值班人员要利用区域内常规灭火器(干粉或气体灭火器)进行扑救。控制初起火灾,防止火势蔓延。根据火势情况立即启动气体自动灭火装置。
4.2.4被困火场逃生时,应用湿毛巾捂住口鼻,背向烟火方向迅速离开。逃生通道被切断、短时间内无人救援时,应关紧迎火门窗,用湿毛巾、湿布堵塞门缝,用水淋透房门,防止烟火侵入。
4.2.5火灾发生时要采取有效措施扑灭身上的火焰,使伤员迅速脱离开致伤现场。当衣服着火时,应采用各种方法尽快地灭火,如水浸、水淋、就地卧倒翻滚等,千万不可直立奔跑或站立呼喊,以免助长燃烧,引起或加重呼吸道烧伤。灭火后伤员应立即将衣服脱去,如衣服和皮肤粘在一起,可在救护人员的帮助下把未粘的部分剪去,并对创面进行包扎。
4.2.6在火场,对于烧伤创面一般可不做特殊处理,尽量不要弄破水泡,不能涂龙胆紫一类有色的外用药,以免影响烧伤面深度的判断。为防止创面继续污染,避免加重感染和加深创面,对创面应立即用三角巾、大纱布块、清洁的衣眼和被单等,给予简单而确实的包扎。手足被烧伤时,应将各个指、趾分开包扎,以防粘连。
4.2.7消防队到达火场时,应立即与消防队负责人取得联系并交待失火设备现状和运行设备状况,然后协助消防队灭火,并提供技术支援。
4.2.8复情况,事故应急处理全部结束,才能恢复生产秩序。
4.2.9火灾事故报告流程
4.3.1出现火情后,值班人员除采取有效措施扑灭初期火情外应立即想机房负责人汇报;
4.3.2火势无法控制时由机房负责人决定报火警请求辖区消防队救援。并在在火灾事故发生后1小时内向所云汇报突发事件信息。速报内容主要包括事故发生的时间、地点、人员伤亡、设备损坏情况、可能的引发因素和发展趋势等。
4.3.3联系方式
消防队:119医务急救:120
4.4注意事项
4.4.1应急处置时注意防止中毒、窒息、触电、烫伤。
4.4.2危险区设好警戒线,并挂好标示牌。无操作权限的人员不得乱动现场设备。
4.4.3佩戴个人防护器具时注意检查防护用品合格,且在有效检验期内;正确佩戴使用正压式呼吸器、隔热服、隔热手套、绝缘靴等安全防护用具。
4.4.4现场自救和互救时不熟悉现场情况和灭火方法的人员不得盲目进入危险区域,救人前先确认自己的能力和现场情况是否能够满足对他人施救的需要。
4.4.5应急救援结束后要全面检查,确认现场无火灾隐患和建筑物坍塌的隐患。
4.4.6加强自身防护,避免救火导致人身伤害。
4.5附则
4.5.1机房应急人员的联系方式。
机房火灾的应急预案2
第一条机房内禁止明火禁止吸烟,机房内的.所有设备需要定期维护并做巡检记录、根据机房实际情况进行清扫工作。
第二条机房网络设备维护由网络管理员进行,如发现机器故障应及时排除故障,在遇到硬件三包范围内的故障时,应及时联系供应公司上门或将机器送供应公司维修;
第三条酒店员工必须严格遵守有关机房、设备及系统运行管理规定,不得在机房内从事与系统管理、运行维护、系统安装和调试等无关的工作;
第四条做好防火、防雨、防湿、防盗工作,注意用电安全;机房内的环境要每周检查温度、湿度、电力系统、是否满足机房相关的标准要求。
第五条机房内的交换机和服务器系酒店运营的关键设备,任何人不得自行配置或更改其系统参数。
第六条要做好机房的安全工作,对服务器的各种帐户、密码严格保密。
第七条应及时做好数据的备份工作,保证在系统发生故障时,数据能够快速、安全的恢复。所有备份数据不得更改,并要求做到本地和异地分别备份保存。
第八条为了确保本酒店网络正常运行,每日对机房内的设备进行巡视,主要着重于服务器及网络设备运行正常与否。
1、对机房里的温度进行调节,如室内温度过高,调节空调对机房进行有效的通风。
2、查看交换机与防火墙及接入设备的工作状态,如发生异常,对其进行及时有效的维护。
3、监测网络运行状况。
第九条除本酒店网络管理员外,公司其他人员因工作需要进入机房的,需网络管理员陪同下进入机房。
第十条严禁带外单位人员或无关人员进入机房,确因工作需要,如:系统故障诊断和处理,设备维修维护、系统或设备安装等进入机房,必须由网络管理员陪同进入,配合项目的实施。
第十一条进入机房的设备应在进入机房前拆除外包装,以保证机房环境的清洁和安
第十二条严禁携带易燃、易爆、易腐蚀等危险性物品进入机房。
第十三条机房内提供的UPS电源只允许为主机、服务器、网络及存储等核心设备供电,严禁安插其他设备,增加UPS电源供电负荷。
第十四条严禁擅自切断供电系统,确因工作需要断电时,首先应做好相应准备工作,经部门领导批准,然后给所有部门发放断电或断网通知,最后方可实施。
第十五条机房内安装用电设备或有用电需求的项目时,必须经过专业人员或设备提供商的安装工程师进行现场勘查,经确认在满足或符合要求后工程才能实施。
(一)值班人员发现机房火情(包括监控中心人员)要立即到现场查看。
(二)如果是个别电路盘着火,应拔出着火的电路盘,用1211或二氧化碳灭火器将火扑灭。
(三)某机柜几块电路盘及电缆着火,应立即拔出着火的电路盘,用1211或二氧化碳灭火器喷射灭火剂将火扑灭。
(四)如果机房的机架机柜着火,值班人员无力自灭自救时,监控中心应切断机架机柜电源或楼层电源,关闭空调,严禁开窗,及时向公司安全生产管理领导小组报告。
(五)公司安全生产管理领导小组指挥机关义务消防队队员进行灭火,组织值班人员立即撤离现场,封闭门窗,按下区域自动灭火按钮灭火,同时拨打119报警,大声呼救,报告公司主管领导或安保值班室,监控室广播火警。
(六)在消防队到达后,应积极配合,简明扼要说明着火位置,火势情况和已采取的补救措施。
(七)用1211或二氧化碳灭火器喷射灭火剂能把火扑灭的,应配合消防队保护现场和消除隐患,防止再次着火。
(八)用1211或二氧化碳灭火器不能把火扑灭时,为防止烟熏引起人员中毒,应组织人员有序疏散,使用相应的灭火器材灭火,尽快将火扑灭。
(九)应保护好现场,按照事故调查处理办法执行。
(十)火灾报警电话:119
本预案应注意的特别事项:
1、当发生火灾情况,进行处理并保证人身安全的同时,根据设备的重要性进行相应的抢救措施,保证重要设备,特别是直通电话,以及与冀北、华北相应数据的上传,保证通道畅通。
2、抢救完主要设备,在进行次要的设备抢修,待事故处理完毕后,进行相应的实验,保证设备的运行性,并进行设备的可行性分析。
机房应急预案4
高性能计算技术及应用水平已成为显示综合国力的一种标志。高性能计算机持续不间断地为用户提供高性能计算服务,而运维应急预案是主机运行中处理突发事件的依据和方法,是主机系统稳定运行的保障。本文简要介绍上海超级计算中心主机运维应急预案,供同行参考。
1.主机和运维管理制度简介
超级计算机是功能最强、运算速度最快、存储容量最大的一类计算机。目前只有少数国家掌握研发技术,系统造价非常昂贵,多用于国家高科技领域和尖端技术研究,是国家科技发展水平和综合国力的重要标志。上海超级计算中心作为上海信息港主体工程之一,国家和上海市政府投资先后引进神威-I超级计算机、神威-64P集群计算机、曙光4000A超级计算机系统并投入商业化运行。
上海超级计算中心自20xx年正式开通至今,这些高性能计算机系统已安全、稳定运行七年多时间,上机用户取得了丰硕的科研成果和社会效益。在这七年中,为保障这些高性能计算机系统安全、稳定、不间断地运行,技术支持部在中心引进第一台高性能计算机--神威-I超级计算机系统的同时,建立了机房应急预案、运行记录、设备运行参数等基础运维制度,在二期引进曙光4000A超级计算机系统过程中,不断完善原有运维制度,并针对该主机系统特点编写了大量操作方法和应急预案。
中心自20xx年获得ISO27001(BS7799)信息安全认证以来,技术支持部根据其要求规范了文档体系建设,形成了机房管理制度、应急预案、操作方法、运行情况记录的四大类运维文档。
正是这些运维管理制度的不断完善和有效执行,才确保了资产价值高、服务对象广、社会影响大的中心主机系统安全、稳定运行,保障重点项目、用户服务的连续性。
2.应急预案重要性
上海超级计算中心机房运维管理文档划分为机房管理制度、应急预案、操作方法、运行记录共四大类(如图1所示)。
图1应急预案分类
应急预案在应急系统中起着关键作用,它明确了在突发紧急情况发生之前、发生过程中以及刚刚结束之后,谁负责做什么、何时做,以及相应的策略和资源准备等。它是针对可能发生的重大事故,按照其影响和后果严重程度,在应急准备、响应、操作各个方面预先做出的详细安排,是开展及时、有序和有效事故应急工作的行动指南。因此,应急预案在这四类运维管理文档中处于最为重要的地位。
3.应急预案分类
应急预案按重要性和事件种类,可以划分为消防预案、断电预案、空调预案、其他预案共4种,预案各文档之间彼此独立又互为关联,具有非常强的可操作性。制定预案的指导原则是尽一切可能,最大限度地确保向用户提供的服务不中断。在紧急事件发生的情况下,保证核心设备连续运行,避免存储数据丢失。在事件处置完成后,能快速恢复高性能计算服务。
3.1消防预案
消防预案是主机房最重要的应急预案。该类预案根据《上海超级计算中心灭火和应急疏散预案》的原则并结合主机房主机设备和消防设备的运行特性而制定。主要由《主机房消防应急预案》和《主机房气体喷淋消防系统启动撤离及处置应急预案》2个文档组成。
消防应急预案:该预案着重规范了火警事件发生后,所有主机维护人员如何根据所属区域和现场情况,判断和选择正确的处理方法,同时配合中心物业人员处置,降低事件带来的影响。
对于设备发生烟雾,主机维护人员协同物业人员寻找烟雾点予以切断相关区域电源;当设备发生可以控制火情,协同物业人员灭火;当主机房发生火灾而无法控制,应采取施救方法等措施。
气体喷淋预案:该预案描述主机房气体喷淋系统启动的响应和确认并具体规定了撤离机房路线、善后处置。
这两个预案中,消防应急预案作为消防预案的主体,涉及到如何处理与消防有关情况的各个方面。气体喷淋预案是主机房发生重大火灾时应对的最终灭火手段和人员撤离引导方法。
3.2断电预案
断电预案的重要性仅次于消防预案。该类预案根据中心供配电系统实际情况和各种断电影响范围下对主机运行的最小保障要求而制定的。主要由《主机房断电应急预案》、《曙光4000A超级计算机系统紧急关机操作方法》、《曙光4000A超级计算机系统双路断电关机操作方法》等多个文档组成主机房断电应急预案:该预案用于断电情况下,主机维护人员如何与中心物业部门联系控制主机房供电情况,并且负责对主机系统运行受断电影响程度做出正确判断。指导维护人员按影响程度,分别选用预案中对应的操作方法。本预案在所有断电预案中起指导思想作用。紧急关机操作方法:该预案制定了主机系统在紧急情况下,最快速度关机的操作步骤。主要用于发生烟雾、明火或消防、断电预案需在数分钟内关机断电的事件。
双路断电关机操作方法:该紧急操作预案主要用于在外界双路供电全部中断情况下的操作。
该预案的关机原则是:根据实际电力供应考虑操作步骤,宁慢勿快,在时间允许的情况下,最大程度保证存储节点、SAN和SCSI存储设备、工程用户的计算节点的运行,尽可能减少关闭范围,以确保能在恢复供电的情况下,主机尽快恢复正常运行状态,减少影响范围。
3.3空调预案
超级计算机系统在运行中消耗大量电能,在
提供高性能的计算能力同时产生大量的热量,必须采用专用空调系统,以保持主机系统适当的温、湿度、空气洁净度等运行环境需求。因此,专用空调系统与主机系统密切相关,空调预案是主机房必备的应急预案。
制定该预案的原因在于,断电情况下,空调与主机系统存在互相牵制的现状。主机和空调系统均为外界双路供电,主机系统配有UPS不间断电源系统,而空调系统无UPS支持。在双路停电情况下,主机系统可获得UPS电池组支持运行若干分钟,空调系统无UPS支持只能停机。由于在无空调冷却情况下,主机系统会在短时间内积聚大量热量导致超过运行警戒温度,主机系统在有可供电余量的情况下,仍将被迫关机。因此,确保空调中断情况下的主机运行环境是该预案的制定原则。
预案根据各台主机配备的空调系统特点制定,由《曙光机房空调系统故障应急预案》和《神威机房空调系统应急预案》2个文档组成,这里仅介绍曙光机房空调系统应急预案。
该预案的第一步:考虑增强主机系统散热效果,采用打开主机机柜前后门,和机房周边木门,在通风道上布置有UPS支持的应急风扇,形成空气对流,带走热空气,从而增强主机系统散热效果,降低升温速度。
该预案的第二步:在采取上述措施并持续升温到一定温度之上的情况下,考虑紧急关闭部分或全部计算节点,减少热量生成,确保主机系统的核心存储和网络系统不受影响,确保空调系统修复后,主机系统能快速恢复运行。
3.4其他预案
除了固定的三类预案之外,技术支持部还根据主机系统实际运行中出现的.各种意外情况,随时制定具有针对性的预案。
如《大楼顶棚坍塌应急操作方法》的制定,就
是由于20xx年1月连续发生雨雪等灾害性天气,中心大楼顶棚大量积雪且难融化,物业预计存在情况继续恶化,有发生顶棚坍塌事故的可能,一旦发生将影响一楼主机运行。
针对该突发的隐患,中心技术支持部制定应急操作方法,对维护巡查频度范围、漏水可能发生位置、如何处理受漏水影响的主机设备等操作步骤进行严格界定。即使在最后,中心大楼顶棚经受住灾害性天气的考验,该预案并未发挥作用,这正体现了应急预案的备而不用的特点。而且通过各种意外
情况的迅速分析、应对和实践操练,不断锻炼主机维护队伍,使之走向成熟。
4.在实际案例中,应急预案的作用
在主机系统年复一年的运行中,我们希望这些设备正常稳定运行,应急预案永远不会被使用,然而在实际运行中,总免不了因突发事件执行应急预案。
而每次突发事件是检验应急预案制定是否科学、有效的最好证明。
4.1双路断电,UPS正常运行案例
2006年8月某天,因打雷导致供电一路跳闸自动换至另一路供电,曙光机房2台空调掉电。
主机维护人员立即按应急预案操作,电话通知物业人员恢复空调运行,恢复过程中所有空调相继出现高温报警,机柜液晶屏平均温度35度,开启全部曙光机柜前后门,打开神威-曙光玻璃门并调集应急电扇,于12:45恢复正常。
12:50再次出现双路供电中断,曙光空调因无
UPS支撑全部断电,启动断电应急预案,开启
5、6号木门,开启神威机房全部空调,布置电扇,将冷气导入曙光机房,热量从6号木门的外部通道排出,选择性杀除部分作业,至13:05供电恢复,曙光空调开始工作,13:20环境恢复正常。全机在此过程中,正常运行未停机,只损失了部分不重要的作业。
4.2单路断电,UPS失效案例
20xx年8月某天,因低压配电柜开关至UPS房间X-JM柜电缆发生相对地短路,造成UPS机组逆变器自身保护动作,关闭UPS机组,导致曙光主机系统失电。
全机掉电后,主机维护人员迅速按应急预案
手工关闭所有电源开关。10:30恢复供电,温湿度恢复正常后,全机加电,恢复过程中修复
storage00
1、00
5、010三个盘阵的9个用户文件系统,修复15个节点加电故障,除cnode00
9、anode029电源
环境模块故障,于当日15:10全机系统恢复正常。
由于处置及时,主机受影响范围很小,在恢复供电后数小时即成功开启全系统。
5.随时保持应急预案的适用性
主机长年累月的运行,故障和问题的发生,往往是必然的,也是客观、无法回避的。因此,要求在维护工作中,预先考虑到可能的问题和故障,制定完善的应急预案。应急预案不可能包含所有的故障和问题,但应根据维护经验,尽可能地设想各种危机情况下的处置措施。做到预想到各种可能的问题。
而在形成应急预案后,更重要的是持续地在
运行中加以完善、测试和演练,尽可能模拟实际情况,做到即使只有1名维护人员在场,也能在真正发生危机时,以最短时间独立处置故障。
以目前中心的主机运维工作为例,三年内,仅断电预案就已根据实际运行情况的变化,制定并更新了5~6个版本,针对夏季突发断电也有专用预案。这样的措施,直接保障了20xx年8月突发断电事件中的主机连续运行。而20xx年8月的突发断电事件中,由于预案在之前刚根据实际情况进行过演练和修改,主机维护人员仅用半小时就完成所有应急操作动作,整机仅有个别设备故障,确保了主机设备未因突发断电而发生大范围损坏现象,恢复供电后直接完成开机。
实践证明,完善而适用的应急预案能保障向用户提供稳定的高性能计算服务。
6.结束语
完备而适用的应急预案能有效降低主机系统因意外事件发生带来的运行风险,对可能发生的意外来说,是一种事前防范措施。但对整个主机系统产品而言,是一种事后防范措施。如果主机系统生产厂商能把这些防范措施纳入整个系统设计过程中,使操作方法更加简便、更趋于人性化,这将帮助主机维护人员更为妥善处理意外事件,用户得到更为稳定的高性能计算服务。我们相信未来国产的高性能计算机能做到这一点,期待着这一天早日到来。
(为帮助了解,特在附录中节选部分双路断电关机预案内容)
附录:《曙光4000A超级计算机系统双路断电关机操作方法》(省略具体操作步骤)
曙光4000A超级计算机系统双路断电关机操作方法
注意:
1、本方法专用于主机房发生双路同时断电紧急操作使用。(包括单线断电切换失败)。
2、本方法作为《曙光-4000A超级计算机系统紧急关机操作方法》(SSCS(TS)-XXXX-XXXX-XXXX)的附件。
1.断电确认及操作:
主机房内一旦发现断电,并接物业明确通知为双路断电,首先执行如下操作(即确保节点温度):
1.1打开机房门便于散热,..
1.2机房通道上布置应急风扇加强冷热空气对流,夏季:应急风扇布置..;冬季:应急风扇布置..,使曙光
机房的温度尽量降低。
1.3打开所有机柜前、后门。
1.4密切注意机房节点平均温度(专指各机柜液晶面板所示之环境温度值)。
2.紧急关机条件确认:
在完成上述操作后,密切观察主机房环境。一旦有如下任何一个条件满足:
2.1自断电发生起,已达到XX分钟仍未恢复供电;
2.2采取上述紧急通风措施,节点温度持续上升,超过XX℃;
可认定为紧急断电事件,即刻按下列紧急关机操作方法进行操作。
3.紧急关机操作步骤:
注意事项:
3.1..
3.2关机操作的全过程中,注意随时保持和物业的通讯联系。除根据情况随时联络外,应严格保证每XX分钟与物
业联系一次,询问UPS可支撑时间及恢复供电可能。(分机、手机、对讲机等)
3.3应理解关机原则为:根据实际电力供应考虑操作步骤,宁慢勿快,在时间允许的情况下,最大程度保证X排节
点、存储节点、SAN和SCSI存储设备的运行,尽可能减少关闭范围,以确保恢复。
第一级操作:(首先执行)关闭主机系统外围设备..
第二级操作:(完成上述操作后,当再次发现UPS电池低于XX分钟或节点平均温度超过XX℃,任一条件满足,执行如下操作)
关闭非重要用户计算节点(ABC组)..
第三级操作:(完成上述操作后,当再次发现UPS电池低于XX分钟或节点平均温度超过XX℃,任一条件满足,执行如下操作)
关闭所有用户计算节点(D组)..
第四级操作:(完成上述操作后,当再次发现UPS电池低于XX分钟或节点平均温度超过XX℃,任一条件满足,执行如下操作)
关闭SAN存储设备和LSF数据库服务器..
第五级操作:(完成上述操作后,当再次发现UPS电池低于XX分钟或节点平均温度超过XX℃,任一条件满足,完成关机操作)
关闭SCSI磁盘阵列和所有存储节点..
特别关注:
1.如时间非常紧急,UPS电池低于XX分钟:
直接执行关机脚本:..
此脚本可分别将计算节点、接入节点、存储节点进行关闭。
2.如时间极其紧急,UPS电池低于XX分钟,可按《曙光-4000A超级计算机系统紧急关机操作方法》(SSCS(TS)-XXXX-XXXX-XXXX),直接拉闸操作。
(上述二个方法仅用于突发情况,非极其必要情况下严禁使用,应使用前列方法操作)
3.如遇主机失电(如关机操作不及已掉电或突发自动掉电)应关闭所涉范围所有设备电闸开关。..
机房应急预案5
第一条 机房突发事件包括网络设备或服务器故障、自然灾害(水、火、电等)造成的物理破坏、人为失误造成的安全事件等等。 针对突发事件的.预防措施如下: 建立安全、可靠、稳定运行的机房环境,防火、防盗、防雷电、防水、防静电、防尘;建立备份电源系统;加强防火、防盗意识。
第二条 机房漏水应急预案如下:
一、发生机房漏水时,第一目击者应立即通知机房管理人员。
二、若空调系统出现渗漏水,机房管理人员应立即安排停用故障空调,清除机房积水,并及时联系设备供应方处理,必要情况下可临时用电扇对服务器进行降温。
三、若为墙体或窗户渗漏水,机房管理人员应立即采取有效措施确保机房安全,同时安排通知工程人员及时清除积水,维修墙体或窗户,消除渗漏水隐患。
第三条 机房火灾应急预案如下:
一、完善机房环境,确保机房放置灭火器;禁止携带易燃易爆物品进入机房。
二、机房管理人员应熟悉机房内部消防安全操作和规则,了解消防设备操作原理,掌握消防应急处理步骤、措施和要领,懂得灭火的方法,会扑救初起火源。
三、一旦发生火灾,迅速切断机房电源,避免灾情的扩散,并迅速和保安部联系必要时立即报火警。
第四条 机房停电应急预案如下:
一、接到停电通知后,应及时通过办公系统、电话等发布相关信息,部署应对具体措施,要求在停电前停止业务、保存数据。
二、机房管理人员每日检查UPS电源的状态,确保在突发停电时,UPS电源能自动供应服务器正常工作15分钟以上,保证员工工作的数据及时保存。
第五条 通信网络故障应急预案如下:
一、发生通信线路中断、流量异常等故障后,发现状况的员工或部门领导应及时通知网络管理员。 二、网络管理员了解情况后,迅速组织检测故障区域,并作相关故障处理,逐步恢复故障区与服务器的网络联接,恢复通信网络,保证正常运转。
第六条 服务器故障应急预案如下:
一、机房管理人员每日检查机房内各服务器状态。
二、定期备份数据服务器数据。并将备份资料拷贝到移动设备。服务器出现严重硬件故障时启用备用服务器以保障正常运转。
机房应急预案6
中心机房突发事件应急预案
第一条
机房突发事件包括网络设备或服务器故障、自然灾害(水、火、电等)造成的物理破坏、人为失误造成的安全事件等等。针对突发事件的预防措施如下:
1.建立安全、可靠、稳定运行的机房环境,防火、防盗、防雷电、防水、防静电、防尘;建立备份电源系统;加强所有人员防火、防盗等基本技能培训。
2.服务器采用可靠、稳定的硬件设备,落实数据备份机制,安装有效的防病毒软件,及时更新升级扫描引擎;加强对局域网内所有用户和信息系统管理员的安全技术培训。
第二条
机房漏水应急预案如下:
1.发生机房漏水时,第一目击者应立即通知机房管理人员。
2.若空调系统出现渗漏水,机房管理人员应立即安排停用故障空调,清除机房积水,并及时联系设备供应方处理,同时启动备用空调,必要情况下可临时用电扇对服务器进行降温。3.若为墙体或窗户渗漏水,机房管理人员应立即采取有效措施确保机房安全,同时安排通知办公室,及时清除积水,维修墙体或窗户,消除渗漏水隐患。
第三条
机房火灾应急预案如下:
1.完善机房环境,确保机房具备二氧化碳灭火器;禁止携带易燃易爆物品进入机房。2.机房管理人员应熟悉机房内部消防安全操作和规则,了解消防设备操作原理,掌握消防应急处理步骤、措施和要领,懂得灭火的方法,会扑救初起火灾,并定期组织灭火演习。3.一旦发生火灾,迅速切断机房电源,避免灾情的扩散,并迅速拨打物业管理和119火警电话。
4.等待消防车到来期间,应组织物业保安或工作人员在保证安全的`前提下灭火,应急领导小组应在第一时间内集中所有二氧化碳灭火器,抓住时机,尽可能的把火扑灭。
5.配合消防部门调查事故原因,对造成的损失和起火原因做好记录,以便进行灾后总结。
第四条
雷击事故应急预案如下:
1.遇雷暴天气,机房管理人员在下班后应及时关闭所有服务器,切断电源,暂停内部计算机网络工作。
2.雷暴天气结束后,机房管理人员应及时开通服务器,恢复内部计算机网络工作,对设备和数据进行检查。出现故障的,事发部门应将故障情况及时报告机房管理人员。
3.因雷击造成损失的,机房管理人员应会同相关部门进行核实、报损,并在调查工作结束后一日内书面报告领导。
第五条
设备防盗被盗或人为损害应急预案如下:
1.机房管理人员每日查看、清点设备并锁好机房大门。
2.机房管理人员每日检查录像监控服务器状态,确保监控画面正常,并检查每日录像正常性、完整性。
3.发生设备被盗或人为损害设备情况时,使用者或管理者应立即报告相关负责人,同时保护好现场。
4.机房维护人员接报后,通知保安及公安部门,一同核实审定现场情况,清点被盗物资或盘查人为损害情况,做好必要的影像记录和文字记录。
5.事发单位和当事人应积极配合公安部门进行调查,并将有关情况向机房管理人员汇报。
第六条
机房停电应急预案如下:
1.接到停电通知后,机房管理人员应及时通过办公系统、电话等发布相关信息,部署应对具体措施,要求用户在停电前停止业务、保存数据。
2.机房管理人员每日检查UPS电源的状态,确保在突发停电时,UPS电源能自动供应服务器正常工作半个小时,保证员工工作的数据及时保存。
第七条
通信网络故障应急预案如下:
1.发生通信线路中断、流量异常等故障后,员工应及时通知机房管理人员。
2.机房管理人员在接到报告后,迅速组织相关技术人员检测故障区域,并作相关故障处理,必要时通知通信网络运营商查清原因;逐步恢复故障区与服务器的网络联接,恢复通信网络,保证正常运转。
3.应急处理结束后,机房管理人员应在一日之内提交故障分析报告,以便备案。
第八条
服务器故障应急预案如下:
1.机房管理人员每日检查服务器状态,检查邮箱服务器状态,确保系统运行的完善。
2.机房管理人员定期备份服务器数据,并将备份资料刻录成光盘或拷贝到移动硬盘。
第九条
1.发生机房突发事件后,机房管理人员应采取有效措施开展先期处置,恢复信息网络正常状态。应急处置工作结束后,机房管理人员对事件发生原因、性质、影响、后果、责任及应急处置能力、恢复重建等问题进行全面调查评估,根据应急处置中暴露出的管理、协调和技术问题,改进和完善预案,实施针对性演练,总结经验教训,整改存在隐患,组织恢复正常工作秩序。
机房应急预案7
为确保办公室机房安全与稳定,以保证正常运行为宗旨,按照“预防为主,积极处置”的原则,本着建立一个有效处置突发事件,建立统一指挥、职责明确运转有序、反应迅速处置有力的机房安全体系的目标,特制定本预案。
一、机房日常维护
1、建立健全机房管理制度
(1)在正常工作日内,信息技术人员负责对机房进行监控,主要职责是:巡视网络设备及系统的运行情况,发生异常情况及时处理,消除网络故障隐患。
(2)节假日期间信息技术人员轮流值班,负责处理有关异常情况。
(3)机房采取来人来访登记制度,未经允许,无关人员不得进入机房区域。
2、机房内严格采取防雷、防火、防尘、防静电等措施以及机房入口处24小时监控录像等措施。
3、认真做好数据备份工作,定期做一次数据库完全备份,每月检查服务器运行和备份情况。
4、信息技术人员对机房的主要网络设备(路由器、主干交换机等)进行工作时间内全程监控,发现异常情况应及时进行处理,确保办公室网络的正常运行。
二、机房突发事件应急处置方案
1、电源系统应急预案
(1)定期检查机房供电设备的运行状况和电路线缆器材情况,当发生下列突发事件时,按照以下方案进行处置:
(2)当机房发生市电供电突然停电或是电源异常时。检查不间断电源的电池可供电时间,确保设备正常运行,如遇到突然断电,应及时将空调等设备及时断电,预防突然来电时瞬间电流过大导致设备损坏等现象。
(3)当确定停电原因是在本身供电系统范围内,立即汇报给负责领导,并及时联系相关维护人员达到现场检修。
(4)恢复供电后,严格按照操作程序逐步恢复机房设备,以防瞬间电流过大造成设备损坏。
2、网络和服务器络系统应急预案
(1)发生网络故障时,首先检查机房设备情况,确定网络故障的原因,然后联系网络维护人员,及时处理和排除故障。
(2)当确认原因为短时间无法恢复,应该及时向负责领导汇报,然后再联系维护人员,及时处理故障。
(3)当人为或病毒破坏的故障发生时,具体按以下顺序进行:判断破坏的来源及性质,断开影响安全与稳定的信息网络设备,断开与破坏来源的物理网络连接,然后再联系维护人员,及时处理故障。
(4)发生服务器系统故障后,应立即向相关领导汇报情况,同时安排人员将故障服务器脱离网络,保存系统状态不变,保护原始数据。
在确认安全的情况下,重新启动故障服务系统:若重启系统成功,则检查数据丢失情况,利用备份数据恢复;若重启失败,立即 联系相关维护人员,请求技术支持,做好技术处理。
处置结束后,技术人员应将处理过程记录下来,以方便日后对此问题的处理。
3、消防和防雷应急预案
(1)上班工作时间发生火警,还在机房工作的人员应及时紧急撤离,并立刻拨打119报警。在确保自身安全的情况下,应尽量使用灭火器进行灭火,减少电子设备的'损坏。同时采取关闭电源总闸等措施,尽量减少可能造成的损失和破坏。
(2)非工作时间或节假日休息时间值班人员发现火情后,要立刻拨打119报警,并立刻通知相关部门和领导,做好火灾的处置工作。
(3)火情结束之后,机房相关人员应全体赶赴现场,同时立即联系相关网络公司和设备相关厂家,及时评估事故损失情况,研讨恢复网络系统正常运行的最佳解决方案。
(4)遇雷暴天气或接上级部门雷暴气象预警,应关闭所有服务器,切断电源,暂停内部计算机网络工作。雷暴天气结束后,及时开通服务器,恢复内部计算机网络工作。因雷击造成的损失,应及时进行核实、报损,并将详细情况向部门领导汇报。
4、自然灾害和盗抢应急预案
(1)发生自然灾害后,首先应该组织人员撤离现场。当确认灾害不会造成人生伤害后,在回到机房检查设备,立刻向上级领导汇报,并联系相关网络和设备厂家,积极做好灾后恢复工作,确保在最短时间内
恢复机房正常运行。
(2)发生盗抢事件后,要保护好现场然后报警,并向上级领导汇报情况。待现场处理完毕后,要组织相关人员估计损毁情况,并联系相关网络和设备厂家,积极做好恢复工作。
机房应急预案8
学院美术系网络信息中心机房
安全应急预案
美术系机房是我系重要的教学活动场所。里面存放主机、显示器、各种连线及相应软件配置,设备价格教高,是学校固定资产的重要组成部分,且机房里使用人员相对集中。因此本着对学生负责、对学校财产保护和负责的态度特制定相应安全应急预案,一但发生火灾事故、触电事故或设备损坏等现象,应按照如下方案实施。
一、触电处置步骤
(1)如发生触电事故,任课教师应迅速安全切断电源,切忌直接接触触电者。 (2)即刻通知校医务室及相关部门,同时开展现场应急救护。
(3)教师要稳定课堂秩序安抚其他学生的情绪,必要时及时有序疏散学生。 (4)协同电工查找原因,本着解决问题妥善处理问题的态度与事件起因,当事人进行公正、公开、公平地协商解决事后问题。
二、火灾处置
(1)任课教师及机房管理员一日发现火情后,即刻切断电源。
(2)任课教师组织学生进行疏散并自救,疏散时机房前三排学生走前门,后两排学生走后门。
(3)即刻通知保卫科及相关部门,根据火情大小如需报警立即就近用电话或手机报告消防中心(电话119),报告内容为:“某地二楼机房发生火灾,请迅速前来扑救”,待对方放下电话后再挂机。
(4)在向系领导汇报的同时,派出人员到各路口等待引导消防车辆。 (5)在消防车到来之前,以校安全消防组织成员为主,其余人员(尤其是教师)均有义务参加扑救。
(6)消防车到来之后,一切听从消防指挥人员的指挥,校内人员配合消防专业人员扑救或做好辅助工作。
(7)使用器具:灭火器、水桶、脸盆、铁锨,水浸的棉被等。 ①扑救固体物品火灾,如木制品,棉织品等,可使用各类灭火器具。 ②扑救液体物品火灾,如汽油、柴油、食用油等,只能使用灭火器、沙土、浸湿的棉被等,绝对不能用水扑救。
(8)无关人员要远离火场和校内的岗定消防栓,以便于消防车辆驶入。
三、设备问题
(1)应每周检查机房的设各软硬件,确保事件早知道、早报告、早解决。 (2)出现软件问题自己解决(回复、杀毒、安装、同传等)。 (3)找到硬件问题原因,并协同教辅组老师一同解决。
(4)查找问题出现的原因,本着实事求是,以合作的`姿态解决问题(5)在正常工作日期间管理教师在规范使用的前提下,设备由于配件使用寿命到期等自然原因造成的损耗应作设备自然损耗处理。该机房管理教师只负置及时记录和报修。
(6)在非工作日期间机房出现问题。比如说周末、寒假和暑假如何处理。需要建立工作日与非工作日交接制度。在非工作日期间由机房接收人负责管理并做相关记录,防止出现管理空白。
四、隐患问题
(1)学校要保证安全通道的畅通。任课教帅坚持每次上机要开两道门,保持室内空气流畅。
(2)学校备齐安全相关装备。
(3)辅导员、任课教师对学生的安全教育。
(4)电压不稳。
机房应急预案9
由于机房内部用电设备多,供电线路复杂,电器设备连续运转,导致线路设备发热量大,甚至出现线路设备提前老化,极易发生供电线路和电气设备起火现象,任何人员一旦发现火情,要沉着冷静视火情情况进行操作:
1:“先断电,后灭火”是扑灭电气火灾的基本原则,在切断电源时要根据现场火势、着火设备进行判断,考虑重要负荷、消防电源的影响以及配电系统回路的分布,防止火灾未救,人员先被电击或灼伤。如果发现机柜内设备出现内部打火、冒烟但没有明火出现时,要立即拔掉该设备的电源插头,并把该设备拿离机柜,防止危害其他设备;发现局部轻微着火不危机其他设备的情况下,要立即断开该设备电源,并组织人员利用就近消防器材进行灭火,防止火势蔓延扩大,并向领导报告;发现设备火势大危机整个机柜但不危机人员生命还能控制时,立即对应机柜编号,断开整个机柜电源,并组织人员使用气体灭火器进行扑火,发现UPS电池组着火时先断开电池组箱体上的控制开关,必要时再断开电源室控制UPS的总断路器,用气体灭火器灭火,如果火势大不能控制应立即向负责人汇报、拨打119报警,根据情况切断机房总电源再进行组织灭火。
2:组织实施:在消防车来之前,先尽力使用现有消防设备将火势控制在最小范围。 消防车来之后,值班人员配合消防专业人员扑救或作好辅助工作。 迅速组织人员逃生,原则是“先救人,后救物”, 及时安全地疏散人员和财产转移。火势大时可用灭火器边喷边撤退,确保人员安全。
3:注意事项:发现火灾拨打火警电话119报警时要讲清详细地址、起火部位、着火物质、火势大小、报警人姓名电话、并派人到路口迎候消防车。火灾事故首要的一条是保护人员安全,扑救要在确保人员不受伤害的'前提下进行。 发现火灾时应掌握的原则是边救火,边报警。人员在逃生时应掌握正确的逃离方法。救火时不要冒然开窗,以免空气对流,加速火势蔓延。
4:灭火器材:电气火灾隐患存在具有一定的隐蔽性,它的发生来得快具有突发性,促成火灾发生的原因受多因素影响而且各因素之间具有关联性,火灾形成后的分解物中有毒气,容易蔓延,即使断电也可能有残留电压存在,所以扑灭电气火灾应用气体灭火器,“二氧化碳”灭火器主要适用于扑灭贵重设备、档案资料、电气设备和其他一般物质的初期火灾。不导电,电压超过600v时,应切断电源;“1211”灭火器是一种具有高效、低毒、腐蚀性小、灭火后不留痕迹、不导电、使用安全、储存期长的新型优良灭火剂,特别适用于扑灭油类、电气设备、精密仪器及一般有机溶剂的火灾;
值班人员应经常开展事故预想、安全活动讨论、学习消防知识、模拟消防演练等多种形式的活动,增强对火灾事故处理方法的认识,在火灾事故发生时能做到头脑清晰、有条不紊,提高火灾事故处理的效率。同时还要对已发生的火灾事故的原因进行认真分析,调查处理,做到四不放过:
(1)事故原因不查清不放过;
(2)事故责任者得不到处理不放过;
(3)整改措施不落实不放过;
(4)教训不吸取不放过,预防火灾事故再次发生。
机房应急预案10
机房建设消防规范:
机房消防系统要求根据国内外实际经验要求使用七氟丙烷(FM200)气体灭火系统,安装时各种管道及阀门必须按照国际标准执行,投标时要求注明各种附件的规格,安装结束后,必需经相关消防部门验收合格。
(1)整体机房应设火灾自动报警系统,并应符合现行国家标准《火灾自动报警系统设计规范》的规定。
(2)整体机房必须设置火灾报警装置,报警装置安装在值班人员随时可以发现的位置。
(3)主机房的消防系统按要求分成三个消防区,即天棚吊顶上方为一区,机房空间为二区、活动地板下为三区,在每个消防区内应按相关要求设置烟、温感探测器和灭火气体。
1、机房建筑规定:
机房主体结构应具有耐久、抗震、防火、防止不均匀沉陷等性能,变形缝和伸缩缝不应穿过主机房,室内顶棚上安装的灯具、风口、火灾探测器及喷嘴等应协调布置,并应满足各专业的技术要求,机房围护结构的构造和材料应满足保温、隔热、防火等要求。
机房的耐火等级应符合现行国家标准《高层民用建筑设计防火规范》、《建筑设计防火规范》及《计算站场地安全要求》的规定,当机房与其它建筑物合建时,应单独设防火分区机房的安全出口,不应少于两个,并宜设于机房的两端,门应向疏散方向开启,走廊、楼梯间应畅通并有明显的疏散指示标志,主机房、基本工作间及第一类辅助房间的装饰材料应选用非燃烧材料或难燃烧材料,电子计算机机房内的给排水管道应采用难燃烧材料保温。
2、机房的消防与安全规定:
机主机房、基本工作间应设二氧化碳或卤代烷灭火系统,并应按现行有关规范的要求执行,机房应设火灾自动报警系统,并应符合现行国家标准《火灾自动报警系统设计规范》的规定,报警系统和自动灭火系统应与空调、通风系统联锁。空调系统所采用的电加热器,应设置无风断电保护,机房的安全设计,除执行本章的规定外,尚应符合现行国家标准《计算站场地安全要求》的规定,用于非常重要的场所或发生灾害后造成非常严重损失的机房,在工程设计中必须采取相应的技术措施。
3、消防设施与安全措施:
设置二氧化碳或卤代烷固定灭火系统及火灾探测器的机房,其吊顶的上、下及活动地板下,均应设置探测器和喷嘴,主机房宜采用感烟探测器,当设有固定灭火系统时,应采用感烟、感温两种探测器的组合,当主机房内设置空调设备时,应受主机房内电源切断开关的控制,机房内的电源切断开关应靠近工作人员的操作位置或主要出人口,主机房出口应设置向疏散方向开启且能自动关闭的门。
并应保证在任何情况下都能从机房内打开,凡设有卤代烷灭火装置的电子计算机机房,应配置专用的空气呼吸器或氧气呼吸器,机房内存放废弃物应采用有防火盖的金属容器,机房内存放记录介质应采用金属柜或其它能防火的容器,根据机房的重要性,可设警卫室或保安设施,还有电子计算机机房应有防鼠、防虫措施。
4、机房管理人员必须做到以下规范:
加强消防管理,防止火灾危害,保护机房、人员的生命财产安全,机房管理人员要熟悉消防法规、消防工作管理制度及应急措施,熟悉消防重点部位的布局、建筑特点、防火区域及疏散通道走向、消防设备的配置情况,熟悉并掌握各类消防设施的使用性能和操作方法,还要对管理范围内的各种消防设施、器材进行检查,确保设施、器材的完好有效,发现设备故障时,应及时报告,定期对机房供电线路及照明器具进行检查,防止因线路老化短路造成火灾,严禁携带易燃、易爆、易碎、易污染、强磁、有毒物品等危险品进入机房,认真巡视检查,做到人走关窗、断电、锁门。
初期火灾扑救,必须掌握一定的灭火技能,遇火情时应积极扑救,及时向报告消防安全工作领导小组和消防中心报警,并保护好现场。
机房管理人员必须对消防设施、器材维护管理:
1、消火栓不应被遮挡、圈占、埋压。
2、机房管理人员对机房消防设施、器材要加强维护保养,确保其完好无损。
3、发现异常情况,遇到有人破坏,要马上采取措施并报告报告消防安全工作领导小组,不得延误。
4、灭火器应保持铭牌完整清晰,保险销和铅封完好,应避免日光曝晒、强辐射热等环境影响,灭火器应放置在不影响疏散、便于取用的指定部位,并摆放稳固,不应被挪作它用、埋压或将灭火器箱锁闭。
机房消防应急预案措施:
为确保机房安全与稳定,以保证正常运行为宗旨,按照“预防为主,积极处置”的原则,本预案适用于机房存在的重大火灾隐患和因各种原因发生的火灾事件等。
机房火灾预防措施:
1、走廊、楼梯等公共部位严禁堆放物品,保持通道畅通。
2、机房全体人员应有高度的防火意识,禁止在机房内存放易燃易爆物品,禁止在机房内吸烟或使用明火,禁止在机房内乱拉电线。
3、消防器材由专人负责保管,定期检查消防器材。未经许可,禁止擅自移动。
4、每月进行一次电源开关、电器和线路的检查,发现故障、老化、破损、绝缘不良等不安全因素,必须及时报修,并做好记录备案,消除安全隐患。
机房火灾处置:
1、确认机房设备区域火情后,根据现场情况实施机房区域气体灭火操作。
2、消防应急指挥小组进入现场,开展灭火救援行动。在消防人员未到达火灾现场时,应打开应急通道,组织现场无关人员有序疏散,并派人及时切断电源,隔离火灾危险源和重要设备,充分利用中心消防器材进行灭火。机房发生火灾,应遵照下列原则:首先保人员安全;其次保关键设备、关键数据安全;三是保一般设备安全。
3、协助消防员灭火。在自救的基础上,当专业消防队到达火灾现场后,火灾事故应急指挥小组要简要的向消防队负责人说明火灾情况,听从消防队的指挥,并全力支持消防队员灭火。
4、机房消防与大楼值班室相连接,值班人员发现报警器报警或发现火情时,应在迅速确认后电话通知大楼监控中心,并根据火情直接报119火警。
5、电话通知应急指挥小组,启动应急预案。报告后,应根据火势情况,向周围人员发出火警信号。
机房火灾后处理方案:
1、火灾消除后,应将抢运的设备物资放置在安全场所,并登记造册,计算火灾损失。
2、火灾消除后,对火灾现场进行清理,消除烧毁物资,杜绝火势复燃。
3、灾后值班人员和安全主管人员应配合消防部门和公安部门分析火灾原因,明确火灾责任人。
机房消防安全应急预案2
为认真贯彻落实《国务院关于特大安全事故行政责任追究的规定》,积极提高我公司重点要害部位特大安全事故应急处理能力,努力减少各类特大安全事故所造成的损失,消除火灾事故的隐患,保障公司财产和员工的生命安全,特制定本预案。
本预案针对我公司通信机房的火灾而制定。
移动通信机房灭火流程如下:
(一)值班人员发现机房火情(包括监控中心人员)要立即到现场查看。
(二)如果是个别电路盘着火,应拔出着火的电路盘,用1211或二氧化碳灭火器将火扑灭。
(三)某机柜几块电路盘及电缆着火,应立即拔出着火的电路盘,用1211或二氧化碳灭火器喷射灭火剂将火扑灭。
(四)如果机房的机架机柜着火,值班人员无力自灭自救时,监控中心应切断机架机柜电源或楼层电源,关闭空调,严禁开窗,及时向公司安全生产管理领导小组报告。
(五)公司安全生产管理领导小组指挥机关义务消防队队员进行灭火,组织值班人员立即撤离现场,封闭门窗,按下区域自动灭火按钮灭火,同时拨打119报警,大声呼救,报告公司主管领导或安保值班室,监控室广播火警。
(六)在消防队到达后,应积极配合,简明扼要说明着火位置,火势情况和已采取的补救措施。
(七)用1211或二氧化碳灭火器喷射灭火剂能把火扑灭的,应配合消防队保护现场和消除隐患,防止再次着火。
(八)用1211或二氧化碳灭火器不能把火扑灭时,为防止烟熏引起人员中毒,应组织人员有序疏散,使用相应的灭火器材灭火,尽快将火扑灭。
(九)应保护好现场,按照事故调查处理办法执行。
(十)火灾报警电话:119
本预案应注意的特别事项
1、当发生火灾情况,进行处理并保证人身安全的同时,
根据设备的重要性进行相应的抢救措施,保证重要设备,特别是直通电话,以及与冀北、华北相应数据的上传,保证通道畅通。
2、抢救完主要设备,在进行次要的设备抢修,待事故处理完毕后,进行相应的实验,保证设备的运行性,并进行设备的可行性分析。
机房火灾消防的应急预案3
第一节总则
1、保证人员和财产的安全为前提的原则:在由于火灾或电力问题造成的主机故障,在解决故障前,应以保证人员的生命安全和财产的安全为前提,然后进行故障的'解决。
2、最快时间恢复业务的原则:本着先想尽一切方法,尽快恢复业务的原则来处理故障,如在有备用设备的情况下,主设备产生了故障,应先尽快将应用切换到备用机上,使业务能够运行,再对故障设备进行诊断和维修。
3、故障应急人员高度负责的原则:当故障应急人员在节假日接到故障通知时,本着高度负责的态度,应迅速接手处理障碍,如远程无法处理解决,应迅速赶到故障设备所在地,进行现场处理,处理故障的同时应及时向领导汇报。应急人员不可互相推卸责任,如因特殊情况,确实无法处理障碍,部门领导必须安排好其他人员处理。
4、尽可能全面的保留故障现场的原则:当故障发生后,应急人员应尽可能全面的备份出能够反映故障现象的各种日志、记录、受损文件等,便于业务恢复后,对故障的分析、解决,杜绝故障的再次发生。
应急方案的目标:保证预付卡运营系统连续安全稳定地运行。
第二节应急领导小组
应急领导小组成员:
组长:副组长:成员:
第三节电源系统故障应急处理
定期检查信息中心机房电源设备的运行状况,当发生下列突发事件时,按以下方案进行处置:
当中心机房发生市电供电突然停电或远程报警电源异常时。首先确认是否为正常停电及预计停电时间。检查不间断电源的电池可供电时间,需在不间断电源供电时效内关闭所有服务器及网络设备。
联系工程部查看停电原因,尽快恢复供电,并将情况报告相关领导
工程部联系电话:
第四节空调系统故障应急处理
定期对空调的运行情况进行检查,如有报警信息,应及时查找故障原因,对于不能自行排除的问题,应及时与设备提供商进行联系。
当中心机房主空调因故障无法制冷,致使机房内环境温度超过摄氏40度时,打开机房房门,并关闭所有服务器及网络设备。对于无法自行处置的空调系统异常情况,及时与设备提供商联系,并报告公司领导。空调问题联系人:
第五节中心机房自动消防系统应急处理当中心机房发生火警时,按以下方案进行处置:
1.上班工作时间发生火警,听到自动消防系统发出的声光报警后,中心机房附近办公室人员应及时紧急撤离,避免气体自动消防系统启动后,消防气体对附近人员造成人身伤害。确认火警后,立刻拨打119报警,并说明尽量使用气体灭火器进行灭火,减少电子设备的损坏。
2.发生火警后,信息中心相关人员应马上赶赴现场,并向有关领导报告事故情况。同时立即联系联通等相关公司,及时评估事故损失情况,研讨尽快恢复信息系统正常运行的最佳方案。安保消防中控电话:
第六节设备、网络系统故障应急处理
设备、网络应用系统故障应由发现人通知技术部,技术部门立即检查故障,进行初步故障定位,解决;
1.网络设备、服务器、储存设备均有备份,当设备存在硬件问题时,可随时把业务切换到备份主机上,保证业务正常运行;2.应用系统每更新一次则做一次远程备份,在远程主机上分别备份旧的应用系统和更新后的应用系统,以当天的更新日期命名;3.对磁盘柜上的数据库文件有定时任务,每天凌晨4:00会把数据库里的数据文件倒出到远程备份主机上,以确保磁盘柜出现硬件故障的时候,数据文件不丢失;对于网络、应用系统出现硬件方面的故障,比较严重的问题,对业务的正常运行造成较大的影响,立即向有关领导报告。
4、网络中有监控服务器,运用Cactiv10最新的版本,监控网络所有设备(路由器,防火墙,交换机以及服务器设备);对设备本身的硬件检测、外部入侵检测、外部攻击等多种对系统不利因素以发送mail的形式报警;相关人员收到报警信息,分析收到的log日志以做出相应的处理。
5、每周周五对网络设备进行日志及配置文件采集,对数据库数据文件定期下载,和远程备份;在本地电脑上保存最近的配置文件,以便在发生毁灭性的灾难时,用来重组。
对简单故障,运维人员应迅速排除故障,解决问题并记录。如果需要更换设备,应上报有关领导,经批准后马上更换故障设备,尽快恢复网络、应用系统运行。运维部门判断无法及时修理时,应立即通知相关的系统运行服务提供商,在最短的时间内安排修理或更换系统。
如发现属外部线路的问题,应与线路服务提供商联系,敦促对方尽快恢复故障线路。
启用备份线路、设备、系统,迅速恢复相关的应用。
联通联系电话:
第七节黑客入侵的应急处理
发现网络上有黑客攻击行为,任何人员都有义务向技术部门报告。技术部立即启动应急响应,切断受攻击计算机与网络的连接,停止一切操作、保护现场,并上报有关领导。
对于黑客攻击,由计算中心组织应急响应专家小组查找入侵踪迹,分析入侵方式和原因。由安全管理员根据对入侵事件的分析,组织相关人员对内部网计算机整改,防止黑客用同样的手段再次入侵其他系统。安全管理员检查确定无安全隐患后,才可将受攻击计算机重新连接网络,或启用备份计算机来恢复应用。
安全管理员应做好记录,保护现场,进行日志收集等工作。如果能追查到攻击者的相关信息,可以对其发出警告,必要时可以采取进一步的行动,乃至采取法律手段。根据破坏程度,经有关领导同意后,上报公安部门。
若系统已被黑客破坏,无法恢复,应将受黑客攻击的计算机上的重要数据备份到其他存储介质,确保计算机内重要的数据不丢失。如果数据无法恢复,经有关领导同意后,可与国家指定的部门联系,由他们来协助恢复,为保证数据信息安全,需在安全管理部门作记录。
第八节生产系统、数据库故障处理
生产系统出现故障,技术部做出应急处理
1.因软件设计缺陷、设计漏洞等引起的故障,通知公司研发部门在2小时内查明原因,解决问题。
2.数据库出现故障,运维人员应在2小时内查清故障原因,其他相关部门应积极配合,解决问题。
3.如出现数据丢失情况,确认不能自行恢复后,启用备份恢复数据,24小时内恢复运营。
本方案自发布之日起施行
机房应急预案11
第一章 总则
第一条 为规范我所网络中心机房设备管理,提高处理机房突发事件的能力,形成科学、有效、反应迅速的应急工作机制,确保重要计算机信息系统的实体安全、运行安全和数据安全,最大限度地减少突发事件造成的危害,根据《中华人民共和国计算机信息系统安全保护条例》、《信息化建设员工遵循守则》及《企业信息安全管理制度》等相关管理规定等,制定《网络中心机房应急预案及管理办法》(以下简称管理办法)。
第二条 本文件适用于有计划性、有预防性地管理我所的网络中心机房以及发生和可能发生的与机房有关的突发事件。
第三条 信管部负责编制、修订网络中心机房管理办法及所辖范围内突发机房事件应急预案。
周期性或即时性地向局域网用户发布系统安全警示;对异常流量来源进行监控,并妥善处理各种异常情况。及时组织专业技术人员对所辖范围内机房突发事件进行应急处置;负责调查和处理机房突发事件,及时上报并按照相关规定作好善后工作。
第二章 中心机房管理办法
第四条 机房内的所有设备需要定期保养,应指定人员做维护、清洁工作,做到两天一收拾,一周一打扫;严禁将各种食物、饮用品带入机房,在机房内禁止吸烟。
第五条 计算机设备维修工作由专门人员进行,管理人员应把设备的检修情况记录在相应的设备卡上,以便统一归档管理。如发现机房设备故障应及时向上级领导报告,并负责计算机及外设的日常维护与排除故障,在遇到设备保修范围内的故障时,应及时催促供应单位上门或将机器送修;
第六条 系统管理人员必须严格遵守有关机房、设备及系统运行管理规定,不得在机房内从事与系统管理、运行维护、系统安装和调测等无关的工作;
第七条 如其他人员需使用机房内设备应向机房负责人提交申请,经主管人员审核签字后,将书面申请提交信管部存档后方可借用机房内的设备;
第八条 做好防火、防雨、防湿、防盗工作,注意用电安全;机房内的环境要每周检查温度、湿度、电力系统、是否满足机房相关的标准要求;
第九条 系统管理人员应定时对机房供电系统及其他运行中的系统、设备进行巡视和检查,建立档案,做好系统日志。要对发生的故障以及排除故障情况做好详细记录;机房管理人员每日检查UPS电源的状态,确保在突发停电时,UPS电源能自动供应机房设备正常工作半个小时,保证机房设备的数据及时保存。
第十条 要统一管理机房内的设备,计算机及其相关设备的驱动程序、保修卡等随机文件与资料要保存完整。要明确专人负责计算机文档、信息化等资料的保管,要做到资料齐全,存放安全;
第十一条 机房内的交换机和服务器系办公自动化的关键设备,任何人不得自行配置或更改系统参数;
第十二条 要做好机房的安全工作,对服务器的各种帐户、密码严格保密。对网络运行理,设备维修维护、系统或设备安装等进入机房,必须由机房管理人员陪同进入,做好登记,并配合项目的实施。
第十七条 进入机房的设备应在进入机房前拆除外包装,以保证机房环境的清洁和安全。
第十八条 严禁携带易燃、易爆、易腐蚀等危险性物品进入机房。
第三章 机房用电管理规定
第十九条 机房内提供的UPS电源只允许为主机、服务器、网络及存储等核心设备供电,严禁安插其他设备,增加UPS电源供电负荷。
第二十条 严禁擅自切断供电系统,确因工作需要断电时,首先应做好相应准备工作,经部门领导批准,然后给所有部门发放断电通知,最后方可实施。
第二十一条 机房内安装用电设备或有用电需求的项目时,必须经过专业人员或设备提供商的安装工程师进行现场勘查,经确认在满足或符合要求后工程才能实施。
第四章 机房施工管理规定
第二十二条 任何进入机房的施工,施工单位必须指明施工管理人员。
第二十三条 施工人员进入机房,必须遵守机房有关管理规定,不得携带与施工无关的物品进入机房,并自觉接受保安人员或机房管理人员的管理、监督和检查。
第二十四条 施工人员未经许可不得进入非指定工作区域,施工前须布置适当的防护设施;施工人员在现场严禁吸烟,不得在机房的任何地方坐卧,饮食,或从事与施工无关的事情。
第二十五条 施工人员在施工过程中不得擅自动用机房设施和设备,如因施工管理不善造成机房设施、财产及其他一切经济损失,施工单位必须承担责任并负责赔偿。
第五章 机房安全管理规定
第二十六条 进入机房的人员必须遵守《机房出入管理规定》以及有关规章制度。
第二十七条 机房内的设备、工具及相关资料应存放在指定地点,未经许可不得私自带出机房。
第二十八条 机房内严禁吸烟,严禁存放易燃、易爆、易腐蚀等危险性物品,严禁动用明火;禁止在电器设备上放置纸张等其它杂物;不得存放与系统运行维护和管理无关的设备、物品和资料。
第二十九条 机房管理人员或保安巡检员应熟悉机房环境以及安全通道的`位置,应懂得防火知识,灭火常识,熟悉机房消防设施的使用方法,具有及时发现火灾隐患的能力。
第三十条 未经批准,不得擅自对网路拓扑结构、连接方式进行修改或拆接,如需作拆接或修改,需经信管部经理同意后方可进行,并把修改情况记录在案,未经允许,机房管理人员、保安人员不得动用机房内的计算机网络设备,线路等。
第六章 中心机房突发事件应急预案
第三十一条 机房突发事件包括网络设备或服务器故障、自然灾害(水、火、电等)造成的物理破坏、人为失误造成的安全事件等等。 针对突发事件的预防措施如下:
1、建立安全、可靠、稳定运行的机房环境,防火、防盗、防雷电、防水、防静电、防尘;建立备份电源系统;加强所有人员防火、防盗等基本技能培训。
2、服务器采用可靠、稳定的硬件设备,落实数据备份机制,安装有效的防病毒软件,及时更新升级扫描引擎;加强对局域网内所有用户和信息系统管理员的安全技术培训。
第三十二条 机房漏水应急预案如下:
1、发生机房漏水时,第一目击者应立即通知机房管理人员。
2、若空调系统出现渗漏水,机房管理人员应立即安排停用故障空调,清除机房积水,并及时联系设备供应方处理,同时启动备用空调,必要情况下可临时用电扇对服务器进行降温。
3、若为墙体或窗户渗漏水,机房管理人员应立即采取有效措施确保机房安全,同时安排通知办公室,及时清除积水,维修墙体或窗户,消除渗漏水隐患。
第三十三条 机房火灾应急预案如下:
1、完善机房环境,确保机房FM200自动灭火系统工作正常,设置为灭火系统为自动状态。
禁止携带易燃易爆物品进入机房。
2、机房管理人员应熟悉机房内部消防系统安全操作和规则,了解机房内FM200灭火消防设备操作原理,掌握消防应急处理步骤、措施和要领,懂得灭火的方法,会扑救初起火灾,并定期组织灭火演习。
3、一旦发生火情,要迅速切断电源(电源已和消防系统联动),利用机房专用灭火系统灭火,使用气体灭火系统,要保证机房内所有人员全部撤离现场,方可放气灭火(紧急情况采用手动启动,见气体灭火系统操作手册);如机房气体灭火系统失效,在保证人员安全的情况下要立即使用备用手持式灭火器手动灭火,同时以最快的方式向主管领导汇报,尽快增加援助人员协力救火,并迅速拨打物业管理和119火警电话。
4、等待消防车到来期间,应组织物业保安或工作人员在保证安全的前提下灭火,应急领导小组应在第一时间内集中所有可用灭火器,抓住时机,尽可能的把火扑灭。
5、配合消防部门调查事故原因,对造成的损失和起火原因做好记录,以便进行灾后总结。
第三十四条 雷击事故应急预案如下:
1、遇雷暴天气,机房管理人员在下班后应及时关闭所有服务器,切断电源,暂停内部计算机网络工作。
2、雷暴天气结束后,机房管理人员应及时开通服务器,恢复内部计算机网络工作,对设备和数据进行检查。出现故障的,事发部门应将故障情况及时报告信管部。
3、因雷击造成损失的,机房管理人员应会同相关部门进行核实、报损,并在调查工作结束后一日内书面报告领导。
第三十五条 设备防盗被盗或人为损害应急预案如下:
1、机房管理人员每日查看、清点设备并锁好机房大门。
2、机房管理人员每日检查录像监控服务器状态,确保监控画面正常,并检查每日录像正常性、完整性。
3、发生设备被盗或人为损害设备情况时,使用者或管理者应立即报告信管部负责人,同时保护好现场。
4、信管部接报后,通知保安及公安部门,一同核实审定现场情况,清点被盗物资或盘查人为损害情况,做好必要的影像记录和文字记录。
5、事发单位和当事人应积极配合公安部门进行调查,并将有关情况向信管部汇报。
第三十六条 机房停电应急预案如下:
接到停电通知后,信管部应及时通过办公系统 、电话等发布相关信息,部署应对具体措施,要求涉及到的工作人员在停电前停止业务、保存数据。
1、确认电力可能恢复的时间,立即通知中心机房电源维护负责人和中心机房各设备的负责人到达现场,做好各机房停电准备。
如果确认机房停电的时间为短时间停电,立即可以恢复供电的情况(如15分钟以内,根据UPS电池使用周期和寿命,电池后备时间将会减少,应根据现场实际情况,留出机房设备正常关机时间),可以在UPS正常供电的时间内,应密切观察UPS带负载时间,等到电力恢复,期间如UPS剩余时间低于50%(应满足机房设备正常关机时间),机房负责人应立即严格按操作手册停掉机房内的所有设备(包括各应用服务器、存储、核心交换机和路由期等设备的电源,以及机房辅助设备的电源,最后关闭UPS(见UPS操作手册),等待电力恢复,电力恢复供电后转第七条执行。
如果不能确认恢复供电时间,立即汇报给机房电源维护负责人和中心机房各设备的负责任到达现场。做好各设备的电源停电准备,严格按操作手册停掉机房内的所有设备(包括各应用服务器、存储、核心交换机和路由期等设备的电源,以及机房辅助设备的电源,最后关闭UPS(见UPS操作手册),等待电力恢复,电力恢复供电后转第4条执行。
2、机房维护负责人将停电的电源柜总空开和分空开的状态处于断开状态,关闭顺序应为,先关闭回路小开关,再关闭总开关(UPS关闭后,应先关闭UPS输出回路开关,再关闭UPS输出总开关,接着关闭UPS输入开关)并向主管领导汇报。
3、将掉电的所有的设备电源状态处于下电状态,以防止电源柜加电对设备的冲击。
4、电力室恢复供电后,先不要急于给电源柜加电,等待10-20分钟后,再开始给电源柜加电,以防止供电不稳或再次掉电。
5、供电正常后,确定设备处于下电状态后,打开电力柜的总控开,开启UPS的市电输入开关,开启UPS(见UPS操作)。
6、根据设备加电顺序,启动分路空开。
7、设备加电顺序,网络设备正常后再给服务器、存储等设备加电开机。(以上各设备务必按操作手册的启动顺序上电)。
8、设备启动正常后,开始启动数据库。
9、数据库启动正常后,开始启动中间件服务器。
10、中间件服务器正常后,启动应用程序。
第三十七条 通信网络故障应急预案如下:
1、发生通信线路中断、流量异常等故障后,员工应及时通知信管部人员。
2、信管部在接到报告后,迅速组织相关技术人员检测故障区域,并作相关故障处理,必要时通知通信网络运营商查清原因;逐步恢复故障区与服务器的网络联接,恢复通信网络,保证正常运转。
3、应急处理结束后,信管部应在一日之内提交故障分析报告,以便备案。
第三十八条 服务器故障应急预案如下:
1、机房管理人员每日检查机房设备工作状态,确保系统运行的完善。
2、机房管理人员定期备份数据和资料,并将备份资料刻录成光盘或拷贝到移动硬盘。
第三十九条 发生机房突发事件后,信管部应采取有效措施开展先期处置,恢复信息网络正常状态。应急处置工作结束后,信管部对事件发生原因、性质、影响、后果、责任及应急处置能力、恢复重建等问题进行全面调查评估,根据应急处置中暴露出的管理、协调和技术问题,改进和完善预案,实施针对性演练,总结经验教训,整改存在隐患,组织恢复正常工作秩序。
第七章 附则
第四十条 信管部会结合信息网络快速发展和经济社会发展状况,配合相关法律法规的制定、修改和完善,适时修订管理办法。
第四十一条 本文件由信息管理部制定并负责解释。
第四十二条 本文件经批准后发布实施。
20xx年05月10日
上海市xx信管部
机房应急预案12
核心机房电力的保障一直是维护体系的头等重要事项,通过实施应急发电演练,建立了可靠的应急预案机制,最大限度的降低电源中断对网络传输质量的影响。现分享核心机房电源中断应急预案,希望分公司尽快建立一套统一指挥、职责明确、反应迅速、处置有力的机房安全保障机制。
组织架构:
责任领导、工程维护、网络监控、网络运维、质量管理等相关人员。
机房电源系统说明:
1、机房电力是两路三相四线制供电,进线线缆规格为:RVV50*4+16*1铜芯护套线。
2、机房电源系统采用三级防雷系统,三级防雷分别位于电源进线端、UPS输入前端。
3、机房现有两台60KVA-UPS电源,均处于正常运行状态。
4、机房现有设备机柜已编号,均通过UPS电源和市电供电,每个机柜有独立的20A空气开关。空调、墙壁插座开关、应急灯、照明等都是单独空开接市电。
5、运行中的UPS电源所带负荷,在逆变运行状态下能正常工作约4小时(已经过UPS放电测试)。
一、核心机房电源中断预案
1、在接到停电通知的情况下:
1)计划性停电通知要确保综合部、工维机房管理部对口人接到通知(提前将对口联系人备案在物业处),机房管理员接到计划停电通知后,升级到调度中心进行信息发送,同步进行邮件通知相应应急小组成员。并与负责组长及责任领导电话告知,确保已经接收到本次停电的时间及可能发生的情况。
2)维部进行发电应急预案小组成员通知,提前做好机房发电预案要求的准备工作,将相应的发电机、连接线、人员安排到位,各司其职,随时待命现场,做发电准备工作。确保停电时刻的电力安全及机房用电的保障措施,提前调度安排好相应人员做好保障用电的措施。
3)计划停电时间开始后,马上启动应急发电操作,按照机房发电操作步骤实施阶梯供电的步骤,恢复市电保障。并进行现场值守及设备工作确认,确保全部正常后电话告知调度中心及维护体系领导。
2、在没有接到任何通知,突然发生停电的情况下:
确认停电线路,停电时刻,停电时间等要素,启动核心机房发电应急预案。
1)值班网管工作流程:
⑴值班网管监控到核心机房停电,第一时间告知工维部、网络部、运维部应急小组组长。信息传达到工维部机房管理员(一主一备),告知停电开始时间。
要求在停电5分钟内将消息传达到调度中心,各应急小组组长。如无法联系上,进行升级到责任领导-工维部经理经理处。
⑵网管将停电信息电话传达后,进行调度派单,确保全部的应急小组成员都收到本次故障停电的信息。然后进行机房中设备的检查,包括:UPS设备主机、各核心设备、汇聚设备、服务器、语音系统等。检查是否受影响。同时启动机房降温措施(降温方案:初步为加装抽排风设备、增加大风扇排风形成热量流动降温)
⑶实时监控设备及UPS工作情况,包括:电量下降情况,设备工作正常情况,每15分钟通报一次电量情况。
2)运维部应急工作流程:
⑴运维应急同事接到故障通告后,第一时间往停电现场赶,到现场配合网管/工维部门进行设备仪器的检查、客服语音系统的保障,应急发电的协助。
⑵现场配合进行机房降温散热措施实施,实时检查网络设备的工作情况。
3)运营质量管理应急工作流程:
⑴调度中心值班人员接到网管监控调度信息后,第一时间将故障信息记录并发故障通告到相关应急成员,并电话通知各应急小组组长是否知悉。
⑵进行客服调度系统的设备工作运行系统检查,特别语音系统级坐席电脑,是否有问题,如发现工作系统有异常,及时与运维应急小组成员沟通,进行检查处理。
⑶实时关注故障工单流程进度登记,配合应急小组进行人员调度通告。
4)工维部应急工作流程:
⑴机房管理员第一时间往停电现场赶,同时进行电话沟通供电公司、物业方等,咨询停电原因,是属于计划性还是突发性停电,预计停电时长,将咨询清楚的结果反馈到应急小组成员中,电话联系物业沟通好需要发电需求申请。
⑵工维应急小组组长接到时间后第一时间往停电现场赶,同时进行发电应急小组成员调度,安排第一时间到场工作开展,并升级通报告知主管领导,对口集团维护中心上报信息。
⑶工维应急小组成员接到停电时间后第一时间往停电现场赶,要求30分钟内必须到场(住机房附近的人员往现场去,较远同事可以进行打车往现场去),先行到处同事配合网管、运维同事启动做好应急发电前的准备:连接线布放、接续、发电机发电前检测油/电/水路检查,确保正常。确保一切就绪后,确认可以进行发电操作后,按照发电操作流程进行发电恢复市电。
⑷网管将监控到停电的相应信息及级别同步发送到运营质量管理部调度岗,由调度岗将相应信息进行工维、运维、网络关联同事进行信息告知,同时报工维主管领导知悉。
5)应急机房发电操作流程:
⑴机房用电系统包括四方面:空调制冷、主/备UPS主机、照明系统、客服调度系统。
⑵发电前考虑4方面系统设备用电功率情况,为保障发电机带动的正常,不能进行同步供电,要区分优先恢复的步骤实施,确认发电机的工作正常。在发电前将需要供电的“空调制冷、主/备UPS主机、照明系统、客服调度系统”的市电输入主开关关闭。防止同步启动时发电机的无法供电保证。
⑶启动发电机,检测发电输出电流通断,待发电机运行稳定后。
第一步启动空调制冷系统的`市电输入开关,运维应急小组成员重新启动空调主机(空调因为市电恢复后需要重新启动)观察空调制冷工作是否正常。
第二步启动主UPS设备的市电输入开关,观察发电机运行稳定情况,主UPS主机工作稳定情况,网络设备的工作正常与否。
第三步启动客服系统的市电输入开关,包括(客服坐席电脑、UPS设备、空调制冷等),观察发电机运行稳定情况,设备恢复工作情况。
第四步启动备UPS设备、市电照明的市电输入开关,观察发电机运行稳定情况,备UPS主机工作稳定情况,网络设备的工作正常与否。
⑷发电机启动,市电输入正常后,网管将降温系统的抽排风设备关闭,与运维同事进行所有设备的运行进行全面的检查,确保设备已经是运行正常。
⑸发电机发起市电正常后,工维应急小组安排专人现场值守,及时关注发电机油量情况,同时与油品供应商确认油品配送要求及时间要求,并实时与供电部门确认市电恢复时间。
6)停电过程中突发事项预防:
⑴网管在停电时进行机房确认运行中的UPS工作组、设备组工作状态。主/备UPS工作切换是否正常,在市电中断时UPS是否已经开始进行供电保护。
⑵值班网管对机房中的所有设备进行全面检查,确保所有的设备已经是有主备供电,市电中断后UPS已经正常保障设备工作。同时对机房的温度进行观察,温度是否突然升高。
⑶停电后,UPS处于逆变工作状态,当班人员要每隔15分钟观察一次UPS的蓄电池容量、带负荷情况、机房环境温度,尽量使蓄电池容量大于60%,带负荷小于85%(因为已经有自购发电机应急,尽快要求短时间发起电,减少UPS的放电过度)。
⑷发现机房环境温度大于26℃。当以上指标不能保证时,要及时向机房管理员汇报,同时上报责任领导知悉,网管预案小组成员经过慎重讨论,适时采取关闭不必要网络的网络设备、加强通风降温等措施尽量延长关键设备运行时间。
机房应急预案13
信息中心机房是就业中心开展各项工作的重要保障,也是重点消防部位。为了应对消防事故的发生,特制定以下应急预案:
一、机房消防安全坚持“标本兼治、综合治理,防消结合、预防为主”的基本原则,坚持严防死守,确保万无一失。
二、加强单位职工的安全教育,全面提高应对火灾的能力和心理素质,把损失和危害减少到最低程度。
三、加强领导,健全机构,成立机房消防安全责任小组。 组 长:
副组长:
责任人:当班人员、信息中心工作人员
四、正确处置消防事件:
1、发现火情后,迅速切断电源,利用就近灭火器灭火;如不能及时控制、扑灭火灾,立即启动应急预案,以最快的.方式向上级报告,并视火情立即拨打119报警;
2、接到火警后,组长、副组长及工作人员应在最短时间内迅速赶赴现场进行扑救;
3、及时抢救重要设备,并引导人员疏散自救。
4、一旦有人受伤应及时实施抢救,并及时拨打120请求救护支援;协助医护人员对受伤人员进行紧急救护等;
5、火警解除后,及时保护现场,看护设备,防止次生事故发生,并及时向上级汇报火情和损失,配合相关人员进行事故调查。
五、注意事项
1、避免人身伤害,扑救要在确保人员不受伤害的前提下进行。
2、火灾第一发现人应查明原因,如是电源引起,应立即切断电源。
3、逃生时应尽量采取保护措施,如用湿毛巾捂住口鼻,用湿衣服包裏身体。同时启用消防应急通道,严禁拥挤、阻塞和跳楼、跳窗等事件发生。
4、坚持预防为主,坚持安全值班巡查制度,严守机房消防安全管理制度,保持通信工具畅通,发现隐患及时上报处理。
6、认真分析事故原因,总结经验教训,虚心接受有关部门的检查、指导、批评和教育。
机房应急预案14
计算机机房作为所有业务、应用系统的核心,一旦计算机机房发生突发事件,将对单位的数据等造成严重损失。为此,特制订机房突发事件应急预案。
一、机房突发事件定义
机房突发事件是指由特殊原因引发威胁机房安全并且不能通过日常维护手段解决的事件。比如,火灾、漏电、断电等非人为或者人为的事件,重大突发事件发生后,应立即组织现场救护或临时处置,控制事态发展,最大限度地减少损失和影响。
二、机构和职责
机房突发事件应急小组单位领导:
机房突发事件应急小组部门领导:
机房突发事件应急小组成员:
各责任人职责:
应急小组单位领导:负责单位层面及范围内的决策与领导。
应急小组部门领导:负责部门层面及范围内的'决策与领导并组织实施突发事件预案。
应急小组成员:按岗位职责分工,听从指挥,服从安排全力以赴解决突发事件。
三、突发事件报警
应区分原因在第一时间报警。
自然灾害(火灾),拨打火警电话:119人为事件(非法盗取、攻击等)拨打匪警电话:110人员伤亡,拨打急救电话:120其他时间(断电等),拨打值班电话:
四、突发事件处理
突发事件发生后,应立即启动应急预案。
1、失火、漏水:
视事件的紧急程度,应急小组成员要在领导的指挥下,有组织、有顺序的备份数据、关闭服务器的电源;组织人力转移设备。如果自动设备未能正常启动,应在组长安排下首先切断机房的水、电路,组织人力采用灭火器等灭火设备人工灭火,同时要在第一时间报警。
2、断电:
在城电断电的情况下,机房的备用电力将发挥作用,电力供应最长可持续4小时。由于机房空调没有备用电力,如确认是供电局断电,应立即联系发电机发电;如果不是供电局断电,而是由于办公楼电力线路故障引起的断电,应立即通知电工查找原因,尽快排出故障。如果无法尽快恢复供电,在电力延续期间,应尽快结束未执行完毕的任务,如无法完成需及时备份数据,同时应关闭所有非必须服务器,尽量不让机房温度过高,保证网络设备的正常运行,以便保障集中在单位的应用系统能正常使用。
五、恢复生产
突发事件结束后,有关人员应首先对现场进行清理,汇总损失情况并上报各级领导。紧急召开专项会议分析损失情况,制定数据恢复计划。设备损失的要及时更换设备,保证恢复计划的顺利进行。
恢复生产后,系统管理员应对各系统进行自查,上报书面报告,并由部门领导汇总后上报单位领导。
机房管理员在恢复生产后要及时检查各项维持系统,如UPS、灭火器、漏水、漏电探测器等是否正常运行,应及时更换受损的元器件,补充灭火器的填充物。
机房应急预案15
第一条 机房突发事件包括网络设备或服务器故障、自然灾害(水、火、电等)造成的物理破坏、人为失误造成的安全事件等等。 针对突发事件的.预防措施如下: 建立安全、可靠、稳定运行的机房环境,防火、防盗、防雷电、防水、防静电、防尘;建立备份电源系统;加强防火、防盗意识。
第二条 机房漏水应急预案如下:
1、发生机房漏水时,第一目击者应立即通知机房管理人员。
2、若空调系统出现渗漏水,机房管理人员应立即安排停用故障空调,清除机房积水,并及时联系设备供应方处理,必要情况下可临时用电扇对服务器进行降温。
3、若为墙体或窗户渗漏水,机房管理人员应立即采取有效措施确保机房安全,同时安排通知工程人员及时清除积水,维修墙体或窗户,消除渗漏水隐患。
第三条 机房火灾应急预案如下:
1、完善机房环境,确保机房放置灭火器;禁止携带易燃易爆物品进入机房。
2、机房管理人员应熟悉机房内部消防安全操作和规则,了解消防设备操作原理,掌握消防应急处理步骤、措施和要领,懂得灭火的方法,会扑救初起火源。
3、一旦发生火灾,迅速切断机房电源,避免灾情的扩散,并迅速和保安部联系必要时立即报火警。
第四条 机房停电应急预案如下:
1、接到停电通知后,应及时通过办公系统、电话等发布相关信息,部署应对具体措施,要求在停电前停止业务、保存数据。
2、机房管理人员每日检查UPS电源的状态,确保在突发停电时,UPS电源能自动供应服务器正常工作15分钟以上,保证员工工作的数据及时保存。
第五条 通信网络故障应急预案如下:
1、发生通信线路中断、流量异常等故障后,发现状况的员工或部门领导应及时通知网络管理员。 2、网络管理员了解情况后,迅速组织检测故障区域,并作相关故障处理,逐步恢复故障区与服务器的网络联接,恢复通信网络,保证正常运转。
第六条 服务器故障应急预案如下:
1、机房管理人员每日检查机房内各服务器状态。
2、定期备份数据服务器数据。并将备份资料拷贝到移动设备。服务器出现严重硬件故障时启用备用服务器以保障正常运转。
【机房应急预案】相关文章:
机房应急预案10-08
机房防汛应急预案06-04
机房火灾应急预案10-04
机房火灾消防的应急预案11-13
机房应急预案通用15篇03-26
应急预案04-10
应急预案06-13
综合应急预案和专项应急预案09-27
应急物资储备应急预案01-14