运维应急方案
文件状态: [√] 草稿 [ ] 正在修改 [ ] 正式发布
文件标识: 当前版本: 1.0 作 者: 完成日期:
,2006 第1页/共8页
运维中心 运维中心工作规范 文档编号 目 录
1 2 3 4
前言 ................................................................................................................................ 3 目标 ................................................................................................................................ 3 组织结构 ........................................................................................................................ 3 应急预警 ........................................................................................................................ 3 4.1 4.2
应急预警级别 .................................................................................................. 3 应急预警处理流程 .......................................................................................... 5 4.2.1 一级预警处理 ........................................................................................... 5 4.2.2 二级预警处理 ........................................................................................... 5 4.2.3 三级预警处理 ........................................................................................... 6
5
附件 ................................................................................................................................ 8
5.1.1 故障报告单 ............................................................................................... 8
,2006 第2页/共8页
运维中心 运维中心工作规范 文档编号 1 前言
重庆眯客信息技术有限公司运维支持部负责公司业务系统运行维护工作。
为了保障公司因业务系统的安全、平稳运行,运维支持部特此指定运维应急方案,通过此方案来保证系统的安全。
2 目标
保障公司服务器的正常运行、网络的畅通。 严格岗位制度、明确工作职责,规范工作流程。 工作规范化,制度化,加强文档管理力度。
3 组织结构
根据运维工作的范围和性质,下设三个小组:
系统维护组
应用维护组 技术值班组
4 应急预警
4.1 应急预警级别
预警级别 预警标志 警报内容 预警级别介绍 ,2006 第3页/共8页
运维中心 运维中心工作规范 文档编号 网络流量升高 主机性能降低 数据备份出现异常 一级预警 异地备份出现异常 系统的正常运某台工作站出现病毒 监控软件出现故障 网络中断或网络设备异常 二级预警表示转。 一级预警表示系统出现故障,但不影响运维主机、阵列和带库硬件出现系统出现故障,故障 二级预警 数据库相关故障 黑客入侵或病毒大面积发作 影响运维系统的正常运转,但运维工程师可以在短时间内进行故障排除。 网络防火墙宕机无法正常使用。 主机、阵列、带库宕机并无三级预警 法启动 数据库或数据仓库无法正常使用 三级预警表示系统出现故障,影响运维系统的正常运转,运维工程师不能在短时间内进行故障排除或,2006 第4页/共8页
运维中心 运维中心工作规范 文档编号 受到不可抗力或自然灾害的破坏。 无法排除。 4.2 应急预警处理流程
运维过程中出现重要故障或紧急情况时,按以下规定流程进行处理及汇报。在遇到故障时,及时汇报上级领导并采取措施及时解决,具体汇报流程如下:
4.2.1 一级预警处理
运维过程中,如果遇到一级预警,按以下流程进行处理:
1. 当通过监控或得知系统出现故障时,首先在最短的时间查看故障
点状态,并分析故障原因。
2. 运维工程师在排查出故障后,立即着手解决。 3. 在故障排除后,对所发生故障的设备进行事后跟踪。
4. 在故障排除后,运维工程师应对故障原因及解决办法进行详细说明。
4.2.2 二级预警处理
运维过程中,如果遇到二级预警,按以下流程进行处理:
1. 当通过监控或得知系统出现故障时,首先在最短的时间内查看故
障点状态,并分析故障原因。
,2006 第5页/共8页
运维中心 运维中心工作规范 文档编号 2. 立即报告给组长,运维小组长应通过电话或当面把故障报告相关部门领导,在故障完全排查清楚后以书面形式递交“故障报告单”。
3. 运维工程师在排查出故障后,如能够立即解决,则立刻解决故障,如需要设备厂商的技术人员到现场,应立即拨打技术厂商的技术工程师联系电话,请求立即到现场进行故障排除。
4. 在故障排除后,运维工程师应对故障原因及解决办法进行详细说明。
4.2.3 三级预警处理
运维过程中,如果遇到三级预警,按以下流程进行处理:
1. 当通过监控或得知系统出现故障时,首先在最短的时间查看故障
点状态,并分析故障原因。
2. 立即报告给运维中心主管人员,主管人员应通过电话或当面把故障报告给相关领导部门,在故障完全排查清楚后以书面形式递交“故障报告单”。
3. 运维工程师在排查出故障后,如能够立即解决,则立刻解决故障,如需要设备厂商的技术人员到现场,应立即拨打技术厂商的技术工程师联系电话,请求立即到现场进行故障排除。
4. 如果因硬件设备出现故障而无法修复,需要更换时,应报运维中心主管人员,主管人员办理硬件更换事宜。
,2006 第6页/共8页
运维中心 运维中心工作规范 文档编号 5. 在故障排除后,运维工程师应对故障原因及解决办法进行详细说明。
2006 第7页/共8页
, 运维中心 运维中心工作规范 文档编号 5 附件
5.1.1 故障报告单
文档编号:cq-imike-0001 故障报告单 报告人: 故障所属: □ 系统故障 □ 数据库系统故障 □ 网络设备故障 □ 其它应用软件系统故障 故障描述: 报告日期: □ 已解决 □ 未解决 解决方案: 审 核 人: 审核日期:
,2006 第8页/共8页
因篇幅问题不能全部显示,请点此查看更多更全内容