您的当前位置:首页正文

《数据中心建设与管理指南》

来源:九壹网
目 录

前言................................................................................................................................................................................... 3 第一章 数据中心发展现状与趋势 ................................................................................................................................. 4 1.1 国内数据中心现状 ................................................................................................................................................ 4 1.2 数据中心发展趋势 ................................................................................................................................................ 7 第二章 数据中心可持续发展能力 ............................................................................................................................... 10 2.1 什么是数据中心可持续发展能力 ...................................................................................................................... 11 2.2 数据中心的生命周期 .......................................................................................................................................... 11 2.3 数据中心可持续发展能力分析 .......................................................................................................................... 15 3.1 数据中心业务定位 .............................................................................................................................................. 29 3.2 数据中心建设规模 .............................................................................................................................................. 30 3.3 数据中心建设标准 .............................................................................................................................................. 31 3.4 数据中心指标体系 .............................................................................................................................................. 32 3.5 数据中心选址...................................................................................................................................................... 33 3.6 数据中心技术要求 .............................................................................................................................................. 35 第四章 数据中心的节能与能效评价 ........................................................................................................................... 43 4.1 数据中心的能耗审计 .......................................................................................................................................... 43 4.2 数据中心能耗测量指标 ...................................................................................................................................... 45 4.3 数据中心节能目标 .............................................................................................................................................. 52 4.4 节能技术方案举例 .............................................................................................................................................. 52 第五章 数据中心建设管理与测试验收 ....................................................................................................................... 58 5.1 数据中心业主方设计管理 .................................................................................................................................. 58 5.2 数据中心工程建设管理 ...................................................................................................................................... 62 5.3 数据中心建设施工测试与验收 .......................................................................................................................... 75 第六章 数据中心专业化运维和管理 ........................................................................................................................... 78 第6章 数据中心专业化运维 ................................................................................................................................... 78 6.2 数据中心运维管理框架 ...................................................................................................................................... 83 6.3 数据中心运维管理测量 .................................................................................................................................... 115 6.4 数据中心运维管理提升 .................................................................................................................................... 130 第七章 如何省钱?数据中心成本分析 ..................................................................................................................... 136 7.1 一次性投入成本分析 ........................................................................................................................................ 137

7.2 长期运营成本分析 ............................................................................................................................................ 138 7.3 数据中心建设及运营案例介绍 ........................................................................................................................ 140 第八章 数据中心的建设模式分析 ............................................................................................................................. 142 8.1 建设模式分析.................................................................................................................................................... 143 8.2 国内外数据中心建设模式现状及趋势 ............................................................................................................ 146 第九章 数据中心与信息系统灾难恢复 ..................................................................................................................... 147 9.1 数据中心是信息系统灾难恢复的载体 ............................................................................................................ 147 9.2 数据中心的灾难恢复策略 ................................................................................................................................ 148 9.3 灾备中心对数据中心的特殊要求 .................................................................................................................... 149 9.4 灾难恢复国家和行业标准规范 ........................................................................................................................ 154 第十章 企业级数据中心的评价体系 ......................................................................................................................... 155 10.1 企业级数据中心评价基本原则 ...................................................................................................................... 155 10.2 企业级数据中心评价方法论和指标体系 ...................................................................................................... 156

《数据中心建设与管理指南》

前言

数据中心是信息化社会的IT基础设施,作为机构信息系统的运行中心、测试中心和灾备中心,承担着机构的核心业务运营、信息资源服务、关键业务计算、数据存储和备份,以及确保业务连续性等重要任务。

数据中心是一个系统工程。在多年的探索和实践的过程中,我们积累了丰富的数据中心建设和管理经验,逐步形成了完整的科学体系。

本书从数据中心的六个基本要素和数据中心全生命周期的角度出发,详细阐述了企业级数据中心从建设规划到运维管理的全过程,涉及数据中心可持续发展能力、绿色节能新技术、建设管理、运维管理、成本分析、灾难恢复与业务连续性,以及企业级数据中心的评价体系等多方面内容。可以说,对于开展数据中心相关工作而言,本书具有较强的指导性和可操作性。 本书主要由以下10个部分组成:

1.数据中心发展现状及趋势:介绍了国内外数据中心的现状和困扰,新一代数据中心的发展趋势。 2.数据中心可持续发展能力:阐述了影响数据中心可持续发展能力的基本因素,提出了数据中心全生命周期的概念,并将此概念贯穿于数据中心的设计理念之中。

3.数据中心规划:从数据中心的业务定位、规模大小和选址原则等不同的角度出发,阐述了数据中心的规划思想和通用准则。

4.数据中心的节能:讨论了数据中心的能耗分布,数据中心能耗指标,并阐述了数据中心的节能目标和节能技术方案及案例。

5.数据中心建设管理:介绍了数据中心设计管理思想,数据中心工程建设管理,同时,对数据中心建设施工方法与验收等问题进行了深入探讨和分析。

6.数据中心专业化运维:介绍了数据中心运维管理思想和数据中心运维管理框架,讨论了数据中心运维管理成熟度的评估,以及数据中心运维管理能力的提升方法。

7.数据中心成本分析:介绍了新建数据中心或改建数据中心其一次性投入的成本构成,以及数据中心全生命周期长期运营的成本分析与案例。

8.数据中心建设模式分析:介绍了数据中心建设模式选择的主要要素和数据中心建设模式的比较。

9.数据中心与信息系统灾难恢复:讲述了数据中心灾难恢复概念及意义,数据中心的灾难恢复策略,灾备中心对数据中心的特殊要求,以及灾难恢复国家和行业标准规范。 10.企业级数据中心评价体系:讲述了企业级数据中心评价基本原则和方法论。

在本书的编写过程中,得到了众多“无名英雄”的大力支持和帮助,在此对他们表示特别的感谢!

第一章 数据中心发展现状与趋势

1.1 国内数据中心现状

1.1.1 信息化推动中国数据中心快速发展

信息化社会的根本特征,在于社会的生产、生活等各领域的活动,广泛通过网络化的信息系统来实现。各种社会活动能否正常开展,取决于相应的信息系统能否连续运行和有关数据是否真实完整。就我国当前的实际状况而言,社会活动的一些领域如果离开信息化手段,已不能正常运转。很多重要行业,信息化手段也成为其提高生产、管理、质量和效益的必备手段。我国已逐步步入信息化社会。 随着信息化社会的发展,机构的信息资源整合在加速,由此引发的数据中心需求在不断增长,我们看到数据中心已成为机构信息系统的物理载体和核心资源。

从20世纪末开始,国内金融、电信、税务、海关等行业纷纷将数据进行整合。目前,数据集中已经成为国内电子政务、企业信息化建设的主流趋势。数据集中是管理集约化的必然要求,是企业优化业务流程的必要手段。数据中心建设已成为数据集中趋势下的必然产物。数据中心是一个庞大的系统工程,它承担着计算、存储、应用等职能,数据中心将成为信息化建设的新热点和核心内容。 据计世资讯的调查,基于630个样本,国内真正建设成为数据中心的占14.4%,目前正在建设的有12%,大部分在规划阶段和没有建设计划。数据中心的投资规模,达到100万元人民币至500

万元人民币的有34%,500万元人民币至1000万元人民币的有11.7%,2000万元人民币以上的有9.6%。数据中心在我们国家的大规模建设刚刚起步,同时以很高的速度在增长。目前国内每年数据中心投入的增长率在20%以上。

在中国数据中心行业结构方面,电信、金融行业数据中心的建设较早,投入较大,应用相对成熟,目前这两大行业数据中心建设投入占据了50%以上的份额。2008年,在金融、电信、政府、企业等行业数据集中化管理的带动下,中国数据中心建设进一步加快,数据中心建设进入一个快速发展阶段。 随着信息技术的发展,近年来,无论是芯片、架构、系统还是软件都取得了很大进步,刀片系统、多核技术、虚拟化应用、冷却技术、智能管理软件等新技术层出不穷,对传统数据中心应用和管理带来极大地冲击;另一方面企业业务模式也发生了极大变革,急需建设新一代数据中心来适应这一变化。 赛迪顾问认为:展望未来5年的中国数据中心市场,中国经济环境的良好走向、IT应用建设的不断深入、产品技术的发展,以及市场日趋理智竞争等,都将使得中国下一代数据中心市场释放出新的活力。预计到2013年,中国下一代数据中心市场规模将超过977亿元人民币,2009至2013年的复合增长率将会达到24.5%。

1.1.2 现有数据中心存在的问题

数据中心作为机构信息系统的运行中心、测试中心和灾备中心,承担着机构的核心业务运营、信息资源服务、关键业务计算、数据存储和备份,以及确保业务连续性等重要任务。机构对数据中心的依赖性日渐加强,然而现实情况并不尽如人意,现有的数据中心普遍存在以下问题。 1. 数据中心的可靠性和可用性不足

数据大集中在节约整体成本、提高IT效率的同时,也对数据中心的可靠性和可用性提出了更高的需求。如果核心数据中心发生瘫痪,将造成机构的业务停顿,企业对数据中心基础设施和运行维护的要求更高。近几年,银行、保险、证券、民航等行业相继出现了一些数据中心故障,造成了很大的社会影响和经济损失,很多数据中心的可靠性和可用性令人担忧。

即使是灾备建设做得较好的电信、银行等行业,目前也只有少数企业初步实现了应用层面的灾难

备份策略,极少数企业真正实施过业务连续性计划的演练。整体来看,绝大多数企业在重大灾难面前对于快速实现灾难恢复和业务连续性计划缺乏具体的措施和对策。 2. 数据中心的可持续发展能力严重不足

随着IT技术的高速发展,新一代高密度服务器和存储设备不断涌现。伴随着业务扩展和信息化程度的提高,如今的数据中心已不再只是支持某些单一的应用或是日常的数据存储和计算功能,而是要为整个业务运营系统的正常运行提供支撑和服务。机构IT技术和业务发展对数据中心基础设施的等级标准和服务能力提出了更高的要求。Gartner公司预计,在未来的五年里,全球最大的1000家企业中,70%以上不得不对数据中心进行重大改造。

目前,大多数机构数据中心无法做到资源的灵活分配,而在资源共享、提高设备利用率等方面也不能完全实现。据统计,近半数以上的数据中心超过20%的服务器处于闲置状态或利用率极低。造成这种状况的根本原因是,传统的数据中心通常构建在各种独立的信息技术之上,各个系统之间无法相互通信。同时由于资源无法共享,致使服务器和存储系统的性能无法得到充分的利用。 3. 数据中心的专业化运维管理水平不高

目前的数据中心与以往相比,规模更为庞大,结构也更加复杂。传统的数据中心运维管理水平普遍较低、专业化程度不高,显然已无法适应机构对数据中心合规性、可用性、经济性和服务性的要求,严重影响到数据中心的生命周期。根据调查结果显示,绝大部分企业的数据中心管理都遭遇到了相当大的问题。引入IT服务管理国际标准(如ITIL信息技术基础架构库等),并初步实施的机构只占极小的比例。多数机构的数据中心管理表现一般,整体架构存在缺陷,效率低下。因此,如何改进和提高现有的管理手段以达到专业化运维管理水平,借助国际上成熟的理论和标准进一步加强风险控制成为当务之急。

4. 数据中心的能耗成本居高不下

目前,数据中心的能耗成本居高不下,并呈现急速上升之势。造成这种局面的因素有很多,例如服务器的利用率不高,数据中心的供电系统设计不合理等。国内不少数据中心的电力成本每年超过了千万元。2007年我国IT产品的总耗电约为300亿~500亿千瓦时,几乎相当于三峡电站一年的发电

总量。根据麦肯锡公司2008年最新研究表明,2007年全球数据中心的能源费用总额为86亿美元,预计2010年能源费用的总额将达到115亿美元。“绿色节能”已成为数据中心的主要诉求。 5. 数据中心的绩效评估困难

到目前为止,数据中心建设作为提升机构核心竞争力的手段已被更多的企业决策者们所认同,但是绩效评估现状多少有些令人沮丧。少则千万、多则上亿元的资金投入并没有在财务绩效方面有显著的改善和提升,有些企业反而陷入了无休止的系统维护升级和资金被迫不断投入的窘境之中。 数据中心全生命周期战略绩效的评估是让企业决策者们能够全面、准确地认识企业IT绩效的关键所在。企业的IT建设最终是通过对企业业务的促进来实现其绩效评估的,因此,数据中心的绩效评估不仅重视财务数据的评估,还应当从过程、创新、用户满意度以及短期和长期效益等多个层面进行全面评估,并且从数据中心可持续发展的角度来分析IT建设对机构运营的战略影响。

1.2 数据中心发展趋势

1.2.1 数据中心发展历程

从业务功能上划分,在数据中心基础设施的基础上,结合不同的应用需求,具有数据处理、灾难备份、网络服务、开发测试、用户支持等功能。从数据中心功能变迁进化的角度,数据中心经历了三种形态的发展,即计算中心、信息中心和服务中心。

1. 计算中心,即数据存储和简单计算阶段,出现于20世纪60年代

最初,数据中心通常被称为计算中心,在称为“机房”的空间中放置一个或多个服务器,其主要功能是数据存储(或称:数据存放)和简单计算,存储数据的介质主要有磁鼓、磁带和磁盘。其主要特点是:功能单一,仅仅用于数据或电子文档的集中存放和管理。

这一阶段的“机房”缺乏建设标准;采用稳压器供电,缺乏供电安全措施;采用风道送风,无精密的温湿度控制系统。IT设备普遍使用16位以下微型计算机或计算能力百万次量级的大中型或小型计算机。需要说明的是,在此阶段,某些特殊领域“机房”的设备设施已超越“数据存储和简单计算”阶段。例如,核武器研制、航天器研制等领域。

2. 信息中心,即数据处理及业务应用阶段,出现于20世纪80年代

该阶段数据中心大多被称为“信息中心”。其功能有了较大的扩展,数据存储能力大幅提高;基于网络通信技术和数据开发利用技术的MIS(管理信息系统)、Call Center(呼叫中心)、MRP Ⅱ(制造资源计划管理系统)、CRM(客户关系管理系统)、ERP(企业资源计划管理系统)等应用系统开始普及,数据中心开始承担核心计算、数据存储备份和业务支撑等功能,以满足机构业务发展的需要。数据中心的可用性有较大的提高。在该阶段,数据中心的重要性逐渐显现,对某些行业(如金融行业)而言,数据中心已成为必不可少的业务支撑平台。

这一阶段的“机房”有了针对性的标准和规范;供电系统也在不断完善,引入并大量使用UPS;开始配备综合监控系统;数据中心制冷从集中冷却逐步发展到大量采用恒温恒湿的专用空调;采用新风系统和机房正压防尘。计算机的计算能力达到千亿次量级,并逐渐小型化,服务器成为数据中心设备主体;网络设备进入数据中心并大量应用,多台服务器联网使用。 3. 服务中心,即服务性数据中心阶段,出现于21世纪初

随着信息化建设的不断深入,机构对信息系统和数据完整性的依赖程度越来越高。机构对数据中心的可用性和服务性的要求更高,IT服务管理成为一种标准化的工作,并借助IT技术实现集中的自动化管理;同时IT绩效成为IT服务管理工作的一部分,IT服务质量成为关注重点。在这个阶段,数据中心不仅是成本中心,更是机构信息化的服务中心。该阶段数据中心除承担核心计算、数据存储及备份外,开始承担机构的核心业务运营支撑、信息资源服务及业务连续性管理等功能。 1.2.2 新一代数据中心的发展趋势

新一代数据中心与传统数据中心有着几方面差异:首先,现有的数据中心基本上是基于比较低的标准进行建设的;其次,原来机构往往把数据中心建设工作看成是一个装修工程,新一代数据中心则是把数据中心建设看成一个系统工程,而且主要是关于机电设施建设的系统工程,它不仅要有一个足够强壮的供电系统、制冷系统以及动态分配系统,还能满足IT高可用性、高连续性、高灵活性要求。 对于新一代数据中心,目前国内外均没有统一和权威的定义,各厂商从自身的发展策略和产品线出发,提出了各自的看法。国际上普遍认为新一代数据中心必须具备如下几个基本特征:虚拟化、整合、绿色节能、安全、自动化、性能优化等,也就是说,只有符合这些特点的数据中心,才能够称之

为新一代数据中心。我们认为,新一代数据中心应当具备如下特点。 1. 灵活性

灵活性是新一代数据中心的重要指标之一,同时也是机构业务变更过程中的必然需求。机构在扩展、增加业务时,必然要对IT资源做出动态调整。业务增加时资源不能及时提供,或者业务减少时资源不能及时收回,都会对机构运营带来不良影响。

虚拟化技术是实现业务灵活性的重要手段,使用较少的硬件和电力能耗,而能实现更大处理能力。大量的机构为了资源整合采用了虚拟化产品,这些产品能够使虚拟化应用扩展到服务器以外的领域,包括存储和网络设备。 2. 绿色节能

能耗是数据中心主要的运维成本,建设绿色数据中心,可以达到节省运维成本、提高数据中心容量、提高电源系统的可靠性及可扩展的灵活性等效果。理想状态下,通过虚拟化、刀片服务器、水冷方式等多种降耗方式,在满足同等IT设备供电情况下,绿色数据中心可以降低空调能耗20%~45%。因此,绿色数据中心是新一代数据中心发展的重要方向之一。至于如何实现数据中心的绿色环保,从芯片、服务器、存储到网络设备厂商,甚至是软件厂商,都在通过更优化的设计,力图在提升产品性能的同时,推出更为节能的产品,以帮助数据中心实现节能降耗。服务商可以从数据中心生命周期的角度,从建设到运维,全面实施绿色节能策略。 3. 模块化

新一代数据中心应当具备模块化的特征,这些模块是基于标准的,能够被灵活地采购和获取,具有极高的安全特性,尤其重要的是应该采用面向服务的架构,从而使机构可以更加灵活、动态地部署新业务和应用。

数据中心采用模块化方式构建将更灵活,更适应未来数据中心发展的需要。我们完全没有必要再将数据中心看成一个单一整体,我们可以将数据中心按应用、服务类型和资源耗费率将数据中心分成多个功能区域。各个功能区域在不影响其他区域运行的情况下,可以动态升级和维护。比如,按照密度可以分为高密度区和普通密度区,在高密度区,地板承重、冷却系统及电源供给配置都更高,可以

满足更高要求的数据中心服务需求。当然,还有很多其他分类方式,比如,按照应用类型,可以将数据中心分为运行中心、测试中心、灾备中心等独立区域。 4. 整合

整合是新一代数据中心领域需关注的重要管理手段。机构可以通过重新设置服务器,提高服务器利用效率或者采用新型刀片服务器等多种方式提升数据中心的利用效率。机构也可以通过采用虚拟化技术及关闭高能耗、低效率数据中心等手段整合数据中心资源。 5. 自动化

新一代数据中心应当具备快速服务交付能力,实现可视性、可控性的自动化管理;同时,能够提供更高的效率、更经济的成本和更快的响应速度,使机构能够轻松应对服务变化和发展的需要。在新一代数据中心中,需要自动化管理工具对大量和复杂的IT管理任务进行智能化和自动化的部署。新一代自动化管理技术将涵盖桌面设备、服务器、网络、存储与备份等平台设备,减少人工干预,从而有效避免人为错误导致的断电和其他问题的发生。 6. 稳定和安全

早期的数据中心基础设施无法从中断事故中快速恢复,同时,网络攻击和网络病毒给数据中心的安全制造了诸多的麻烦。系统稳定和安全必将成为新一代数据中心的基本属性。虚拟化技术在系统的可靠性方面扮演着越来越重要的角色,它能够整合各种异构的资源。当某个系统出现故障时,可以实现动态迁移,从而保障应用的不中断运行。 7. 虚拟化和云计算

新一代数据中心应该具备虚拟化的特征,虚拟化将打破IT用户和IT资源之间的束缚,让复杂的系统简化。虚拟化是影响新一代数据中心发展的重要技术之一。虚拟化的优势在于有效地提高了数据中心的利用效率,降低了投资成本,整合、优化了现有服务器的资源和性能,可以灵活、动态地满足业务发展的需要。虚拟化让数据中心所承载的基础设施资源可以像水、像电一样随意取用。与虚拟化紧密相连的商业模式是云计算,云计算的核心就是虚拟化资源共享。

第二章 数据中心可持续发展能力

2.1 什么是数据中心可持续发展能力

一个数据中心的可持续发展能力主要是指保持数据中心的可持续状态,满足数据中心全生命周期内正常使用的能力。其本质概括起来主要包括数据中心的合规性、高可靠性、高可用性、功能性、经济性和可服务性这六个要素。如果这些要素受到某些限制或者考虑不全,必然就会导致数据中心的可持续发展能力大幅降低,其结果将极大缩短数据中心的生命周期。

一般来说,缺乏可持续发展规划的数据中心在运行两三年之后就会开始出现问题,到五六年时会有较多的问题集中爆发。为避免出现这种现象,在数据中心建设规划之前,就必须对数据中心全生命周期进行全面的了解,以可持续发展的眼光对六个要素和未来业务发展趋势等方面进行深入研究,并在设计阶段充分落实数据中心可持续发展的设计理念。

2.2 数据中心的生命周期

2.2.1. 数据中心项目全生命周期 1. 数据中心全生命周期的阶段划分

数据中心全生命周期,是指从建设意图产生到数据中心经济寿命结束的全过程。通常分为决策期、实施期和生产运维期,每一个时期又分为若干阶段。具体如图2-1所示。

图2-1 数据中心全生命周期

(1) 数据中心项目的决策期,是指从建设项目意图的产生到对建设项目进行科学论证并进行项目

决策的全过程。具体包括对项目的业务定位、建设规模、建设标准、市场前景等方面进行研究分析,对拟建项目可行性研究做出判断和决定的过程。

(2) 数据中心项目的实施期,是指从项目的规划设计开始到项目基本建设完成并竣工验收移交的全过程。

(3) 数据中心项目的生产运维期,是指项目基本建设完成后,从项目投入使用直到项目经济寿命结束的全过程。

2. 数据中心基本建设周期

大型数据中心是一个专业化建筑,不同于一般的建筑物,其建设标准比一般写字楼、商业楼、厂房等高出很多。特别是在项目的全生命周期中,其机电部分的投入基本是土建投入的3~4倍,项目投资非常巨大。因此,数据中心建设项目具有投资回收期长、技术变化大等特点。如果采用一次性投资完成整个数据中心建设项目,势必会造成资金的长期占用,资金成本大大增加,这无疑是很不经济的做法。特别是商业化的数据中心建设项目,其建设模式与市场销售、业务需求、技术发展密切相关。因此,数据中心建设项目,必须考虑其全生命周期的经济性。通常采用分期、分阶段实施,达到先期基本建设完成、后期随需而建的目标。这就使得数据中心建设项目在其全生命周期内变得更加漫长而复杂,不仅如此,在后续生产运营期,还会不断进行扩容、更新和改造等工作。

为了更好地区分各个建设阶段,我们引入“数据中心基本建设周期”概念,是指:自项目开始至项目基本建设完成并达到预先规划要求,数据中心可以提供正常运营使用为止的一个周期。这也就是建设项目决策期和实施期的内容,不包含后期数据中心生产运营期内的扩容、更新和改造等内容。 根据项目建设的实际情况,通常将数据中心的基本建设周期细分为决策阶段、实施准备阶段、实施阶段和投产竣工阶段,如图2-2所示。各阶段的主要工作内容如下:

(1) 决策阶段:包括数据中心项目的初步可行性研究以及可行性研究,确定数据中心的投资估算。 (2) 实施准备阶段:包括数据中心建设工程的规划设计和实施准备。 (3) 实施阶段:包括数据中心的设备采购和供应、施工安装和生产准备。 (4) 投产竣工阶段:包括数据中心设备的调试、试运行和竣工验收移交。

图2-2 数据中心基本建设周期 3. 数据中心生产运维期

数据中心建设项目的生产运维期,是指项目交付使用到项目经济寿命结束的全过程,也就是项目进行生产运维活动,收回投资,实现预期投资目标的周期。由于数据中心自身的运维特点,其生产运维期与一般项目相比有很大的差别。主要体现在,为了能够更好地满足企业业务需求的不断变化,同时保持数据中心可持续发展能力,数据中心运维期会有较为频繁的扩充、扩容和更新改造等项目活动。因此,数据中心项目生产运维期的工作内容主要包括:后续项目的评价和后期数据中心的扩容、更新、改造等,其中数据中心的扩容、更新、改造又包括决策期、实施期两个阶段,并且这一过程在整个生产运维期内将不断循环直至数据中心不能满足使用要求,即数据中心的经济寿命结束。数据中心生产运维期如图2-3所示。

2.2.2. 数据中心全生命周期预测分析

数据中心生命周期指标应当确定为多少年限比较合理?这个问题一直困扰着CIO们,目前还没有答案。但是生命周期指标意义重大,它不仅关系到投资建设项目的财务分析和经济性分析,更关系到投资建设项目的决策。对于商业化数据中心,投资回收期、投资收益率是投资决策所关注的重点问题。如果在项目决策阶段对数据中心生命周期指标没有一个全面的了解和认知,将无法进行投资回收期和

投资收益率的分析,进而无法进行准确、科学的财务分析和经济性分析,最终导致项目决策的失误。因此,对数据中心全生命周期的预测分析就变得尤为重要。

影响数据中心全生命周期的因素众多,例如,从外围建筑、内部的主要机电设备到IT设备都有各自不同的生命周期。具体可参考财务制度中固定资产的折旧年限有关规定,并结合数据中心业务的运维特点而定。固定资产的折旧年限参见表2-1。 表2-1 固定资产折旧年限参考一览表

根据数据中心业务的运维特点,数据中心的生命周期主要是由房屋建筑物和主要设备本身的折旧年限、IT设备及新技术发展、客户需求和经济性等综合因素所决定的。

首先,从建筑种类来说,数据中心生产运维的空间场所归属于生产用房,最大经济寿命约为30~40年,但是建筑的承重、空间结构能否满足未来30~40年数据中心技术发展的需求呢?数据中心的建设标准比一般建筑会更高,但作为专业化和商业化的建筑,根据美国、日本等多家数据中心运营商的经验,将30年作为数据中心生命周期指标是一个比较合理的数值。在这个生命周期中,对其建筑和结构的变化要求都不是很大。如果初期按照高标准的要求来规划设计,例如按照TIA-942 Tier4等级标准建立的数据中心建筑,在生命周期内,建筑物结构,包括楼层高度、楼板的承重、功能空间等方面基本上不会有太大风险。

其次,数据中心主要服务的对象是IT系统。在其30~40年的生命周期中,IT系统的变革却非常大,IT系统可能已经经历了多个生命周期。IT技术的变革同时也带动了关键基础设施技术的不断变化,因此,还要关注这些关键基础设施的生命周期。这些关键基础设施的生命周期是由其折旧年限、新技术发展、IT技术需求和经济性等多方面的因素所决定的。其中新技术的发展是数据中心关键基

础设施更新换代,周期缩短的主要原因,这将取决于新技术的可行性、经济性和它对整个业务系统的支持力度。从国外运营商多年的经验来看,关键基础设施的经济寿命大约为10~15年,通常在正常运行3~5年后就需要开始启动下一轮的更新换代。但是可以看到,这个更新换代的过程不是一下完成的,通常是从周边系统开始慢慢替换,然后在4~5年的过程中慢慢实现的。这就要求在初期设计规划整个系统容量时,充分考虑到后期业务增长的要求,以及容量达到限制后如何更新和更换等问题,见表2-2。

表2-2 数据中心生命周期总结表

2.3 数据中心可持续发展能力分析

数据中心作为信息系统的基础设施,其可用性、可靠性和可服务性等问题逐步受到重视,其可持

续发展能力已成为政府机构、企业业务持续运行的重要决定因素。为了适应政府机构、企业组织未来的发展,数据中心是否具有可持续发展能力就显得尤为重要。在各系统的设计和实施中,必须充分考虑系统的可持续发展问题。

2.3.1. 数据中心可持续发展影响因素

目前,那些缺乏可持续发展能力的数据中心已暴露出了较多的问题,例如供电能力不足、无法实现在线扩容、机房送回风不顺畅产生局部热点、数据中心能耗巨大等。这些问题直接影响数据中心的可用性和可靠性,大大缩短了数据中心的正常生命周期。

为避免重蹈覆辙,我们必须了解影响数据中心可持续发展能力的因素是什么。通过对国内大型企业数据中心的调查发现,可持续发展能力普遍存在不足,主要表现在以下几个方面: (1) 初期资源规划考虑不周、缺乏业务可持续性资源计划考虑。 (2) 数据中心机房功能性差,缺乏全局规划,规划布局不合理。 (3) 建筑层高过低、结构承载能力不足,严重制约空间利用。 (4) 供电设计密度低,系统可靠性差,不能在线扩容。 (5) 系统设计缺乏经济性考虑,日常运行能耗大、营运成本高。 (6) 运维管理缺乏长期性、稳定性及适应性的考量,易出现管理混乱。

由此可以看出,影响数据中心可持续发展能力的因素有许多,涉及数据中心建设项目的各个方面。这些因素归纳起来包括合规性、可用性、可靠性、功能性、经济性和可服务性这六个方面。因此,研究数据中心可持续发展能力,必须从上述因素出发,从整个生命周期着手。生命周期内的各个阶段是一个有机的整体,任何阶段或环节出现问题都会导致数据中心可持续发展能力的丧失。 2.3.2. 数据中心可持续发展评价

前面阐述了数据中心可持续发展能力的概念和六大影响因素。本章节将结合这些因素,从宏观上全面评价什么样的数据中心才具有可持续发展能力。 1. 数据中心的合规性评价

数据中心的合规性,是指数据中心的规划、设计和建设必须符合国家相关产业政策;符合现行国

家、行业及地方相关标准和规范;符合当地政府机构的规划要求。

从表面看,数据中心的合规性与可持续发展能力之间似乎没有直接关系,但恰恰相反,它是评价一个数据中心是否具有可持续发展能力的首要因素。规范是对相关群体确立的行为标准;而标准是对重复性事物和概念所做的统一规定。它是经由有关方面专家、学者协商一致,综合相关科学技术和实践经验,并由主管机构批准,以特定的形式发布等一系列严格的程序而产生的,是相关业者共同遵守的准则和依据。因此,数据中心建设、运维不合规,就会导致数据中心的安全性受到威胁。对商业化数据中心而言,还会影响客户对数据中心的信心及业务的持续发展。

数据中心的合规性涉及面非常广泛,也比较复杂。应当如何对一个数据中心的合规性进行合理的评价呢?数据中心的合规性主要从法律法规、职业安全及行业规范三大方面进行评价,而行业规范的合规性又主要从设备物理安全要求、环境物理安全要求两个方面进行。表2-3结合国内外相关标准和众多数据中心的实际运维经验,在保证数据中心安全、可靠运行基础上,再结合数据中心运维的经济性,总结了适用范围较广、涉及用户最多的数据中心合规性检查和评价要点,供广大读者参考。 表2-3 数据中心合规性评价表

2. 数据中心的功能性评价

数据中心的功能性,是指满足数据中心正常运营使用功能和服务流程所需要的某些重要特性。数据中心的功能主要是为IT系统提供可靠运行的服务支撑平台,为IT设备提供一个安全、可靠的运行环境。如果离开数据中心的功能性要求而去谈论数据中心的可持续发展能力只能是句空话。 功能性良好的数据中心应当在规划设计阶段就对其功能性进行充分的分析和考虑。建筑空间规划设计、功能区规划设计是数据中心功能性评价的核心。也可以说,数据中心的功能性评价主要评估其建筑空间规划设计和功能区规划设计是否符合使用功能和服务流程的要求,见表2-4。 表2-4 数据中心功能性评价表

3. 数据中心的可用性评价

数据中心的可用性,是指数据中心在其整个生命周期内,并在外部资源能够充分得到满足的前提

下,既保持业务的连续性,又具有较高的灵活性,满足按需建设、后期升级扩容等要求。而在外部资源有限的情况下,则能够做到资源的合理使用,并确保数据中心的可靠性、可维护性等不受影响。那么应当如何去评价一个数据中心的可用性呢?主要从以下几个方面去考虑,见表2-5。 表2-5 数据中心可用性评价表

1) 数据中心资源或能力的利用与扩充

数据中心在生命周期的各个阶段都离不开资源或能力,各种资源或能力的持续可用性,以及资源利用的合理性将直接关系到数据中心的可用性。这些资源或能力主要包括配电力资源、制冷能力、水资源、通信网络资源、建筑场地空间、建筑承载能力等。因此,评价一个数据中心的可用性必须首先对其所需的资源或能力进行评价。资源的可用性除了依靠外界的持续供应保证外,更主要的是如何合理利用资源,资源的合理利用会大大提高资源的可用性,从而保证数据中心的可用性。从这个角度来说,数据中心的灵活性、扩展性、适应性、高弹性和可改造性可以称得上是数据中心的无形资源。因此,这些无形资源也是评价一个数据中心可用性的重要因素。 2) 灵活性、扩展性

没有人愿意看到自己的数据中心出现电力或生产能力不足的情况。因此,为了满足将来动态业务的需求,在规划设计阶段,CIO们必须预测5年或10年之后的电力和冷却的需求。各系统在产品选型和设计上都应具有一定的超前性并留有充裕的扩容空间,而且系统实施方案也应具有扩展性和灵活性。确保设计的灵活性和易于升级,对于数据中心的可持续发展能力来说是至关重要的。 3) 适应性、弹性

在高可用性数据中心建设中同样需要关注系统的适应性和弹性,即数据中心各系统应首先满足普遍的业务需求,同时也可以做到随着业务的扩大或变化,所需资源能够不断得到补充,最大限度地减少建设初期(或一次性)投资,做到边成长边投资,减少资金成本,提高资金使用效率。而且还可以降低一次性投资中决策失败的风险。例如,数据中心需要考虑冗余等级、功率密度等要求,以满足不同业务用途的需要。 4) 未来可改造性

随着IT技术的发展,数据中心的生命周期也会受其影响而逐渐缩短。如果数据中心具有一定的可改造性,能够与IT技术发展相适应,就能延长数据中心的生命周期,实现数据中心的可持续发展。数据中心的可改造性评价可从以下两个方面进行:

(1) 改造的经济可行性,是指改造过程中的追加投资成本效益分析,即评价改造时追加投资与项目产出比,并由此作为决策的依据之一。对数据中心的改造再应用也是延长数据中心生命周期、提高

资源利用率、降低成本的有效措施。若想提高数据中心的可持续发展能力,必须降低改造成本,使改造更具经济可行性。

(2) 改造的技术可行性,是指对原项目进行改造的技术支持度、改造实现的可能性、改造后运营的安全性和可靠性评价。改造的技术可行性与技术先进性相辅相成。只有采用先进的技术,并且所用技术能够支持以后的改造,才能真正延长数据中心的生命周期,为持续发展创造条件。 4. 数据中心的可靠性评价

通常所说的可靠性是指在规定环境条件下、在规定的时间内完成规定功能的能力。数据中心的可靠性是看基础设施的无故障工作时间。无故障工作时间越长,可靠性就越高。高可靠性设计是数据中心可持续发展不可缺少的组成部分。若想确保数据中心能够为客户提供连续性服务,也必须具有高可靠性。一个数据中心的高可靠性,在满足了合规性评价后,还要从供电、空调、弱电通信安全、消防安全、基础设施产品性能等方面来评价(见表2-6)。 表2-6 数据中心可靠性评价表

5. 数据中心的经济性评价

数据中心的经济性,是指在保证功能性、可用性和可靠性的前提下,以最低的运行维护费用获得最大的经济效益。经济性评价主要是针对数据中心生命周期的经济效益进行评价,即评价数据中心生命周期内的投入与产出状况。数据中心的可持续发展追求在整个生命周期中达到最佳的经济效益,使数据中心设计、建设、运营全过程中投入与产出的比例最佳。显然,提高数据中心的经济性,最主要的就是降低数据中心的TCO,即减少数据中心的建设投入成本和降低后期运营成本。在数据中心TCO中,运营成本所占比重比建设成本大得多。如果运营投入过高,可能会使数据中心入不敷出,最终导致投资失败。

若要减少数据中心的建设成本,必须在各系统设计、设备配置和材料选择过程中,本着经济、实用、合理的原则,进行多方面的反复调研和论证,使各系统在保证可靠性和先进性的同时具有良好的

性价比;另一方面,随着供电密度的不断提升,数据中心的能耗支出占运营成本的比重越来越大。因此,降低数据中心运营成本最重要的环节就是降低能耗支出;其次就是提高设施监控水平,提高维护管理的工作质量和效率,节省维护成本和人员成本。所以,评价能源的利用效率,是否具有合理的节能措施就显得十分重要。

综合以上分析,TCO和电能使用效率(PUE)是评价数据中心经济性的主要指标。 6. 数据中心的可服务性评价

数据中心的可服务性,是指其可以提供多元化、高效率、专业化、可持续的服务能力。主要体现在可维护性、服务可控性和运营服务能力三个方面。

(1) 可维护性是对运营期间维修和维护难易程度的度量。数据中心的可维护性是可持续发展的前提和保障。数据中心在投入正常运行之后,便开始进入系统运行和系统维护阶段。系统维护的目的是要保证数据中心正常而可靠地运行,并能使系统不断得到改善。系统维护是指有计划、有组织地对系统进行必要的改动,以保证系统中的各个要素随着环境的变化始终处于最新的和正确的工作状态。影响可维护性的主要因素是:对数据中心关键基础设施和系统的可理解性、可预见性、可修改性。这三个因素密切相关,只有正确理解各系统,才能进行恰当的修改;只有具备准确的可预见的目标,才能保证修改的正确。提高数据中心的可维护性要从最初的需求分析与设计开始,直至建设实施的全过程。如果进入维护阶段再来评价和关注,就为时己晚。

(2) 服务可控性是指用户对数据中心所提供的服务在业务种类、服务内容上有决定权,对服务实施过程及质量有不断修正和完善的能力。研究服务可控性的目的在于科学制定服务项目、理性承诺服务质量、提升数据中心服务体系的管理能力。 第三章 数据中心规划与技术要求

3.1 数据中心业务定位

数据中心按其运营模式可划分为自用型数据中心、商业化数据中心两种;按其业务性质和用途则可分为:IT生产中心、IT开发和测试中心、灾难备份中心和网络服务中心等。数据中心还可根据其客户类型、业务领域等进行细分,例如,高性能计算中心、互联网数据中心、企业数据中心、政府机

构级数据中心等。

不同业务定位的数据中心有不同的特点和要求,在规划建设上也不尽相同,为了能最大限度地满足业务需求,在数据中心的前期规划阶段就必须对其进行明确的定位,包括类型和用途等。通常,不同行业、不同领域数据中心的等级都会有所不同,可参考表3-1。

对于自用型数据中心来说,其业务用途一般都会有比较明确的定位。而对于商业化数据中心来说,数据中心作为一种产品,其生命力在于适应市场潜在业务需求的能力,越符合市场需求就越有竞争力;面对的客户群越多越广泛,项目的风险就越小。因此,数据中心定位通常会覆盖所有业务。至于各种业务类型之间的比例如何,需要做大量的市场调研工作才能确定。 表3-1 数据中心的业务类型和等级

3.2 数据中心建设规模

数据中心建设规模是指在数据中心生命周期内,单位机柜拟提供支持和服务能力一定的情况下,可以容纳机柜数量的总规模。为了研究确定数据中心的建设规模,需要考虑多方面的问题,具体内容如下:

(1) 需要充分考虑企业的经济规模,即项目投入与预计产出比是否处于最优状态,资源和资金的

使用是否高效。根据数据中心项目建设的具体情况,可以采用先期基本建设一次建成,后期按需分步实施的策略。

(2) 确定拟建规模的可行性。重点考虑各方面的资源状况是否能够满足拟建规模的要求,主要包括:场地空间、能源供应、项目资金状况等。

(3) 需要充分考虑企业所在行业的现状和发展趋势。对于不同行业而言,在确定数据中心建设规模时应充分考虑各自的行业因素。

(4) 对于改造项目,在保持项目可用性和可靠性的前提下,应充分考虑原有设备和设施的有效利用。

在充分考虑了以上因素后,对未来数据中心机架的数量进行适当的预估,结合单位机架平均占地面积(含设备通道)的经验值(通常约2.5平方米/机架),初步确定数据中心机房的面积需求。同时根据未来数据中心的供电密度和冗余等级对其需要提供的配电设施和空调设施区域面积做出合理的预估,最终确定数据中心的建设规模。

3.3 数据中心建设标准

数据中心建设标准的高低不但直接影响到项目的投资规模,还影响到数据中心机房的可使用率。只有确立基本的建设标准,才能对项目的投资规模进行合理估算,而投资估算是项目决策的依据之一,也是项目经济性评价的基础。相同建筑面积的数据中心,由于建设等级标准的不同,往往会导致数据中心机房有效使用面积产生较大的差异。这里所说的数据中心机房有效使用面积,是指机架设备面积、机房过道以及冷、热通道面积的总和。因此,确定数据中心的建设等级标准是项目决策阶段不可缺少的内容。在数据中心建设等级标准的选择上,应在满足数据中心使用功能要求和可靠性的前提下,重点解决好以下问题:

(1) 应符合国家现行的数据中心相关专业规范和标准要求。

(2) 应满足运营管理所需环境条件要求,例如,对室内外环境、气、水、动力供应、交通流线、货物运输和设备装卸等方面的要求。

(3) 应满足数据中心生产工艺的特殊要求,例如,对空气、水、气体洁净度、抗震、防火、防爆

等方面的要求。

(4) 应适应新一代数据中心的特点和管理需要,配置必要的信息化和智能化设施等。

3.4 数据中心指标体系

建设等级标准明确后,最重要的工作是要确立数据中心的关键性指标体系,包括场地建筑资源、配电资源、空调资源、网络资源、资源使用和资源管理等方面,主要指标内容如下:

(1) 场地建筑资源方面:包括结构安全等级、结构抗震等级、建筑耐火等级、建筑承重、楼层高度、架空地板高度、室内净高和回风空间高度等。

(2) 配电资源方面:包括供电等级、总供电容量、供电密度、系统设备冗余等级、发电机持续供电能力和UPS后备时间等。

(3) 空调资源方面:包括供冷密度、换气次数、设备供电等级和系统设备冗余等级等。 (4) 网络资源方面:包括网络接入容量、网络接入运营商数量和网络路径冗余等。 (5) 资源使用方面:包括数据中心总能耗、供电系统使用效率和空调系统的制冷效率等。 对于上述指标可参考国家《电子信息系统机房设计规范》(GB50174—2008)或《数据中心电信基础设施标准》(ANSI-TIA-942-2005)进行确定。下面列举了国外相关等级标准的部分基础设施指标,见表3-2。

表3-2 部分基础设施标准指标举例

3.5 数据中心选址

数据中心建设规划具有投资大、时间长和专业性强等特点,而数据中心的选址作为一项重要的基础性工作,越来越引起企业的高度重视。数据中心选址关系到业务系统运行的连续性及数据中心发展

的可持续性。选址恰当对于加强风险管理,提高市场竞争力具有重要意义。

数据中心选址必须坚持实事求是和综合评价的原则,充分发挥各方面的积极性,利用多种渠道获得相关资料,科学客观地开展数据中心选址工作。

数据中心选址涉及的要素很多,但最核心和最基础的要素包括:自然环境、成本因素和地域配套条件。下面重点介绍数据中心选址评估的主要要素体系(见表3-3),该体系能够有效地帮助企业开展选址工作。

表3-3 数据中心选址评估要素体系

3.6 数据中心技术要求

在明确了数据中心业务定位、建设规模、建设标准、指标体系,并完成选址工作后,下一步就需要对数据中心的技术要求做出明确标定。这个技术要求是对数据中心规划设计过程涉及的各专业系统做出详细具体的规定。一般来说,技术要求是在参考已有各类相关标准和规范的基础上,结合企业自身的实际情况而制定的。可供参考的国内外主要标准和规范如下所述。 1. 国内标准和规范

(1) 《电子信息系统机房设计规范》(GB50174—2008) (2) 《电子信息系统机房施工及验收规范》(GB50462—2008) (3) 《建筑物电子信息系统防雷技术规范》(GB50343—2004) (4) 《电子计算机场地通用规范》(GB/T2887—2000)

(5) 《计算站场地安全要求》(GB9361—88)

(6) 《气体灭火系统施工及验收规范》(GB50263—2007) (7) 《综合布线工程设计规范》(GB50311—2007) (8) 《综合布线系统工程验收规范》(GB50312—2007) (9) 《入侵报警系统工程设计规范》(GB50394—2007) (10) 《视频安防监控系统设计规范》(GB50395—2007) (11) 《出入口控制系统工程设计规范》(GB50396—2007) (12) 《气体灭火系统设计规范》(GB50370—2005) (13) 《安全防范工程技术规范》(GB50348—2004) (14) 《火灾自动报警系统设计规范》(GB50116—98)

(15) 《信息技术 安全技术 信息安全管理体系要求》(GB/T22080—2008) (16) 《信息安全技术 信息系统安全等级保护基本要求》(GB/T22239—2008) (17) 《信息安全技术 信息系统灾难恢复规范》(GB/T20988—2007) 2. 国外资料

(1) 《数据中心电信基础设施标准》(ANSI-TIA-942-2005) (2) Tier Classification White Paper(Up Time Institude) (3) 国际综合布线标准(EIA/TIA 568) (4) 美国LEED™绿色建筑认证标准

(5) 《业务连续性/灾难恢复(BC/DR)服务提供商新加坡标准》(SS507∶2004) (6) 《信息安全管理体系》(ISO27001) (7) 《业务连续性管理规范》(BS25999)

对以上相关标准进行研究和分析后,结合数据中心的建设、运营的特点和以往的实践经验,可以得出数据中心建设的技术要求,内容包括:总体设计理念、总平面布置、建筑工程、供配电、空调暖通、消防与给排水和建筑智能化等。

3.6.1. 总体设计理念

数据中心的规划设计应当充分考虑未来的可持续发展能力,也就是说,既要满足当前发展的需求,又要考虑未来发展的需要。其规划设计要符合2.3.2节数据中心可持续发展评价中所阐述的合规性、可用性、可靠性、功能性、经济性和可服务性等理念的要求。 3.6.2. 总平面布置要求

对于较大规模的数据中心来说,总平面的布置首先要满足当地政府规划要求以及建筑、消防、人防、绿化、环保、节能、卫生、交通和安全等方面的要求。各项要求具体如下。 1. 总体布局

数据中心总体布局应充分考虑安全性要求,充分考虑人员进入的安检流程,确保在数据中心范围内的安全性和私密性。根据数据中心生产流程和安全管理的要求,合理划分生产、办公和生活等相互分隔且分别管理的功能区域。至少在园区设置两组出入口:一组用于人员和乘用车辆的日常通行,另一组则专门用于各类设备、燃料及其他物资的出入。 2. 交通组织

遵循人、货、车分流原则,合理设计人车通行和货物运输流线,做到功能明确、实现人货分流。园区货物运输主干道路宽度和转弯半径应充分考虑大型拖车的行驶需要。 3. 停车场与装卸区

分开设置外部访客与内部员工的停车区,停车区应与设备物资装卸区分开。每栋数据中心建筑至少应设置一个专用的设备装卸平台,装卸平台入口前方应设置足够大的货物装卸区,货物装卸区不应与道路共用。

4. 发电机与其燃油储藏区位置

应设置在远离公共区域的位置,与园区内、外道路和建筑物等的距离应符合国家规范和国内外数据中心相关标准要求。燃油储藏区应尽量接近发电机设置,发电机燃油储藏容量可根据建设等级标准确定。

5. 市政管网

充分了解上水、雨污水、燃气、供电和电信等市政管网布局,做出准确的室外综合管线图。在此基础上,对数据中心机房建筑与市政管线的对接进行合理规划。电信管网及其冗余线路、双回路供电线路等应考虑从不同方向路由进入数据中心园区。 3.6.3. 建筑工程要求 1. 建筑结构

(1) 建筑结构等级要求:数据中心建筑结构安全等级适宜为一级,机房建筑的防火等级应为一级,屋面防水等级应为一级。

(2) 抗震性能等级要求:数据中心的设备区、能源供应区等重要设施必须确保抗震性能,以便在规定设防等级内地震发生时,仍然能够维持设备功能,即使出现功能上的障碍也能够迅速恢复正常。抗震构造措施应在当地抗震要求基础上适当提高。

(3) 建筑荷载要求:数据中心机房按ANSI-TIA-942-2005中Tier3或更高要求考虑,其余建筑按其功能性要求或工艺要求设计。 2. 建筑设计

(1) 遵循经济实用、绿色节能的原则。

(2) 建筑外形不张扬(以不易引起外界关注为宜);四周外墙不应设置外窗;建筑外观和外立面装饰要求简洁大方,并体现绿色节能的特色。

(3) 数据中心建筑要有多个冗余出、入口;通常不设置大型地下停车场。

(4) 建筑外墙应当具有良好的保温和隔热性能。应着重避免出现结露现象(楼板、送风管道等),提高能源利用效率,减少能耗。 3. 空间布局

(1) “以设备为本,与运维管理流程相结合”是空间布局的原则。由里向外进行建筑空间设计,满足数据中心功能性要求。

(2) 体现可持续发展设计理念,强调高可用性,即按照模块化、标准化、灵活性、扩展性、高适应性和高弹性的使用要求进行空间布局设计。

(3) 按照重要性划分建筑空间,以便于实现安全措施的分级监控。空间布局设计必须满足未来运营中的设备定期检修、更换和退出等要求。

(4) 建筑净空:数据中心机房部分楼层梁下高度不应小于4.5m,装修完成面净空不应小于3m。 3.6.4. 供配电要求 1. 电力供应规划

数据中心电力供应规划应在满足目前使用供电容量要求的同时,充分考虑远期业务发展的扩容需求。条件允许时应当采用双路不同变电站高压市电,并配置自备发电机供电的方式。每路高压市电电源、发电机备用电源均应能够承担数据中心的全部负荷。 2. 应急电源

为确保数据中心关键设备的供电不受市电可能中断的影响,应自备发电机作为备用电源。自备发电机设备容量、数量应按实际负载量及种类计算配置,同时还要考虑自备发电机组未来扩容的可能性,并预留空间。 3. 低压配电系统

为满足数据中心对供电系统的高可靠性要求,应采取必要的技术措施消除可能出现在UPS本身及输出端的各种故障隐患。行之有效的办法就是配置UPS“双总线输出”配送电系统。在变压器容量配置上考虑变压器负载100%冗余热备份,有条件时应考虑独立设置UPS专用变压器,同时考虑低压系统未来可能扩容的需要。

考虑到经济性,在系统规划设计时,应根据负载不同的用电安全等级合理配置UPS系统。先期应考虑经济合理的冗余方式,后期可根据实际需要,最高可升级到2N并机双母线冗余(或更高安全等级)方式。

空调系统的供电应当采用独立双回路配电系统,同一区域内空调设备采用分组供电方式,避免供电大面积同时中断情况的发生,保证空调设备全年365×24小时运转。 4. 防雷接地

(1) 数据中心雷电防护应当符合《建筑物电子信息系统防雷设计规范》A级标准要求。应具有完

备的建筑避雷及引雷装置。良好的防雷接地可以使建筑免受雷电威胁,同时应进一步采取必要措施(如接地、室外控雷技术等)避免因雷电引发对数据及IT 系统的二次破坏或干扰。

(2) 在变配电室低压母线上安装设置一级电涌保护器(SPD);UPS输入配电柜、UPS输出总柜、数据中心机房空调配电总柜应安装二级电涌保护器;PDU内应安装三级电涌保护器;其他与室外有关的所有配电设备和线路均应安装一级电涌保护器。

(3) 计算机系统接地,要求采用共用接地系统。若有特殊要求时可留有安全保护地、防静电接地、交流工作地(零线接地)、直流逻辑地以及防雷接地端子。接地装置的设计应满足接地电阻值小于1Ω的要求。

3.6.5. 空调暖通要求

数据中心机房空调系统的目标是:保证数据中心机房环境的温度、湿度和洁净度符合相关规范标准要求,为数据中心机房设备提供一个可靠的运行环境,保证设备不间断地安全运行;保证数据中心机房的正压,防止外界未经处理的空气或有害气体的渗入,以及烟或混合物滞留在数据中心机房内部等。此外,还要满足数据中心工作人员日常办公的要求。 1. 冷源、末端及管路配置

(1) 采用集中冷源时,如果存在分阶段增容的可能性,则应在主管路上考虑不停机泄水情况下增容施工的相应措施。

(2) 采用集中冷源时,在数据中心机房内,冷冻水管道应采用环状管网,并且应根据系统冗余能力设置分段阀门以便于检修和增容。

(3) 当数据中心机房空调系统采用集中冷源且管网投入运行后,除原设计已考虑预留的集中冷源、系统管网、末端装置的增容容量外,超出部分的增容应采用分散冷源的方式。

(4) 系统应当考虑冗余设计,根据冷源、末端装置的具体情况采用不少于N+1的设备备用方式。 (5) 数据中心机房空调机组的冷源及冷却方式通常可分为风冷、水冷、双冷源机组等。一般采用大风量、小焓差设计,根据需要配置电加湿器和电加热器。 2. 气流组织

(1) 数据中心机房一般采用地板下送风上部回风的气流组织方式,其送风通道和回风通道均可在需要的位置开设风口。

(2) 对于下送风方式一般采用架空地板作为送风静压箱,架空地板高度应根据负荷密度和数据中心机房面积等因素综合确定。

(3) 地板送风口数量应能够保障每个服务器机架有足够的冷却风量,送风口位置应设置在服务器机架进风处,地板送风口风速应达到1.5~3.0m/s。按相关规定,送风温差应控制在6~10℃。 3. 新风、消防排烟

(1) 应分别考虑数据中心各区域的洁净度要求,维持数据中心机房的正压,合理配置数据中心机房的新风系统。

(2) 应按照相应的消防规范考虑数据中心机房的防排烟系统和事故通风系统。根据规范设置相应的排烟分区和配置相应的防火阀。

(3) 当采用气体灭火系统时,应在进出数据中心机房的风管上设置相应装置,以便气体消防动作启动时能够自动关闭的隔断风阀。在外墙或隔墙的适当位置设置泄压装置,以防止围护结构因气体释放导致超压破坏。

3.6.6. 消防、给排水要求

消防、给排水系统关系到数据中心建设的合规性和可靠性,在规划设计时应重点考虑以下因素: (1) 在消防灭火设计中,应坚持“以人为本,防消结合”的原则,根据场地特征及相关规范选择采用相应的灭火系统。一般数据中心机房区域适宜采用气体灭火系统,其他区域可采用预作用水灭火系统。

(2) 应确保市政管网中断情况下数据中心的用水要求,保障数据中心机房空调供水的安全,尤其是空调冷却塔的补水安全。

(3) 数据中心机房应充分考虑防水措施,应避免任何与电气机房无关的水管穿越电气机房。大型数据中心机房多采用冷冻水空调方式,数据中心空调区有进水管和排水管进入,一旦发生水管爆裂现象,将会对机房设备的安全运行造成极大威胁,应当在建筑结构上充分考虑冷冻水空调末端及管道的

漏水防御和排水等相关措施。 3.6.7. 建筑智能化要求

数据中心的建筑智能化设计的目标是:满足数据中心的正常运营功能,增强可靠性,提升可服务性和经济性,减少后期运营成本。该系统的规划以及建筑智能化各子系统的选择,应当根据项目的实际营运需要和资金状况进行。首先,需要明确哪些子系统是数据中心运营所必需的,哪些是备选的,然后,再结合项目资金状况确定具体需求。

数据中心的建筑智能化设计内容包括信息通信设施系统、自动控制管理系统、公共安全系统三大部分。通过智能化集成,实现综合管理,使系统运行环境更加安全可靠。在智能化系统设计过程中,应当参照以上各系统的使用功能和使用区域分别设置建筑、设备监控中心和生产监控中心。 1. 信息通信设施系统

信息通信设施系统包括通信接入系统、综合布线系统、语音通信系统、公共广播系统、信息网络系统、会议系统及信息导引和发布系统。其中通信接入系统和综合布线系统是整个通信设施的核心。从安全、可靠出发,数据中心通信接入系统要求至少设置两个独立的通信接入机房;考虑到不同的客户需求和通信冗余,应安排多家通信运营商线路进入;进入通信接入机房的电信管网和冗余线路,应当考虑来自不同方向的路由。

综合布线应根据建筑平面规划和各系统要求进行系统规划设计,并考虑在合理范围内采取屏蔽和隔离措施,以避免动力线路对数据和控制信号的干扰,确保系统的使用功能得到满足。数据中心机房区域和其他区域的综合布线系统设计应保持相对独立,同时要保证互连的方便性。 2. 公共安全系统

数据中心的公共安全系统包括火灾自动报警系统和应急联动系统及安全技术防范系统。安全技术防范系统又可细分为安全防范综合管理系统、入侵报警系统、视频安防监控系统、出入口控制系统、电子巡查管理系统、访客对讲系统和停车场管理系统等。 3. 自动控制管理系统

数据中心是能耗大户。为节电降耗,除强化日常管理外,还应采取必要措施优化自动控制系统。

数据中心的自动控制系统应实现对非核心区域基础设施设备和数据中心核心区域的集中监控,主要分为数据中心机房集中环境监控系统和建筑设施监控系统,前者的监控对象主要包括:供配电、UPS及应急电源、漏水检测、精密空调、温湿度、新排风、防雷和消防等设备设施;后者的监控对象主要包括:冷冻系统、热交换系统、中央空调系统、新风系统、供配电系统和给排水系统等。

第四章 数据中心的节能与能效评价

4.1 数据中心的能耗审计

若想实现数据中心的节能降耗,首先需要确定影响数据中心能耗的基本因素。通过系统化的能耗审计能够提供数据中心能耗的实时概况和模型,明确了解数据中心的总体能耗以及能耗的具体分布状况,同时可以建立基线供未来改造规划之用。

能耗的审计可以通过手动计量,也可以采用先进的自动化设备获取相关数据。在能耗审计过程中,将主要依据以下三类数据开展审计工作:

(1) 第一类是电量参数,包括系统和独立设备的工作电流、电压和电流波形等。 (2) 第二类是空气参数,包括温度、湿度、风速和温升等。 (3) 第三类参数,包括水和气的用量等。

数据采集密度越高,精度就越高,审计结果的准确性也越高。为了能够快速准确地进行能耗审计,大中型以上规模的数据中心都装有自动化的数据采集系统和分析系统,可以快速地进行能耗分布情况统计和分析。

通过能耗审计,可以明确知道能源的去向。在能耗较高的方面,能够有针对性地开展节能工作。我们知道,电力消耗是数据中心最主要的消耗,空调制冷等方面的能耗同样是以电力消耗的形式表现出来。

现有的一些研究数据可以让我们比较清楚地看到目前多数数据中心的电能分布情况。虽然这种分布并非理想,却代表了当今的普遍现状。数据中心输入电力分布如图4-1所示。

图4-1数据中心输入电力分布

从图4-1中可以看出,能耗高是目前数据中心普遍存在的现象。当IT设备系统,包括服务器、存储和网络通信等设备产生的能耗约占数据中心机房总能耗的30%时,电能使用效率(PUE)在3左右。其他各系统的具体能耗分布如下:

(1) 制冷系统产生的能耗约占数据中心机房总能耗的33%左右。

(2) 空调送风和回风系统产生的能耗约占数据中心机房总能耗的9%左右。 (3) 加湿系统产生的能耗约占数据中心机房总能耗的3%左右。 (4) UPS供电系统的能耗约占数据中心机房总能耗的18%左右。 (5) PDU系统产生的能耗约占数据中心机房总能耗的5%左右。 (6) 照明系统的能耗约占数据中心机房总能耗的1%左右。

(7) 转换开关、线缆及其他系统的能耗约占数据中心机房总能耗的1%左右。

从数据中心电能的流向来看:一是IT设备约占30%;二是空气处理设备约占45%,建筑物围护结构的能量损失会反映在空调系统的能耗上;三是配电传输和转换设备约占24%;还有1%是用于照明、维修和办公设备等。

在数据中心的建设规划过程中,如果在方案设计和设备选型方面充分重视节能降耗问题,上述电能分配比例将发生较大的变化,在IT设备用电量不变的情况下,其他方面的能耗比例将会有所降低,电力能源的利用率将会有较大的提升。如果提高数据中心后期运维期间的有效管理能力,总体能耗将会进一步降低。

4.2 数据中心能耗测量指标

数据中心节能可以从数据中心建筑群体和数据中心设备设施能源效率两个层面来衡量。在数据中心建筑群体节能体系方面,最具代表性的是美国LEED™绿色建筑认证体系;在数据中心设备设施能源效率方面,最具代表性的是绿色网格组织的PUE值评估。 4.2.1. 国内外主要绿色建筑评价体系 1. 我国绿色建筑评价体系

绿色建筑是在全寿命周期内兼顾资源节约与环境保护的建筑。我国的绿色标识制度主要以《绿色建筑评价标识管理办法》及《绿色建筑评价技术细则》为设计和评判依据,经专家和测评机构(中国绿色建筑与节能委员会)评审通过后,颁发“绿色建筑评价标识”。“绿色建筑评价标识”分为1、2、3星级,3星级为最高级别。我国香港地区主要施行《香港建筑环境评估标准》。该评价体系在借鉴英国BREEAM体系主要框架的基础上,由香港理工大学于1996年制定。它是一套主要针对新建和已使用的办公、住宅建筑的评估体系。该体系旨在评估建筑的整体环境性能表现。其中对建筑环境性能的评价归纳为对场地、材料、能源、水资源、室内环境质量、创新与性能改进六个方面的评价。 随着我国建筑节能的发展,相应的建筑节能法律法规和标识规范体系正在逐步建立。在法律和法规方面,2007年10月28日颁布了《中华人民共和国节约能源法》,并于2008年4月1日起正式施行。2008年7月23日国务院通过《民用建筑节能条例》,并于2008年10月1日起正式施行。随后又正式颁布了《公共机构节能条例》。在法律和法规方面为建筑节能奠定了基础。

在建筑设计标准方面,建立了覆盖全国三个气候区的居住建筑和公共建筑的设计标准,包括《公共建筑节能设计标准》(GB50189—2005)、《民用建筑节能设计标准(采暖居住建筑部分)》(JGJ26—95)、《夏热冬冷地区居住建筑节能设计标准》(JGJ134—2001,J116—2001)、《夏热冬暖地区居住建筑节能设计标准》(JGJ75—2003,J275—2003)。这些标准为全面开展建筑节能工作奠定了基础。尤其是《公共建筑节能设计标准》的颁布和实施,对我国公共建筑节能的推动和建筑节能工作的开展,对实现“节能减排”的国家战略具有重要意义。

在建筑节能验收和运行管理方面,建立了《建筑节能工程施工质量验收规范》(GB50411—2007)、

《空调通风系统运行管理规范》(GB500365—2005)、《北方采暖地区既有居住建筑供热计量及节能改造技术导则》、《国家机关办公建筑和大型公共建筑能耗监测系统建设相关技术导则》等标准规范和技术导则,这些为推进建筑节能工作的验收和运行管理提供了依据。

在建筑节能和绿色建筑评价体系方面,试行《建筑能效测评与标识技术导则》制度,建筑能效标识制度作为建筑节能的推进器,对于提高建筑用能系统的实际运行能效,促进新型节能技术在建筑中的合理应用,有效减低建筑的实际运行能耗具有重要的作用。《建筑能效测评与标识技术导则》引用吸收了国际上建筑能效标识的成果和经验,以我国现行建筑节能设计标准为依据,结合我国建筑节能工作的现状和特点,适用于新建居住和公共建筑以及实施节能改造后的既有建筑能效测评标识方法。《建筑能效测评与标识技术导则》特点是强调建筑节能实际能耗和能效结果控制的测评制度。 在总结近年来绿色建筑的实践经验,并借鉴国际绿色建筑评价体系的基础上,2006年,我国颁布了第一部《绿色建筑评价标准》(GB/T50378—2006)。该标准是一部多目标、多层次的绿色建筑综合评价体系,该体系从选址、材料、节能、节水、运行管理等多方面,对建筑进行综合评价,其特点是强调设计过程中的节能控制。

为了支撑现行的测评体系和设计标准,国家有关部门正在组织编写和即将颁布的标准有:《公共建筑节能检验标准》、《节能建筑评价标准》、《公共建筑节能改造技术规程》、《集中供暖系统温控与热计量技术规程》等。这些都为我国新建建筑节能和既有建筑节能改造的规范化管理和实施奠定了很好的基础。

2. 国外绿色建筑评估体系

目前国际上的绿色建筑认证体系主要有:LEED™(美国)、BREEAM(英国)、CASBE(日本)、Blue Angel(德国、北欧)等。《绿色建筑评估体系》(Leadership in Energy & Environmental Design Building Rating System,LEED™)是目前世界各国建筑环保评估、绿色建筑评估及建筑可持续性评估标准中最完善、最有影响力的评估标准,已成为世界各国建立各自绿色建筑及可持续性评估标准的范本。

1) 美国绿色建筑评估体系LEED™

LEED™是自愿采用的评估体系标准,主要目的是规范一个完整、准确的绿色建筑概念,防止建筑的滥绿色化,推动建筑的绿色集成技术发展,为建造绿色建筑提供一套可实施的技术路线。LEED™是性能性标准,主要强调建筑在整体、综合性能方面达到“绿化”要求。该标准很少设置硬性指标,各指标间可通过相关调整形成相互补充,以方便使用者根据本地区的技术经济条件建造绿色建筑。 LEED™评估体系及其技术框架由五大方面及若干指标构成,主要从可持续建筑场址、水资源利用、建筑节能与大气、资源与材料、室内空气质量等方面对建筑进行综合考察,评判其对环境的影响,并根据各方面指标综合打分,通过评估的建筑,按分数高低分为白金、金、银、铜4个认证级别,以反映建筑的绿色水平。

虽然LEED™为自愿采用的标准,但自从其发布以来,已被美国48个州和国际上7个国家所采用,美国俄勒冈州、加利福尼亚州、西雅图市已将该标准列为法定强制标准加以实行,美国国务院、环保署、能源部、美国空军、海军等部门也已将其列为所属部门建筑的标准,如美国驻中国大使馆新馆就采用了该标准。国际方面,加拿大政府正在讨论将LEED™作为政府建筑的法定标准。中国、澳大利亚、日本、西班牙、法国、印度等国都在对LEED™进行深入研究,并在此基础上制定本国绿色建筑的相关标准。

截止到2009年9月,在美国和世界各地已有3855个工程通过了LEED™评估,被认定为绿色建筑;另有25611个工程已注册申请进行LEED™绿色建筑评估;每年新注册申请LEED™评估的建筑都以20%以上的速度增长。凡通过LEED™评估的工程都可获得由美国绿色建筑协会颁发的绿色建筑标识。

中国国家建设部目前也在借鉴LEED™认证标准,现行的《绿色奥运建筑评估体系》、《中国生态住宅技术评估手册》和上海通过的《绿色生态小区导则》也在一定程度上借鉴了LEED™认证标准的内容。

2) 英国绿色建筑评估体系BREEAM

BREEAM(Building Research Establishment Environmental Assessment Method)体系,是世界上第一个绿色建筑评估体系,由英国建筑研究所于1990年制定。BREEAM体系的目标是减少

建筑物对环境的影响。体系涵盖了包括从建筑主体能源到场地生态价值的范围,包括了社会、经济可持续发展的多个方面。这种非官方评估的要求高于建筑规范的要求,有效地降低了建筑对环境的影响。如今,在英国及全世界范围内,BREEAM体系已经得到了各界的认同和支持。 3) 澳大利亚绿色建筑评估体系NABERS

ABGRS(Australian Building Greenhouse Rating Scheme)评估体系由澳大利亚新南威尔士州的Sustainable Energy Development Authority(SEDA)发布,它是澳大利亚国内第一个较全面的绿色建筑评估体系,主要针对建筑能耗及温室气体排放进行评估。它通过确定参评建筑的“星值”来评定其对环境影响的等级。

4) 日本绿色建筑评估体系CASBEE

CASBEE(建筑物综合环境性能评价)方法,以各种用途、规模的建筑物作为评价对象,从环境效率定义出发进行评价。它试图评价建筑物在限定的环境性能下,通过措施降低环境负荷的效果。CASBEE采用5分评价制度。

5) 德国可持续建筑认证体系DGNB

德国可持续建筑认证体系,由德国可持续建筑委员会(DGNB)组织和德国建筑行业的专业人士共同开发。DGNB覆盖了建筑行业的整个产业链,并致力于为建筑行业的未来发展指明方向。其2008年版仅对办公建筑和政府建筑进行认证。 4.2.2. 数据中心能源效率指标 1. PUE和DCiE

当前,测量数据中心的能耗指标主要有:电能使用效率(Power Usage Effectiveness,PUE)和数据中心基础架构效率(Data Center Infrastructure Efficiency,DCiE)。

这两种指标都考虑了数据中心的供电、散热系统和IT设备所各自消耗的能量,得到了The Green Grid(绿色网格)组织的支持。这个组织是2006年为专门开发数据中心能效及生产力测量体系而组建的,具有一定的影响力。

The Green Grid 定义了这两种指标的具体计算方式:

(1) PUE=数据中心总设备能耗/IT设备能耗,PUE是一个比率,基准是2,越接近1表明能效水平越好。

(2) DCiE=IT设备能耗/数据中心总设备能耗×100%,DCiE是一个百分比值,数值越大越好。 根据The Green Grid的研究报告,测量数据中心IT设备能耗的最有效的方法是测量机房PDU(Power Distribution Units)的输出电量,它表示出数据中心向服务器机柜输送的总电力。 目前,PUE已经成为国际上比较通行的数据中心电力使用效率的衡量指标。据统计,国际上先进机房的PUE值可以达到1.7,而我国的PUE平均值则在2.5以上。特别是中小规模的机房,PUE值更高,测量数值普遍在3左右。这说明有大量的电能实际都被电源、制冷、散热这些设备给消耗了,而用于IT设备的电能很少。 2. IT设备的能效比

IT设备能效比=IT设备每秒的数据处理流量/IT设备的能耗。

IT设备主要是指服务器、存储等设备。IT设备能效比越高,意味着IT设备每消耗单位电能,所能处理、存储和交换的数据量越大。较高的IT设备能效比带来的另一个好处是,可以大幅度地降低与数据中心机房配套的UPS和空调系统的容量及能耗,从而达到节能、节省投资和节省数据中心机房安装面积的目的。因此,当用户选择服务器或存储设备时,不仅需要了解各种产品在满负荷运行时的能耗大小和效率高低,还要了解这些设备在轻负荷运行时的实际能耗和效率。

目前,我国已将服务器的节能指标纳入国家节能规划体系中。它标志着我国在推进服务器节能方面已进入到一个崭新的阶段。

4.2.3. 绿色数据中心能效评价要素

绿色数据中心建设包含一整套设计思想和实施方法,而不是简单地购买节能产品就能实现。最高效的数据中心不一定就是绿色的。建设绿色数据中心需要从整体上把握,考虑选址、环境、物理建筑、基础设施、员工、系统建设和维护等众多因素。绿色数据中心的节能效果就像是一条长尾曲线,其前端通常由建筑群体能耗、服务器能耗、空调能耗、UPS能耗等“大指标”组成,而曲线的尾部则由气流组织设计、设备摆放位置、机柜和服务器之间的距离、维护难易程度等无数“小指标”组成。如

果没有整体设计思想和实施方法,即使抓住了全部的“大指标”,也难以达到理想的绿色效果。数据中心能效评价要素见表4-1。 表4-1数据中心能效评价要素

4.3 数据中心节能目标

通过对数据中心主要能耗的分布状况进行分析,其节能工作主要应从以下三个方面入手。 1. 降低数据中心IT设备运行能耗

IT设备能耗是影响数据中心总体能耗的根本原因之一。如何减少IT设备能耗是各大设备厂商不断研究的课题。设备厂商纷纷推出能耗低效率高的产品,例如:通过改造产品电源,可将产品原有电源效率从70%提高到90%以上。若要进一步降低IT设备的能耗,IT系统的运维管理也非常重要,例如:关闭闲置设备,开启设备电源智能管理系统,使设备根据需要自动调节设备电源输出能力等。 但多数数据中心在规划之初,要做到准确规划IT设备的具体型号、装机数量和电力需求具有相当大的难度,尤其是远期规划则更加难以预测。因此,在数据中心的规划建设过程中,只能依据经验数据和参照同行业现状,给出IT设备的总体能耗指标,设定数据中心的最大服务能力。 2. 降低IT设备配套设施运行能耗

配套设施主要包括供配电系统和空调冷却系统。经过相关机构对目前世界各地数据中心的抽样调查所取得的数据表明:配套设施的能耗约占数据中心总能耗的70%,这个数值相当可观。由于配电系统设备和空调系统设备的系统设计、工作方式、系统配置和设备选型存在明显差异,对系统的工作效率有很大的影响,因此,配套设施的节能应作为数据中心节能最重要的主攻方向。 3. 降低建筑物本身的能耗

降低建筑物围护结构能耗是我国政府和相关行业非常重视的问题,近年来出台了相关的规范和建筑节能标准。建筑物围护结构能耗在数据中心总体能耗中占有一定的比例,也是节能降耗应该重点关注的一个方面。

4.4 节能技术方案举例

4.4.1. 建筑群体的节能

目前国内多数情况下是通过改造现有建筑体来构建数据中心,对建筑体本身的“绿色”考虑不足,这也是经常被忽略的一个因素。很显然,绿色数据中心首先应当是绿色建筑。所谓“绿色建筑”实际

上是一个宽泛的理念,它既包括了建筑体本身的“绿色”,同时又要求建筑体在其整个生命周期都应该是绿色的,包括废弃阶段。

数据中心建设在总体设计中,主要从TCO、总体空间规划、合理气流组织、系统融合构建等方面考虑节能途径与节能措施。数据中心的总体设计更需要关注工程初期设计的合理性和适用性,充分考虑到如何在建设期和运营期内降低数据中心的日常运营成本,即能耗成本,同时降低数据中心的TCO,以提高数据中心的整体经济效用比。

目前,专业化、高等级的数据中心已从一幢建筑体逐渐发展成为建筑群体。例如:灾难备份中心包括数据中心机房主体建筑、动力中心、办公楼、配套研发楼和生活辅助楼等。数据中心合理的总体规划、空间与平面布局是依据建设需求进行总体设计的第一步,也是重要的一步。总体规划确定数据中心的等级规模和系统构成,空间与平面布局确定数据中心机房的场地分隔、工作流程以及建设工艺。现行数据中心采用机房密闭护围、大空间、少隔断、适宜的空间容积、人机区域分离、区域集中监控等,这些都是新一代数据中心空间与平面布局所崇尚的设计理念与节能策略。 1. 建筑围护

数据中心通过精密空调的运行来确保IT设备运行所需的特定温湿度环境。因此,数据中心建筑围护的热工特性是影响精密空调设备能效的重要因素之一。

我国地域广阔,各地气候条件差别非常大,全国划分为五个气候区域,建筑节能对不同气候区域的建筑围护结构的保温隔热要求有着不同的规定。

对于建筑体内的数据中心机房区域,其环境温度和湿度是基于设备环境的要求和机房设计标准而定的,通常需要在符合《公共建筑节能设计标准》的前提下,加强对数据中心机房区域进行建筑热工复合计算和设计处理。同时,根据数据中心所在外部环境、机房区域位置的内外部环境,以及数据中心内各功能区域相邻布局的内部环境,对IT关键设备区域加强措施,合理计算保温隔热的热工参数,选择适宜的围护结构与材料。使用传热系数值小的绝热材料,对顶、地、墙的六方体进行绝热,以减少围护结构四周的传热系数,整体将数据中心的机房区域包裹起来,可以达到较好的密闭保温节能效果。

对数据中心的主机房区域应当采用无窗密闭护围,以避免和减少进入室内的太阳辐射以及窗或透明幕墙的温差传热,是降低空调能耗的主要途径和措施之一。对数据中心的支持区和辅助房间等功能区采用有窗玻璃护围时,应该控制建筑朝向及窗墙面积比,采用双层玻璃窗或low-e玻璃(幕墙),并辅助采用遮阳设施(外遮阳、内遮阳等)来减少太阳辐射量。 2. 空调系统

数据中心精密空调设备的主要节能途径和节能措施包括制冷负荷计算、合理设定参数、送回风方式、选用高能效比设备、冷热风预处理及动态组合运营等。

计算数据中心制冷负荷包括数据中心机房内设备的散热、建筑围护结构的传热、太阳辐射热、人体散热散湿、照明设备散热和新风负荷等。合理控制数据中心区域内的制冷参数,即设定合理的温湿度。据有关报道,制冷参数变化1℃,可能会产生5%~10%能耗变化。

高效率地设计和布置送回风方式及送风与回风通道。选用制冷性能系数和能效比高的空调设备,应当考虑采用高于《公共建筑节能设计标准》规定中建筑空调设备和《计算机和数据处理机房用单元式空气调节机》规定中精密空调设备的最低能效比指标,采用冷热预处理的新风通风换气系统。适当进行空调设备组合配置,能够动态提高制冷系统的效率。对于大型数据中心机房空调系统,适宜采用制冷性能系数和能效比较高的冷水机组空调系统。

精密空调系统需要对温湿度进行精确控制,空调机具有四种功能:制冷、电加热、加湿和除湿。目前多数数据中心采用多台空调独立运行模式,可能会产生某些问题:由于产品的非一致特性、参数设置的不合理及机房气流组织的不确定性,可能导致同一机房内多台空调运行在不同的状态,即有些空调在加湿状态而有些空调在除湿状态,白白消耗能源。针对上述情况,现在大多数设备厂家推出了精密空调群控系统,使同一机房内的空调系统工作在相同的状态上,从而避免了能源的无谓消耗。 目前,部分用户取消了精密空调机内的小功率加湿器,转而采用独立大功率的加湿系统,同时根据热负荷的实际情况自动调节空调风机送风的变风量系统。现已有厂家推出了这样的产品,在实际运行中起到了显著的节能效果。虽然在设备采购成本上有所增加,相信在不久的将来,随着技术的发展,产品价格会趋于合理。目前还有一些空调方面的节能方案,已经在节能方面取得了可喜的效果,但由

于技术和产品价格等原因,还没有被普遍采用。空调节能主要有以下几种方式:

(1) 自然冷却系统。利用冬季气温较低的气候条件,通过盘管换热器为机房提供冷源,节省了空调机组的用电量,这也是目前采用比较多的一种方式。

(2) 转轮换热系统。利用转轮换热技术,在换热效率上有了较大的提升,节能效果显著,在新风系统中已有大量的应用,但在机房制冷方面存在设备安装、湿度控制等方面的难题有待技术上的进一步完善,目前还停留在实验阶段。

(3) 自然风冷却系统。将冬季室外冷空气经过处理后直接用于IT设备冷却,在冬季较寒冷地区具有非常好的节能效果。但是存在湿度和空气洁净度难以控制等问题,该系统的使用还在尝试阶段。 (4) 湿膜制冷系统。利用水份蒸发吸热制冷,主要用于长年湿度较低的地区。目前一些机构正在与厂家联合研制,并已取得一定的成果。 3. 机房配电系统

配电系统的节能主要依靠系统设计和产品性能的提高。在系统设计上应当采用适合自身需要的设计,避免过度规划。在系统配置上,应根据数据中心设备负载的特性,对系统谐波进行有效的治理。产品性能的提高则有赖于配电设备生产商的技术进步,在产品的选择上用户需要平衡产品性能和价格的关系。对于机房配电系统的建设应关注以下几个方面。

(1) 合理规划系统冗余度,重点关注设备运行是否处于高效状态。

(2) 关注电力传输电缆运行的经济性选择,在电缆线损与价格上寻找平衡点。不能只关注初期投资成本而忽视长期运行的线损。这是数据中心建设过程中长期被忽视的一个问题。

(3) 应采用损耗低的变压器产品,例如S10型比S9型变压器的空载和负载损耗低10%。 (4) 功率因数补偿。应对配电系统进行功率因数补偿,提高自然功率因数。

(5) 谐波治理。供电系统中的无功功率主要是由相位角和高次谐波造成,治理谐波对提高电能的使用效率至关重要。目前治理的方式主要采用增加无源滤波器、有源吸收滤波器和静止无功发生器等,应根据系统的实际情况合理选择。

(6) 选择高效UPS电源系统。目前常规的UPS电源系统的效率基本可达到93%,有些特殊形式

的UPS系统效率高达98%。例如飞轮储能UPS系统,后备电力由高速飞轮提供,省去了蓄电池,在性能提高的同时更加环保,是UPS未来发展的方向之一。但由于后备时间要达到常规系统的相同时间,其产品价格还相当昂贵,目前的使用案例不多。

(7) 选择高效节能照明灯具和智能照明控制系统。在满足眩光和显色要求的前提下,尽量选择高效灯具。智能照明控制系统可以灵活方便的根据需要控制和管理照明系统。

(8) 合理利用自然光源。根据数据中心的地理位置、日照情况进行经济性和技术性比较,合理选择反光及导光系统。目前自然光源导光系统的效率通常在95%,能够充分利用自然光源。由于导光系统的生产厂家还不多,价格相对较高,其推广应用受到一定的限制。 4.4.2. 机房管理与节能

能源管理在节能方面有着重要的作用,必须改变“重建设,轻管理”的做法。尽管你可能选用了最新的服务器架构、高效的UPS设备、节能的空调系统,机柜摆放采用了冷热通道布局,但数据中心的效率有时并不能达到预期。其主要原因很可能是由于能源分配管理不到位所造成的。例如:地板出风口的安放没有依据设备机柜的发热量进行调整,致使有些设备风量过大造成冷量浪费,而有些设备风量不足,同时冷热风的混合现象严重,导致空调系统的利用率大大降低。对于数据中心内部空调能源管理,可通过采取下列几种方法进行调整和改进。 1. 安装地板出线孔密封件

当数据中心采用地板下送风方式,机柜下的高架地板上开有地板出线孔时,由于地板出线孔没有做密封处理,将导致大量的冷风泄漏。由此造成输送到机柜前方的冷风没有能够完全进入服务器机柜之中,有一部分冷风又直接被空调机组吸回,这样实际进入到机柜的有效冷风就会减小,空调送风利用率降低。使用地板出线孔密封件对出线孔进行密封处理,更多的冷风将被利用,这有助于提高空调设备的制冷效率。 2. 安装盲板

当机柜中存在没有安装服务器的空U空间时,服务器排出的热风会从空U空间返回到服务器的前部进风口,从而造成热点,这将降低机柜的冷却能力。在机柜中所有的空U空间安装盲板,可以

有效防止机柜出现热点,提高机柜冷却能力。 3. 尽量避免局部热点

高发热量机柜与常规发热量机柜混合在同一个机房区域摆放,在机房区域将形成局部热点。应该对高发热设备机柜的制冷采取必要措施,如在风量调节、气流组织上进行调整,否则将影响机房空调整体工作效率。 4. 定期检测

定期检测机房供电及空调系统的各项工作参数,并做出及时调整,可有效降低系统的能耗。数据中心内的IT设备随着时间的推移会发生较大的变化,供电系统的状况,如谐波分量、供电设备的负载率等均会发生变化,机房内部空调系统的气流组织同样会发生变化。必须随时监控这种变化并做出适当的调整,使各系统工作在高效状态。 4.4.3. IT系统管理与节能

综合采用一些现实可行的IT系统节能措施,在不需要进行重大升级的前提下,使现有数据中心的总体能耗下降30%,这是一个有可能实现的目标。 1. 找出不起作用的服务器并取消它们的任务

研究显示,数据中心内正在运行的众多服务器中总存在一些“空闲”服务器。这些服务器耗电但是不做任何有用的工作。你还可以让非时间紧要型存储离线工作,待机的磁带和光盘耗电量较少,而旋转的硬盘则耗电较多。寻找能够从本地逻辑转移到离线状态的存储任务,从而不必让更多的硬盘连接到网络。取消“空闲”服务器的任务,取消不必要的冗余存储系统。 2. 启用服务器电源管理功能

服务器电源管理功能能够将服务器的组件控制成闲置和睡眠状态,这个功能就像笔记本电脑电源管理一样。在启用这种功能时,许多应用程序可以很好地工作,实现IT系统的节能。但是,也有一些应用程序的响应时间要求也许比省电更重要,需要我们根据实现情况确定。 3. 采用刀片式服务器

采用刀片式服务器等高密度设备取代传统服务器,再配合采用虚拟化技术,从而减少物理服务器

的数量。事实上,刀片式服务器使用同样的商用处理器,能源和冷却的要求比目前的机架服务器节省10%。刀片式服务器与机架服务器相比的好处是减少了输入/输出电缆线及设备空间。

未来总是难以预测的,特别是在技术方面。但是可以肯定地说,当管理超过每个机箱8kW的刀片式服务器时,电源和冷却将是一个挑战,需要对极端密度进行成本和收益分析。当然总有一些特殊环境需要使用20~40kW的极端密度,例如高成本的商业地区。但是事实上极端密度的机架对于大部分数据中心来说都是不可行的。 4. 尽可能减少设备的体积

高密度的设备能够充分发挥出计算的优势,并且可以在很多情况下大幅度地减少应用程序运行所需的占地面积。占地面积的减少相当于运营和维护成本的降低。 5. 及时更新老化设备

更新服务器的成本实际上远远低于老化设施未来的能源消耗成本。新的服务器和新的技术看似增加了投资成本,但是这部分的成本投入往往比维持现有老旧设施更加廉价。 6. 采用能充分利用多核处理器运算能力的多线程软件

尽管现在的服务器已经是多核了,但大多数软件并不是针对多核处理器编写的,因而不能充分发挥多核处理器的高效性能。

第五章 数据中心建设管理与测试验收

5.1 数据中心业主方设计管理

5.1.1. 工程设计的阶段划分

数据中心工程设计一般可分为方案设计、初步设计和施工图设计三个阶段。 1. 方案设计

数据中心的方案设计主要用于政府规划部门的审批和业主方审查,设计深度应满足政府规划部门的审批要求和业主方需求,并应满足编制初步设计文件的需要。方案设计一般是在顾问公司、业主方提出的概念设计或招标文件的基础上,结合法律法规、标准规范进行细化。

2. 初步设计

初步设计阶段主要是确定各专业系统的设计方案,明确主机房和辅助区的工艺流程和人流、物流情况及建筑平、立、剖面图,明确设备的主要参数和选型要求及建设项目投资概算。初步设计的深度应满足编制施工图设计文件、施工招标文件和主要设备订货的需要。 3. 施工图设计

施工图设计阶段主要是对初步设计进行深化。各专业需增加节点图、管线布置图、施工说明等。建设单位有要求时,经济专业还需做施工图预算。施工图设计阶段的设计深度应满足图纸送审的要求,以及编制施工招标文件和设备材料订货的需要。 5.1.2. 设计管理目标和中心任务

数据中心项目业主方设计管理是数据中心建设项目过程管理中不可缺少的重要组成部分,是项目建设过程中的关键环节。数据中心项目业主方设计管理的目标是在满足建设项目安全性、可靠性、适用性、经济性等要求的前提下,保障数据中心建设项目的质量、进度和投资三大控制目标的实现。 数据中心工程设计过程不仅是施工前期的工作,工程设计贯穿于工程建设的全过程。因此,数据中心设计管理与施工管理一样,贯穿于数据中心建设的全过程。其中心任务是对工程设计的质量、进度和建设项目投资进行控制。 5.1.3. 设计管理模式与选择 1. 设计管理模式

数据中心的工程设计管理模式主要有以下两种: (1) 建设项目业主直接管理。

(2) 建设项目业主委托项目管理公司管理。 2. 设计管理模式的选择

工程设计管理模式的选择取决于建设项目业主的工程技术力量和设计管理水平。一般来说,工程设计管理模式要与建设项目管理模式保持一致。不管采用哪种模式,最终决策人和最终风险承担人都是建设项目业主。建设项目业主可根据项目特点和需要聘请知名专家进行咨询,为决策提供建议。

5.1.4. 设计管理内容

数据中心建设项目业主工程设计管理的主要工作是组织设计,配合和提供设计条件,控制设计规模、工程质量、工期与投资,组织审查和批准设计文件,协调设计外部协作关系和提供外部条件。主要内容如下:

(1) 组织工程设计方案概念设计招标、优选概念设计单位。 (2) 提供勘察设计基础资料和建设协议文件、项目审批文件。

(3) 组织协调勘察与设计单位之间、设计单位与材料供应、设备制造厂商、施工单位等之间的配合活动与互提资料、条件等。

(4) 主持研究和审查确认重大设计方案。

(5) 对工程设计中提出采用超出国家现行技术标准的新技术、新工艺、新材料、新设备,组织科研试验和鉴定并主持审查其成果,确认设计采用的成果。

(6) 主持审查设计采用的重要设计标准、建筑物型式与结构体系、重要计算成果。 (7) 组织专家进行优化设计。

(8) 组织环境影响评价、水土保持、劳动安全与工业卫生、消防等专题设计审查与报批,组织办理城市规划主管部门的审批等。

(9) 协调落实外部补充的规划设计条件。 (10) 配合设计单位编制设计概算。

(11) 按规定报送办理建设项目核准或备案手续。

(12) 组织审查初步设计文件并按有关规定上报,主持审查招标设计和施工图设计文件与图纸。 (13) 控制和审查施工过程中的设计变更。 (14) 组织数据中心项目设计后评价工作。

(15) 做好勘察设计文件和图纸的验收、分发、使用、保管和归档工作。 (16) 按计划与合同办理勘察设计等费用的支付与结算。 5.1.5. 设计阶段的管理

数据中心项目工程设计阶段的管理主要包括项目初步设计管理、项目技术设计管理、项目施工图设计管理、项目科研试验与接口管理、项目施工阶段的设计管理和项目设计文件的接收管理等。 5.1.6. 工程设计过程的管理 1. 设计过程管理的目的和控制点

工程设计过程管理的目的是控制设计质量,即在保证设计工作进度的条件下,向业主提交符合设计标准、适宜的、便于实施、能满足使用功能与效益的设计成果。

工程设计质量形成过程也是建设项目的使用特征、功能和效益的形成过程,影响设计质量的因素有设计单位的内部原因,也有外部协助的原因,设计管理活动的主要控制点包括三个环节管理: (1) 设计条件、设计大纲及工作内容。 (2) 设计方案。 (3) 设计成果。 2. 设计质量控制要点

工程设计质量控制包括设计对象和设计结果两个方面:一是工程的质量标准;二是设计工作质量。具体管理控制的要点如下:

(1) 设计前控制:重点在提供充分准确的设计条件和设计大纲。 (2) 设计方案论证和审查。 (3) 设计质量工作检查。

(4) 设计成果评审:对设计文件的质量,主要依据其功能性、可信性、安全性、可实施性、适应性、经济性、时间性等质量特征是否满足要求来衡量。 3. 设计进度控制要点

工程设计进度控制的目的是要求设计单位保质保量、按时间要求提供各阶段设计文件。其控制要点具体如下:

(1) 勘察设计工作计划的编制。 (2) 勘察设计工作进度计划的执行检查。

(3) 工程设计进度的协调与管理措施。 4. 设计投资控制要点

工程设计投资控制的中心任务就是采取预控措施,在设计满足质量和使用功能的前提下,有效控制投资额。主要控制的方法包括:推广标准设计、限额设计、多方案技术经济比较等。

5.2 数据中心工程建设管理

5.2.1. 确定数据中心的建设管理模式 1. 数据中心的建设规模

按建设规模可以把数据中心分为超大型、大型、中大型、中型和小型五个级别,见表5-1。按类型可分为部门级数据中心、企业级数据中心和互联网数据中心等。

数据中心的建设模式虽然与数据中心的规模和类型没有必然的联系,但不同规模的数据中心对施工管理水平、工程管理的力度、施工能力的要求是不同的。大型和超大型数据中心规模大,系统复杂,对建设方的工程管理水平要求高,项目风险大。因此,对数据中心的建设方来讲,需要根据数据中心的建设规模,认真评估自身各项资源的现状,规划数据中心项目施工阶段的工程管理模式。 表5-1 数据中心建设规模

2. 数据中心施工建设管理模式

建设方应根据自身的特点,选择适合自己的数据中心建设模式。选择何种管理模式最主要是从人力资源状况来考虑,评估自身人员能力和数量与项目规模的匹配程度,以决定施工建设的管理模式。 目前,建设管理模式主要有以下几种类型:自主管理模式、CM(Construction Management)

管理模式、代建制管理模式三大类。中小型数据中心通常采用自主管理模式;中大型、大型和超大型数据中心通常采用CM管理模式或代建制管理模式。如果建设方在人力资源和工程建设管理经验方面有充足的储备,中大型以上数据中心的施工管理可以考虑采用自主管理模式。否则,为有效规避项目风险,一般不建议采用自主管理模式。 1) 自主管理模式

由于建设规模较小,系统相对简单,对工程管理人员的专业水平要求不高,通常在自己企业内部选择项目负责人,配备少量的工程协调联络人员和技术人员,通过招标选择工程项目承包单位。工程质量的检查核实由业主内部相关职能部门的技术人员把关,并聘请监理公司进行工程质量和安全的监督检查。

优点:业主可以以较少的人员投入完成项目建设。

缺点:工程项目的成果可否达到业主的要求,很大程度在于工程项目施工单位的工程管理能力和技术能力。大型项目采用该模式时,业主要有相当数量精通项目管理的专业人员参与项目之中。如业主无同类型工程建设经验,则项目存在较大的风险。 2) CM管理模式

CM管理模式又称为阶段发包方式或快速轨道方式,产生于美国。这种管理模式与其他项目管理模式的主要区别在于两个方面:一是有专业的从事项目管理的公司介入项目管理之中,也就是说,在项目运作过程中,有独立的主体承担项目管理工作;二是与传统的将设计图纸全部完成再进行招标和建设不同,在此模式下,设计一部分、招标一部分、甚至专业的承包商也参与设计,这样就可以加快进度、节省时间,基于模式的这两个优点,CM模式在现今被不少企业所接受,得到广泛的应用。 在CM模式中,业主直接与承包商签订合同,CM公司不对工程的总造价负责,只承担管理责任,以自己的管理经验为业主提供项目管理服务,而且在这种管理中,各项任务命令直接由业主来下达;咨询单位为项目提供咨询服务,CM公司为业主提供专业的项目管理服务,承包商负责工程的建设或承担少量的工程设计,业主做出决策并对最终的工程负责。

优点:工程进度和质量有保证,业主可以很好地控制建设成本。由于业主要全程参与项目建设过

程,可以及时发现问题并及时做出调整,可以保证建设成果符合业主要求。

缺点:业主必须熟悉数据中心工程建设,并且对专业团队有一定的了解。业主必须在整个项目建设过程中发挥积极的作用,并对出现的问题迅速做出相应的调整,项目风险与业主管理团队的经验有较大关联。

3) 代建制管理模式

建设单位(建设项目业主)将投资建设的工程项目委托给熟悉建设程序和相关法律法规、具备一定专业技术力量的、有资格的代建企业进行全过程管理的模式。

代建制管理模式主要有三种操作方式:项目全过程代建方式、分阶段代建方式和联合代建方式。这三种操作方式虽然都是代建制管理模式,但其具体的代建运行过程有所不同。

在代建制管理模式中,首先是项目业主与项目管理公司签订合同,将整个项目全权委托给项目管理公司,之后由项目管理公司代行业主责任,对整个工程项目建设任务负责,既承担项目管理责任,又对项目提供咨询服务。项目管理公司所提供的咨询服务和专业管理服务是由一个主体完成。大型的项目管理公司可以做到咨询、管理、建造由一个主体完成。

优点:业主不必投入大量的人力物力在项目管理上,也不要求业主有工程建设的专业知识。 缺点:目前的建筑市场发展较为混乱,目前我国适应代建制管理模式要求的相关人才比较缺乏,有能力的代建企业还不多。而代建企业的选择对项目成功有至关重要的作用。 5.2.2. 项目建设流程

无论数据中心的规模大小,选择什么样的建设管理模式,项目的建设流程基本是一致的。针对具体项目,某些过程可能会省略或简化。

中小型数据中心通常在现有建筑中或与其他功能建筑同时设计、施工,不会单独为其进行大规模的建筑施工,因此,在项目建设流程中,初步设计、办理用地、规划审批等环节可以省略。但原有建筑对数据中心建设可能存在较多的制约因素,因此,建设选址非常重要。

大型、超大型数据中心建设往往由土建施工开始,所涉及的工程范围非常广。在工程实施环节中,要充分体现系统的可扩充性,提高系统的利用率,同时有效的利用建设资金。机房施工、系统配套通

常不会一次到位,而是根据业务发展分阶段实施。因此,在工程实施过程中,一定要有整体观念,为后期施工预留条件。

数据中心的建设管理可以分阶段进行,如设计和工程施工可由不同的团队进行管理,也可以由同一团队(项目组)进行项目全过程管理。但不同的项目阶段均应具有完整的项目管理过程和相应的管理流程,以确保项目的每个阶段均在控制范围内有序进行。每一阶段都应有明确的启动、规划、实施、控制和收尾过程。

中小型数据中心的建设通常采用同一管理团队进行全过程管理,而大型和超大型数据中心通常会由不同的管理团队管理项目的不同阶段。项目建设流程如图5-1所示。

图5-1 项目建设流程

本章节要介绍数据中心工程施工管理的主要方法和重点关注的问题。工程施工是将设计图纸转化为产品的过程,最终的产品是否可以满足业主的要求,与施工过程管理有密切的关系。

在工程施工阶段应包含项目的启动、规划、实施、监控和收尾等诸过程。首先,由企业内部高层宣布该项目阶段的正式开始并任命项目经理;之后,项目经理应组建项目管理团队,成立项目组,由项目组管理项目施工建设;最后,由项目组之外的其他机构对施工成果进行验收。该机构可以是内部的,也可以是外部的。

项目管理团队的组建对于项目的建设非常重要,组建原则如下:

(1) 首先确定项目经理人选,项目经理可在企业内部进行选拔,也可为项目而专门招聘。项目经

理的职责和工作性质决定了他必须具有一定的个人素质、优化的知识结构、丰富的工程经验、较强的协调和组织能力及良好的判断力。

(2) 根据项目范围和预算确定团队组成。当数据中心建设项目规模较小时,项目经理可以单独承担项目的管理职责,而大规模数据中心的建设,则必须由项目团队完成。大规模数据中心项目团队应由项目管理团队和技术专家团队组成。管理团队负责数据中心建设项目的过程管理,技术专家团队解决技术方面的问题。技术专家团队通常采取外聘的形式,成员为数据中心建设方面的专家。 (3) 对项目起关键作用的岗位应优先考虑内部选拔。项目初始阶段,关键岗位人员的职责和能力都比较重要,有了他们的协助,项目就会有一个良好的开端。此类人员都是比较资深的员工,稳定性比较有保障。项目实施过程中,可能会有人员离职,但只要关键岗位的人员稳定,项目管理就不易受到致命的影响。 5.2.3. 施工管理 1. 施工管理过程 1) 项目启动过程组

项目启动过程是确定并核准数据中心项目施工启动的阶段,其主要内容有以下两个方面: (1) 制定项目章程,由企业高层颁布。章程宣布项目的正式启动,并说明项目各个阶段的具体要求,明确对项目经理的授权等。

(2) 制定初步范围说明书。制定粗略的项目范围说明,内容包括对数据中心建设成果的要求、建设边界、验收方法及高层的范围控制。 2) 规划过程组

规划过程是数据中心施工管理中非常重要的环节,但常常被忽视,其后果主要是导致规划过程过于粗放,使后续管理中出现大量的、意想不到的计划控制及协调性工作,进而使施工进程受到极大的影响,严重时将造成施工无法进行,如图5-2所示。因此,在项目一开始就应该投入大量的精力做出详细的规划,同时投入大量的精力做协调工作,这样在执行过程中项目相关各方都遵循统一的计划来执行和监控,执行过程中的计划和协调工作会大大减少,如图5-3所示。

规划的重要作用还在于“处理不确定性”。项目前期,与项目有关联的相关部门(利害关系者)对项目的影响很大,由于利害关系者的原因而使规划发生变更的概率非常高,而此阶段变更的成本相对较低,一旦到工程施工后期,情况则正好相反。因此,这也是重视规划的另一个原因。项目不同阶段变更的代价及利害关系者对项目的影响如图5-4所示。

在规划过程中应多听取利害关系者的意见,对项目的成功将非常有帮助。

图5-2 无计划的情况下,项目执行的实际情况

图5-3 有计划情况下,项目执行的实际情况

图5-4 项目不同阶段变更的代价及利害关系者对项目的影响

在编制计划完成后,就有了一个确定的路线图。由于数据中心的建设是在复杂多变的情况下实施的,要确保实现最终目标,需要在计划资源时增加一定的储备量,以应对复杂多变的项目环境。 在编制计划并排除不确定性的过程中要明确一个概念:高复杂性≠高不确定性,高风险不取决于高复杂程度,而主要取决于是否有数据中心建设的工程实践经验。没有做过数据中心建设,则项目实施的风险相对较高,主要原因在于没有可利用的经验数据。 在规划过程中需要做的主要工作:

(1) 制订项目管理计划。在这个过程中,规划过程项目组应邀请所有的利害关系者参与,如设计单位、数据中心的使用部门、数据中心的运维管理部门等。该计划将明确如何规划、执行、监控及结束该项目阶段的基本信息。

(2) 范围规划和定义。该过程将产生数据中心施工过程的范围说明书和范围管理计划,以便指导项目组对项目范围进行有效的管理。范围定义一定要准确,才能使工作范围不蔓延。

(3) 制作工作分解结构。该过程的重要输入是数据中心的设计图纸和详尽的项目范围说明书,详细列明工程施工所需的材料列表。

(4) 活动定义。主要的目的是识别为完成各个单项可交付成果所需要的具体活动。如:建设数据

中心需要1000m2防静电地板,根据该输入条件可以知道,要完成1000m2地板的安装工程需要有以下活动:地板搬运、地板支架的安装、地板面的安装。

(5) 活动排序。依据数据中心施工过程,对各项活动进行排序。如在安装防静电地板之前需要完成地面的清洁、保温面的铺设。将数据中心施工的诸过程按先后顺序进行合理排序。

(6) 依据活动资源估算及持续时间估算制定进度表。分析活动的顺序、持续时间、资源要求和总体进度要求,制定出工程施工进度表、进度基准和项目日历。

(7) 费用的估算和预算。费用估算是为取得完成数据中心施工建设所需各种资源费用近似值的过程。费用估算的准确度在-25%~+25%之间,该估算在施工图设计完成时提交。在数据中心工程施工前需要确定预算,准确度应在-5%~+5%之间,在这个过程中,要制订出资金需求管理计划。 (8) 质量规划。制定数据中心建设的质量标准,确定哪些标准与工程施工相关,以及要达到这些标准要求所必需的过程。需要制订出项目管理计划、质量测量指标、质量核对表和质量基准。 (9) 人力资源规划。识别项目角色、责任、报告关系并形成以下文件:项目组织图、人员配备管理计划。

(10) 沟通规划。确定项目相关各方的信息与沟通所必需的过程,制订出沟通管理计划。 (11) 风险管理规划。决定如何对待、规划和执行数据中心施工过程中风险管理活动。通过风险识别和分析,制订出风险登记册和风险管理计划。

(12) 采购和发包规划。确定采购对象,如何采购。应制订出采购管理计划、采购文件、评价标准及合同工作说明书。 3) 执行过程组

执行过程指导与管理工程施工。主要完成项目管理计划中所确定的各项工作,以满足项目要求。其工作重点是有效的协调人与资源,主要有以下过程:

(1) 指导与管理项目执行。指导在施工过程中各类技术和组织界面,执行管理计划中确定的工作。 (2) 实施质量保证。按照计划实施开展施工质量保证活动,确保使用了所有必需的施工过程以满足要求。

(3) 项目团队的建设。改善团队成员的胜任能力和彼此间的配合,以提高项目业绩。 (4) 信息发布。按沟通规划,向与项目相关的各方发布项目信息。

(5) 询价与卖方选择。依据采购规划,取得信息、报价、投标书或建议书,审核报价书,在潜在卖方中选择合格者,并与其谈判并签订合同。在该过程中,如业主对项目非常了解,可要求卖方提供投标书,此时价格是关键;如业主对项目不了解,可要求卖方提交建议书,此时解决方案是关键。 4)监控过程组

监控过程贯穿于数据中心工程施工的启动、规划、执行和收尾的所有过程,观察工程施工的执行情况,及时发现潜在的问题,在必要时采取纠正措施,进而控制项目施工的各个过程。主要有以下工作:

(1) 监控项目工作。通过收集、测量、分发绩效信息,评价测量结果和估计趋势以改进施工过程。 (2) 变更控制。控制造成变更的因素,确保变更带来对项目有益的结果,在变更发生时对其进行管理。

(3) 范围核实与控制。核实施工范围,验收已完成的分项分部工程。控制范围变更。

(4) 进度控制。监控施工进度,当进度不符合要求时实施纠正措施,使施工进度符合计划要求。 (5) 费用控制。控制工程施工费用的变更。

(6) 实施质量控制。在项目施工过程中,应监控施工单位是否实施了质量保证措施,推荐预防措施和纠正措施。

(7) 项目团队管理。观察团队成员的表现,解决问题以便增强施工执行效果。

(8) 风险监控。跟踪项目施工过程中的已知风险,监视残余风险,识别新风险,实施风险应对计划。

(9) 合同管理。管理合同以及买卖双方的关系,审查并记载卖方合同的履行。 5)收尾过程组

收尾过程是指正式结束数据中心工程的施工过程,将数据中心交给运维管理部门进行管理,该过程包括:

(1) 项目收尾。对于数据中心的施工,项目收尾只有一个,在这个过程中有行政收尾、交付施工成果和对施工过程进行总结,同时提供合同收尾程序,用于指导合同的收尾工作。

(2) 合同收尾。对于中小型数据中心的工程建设,合同相对较少;对于大型和超大型数据中心,合同可能非常多,合同收尾可能要进行多次。 2. 过程组间的相互关系和交互作用

项目管理过程组之间是以它们所产生的成果相互联系,一个过程的成果一般成为另一个过程的依据或成为数据中心的最终交付的成果,如图5-5所示。因此,在数据中心的施工过程中,要有效的管理项目实施,必须重视每一个过程组。

图5-5 五大过程组之间的关系

五大过程组中的启动过程是一个承诺的过程,这个过程是上下级之间的承诺过程,上级承诺数据中心的建设目标,并授权下属可动用的资源;下级承诺保证完成数据中心的工程施工任务等。获得授权后,下属就要兑现承诺,首先要制订计划,然后执行计划。在执行的过程中要强调控制,控制是把实际执行情况和计划做对比,发现偏差并进行分析和判断。根据偏差可接受程度,采取相对应的措施。数据中心建设项目是否完成,是否可以结束项目,需要以计划阶段确定的验收标准来衡量。各过程不是互相独立的关系,而是相互重叠的关系,如图5-6所示。

图5-6 数据中心建设施工阶段过程组之间的重叠 3. 数据中心施工管理的九大领域

在数据中心的工程施工过程中,将涉及项目的整体管理、范围管理、时间管理、费用管理、质量管理、人力资源管理、沟通管理、风险管理和采购管理九大领域。

(1) 项目整体管理:强调统一并协调各项目管理过程组中不同过程与项目管理活动所需进行的各种过程和活动,使项目管理计划从无到有、由浅入深,指导并管理项目的执行,并通过分析执行与计划之间的差异,对项目计划的差异和变更进行控制,并在过程中总结经验。

(2) 项目范围管理:明确数据中心施工项目目标,界定工作内容,并将建设项目的目标分解到可以独立外包的程度,形成工作分解结构(Work Breakdown Structure,WBS),并以此作为控制项目范围变更的基准。在范围管理方面,我们要强调在数据中心的施工过程中,完成且只完成确保数据中心项目顺利完工所必需的全部工作。应该避免和防止“镀金”和“范围蔓延”情况的发生。 (3) 项目时间管理:在数据中心施工项目范围明确后,对项目目标进行进一步分解,并最终完成项目进度表的制作,并以该进度表作为施工过程的时间基准,以进度表衡量施工过程中的进度绩效。通过进度控制系统所规定的程序对进度变更加以控制,其目的是确保数据中心的建设项目按时完成。 (4) 项目费用管理:通过估算、整合,形成项目管理费用基准。该基准是一条线,而非一个数值。通过该基准可以知道在数据中心建设过程中,每一时间点应该花费的金额。对项目费用变更加以控制,目的是确保项目按照规定的预算完成。项目的进度和费用绩效都可以通过实现价值的技术进行测量,

二者互为支撑,互相约束,加上数据中心项目建设的质量要求,就构成了项目管理的三大约束条件。 (5) 项目质量管理:目的是达到数据中心施工项目既定的质量要求。质量管理是从技术层面指导施工项目工作的实施。质量管理大体上可以分为以下三个阶段:质量规划、质量保证、质量控制。 ① 质量规划过程主要应该明确哪些规范和标准适用于数据中心的建设,并且明确如何开展质量管理活动,建立质量管理工作流程,最终形成质量管理计划和质量基准,作为项目管理计划的一个组成部分和质量审计的依据。在质量规划的过程中,正确选择和识别适用的规范和标准非常关键,一定要避免那些不适用的标准被包含在质量管理计划之中,无谓的增加质量管理的成本。

② 质量保证是按质量管理计划开展质量管理工作,在这个过程中要严格遵守质量管理工作流程。实施质量保证可以由项目管理主体组织内部的相关部门来完成,也可以由组织外部的机构或人员来完成,如由监理公司承担该项工作。

③ 质量控制的关键是及时发现施工过程中的低效和不合规项,实施质量改进和缺陷补救,避免将不合格的交付成果带入下一道工序或下一项目阶段。可以根据项目的具体情况,适时的组织和开展质量审计工作,以保证工程项目的质量不低于质量基准的要求。在质量管理的过程中,高级管理层必须重视质量管理,项目管理团队应认识到现代质量管理的一个基本准则:质量是规划出来的,而不是检查出来的;预防胜于检查,防患于未然的代价总是小于检查所发现错误的纠正代价。 (6) 项目人力资源管理:针对项目管理实施主体——人及其组织的管理工作。

(7) 项目沟通管理:将施工项目的信息及时地传递给需要信息的人,确保信息上传下达的顺畅。 (8) 项目风险管理:不是只强调监控管理风险带来的威胁,还应强调要从风险中看到机遇,并要求对风险尽早识别、分析、应对,强调对风险征兆的管理,将风险带来的负面影响消除在萌芽状态,或使其向有利于项目的方向转化发展。

(9) 项目采购管理:就是如何利用组织外的资源满足数据中心建设项目需求。 4. 数据中心建设的三大目标

工程施工管理是相互关联又相互制约的过程。在项目施工的过程中,项目管理人员应充分理解工程建设过程中的三大目标,即质量、时间、成本。应采用合理的方法、手段和工具使数据中心施工项

目在预期的时间和费用内达到规定的目标。

在三大目标中,其中一项发生变化,另外两项会随之发生变化。因此,项目管理的三大目标也称为三大制约因素。应确立“质量目标第一、进度目标第二、成本目标第三”的原则,因为质量对建设项目的影响是最深远的。

非常重要的一点是,在制定三大目标时一定要科学合理。质量目标要切合实际,不应无谓追求最高质量标准,否则,建设成本将大幅提高;在制定工程进度目标时,应尊重自然规律和施工工序要求,尽量避免赶工,否则工程质量将受到影响,成本也会增加。尽量避免,边勘探、边设计、边施工的“三边工程”;成本目标的制定必须依据项目的建设规模、系统的复杂性、建设材料和设备的档次、项目建设周期来制定,一旦建设资金受到限制时,不应以降低工程质量为代价。

需要强调的是:高价格≠高质量,低价格≠低质量。数据中心的产品质量包含以下两个方面:一是施工过程中选择的施工材料和设备的质量,二是工程施工质量,二者必须结合起来,才能满足数据中心的建设要求。

5. 项目施工过程中应注重合同与流程

项目管理过程中,对于外部单位,合同是工程管理的“宪法”;对于内部,完善的流程是项目成功的关键。

数据中心的建设,通常要求同时或先后有多个合同要进行管理,项目管理团队必须关注项目合同管理,因为合同的条款和条件会成为管理过程的关键依据,如产品或项目的验收依据、时间进度要求、工程造价目标等,同时还包含产品交付后的后续保修服务,对数据中心的后期运营具有至关重要的作用。

对于建设方来讲,风险最小的合同形式为“固定总价合同”。如建设方对时间进度有特别要求,为鼓励卖方提前完成项目,也可在进度目标上采取奖励措施,以补偿施工单位在项目赶工时所增加的施工成本。

完善的项目管理流程对项目成功具有非常重要的作用。管理流程是在项目规划过程中建立,用于指导项目团队成员的具体工作,让成员在进行项目管理时能够按照特定的程序完成相应的工作,这样

做通常会得到良好的结果。许多建设方都存在“重制度,轻流程”的现象。在实际工作中会发现,只有制度是不能有效管理项目的,完善的流程在项目管理中更重要。

在数据中心的建设过程中,应根据项目自身的特点,有针对性地设立工程管理的目标和程序,具体包括:工程质量目标、工期进度目标、成本控制目标、安全管理目标、文明施工目标,招标工作程序、监理工作程序、质量控制程序、工期控制程序、成本控制程序、重要材料控制程序、设计变更程序、隐蔽工程验收程序、竣工验收程序、合同管理程序、信息及资料管理程序等。

5.3 数据中心建设施工测试与验收

5.3.1. 中间验收

1. 中间验收应当具备的条件

承建单位已经按设计要求和合同约定完成需验收的分部分项工程。分部分项工程质量验评资料包括:

(1) 质量保证资料齐全、真实,并与工程进展同步。 (2) 有关原材料、半成品试验和评定合格。 (3) 施工形成的观测数据满足相关规范的要求。 (4) 分项工程自评资料齐全、评定结果符合要求。 (5) 监理工程师对分部工程质量验评资料签署合格。 2. 中间验收程序

(1) 承建单位完成分部工程后,必须先进行自评,自评完成后将分部工程质量验评资料提交监理工程师,申请进行中间验收。

(2) 监理工程师对分部工程质量验评资料进行审查,并参照有关验收规范和验评标准要求对分部工程现场观感质量进行测量和检查。

(3) 若符合验评标准,监理工程师应及时对分部工程质量验评资料进行签署,并通知项目组对分部分项工程进行中间验收。若不符合要求,监理工程师应向项目实施单位下发《整改通知单》,要求其整改完成后再重新申请中间验收。

(4) 接验收通知后,及时组织相关职能部门进行中间验收。

(5) 中间验收通过后,验收参加人员应对其分部工程的质量做出最终评定,并对中间验收资料进行签认。对中间验收中存在的问题,项目管理部门发出《整改通知单》要求工程实施单位落实,并验证封闭。 3. 验收依据

按现行的国家标准、行业标准及合同要求的质量标准规定进行验收,同时应符合国家现行的有关法律、法规、技术标准和设计文件的要求。 4. 中间验收内容

中间验收的具体内容,根据数据中心建设项目管理计划中的具体要求和监理执行大纲的要求,结合项目所包含的专业来确定。 5.3.2. 系统测试

系统测试是将经过验收测试的单机或单系统形成一个完整系统来测试。它是检验数据中心基础设施是否确实能提供系统方案说明书中指定功能的有效方法。

系统测试的目的是对最终数据中心基础设施进行全面的测试,确保最终的系统满足运行需求。系统测试过程中发现的所有缺陷必须及时消除。 1. 数据中心系统测试的主要内容

功能测试。即测试单系统的功能是否完全,其依据是需求文档,如《产品需求规格说明书》。由于功能性是最重要的质量因素,所以功能测试必不可少。

性能测试。即测试系统各项工作指标,一是为了检验性能是否符合需求,二是为了得到某些性能数据供人们参考。

安全性测试。是指测试系统运行安全。 2. 系统测试的过程

首先要定义测试策略,并进行工作量估计,编制详尽的测试计划。然后按测试计划开展单系统的具体测试活动并记录测试结果。如果单系统测试符合要求,将转入数据中心机电系统联调验收测试阶

段。系统联调验收的测试合格后,数据中心建设工程才可进入竣工验收流程。 5.3.3. 竣工验收

竣工验收的主要目的是将建设项目按规定的程序进行移交,以结束项目。 1. 单位工程竣工验收

数据中心建设过程中,以单位工程或某专业工程内容为对象,独立签订建设工程施工合同的,当达到竣工条件后,可单独进行交工,发包人根据竣工验收的依据和标准,按施工合同约定的工程内容组织竣工验收,这样可以比较灵活的对项目进行管理。单位工程是单项工程的组成部分,需要有独立的施工图纸,原施工合同已有约定的,可进行分阶段验收。 2. 单项工程竣工验收

在数据中心总体建设项目中,一个单项工程或一个机房模块,已按设计图纸规定的工程内容完成,能满足生产要求或具备使用条件,则根据施工合同的约定进行竣工验收。应重视竣工资料的完整性。 对于设备安装工程的竣工验收,则要根据设备技术规范说明书和单机试车方案,逐级进行设备的试运行。验收合格后应签署设备安装工程的竣工验收报告。 3. 全部工程竣工验收

整个数据中心的建设项目已按设计要求全部建设完成,并已符合竣工验收标准,业主应组织设计、施工、监理等单位和档案部门进行全部工程的竣工验收。全部工程的竣工验收,应在单位工程、单项工程竣工验收的基础上进行。对已经交付竣工验收的单位工程(中间交工)或单项工程并已办理了移交手续的,不用再重复办理验收手续,应将单位工程或单项工程竣工验收报告作为全部工程竣工验收的附件加以说明。

全部工程竣工验收的主要任务是:负责审查建设工程的各个环节验收情况;听取各有关单位(设计、施工、监理等)的工作报告;审阅工程竣工档案资料的情况;实地察验工程并对设计、施工、监理等方面工作和工程质量、试车情况等做综合全面评价。承包人作为建设工程的承包(施工)主体,应全过程参加有关工程的竣工验收。

第六章 数据中心专业化运维和管理

第6章 数据中心专业化运维

数据中心作为信息与信息系统的物理载体,目前主要用于与IT相关的主机、网络、存储等设备和资源的存放、管理。只有运维好一个数据中心,才能发挥数据中心的作用,使之能更好地为业务部门提供强大的支持能力。本章从IT服务商的角度对数据中心运维管理进行系统的介绍,其出发点在于运维的精确控制、管理水平和服务质量的持续提高,对于其他类型的数据中心建设模式也有较高的参考价值。

6.1 数据中心运维管理概述 6.1.1. 运维目标

从数据中心角度来看,数据中心运维管理就是:为提供符合要求的信息系统服务,而对与该信息系统服务有关的数据中心各项管理对象进行系统的计划、组织、协调与控制,是信息系统服务有关各项管理工作的总称。数据中心运维是数据中心生命周期中最后一个、也是历时最长的一个阶段。所谓生产运维期指的是从数据中心项目交付使用,直到项目废除的全过程,也就是项目进行生产运维活动,收回投资,以实现预期投资目标的周期。在此阶段的运维管理,将依托于数据中心已交付的基础设施,通过科学的管理,最终使数据中心得以实现服务与经济上的目标。简单地说,运维管理就是用好、管好已建设交付的数据中心。因此,在数据中心生命周期中,运维管理主要肩负起以下重要目标:合规性、可用性、经济性、服务性四大目标。 1. 合规性

合规性,要求数据中心在运维管理过程中能避免违反任何法律、法规、标准与合约文件等规定。这里要求数据中心在运维管理的管理框架设计与执行全过程(包括人员使用、流程设计、产品部署与厂商管理等),能充分考虑有关文件的要求,并在运维管理过程中留下相应的记录,建立起相应的管理评估机制,以向利益相关方证明其能达到合规性的目标。 2. 可用性

可用性,要求数据中心在运维管理过程中能保证数据中心各功能组件保持支持既定功能的能力。这里要求数据中心在运维管理过程中能准确识别相关功能组件,了解该组件的设计能力,定义与该组件技术特点相匹配的监控指标,并通过主动与被动的管理,最大限度地保证数据中心各管理组件的可用性。 3. 经济性

经济性,要求数据中心在整个运维管理周期中实现数据中心预先要求的财务目标。这里要求数据中心在运维管理过程中,要建立IT财务机制,一方面通过合理的财务预算、会计、成本分析等手段准确、及时地分析、记录运维管理过程中的各项支出;另一方面要制定相应的计价模式,将数据中心运维过程中的成本合理地分摊。此外,要通过财务管理,使数据中心在运维管理上实现成本与其他管理目标的相对平衡。 4. 服务性

服务性,指数据中心应建立服务导向型的运维管理框架。要从服务的角度出发,分析客户与数据中心的各种交互界面,以此为源头构建各种管理流程,最终形成整体管理框架。比如,数据中心在管理体系的设计上可以参考ITSM(IT服务管理体系)的要求,建立服务台、服务水平管理、业务关系管理等流程,以此来驱动后台运维管理工作。 6.1.2. 运维对象

如前所述,数据中心的运维管理指的是与数据中心信息服务相关的管理工作的总称。因此,在探索数据中心运维管理方式之前,必须要理清数据中心的运维对象,才能针对数据中心特定的运维对象建立相应的管理模式。数据中心运维对象共分成5类,如图6-1所示。

图6-1 数据中心运维对象

第一类运维对象是基础设施部分。这里主要指为保障数据中心所管理IT设备正常运行所必需的网络通信、电力资源、环境资源等。这部分设备对于客户来说几乎是透明的,因为大多数客户基本上只关注业务,并不会关注到数据中心的风火水电。但是,这类设备如发生意外,对依托于该基础设施的IT应用来说,却是致命的。基础设施部分的主要内容如图6-2所示。

图6-2 数据中心基础设施

第二类运维对象是在提供IT服务过程中所应用的各种IT设备,包括存储、服务器、网络设备、安全设备等硬件资源。这类设备在向用户提供IT服务过程中提供了计算、存储与通信等功能,是IT

服务最直接的物理载体。

第三类运维对象是系统与数据,包括操作系统、数据库、中间件、应用程序等软件资源;还有业务数据、配置文件、日志等各类数据。这类管理对象虽然不像前两类管理对象那样“看得见、摸得着”,但却是IT服务的逻辑载体。

第四类运维对象是管理工具,包括了基础设施监控软件、IT监控软件、工作流管理平台、报表平台、短信平台等。这类管理对象是帮助管理主体更高效地管理数据中心内各种管理对象,并在管理活动中承担起部分管理功能的软硬件设施。通过这些工具,可以直观感受并考证到数据中心如何管理好与其IT直接相关的资源,从而间接地提升IT的可用性与可靠性。

第五类运维对象是人员,包括了数据中心的技术人员、IT运维人员、管理人员以及提供服务的厂商人员。人员一方面作为管理的主体负责管理数据中心运维对象,另一方面也作为管理对象,支持IT的运行。这类对象与其他运维对象不同,具有很强的主观能动性,其管理的好坏将直接影响到整个运维管理体系,而不仅仅是运维对象本身。所以,下文将有专门章节探讨对人员的管理。 6.1.3. 运维要求

由于数据中心运维对象涉及种类比较多,从供配电设施到IT设备、到应用系统、到各类人员,这无疑要求数据中心的运维管理应能适应上述所有的管理对象。另外,作为IT服务的物理载体,客户对IT服务实时性、安全性、可靠性等的要求最终将内化为对数据中心运维管理的要求。最后,如果该数据中心要通过一些专业认证,或为一些特殊行业提供IT服务,其运维管理必须符合相关标准与行业规范。以下列举了部分运维管理方面的要求。 1. 信息安全的要求

随着技术的广泛应用与信息的转型,信息对机构来说,已经变得与土地、人力与资金等传统资源同等重要。另外,随着信息面临的威胁逐年增加,如病毒、钓鱼网站、间谍软件、错误操作、越权使用、人员安全等,作为承载客户信息系统运行的数据中心而言,信息安全绝对是其运维管理的重要要求。

2. 运维管理服务化的要求

随着客户对IT系统依赖程度的增加,数据中心的工作质量将直接影响到客户的业务、市场甚至是公司形象等。由于信息系统宕机导致企业一天遭受数千万元的损失,甚至被监管机构处罚的例子屡见不鲜。这个变化使得数据中心的运维管理逐渐浮出水面,数据中心运维管理团队已从原来的机房管理者演变成了IT服务的提供者。如何定义数据中心工作与服务的关系,如何建立与客户之间的服务水平协议,如何快速地支持客户业务的IT服务需求,如何规划好IT系统建设更好地为业务部门提供发展的动力等,均成为数据中心运维管理规划过程中不可或缺的一部分。 3. 全面质量管理的要求

数据中心运维管理的目标之一就是要保障用户IT服务的按质提供,该目标又可细分成基础设施的可用性、IT设备的可用性、配置管理的有效性、人员对设备操作的熟练程度、服务商管理的到位程度等多个方面。由于数据中心与制造企业不同,上述服务性的工作毕竟无法像工业产品那样容易衡量质量,而且就算是在检查的时候服务质量是合格的,也无法确保在需要该服务时服务质量也是合格的。因此,如何做好全面的质量管理是数据中心运维管理的主要内容。 4. 管理制度体系化的要求

数据中心作为一个新生事物,对其运维管理也是近年才兴起的一门学科。因此数据中心的运维管理制度主要靠运维人员利用以往的经验,并总结数据中心管理过程中的经验教训而逐渐建立起来的。这样的管理制度能满足一定的管理要求,但由于没有一个标准的指导,而且在搭建初期主要遵循从下而上的方式,从而导致整个制度的体系化不足。这种体系化不足的缺陷会导致企业管理出现零散化,也就是当组织面临一个新的工作或管理要求时就会产生一个新的制度,而该制度与原有制度之间的关系则难以进行整合,最终会使管理者无所适从。 5. 管理制度测量的要求

随着IT技术应用的广泛和深入,以及精细化管理的提出,量化管理已成为许多成熟企业努力的方向。作为直接支撑IT服务的数据中心来说,也需要导入这种量化的管理方式,用数字来说话。这就要求数据中心在构建运维管理体系时,要考虑将来的测量需求,并在流程中预留这些测量点,最后通过报表、记录的输出,达到对该制度进行测量的要求。

6.2 数据中心运维管理框架

6.2.1. 运维管理框架4Ps概述

所谓数据中心运维管理框架是指管理一个数据中心所使用的方法与手段的总称。那么,应该用什么样的方法与手段来管理数据中心呢?在此,信息技术基础架构库(Information Technology Infrastructure Library,ITIL)给出了一个比较好的管理框架,即所谓的4Ps。数据中心运维管理框架如图6-3所示。

图6-3 数据中心运维管理框架 1. 人员

人员是数据中心运维管理的基础,也是数据中心运维管理的核心。一个好的数据中心运维管理框架,少不了合适的技术和管理人员。从前面数据中心运维管理概述中,可以看到数据中心所需要管理的对象,包括基础设施、IT设备、系统与数据、管理工具和人员等。只有具备相应知识背景与管理经验的人,才能有效地整合上述资源,为客户提供符合质量与合同要求的IT服务。因此,在考虑建设数据中心运维管理框架时,必须要考虑到:如何建立起一套科学合理的包括选、用、培养、考核及解聘的人员管理生命周期;如何通过合理的组织架构设计与人员分工,最大限度地发挥个人的主观能

动性,为组织目标贡献力量等。 2. 流程

流程是数据中心运维管理质量的保证。作为客户IT服务的物理载体,数据中心存在的目的就是保证服务可以按质、按量地提供。服务与产品有着许多的不同,其中最核心的不同在于服务本身是看不见、摸不着的,但又是能通过服务商与客户的互动为客户所感受到的。为确保最终提供给客户的服务是符合服务合同的要求,数据中心需要把现在的管理工作抽象成不同的管理流程,并把流程之间的关系、流程的角色、流程的触发点、流程的输入与输出等进行详细定义。通过这种流程的建立,一方面可以使数据中心的人员能够对工作有一个统一的认识,更重要的是通过这些服务工作的流程化使得整个服务提供过程可被监控、管理,形成真正意义上的“IT服务车间”。 3. 产品

产品是数据中心运维管理的加速器。数据中心运维管理涉及的对象庞杂,且重复性工作较多。若完全依靠人工去完成这些工作,一方面对人员的技能与数量有较高的要求,另一方面在工作质量的保证方面也存在风险。为此,越来越多的数据中心在开展运维管理工作时使用大量工具,目的是通过这些工具的部署取代一些监控、操作、配置文件、工作流管理等大量重复性工作,最终实现提升运维水平、降低运维风险、减少运维成本的目的。 4. 服务商

服务商是数据中心运维管理的支持者。作为专业化的数据中心运维管理,有效地整合数据中心管理对象,并最终为用户提供专业化的服务才是数据中心服务提供者的核心价值所在。而且,数据中心运维管理中涉及了太多不同种类的设备,数据中心也不可能把所有的技术与管理工作独自承担。聘用一批既懂变压器、发电机、UPS,又了解空调、消防、防火设备,同时还精通IT相关软硬件的人员,对于任何一个企业或机构均是极大的成本支出。所以,数据中心需要与许多设备供应和服务提供商建立良好的战略合作关系。 6.2.2. 运维管理的人员要求

如前所述,人员既是数据中心运维管理的基础,也是数据中心运维管理的核心。一个数据中心组

建团队时应注意什么呢?以下重点就人员技能、人员分工与人员管理三个方面谈一下数据中心运维管理方面的人员要求。 1. 人员技能

现在回到数据中心的运维对象来分析数据中心需要配备怎样的人员。数据中心人员技能构成如图6-4所示。

图6-4 数据中心人员技能构成

基础设施操作和技术人员。这类人员的主要职责是保障与数据中心服务相关的基础设施的稳定运行。他们应掌握数据中心各类基础设施的原理、使用方式、维护方式,并具备简单故障诊断的能力。而且还能协助开展数据中心场地、设备性能的能力管理与可用性管理。由于数据中心业务的特殊性,这类人员需能支持7×24小时服务。

IT设备与IT系统的操作或技术人员。这两类人员的主要职责是保障客户IT服务相关的设备与系统的稳定运行,同时根据客户的要求完成IT系统的检查、后台操作、批作业处理、备份、恢复等相关工作。如果数据中心规模较大,将会按技能的不同将IT人员分成硬件类与系统类的两组人员。如果数据中心规模较小,通常会将这两组人员合并,统一负责数据中心所有IT设备与系统的操作与维护。

系统工具管理人员。这类人员与IT设备、系统管理人员最大的不同就是服务对象的区别。前面的IT设备、系统管理人员是围绕客户相关IT设备与系统提供服务,而系统工具管理人员则类似于内部的IT部,是为包括IT运维管理人员、IT系统技术操作人员、IT设备技术操作人员、基础设施技术操作人员在内的所有人员提供服务。而服务的手段主要是通过对现有技术管理工作进行分析,找出数据中心管理的诉求,并通过向外采购或自行开发的方式以技术的手段去满足上述管理诉求。他们对于数据中心外部的供应商来说,承担了管理者与项目经理的角色,对于数据中心内部的技术管理人员来说,则承担着需求分析、技术支持的角色。

IT运维管理人员。这类人员主要的职责是通过建立有效的管理模式,组织上述所有人员,管理好所有的管理对象,按质按量地向客户提供数据中心业务服务。这些人员应具备数据中心管理基本知识,了解与之相关的国内外管理标准,具备相应的流程建设与实施能力、良好的客户沟通能力和较好的财务知识。 2. 人员分工

数据中心在人员的分工上通常有两种做法:一种是职能支撑型的组织分工,另一种是流程驱动型的组织分工。

1) 职能支撑型分工模式

职能支撑型分工模式主要是把具备同样技能与类似工作目标的人员整合在一个部门当中,他们承担起数据中心的部分职责,部门内的成员向部门领导汇报,部门领导向中心领导汇报,类似于管理学中的“直线-职能型”的组织分工。数据中心组织分工如图6-5所示。

图6-5 职能支撑型的分工模式

该种分工的优点为:既保证了企业管理体系的集中统一,又可在各级负责人的领导下,充分发挥各专业管理机构的作用。其缺点是:职能部门之间的协作和配合性较差,职能部门的许多工作要直接向上层领导报告请示才能处理,不仅加重了上层领导的工作负担,也造成办事效率低,组织内耗大等问题。这种组织适用于企业规模较小、业务系统相对稳定、项目工作不多、并为企业内部提供IT服务的数据中心。在这种情况下,数据中心的运维管理相对比较稳定,按此种方式组织的工作团队,可以较高效地开展工作。同样由于外部环境比较稳定的原因,许多工作的分工可以提前制定并加以明确,无需部门之间太多的沟通协调,从而避免了这种组织架构的最大缺陷之一——“跨部门合作”。 2) 流程驱动型分工模式

流程驱动型分工模式特征为既有按职能划分的垂直领导系统,又有按客户(项目)划分的横向领导关系的结构。其中,垂直领导侧重于人员与能力培养的管理,横向领导侧重于与客户服务、项目工作相关的管理。这种分工模式从组织的角度去看,可以看到企业内存在不同的职能部门与人员,这些人员是如何支持到不同的项目虚拟团队当中,如图6-6所示。

这种分工模式的优点在于,可以改进“职能支撑型分工模式”横向联系差、缺乏弹性、客户/项目关注程度不高的问题。它的特点表现在围绕某项专门任务、或某个客户成立跨职能部门的专门机构

上。例如,组成一个专门的客服团队去从事该客户服务相关的工作,在系统设计、系统集成、系统上线、系统运维各个不同阶段,由相关部门派人参加,力图做到条块结合,以协调有关部门的活动,保证任务的完成。这种组织结构形式是固定的,人员是相对不固定的,任务完成后就可以离开。人员的调动主要依靠相关工作流程,各部门人员在不同的流程中承担相应的角色职责,通过在流程中不同角色的工作来实现这种虚拟团队的合作。此外,由于这种分工模式基于多项目、多数据中心管理,故新增项目或数据中心不会对组织带来太大的影响。

这种分工模式的不足为:项目负责人/客服经理的责任大于权力,因为参加项目的人员都来自不同部门,隶属关系仍在原单位,只是为“会战”而来,所以项目负责人对他们管理困难,没有足够的激励手段与惩治手段,这种人员上的双重管理是矩阵结构的先天缺陷;由于项目组成人员来自各个职能部门,当任务完成以后,仍要回原单位,因而容易产生临时观念,对工作有一定影响。

这种分工模式适用于客户种类较多、服务要求不一致,数据中心较多的企业类型。但前提在于要在企业内部建设起较好的管理流程与人员激励机制,且垂直机构有较强的人员培养能力。 3. 人员管理

考虑到人员管理对数据中心运维管理相当重要,因此需要针对企业用人的生命周期,结合一些安全的控制来建立对数据中心人员的管理体系。 6.2.3. 运维管理的流程要求

数据中心建立的管理流程除应满足数据中心自身特点外,还应能兼顾客户、管理者、服务商与审计机构的需求。由于每个数据中心的实际运维情况与管理目标存在差异,数据中心需要建立的流程也会有所不同。为能让读者对数据中心运维管理流程可能涵盖的范围有一个较为全面、规范的了解,本节以基于ISO20000、ISO27001、ISO9001和ITIL等标准要求而建立的商业数据中心为例,介绍数据中心在运维管理流程建设方面的要求。 1. 运维管理流程的范围

数据中心管理框架应包含以下七个管理领域:

(1) 体系管理平台:以ISO9001质量管理体系框架搭建的管理平台作为管理接口。管理层通过

这些流程制定管理方针目标,测量目标的执行,监督流程管理效果,执行PDCA(即Plan、Do、Check和Action)循环,以改进数据中心绩效,管理数据中心各类资料文件。

(2) 资源管理域:包含数据中心内部人员、网络、设备、基础设施、环境等资源的管理流程,是数据中心统一管理的内部资源。

(3) 服务管理域:包括与客户交互的相关流程文件,是数据中心与客户的管理接口。

(4) 服务支持管理域:包括数据中心内部运作过程中的事件、问题、变更、发布处理流程等。 (5) 服务交付管理域:数据中心财务管理、服务的策划和变更、可用性管理、容量管理、业务连续性管理等方面的管理内容。

(6) 资源信息管理域:包括数据中心的信息资产管理、配置管理、输入/输出管理、风险评估等工作的管理。

(7) 厂商管理域:包括服务商管理的相关流程,是服务商与数据中心管理的接口。

以上7个管理域所构成的管理体系框架内的流程,按照ISO9001标准的要求被划分为4阶文件。 第一阶文件是“手册”,包含体系管理平台部分的全部文件。用于管理层对整个管理体系进行管理,制定方针目标、进行管理评审等工作。

第二阶文件是“指南”,该阶文件根据数据中心各部门的职责规定了某一具体业务的流程,并涵盖了除“体系管理平台”外其余6个管理域的文件。公司管理层可以通过这一阶文件规定各部门的工作范围及业务在各部门间的流转过程。

第三阶文件是“工作指引”,是数据中心各部门根据第二阶文件要求编写的具体部门的具体业务操作手册。同样涵盖了除“体系管理平台”外其余6个管理域的文件。该阶文件是数据中心各部门管理其内部工作的重要依据,也是员工执行管理体系的指导文件。

第四阶文件是“支持性文件”,包括支持业务流程运行的各类表单、技术文件。该阶文件记录数据中心各项业务流程运行的具体情况,还可作为体系运行结果的直接证据。 2. 体系管理平台

体系管理平台用于管理层对整个管理体系进行管理,制定方针目标、进行管理评审,持续的改进

数据中心的各项流程制度。它是以ISO9001质量管理体系为基础搭建的管理整个数据中心运维管理体系的管理平台。主要作用有两项:

(1) 为数据中心的管理层提供管理整个数据中心运维体系的界面。数据中心通过管理平台内的流程,进行方针、目标的制定、企业内部资源的分配、流程文件的修订发布、管理流程执行效果的审核、管理评审、运维数据的收集评审、执行持续改进运维体系的措施、调整管理体系框架等工作。 (2) 为外部审核机构及客户了解数据中心的管理体系框架提供参考。 体系管理平台的文件主要包括8个,分别是:

(1) 管理手册:描述管理体系的框架结构、执行范围、组织结构及各部门的主要职责。 (2) 适用性说明:描述管理体系所遵循标准的适用条款及不适用条款的说明。

(3) 文件管理手册:用于规定数据中心管理体系内的文件修订、发布、废止、文件版本控制、文件标示控制、文件保管的规定、文件的废止销毁流程。

(4) 记录和资料管理手册:用于规定各类文件资料的保密等级及使用权限控制规定、查阅权限及保密资料的查阅申请流程、记录资料的保管规定(例如,保管期限、保管部门、记录资料的作废、销毁规定等)。

(5) 内部审核手册:规定了数据中心进行内部管理体系审核的周期,审核范围,内部审核员的选用方式,执行内部审核的流程,各部门在内部审核中的职责,审核后的纠正预防措施的制定、执行工作,纠正预防措施执行效果的监督检查工作。

(6) 纠正预防措施手册:用于规定整个管理体系在审核、管理评审过程中发现的需改进工作的纠正预防措施的制定、执行、监督检查工作的流程,以确保纠正预防措施被有效落实。

(7) 管理评审手册:用于管理层评估管理体系的运行效果,评估公司各项方针指标的执行情况,修订方针、目标,适时修订体系文件。

(8) 不合格控制手册:规定了服务不合格的概念及发生服务不合格后的处理方法。 3. 资源管理

数据中心资源管理所涵盖的范围很广,包括环境管理、网络管理、设备管理、软件管理、存储介

质管理、防病毒管理、应用管理、日常操作管理、用户密码管理和员工管理等。 1) 环境管理

数据中心环境安全管理的重点在于如何根据不同区域的特点使用不同的安全管控和出入原则。对重点的区域可以选用先进的安全设备,使用严格的进出管理控制制度进行管理。

在制定数据中心环境管理相关文件时,通过对各区域内所存放的信息资产的等级进行分析,将数据中心划分成不同类别的管控区域和安全区域。建议至少划分为3类区域:公共区域、办公区域、安全管制区域。

(1) 公共区域:这些区域通常用于数据中心生活与展示的配套区域。该区域允许员工及获准进入数据中心的第三方、客户在遵守相关制度的前提下自由进出。

(2) 办公区域:数据中心内存放日常行政办公信息处理设备和其他办公设备,开展日常工作的区域。这类区域的进入通常需要办理相关的进入申请,配备有视频监控系统。

(3) 安全管制区域:数据中心内存放核心信息处理设备和供配电等基础设备,开展一线服务工作的区域。这类区域严格限制人员设备的进出,有先进的门禁及监控系统以确保信息系统安全。 在编制环境管理相关流程时应考虑人员进出的要求,还应考虑设备和物品进出的流程。设备和物品的进出应得到正式的审批,特别是对于安全管制区域所有的IT类设备、存储介质应重点控制。 2) 网络管理

网络作为数据中心重要的资源,应制定相关流程予以控制。建议网络管理流程包括如下管理内容: (1) 网络拓扑结构:应明确网络的拓扑结构,创建网络拓扑结构图,并在网络结构变化时及时更新拓扑图。网络拓扑结构的变化应有记录并得到适当的审批,应有专门的人员负责网络拓扑结构的调整。

(2) 网络的访问管理:应将网络划分为不同作用的网段,例如办公网、生产网、管理网,公共网络。规定有权访问各类网络的设备和人员,明确网络接入的申请、审批流程和终止接入的流程,做到网络接入、终止接入过程受控,有专门的人员负责网络接入和终止接入的管理工作。

(3) 网络系统日常维护流程:应有专门的工作指引用于指导网络设备的日常维护,日志的备份、

配置信息的备份。 3) 设备管理

数据中心的设备管理主要包括对设备的固定资产管理,设备维护管理等。数据中心在起草相关流程文件时应关注以下几点:

(1) 编制设备清单:明确设备的所有者、管理维护人员或部门、开始使用的日期、设备的重要等级等信息。此类信息最好悬挂或张贴于设备上或设备周边的醒目位置以便于管理。

(2) 制订设备的维护计划:规定具体设备的维护日期、维护人等信息,并由专人负责按照维护计划进行维护或联系、督促服务商执行维护。

(3) 将设备按重要等级进行分类:设备按照等级分类,并按不同的设备重要等级制定不同的管理策略,最大限度的确保重要设备的运行。 4) 软件管理

数据中心软件管理通常需要关注以下三项内容:

(1) 计算机系统安装软件的管理:对于数据中心的办公用计算机、监控用计算机和生产用计算机来说,其安装的软件应该受到严格的控制,避免员工随意安装软件。从软件管理角度,数据中心应建立可安装软件的认证工作,通过对软件使用的分析建立一张可安装软件的清单,对于清单范围外的软件不允许安装。对于监控、生产用的计算机及可连入生产网的计算机,其安装的软件需经过认证,并对所安装的软件进行记录,定期检查是否存在使用其他软件的情况。

(2) 软件维护及补丁管理:随着各种利用安全漏洞的病毒和恶意程序的增多,软件维护和补丁的更新工作也显得极其重要。对于软件补丁的安装管理应做好以下几项管控工作:补丁的测试、补丁的发放和安装、版本控制,建议补丁的管理由专人负责。

(3) 数据中心软件许可证的管理:随着知识产权意识的提高,是否使用有合法许可授权的软件已经成为越来越多数据中心和客户关注的问题。软件许可证的管理要作为数据中心的一项重要工作。其重点在于管理数据中心所拥有的合法软件许可证,确保在许可证许可范围内使用软件,确保软件的安装有记录可查。

5) 存储介质管理

数据中心经常面临大量的介质管理工作,介质管理工作的成功与否直接影响数据中心的信息安全。一个良好的介质管理工作应包括以下几方面的内容:

(1) 空白介质与有数据介质保存方式的规定:两种介质分开保存并有明显标示以示区别,同时应明确介质的保存地点,做到介质统一保存。

(2) 应制定统一的介质编号、标示原则:对介质作统一的编号标示,便于介质管理。 (3) 有条件时建立介质管理员制度:确保介质的专人管理,可减少介质管理的混乱。

(4) 有数据介质的领用查阅应得到控制:介质领用、报废应有适当的审批过程。应规定清除报废介质内残余数据和销毁处理报废介质的流程,避免信息泄露。 6) 防病毒管理

随着计算机病毒的日益泛滥,防止数据中心的生产设备、办公设备受到病毒侵害已经成为数据中心管理中不可缺少的工作内容。防病毒管理流程主要包括以下几个方面:

(1) 防病毒软件的管理:这里主要包括软件的安装、软件的设置、病毒库更新,软件版本控制、定期查杀病毒等。

(2) 病毒资讯:安排专人随时了解病毒最新信息,可能爆发的病毒类型、染毒后现象及对信息系统的影响,查杀方法等,并将这些信息通过定期通告和随时通报两种方式提醒数据中心相关人员查防。 7) 应用管理

广义的应用管理包括了数据库、中间件和应用系统本身在内的所有管理。它是绝大多数IT服务的“灵魂”。对于数据中心而言,挑战在于要同时管理大量复杂并且相互关联的应用。在这种情况下,除了要建立并运用同样适用于整个应用管理的ITIL流程外,几个适合数据中心应用管理的最佳实践是:

(1) 将应用按重要程度进行分级。毫无疑问,理想情况下,所有的应用都应视为同样“重要”。但是在资源总是相对不足的现实情况下,必须区别对待。因此,在管理数目众多的应用系统时,基本的一点就是根据应用系统所提供的IT服务的重要性来对应用系统进行级别划分,并以此进行归类。

这个级别的定义可以提供应用系统管理维护所涉及的多个流程,包括事件管理、问题管理、安全级别管理等最基本的信息。例如,一个一类应用(最重要)中断1小时和一个四类应用(相对最不重要)中断1小时,显然事件的等级是不一样的。所以,将应用按重要程度进行分级对于更为合理的分配资源有重要意义。

(2) 制作应用地图。首先要制作系统结构图和网络拓扑图,同样,还需要制作应用拓扑图,也称为应用地图。如图6-7所示,应用地图将应用按其功能类别划分为应用群,赋予不同的色块标识进行布局,使其便于统计和管理。一个应用占用一行或一列,在这行或者这列中,从首到尾,分别在每一格列出网络设备、服务器、数据库、中间件,最后是应用。每一格都可以再标示出具体的信息,如服务器的型号,数据库的版本,应用的名称和版本等,从而清晰地表现出各个应用相关的最主要信息。应用地图是快速了解总体应用部署情况,并在应用出现故障时,迅速定位原因,最为直观有效的形式之一。

图6-7 应用地图

(3) 了解应用数据流。虽然应用地图可以帮助快速了解应用和基础系统之间的关系,但是应用和应用之间的逻辑关系却没有展现。所以,对于数据中心而言,深入研究并绘制多个应用系统之间数据的流向是有必要的。应用数据流可以用图形,也可以用表格来表示。应用数目较少时,用图比较直观;

但当应用数目超过一定量时,表格的形式就更为合适。但不管是用图,还是用表,应用数据流都应该至少包含以下几个元素:数据提供的应用系统名称(一般称为上游应用)、提供的数据类型、文件名称、时间、周期、本应用系统名称以及数据接收的应用系统名称(一般称为下游应用)等。如图6-8所示,针对任何一套应用系统,通过应用数据流图,可以很清楚地知道一旦停运,对其他应用系统的影响,这对于事件、问题或变更的影响评估有非常重要的意义。

图6-8 应用数据流图 8) 日常操作管理

数据中心的日常操作管理主要包括数据中心内部生产系统、办公系统、动力设备、环境保护、监测系统的数据处理、操作、维护的管理,以及数据中心信息处理设施、基础设施设备的软硬件运行情况巡检等监控工作的管理。

数据中心应该为每一台设备编制相应的操作工作指引。不建议以服务商或设备制造商提供的使用说明书或技术资料直接作为工作指引使用。工作指引编制应该满足数据中心实际使用的需要,用于指导操作人员在实际环境下操作设备的各项功能。

建议制定相关的巡检工作指引,规范数据中心的日常巡检工作。工作指引应规定巡检的周期、巡检项目、判定设备正常的标准、出现异常后的记录和汇报方式以及事件管理的接口。对巡检设备及内容做成检查表,巡检记录以表格形式呈现。 9) 用户密码管理

用户密码是数据中心运行的重要信息。用户密码的妥善管理可以减少数据中心运行的风险,提高数据中心运行的效率,确保信息的安全。

用户密码管理不完善的数据中心可能会遇到如下问题: (1) 管理员密码丢失(忘记密码)。

(2) 登录时发现密码不正确,不知是谁改过。

(3) 需要对系统进行调整时发现管理员休假,但只有他有密码,所以系统调整工作只能暂停。 (4) 管理员偶然发现系统里有一个未知用户,经查发现该用户属于一个曾经在数据中心工作的人员,该人员已离职半年,但该用户没有被删除。

这些都是用户密码管理不完善的结果。一个良好的密码管理流程主要应包括以下几个方面: (1) 用户密码分级管理:数据中心应根据密码的重要程度将密码划分为若干个等级,并对不同等级的密码采用不同的管理策略。

(2) 明确用户密码创建、变更流程:用户密码的创建、变更和使用应该有一套严格的流程进行控制。避免不受控的密码创建、变更和使用的行为。 (3) 用户密码的使用中应注意以下问题:

① 一个用户密码只能一人使用,避免出现几人共用一个用户密码的现象。 ② 用户密码的使用和生成应由不同人员分别进行,避免密码使用者私自修改密码。 ③ 密码必须定期修改。 ④ 密码的强度需要事先被定义。

(4) 密码的保管:对于重要密码,除在用户处保留外还应在适当的地点另外保留密码副本,以避免由于密码遗忘、丢失对数据中心运行造成严重影响。此外,建议使用密码信封管理密码。当密码保存在密码信封后,密码信封本身的制作、保存、更新应制定相应流程,以确保密码信封的管理是受控和安全的。

(5) 用户密码的撤销:数据中心应建立一套用户密码撤销删除的流程,重点加强离职人员及工作调动人员所用密码的撤销管理。 10) 员工管理

员工作为数据中心重要的资源需要进行有效管理。数据中心的员工管理流程应包括: (1) 员工招聘、任用流程。明确员工招聘任用的流程,明确签订劳动合同和保密合同的过程。 (2) 员工培训流程。数据中心属于技术密集型组织。由于IT领域新技术、新产品层出不穷,所以确保员工获得相关的技术和能力培训显得至关重要。应规定员工接受培训的流程,员工培训主要包

括上岗培训和日常培训。

(3) 员工离职及岗位调整流程。员工离职或岗位调整后,应完成各种工作交接,并应收回各类技术资料、系统权限、网络权限、出入证件、门禁系统权限。 4. 服务管理 1) 服务水平管理

服务水平管理是ISO20000、ITIL的重要组成部分,也是数据中心管理的重要组成部分。服务水平管理主要通过SLA(服务水平协议)/OLA(运维水平协议)/UC(支持合约)来协调IT服务各方之间的关系。服务水平管理主要管控如下活动:

(1) 识别客户需求:制定与客户沟通的相关职责,获取客户需求。完成SLR(服务级别需求), 作为制定SLA的重要依据。

(2) 定义服务项目:在确定SLA后,服务级别管理人员需要根据SLR总结出满足客户需求的服务项目,并形成服务描述单和服务质量计划。

(3) 签订协议:服务级别经理组织签署服务支持合同和运作级别协议,签署SLA。 (4) 服务级别的监控和报告:编写流程对服务级别协议执行的效果进行监控并形成报告。 (5) 评审和改进:服务级别经理应评审服务级别协议执行状况并作相关改进计划。 2) 业务关系管理

业务关系管理流程包含至少3个部分:服务评审、客户满意度调查、客户抱怨管理。

(1) 服务评审:与客户进行定期或不定期的针对服务提供情况的沟通。每次的沟通均应形成沟通记录,以备数据中心对服务进行评价和改进。

(2) 客户满意度调查:客户满意度调查流程主要包括客户满意度调查的设计、执行和客户满意度调查结果的分析、改进4个阶段。数据中心可根据客户的特点制定不同的客户满意度调查方案。 (3) 客户抱怨管理:客户抱怨管理流程规定数据中心接收客户提出抱怨的途径,以及抱怨的相应方式,并留下与事件管理等流程的接口。应针对客户抱怨完成分析报告,总结客户抱怨的原因,制定相关的改进措施。在实际工作中,有些重要客户的抱怨或客户抱怨的严重问题对数据中心影响较大。

为及时应对客户的抱怨,应该规定客户抱怨的升级机制,对于严重的客户抱怨,按升级的客户投诉流程进行相应处理。 3) 服务报告管理

服务报告管理流程旨在向客户和管理者提供与服务相关的数据和信息。在服务报告管理流程中应明确以下几个要素:

(1) 服务报告各类数据的获取途径。做到一类数据只能由一个职能部门提供。 (2) 服务报告的内容定义。应确保和管理层、客户就相关服务报告的内容达成一致。

(3) 服务报告的提供周期。应该明确服务报告的提供周期,具体周期可根据客户或管理层的要求定义。

(4) 明确服务报告的制作部门和审批途径。 5. 服务支持 1) 事件管理

事件管理主要管控引起或可能引起服务中断或服务质量下降的不符合IT服务标准操作的活动。这里的事件不仅包括软硬件故障,也包括服务请求。当处理多个事件时应根据事件的影响、紧急程度、解决事件的难易决定事件的优先级。如在协议时间内无法解决事件还应考虑事件的升级流程。 事件管理流程与问题管理、服务水平管理、变更管理、配置管理有着复杂的联系。在制定数据中心的事件管理流程时应充分考虑事件管理与这些流程的关系和接口。下面通过事件管理流程简图来简单介绍事件管理的过程,如图6-9所示。

首先是事件的发起,在这张流程图中,数据中心的事件发起主要包括3个方面:客户请求、数据中心自动监控系统提供的报警、数据中心日常巡检中发现的异常。

在事件发生后,事件记录员首先记录该事件。在事件管理流程中应规定记录事件的内容,如果数据中心没有使用ITSM的电子化工具,应通过表格形式记录事件内容,表格的具体样式、内容,可根据实际业务特点设计。

在事件记录员记录事件后,事件经理可根据事件记录对事件进行初步支持和事件分类,在这一步,

事件经理需要对事件的紧急程度、重要等级、事件影响和处理难易进行初步分析,由此确定事件的优先级。把事件设计的配置项关联到配置管理数据库(简称CMDB,指记录每个配置项(CI),以及不同配置项之间重要关联详情的数据库),分配事件处理任务到相关受理人员。

在事件经理分配任务后,事件受理员需对事件进行分析和处理。处理事件时可参考问题管理的相关信息。

在事件分析并给出解决方案后,进入事件的解决过程。事件的解决通常需要通过变更管理流程进行。所以,这一步需要留下变更管理的接口。在处理完事件后,需要和问题管理交互信息。 当事件确认解决后,由事件记录员关闭事件。

2) 问题管理

问题管理流程是通过调查和分析IT基础架构的薄弱环节,查明事件产生的潜在原因,并制定解决事件的方案和防止事件再发生的方案。与事件管理强调处理速度不同,问题管理是强调查处事件的

根源,从而制定恰当的解决方案,防止类似事件再次发生。

通常问题管理与事件管理、变更管理、配置管理都有很紧密的联系。下面以问题管理流程图(如图6-10所示)为例,介绍问题管理的主要活动。

数据中心问题管理部门通过对事件等信息的分析提出问题,并由问题管理员记录该问题。 问题经理对问题进行分析和处理。该部分工作主要包括以下4项: (1) 将问题关联到事件管理流程记录的相关事件。 (2) 将问题关联到配置管理项。 (3) 设定问题的优先级。

(4) 将问题分配给问题受理员处理。

问题经理将问题分派给问题受理员后,问题受理员通过分析,查找问题的原因并制定相关解决措施。

当问题的原因被发现并得到了解决措施后,应由问题经理管理问题,同时应通过变更管理进行相关变更,并通过配置管理流程更新相关配置项。 问题管理的最后一步是更新知识库。

问题管理流程本身并不复杂,但很多数据中心都不能很好地实施问题管理流程。通常大多数数据中心在实施问题管理流程时遇到的最大“问题”就是“找不到问题”,从而导致问题管理流程不能被真正实施。因此,建议采用如下方法发现数据中心的问题:

(1) 充分利用服务报告,从报告中未能满足SLA的情况入手发现问题。 (2) 充分利用事件管理流程,把具有相关性的事件作为问题管理的研究对象。 (3) 利用系统管理工具的监测数据发现问题。

(4) 通过客户满意度调查、客户座谈、客户反馈找出问题。 3) 变更管理

变更管理是在最短的中断时间内完成基础架构或服务的任何一方面变更的流程。通常情况执行了一个问题管理流程、事件管理流程、服务水平管理流程后,需要通过变更管理实施事件管理流程或问题管理流程所产生的事件处理方案或问题解决措施。

变更管理在施行中应注意通过合理的计划和周密的准备把中断业务或服务的时间减少到最小。 下面就以变更管理流程图(如图6-11所示)为例,介绍变更管理的主要活动。

变更流程的启动:通常,事件管理流程、问题管理流程、服务水平管理流程会启动一个变更管理流程。变更经理需要对变更请求进行审批。在这个阶段,变更经理主要对变更请求进行复核,并确定变更的优先级,然后将变更分派给相应的变更受理员进行变更操作。

变更受理员根据变更的情况制定变更执行的详细计划,这些计划应尽量详细以减少由于变更时间过长而对服务的影响。应在制订变更计划的同时制订一个变更失败后的回退计划,以避免一旦变更失败对数据中心运维造成较大影响。

变更经理需要对变更受理员制定的变更计划进行审批,然后交由变更实施人员进行实施。变更实施后,变更受理员应对变更实施的结果进行检查,以确认变更执行有效,并将结果通报变更经理审批。变更经理审批完变更后,变更受理员可以关闭该变更流程。

6. 服务的交付管理 1) 容量管理

容量管理主要关注企业与IT基础设施之间的关系。这个流程不仅要评价现有服务的能力,还要分析和预测数据中心未来发展的需要。

容量管理流程应着重规范以下3个方面的内容:

(1) 业务能力管理:关注数据中心未来业务对IT服务的需求,并确保这种未来的需求在制订业务能力计划时得到充分的考虑。

(2) 服务能力管理:关注现有的IT服务能力、品质能否达到服务级别协议中所确定的服务目标。 (3) 资源能力管理:关注IT基础架构内每个组件的能力和使用情况,并确保IT基础架构的能力足以满足支持服务级别协议被履行。

数据中心可通过编制能力计划的形式完成以上工作内容。 2) 业务连续性管理和可用性管理

在当今以服务为导向和以客户为中心的业务环境下,维持数据中心的持续运维对数据中心具有重大意义。尤其在发生灾难的情况下如何确保数据中心的持续运作是数据中心管理人员必须关注的问题。

业务连续性管理就是负责数据中心预防灾难、增强IT基础架构在灾难发生后的恢复能力的管理流程。它着重确保数据中心在诸如地震、洪水、火灾、失窃、恐怖袭击、网络攻击、大范围停电等灾难后尽快恢复运作,减少因数据中心停止运行而带来的损失。

数据中心的业务连续性管理流程主要包括制定业务连续性目标、业务影响分析、灾难恢复应急预案三方面内容:

(1) 制定业务连续性目标:它是数据中心制订业务连续性方案,进行风险分析的重要依据。确定数据中心发生灾难后可接受的业务停顿时间,是其主要内容。

(2) 业务影响分析:指对可能造成数据中心业务中断的灾难事件进行分析,重点是分析其对应的场景、业务替代难易程度、对相关业务持续的影响、对数据中心整体发展的影响、灾难事件所发生的

概率等。目的是筛选出最可能影响到数据中心持续运维的灾难事件场景,为制定应急预案确定前提条件。在进行业务影响分析时应关注:

① 场景的确定:从替代性风险、中断与否、影响程度、发生概率四个方面对不同场景的不同原因进行分析,找出风险值最高的场景原因,为灾难恢复计划的制订确立场景。

② 可接受风险值的确立:在综合衡量成本与各场景的风险值后,决定数据中心对风险值的接受程度,凡风险值高于可接受程度的场景均需制订灾难恢复计划。

(3) 灾难恢复应急预案:应急预案是为确保发生灾难事件后,尽快消除紧急事件的不良影响,恢复业务的持续营运而制定的应急处理措施。应急预案的注意事项:

① 根据业务影响分析的结果及灾难场景的特点编写应急预案,确保当紧急事件发生后可维持业务运作,在重要业务流程中断或发生故障后在规定时间内恢复业务运作。

② 应急预案除包括特定场景出现后各部门、第三方的职责与任务外,还应评估复原可接受的总时间。

③ 应急预案必须经过演练,使相关责任人熟悉应急预案的内容。 3) 财务管理

IT服务的财务管理着重负责将IT服务运作中所包含的所有资源进行货币化管理。该流程主要包括预算编制、IT核算、服务计费3个主要内容:

(1) 预算编制:预算编制是数据中心用于预测和控制费用开支的一个子流程。IT预算是由定期协商已设定的目标和对当前预算执行情况进行日常监督两部分组成。

(2) IT核算:IT核算是指对IT服务运作过程中和对服务相关的成本进行确认、计量和报告的过程。

(3) 服务计费:服务计费是负责向使用IT服务的客户收取相应费用的子流程。服务计费包括资费对象的确定和计费方法的选择。 7. 服务的资源信息管理 1) 信息资产管理

信息资产管理是数据中心实行信息安全管理的重要基础,通过该工作可以让数据中心管理者清楚地知道自己的管理对象,以及这些管理对象的重要程度。这里提到的信息资产指的是数据中心内部与信息安全相关的实体与非实体资产。信息资产通常包括:硬件、软件、数据、文档、人员、商誉、服务商等。在考虑信息资产管理流程的建设时,需要关注以下几项内容,包括:识别信息资产、信息资产的分级管理、信息资产清单等。 2) 配置管理

配置管理的目标在于,确保只有经过授权的组件才能在 IT 环境中得到应用,并对所有变更调整实施记录和跟踪。在配置管理中最基本的信息单元是配置项,所有的软硬件和各种文档,如服务器、环境、设备、网络设备、台式电脑、移动设备、硬盘、内存、CPU都可以是配置项。配置管理的流程主要包括配置管理规划与构建、维护配置数据模型与CMDB构建过程、配置项数据的维护、配置数据的审计等。 3) 风险评估管理

风险评估管理流程是对数据中心信息资产的风险进行识别,制定弱化或消除风险的方案,并实施该方案的管理流程,也是ISO27001标准对数据中心管理的要求。制定这一流程可以使数据中心明确其风险分析方法和风险分析过程,并明确如何将风险分析结果落实到数据中心的管理制度之中,从而减小风险对数据中心信息的影响,提高信息的完整性、可用性、机密性。风险评估管理的工作主要包括:风险识别、制定风险可接受水平、选择安全控制措施三项工作。 4) 输入输出管理

数据中心各类保密信息的输入/输出应得到有效控制。数据中心应制定相关流程管控保密信息的输入/输出流程。该流程所涉及的重点是对保密信息的识别和管理。保密信息必须有专人管理。保密信息的获取应得到批准,并从固定的渠道输入/输出,做到信息流动受控。 8. 服务商管理

数据中心各类服务商的服务品质对数据中心向客户提供服务的品质有一定的影响。对于数据中心而言,服务商的管理流程至少应包含以下几个方面。

1) 服务商的选择

在服务商选取原则方面,通常情况下应考虑该服务商在相关服务领域的资质、经验、运维情况及满足数据中心服务要求等方面的能力。

服务商选择的内部流程方面,通常应避免仅有一个部门负责服务商的评估工作,如果有可能,数据中心应至少由两个相关部门组成评估小组,从不同的方面提出对服务商的选择要求,并做评估。数据中心可以把对服务商的要求制成评分表用于对候选服务商打分,最后根据评估打分的情况确定服务商。

2) 服务合同的签订

服务合同的签订是服务商管理的重要一环,数据中心应拟定签订服务合同的流程。如果服务商可能接触到数据中心的重要信息,还应和服务商签订保密合同以保护数据中心重要信息的安全。 3) 服务商的定期考评

服务商开始为数据中心服务后,数据中心应定期对服务商的服务质量进行考评。考评周期可以根据服务商提供服务的性质和工作量选择,但一个服务合同期内至少应进行12次服务考评。 数据中心应根据服务商提供的服务水平协议考评服务商的服务质量,有必要时还可以听取客户对相关服务的满意情况,从而对服务商的服务进行评估。

服务商的考评结果应作为服务商续签合同、是否继续履行合同的依据,也可以作为督促服务商持续改进的依据。

4) 服务商的合作关系管理

服务商的服务质量对数据中心的服务质量有着很大的影响。所以与服务商良好合作,共创共赢局面显得尤为重要。为能建立并巩固数据中心与服务商之间的关系,需要数据中心将一些服务机会研讨、服务质量评估等工作纳入到日常的服务商管理流程当中。

6.2.4. 运维管理的信息化要求

对数据中心运维管理产品的要求始于对数据中心信息系统的总体规划。这种规划无论大小、深浅

都应始终坚持从数据中心的运维战略、业务需求、风险控制、成本效益等目标出发,同时还应清醒地认识到两个常见的决策误区:一是认为采用了高端的运维管理产品就代表了高质量的运维水平。对于这一认识毋庸赘言,从上述对人员、流程、合作伙伴的要求就可以看出,产品仅是一个方面而不能代表全部;另一个误区是不重视运维管理信息系统的建设,认为在信息系统建设上的投入不能带来直接的价值。对此,从专业化的数据中心运维角度来看,数据中心信息化能够实实在在带来的好处可以简单概括为以下几个方面:

(1) 提高效率、降低成本。一个运维管理产品的投入使用往往可以带来十几倍以上的生产力提升和相应的成本降低。业界的普遍看法是:运维管理信息系统其实就是数据中心业务的生产系统。 (2) 使运维风险保持在可以控制的水平。数据中心如果不重视对风险的控制就如同在高速公路上行车不系安全带一样危险,而危险一旦发生想继续行驶可就难上加难了。

(3) 改进服务质量提升竞争力。数据中心的业务可以概括为:通过运行IT系统来向客户提供服务。没有信息系统的支撑来运行IT系统就如超市里仍然采用手工结账一样不能让顾客满意。 在随后的内容中,将针对数据中心运维管理产品中处于核心地位的监控管理产品(包括:基础设施监控产品和IT监控产品)和IT服务管理产品进行更进一步的介绍,而介绍的角度主要从选择的要素与系统部署架构出发。 1. 基础设施监控管理系统

随着计算机技术的发展和普及,计算机系统数量与日俱增,其配套的环境设备也日益增多。数据中心机房已成为各大单位的重要组成部分。数据中心机房的环境设备(供配电、UPS、空调、消防、安防等)必须时时刻刻为计算机系统提供正常的运行环境。一旦数据中心机房环境设备出现故障,就会影响到计算机系统的运行,对数据传输、存储及系统运行的可靠性构成威胁,如事故严重又不能及时处理,就可能损坏IT设备,造成严重后果。 1) 基础设施监控产品的选择要素 (1) 技术先进性。

(2) 系统高可靠性:系统硬件和软件均采用技术成熟的产品。

(3) 系统运行管理方便:界面操作简单,技术支持能力强,承建单位技术实力强,服务完善。 (4) 系统可扩展性能强:模块化结构有利于扩容与扩展。

(5) 系统兼容性:支持世界厂家提供的智能设备,实现完美的监控。 (6) 投资少:系统选型具有高性价比。

(7) 建设时间短:在较短的时间内完成系统的安装调试。 2) 基础环境监控管理系统部署模式

针对基础环境监控的部署一般采用采集处理、传输数据、监控展现和管理三层模式。下面以多数据中心基础环境监控管理为例说明,如图6-12所示。

图6-12 数据中心机房基础设施监控管理

(1) 数据采集和处理:各数据中心通过对基础环境和设施的数据采集与处理在本地实现监控。 (2) 传输层:各数据中心通过传输层将采集和处理的数据传送到需要的管理中心,如果是接入到Internet网络必须通过防火墙进行网络设定。

(3) 监控展现和管理:通过传输层,将数据中心采集和处理的基础设施的监控指标进行集中管理,

生成报表和报警。

2. IT系统监控管理系统

为了满足企业对IT服务要求的不断提高,不仅在可用性上,同时也要在资源利用率、可扩展性、容量管理等方面满足用户需求。数据中心应建立能对操作系统、应用系统和网络状况等进行故障监测和性能管理的监测系统。

通过此类系统,一方面可以对数据中心的服务器及其应用进行实时监测,另一方面也可以为系统管理人员提供完善的监测和报警平台以及可用性、容量管理的实时报告。最终能帮助系统管理人员快速定位并查找故障根源,有效降低由于服务器应用系统发生故障或失败而导致的风险,提高数据中心运维的服务质量,保证数据中心的服务器及其应用能7×24持续正常、稳定的运行,并根据客户需求的不同,提供5×8、7×12的分级服务。 1) IT系统监控产品的选择要素

虽然业界有许多满足此类需求的解决方案,但是如何才能找到一套符合企业运营管理特点的IT系统监控产品呢?在此,可以从以下几个方面评估产品功能,包括: (1) 能否满足跨操作系统、远程监测管理的要求;

(2) 能否实现对服务器、网络设备、数据库、中间件、甚至应用系统的监测; (3) 能否实现远程报警等多种报警方式; (4) 能否提供丰富的报告、资源统计、分析等;

(5) 在进行数据采集时能否支持代理与无代理相结合的方式; (6) 是否具备方便实用的用户管理功能; (7) 能否提供开放的API接口; (8) 是否能够保障监控的安全性。 2) IT系统监控管理系统部署模式

IT监控系统的部署模式一般分成被监控层、采集层、数据处理层、服务展现层、服务管理层。IT监控系统部署模式如图6-13所示。

(1) 被监控层:被IT监控系统监控的对象,如网络设备、系统资源、应用资源、数据库资源。 (2) 数据采集层:根据需求采集监控对象的资源数据,并进行规则设定。

(3) 数据处理层:根据需要对采集的数据做进一步处理、保障数据的完整性,对数据进行选择性存储。

(4) 监控服务展现层:将IT监控系统处理后的结果,展现给运维管理人员和关注IT资源的相关人员。

(5) 服务管理层:与服务管理的API接口,将展现的故障、问题,以服务管理的方式进入服务管理系统,实现由事件到服务的转换。

3. IT服务管理系统

作为一个数据中心,如何管理各项与IT运维直接相关的工作,如何让这些工作遵循一些国际最

佳实践,如何提升IT运维过程中的工作效率与知识积累能力,部署一套符合ITIL标准ITSM工具平台,并在其上建立配置管理数据库和知识库,无疑是一个相对比较成熟解决方案。通过这样的IT服务管理平台,可以帮助数据中心以“服务”的方式进行信息技术管理,很好地解决流程、人员、技术之间的关系。

1) IT服务管理产品选择原则

IT服务管理系统的建设实践证明:无论是对内还是对外提供服务,无论是单一的数据中心还是多地域分布的数据中心,选择产品时都应在遵循“集中建设、统一管理”的总体原则基础上,保证系统建设具有系统性、实用性、高效性、可扩展性,以及技术上的先进性、规范性和安全性。具体来说,所选择的产品应能满足以下建设原则要求:

(1) 应建立集中的统一服务管理平台,对流程服务质量、运行状况、工作流程等实现实时监控、集中管理。

(2) 对于为流程管理直接服务的基础信息,应采用统一规划、统一标准、统一控制的方式建设。 (3) 实用性和高效性原则。

(4) 安全性原则:应体现在拥有完善的身份认证和授权,具有数据备份、应急处理与灾难恢复等技术措施,具备完善的包含“用户、角色、对象、动作、许可证”的权限策略库。

(5) 可灵活定制原则:从技术架构、数据和应用架构方面等方面均能适应后续的定制要求。 (6) 高扩展性原则:既要满足现有和近期的性能要求,又要具备平滑扩展系统性能的能力。 (7) 易于集成原则:能够与IT监控系统、基础设施监控系统、消息通知系统、移动应用系统、集中报表系统、ERP系统、门户等进行集成。

(8) 灵活的报表技术:能提供统一化又能体现个性化的报表功能。

(9) 便于“统一规划、分步实施”:选择的产品应具有模块化逐步集成的能力。 (10) 产品厂商应具有强大的实力。 2) IT服务管理系统逻辑结构

IT服务管理系统逻辑结构如图6-14所示。

图6-14 IT服务管理系统逻辑结构 3) IT服务管理系统部署模式

IT服务管理系统的部署模式多种多样,取决于数据中心的业务发展战略和技术实现。图6-15为多数据中心IT服务管理系统部署。

图6-15 IT服务管理系统部署

6.3 数据中心运维管理测量

6.3.1. 运维管理成熟度的评估

数据中心运维管理成熟度评估工作是数据中心管理的重要内容。数据中心运维管理需要做到对自身的管理弱点、管理优势有正确和系统的认识。管理成熟度评估正是让数据中心了解自身管理现状,帮助数据中心根据管理弱点有针对性的开展管理改进的工具。开展管理成熟度评估将给数据中心带来如下好处:

(1) 使数据中心充分了解自身管理现状。

(2) 可以通过对不同时期管理成熟度的对比,发现数据中心既定管理措施的施行效果。 (3) 为数据中心下一阶段制定管理措施提供依据。

(4) 是数据中心进行管理持续改进的有力工具。

数据中心的成熟度评估工作主要可以按照以下步骤开展。 1. 建立管理成熟度评估模型

这项工作是管理成熟度评估工作的基础。它主要关注两方面问题:数据中心的管理领域有哪些?如何给这些管理领域打分?

关于管理领域的划分方法最简单的方法就是依照数据中心管理体系所参考的标准划分评估领域。例如某数据中心按照ISO20000建立的管理体系,在建立管理成熟度模型时就可以依据ISO20000标准所划分的管理域建立管理模型,即从服务的策划与实施、服务水平管理、服务报告管理、服务连续性管理、可用性管理、IT服务的预算和财务管理、容量管理、信息安全管理、业务关系管理、供方管理、事件管理、问题管理、配置管理、变更管理和发布管理等15个方面对数据中心的管理成熟度进行评估。

对于数据中心成熟度的评价标准,即打分原则,数据中心可以依照自身管理特点进行划分,在这里我们举一个评分原则的例子供读者参考。该打分方式从管理制度的管理策略制定、流程文件的制定、流程文件的执行、管理体系运行记录4个方面对每个评估领域进行打分。数据中心成熟度评价标准如图6-16所示。

图6-16 数据中心成熟度评价标准 2. 进行管理成熟度初评,取得基础数据

此步骤需要通过内部审核、现场调研、与员工谈话等方式了解每一项具体管理领域实际执行情况,并做记录,进行打分,最终形成管理成熟度评估报告。管理成熟度报告应该对管理体系运行中的优势与劣势进行充分分析,并有理有据的提出管理上的问题及改善方向供管理者参考。图6-17是某数据中心按照ISO20000管理标准进行的管理成熟度评估后,根据数据中心实际管理情况绘制的成熟度雷达图。从该图中可以看出该数据中心在问题管理、信息安全管理方面成熟度较低。管理者需要对这两个管理领域制定相应的管理措施。

图6-17 数据中心管理成熟度雷达图 3. 对管理上的弱点制定措施进行改进

管理者可以通过管理成熟度报告,针对数据中心管理弱点制定措施并进行改进。 4. 进行例行成熟度评估,并与前期的管理成熟度评估结果对比,从而调整管理方法

此步骤需要数据中心把管理成熟度评估作为一项定期工作来开展,这样数据中心管理才能得到持续的提升,对管理成熟度提升效果显著的措施要继续坚持落实,对管理成熟度提升效果不显著的措施要分析原因,必要时调整管理方法。

通过以上四点可以形成一个PDCA管理水平提升的循环模式,使数据中心的管理得到提升。 6.3.2. 运维管理认证的意义

数据中心根据相关管理标准建立了管理体系后,可以选择专业的管理体系认证机构对数据中心的管理体系构建和实施情况进行认证。通过管理体系的认证可以使数据中心获得如下好处。

1. 提高管理的科学性与全面性

数据中心通过按照某一管理流程规划管理体系并进行认证,可以在所认证的标准范围内规范数据中心的管理。通常情况下,标准是某个领域的专家和长期从事该领域工作的人士在经过充分的科学分析后结合实际的管理情况制定的。所以标准本身就是一个全面规范的管理框架。例如ISO20000是IT服务领域的科学管理框架,ISO27001是信息安全管理领域的科学管理框架,ISO9001是服务质量管理领域的科学管理框架。

按照这种科学管理框架建立的数据中心管理体系本身具有科学性和领域内的全面性。通过建立管理流程和进行管理流程的认证可以使数据中心的管理符合科学的管理框架。 2. 提升管理能力

数据中心拟定的管理体系能够通过认证机构的认证,并且获得认证证书,很大程度上证明了数据中心在相关管理方面的能力。同时,通过管理体系的导入,也从企业文化、人员意识、管理流程等各方面提升了数据中心的管理能力。 3. 督促数据中心维护管理体系

通常情况下,管理体系的认证证书是有有效期的,例如ISO27001的认证证书有三年的有效期,每隔三年认证机构会对数据中心的管理体系做全面的审核与评估,从而确认数据中心是否可以更新证书;此外每半年审核机构还会对数据中心进行一次持证复审,验证数据中心的管理体系是否有效运行。ISO20000,ISO9001等管理标准在证书的更新和持证审核方面的要求与ISO27001标准大致相仿,均存在定期的持证审核与到期换证管理。

所以,数据中心如果希望长期持有认证证书,就必须确保管理体系的有效执行,从而起到了督促数据中心长期有效的执行管理体系。 4. 持续提升数据中心的管理能力

目前绝大多数管理体系都包括持续改进的管理思想,并且在标准中体现了持续改进的步骤和要求。所以进行管理体系的认证,持续的运行管理体系本身也会对管理体系进行持续改进,且通过持续改进提升自身的管理水平。

5. 提高数据中心的竞争力

进行管理体系的认证能够提高数据中心在市场上的竞争力。这种竞争力的提高主要来源于两方面:

一方面,进行管理体系认证本身提高了数据中心管理的全面性和科学性,使其管理得到有效提升,能够向客户提供更好的服务,从而增加了数据中心的市场竞争力。

另一方面,数据中心获得的证书可以作为数据中心管理有效性的证明,向客户出示证书,可以提升客户对数据中心的信心,增加客户满意度。 6.3.3. 运维管理标准介绍 1. ISO9001标准简介

随着数据中心客户的增加、规模的逐步扩大、管理的深入,单一采用IT技术并不能解决数据中心管理的全部问题。数据中心的管理正在从IT技术管理向服务管理领域发展。如何提高数据中心的服务质量,如何使数据中心高效的运作,正在成为困扰数据中心管理者的难题。

《ISO9001质量管理体系-要求》为数据中心管理和提升服务质量提供了成熟有效的管理框架。ISO9001是迄今为止世界上最成熟的质量管理框架。它的第一版是在1987年由国际标准化组织(International Organization for Standardization,ISO)颁布的。1994年ISO对这一标准进行了第一次修订,2000 年进行了第二次修订,2008年进行了第三次修订。目前全球有161个国家/地区的超过75万家组织正在使用这一框架。ISO9001可帮助多种类型和规模的组织提高自身的管理水平。

ISO9001标准对数据中心管理的诸多领域均提出了管理要求。这些领域涉及:数据中心各部门的职责分工、管理者的责任、内部沟通、数据中心方针目标的建立,数据中心的人员管理、数据中心基础设施管理、数据中心环境管理、客户需求如何转换到产品或服务中、服务设计的过程,服务商管理、服务的提供过程、运维指标的监控、客户满意管理、数据分析、不合格的控制、服务质量改进、内部审核、数据中心各类文件及记录的管理等。这些管理领域涵盖大部分数据中心的实际运维情况。 ISO9001标准遵循管理科学的基本原则,强调运用过程方法,基于事实进行决策。ISO9001体

系的运作过程比较复杂,在此仅作简单介绍。

ISO9001体系通过从客户及相关方获得的对数据中心运作、服务质量方面的要求作为输入。通过对这些输入的分析,数据中心可以通过内部资源管理、管理职责的管理、产品实现过程的管理、测量分析等流程实现数据中心服务及管理的持续改进从而获得客户满意度的提升和内部管理水平的提升。

ISO9001不仅为质量管理体系设立了标准,也为整合管理体系设立了管理平台。ISO9001与其他管理标准和规范兼容,例如ISO14001、ISO27001、ISO20000等。这些标准可以进行无缝整合形成完善的管理体系对数据中心进行有效管理。 2. ISO27001标准简介

数据中心是信息化的关键部门,其信息安全问题也开始引起业界广泛关注和高度重视。仅仅依靠安全产品和安全技术已不能完全满足数据中心信息安全管理的需求。数据中心的信息安全管理正在从以硬件、新技术为中心,向以技术管理和流程管理相结合的方向发展。《ISO27001信息安全管理体系-要求》为数据中心建立、实施、运行、监视、评审、保持和改进信息安全管理体系(Information Security Management Systems,ISMS)提供模型与相关要求。从认证机构的角度提出了评价企业ISMS的有效性与合理性的要求。它详细说明了建立、实施和维护信息安全管理体系的要求,指出数据中心该遵循的风险评估准则。

《ISO27001信息安全管理体系-要求》是国际标准化组织颁布的。该标准以英国标准协会(The British Standards Institution,BSI) 制定的信息安全管理标准BS7799为基础制定。BS7799包含两部分:分别为BS7799-1及BS7799-2。其中BS7799-1发展成ISO17799,主要是作为参考文件,提供组织实施信息安全的指南;BS7799-2发展成ISO27001,提供信息安全管理系统之建立实施与书面化的具体要求。目前全球已有5206个组织通过了ISO27001认证,其中中国内地有180家企业通过了该认证。

ISO27001标准以风险评估为基础,以安全控制点为管理范围,以此评估机构的信息安全管理需求;管理体系中提到的“信息安全”,是指保存信息的:

(1) 机密性(Confidentiality):确保只有获得授权的使用者,才得以存取信息。 (2) 完整性(Integrity):保障信息与处理方法的正确与完整。

(3) 可用性(Availability):确保获得授权的使用者在有需求时,能适时存取信息及相关资产。 ISO27001管理体系以信息安全为核心,通过建立信息安全管理体系方针,制定、实行、监控、改进流程这一PDCA循环,达到持续改进数据中心信息安全管理水平,使数据中心的管理体系可以不断适应客户与组织内部发展的需要。

该标准附录A还提供了具体实施信息安全管理所需的控制目标和控制点。这些控制点涵盖组织的“安全方针”、“与信息安全相关的内外部组织”、“信息资产管理”、“人力资源管理”、“物理环境安全管理”、“通信和操作管理”、“访问控制”、“信息系统获取、开发和维护”、“信息安全事故管理”、“业务连续性管理”和“符合性”,基本满足了数据中心对于信息安全管理的需要。 《ISO/IEC17799:2005信息安全管理实用规则》作为ISO27001的一部重要参考资料,主要从实施的角度提出了组织在建立信息安全管理体系过程中应该考虑的管理要求。该标准由15个章节、133个安全控制项组成,这些控点与ISO27001的附录A相对应,为组织建立ISMS提供了国际上的最佳实践。该标准可作为组织通过ISO27001认证过程中的一个操作性标准,也可以作为企业自行评估或提高自身信息安全管理能力的一个指南性文件。 3. ISO20000标准简介

ISO20000是ISO在英国标准BS15000的基础上以ITIL为核心制定的IT服务管理国际标准。标准分为两个部分:

第一部分:ISO/IEC20000-1:2005信息技术-服务-规范。它表明了组织IT服务管理的要求和如何初始化、实施和维护IT服务管理。组织可以根据ISO/IEC2000-1:2005的要求单独认证组织内的IT服务管理体系。

第二部分:ISO/IEC20000-2:2005 IT信息技术-服务-最佳实践。它为内部审核提供指导,并帮助服务提供者规划服务改进或准备基于ISO/IEC20000-1:2005的审核。

该标准于2005年末发布。截止到2007年年底全球有80余家组织通过了该认证。2009年3

月全球通过ISO20000认证的组织达到了347家。可见近年来全球有更多的企业开始认识到该标准的价值。

数据中心可以通过取得ISO20000管理体系认证来获得在ITIL领域的认可,以此标准可构建一套适合数据中心自身发展的IT服务管理流程,同时也可借此确保所提供的IT服务符合最新国际标准。数据中心构建ISO20000体系的好处表现在:

(1) IT服务提供商能够更积极地响应以业务为主导、而非以技术为驱动的服务。 (2) 通过对内部资源的合理安排和合理计划降低向客户提供服务的成本。 (3) 将服务质量的管理融入到IT服务中,向客户提供高质量的服务。

(4) 提高组织机构工作流程的效率,以更高效、更有效的方式向客户提供服务。

(5) 向客户表明组织有能力提供国际水准的卓越IT服务,提高客户信心,在承接业务时获得竞争优势。

ISO20000是在ISO9000的基础上专为IT服务管理制定的标准,它将IT服务管理分为5个领域,这些领域分别是:

(1) 服务发布管理:这个领域包括ISO20000对组织在“容量管理”、“可用性和业务连续性管理”、“服务级别管理”、“服务报告管理”、“信息安全管理”、“财务管理”方面的要求。 (2) 控制过程:这个领域包括ISO20000对组织在“配置管理”、“变更管理”方面的要求。 (3) 发布管理:这个领域包括ISO20000对组织在“发布管理”方面的要求。

(4) 解决过程:这个领域包括ISO20000对组织在“事件管理”、“问题管理”方面的要求。 (5) 关系管理:这个领域包括ISO20000对组织在“业务关系管理”、“供应商管理”方面的要求。

ISO20000通过对组织的IT服务实施过程管理,使用PDCA方法来不断提高组织IT服务管理能力,使组织向客户提供更优质的服务。

PDCA方法可以适用于组织IT服务管理的所有过程,PDCA描述如下: (1) 计划:建立符合客户要求和组织策略的交付结果所需的目标和过程。

(2) 实施:实施这些过程。

(3) 检查:根据策略,目标和要求监视并测量这些过程,并报告结果。 (4) 改进:采取措施持续改进这些过程的绩效。 4. ISO14000标准简介

ISO14000是一个环境管理系列标准,共有100个标准号。ISO从1996年以来,已正式颁布6个标准,分别是:

(1) ISO14001 - 环境管理体系-要求及使用指南。

(2) ISO14004 - 环境管理体系-原理、体系和支撑技术通用指南。 (3) ISO14010 - 环境审核指南-通用指南。

(4) ISO14011 - 环境管理审核-审核程式-环境管理体系审核。 (5) ISO14012 - 环境管理审核指南-环境管理审核员的资格要求。 (6) ISO14040 - 生命周期评估-原则和框架。

《ISO14001环境管理体系-要求及使用指南》,是针对全球性的环境污染和生态破坏越来越严重,顺应国际环境保护的发展,依据国际经济贸易发展的需要而制定的。它为数据中心提供了环境管理的依据,规定了环境管理的共同语言和准则的要求。

《ISO14001环境管理体系-规范及使用指南》于1996年由国际标准化组织发布第一版,该标准的最新版本是2004版。

随着社会对世界环境问题的关注,数据中心如何承担保护环境的社会责任成为了关注重点。ISO14001标准实施的目的是帮助数据中心实现环境目标与经济目标的统一,支持环境保护和污染预防,这是ISO起草和实施这一系列标准的根本出发点。实行ISO14001环境管理体系可以让您的数据中心获得如下益处:

(1) 向监管机构和政府证实您承诺遵守法律法规。 (2) 向利益相关方证实您致力于环保。

(3) 向客户和未来员工证实您采用了创新及前瞻式方法。

(4) 更好地管理当前和将来的环境风险。 (5) 潜在地降低公众责任保险成本。 (6) 提高声誉。

ISO14001是组织规划、实施、检查、评审环境管理运作系统的规范,该系统包含5大部分,17个要素。这5个基本部分包含了环境管理体系的建立过程和建立后有计划地评审及持续改进的循环,以保证组织内部环境管理体系的不断完善和提高。ISO14001环境管理体系参见表6-1。 表6-1 ISO14001环境管理体系

5. BS25999标准简介

无论是如地震、海啸、雪灾这样的重大灾难还是机房漏水、空调损坏这样的轻微事故,或者是人员误操作、断电、通信线路中断这样的意外,对于数据中心的连续运作都是重大的威胁。对于数据中心而言,由于承载本企业或客户的重要数据及业务系统,它的持续运行具有重要意义。如何确保数据中心的持续运行,如何确保数据中心在运行中断后迅速恢复运行,减少客户的损失是数据中心运行管理的重要内容。

可以从IT技术手段上,例如通过硬件设备、通信线路、电力的冗余设计,来减少发生业务中断

的可能。但发生灾难后企业的内部运作应如何进行却是十分重要的管理问题。BS25999正是世界上第一个关于业务连续性管理(Business Countinuity Management,BCM)的标准。它为企业在预防业务中断以及业务中断后数据中心的运作方式提供了科学的管理框架。该框架的目标在于及早确定可能发生的冲击对企业运作造成的威胁,并提供合理的架构有效阻止或抵消不确定事件造成的威胁,保证企业日常业务运行的平稳有序。 该标准分为两部分:

第一部分《BCM实践指南》于2006年年底公布,为业务持续发展指南,帮助企业建立相应的准备机制。

第二部分《BCM规范》于2007年年底公布,对标准第一部分所要求的认证过程做出规范。 BS25999 的好处非常广泛,涵盖3个关键领域:

(1) 适应力:当您实现关键目标的能力面临破坏时,主动改进您的适应力。

(2) 交付:在中断之后为您提供一套计划充分的能力恢复方法,帮助您继续在受认可的水平和期限内提供关键产品和服务。

(3) 管理:提供切实可行的中断管理及信誉和品牌保护能力。

这一标准建立了业务持续管理的相应过程、原则和术语体系,提供了在企业内贯彻业务连续性理念、发展和贯彻业务持续管理体系的基础。还阐述了业务持续管理的生命周期、过程的评价及更新文件系统、业务持续管理的选项,以及实施业务持续管理的方法和战略。

该项标准包括以下部分:定义和术语,什么是业务持续管理,业务持续管理总览,业务持续管理体系,项目管理,对组织的认识,决定业务持续管理的模式,制定和执行业务持续管理的机制,业务持续管理的实施、维护、审核和评价,将业务持续管理植入企业文化。

目前,第一部分和第二部分的标准正在越来越多地被业界应用。BSI的技术委员会还在致力于该系列的其他标准文件,帮助企业具体实施业务可持续性管理体系。未来工作的方向包括体系的验证和演练、IT系统灾难恢复、危机处理等相关标准。 6. ITIL信息技术基础构架库V2

ITIL(Information Technology Infrastructure Library)是英国商务部开发的一系列指导规范的集合,这些指导规范被汇集到一套书籍当中。这套书籍描述了用于管理IT服务的集成的、面向过程的,以及最佳实践的框架。至今,这套书是唯一全面、非专有的和可公开得到的IT服务管理指南。ITIL是20世纪80年代后期提出和开发的,目前已发展到第三版。其初衷是为了提高英国中央政府的IT服务管理水平,然而它也适用于多种组织,包括公共的或私有的、大型的或小型的、集中的或分散的所有组织。现在,ITIL不仅代表书籍本身,它已形成了一个包括培训、认证、咨询、软件工具和行业协会(即IT服务管理论坛)在内的完整产业。

IT服务管理是ITIL框架的核心,它是一套协同流程(Process),并通过服务级别协议(SLA)来保证IT服务的质量。它融合了系统管理、网络管理、系统开发管理等管理活动和变更管理、资产管理、问题管理等许多流程的理论和实践。ITIL共有6个模块,包括:业务管理、服务管理、IT基础架构管理、应用管理、安全管理、IT服务管理规划与实施。这6个模块可以被看做是建立在技术与业务之间的一座桥梁。其中又以服务管理模块为核心,其由“服务支持”、“服务提供”两个子模块组织,这两个模块覆盖了10个流程与一个服务台。下面分别介绍服务支持和服务提供的10个流程与服务台功能。

1) 服务提供模块

ITIL的服务提供模块覆盖了规划和提供IT服务所需要的过程,包括服务级别管理、财务管理、容量管理、IT服务连续性管理和可用性管理。这些管理流程之间的关系如图6-18所示。

图6-18 服务提供模块

(1) 服务级别管理(Service Level Management):服务级别管理是定义、协商、订约、检测和评审提供给客户的服务质量水准的流程。

(2) IT财务管理(Financial Management of IT Services):IT财务管理是在提供深入了解IT服务管理流程的基础上,对IT恢复运作的费用及成本重新分配并进行正确管理的程序,其目标是帮助IT部门在提供服务的同时加强成本效益核算,以合理利用IT资源、提高效益及财务资源使用的有效性。

(3) IT服务连续性管理(Continuity of IT Services):IT服务连续性管理是指确保发生灾难后有足够的技术、财务与管理资源来确保IT能持续服务的管理流程。

(4) 容量管理(Capacity Management):容量管理是指在成本和业务需求的双重约束下,通过配置合理的服务能力来确保服务的持续提供和IT资源的正确管理,以发挥最大效能;以合理的成本及时提供有效的IT服务,以满足组织当前及将来的业务需求。

(5) 可用性管理(Availability Management):可用性管理是在正确使用资源、方法及技术的前提下保障IT服务的可用性和实践可用性要求。目标是确保IT服务的设计符合业务所需的可用性级别。

2) 服务支持

服务支持模块更多的用于处理事件管理、问题管理、变更管理、配置管理、发布管理及服务台功能的日常支持和维护。这些流程之间的关系如图6-19所示。

图6-19 服务支持模块

(1) 服务台(Service Desk):服务台有时也称帮助台,即通常人们所指的呼叫中心或客户服务中心,它不是一个服务管理过程,而是一种服务职能。服务台经常与事件管理紧密结合,用来连接其他的服务管理流程,逐渐被称为一线服务支持的代名词。

(2) 配置管理(Configuration Management):配置管理是由识别和定义系统中软件和硬件等配置项资源并记录和报告配置状态和变更请求,以及检验配置项的正确性和完整性等活动构成的过程。 (3) 变更管理(Change Management):变更管理是要确保在IT服务变动的过程中能够有标准的方法,以有效的监控这些变动,降低或消除因为变动所造成的问题。它的目的并不是控制和限制变更的发生,而是对业务中断进行有效管理,确保变更有序进行。

(4) 发布管理(Release Management):发布管理是指对经测试后导入实际应用的新增或修改后的配置项进行分发和宣传的管理流程,目的是要保障所有的软件组件的安全性,以确保只有经过完整测试的正确版本得到授权进入正式运行环境。

(5) 事件管理(Incident Management):事件管理指的是突发事件管理或意外事件管理,处理IT的危机并要从中恢复运转。即出现事故时,能尽可能地恢复服务的正常运作,避免业务中断,以确保最佳的服务可用性级别。

(6) 问题管理(Problem Management):问题管理是指负责解决IT服务运维过程中遇到的所有问题的流程。问题管理的主要活动实质上就是分析被列出问题事件的根本原因,找出解决方案,把事件的影响最小化,并通过找到已发生事件或潜在事故的根本原因来减少事件的数量或消除事件的再次发生。

7. COBIT信息系统审计标准

COBIT(Control Objectives for Information and related Technology),该标准是目前国际上通用的信息系统审计标准,由信息系统审计与控制协会在1996年公布。这是一个在国际上公认的、权威的安全与信息技术管理和控制的标准。它在商业风险、控制需要和技术问题之间架起了一座桥梁,以满足管理的多方面需要。该标准体系已在世界一百多个国家的重要组织与企业中运用,指导这些组织有效利用信息资源,有效地管理与信息相关的风险。

1) COBIT将IT过程、IT资源与企业的策略与目标(准则)联系起来,形成一个三维的体系结构 (1) IT准则集中反映了企业的战略目标,主要从质量、成本、时间、资源利用率、系统效率、保密性、完整性、可用性等方面来保证信息的安全性、可靠性、有效性。

(2) IT资源主要包括以人、应用系统、技术、设施及数据在内的信息相关的资源,这是IT治理过程的主要对象。

(3) IT过程是在IT准则的指导下,对信息及相关资源进行规划与处理,从信息技术规划与组织、采集与实施、交付与支持、监控等4个方面确定了34个信息技术处理过程,每个处理过程还包括更加详细的控制目标和审计方针,用于对IT处理过程进行评估。 2) COBIT信息技术的控制目标

COBIT是一个非常有用的工具,也非常易于理解和实施,可以帮助在管理层、IT审计之间交流的鸿沟上搭建桥梁,提供了彼此之间沟通的共同语言。

(1) 有效性(Effectiveness)——是指信息与商业过程相关,并以及时、准确、一致和可行的方式传送。

(2) 高效性(Efficiency)——关于如何最佳(最高产和最经济)利用资源来提供信息。 (3) 机密性(Confidentiality)——涉及对敏感信息的保护,以防止未经授权的披露。 (4) 完整性(Integrity)——涉及信息的精确性和完全性,以及与商业评价和期望相一致。 (5) 可用性(Availability)——指在现在和将来的商业处理需求中,信息是可用的。还指对必要的资源和相关性能的维护。

(6) 符合性(Compliance)——遵守商业运作过程中必须遵守的法律、法规和契约条款,如外部强制商业标准。

(7) 信息可靠性(Reliability of Information)——为管理者的日常经营管理以及履行财务报告责任提供适当的信息。 3) COBIT的优点

(1) 通过实施COBIT,增加管理层对控制的感知及支持。

(2) COBIT使IT管理工作简易并量化,减轻对复杂信息系统管理工作的难度,并且可以应用在每天都在发生的各种新问题中。

(3) COBIT提供了一种国际通用的IT管理及问题解决方案。 (4) COBIT有助于提高信息系统审计师的影响力。

(5) COBIT框架可以帮助决定过程责任,提高IT治理水平。

6.4 数据中心运维管理提升

6.4.1. 建立可持续改进的运维管理

自进入20世纪90年代以来,持续改进的管理思想得到了企业界的认同。在目前激烈、复杂、变幻莫测的市场环境之下持续改进已经成为任何谋求发展的企业的永恒主题。

数据中心施行运维管理的持续改进可以不断提高管理水平,使内部管理得到提升。同时也可以提高满足客户需求的能力,向客户提供更好的服务。从而在激烈的市场竞争中得到发展。

数据中心实行持续改进可以通过PDCA循环来实现。所谓PDCA循环是美国著名质量管理专家戴明(W•E•Deming)首先提出的。每执行完一次PDCA循环,企业的管理水平就会在先前的水平基础上得到一定的提高。而不断的执行PDCA循环就可以使企业的管理水平形成螺旋式上升的趋势,达到不断的改善管理水平的目的。

在数据中心实际运维过程中管理体系本身需要具备不断执行PDCA的能力,而执行PDCA需要两方面的条件:

(1) 建立符合PDCA原则的管理体系。

(2) 在数据中心运维中认真执行管理体系,并实际执行持续改进。

由于PDCA的持续改进循环已经在企业管理界得到广泛认同,目前数据中心管理所涉及的主要管理标准在设计中也融入了PDCA的管理思想。例如前面介绍的ISO9001、ISO27001、ISO20000、ISO14000、BS25999标准都已经融入了PDCA的管理思想。所以按照这些管理标准建立的数据中心运维管理体系也具备了持续改进的管理基础。因此,只要数据中心的管理体系是以上述标准建立的就基本满足了第一项要求。

对于数据中心持续管理的实际运行可以通过以下几个方面进行。 (1) 制定管理目标和管理方针。

制定管理目标和管理方针应根据数据中心本身的特点及能力制定管理目标。管理目标不宜制定的过高,也不要制定的过低,应该是数据中心目前能力无法达到但通过努力可以达到的目标。这样才具有持续改进的动力。

管理目标应该被分解到基层部门,而不能只停留在管理层,要让每个部门甚至每个人都知道自己为了实现数据中心的管理目标需要做些什么事情,自己的具体目标是什么。 (2) 制定相关流程文件并执行。

认真执行流程文件是PDCA过程的重要组成部分。因为流程文件是根据企业运维实际情况制定的,是企业管理经验的沉淀。每次对数据中心运维的改进最终都会被落实到流程文件的规定中。不能很好地执行流程文件,数据中心的持续改进就只能停留在纸面上而不能对数据中心的管理起到真正的

作用。

(3) 对执行文件的效果、运行指标进行确认,了解客户及相关方需求,找到改善点并执行改善。 收集数据中心管理需要改善的内容,可以从以下几方面着手: ① 执行内部审核,发现流程文件执行中的问题。

② 统计各类指标的完成结果,对各部门完成目标的情况进行总结。 ③ 通过客户满意调查和客户沟通,了解客户对服务的意见。 ④ 通过与相关方的沟通,了解相关方对数据中心的要求。 ⑤ 了解业界管理动态。

当数据中心收集到需要改善的内容后,就要根据自身特点和业界经验对管理进行改善,并最终落实到流程文件中。

(4) 通过管理者评审,确认改善效果,修订方针、目标。

当数据中心完成上述工作后,管理者需要对数据中心的实际管理情况重新进行评估,如果有必要则需要修订相关的方针、目标,为数据中心下一阶段的管理改进明确方向。 6.4.2. 建立多重符合性的运维管理

ISO9001、ISO27001、ISO20000、BS25999及ITIL、ISO14000、COBIT等标准的推出,一方面为数据中心运维管理的规范给出了许多的指南,另一方面也为数据中心的运维管理提出了多重符合性挑战。所谓“多重符合性”是指,数据中心一方面要依据上述标准的要求建立不同的管理流程与体系;另一方面又要让员工能在日常工作中不会因为上面有太多的条条框框而无所适从;最后,就是要规划好这些管理体系之间的关系,定义好这些管理体系之间的接口,使所有的管理体系均获得良好的管理与维护。

目前,部分企业虽然也开始基于上述标准或开发了自己的管理体系,但这些通过标准的数据中心在构建自己的管理体系时通常采用“一个标准起草一套管理体系文件”的做法。如果一个企业需要同时通过ISO9001,ISO27001,ISO20000三个标准就需要分别起草三套文件来满足认证要求。这样做的好处显而易见,主要是管理体系的文件起草方面,单独维护容易,但也带来了如下问题:

(1) 管理体系间没有很好的衔接。 (2) 管理体系维护成本提高。

(3) 缺乏对数据中心管理框架的整体考虑。 (4) 员工执行流程文件难度加大。

(5) 新的管理体系导入对原有管理体系将造成较大的冲击。

因此,建议将不同的标准整合到一套管理体系文件中,建立一套同时符合ISO20000、ISO27001、ISO9001三个管理体系的整合标准。在建立该套整合管理体系时的关键着手点主要有: (1) 以ISO9001标准作为管理平台,实现管理者对数据中心流程、资源、目标的管理。 (2) 基于PDCA原则建立持续改善机制,形成以制定策略方针、管理目标、制作执行流程文件、收集监控运维数据进行管理评审5项工作为循环的持续改进环。

(3) 以ISO20000为数据中心运维管理流程框架主干,组织数据中心运维管理的各项工作。 (4) 以ISO27001的要求为具体规范,通过信息资产管理、风险分析等工作落实数据中心信息安全管理的各项措施,使数据中心的信息安全工作得到有效管控。

(5) 在具体管理流程与对应的管理标准之间建立映射关系,形成统一的管理框架和文件体系,使数据中心各类管理体系流程在同一框架内得到维护,同时降低了管理流程维护成本。 (6) 保留了管理框架的可扩展性,为以后融合其他管理体系标准预留接口。 6.4.3. 建立高度自动化的运维管理

为更好、更有效地实现数据中心运维管理目标,建立高度信息化的数据中心运维管理应始于对其信息系统的总体规划,数据中心的信息系统规划应表达出对战略、业务、信息、应用、技术等方面的综合考虑。

图6-20是面向数据中心的企业架构(DCEA),供读者参考,其中:

图6-20 数据中心的企业架构

(1) 业务架构和组织架构,用于理解组织使命、愿景、目标、业务、期望、要求、约束,以及角色、职责、流程、业务实体、场景、规则、术语、需求。

(2) 应用架构,用于描述支持业务的系统功能和特征,以及系统间关系,还应包括应用系统的功能模块、功能需求、系统间消息传递。

(3) 数据架构,用于定义数据如何被使用、处理、保存、交换、所采用的标准,采用主题域、实体、属性、关系、约束、数据流等方式来描述。

(4) 技术架构,表达了IT基础结构、技术路线、设计原则、开发规范、非功能要求,常用层次、平台、组件、类、对象状态、属性、方法等要素来描述。

(5) 运行架构,定义了部署和运维的过程,实现系统建设与运维无缝集成,一般可包括流程与角色定义、工单分类、配置项、服务影响树等要素。

首先,对支撑数据中心业务和处理数据的信息系统进行能力上的逻辑分组,明确如何满足业务架构中提出的业务功能和数据架构中提出的数据处理要求,如图6-21所示。

图6-21 数据中心信息系统应用参考架构

基于上面的逻辑分组,对应用架构进行进一步的细化,细化的颗粒度取决于规划项目的范围和质量要求,如图6-22所示。

在数据中心信息系统架构设计的基础上,结合运维管理的要求可以自行设计或从外部获取信息系统建设的路线图和解决方案,选择适当的时机以项目群的方式启动信息系统建设过程,从而实现数据中心的运维管理目标

第七章 如何省钱?数据中心成本分析

关于数据中心成本,本章将分别从建设期的一次性投入成本和运行维护期的长期运营成本两个方面进行论述。

7.1 一次性投入成本分析

数据中心的一次性投入成本主要发生在建设期。其建设方式可分为新建和改建两种。 7.1.1. 新建数据中心

新建数据中心是指企业在自己拥有的土地上,依照数据中心等级标准,建设专用建筑物和附属设施,并形成一个功能完善的数据中心园区。

新建数据中心项目的一次性投入成本是指数据中心开发建设过程中企业需要投入的一次性费用,一般分为开发成本和开发期间费用,参见表7-1。 表7-1 新建数据中心项目成本费用

7.1.2. 改建数据中心

改建数据中心是指将现有不符合数据中心要求的建筑物全部改建或部分改建,使其成为符合数据中心要求的建筑物。改建数据中心项目成本费用参见表7-2。改建数据中心一般分为: (1) 使用方购买需要改建的建筑物,并且按照数据中心等级标准的要求进行整体改造。 (2) 使用方在某一建筑物内,将选定的区域按照数据中心等级标准的要求进行改造。 表7-2 改建数据中心项目成本费用

7.2 长期运营成本分析

数据中心长期运营成本是数据中心在运营维护期间发生的各类费用,可以归纳为以下几个大类。 1. 房屋建筑物和土地成本摊销或租金

自建数据中心的土地成本摊销,自建或改建建筑物的成本摊销及装修费折旧均应计入数据中心长

期运营成本。

数据中心场地如果采用租赁方式,每期支付给租赁方的租金费用(含物业费)应计入数据中心长期运营成本。摊销和折旧方法参见国家相关财务制度。 2. 设备折旧或租金

设备购买成本折旧均应计入数据中心长期运营成本。

数据中心设备如果采用租赁方式,每期支付给租赁方的租金费用应计入数据中心长期运营成本。摊销和折旧方法参见国家相关财务制度。 3. 水电费用

数据中心运营产生的水电费用在长期运营成本中所占比率较大,尤其是电力费用一般在运营成本中所占比率约为40%,大型或超大型数据中心的电力费用所占比例更高,一般会达到长期运营成本的60%左右。因此,数据中心在运营期间如何有效节约电力成本是数据中心绿色节能的关键所在。 4. 网络通讯费用

数据中心网络通信费用包括电话通信费、互联网通信费和专线通信费等。由于对通信线路带宽需求的增加,数据中心网络通信成本呈明显上升趋势。 5. 管理费用

管理费用包括日常办公管理费用和人力资源成本。

数据中心日常办公管理费用包括交通费、差旅费、会议费和办公设备购置费等。

数据中心人员分为两大类:一类人员负责数据中心IT设施、环境的管理和维护;另一类人员负责数据中心的物业管理和维护。人力资源成本中应包含以上所有人员的薪酬开支等。 6. 保险费用

数据中心保险费用包括财产一切险和公共责任险。保险费率取决于投保设备的状况和投保金额。详细内容可查阅保险业相关规定。 7. 维修费用

数据中心基础设施日常维修保养费用包含数据中心建筑物及大型机电设备的日常维修和保养费

用。如果配有柴油发电机,柴油费用可一同计入。 8. 相关税费

相关税费是指数据中心运营期间可能涉及到的各种税费。例如,自有数据中心应缴纳的房产税和城镇土地使用税等。 9. 财务费用

数据中心运营期间涉及的利息净支出、汇兑净损失、金融机构手续费,以及企业筹集资金发生的其他财务费用等。

7.3 数据中心建设及运营案例介绍

7.3.1. 项目概况

某企业因自身业务发展需要,通过招标出让方式购置工业用地建设数据中心。本项目建筑总面积约15000m2,钢筋混凝土框架结构,主体建筑为4层。项目建设期为20062007年,2008年初正式投入使用,符合TIA942的Tier 3标准。 7.3.2. 主要技术经济指标 (1) 建设用地:约20亩。

(2) 总建筑面积:约15000m2。其中:

①机房部分建筑面积:约9600m2,承重1000kg/m2; ②动力中心部分建筑面积:约3150m2,承重2000kg/m2; ③办公相关建筑面积:约2250m2,承重300kg/m2; (3) 主要设备如下: ①冷水机组1200RT,5台; ②柴油机组1600kW,8台; ③精密空调,200台;

④UPS及蓄电池400kVA,50台; ⑤数据中心供电装机总容量:24000kVA;

(4) 其他说明:

①大市政配套费用及相关增容费用不包括在本案例中。

②所有采购的设备均在国内生产,其中部分重要设备为国际品牌。 ③本案例未计入IT设备投入及网络通信费用。 7.3.3. 一次性投入成本情况

该新建数据中心项目建设一次性投入成本汇总表,参见表7-3。 表7-3 一次性投入成本汇总表

7.3.4. 长期运营成本情况

该新建数据中心2008年及2009年主要运营成本一览表,见表7-4。 表7-4 主要运营成本一览表

第八章 数据中心的建设模式分析

数据中心建设是一项周密的系统工程,涉及数据中心选址、基础设施建设、运维管理队伍建设等一系列工作,不仅在建设期需要投入大量的人力、物力和财力,而且在建成后还要持续投入大量的运营管理资金和人员。建设模式的选择作为数据中心建设的一项重要基础工作,应在数据中心建设前期给予足够的重视。本章所述数据中心建设模式,是指相关资源的获取方式,目前主要有三种:自建、共建和外包。从国内外实践经验和案例来看,多企业共建模式的弊端较多,案例很少,一般不予考虑。因此,本章主要讨论自建模式和外包模式。

8.1 建设模式分析

自建,是指企业自己拥有并独享数据中心基础设施建设和运维管理团队。外包,是指企业选择第三方专业服务商,替代内部资源来承担数据中心的规划、建设、运营、管理和维护。例如。租用数据中心场地、设备,将数据中心运行维护外包给专业服务商等形式。我们主要从财务、能力和效率角度分别对自建和外包模式展开分析。 1. 财务

从财务的角度来分析不同建设模式对企业利益的影响是重要环节。这个角度主要评估两个对企业利益有影响的问题:在一定周期内两种模式的总成本支出不同,以及两种模式下的成本支出反映到财务报表的形式不同。以下分别就两种模式中有差异的几项内容作分析: 1) 基建成本

数据中心对建筑物、精密空调、消防、电力、通讯等基础设施要求高,投资大,每平方米建设成本高达万元以上,如果面积在上万平方米,则可以享受到规模效应带来的单位面积成本的降低。数据中心规模越小,单位成本就越高,规模越大,单位成本就越低。采用外包模式,企业可根据IT系统建设周期和实际的机房面积需求,灵活租用场地空间,通过共享专业的基础设施,借助专业服务商庞大的数据中心规模,大幅节约在基础设施成本方面的投资。超大型企业所需数据中心规模很大,可采用自建模式,而大多数企业所需数据中心规模不大,适合采用外包模式。 2) 运维成本

数据中心每年的运营费用主要包含房屋及设备的维护、折旧费、人员的工资福利、电费、水费、通信费等,这些费用加起来,每年总成本是一个非常大的数字。数据中心的日常运行维护,专业性强、复杂度高,并且要求365×7×24地进行。在自建模式下,要建立一支技术覆盖面广、人数有保障(AB角/三班倒)的运维队伍,独自承担所有人员费用;另外,还需要支付由于自建模式预留资源而增加的额外费用。而在外包模式下,企业无需扩大自身人力规模,减少了因人才聘用或流失而花费的管理、时间及技术风险成本,增加了人力资源配置的灵活性。通过采用按需支付的服务模式,可根据所需的SOW与SLA采购外包服务商的专业服务,服务商的运维团队通常为多个客户提供服务,因此,费用

支出成本也更低。 3) 财务影响

自建模式一次性投资和长期运行成本都较高,却并不产生直接效益,总体投入成本(TCO)和投资回报率(ROI)不对称,对财务有负面的影响,而且资产重组对于企业财务的表现也带来不确定性。相比而言,外包在企业资本支出和运营成本方面都较低,给企业在财务上带来更大的灵活性,还可改善现金流,便于有效地进行成本管理。 2. 能力

自建与外包模式,由于管理方式的不同,企业最终得到的保障能力是有差异的。主要在于以下几个方面: 1) 规划建设

数据中心的规划建设过程比较复杂,包括基建工程、各类机电设备选择、机房结构、供电、通信、布线等各类烦琐的工作,涉及面非常广,其具体的组织和实施有一定的难度,会有大量的分析、报表和方案提供出来,决策者要考虑每一个内容的先进性、冗余性和实用性。数据中心的规划、设计、实施和管理,需要精深的专业技术和完善的方法论支持,否则,将会有很大的风险。通常情况下,企业自建数据中心的规划、建设能力往往不足,行业经验积累不丰富,影响基础设施的质量。一旦数据中心建成,就需要不断的投入、维护、升级、扩容。由于业务发展的不确定性,过多的机房面积规划将造成大量资源闲置,过小的机房场地预留,又难以应对业务快速发展带来的非线性机房资源需求。按照今天IT应用的发展速度,要做出正确的规模和资源需求判断有相当的难度。这也是为什么很多大企业,在拥有自己的数据中心后,还要大批量的进行外包租用的原因所在。 2) 运行维护

数据中心作为信息与信息系统应用服务的物理载体,其基础设施运维服务也与普通的物业管理有本质的区别。数据中心日常监控、经常性的测试、应急措施、人才队伍的组建、规范化的运维管理体系的建立等各方面对专业技术都有着很高的要求。而在外包模式下,将该部分的风险转移给专业的数据中心基础设施建设服务商,是目前更为有效和安全的服务模式,因为专业性以及保障能力是专业外

包服务商的核心竞争力。 3) 服务质量

自建模式下,质量保障依靠企业自身的人员素质和管理水平;而外包模式下则需要对外包服务商进行评估,并对其服务质量作经常性的审查,以达到企业要求。由于数据中心运行的特殊性,自建模式下,运营团队的稳定性、技术能力提高以及专业性通常会产生问题,毕竟数据中心并不是自建企业的核心业务;而专业外包服务商则没有上述问题。 4) 责任机制

自建模式下,其责任依靠的是企业内部岗位职责和绩效考核来约束;外包模式下,其责任通过商业合同及法律保障来实现,通常企业与外包服务商签订严格的SOW及SLA,涉及有相关的经济赔偿条款和法律责任。在这个机制下,用户对服务商提出严谨要求的同时,服务商往往反过来会推动用户业务连续性计划的执行,起到促进作用。因此外包模式在责任机制上能形成优于自建模式的良性循环机制。 3. 效率 1) 建设周期

自建数据中心工程浩大,除涉及用地、基建、电力、通信等范畴之外,还牵涉企业外部资源的配合工作。通常建设一个数据中心会耗费数年时间。专业的数据中心服务商拥有建成的数据中心,客户可以随时入驻;也可在3~6个月的时间内,根据特定的需要为其客户化数据中心,可快速上线,大大缩短了项目的实施周期。 2) 扩展能力

通常信息系统规模会随着企业的发展进行扩展和升级。企业通常面临这样的问题,他们的数据中心是5~10年前建造的,跟现在的IT设备、空间和冗余要求不相匹配。许多数据中心虽然有空间,但是电力容量却受限,或者是不能满足市场或IT的要求。租用专业的数据中心就不会有这样的问题,当租约结束,企业可以选择搬进更新的数据中心,或者让服务商升级现有的基础设施。在外包模式下,企业可获得“随取所需”的服务,其扩展能力和灵活性较自建模式更有保障,可有效避免自建模式下

数据中心规划过度或规划不足等问题。 3) 管理复杂度

对企业而言,数据中心运维管理的复杂度因采用的模式不同而差异很大。在自建模式下,数据中心的管理涉及整个运行、维护的全过程,事无巨细,工作复杂而繁重,企业在其中需要投入较多的管理精力;而外包模式下,通过一个清晰的服务接口和分工界面,企业只需要关注结果而无需时刻处在过程之中,管理复杂度大大降低。此外,外包比自建模式的管理成本低、效率高,可使企业专注于核心业务的建设和发展。

8.2 国内外数据中心建设模式现状及趋势

前文就自建与外包两种模式对企业的不同影响做了分析,实际上每个机构的具体情况和项目背景是千差万别的,因此国际、国内市场上采用自建或外包方式的机构都有。下面将就国内外数据中心建设模式现状和趋势做简单的介绍。 1. 全球:数据中心市场高度成熟

在北美和欧洲,数据中心外包服务已是一个成熟的行业,如美国经过30多年的发展,在近十年大规模合并重组后,有20多家专门经营数据中心的服务商。

IT基础设施、科技地产,本世纪初在美国初具规模,在此行业中成立了DRT(Digital Realty Trust)、Equinix、DFT(DuPont Fabros Tech)、365 Main等公司可以提供以前没有的DIY数据中心服务。企业可以使用这些专业的公司来建设他们的数据中心,使用他们自己的规格或者租用这些服务商现有的数据中心,可以满足当前企业对于基础设施的80%的需求。例如,DRT在北美拥有76个数据中心,大约350个客户。Equinix有40个数据中心,覆盖18个城市,遍布北美,欧洲和亚太地区。

以灾备中心为例,“9•11”事件后,Globe Continuity Inc. 对美国、英国、澳大利亚及加拿大共565个公司使用灾难备份中心的情况进行了调查,发现在拥有或租用了灾难备份中心的公司中,56%使用了商业化的灾难备份服务,29%使用自有的灾难备份中心,15%在商业化灾难备份服务的基础上同时拥有自己的备份设施。两项相加,使用灾难备份服务外包的比例达到了71%。

Gartner公司预测,在今后的三年或更长的时间里,数据中心领域出现的最重要的变化之一就是,大中型企业越来越趋向于使用数据中心外包服务,而且这种转变在接下来几年会越来越快。2008年,全球第三方数据中心业务成交金额同比增长43%,达171亿美元。到2011年,美国企业数据中心有70%以上将受到能耗、场地空间及成本带来的实际困扰。数据中心外包或翻新是美国数据中心市场的热点。根据英国的数据监测(Datamonitor)公司的IT服务合同分析报告,最新2009年9月全球十大IT外包合同中,有五个外包合同的服务项目为数据中心和IT基础设施管理服务项目。 2. 国内:数据中心外包市场逐渐升温

五年前,中国的信息化建设经历了大集中风潮,接下来进入数据中心建设阶段。根据IDC最近发布的报告《中国数据中心市场2009~2013年预测与分析》,虽然处于全球经济危机时期,2008年中国的数据中心服务市场比2007年仍有快速增长,整个数据中心服务收入达到5.44亿美元。未来几年内数据中心市场将保持增长态势,中国的数据中心市场在2008年至2013年的复合平均增长率为23%。根据赛迪顾问预测,到2013年中国数据中心市场规模将超过977亿元,2009至2013年的复合增长率将会达到24.5%。

近年来,国内意识超前的相关服务企业和国外成熟的数据中心专业服务商将目光投向了国内市场,催生了为数不多的几家商业化数据中心服务提供商,建成或正在建设商业化的数据中心,提供基础设施外包、运维外包等专业化的数据中心服务,使国内数据中心需求单位有了寻求市场化支撑的可能。各银行、保险、证券等金融企业都产生了外包模式的案例。

第九章 数据中心与信息系统灾难恢复

9.1 数据中心是信息系统灾难恢复的载体

数据中心是集成化的IT应用环境,并且随着业务的整合以及新业务的不断涌现,数据中心变得愈加庞大和复杂,业务数据也变得愈加关键。任何断电、系统故障和人为操作不当都有可能造成关键数据的丢失,继而造成企业业务的停滞和不可估量的经济损失。如何应对数据大集中所带来的风险已成为人们关注的重点。为了应对各种自然灾难(火灾、水灾、地震等)和人为灾难(误操作、病毒等)对

企业数据中心的安全和正常运行带来的冲击,近年来,信息系统灾难恢复(通常也称为“灾备”)建设日益受到社会的关注和重视。

信息系统灾难恢复是指将信息系统从灾难造成的故障或瘫痪状态恢复到可正常运行状态,并将其支持的业务功能从灾难造成的不正常状态恢复到可接受状态而设计的活动和流程。为了灾难恢复而对数据、数据处理系统、网络系统、基础设施、技术支持能力和运行管理能力进行备份的过程称为灾难备份。正常情况下,对生产系统运行进行数据处理和支持关键业务功能运作的场所被称为生产中心。在灾难发生时接替生产系统运行进行数据处理和支持关键业务功能运作的场所被称为灾难备份中心(简称“灾备中心”),它包括备用的数据处理中心、备用的工作环境、备用的生活设施和技术支持及运行管理人员。

生产中心是信息系统灾难恢复的对象,而灾备中心是信息系统灾难恢复的基础,生产中心和灾备中心是数据中心的不同形态,而数据中心则是信息系统灾难恢复的载体。

对于那些高度依赖其信息系统运作的行业和企业而言,为保障信息系统安全稳定运行,人们采用了从技术、管理直至备份等诸方面的措施。其中数据中心基础设施是保障信息系统安全运行最重要的基础。从国际行业经验来看,大部分引发信息系统灾难的事件完全可以通过加强数据中心基础设施建设及运维管理来消除、或者减轻其不良影响。因此,对于业务连续性要求较高的行业和企业来说,选择高可用性数据中心作为生产中心和灾备中心是抵御灾难风险,保障业务持续运行的前提和根本。

9.2 数据中心的灾难恢复策略

信息系统灾难恢复起源于20世纪70年代,目前在政府、金融、电信、交通、能源、公共服务业以及大型制造、零售业等对信息化依存程度高的行业应用极其广泛。在震惊世界的“9•11”恐怖事件发生以后,“灾难恢复”更是成为全球性的信息化课题,即在政府或企业的数据中心遭遇自然灾难或人为侵害时,启用同城或异地建立的备份数据中心提供不间断的数据信息服务,从而保证政府或企业的业务连续性。

根据战略与业务需求的不同,灾难恢复基础设施可采用同城或异地两种布局方式。同城方式是指生产中心与灾备中心处于同一地理区域,面临同一区域性灾难风险,一般距离在20~100km以内。

异地方式是指生产中心与灾备中心处于不同地理区域,通常不会同时面临同一区域性灾难风险,一般距离在数百公里以上。在同城方式下,用于数据保护及应用访问的网络使用费用相对较低,用户灾难恢复响应及业务恢复速度较快,但抵御灾难的能力有局限性。异地方式下,对区域性灾难的防范能力较强,但用于数据保护及应用访问的网络使用费用较高,用户灾难恢复响应及业务恢复速度相对较慢。 数据中心的灾难恢复解决方案取决于对生产中心及业务的风险分析和业务影响分析,根据分析的结果确定灾难恢复目标,尤其是恢复时间目标(RTO)和恢复点目标(RPO),进而选择同城、异地或同城加异地的灾难恢复策略。

9.3 灾备中心对数据中心的特殊要求

灾备中心是以最高的可靠性和可用性为标准建设的,具备数据实时备份、冗余处理能力和网络传输条件,能够在主数据中心(生产中心)面临灾难无法正常运作的时候提供替代服务,对业务系统进行紧急恢复。灾备中心和生产中心(包含互联网数据中心)都属于数据中心,都是对数据设备集中存放和管理的场所,在基础设施的要求上很多相同之处,有时两者能够同时设置在同一建筑体中,但服务对象和业务内容不尽相同,特别是在辅助配套设施方面存在极大的差异。 9.3.1. 选址要求

数据中心在选址时通常需要远离加油站等易燃易爆场所,远离粉尘、强振动源和强电磁辐射源,选择交通通信方便、配套设施齐全、自然环境和地质条件良好的地方,从而有利于保证设备的安全运行,减少周围环境对其设备的危害,这是生产中心和灾备中心在选址时的共同点。

在选择或建设灾备中心时,应根据风险分析的结果,避免灾备中心与生产中心同时遭受同类风险。灾备中心还应具有方便灾难恢复人员或设备到达的交通条件,以及数据备份和灾难恢复所需的通信和电力等资源。

灾备中心的选址应遵循以下主要原则。 1. 策略性

首先,明确灾备中心的定位,即灾备中心的建设目的是防范什么样的灾难事件,在灾难发生时又能够提供何种服务。根据定位的不同,在选址时应采取不同的策略,例如,灾备中心若想在局部战争

条件下提供服务,在选址时就不能靠近军事目标或准军事目标等。此外,应充分考虑物理安全性,避免建于闹市区,通常适宜建在郊区。 2. 风险性

在选择或建设灾备中心时,应当充分考虑备选场址包含的风险是否在可容忍的范围之内,是否符合灾难恢复规划或业务连续计划的具体要求。例如,生产中心与灾备中心之间应当保持一个安全距离,必须避免因同一灾难导致两个中心同时处于灾难事件当中的可能性。又如,应选择独立的数据中心建筑物,有效隔离灾备中心与周边的建筑。确保周边建筑发生火灾或其他紧急情况时,不会影响到灾备中心的安全。此外,灾备中心应当确保与生产中心不在同一灾难风险区域,以规避灾难风险。 3. 科学性

选择或建设灾备中心时,应对备选场址进行相关的场地风险评估,科学和全面地评价备选场址。 4. 适合性

对于选定的场址而言,首先应符合《电子计算机场地通用规范》(GB/T 2887—2000)的要求;其次还要关注场址周边环境、地质地理条件、市政配套条件、电力供应条件以及通信服务商所能提供的服务能力等诸多因素,全面判断是否符合灾备中心的建设要求。 5. 便捷性

对于灾备中心,其周边应有多条道路用于保证相关人员和物资能够顺利和快速到达。例如,要求有2条或2条以上从机场到达灾备中心的道路,时间限制在1小时内。确保主数据中心发生灾难时,相关业务专家和IT工程师能够迅速赶到灾备中心现场,实施恢复业务。 9.3.2. 基础设施要求

从基础设施功能分区的角度考虑,生产中心和灾备中心都应当配置IT设备区、监控室、UPS室、会议室、其他设备用房、客户接待区、客户操作区、客户测试室和客户休息室等。由于灾备中心需要为客户提供灾难发生时进行紧急恢复的工作空间,还应包括指挥中心室、新闻发布厅、VIP办公室、介质储存室和问题解决室等。指挥中心室作为灾备中心的总控中心,实时反映灾备中心的运营状况,采用多方位自动化信息集中处理及多媒体信息展示方式,对灾备中心进行集中监控管理。在客户较多

的情况下,可以单独设立问题解决室作为客户各自的总控中心,通过带内和带外两种方式连接客户设备区域。而新闻发布厅则是客户在灾难发生时或者灾难恢复后的新闻发布场所。 下面将简要介绍灾备中心基础设施涵盖的范围和基础设施规划原则。 1. 灾备中心基础设施涵盖的范围

灾备中心是灾难恢复所需的、支持灾难备份系统运行的场所,包括介质的场外存放场所、备用的机房及工作辅助设施,以及允许灾难恢复人员连续停留的生活设施。按照工作性质可分为工作设施、辅助设施和生活设施三个部分见表9-1。 表9-1 灾备中心基础设施分类

2. 灾备中心基础设施规划原则

(1) 经济性。根据灾难恢复或业务连续计划的需求不同,选择或建设灾备中心时应根据实际情况给出适当的基础设施规划,降低成本。

(2) 空间性。根据灾难恢复或业务连续计划的需求和面临的风险不同,针对灾备中心的特点应当预留足够空间,避免由于预留空间不足影响到灾备中心的正常运行。例如,由于货运通道过于狭窄导致某些特定设备不能顺利搬运。

(3) 可靠性。根据灾备中心的特点,规划时应注重基础设施的可靠性,尽量避免由于单点故障造成的风险。

(4) 低调性。应考虑周边环境,不宜采用比较醒目的方式强调灾备中心,避免在特定条件下成为公众普遍关注的焦点,应采用融入周边环境的方式。

(5) 合理性。应充分考虑各类设施之间的相互关系,合理布置并预留足够的扩展空间。 (6) 管理性。应注重采用易于管理的技术或方法,提高灾备中心的工作效率,增强管理能力。 9.3.3. 运维管理要求

灾难恢复业务的特殊性为灾备中心的日常运营管理带来了与众不同的挑战,具体包括: 1. 7×24×365的要求

由于大多数灾难的发生是无法预知的,作为灾备中心必须能够提供7×24×365不间断的灾难恢复服务,确保灾难事件发生后有足够的能力支持业务恢复。如何能使灾备中心的工作人员时刻保持高度的责任心和敏感度去面对每一项日常工作,使企业的服务水平在一年的每分每秒都能保持同样的水平,这是灾备中心管理层所关注的一个主要问题。 2. “小概率、高风险”的管理要求

由于灾难事件的发生属于小概率事件,因而真正能够使用到灾备中心的概率很小。如何在平时几乎不使用的情况下,仅依靠日常的严格管理就能确保所有服务的可用性,则是灾备中心管理的另一个难点。

3. “演练为主,实操为辅”的日常管理要求

如前所述,灾备中心的启用本身就是一个小概率事件,兼之在业务连续管理中有一个重要的原则就是要对业务连续计划经常演练。因此,日常管理中应当经常采用各种各样的方式,使灾备中心的人员投入到不同的场景当中。通过这种经常性的演练,让他们熟悉每一项工作的步骤,而且能逐渐适应灾难场境中所带来的各项压力,确保当灾难真正来临时,灾备中心的人员均能按要求完成相关工作。 4. 工作重复性较强

由于灾备中心另一个重要的职责就是要确保放置在灾备中心的灾备系统平常的可用性。因此,灾备中心应习惯于制订详细的设备检查与维护工作计划,然后按每半个小时、1个小时或其他频率实施计划。

5. 质量控制难度较大

灾备中心归根到底就是通过日常严格的管理与训练有素的演练,在必要时提供灾难切换服务,能

够满足RPO(灾难恢复时间点目标:主要指灾备系统可以恢复至灾难发生前的具体时间点)与RTO(灾难恢复时间目标:主要指利用灾备系统接管生产系统恢复运营所需要的时间)的要求。保证灾难恢复的有效性是一项非常专业的工作。

灾备中心的运营管理非常复杂,从日常的运维到灾难发生时的应急响应、恢复和回退,是一个专业的、持续运行的过程,如图9-1所示。

图9-1 灾备中心运维管理

9.4 灾难恢复国家和行业标准规范

我国政府十分重视标准在信息系统灾难恢复建设中的规范性和指导性作用。国务院信息化工作办公室于2005年4月份下发了《重要信息系统灾难恢复指南》(国信办〔2005〕8号),明确了灾难恢复工作的流程、灾难恢复能力的等级划分及灾难恢复预案的制订。2007年6月14日,《重要信息系统灾难恢复指南》经修订完善后正式成为国家标准《信息安全技术 信息系统灾难恢复规范》(GB/T 20988—2007)。

2008年2月4日,中国人民银行发布了行业标准《银行业信息系统灾难恢复管理规范》(JR/T0044—2008)。它将信息系统按时间敏感性分成三类需求等级,确定了每类信息系统灾难恢复的最低要求。 2008年3月21日,中国保险监督管理委员会发布了《保险业信息系统灾难恢复管理指引》,对灾难恢复组织机构、需求分析和策略制定、灾难备份中心的建设与运行维护、资源和专业服务的获

取和保障、灾难恢复预案的管理、应急响应和灾难恢复、审计和备案等提出了监管要求。

第十章 企业级数据中心的评价体系

10.1 企业级数据中心评价基本原则

1. 评价基本原则一:关注数据中心的TCO

TCO是企业经常采用的技术评价标准,它指在一定时间范围内企业所支付的包括基建成本、设备购置成本和运营成本在内的总体成本。TCO具体包括设计费、土地购置费、基建建设费、设备购置费、后期维护成本、扩容设备成本、扩容改造成本、运营消耗(水、电、人工)成本等。一般根据机房存续时间可以规划成短(5~10年)、中(10~20年)、长(20~30年)三个时间段。 2. 评价基本原则二:鉴定是否为绿色数据中心

所谓数据中心的“绿色”,业界标准并不统一,但共识主要体现在:

1) 整体设计的科学合理和设备的节能环保。“绿色”理念应通过科学合理的整体设计(或改善)来体现,达到动力环境配置最优化、初始投入最小化;在保障机房设备稳定运营的同时实现节能减耗,以实现IT设备效能比最大化。

2) 具备满足IT系统运营的基本环境,同时确保可扩展性。应合理规划数据中心的使用寿命,争取达到TCO的最小化。

最高效的数据中心不一定就是绿色的。绿色数据中心的评价包括位置、环境、物理建筑、基础设施、员工、系统建设和维护等诸多因素,并贯穿数据中心的设计、建设、运维全过程。对于企业IT负责人来说,要了解数据中心的“绿化”效果,需要考察服务器能耗、体积、空调能耗、不间断电源等大指标,同时也需要考察空气动力设计、设备摆放位置、机柜和服务器之间的距离、维护难易程度等多个小指标。

3. 评价基本原则三:确定数据中心可持续发展能力 数据中心的可持续发展能力具有以下几点特征:

(1) 环境效益。保持数据中心的消耗转向更清洁及更有效的技术、能源等,尽可能接近“零排放”,

尽可能减少自然资源的消耗。

(2) 企业效益。在满足维持企业业务连续性的前提下,数据中心运转良好,同时可以改善、降低数据中心的能源消耗;或者在保持消耗同等资源及提供同等服务的条件下,使企业净利润增加到最大限度。

(3) 自身效益。对数据中心内部来说,具有以下几点要求:

①可追溯性,即数据中心中的任何一个设备都是可以进行维修、跟踪的,以确保数据中心的易操作性。

②动态性,即可以对数据中心进行动态且自动化的管理(能够实现工作负载移动性、自动管理及高可用性)。

③兼容性,要求设备之间、数据群组之间、数据中心群之间完美切换、连接、通信。

④连续性,即要求数据中心既满足短期内(5~10年)企业的需求,又具有可扩展性,满足企业中(10~20年)、长(20~30年)期需求。

10.2 企业级数据中心评价方法论和指标体系

企业级数据中心方法论,就是人们认识数据中心、改造数据中心、评价数据中心的一般通行方法。企业级数据中心评价方法论主要解决如何评价数据中心的问题。

由图10-1、图10-2可知,数据中心的构建涵盖了设计、施工、验收等三个主要阶段。在构建完成的数据中心中,建筑体、IT设备、基础物理设施构成了数据中心的主要载体;在此载体的基础上运转相关软件,支撑企业的主要业务和海量数据。

图10-1 企业级数据中心建设逻辑架构图

图10-2 典型数据中心构成图

对企业级数据中心的评价主要集中在建筑体评价、设备评价、设计评价、业务评价四大方面。施工与验收仅仅是过程与手段,故不列入评价模型中来。企业级数据中心四维评价模型如图10-3所示。

图10-3 企业级数据中心四维评价模型图

下面分别列出企业级数据中心建筑体评价、设备评价、设计评价、业务评价方面的指标体系。 1. 建筑体评价

本评价采用了LEED™评价体系,主要用于评价建筑在其全生命周期中的环境性能表现,由五大方面、若干指标构成其技术框架:可持续建筑场址、水资源利用、建筑节能与大气、资源与材料和室内空气质量。通过以上五个方面对建筑进行综合考察、评判其对环境的影响,并根据每个方面的指标进行打分,以反映建筑的绿色水平。 2. 设备评价

设备主要包含基础物理设施、IT设备以及软件运行系统。基础设施主要指UPS、电池、机柜(机架)、监控、空调等基础设备。软件系统包括数据库管理、数据仓库管理、数据分析及挖掘、数据存储管理和数据备份管理等子系统。IT设备(硬件)系统由承载数据中心软件的各类服务器、网络存储等组成。数据中心设备评价细分和内容,见表10-1。 表10-1 数据中心设备评价细分和内容

数据中心设备评价指标与详解参见表10-2。 表10-2 数据中心设备评价指标与详解

3. 设计评价

企业级数据中心的设计要符合国家相关指导标准的要求,并满足数据中心的可持续发展原则。设计评价要考虑数据中心的整合与集中、未来数据中心的发展趋势与方向等问题。数据中心设计评价指标与详解参见表10-3。

表10-3 数据中心设计评价指标与详解

4. 业务评价

数据中心建设的终极目的是为了运转数据平台,支撑企业的业务发展。一个合格的数据中心应该满足维持企业业务的速度,业务连续性等基础标准。数据中心的业务评估更多的是要考虑数据中心能为企业业务的可靠性、连续性、响应速度等因素进行评估。

(1) 是否满足当前的业务需求,包含业务的可靠性、连续性、响应速度等因素。

(2) 在满足当前业务需求的基础上,是否考虑了未来业务的增长,留下可以扩容的空间,以便使业务的连续性得到保障。

(3) 是否便于硬件服务人员的维护,以及软件服务人员的平台操作。

通过四维评价模型对数据中心进行全面细致的评价和问题识别,综合分析数据中心以往设计、建设及设备选择中存在的不足,为数据中心后续的建设和优化改进指明方向。

因篇幅问题不能全部显示,请点此查看更多更全内容

Top