图书

电子书

课程

VIP会员

书课包

IT运维之道

978-7-115-38450-8

作者: 李鹏

译者:

编辑: 张涛

分类: 网络管理

图书目录:

详情

随着大数据的出现，用户对IT服务的要求越来越高，对规范性的要求越来越迫切，本书所采用的方法既来自国际标准框架，也来自IT大数据运维服务一线的经验，对各大行业开展IT运维服务实操有很强的指导性。内容经典有持续的生命力，可作为学校学生学习的辅导书籍和IT公司对新人培训的在职辅导书籍。

图书摘要

版权信息

书名：IT运维之道

ISBN：978-7-115-38450-8

您购买的人民邮电出版社电子书仅供您个人使用，未经授权，不得以任何方式复制和传播本书内容。

我们愿意相信读者具有这样的良知和觉悟，与我们共同保护知识产权。

如果购买者有侵权行为，我们可能对该用户实施包括但不限于关闭该帐号等维权措施，并可能追究法律责任。

作者简介

李鹏，北京中烟信息技术有限公司，中国信息技术服务标准技术委员会专家，IT运维实验室行业专家，ISO20000国际认证管理师，从事IT安全及运维管理工作近二十年。近年致力于提升中国本土企业IT治理水平，坚持倡导运用国际先进的IT服务管理理念，结合企业实际开展IT系统的安全及运维管理。

本书卖点

全面展现IT服务方法、标准、技巧、技术，让读者能纵览IT服务全貌；

深入浅出的阐述了IT运维精髓和全方位要素，深刻剖析了IT运维的成功规律；

系统概述了从硬件到软件的各类IT技术，让读者具备IT运维软功夫和硬功夫；

本书深入浅出、化繁为简，将信息化服务中晦涩的IT标准规范、流程体系用浅显易懂的方式娓娓道来

针对IT服务做什么、怎么做、怎么做好等问题进行了阐述，为从业人员整天陷于事无巨细的IT服务工作梳理了工作思路，理清了工作目标和方向

专业书评

纵观目前IT服务类图书，主要是介绍IT技术运维标准和理论体系，以及IT服务内容和技巧的。这些书主要介绍IT运维体系建设和服务流程，只能让从业者了解或掌握IT服务的冰山一角。

本书作者长期从事大型IT服务管理工作，有多年的IT运维服务实践经历。本书从IT服务人员的视角阐述了如何在信息技术发展的大潮中明确自己的职业定位，历练技能，成为服务达人。作者深入浅出、化繁为简，将信息化服务中晦涩的IT标准规范、流程体系用浅显易懂的方式娓娓道来。在“机遇篇”中，作者通过实际案例分析，帮助读者选择职业定位，使长期受到选择从事“软件开发”还是投身于“IT服务”问题困惑的从业人员得到明确的指引。在“做事篇”中，作者针对IT服务做什么、怎么做、怎么做好等问题进行了阐述，为整天陷于事无巨细的IT服务工作的从业人员梳理了工作思路，理清了工作目标和方向。在“处事篇”中将IT服务人员从与机器和代码打交道中解脱出来，认真思考和把握如何与用户进行有效的沟通和交流，将“做事先做人，有位必有为”的服务理念分享给读者。IT服务的基础是扎实地掌握信息化技术，在“技能篇”中系统地介绍了运维服务所涉及的各种IT技术和技能。最后为了便于读者深入了解和掌握IT服务的高端知识，在“高级篇”中向读者深入浅出地介绍了当今国内外先进的IT服务标准、架构、体系和方法论。

总之，本书不但将ITIL、ISO 20000等运维服务理念和服务心得融入书中，更剖析了IT服务的成功经验和规律，让读者系统地了解和掌握IT服务的最新理念、技术、方法和要素，提高IT服务的水平和能力，享受从事IT服务工作的乐趣与荣誉。本书的价值在于不仅适用于IT服务从业者本身，也适用于其他服务行业人员。

《IT运维之道》是一本富有内涵、智慧和趣味的图书，从事IT技术咨询、开发、建设和服务工作者和一般读者，也将从中受益。

内容提要

本书共分为5篇，机遇篇、做事篇、处事篇、技能篇和高级篇，从不同的层面阐述了IT运维人员应掌握的方法及相关知识与技能。本书作者深入浅出、化繁为简，将信息化服务中晦涩的IT标准规范、流程体系用浅显易懂的方式娓娓道来。在“机遇篇”中，通过实际案例分析，帮助读者选择职业定位，使长期受到选择从事“软件开发”还是投身于“IT服务”问题困惑的从业人员得到明确的指引。在“做事篇”中，针对IT服务做什么、怎么做、怎么做好等问题进行了阐述，为从业人员整天陷于事无巨细的IT服务工作梳理了工作思路，理清了工作目标和方向。在“处事篇”中将IT服务人员从与机器和代码打交道中解脱出来，认真思考和把握如何与用户进行有效的沟通和交流，将“做事先做人，有位必有为”的服务理念分享给读者。在“技能篇”中系统地介绍了运维服务所涉及的各种IT技术和技能。在“高级篇”中向读者深入浅出地介绍了当今国内外先进的IT服务标准、架构、体系和方法。

希望本书的有关内容能够成为IT从业者或即将从事IT运维服务者的指引，为成功遨游于IT运维服务领域奠定基础。

序言

随着信息技术日新月异的发展，全球信息化浪潮已触及人们工作、生活的每一个角落。物联网、云计算、移动互联、大数据等信息技术已经在国内各领域得到了广泛的应用。不但金融、电信、电子商务等离不开信息技术，传统的制造业、物流业、服务业、交通运输业、教育培训以及农牧业等，都离不开信息技术的支撑。因此，通过IT服务，确保IT系统的安全、稳定、可靠运行是当今社会面临的重要课题。IT服务是伴随IT系统的存在而产生的，只要有IT系统的地方，就需要IT服务。目前有超过三分之一的IT专业人员从事IT服务行业，大有三分天下有其一之势，这是一个大有可为的行业。

事实上，IT服务是一项重要而平凡的工作。如何使工作平凡而不平庸，在平凡中透出精致，在平淡中于幕后透出光环，让IT服务的人生充满智慧与成就感，是作者希望通过此书表述的意境。

《IT运维之道》是一本富有内涵、智慧和趣味的图书，从事IT技术咨询、开发、建设和服务工作者和一般读者，也将从中受益。

王金亮

2015年1月

前言

这么多年，从事IT服务及其管理工作，觉得IT服务就像一本奇书，初读它时，觉得懂了，用起来却差强人意；有时候突然从里面发现了什么似的，又转瞬即逝；有些道理看似平淡，多年的感悟才体会到是千真万确的真理。于是，兴趣所致，常常在夜深人静时把一点一滴的得与失进行思考总结，日积月累，便有了一些积淀。而平时，在日常的工作中发现不少积极向上的同事也在探索IT服务的道路。在朋友和家人的提点与鼓励下，把多年的经验与心得凝聚成册，最终促成了此书的面世。希望与广大读者分享自己的经验，在IT服务的道路上早入门、少走弯路，在做人做事方面成就自己的梦想。

本书共分为五大篇，即机遇篇、做事篇、处事篇、技能篇和高级篇。每篇又分为若干章节，从不同的层面、角度阐述做人做事的方法以及相关基础知识。由于IT服务中最主要也是最基本的服务就是IT运维服务，因此本书对此方面的着墨最多。IT服务有很多，但其工作方法都是相通的，掌握了IT运维服务的方法就能推而广之、融会贯通。希望本书的有关内容能够成为IT从业者或即将从事IT服务的读者一个指引，为成功遨游于IT服务领域奠定基础。

在本书的编撰过程中，冯励、周德照、周延斌等同事给予了大力支持，在此向他们表示感谢。

由于时间仓促，书中难免有一些不足之处，恳请广大读者批评指正。

编者

机遇篇

第1章奇葩的IT男

第2章机遇就是选择大于努力

第1章奇葩的IT男

故事总是充满奇遇，我们这篇的主人公也不例外，几年前还是在校生的王某某，我们就叫他王大锤吧，在毕业前夕也不知不觉经历了一次人生重大机遇。

1.1 半年月薪过万

作为××理工大学计算机软件专业的王大锤，在毕业前夕，同大多数同学一样希望成为一名软件工程师，在软件王国扬名立万，然而这时的他可能对四年的学校生活有些后悔，回想大学生活除了熟悉的教室、食堂、宿舍和自己的笔记本电脑以及Dota外，其他几乎空白。田径场上没有他的英姿，各种社团也没他的事，组织上也没靠拢，成绩嘛也几乎是60分万岁，甚至连唯一一次谈过的女朋友，也被师哥掠走。没有亮点的他投出去的简历几乎石沉大海，最后一个做IT运维的公司要了他，工作是为一家大国企做桌面计算机（俗称电脑）维护，同时表姐给他报了个DB2数据库系统管理员培训课程。奇怪的是王大锤对DB2异常有兴趣，也许这段时间只有沉浸在这里才能暂时忘记他失败者的感受。就这样，一晃半年过去了。一天公司承接了该国企的数据库运维服务，人员不够，问谁会，王大锤说他会，并通过了公司的考试，成为了DB2数据库维护团队中的一员。加入团队后，大锤激情四射，也是年轻，常常为处理数据库的问题通宵在企业里加班，当东方开始发白的时候问题也解决了，得到了客户的多次肯定与表扬，老板给他加薪过万了。感受到成功的喜悦，他第一个想到的是给前女友打电话，想请她吃饭，要高档点，可惜，“您拨的电话是空号”，只好请几个学校的室友喝啤酒，听说大锤月薪过万后，几哥们大吐牢骚，说××软件公司人才济济，他们新兵压力大，没出头机会，月薪才四千多元，不如他呀，大锤听了不知怎么就这么入耳！

1.2 三年当部门经理

有了这次成功的体验后，大锤来了劲，爱上IT服务，在自己的工作中发现光有激情还不够，规范到位的服务非常重要。那什么才是好的规范服务呢？大锤在网上查了很多资料，决定瞄准国际经验，开始自己报名学了ITIL，通过ITIL的学习，明白了很多，开始给公司建言献策，建立起各种规范制度，并成为公司ISO 20000项目骨干，最后公司通过了ISO 20000认证。除了服务意识、ISO 20000的学习与建设，还不断提升自身技能、管理能力等，一步步从项目经理、业务组长、部门副经理走了过来，短短三年时间当上了小型机服务事业部总经理。

1.3 IT服务的创意人生

大锤不但技术水平好，而且服务态度好，对客户总是笑脸相迎，这几年的历练，讲话水平是大幅提高，不但技术方案讲得头头是道，而且对不同客户的商道也摸出了路数。有客户劝他自己开公司，在一帮老同学的簇拥下，大锤技术服务公司诞生了。公司秉承规范服务、优质服务的理念，生意越做越大，由IT运维服务，到IT运维、IT培训、IT咨询、IT服务外包等综合发展，大锤的事业蒸蒸日上，男人的自信从他的言谈举止中透射出，当然，身边的女性朋友也多了起来，他开始了自己的创意人生。前一段时间还搞了一次公司与客户的篮球比赛，还硬要当地电视台报道，自己还当前锋，说是与客户加深感情，同时搞活企业文化，谁知道他在想啥呢，因为他知道，前女友就在当地……

第2章机遇就是选择大于努力

前面的故事说明一个道理，人生的选择很重要，选择有时大于努力，大象与蚂蚁都很努力，但结果的分量是不一样的，2004年如果你一咬牙（或者再晚点）买了房，十年的巨幅增值，比你现在干哪行都赚得快，但是往往有选择就有痛苦，这种痛苦来自于对未知的恐惧和现实需要的付出，作为一个IT从业者或是即将从业者，你该怎么选择，我们来分析分析。

2.1 IT开发还是IT服务

从宏观上讲，现在软件产品已是百花齐放，品种众多，而整个国家GDP增速也不会像以前那么高，大规模的开发时代应该过去了，客户由追求软件数量到追求IT品质，IT服务就变得越来越重要了。从数据上看，中国IT服务市场在2011 年恢复高速增长，2010－2013年中国IT服务市场呈现高速增长态势，同比增长率逐年递增。2010年中国IT服务市场规模达到1218.56亿元，同比增长19.37%，2011年市场规模达到1507.28亿元，同比增长23.69%，增长速度逐渐恢复，2012年市场规模接近2000亿元，达到1912.15亿元，同比增长26.86%，2013年市场规模达到2430.78亿元，同比增长27.12%。

所谓IT服务是指服务商利用计算机有关专业知识、技术、硬件设施或软件为用户提供的一系列服务，为IT服务。如：IT硬件的维护或维保，基础软件或应用软件的维护与升级，IT技术技能以及管理的培训，IT运行或管理的咨询，计算机有关设备的租赁及使用，通过应用软件为用户提供有偿或无偿服务等工作都是IT服务。也就是说，你单位里的IT部门是在为你提供IT服务，IDC也是在提供IT服务，微信、微博、QQ还有你手机上的一堆APP都是在为你提供IT服务。目前，在IT服务的大家庭中，IT运维服务占有越来越显著的地位，而且也是IT服务的基础性工作。伴随着电子商务、移动互联、网上或移动支付的崛起，系统的安全性、稳定性、运维的可靠性越来越进入IT服务界大腕儿们的视野。

从上面看，IT服务大有可为，我常把IT工作比作医务工作，而不是建筑队、物业队，之所以比作医务工作，首先它们都既是工程又是艺术，其次是它们都离不开人，IT开发像外科医生，中年最吃香，IT服务像内科医生和保健医生，越老越值钱，需要靠经验，一个系统的问题，像是老祖宗的太极图，问题是多种因素造成的，这些因素又相互关联，你中有我，我中有你，问题的处理很多时候是一种平衡，IT运维或更广点的IT服务这种职业是一种在学习、探索、积累中不断提升自己经验值的职业，它让你的职业生涯充满好奇、充满挑战、充满智慧与成就感；从事IT开发的人员要求快速上手，开始时劳动强度比较大，中年时会考虑是提升的机会多还是转行更好，毕竟项目经理、高级设计师、需求分析师的职位少，而IT服务（包括运维、拓展、培训、咨询、数据处理、测试等），无论你在客户服务线，还是技术支持线，还是管理线，原则上都有很广的上升空间，且越老越值钱，但从IT开发转过来的人也很有优势，所以说，选择一个职业，还要看看自己的兴趣爱好、特长等，如果你年轻，如果你还不清楚自己的定位，为什么不去多尝试一下呢，反正你的沉没成本低。

2.2 早选择，早领跑

我们从读小学起就在有意无意中进行选择，比如课外班选择读奥数的人到了高中更倾向于读理科；课外班选择艺术类的人到了大学更能显示出文艺范儿；课外班选择外语的人到了工作中更容易进入外企就业。很多人以为冥冥之中他们的职业选择是上天安排的，其实兴趣班的选择往往在人们的职业道路上已经悄悄地开始了铺垫。比如IBM 2002年收购普华永道之举，当时来看颇有壮士断腕的勇气，而目前再看实乃明智之举。当下，全中国IT从业企业都高举IT服务的大旗时，我们不得不佩服IBM选择从IT制造业转向IT服务业的当断则断的魄力。早选择往往就是太极拳中四两拨千斤的巧劲。

前面讲的王大锤就是因为一次意外，比同学早选择了IT服务这个行业，结果，把以前在学校比他优秀的同学甩在了后面，其实，关于他的故事本想写部长长的励志书，但不是本书重点，在此略去。

那怎么早选择呢，确实越早选择越难选择，选择不是天马行空，选择要与自己的专业相结合，要与自己的志向相结合，要与自己的兴趣特长相结合，一般情况，一个从事IT服务的人员应具备必要的计算机基础知识，善总结、爱积累、好学习，要有持之以恒的信念和热爱服务的理念，至于个人性格外向型点还是内向型些，我觉得都能在IT服务中找到自己的位置，无论怎样，本人是IT服务的一名从业人员，当然欢迎你们加入IT服务这只队伍，并尽早成为这只队伍中的达人。

做事篇

第3章 IT运维做什么

第4章有目的、有计划地做事

第5章注重规范性和完整性

第6章高效率和高质量

第7章亲和性和系统性

第8章懂业务和善思考

第9章其他服务

第3章 IT运维做什么

3.1 IT运维的四件要事

IT服务中最主要也是最基本的服务就是IT运维服务，我们就从这里说起。

当2014年春节微信红包派发之际，移动互联网行业惊呼“微信一个晚上绑定一个亿的用户，干完了支付宝八年的工作”。微信只用一晚上就完成一个亿的用户绑定，按照一晚上8个小时计算，平均每小时微信需要处理1250万用户发起的绑定请求，平均每秒钟微信要处理3472个用户，同时完成每个用户的红包派发流程。凡是参与过2014年微信红包派发或领取过的人，几乎都能较为顺畅地绑定银行卡，派发或领取红包，个人的微信账号上也能即时显示每个人所领取的红包个数和金额等。这套完整的银行卡绑定和红包领取流程，用户的体验如此完美，其幕后是由一套完备的IT运维服务支撑体系来实现的。这套完备的IT运维服务支撑体系包括强有力的技术平台，更包括周到的服务流程和应急准备以及以用户体验为核心的服务实施。想象一下，正当全民在享受阖家欢乐的祥和春节之际，一台台闪着绿灯的服务器在高速地运算着，一位位尽职的运维工程师还在终端前监测着系统的状态，保障着系统的顺畅运行，这些幕后的英雄们创造了又一个移动互联网的新应用奇迹。

长期以来人们获得的一流的IT服务体验都是由一套完备的IT运维体系来支撑的。这套IT运维支撑体系容易让人们有一种错觉，即IT运维服务是以技术为核心的。因为在用户的眼里，好的IT运维服务总是取决于IT运维服务者技术能力的高低，遇到水平高的工程师常常只需要几分钟就能处理完成，而遇到水平低的工程师常常要耐心等上好几个小时才能解决问题。而这只是事实的一部分，一流的IT服务体验来自于以用户服务为核心的战略，即一个为用户服务的文化理念、一套标准规范的流程、一套科学有效的服务方法是用户获取最佳体验的基础，在基础之上才是技术。我们说当今最具代表性的产品就是苹果公司的iPhone手机，它为用户提供的极致体验是以用户需求为出发点，借助高科技的创新手段来实现的。

高效能的IT运维服务者如同一名技艺高超的保健医生，在用户眼里是IT技术专家，在内行人眼里是IT服务专家。保健医生首先是全科医生，能够把人当成一个整体来帮助我们预防疾病的产生和治疗常见的疾病。IT服务专家正是具备这样全面的IT系统保健能力，他们能够把IT技术和IT服务当作一个有机的整体，让内行人士能感觉到我们有专业的能力为IT系统的健康保驾护航，让外行人士看到、听到、感觉到IT服务者能够在大多数情况下一次性高效率地解决问题。

那么IT运维服务的主要工作有哪些？这首先要从IT运维服务的目标说起，IT运维服务的简单目标就是确保所维护的信息化系统安全、高效、平稳地运作。IT服务专家根据这个目标向IT系统使用者提供优质的IT服务，因此IT运维服务人员如做好四件事情，就可以达到事半功倍的效果。四件要事概括来说就是：一是按照IT运维服务的原则做事，IT运维服务的原则即事先讲计划、重承诺，事中讲规范、重控制、有反馈，事后重效率、能应急、有保障共八项原则。二是掌握好IT服务的平衡，重点是掌握好主动服务和受理服务平衡的艺术。三是落实信息系统的整体运维服务，信息化系统的整体运维要从做好相关子系统的维护入手，从信息化系统层面来看可分为软件支撑系统、应用系统、计算机硬件设备以及机房和环境四个子系统。四是将运维服务流程贯穿IT运维过程的始终。IT运维服务流程的核心流程包括：事件流程、问题流程、配置管理流程、变更流程、发布流程。图3.1示出了IT运维的四件要事。

▲图3.1 IT运维的四件要事

3.2 IT运维服务的原则

前面大家了解了IT运维服务的主要工作内容，作为我们IT运维服务者如何做好这份工作呢？运维服务工作看似简单，不少人认为就是修修电脑、调调软件等，自比物业，不善总结，结果一年忙到头，既不被用户认可也不被老板重视，面对困惑我们多少会问下自己，自己是做得多好呢还是做得少好，是忙点好呢还是闲点好，我们这里要回答：“不！是做到点上才好，怎样才能做到点上呢？”

首先是要用心，用心做事才能成功，当然这里面确实有技巧，我们首先要知道IT运维服务的总体原则：事先讲计划、重承诺，事中讲规范、重控制、有反馈，事后重效率、能应急、有保障。这几个方面是相辅相成的，有了计划才能按照计划与承诺去开展相关工作，在这个过程中要体现出规范性，并有效控制各种风险，对于服务过程与结果应向用户进行报告和反馈；同时，整个运维工作应体现出积极的效果，包括运维效率、应急与保障能力等。只有这样，运维工作才能满足用户的需求，并达到预期的效果，实现用户放心、舒心、开心的目标。

3.2.1 讲计划

《草船借箭》是我国三国时期的一个故事。周瑜为陷害诸葛亮，要诸葛亮在十天之内造好十万支箭。诸葛亮算定了大雾之日，便借子敬二十只草船驶往曹营，曹操因疑雾中有埋伏，便令以乱箭射之。待至日高雾散，孔明令收船急回，船轻水急，曹操追之不得，使孔明既安全借得箭，又挫败了周瑜的暗算，表现了诸葛亮有胆有识，才智过人。《草船借箭》中诸葛亮的胆识才智受到后人的赞美，不过我以为诸葛孔明最令人叫绝的是他的这次策划，因为有这次天衣无缝的策划，所以胸有成竹，轻轻松松，成绩显著。而策划用在运维上就是计划。

所以，想在运维过程中轻轻松松，又能做到点上，就要重视事先的计划，计划来源于和客户达成的承诺或领导的命令，在整个运维过程中，计划是整个工作流程的核心，年度计划（依据服务承诺制定）又是计划中的龙头，按照计划先行的原则，依据本年度工作计划制定分项工作计划（如巡检计划、监控计划、培训计划等）和时间维度计划（季度工作计划、月度工作计划等），并遵流程、按计划进行实施和保障。所以，工作计划是真正运维具体工作的龙头，它是围绕实现服务承诺而制定的，各分项工作计划（如巡检计划、监控计划、培训计划等）和时间维度计划（季度工作计划、月度工作计划等），都应以确保实现服务承诺为前提。其中，现场巡检计划是运维工作计划的核心，因为现场巡检工作具有重要的作用和意义，通过现场巡检能够发现系统薄弱环节、关键业务节点、存在的隐患，尤其是对制定应急预案及备品备件计划至关重要。当然，写得再完美的方案如果不做就等于纸上谈兵、水中之月，所以，计划执行应是重点，企业的成功很多时候是赢在执行，运维体系能否严格按照工作计划执行是运维服务效果能否达标的关键因素之一。当然，如果计划发生变化，那么如何执行也应进行相应更新和变动，以适应工作计划需要。在运维执行过程中，应严格按照流程规范开展运维，并注重控制以降低运维风险。针对运维执行情况，应定期向用户进行反馈。不过计划的粗细、时间跨度要依据项目和公司情况而定。

最后，要将工作计划的执行效果及运维结果与服务承诺进行对比，对比的结果应作为改进工作计划的输入，确保对用户的承诺能够达成。在此过程中，运维人员将根据工作需要定期或不定期将运维工作情况向用户进行反馈与汇报，让用户全面了解整个系统运行情况及运维工作情况。因此，总结起来可以说，运维工作执行来源于计划，受控于流程，输出于反馈，更新于实践。

3.2.2 重承诺

获得用户的信任是长期、稳定、深入开展运维工作的基础和前提，而要获得用户的信任，很重要的一点就是讲求信用，即重承诺。重承诺是IT运维服务商向用户提出具体的运维服务承诺，并认真做好运维工作，确保各项运维指标达到标准，从而获得用户的信任，让用户放心。用户对运维工作的信任需要长期、耐心、深入地开展工作。

对于用户的任何承诺，都应严格予以履行，确因特殊原因导致无法履行时，应提前和用户进行说明和解释，并获得对方的谅解。简单来说，对于用户不要轻易许诺，而一旦许诺，就要做到。具体体现在以下方面：

（1）事先和用户约定服务级别协议（Service Level Agreement，SLA），对于所承诺的服务级别目标应严格履行。

（2）对于给用户所做的书面或口头承诺，包括提供的资源、提供的方案、应给与的回复，都应在约定的时间内、按约定的要求予以提供或实现。

（3）向用户进行承诺后要认真执行相应的工作任务，确保服务承诺可以达成，重点是给用户的各种计划，应按计划安排予以执行，确需调整应提前向用户进行说明以调整计划。

（4）对用户做出的书面服务承诺必须达成，当预判对用户的承诺在既定的时间内可能无法达到时，应提前向用户解释，并提出补救措施，以尽量达到服务承诺的标准。

（5）及时向用户汇报各项服务承诺达成的情况，让用户了解我们对运维承诺的重视和执行力。

3.2.3 讲规范

没有规矩，不成方圆。运维工作尤其需要注重规范性，讲规范就是按照既定的工作流程、礼仪、制度、要求等开展工作，这会让用户感受到我们的运维服务是透明的，符合科学流程的。这项工作的价值还体现出服务的一致性，无论用户在何时向任何运维工程师提出运维服务要求，他们均享受品质一致的运维服务，获得良好的服务体验。

讲规范，具有以下好处：

（1）对于所有运维人员，能够按照统一的服务规范开展工作，使运维参与者均能形成优良的服务意识，以确保运维服务质量。

（2）清晰的工作流程能够使用户感受到运维服务的专业性、一贯性。

（3）有效的执行服务流程能够确保其中的每个角色职责清晰，进而提高运维效率。

（4）统一的服务礼仪能够体现运维工作者的良好形象，规范的文档编写能够体现运维人员的专业素养，这均有利于用户满意度的提升。

要做到讲规范，重点要做好以下工作：

（1）按照运维管理体系制定完备的运维工作流程，按照流程的角色定义，明确各角色在流程中的职责。

（2）通过培训让全体运维人员熟悉并掌握运维工作规范的要求，通过沟通让用户充分理解运维工作流程的执行效果对用户的重要性。

（3）运维服务者通过日常工作认真落实各项运维工作流程与规范，借助运维服务管理平台记录工作执行的过程与结果。

（4）运维管理者通过定期汇总分析常见故障和突发事件量及事件完成质量，了解流程规范执行的落实效果，并在此效果基础上持续改进。

3.2.4 重控制

重控制是为了控制运维服务质量达到运维服务承诺的要求而开展的工作。主要涉及两个方面：一是确保运维服务目标按要求达成，二是有效控制运维服务过程中的系统风险。在运维过程中，若不注重控制，将很难保证运维服务结果达到约定的要求，而且，有可能发生一些影响较为恶劣的重大事故，比如业务中断、数据丢失等。因此，在运维过程中注重控制，将有效规避风险，保障运维服务质量。

重控制包括关键流程节点控制、操作痕迹化管理、变更控制、发布控制、定期回顾并出具服务质量报告等。具体措施包括：

（1）按照运维服务的特点梳理运维服务流程的关键节点，将关键节点的日常运维工作文档化。

（2）运维过程要体现痕迹化管理，所有事件、变更、发布等环节的处理细节均应被完整记录下来，作为质量跟踪的依据。

（3）对于系统变更，均应受控于变更管理流程；所有变更均应充分评估风险，并在实施前经过严格测试，制定好回退机制，确保风险可控的情况下进行变更实施；若因故变更失败，亦能通过回退机制恢复服务。

（4）对于系统发布，均应受控于发布管理流程和变更管理流程；所有发布均应提前进行严格测试，制定好回退机制，确保风险可控的情况下进行发布实施。在应用部署发布前制定测试方案及运维保障实施方案。

（5）定期开展事件流程的回顾会议，对于存在的问题或风险进行分析并提出改进措施，并在下一个周期内改善服务质量、规避系统风险，以有效控制整体运维服务质量。

（6）内部严格按照“运维报告机制”进行内部报告和审核，以对相关情况纳入跟踪控制范畴，按照统一口径进行处理。

（7）在运维实施过程中定期（如每月或每个季度）进行流程执行过程与结果的检查与回顾，对于存在的问题或风险进行分析并提出改进措施，可在下一个周期内改善服务质量、规避系统风险，以有效控制整体运维服务质量。

3.2.5 有反馈

与用户建立良好的沟通是做好运维服务的关键。有反馈主要指运维服务者向用户及时反馈信息。有反馈就是在做好运维服务的基础上，让用户及时了解我们的工作情况，适当的运维信息反馈给用户是必不可少的。用户作为运维服务的消费者也是最终受益者，如果对运维工作不了解或了解不透彻，从某种意义上说是用户的损失，也是运维服务者对运维服务质量不够重视的体现。

向用户进行必要的反馈，能达到以下目的。

（1）对于用户的关切点，包括系统运行状况、潜在风险情况、运维工作情况等，定期通过书面方式报告给用户，这充分尊重了用户的知情权，并且可让用户全面了解系统整体情况及运维情况，进而对运维产生信任感。

（2）对于重大事件的处理进展，定时向用户进行报告，有利于缓解用户的紧张和急躁情绪，避免运维工作陷入被动。

（3）对于用户提出的需求，按时予以反馈，能让用户感到自己的建议和意见获得足够的重视，从而建立良好的工作关系。

做好运维过程中的沟通反馈主要包括以下几方面。

（1）定期向用户出具运维工作情况报告（如周报、月报、年报），向用户展现系统运行情况、潜在风险分析、隐患发现情况、故障受理情况、其他各类服务情况及运维服务建议等。

（2）在处理重大事件过程中，按与用户约定的频次主动（如每半小时1次）向用户报告故障的排查情况、处理进展和预计恢复时长等。

（3）对于各项需要向用户进行反馈的信息，应事前制定“运维报告机制”，运维服务者都应该按照“运维报告机制”进行内部报告，并有各级管理人员审核，从而可以将相关情况纳入内部质量跟踪控制范畴。同时经过报告和审核的内容要按照报告机制及时向用户做出口头或书面等报告。

（4）对于用户提出的各类咨询或服务请求，应在处理过程中及时向用户报告处理进展或解决建议，积极主动和用户进行沟通交流。

3.2.6 重效率

一般来说系统一旦发生故障，用户往往希望能够在最短时间内解决，对运维效率提出了很高的要求，尽量减少对业务造成的时间或金钱上的损失。重效率是指在处理各类故障和咨询服务时，我们始终做到快速响应、迅速处理。这需要运维服务者能够做到及时响应需求、快速定位故障、安全排除故障。运维服务者如果能够满足将重效率和有反馈有效地加以运用，可获得用户的充分信赖。

（1）运维服务者均应树立“想用户之所想，急用户之所急“的观念，将用户对解决问题的迫切性放在首要位置。

（2）运维管理者应该按照科学化的理念测算各类故障级别的平均恢复时长，安排运维工程师对每一个级别的故障排除方案进行反复演练，一旦故障发生能够熟练地处理故障，快速解决问题，稳妥恢复业务。

（3）运维质量管理部门通过日常事件处理的服务恢复时长检查运维事件处理是否能够达到快速响应和处理的要求。

（4）建立IT服务管理体系，定期回顾事件处理效率在哪些方面存在改进的空间，定期发起持续改进。

3.2.7 能应急

对于用户而言，IT系统仅仅是帮助他们完成业务的工具，只有当用户使用的过程中出现故障，用户才会感到运维服务者的重要性。IT运维专家作为IT系统的保健医生，一方面要预见到系统的故障，另一方面也应该能够排除故障，这是成为一名IT运维专家的核心要求。对于系统突发的故障，尤其是影响程度高的故障，若能快速应急响应并迅速解决，就会在用户和我们之间建立充分的信任关系，若所有突发故障均能迅速解决，将使用户对我们产生信赖感，即在信任的基础上形成依赖。因此，整个运维服务团队的应急保障能力至关重要。

为了体现应急保障能力，可采取以下措施。

（1）建立应急预案，提前做好各类预判与准备，必要时定期对应急预案进行演练，包括：不同类型事件的应急保障团队、保障服务方式等，确保一旦突发故障真实发生能够有条不紊地按照预案进行应急响应和处理。

（2）配备一定的应急服务装备，如处理故障的必备工具、排除故障的必需备件、恢复系统的必备软件、3G无线网卡、精确检测仪器等，IT运维专家首先是能够依靠技术手段提升应急保障能力的专家。

（3）对于信息化系统中包含硬件设备的用户，我们应该建议用户储备必要的备品、备件和备机，一旦突发硬件故障且短时间内无法修复时，能够利用备品备件先行顶替故障设备，从而尽快恢复业务。

3.2.8 有保障

运维服务的效果体现为“有保障”，运维队伍给用户的感觉简单来说就是：召之即来，来之能战，战之能胜，从而让用户对系统放心、对运维放心。如果运维工作是有保障的，就能够消除用户的后顾之忧。

要做到有保障，可采取以下措施。

（1）通过网络互动服务、电话服务热线，现场服务等多种运维服务途径让用户随时随地有问题都能够找到我们。

（2）如果IT系统较大或较复杂，运维服务商内部建立起一线、二线、三线的运维梯队，二线对一线进行支持，三线对二线进行支持；系统开发商、设备供应商都属于我们的三线支持，必要时能够给予二线足够的支持与保障，确保整个运维工作是有保障的。如果IT系统较小或较简单，运维服务商不一定需要建立完备的一线、二线、三线队伍，但需要在岗位职责中包含相应的职责，从而确保运维工作流程是闭环的。

（3）运维服务商内部有完善的软硬件支撑环境，包括：IT服务管理平台、电话呼叫系统、网上培训平台、全套运维模拟环境、运维协同办公系统等。

（4）在重要时期，比如业务高峰期或重点节假日期间制定重点保障预案，严格按照保障预案执行，并在结束时向用户提交重点保障完成情况报告。

要做好IT运维就要理解这八项原则的要义，如果把IT行业比作江湖，那么知道IT运维需要做什么就是了解江湖的第一课。遵循IT运维服务的原则就好比一门高深的武功，练好武功首先要练好内功，这八项原则就是练好内功的秘籍，练到炉火纯青的时候，不但拳脚不能伤其毫发，就用刀劈剑刺亦难伤其毫发。

3.3 掌握服务平衡

IT运维的第一件要事是按照IT运维服务的原则做事，第二件要事就是将这些原则应用到IT运维服务工作当中。IT运维服务工作从服务的发起方来看可以分为主动服务和受理服务。

我们曾将IT运维专家比作IT系统的保健医生，保健医生最重要的能力是“治未病”的能力。在我国关于“治未病”最著名的故事是扁鹊见蔡桓公的故事。有一天，扁鹊进见蔡桓公，在蔡桓公面前站一会儿，说道：“您的皮肤纹理间有点小病，不医治恐怕要加重。”蔡桓公说：“我没有病。”扁鹊离开后，蔡桓公说：“医生喜欢给没病的人治‘病’，以此作为自己的功劳。”过了十天，扁鹊又进见，他对蔡桓公说：“您的病已到了肌肉和肌肤之间，再不医治，会更加严重的。”蔡桓公不理睬，扁鹊走后，蔡桓公又不高兴。过了十天，扁鹊又进见，他对蔡桓公说：“您的病已到了肠胃，再不医治，会更加严重的。”蔡桓公还是不理睬。扁鹊走后，蔡桓公又很不高兴。又过了十天，扁鹊再进见时远远看了蔡桓公一眼，转身就跑。蔡桓公特意派人去问他为什么跑，扁鹊说：“皮肤纹理间的病，是烫熨的能力所能达到的；肌肉和肌肤之间的病，是针石的能力所能达到的；肠胃的病，是药剂的能力所能达到的；病到了骨髓里，那是管辖命的神的事情了，医生是没有办法的。蔡桓公的病现在已到了骨髓，因此我就不再请求给他治病了。”过了五天，蔡桓公身体疼痛，派人去寻找扁鹊，扁鹊已经逃到秦国去了。蔡桓公后来就不治而亡了。

“治未病”的概念最早出现于《黄帝内经》，在《素问·四气调神大论》中提出：“是故圣人不治已病治未病，不治已乱治未乱，此之谓也。夫病已成而后药之，乱已成而后治之，譬犹渴而穿井，斗而铸锥，不亦晚乎！”对于IT运维服务而言“治未病”就是主动服务，“治已病”就是受理服务。

3.3.1 主动服务

主动服务是服务者主动为用户提供一系列运维服务，其目的是为系统提供防患于未然的维护保养服务，使得系统长期处于一个健康稳定的状态。主动服务是确保信息化系统安全、高效、平稳运作的有效手段。主动服务还可以让用户获得更好的服务体验，更好地了解系统的运行状况和未来需要配备的备机及备件资源等，从而使用户对服务者产生信赖感。主动服务的形式包括：向用户提供服务计划、对IT系统定期巡检、设计必要的应急预案等。主动服务的工作内容包括：远程监控、现场巡检、技术培训、服务报告、问卷调查等。主动服务完成的效果可以从策略制定、计划实施、服务评价三个方面进行评价。

能够做好主动服务的IT服务者通常是条理性好、目的性强、对IT系统的各子系统了解比较清晰的人。他们会用心地研究IT服务的内容，编制好系统定期养护的计划。

3.3.2 受理服务

受理服务是用户在发生故障时向运维服务者提出服务需求并获得运维服务的过程，其目的是在信息化系统意外发生故障时得到快速有效的解决，从而减小对业务的影响。受理服务包括受理各类用户电话请求（故障请求、服务请求、咨询请求等）、远程请求和现场服务请求。受理服务标准包含三方面：受理服务分类标准、受理服务处理规范、受理服务效率要求。这些工作将由服务提供商和用户共同确认，双方彼此都接受与认可，作为日后执行受理服务的目标与要求。

服务提供商的资源是有限的，而用户的需求依据不同的服务类型是有轻重缓急之分的，如何将有限的资源分配给不同类型事件，需要对事件依据一定的策略进行分级，这就形成了受理服务分类标准。在分类标准的基础上，针对不同类型的事件应有相应的处理规范与子流程，以确保资源得到合理分配，这就形成了受理服务处理规范。而每一事件的处理都有一个完成目标，比如目标恢复时间与目标解决时间，将这些都详细地一一约定出来，这就形成了受理服务效率要求。这三个部分是有机的整体，也是确保受理服务能够贴近用户需求的必要保障。

1．受理服务分类标准

对于用户提出的各类请求，即故障、服务、咨询及变更等请求（统称为“受理服务事件”），我们将对其提供的服务称为受理服务，依据服务提供商在有限资源下，如何最大限度地满足用户需求、提升用户满意度，我们将受理服务按重要性来进行划分，重要性主要依据于两个维度——紧急度与影响度——来判断，详见图3.2。按照受理服务的重要性可以将服务划分为若干级（企业可根据自身实际情况划分等级，推荐为7级），不同级别的受理服务处理的流程与方式也有所不同，因此分类的情况应先取得用户的认可。

▲图3.2 受理服务的分类

2．受理服务处理规范

受理服务处理规范包括响应时间要求、电话作业规范、事件处理流程三部分，其中：响应时间要求是针对用户拨入电话的响应速度，将用户的等待时间限定在一定范围内；电话作业规范主要约定了电话用语，以使用户感到整个受理服务过程是热情、专业、规范的；事件处理流程规定了事件从受理开始到受理结束应经历的过程，以确保每一事件的服务质量。

3．受理服务效率要求

受理服务的效率要求包括目标恢复时间要求与目标解决时间要求，依据受理服务分类与事件类型确定了每一类、每一级事件的目标恢复时间与目标解决时间。

能够做好受理服务的IT服务者通常是在平时注意积累与IT运维服务相关知识并且学以致用的人，所以他们在遇到IT故障时可以从容不迫地解决系统的故障，同时还能处理好用户的情绪。

3.3.3 服务的平衡

好的IT运维服务能为IT系统提供全方位的维护保养，IT运维专家能够把IT技术和IT服务当作一个有机的整体，为IT系统安全、高效、平稳的运作而保驾护航。我们将IT运维服务比作保健医生，那么保健医生既要能够“治未病”，也能够“治已病”。在运维服务工作中，主动服务相当于为IT系统“治未病”，受理服务相当于为IT系统“治已病”。这两项服务工作都要做，并且要做好！那么主动服务和受理服务在实际工作中的占比应该是多少呢？这需要根据每个企业的实际情况和用户对IT系统维护的需求而定。

在现实情况中，我们遇到很多主动服务和受理服务占比不合理的例子。比如当企业的IT系统处在建设期刚结束、运维期刚开始之际，运维人员没有提前在系统建设期做好准备，没有及时介入到系统运行的保障当中，那么就容易出现手忙脚乱的局面，疲于应付受理服务而无暇顾及主动服务。要避免这样的情况发生，最好在系统规划时期对IT系统的运维需求进行调研，并对IT系统的运维指标进行预先规划。规划的主要内容包括运维服务工作量的测算，运维服务中涉及的运维范围，运维服务中涉及的各子系统的技术资料，以及运维期预测产生的资源需求等。一旦在系统规划期对运维服务进行了同期规划，那么在系统建设期能够及时考虑运维服务的具体需求必然顺理成章。当系统建设期进入后期，运维服务团队及时介入到建设期的收尾工作中，将有利于IT系统平稳顺畅地过渡到运维服务期。由于提前介入，运维服务团队可以有效地开展主动服务工作，切实起到为系统保驾护航的积极作用。进入运维期，按照主动服务的工作内容（主动服务的工作内容包括：远程监控、现场巡检、技术培训、服务报告、问卷调查等）与用户进行沟通确定当期重点需要执行的主动服务项目，将主动服务工作落实到位。

主动服务虽然能够最大限度地防患未然，但不能保证系统不出现意外的故障。比如，系统设备由于使用年限的问题，出现自然老化的现象，系统设备因此产生故障，这就需要我们在受理服务工作上提供必要的保障，确保故障出现时能够快速响应用户需求，及时恢复服务。因此受理服务的工作量和工作质量也是衡量运维服务是否达到优良的重要指标。因为主动服务和受理服务的平衡是用户满意不可或缺的两项工作。这就好比武侠小说中的双剑合璧，所向披靡，如图3.3所示。

▲图3.3 掌握服务平衡

3.4 落实整体运维

IT运维的第一件要事是按照IT运维服务的原则做事，第二件要事是将这些原则应用到IT运维服务工作当中，第三件要事是将运维落实到整个技术系统的每个环节中。为了方便读者理解，我们将常见的系统抽象为四个子系统来一一介绍，它们分别是软件支撑系统、应用系统、计算机硬件设备和机房及环境。

3.4.1 软件支撑系统运维

软件支撑系统是指为应用软件运行条件的软件环境包括操作系统、编译程序、数据库管理系统、中间件、各种高级语言等。如：针对信息系统服务器上部署的操作系统（如Windows、AIX、LINUX、HP）、数据库（如DB2、Oracle、SQL Server）、中间件（如WebSphere）、数据传输软件（如MQ）等，主要运维工作是提供日常例行检查、故障排除、系统软件升级、定期巡检、数据库性能调优、系统与中间件部署、系统软件维护培训等运维服务。

3.4.2 应用系统的运维

应用系统是指为特定用途所开发并可在生产环境执行的一个或多个应用程序，以及和程序一起产生的数据信息。

应用系统运维主要包括日常性维护、纠错性维护、适应性维护、完善性维护、操作性指导和技术培训、数据完整性维护及数据分析等。日常性维护：信息系统软件运行状态监控、日常检查、故障诊断与排除、日志管理、定期备份、垃圾信息清理、技术支持等日常性工作。纠错性维护：修正信息系统可能存在的软件缺陷和错误以及其他未曾预见的错误等。适应性维护：适应硬件环境和系统软件的变化而进行的性能检测调优、系统优化、配置变更等局部性修改。完善性维护：为扩充功能和改善性能而进行的一般性修改。操作性指导：为用户正常开展业务而提供的操作指导或帮助，指导用户按运行要求开展业务，并解答用户提出的各类咨询。技术培训：定期组织行业用户进行与信息系统应用操作与维护相关的技术培训，提升用户操作与维护技能。数据完整性维护及数据分析：应用系统安全性维护（安全保障的设备或系统软件，包括防火墙、入侵防范系统、安全审计系统、防病毒系统、终端安全管理系统等），信息内容服务型维护（包括信息采集、整理、编辑、制作、发布、挖掘、分析和安全管理等）。一般来讲，整个运维工作的核心是应用系统的维护，也是最难的部分，特别是对第三方运维商来说。

3.4.3 计算机硬件设备的运维

计算机硬件设备是指计算机系统中由电子、机械和光电元件等组成的各种物理装置的总称。这些物理装置按系统结构的要求构成一个有机整体为计算机软件运行提供物质基础。简言之，计算机硬件的功能是输入并存储程序和数据，以及执行程序把数据加工成可以利用的形式。从外观上来看，微机由主机箱和外部设备组成。主机箱内主要包括CPU、内存、主板、硬盘驱动器、光盘驱动器、各种扩展卡、连接线、电源等；外部设备包括鼠标、键盘、显示器、音箱等，这些设备通过接口和连接线与主机相连。

计算机硬件设备的运维包括针对PC电脑、平板电脑、服务器、存储设备、网络交换机以及其他计算机控制设备提供定期巡检、定期保养、故障诊断与排除以及备件的更换等运维服务。

3.4.4 机房及环境的运维

计算机机房普遍指的是电信、网通、移动、双线、电力以及政府或者企业等存放服务器、为用户以及员工提供IT服务的地方。

机房环境监测系统是一个综合计算机网络技术、数据库技术、通信技术、自动控制技术、新型传感技术等构成的计算机网络，提供一种以计算机技术为基础、基于集中管理监控模式的自动化、智能化和高效率的技术手段，系统监控对象主要是机房动力和环境设备等设备（如配电、UPS、空调、温湿度、漏水、烟雾、视频、门禁、防雷、消防系统等）。

机房及环境的运维主要针对机房中比较重要的设施（如配电、UPS、空调、温湿度、防水、烟雾、视频、门禁、防雷、消防系统等）进行全天候不间断的监控与预防性维护。

3.5 贯穿始终的服务流程

IT运维的第四件要事是将服务流程贯穿于IT运维过程的始终。IT运维服务流程的核心流程包括：事件流程、问题流程、配置管理流程、变更流程、发布流程，如图3.4所示。

3.5.1 事件流程

事件是指IT系统运行中，发生的任何不符合标准操作且已经引起或可能引起服务中断和服务质量下降的IT系统故障。事件处理流程涉及许多IT部门和IT方面的专家。首先是服务热线，服务热线（一线）作为事件的受理责任人，确保首问负责制的流程在整个IT运维服务流程中贯穿实施。当服务热线不能解决发生的事故时，就将其转移给二线技术支持小组。二线技术支持人员首先需要提供临时性的解决办法或补救措施，以尽可能快地恢复服务，避免影响用户正常业务的开展。然后二线技术支持人员分析事件发生的原因，制定解决方案以彻底恢复服务和业务的正常运行。

▲图3.4 贯穿始终的服务流程

3.5.2 问题流程

问题是指存在某个未知的潜在原因导致一起或多起事件发生。问题经常是分析多个呈现相同症状的事件后发现的某种状态。问题也可以从单个重要的事件中确认一项错误。这种错误产生的原因虽然未知，但其产生的影响却可能非常严重。问题流程负责解决IT运维运营过程中遇到的所有问题。问题流程包括问题管理和问题控制，其目标在于将由于IT基础架构的错误而导致的问题和事件对业务产生的负面影响减小到最低，以防止与这些错误有关的事件再次发生。为了实现这个目标，问题流程调查分析事件的根本原因后采取有关行动改进或纠正这种状态。

3.5.3 配置管理流程

配置管理是指识别和确认IT系统的配置项，记录和报告配置项状态和变更请求，检验配置项的正确性和完整性等。配置管理流程就是有关如何管理和及时提供准确可靠的IT基础架构配置信息等活动构成的流程。配置管理不仅仅提供单个IT组件的信息，它还提供有关各个配置项之间关系的信息。这些信息是对IT系统故障影响程度分析的基础。配置管理流程负责记录有关IT基础架构的变更情况，监控IT组件状态，确保服务管理人员可以清楚地了解各个版本配置项的信息。

3.5.4 变更流程

变更是指在维护过程中对IT系统或服务所做的各种改变，包括增补、移除和其他修改。变更流程包括变更处理和变更控制，该流程旨在将有关变更对服务级别承诺中的运维服务绩效指标达成而产生的冲突和偏离减小到最低程度。变更流程的实施以变更请求、配置管理数据库和变更实施进度表为基础，经过登记变更请求、筛选和接受变更请求、确定优先级和归类变更请求、制定变更实施计划、实施变更、评价和终止变更、处理紧急变更和变更活动之后，产生变更管理报告等管理信息。

3.5.5 发布流程

发布流程是对经过测试后导入实际应用的新增或修改配置项进行分发和宣传的管理流程。发布流程涉及到已经定义的IT服务的变更，这些变更通过对一些新应用软件与升级硬件或新硬件的结合使用来完成。发布流程和变更流程、配置管理流程是紧密结合的，当新发布引起IT基础架构的变更时，配置管理数据可进行实时的更新，同时发布的内容也要保存到最终软件库中。

第13章运维软功夫——运维软件技术介绍

13.1 操作系统

操作系统是管理和控制计算机硬件与软件资源的计算机程序，是计算机系统的核心与基石，任何应用软件都必须在操作系统的支持下才能运行，它是信息系统运行中最主要的基础软件之一。操作系统位于底层硬件与用户之间，是两者沟通的桥梁，用户可以通过操作系统的用户界面输入命令，操作系统则对命令进行解释，驱动硬件设备，实现用户要求。

操作系统的主要功能是资源管理，程序控制和人机交互等。计算机的资源可分为设备资源和信息资源两大类，设备资源指的是组成计算机的硬件设备，如中央处理器、主存储器、磁盘存储器、打印机、磁带存储器、显示器、键盘输入设备和鼠标等；信息资源指的是存放于计算机内的各种数据，如文件、程序库、系统软件和应用软件等。

按当前应用领域对操作系统进行划分，主要有三种：桌面操作系统、服务器操作系统和嵌入式操作系统。桌面操作系统主要用于个人计算机和办公终端，这类主要有Microsoft公司的Windows操作系统和Apple公司的Mac OS X操作系统占领，当然还有部分人使用liunx系统作为桌面操作系统。嵌入式操作系统主要用于一些专用应用和消费类电子产品上，如防火墙设备、手机、平板电脑、医疗设备、工业控制设备等，这类操作系统目前主要有嵌入式Linux、Windows Embedded、VxWorks、Android、IOS、Symbian、Windows Phone等。服务器操作系统主要用于企业的各种应用的服务端服务器上，一般安装在PC Server、小型机或大型机上，服务器操作系统主要集中在三大类：Windows、LINUX、UNIX，作为运维人员主要还是掌握此种类型的操作系统维护方法。

13.1.1 Windows系统

Windows系列操作系统是微软公司在20世纪90年代研制成功的图形化工作界面操作系统。经过多年的发展，从早期加强型的MS-DOS图形模拟环境，到当前比较完善地覆盖嵌入式、用户桌面及企业服务器级，Windows已经成为在多领域比较成熟的计算机操作系统。微软每个类型的操作系统都有其代表产品，下面简要介绍不同类型的操作系统特点和适用领域。

1．嵌入式操作系统

嵌入式系统和普通操作系统并没有本质上的区别，从某种程度上说，微软嵌入式系统就是根据不同的环境的需求，将普通的操作系统进行定制和精简，从而形成符合应用环境需求的、特定的系统。1996年11月，Microsoft发布了Windows Embedded CE 1.0，从此正式进入了嵌入式产品市场，此后Microsoft 逐渐推出了全系列的嵌入式操作系统，使开发人员能够通过一系列产品来构建下一代的32位设备，满足不同领域的业务需求。微软提供了三个系列的嵌入式操作系统，Windows Embedded 8系列产品、Windows Embedded Compact系列产品和Windows Server 2012 R2 for Embedded Systems系列产品。Windows Embedded 8系列产品主要为零售和服务业的POS终端提供解决方案，适用于制造业、医疗领域等，包括电力工业设备、控制面板、自助机。Windows Embedded Compact系列产品是在2013年发布的，此系列产品适用于某行业小型设备，无需太多的交互界面，可通过可编程逻辑控制器对其进行控制的设备。

2．桌面操作系统

桌面级的操作系统是面对个人计算机开发的操作系统，从最早使用的命令交互式的MS-DOS操作系统到目前使用的Windows 8，微软的桌面操作是大家最熟悉的操作系统，它是全球使用量最大的个人电脑操作系统，它的发展已超过25年，它的变化使人们切实感受到计算机的变革。具体发展过程如下。

1987年发布的Windows 1.0，这是微软第一次对个人电脑操作平台进行用户图形界面的尝试，它是基于MS-DOS操作系统开发的，只提供了简单的文件系统管理图形界面。

1987年发布的Windows 2.0，利用了英特尔286处理器处理能力的提高使其图形功能支持更强。不过这代图形视窗系统的用户界面与苹果公司（Apple）的Macintosh计算机的GUI（图形用户界面）很相似。

1992年发布的Windows 3.0，是第一个获得全世界认可的图形操作界面个人计算机的操作系统，MS-DOS的文件管理程序被基于图标的程序管理程序以及基于列表的文件管理程序取代，由此简化了程序的启动。控制面板作为系统设置的中心，包括了诸如界面颜色主题的有限控制功能。

1995年发布的Windows 95，是一个混合的16位/32位Windows系统，Windows 95是Windows3.x的后续版本，抛弃了对前一代16位X86的支持，带来了更强大的、更稳定、更实用的桌面图形用户界面，此版本第一次集成了Internet Explorer应用。

1998年发布了Windows 98，全面集成了Internet标准，以Internet技术统一并简化桌面，使用户能够更快捷简易查找及浏览存储在个人电脑及网上的信息；其次，速度更快，稳定性更佳。通过提供全新的自我维护和更新功能，Windows98可以免去用户的许多系统管理工作，使用户专注于工作或游戏。

2000年发布了Windows ME，此版本想在个人计算机桌面操作系统上使用服务器版Windows2000的一些功能，但并不成功，成为了Windows 9X系列的终结版。

2001年发布了Windows XP，它是微软首个面向消费者且使用Windows NT架构的操作系统。2011年9月底前，Windows XP是世界上使用人数最多的操作系统，全球市场占有率达42%。

2009年发布了Windows 7，它的开发主要围绕五个重点（针对笔记本电脑的特有设计、基于应用服务的设计、用户的个性化、视听娱乐的优化、用户易用性的新引擎）对系统进行了优化，这些变化使Windows 7成为最易用的Windows操作系统。

2012年发布了Windows 8，系统独特的metro开始界面和触控式交互系统，旨在让人们的日常电脑操作更加简单和快捷，为人们提供高效易行的工作环境。

3．服务器操作系统

服务器操作系统，又名网络操作系统。相比桌面操作系统，在一个具体的网络中，服务器操作系统要承担额外的管理、配置、稳定、安全等功能，处于每个网络中的心脏部位，其网络操作系统的别称也由此而来。Microsoft在1993年推出的面向工作站、网络服务器和大型计算机的网络操作系统，该类型的操作系统主要与通信服务紧密集成，最早Microsoft公司与IBM公司联合研制OS/2网络操作系统，协作后来不欢而散，微软在研发OS/2 NT的基础上进一步优化，并把名称改为Windows NT，确定了服务器操作系统的架构，在此之后微软又发布了Win2000/AdvancedServer、Win2003/AdvancedServer及Windows Server 2008。最早的Windows服务器操作系统具有以下特点：

（1）采用了SMP（对称多处理）技术，支持多CPU；

（2）32位操作系统，多重引导功能，可与其他操作系统共存；

（3）实现了“抢先式”多任务和多线程操作；

（4）支持CISC和RISC多种硬件平台；

（5）可与各种网络操作系统实现互操作；

（6）安全性达到美国国防部的C2标准。

要熟悉和并做好Windows服务器操作系统的运维，首先要对以下概念熟悉，并知道如何在操作系统中具体地实现，并熟练掌握其操作方法。

（1）NTFS（Windows NT File System）。Windows NT采用的新型文件系统，可提供安全存取控制及容错能力，在大容量磁盘上，它的效率比FAT高。

（2）共享。对网络资源设置一定的权限许可，没有得到权限许可，就无法访问网络资源。

（3）用户账户（User Account）。要想使用网络资源，必须有用户账户。Windows NT对用户和服务程序，都要求提供合法账户。专为应用程序或服务进程创建的账户即服务账户，在系统启动时，服务进程使用服务账户登录以获得在系统中使用资源的权利和权限。

（4）域（Domain）。是Windows NT中数据安全和集中管理的基本单位，域可以看作是由一组运行NT的服务器组成的系统，一组电脑共用相同的账户及安全数据库。

（5）工作群组（Workgroup）。一种资源与系统管理皆分散的网络结构。工作群组里，每台电脑之间是对等关系，彼此可以是服务器，也可以当作工作站。

（6）权限（Permission）。用来保护特定对象，授权某用户可以在系统上执行某些操作。

（7）安全审核。系统将记录发生在电脑上各项与安全系统相关的过程。

13.1.2 Linux系统

大多数人认为Linux是一个操作系统，实际上它不是一个具体的操作系统，严格来讲，它只是一个类UNIX操作系统中的内核。它最早是由美国人林纳斯·托瓦兹在minix操作系统的基础上开发并在1991年宣布Linux内核的诞生。它是完全开放的，在1993年大约有100余名程序员参与了Linux内核代码编写/修改工作，对其进行了改良。1994年3月，Linux1.0发布，代码量17万行，当时是按照完全自由免费的协议发布，随后采用GPL（General Public License，GNU通用公共许可证）协议对Linux内核程序进行使用与管理。在1.0版本的基础上通过全球众多Linux爱好者的努力，Linux内核不断完善成熟，1996年发布了Linux2.0核心，2001年发布了2.4核心，2003年发布了2.6核心。我们通常所说的Linux指的是这一类，各个国家和各个厂商为了自己的利益和安全，也分别在Linux内核的基础上开发了自己的Linux操作系统，如美国红帽公司开发的RedHat Linux，德国SUSE Linux AG公司发行维护的SUSE Linux，中国自己开发的红旗Linux，网络自由组织发布的Debian Linux，还有网络开源的Slackware Linux等。有些是以商业盈利为目的，有些是网络开源供开发者使用的，不同的版本有不同的特点和优劣势，对于运维人员来说熟练掌握一种即可满足基本运维需求，再根据你所服务对象进一步学习和熟练掌握。下面我们分别简单介绍这些不同厂商的Linux操作系统。

1．Red Hat Linux

国内，乃至全世界知道人数最多的的Linux操作系统就是Red Hat公司发布的，Red Hat公司最早由Bob Young和Marc Ewing两人在1995年创建。目前Red Hat分为两个系列的发布版本：一是由Red Hat公司提供收费技术支持和更新的Red Hat Enterprise Linux（简称RHEL），二是由社区开发免费的Fedora Core Linux。发展至今适用于服务器的最新版本是RHEL 7，它主要为适应将来的应用架构而设计，提供了灵活性、可伸缩性和性能要求，适用于各种计算模型，包括虚拟机和云架构。RHEL 7基于Linux 3.10内核，为用户提供强大而简化的自动安装、发布和管理，增强了易用性，稳定性等。同时新的内核为RHEL带来更多的新特性，性能的提升以及支持更多的硬件。此外XFS将作为RHEL 7的默认文件系统，支持高达500TB的存储。但是别担心ext4和btrfs仍作为技术预览包含其中。适用于个人和中小企业的最新版本是Red Hat Linux，作为一个企业的重要应用系统，建议安装适用于服务器硬件资源的Red Hat Enterprise Linux版本的，安装版本可以免费获得，但如果想得到更好的服务和更新支持，还需进一步购买红帽公司维保服务。它的优点是拥有数量庞大的用户，有优秀的社区提供技术支持，并在不断持续的创新；它的缺点是免费版（Fedora Core）生命周期太短，多媒体支持不佳。

2．SuSE Linux

SuSE Linux是德国最著名的Linux发行版，在全世界范围中也享有较高的声誉。SUSE自主开发的软件包管理系统YaST也大受好评，SUSE于2004年被Novell公司收购，Novell也向大家保证SUSE的开发工作仍会继续下去，Novell更把公司内全线电脑的系统换成SUSE LINUX，并同时表示将会把SUSE特有而优秀的系统管理程序YaST2以GPL授权方式开放。SuSE Linux最大的特点和具有特色的地方就是拥有专业、易用的YaST软件包管理系统，此系统能够进行磁盘分割、系统安装、在线更新、网络及防火墙组态设定、用户管理，它提供了方便的组合界面，能把原来复杂的设定工作变得简单。SuSE Linux提供了两个版本的软件：SUSE Linux11分别有零售版本及自由、开放源码的版本，叫作SUSE Linux OSS和SUSE Linux Enterprise Server企业服务器版，它可以免费获得，但如果不付款只提供30天的更新服务。

3．Debian Linux

Debian Linux是指一个致力于创建自由操作系统的合作组织共同开发开源的Liunx系统，Debian是从1993年由Ian Murdock发起的，受到当时Linux与GNU的鼓舞，目标是成为一个公开发行版的Linux操作系统，使更多的人不用花费几百元购买一个操作系统软件。它从一个小型紧密的自由软件骇客（hacker）小组，逐渐成长成今日庞大且运作良好的开发者与用户社群。它可以算是迄今为止，最遵循GNU规范的Linux系统。Debian系统分为三个版本分支：stable、testing和unstable，其中unstable为最新的测试版本，其中包括最新的软件包，但是也有相对较多的bug，适合桌面用户；testing的版本都经过unstable中的测试，相对较为稳定，也支持了不少新技术（比如SMP等）。而Woody一般只用于服务器，上面的软件包大部分都比较过时，但是稳定和安全性都非常的高。

很多Debian的支持者认为，因为Debian Project是独立运作，不带有任何商业性质，不依附任何商业公司或者机构，使得它能够有效地坚守其信奉的自由理念和风格。因为Debian不受任何商业公司或者机构控制，所以它不会发生为了某些商业上的利益而牺牲用户的权益，也不会因为公司经营不善或者商业模式转换等变化而导致开发作业终止。而这些特色使得Debian在众多的GNU/Linux的发布包中独树一帜。它具有以下特点：

（1）Debian是精简的Linux发布版，有着干净的作业环境。

（2）安装步骤简易有效，大部分情况下只要【Enter】、【Enter】一直按下去便可以顺利安装。

（3）拥有方便高效的软体包管理程序和deb软体包，可以让用户容易地查找、安装、移除、更新程序或系统升级。

（4）健全的软件管理制度，包括了Bug汇报、包维护人等制度，让Debian所收集的软件质量在其他的Linux发布包之上。

（5）拥有庞大的包库，令用户只需通过其自身所带的软件管理系统便可下载并安装包，不必再在网络上查找。

（6）包库分类清楚，用户可以明确地选择安装自由软件、半自由软件或闭源软件。

13.1.3 UNIX系统

UNIX（尤尼克斯）操作系统，是一个强大的多用户、多任务分时操作系统，支持多种处理器架构，主要用于服务器领域，最早由肯·汤普逊（Kenneth Lane Thompson）、丹尼斯·里奇（Dennis MacAlistair Ritchie）于1969年在AT&T的贝尔实验室开发而成。目前它的商标权由国际开放标准组织所拥有，只有符合单一UNIX规范的UNIX系统才能使用UNIX这个名称，否则只能称为类UNIX。现在市场使用的UNIX系统主要有IBM公司的AIX操作系统、HP公司的HP-UX操作系统、ORACLE公司的Solaris操作系统，还有上述的Linux系统等。UNIX系统的主要特征为：

（1）UNIX系统是一个多用户，多任务的分时操作系统。

（2）系统结构可分为两部分：操作系统内核（由文件子系统和进程控制子系统构成，最贴近硬件），系统的外壳（贴近用户）。外壳由Shell解释程序、支持程序设计的各种语言、编译程序和解释程序、实用程序和系统调用接口等组成。

（3）UNIX系统大部分是由C语言编写的，这使得系统易读，易修改，易移植。

（4）它提供了丰富的、精心挑选的系统调用，整个系统的实现十分紧凑，简洁。

（5）提供了功能强大的可编程的Shell语言作为用户界面，具有简洁、高效的特点。

（6）系统采用树状目录结构，具有良好的安全性、保密性和可维护性。

（7）系统采用进程交换（Swapping）的内存管理机制和请求调页的存储方式，实现了虚拟内存管理，大大提高了内存的使用效率。

（8）系统提供多种通信机制，如：管道通信、软中断通信、消息通信、共享存储器通信、信号灯通信。

掌握上述UNIX基本特征的原理和操作方法，基本可以熟练掌握UNIX操作系统的维护方法，只不过每个厂商的操作系统根据自己硬件需要建立了自己需要的技术，展现出自己的优势和特点。下面简要介绍国内使用较多的三种品牌类的UNIX系统。

1．AIX系统

AIX（Advanced Interactive eXecutive）是IBM基于AT&T Unix System V开发的一套类UNIX操作系统，运行在IBM专有的Power系列芯片设计的小型机硬件系统之上。它符合Open group的UNIX 98行业标准（The Open Group UNIX 98 Base Brand），通过全面集成对32位和64位应用的并行运行支持，为这些应用提供了全面的可扩展性。它可以在所有的IBM P系列和IBM RS/6000工作站、服务器和大型并行超级计算机上运行。AIX系统从问世到现在已经经历了众多版本，从最早1986年的AIX Version 1到2010年的AIX Version 7经过了20多年的发展。从1995年到2000年，AIX将重点放在提供对称多处理以及高端的可扩展性，并在虚拟技术的应用上有重大突破。IBM在高性能计算领域所处的领先地位源自运行AIX的“深蓝”这样高可用性系统和高性能集群。随着2001年AIX 5L的发布，IBM开始在系统分区领域实现重大的创新。AIX传承自大型主机的虚拟技术，包括逻辑分区、动态逻辑分区和微分区技术，将UNIX系统的灵活性和使用率提高到了一个新的水平。

目前，AIX是应用最为广泛的操作系统之一，市场的拥有量随着新技术的发展不断上升。AIX主要运行应用系统中关键数据的计算和处理，如运行DB2 UDB、Oracle等大型数据库系统，也运行Websphere、Oracle iAS、WebLogic等主流中间件系统。AIX团队开发了极具特性的一些技术，如动态扩充和链接内核（Kernel）、逻辑卷存储管理器（LVM）、日志文件系统（JFS/JFS2）以及对象管理数据库（ODM）等。

AIX操作系统的优越性主要体现在以下几点。

（1）其核心是可分页的，它可将暂不需要的内核程序置换出内存，改变内核必须常驻内存的方式，从而提高了内存可用空间和系统性能。

（2）预占实时处理及先占机制使高优先级进程能立即从低优先级进程获取所需资源，这对联机事务处理任务非常重要。

（3）虚拟内存管理机构提供了非常大的地址空间支持，虚拟内存管理器（Virtual Memory Management，VMM）用于管理实际内存页帧的分配和解决进程查询那些当前不在实际内存中的虚拟内存页的问题。

（4）对线程的支持。线程是AIX版本4所设计的新模型，AIX进程被分成为两个独立的成分，强化了任务（tasks）和线程（threads）两个概念。线程是被看作一个基本调度实体的活动执行环境，一个任务有多个线程，它们并发运行。它的好处就是任务中的所有线程共享任务的资源。

（5）基于流方式的I/O。AIX系统的I/O子系统支持类似映象文件，预分页、数据定速和异步I/O等功能，它实现所谓内存映射I/O和I/O定速的技术。内存映射直接映射内存中的文件，这样就越过传统的I/O块和内核，缓解由于文件放置和可能的磁盘碎块影响而导致的I/O后果。I/O定速技术阻止了密集型I/O程序构造较长的I/O队列，确保了高需求程序和低需求程序对于I/O资源的公平共享。

（6）支持对称式多处理器（SymmetricMuti-Process，SMP）。通过在多处理器间分配线程来实现多线程，使任务能够并发执行。

（7）日志文件环境。日志文件系统（JFS/JFS2）记录文件系统的变动，它允许在系统损坏时，重建并恢复其文件系统。日志文件系统还可根据业务需要进行扩充。

（8）核心可动态扩展。这是AIX独有的特点，核心扩展模块可以不通过预占作任何正在进行的活动而加入到某个可操作环境，新的设备驱动器系统调用、核心服务以及私人核心例程等特性可加到已有的核心来扩展其功能。能自已定制核心程序的直接好处就是可以实现新的集等服务。如果正确使用扩展核心和修改核心，将是十分有用的，但使用不当会带来不利后果。

（9）总体吞吐量均衡。AIX内核通过优先调度及强行处理的功能提供任务的实时预测性。当系统需要时，内存负载控制算法能够测得并推迟新进程得执行直到当前进程顺利结束。此外，AIX还提供了许多系统功能以克服阻碍系统吞吐量提高的因素，如：通过减少LAN设备驱动器以提高系统和网络的性能、改进C编译器的连接时间、提供NFS及TCP/IP网络功能等。

2．HP-UX系统

HP-UX（Hewlett-Packard UNIX）是惠普公司自有版权基于UNIX System V的一个商用UNIX操作系统，目前支持基于HP-PA RISC处理器的HP9000服务器，以及基于Intel Itanium安腾处理器的Integrity 服务器。HP-UX在System V版本出现前则是基于System III。HP-UX 1.0的最初版本于1984年颁布。HP-UX的早期版本支持基于Motorola 68000系列处理器的HP Integral PC和HP9000 200系列、300系列、400系列工作站，以及基于HP自己专有处理器FOCUS的500系列服务器。当惠普公司发布其PA-RISC处理器后，HP-UX成为HP9000 700系列工作站和800系列服务器的主要操作系统。HP-UX在Intel发布安腾Itanium处理器后也成为支持该处理器架构的主要操作系统。

自2000年惠普推出SuperDome高端服务器以来，HP-UX日益强调先进的可靠性、安全性、负载管理和分区功能。可靠性主要着眼于单系统质量和故障自愈能力、多系统集群和故障切换，以及错误监视和纠正能力。HP-UX 11i提供ServiceGuard作为多系统集群。Global Workload Manager则可以管理和优化性能，并且跟Instant Capacity临时增容机制配合，提供高峰负载时的额外处理能力。

安全性一直集成在HP-UX中，HP-UX 11i包括完全的“可信任”（trusted）模式。从HP-UX 11iv2开始，安全特性得到很大扩充，增加了基于内核的入侵检测、强随机数生成、堆栈缓冲溢出保护（stack buffer overflow）、安全分区、基于角色的访问控制（role-based access control）、访问控制白名单，以及各种基于开放源代码的安全工具。

HP-UX系统分区（虚拟化）技术包括了基于硬件分区、软件分区、虚拟机和操作系统虚拟分区等各种技术。在Integrity系列服务器上，HP-UX虚拟机 HP VM可以运行多种操作系统，包括HP-UX、Linux、Windows、OpenVMS，还可以以兼容方式直接运行HP9000二进制代码。HP VM支持在线迁移，并且可在迁移中对VM中的内容进行加密。

HP-UX的版本也随着时间的迁移，发生了不小的变化。在HP-UX 12.11版之前，惠普采用主版本号加小版本号的方式标示HP-UX版本，比如9版本中按照发布先后顺序，有9.01、9.03、9.05等。从HP-UX 12.11开始，HP 改用版本号11i 加上v和代表版本号的数字来标示，其中字母 i 用于代表其具备互联网功能，因此产生了HP-UX 11iv1、HP-UX 11iv2、HP-UX 11iv3等版本。当前版本为HP-UX 11iv3，是在 2012年3月更新的（HP-UX 11iv3 update 10）。

3．Solaris系统

Solaris原先是太阳微系统公司研制的类UNIX操作系统，在Sun公司被Oracle并购后，称作 Oracle Solaris。目前最新版为Solaris 11。早期的Solaris是由BSDUnix发展而来。这是因为太阳公司的创始人之一比尔·乔伊（Bill Joy）来自伯克利加州大学（U.C.Berkeley）。但是随着时间的推移，Solaris现在在接口上正在逐渐向System V靠拢。2005年6月14日，Sun公司将正在开发中的Solaris 11的源代码以CDDL许可开放，这一开放版本就是OpenSolaris。2010年8月23日OpenSolaris项目被Oracle中止，2011年11月9日发布 Solaris 11。

Sun的操作系统最初叫做SunOS，SunOS 5.0开始，SUN的操作系统开发开始转向System V 4，并且有了新的名字叫做Solaris 2.0；Solaris 2.6以后，SUN删除了版本号中的“2”，因此，SunOS 5.10就叫做Solaris 10。Solaris的早期版本后来又被重命名为Solaris 1.x.所以“SunOS”这个词被用做专指Solaris操作系统的内核，因此Solaris被认为是由SunOS、图形化的桌面计算环境，以及其他网络增强部分组成。

Solaris支持多种系统架构：SPARC、x86及x64。x64即AMD64及EM64T处理器。在版本2.5.1的时候，Solaris曾经一度被移植到PowerPC架构，但是后来又在这一版本正式发布时被删去。与Linux相比，Solaris可以更有效地支持对称多处理器，即SMP架构。Sun同时宣布将在Solaris 10的后续版本中提供Linux运行环境，允许Linux二进制程序直接在Solaris x86和x64系统上运行，目前，这一技术已通过Solaris Zone的一个特殊实现（BrandZ）得到支持。

13.1.4 操作系统维护技能

操作系统是计算机的核心总控软件，是服务器系统的指挥和管理中心，是服务器系统的灵魂，其重要性不言自明。服务器系统与平时用的办公系统或家用系统不一样，它要365×24小时不间断地工作，以便为我们提供服务，那么做好系统维护的目的就是保证管理信息系统正常而可靠地运行，并能使系统不断得到改善和提高，以充分发挥作用。操作系统运维人员的工作职责一般包括以下六方面内容：

（1）操作系统软件及补丁的安装；

（2）操作系统的配置和管理；

（3）操作系统的备份和恢复；

（4）操作系统的运行日志监控和文件系统的日常维护；

（5）通过操作系统对设备运行性能的监控分析，并提出性能优化建议方案；

（6）诊断、定位故障、解决任何操作系统相关问题。

针对以上操作系统运维工程师的职责，作为一个合格的操作系统运维工程师应该具备和掌握以下维护技能或知识：

（1）学习和掌握计算机和操作系统原理。操作系统设计了一堆策略，如何合理、有效地利用计算机硬件设备，使其运行达到最优效果。不论是IBM服务器还是HP服务器设备，只要是计算机，就没有本质的区别，掌握计算机的原理对系统运维工程师来说是必需的，否则你将一知半解。

（2）了解主流Unix/Linux、Windows平台的设计、实施工作，了解主流数据库管理、中间件、网络、存储技术及相关平台的实施工作。维护操作系统不光是对操作系统本身知识的掌握，它一定是与其他相关知识相配合维护，因此了解数据库、设备等维护技能就必不可少。

（3）了解运行各类操作系统的硬件平台。如IBM公司的Power系列、HP公司的9000系列或者Integrity系列以及ORACLE公司的SPARC系列的服务器。

13.2 中间件软件

随着网络和硬件技术的高速发展，大大地提高了计算机系统的处理能力。信息系统也由传统的C/S架构转变为B/S架构，大量的Web应用充斥在工作生活的每个地方，这些分布式应用程序大多数都是在网络环境的异构平台上运行，使得网络和分布式应用的开发、测试和移植中所投入的代价非常高。为了降低开发、集成和维护成本，具有前瞻性的系统开发商提出了中间件（middleware）这一概念，为集成系统的发展带来了革命性的变化。

中间件是一种独立的系统软件或服务程序，位于客户机、服务器的操作系统之与分布式应用系统之间，分布式应用借助这种软件在不同的技术环境之间实现资源共享，管理计算资源和网络通讯。通过提取可重用的应用模式以及对标识、认证、授权、目录、安全性等服务的标准化和互操作，为应用提供统一的标准化程序接口和协议，隐藏底层硬件、操作系统和网络的异构性，统一管理网络资源的网络通信，灵活高效地开发分布式应用。对于应用软件开发，中间件远比操作系统和网络服务更为重要，中间件提供的程序接口定义了一个相对稳定的高层应用环境，不管底层的计算机硬件和系统软件怎样更新换代，只要将中间件升级更新，并保持中间件对外的接口定义不变，应用软件几乎不需任何修改，从而保护了企业在应用软件开发和维护中的重大投资。中间件带给应用系统的，不只是开发的简便、开发周期的缩短，也减少了系统的维护、运行和管理的工作量，还减少了计算机总体费用的投入。应用软件集成起来像一个天衣无缝的整体协调工作。这是操作系统、数据库管理系统本身做不了的，从而节约了大量的人力、财力投入。中间件的作用体现在它提供以下服务上：

（1）通讯服务。应用程序的开发往往要考虑操作系统提供的网络接口，针对不同的操作系统还存在网络协议的异构型，中间件则对分布式应用的开发者屏蔽了复杂的底层网络编程细节，为分布环境下的应用程序提供远程过程调用RPC、消息和对象请求代理ORB的通信服务。

（2）并发性服务。中间件的应用必须具有高度可扩展性才能满足目前火热的电子商务应用，这些应用需求通常以每秒所处理的请求或消息的数量来衡量，如果在系统中保证最大化的并发性，就可以同时执行尽可能多的任务。中间件使用很多技术和模式来增强了并发性，例如在服务器进程中采用多线程技术，多线程技术允许中间件系统最大化网络连接的处理以及达到这些连接的请求和消息的处理等。

（3）通用中间件支持，除了提高通信和并发服务支持外，分布式应用中使用目录服务、事务服务、管理服务、事件服务、连续性服务、负载平衡服务、配置服务来解决那些独立于任何特定应用领域的问题，中间件软件都集成了这些应用，很好地支持了这些分布式应用所需的构件。

中间件可以按不同方式进行分类，根据提供的功能可以划分为通信处理中间件（包括远程过程调用中间件和消息中间件）、事务处理中间件、数据存取中间件、分布对象中间件、安全中间件、网络中间件、服务器中间件（包括Web服务器中间件和服务器构架中间件）以及专用平台中间件。对于当前使用最多，运维人员感受最直观的应该就是服务器中间件了，提供这类产品的公司有IBM公司的Websphere Application Server、ORACLE公司的Weblogic、免费开源的Tomcat和Jboss等。

13.2.1 Websphere软件

WebSphere是IBM公司一套完整的电子商务平台软件的总称，它包含了编写、运行和监视全天候 Web 应用程序和跨平台、跨产品解决方案所需要的整个中间件基础设施，在此平台上提供了一系列基于统一的基础平台、完全基于开放标准的相关产品组件。WebSphere是整个软件产品体系的名称，它的家族产品主要有WebSphere Portal、WebSphere MQ、WebSphere Application Server、WebSphere Commerce、WebSphere Studio等，其中WebSphere Application Server是我们重点要介绍的应用中间件产品。

WebSphere Application Server（一般简称为WAS）是WebSphere家族产品的基础设施，它为企业应用程序提供了运行环境，为满足广泛用户需求而设计了独特的软件包核心。WAS为编程模型和开放标准提供了行业领先的支持，能够加速新应用程序和服务的部署交付。

WAS应用程序基础设施使您能够快速构建、部署、集成和增强企业的应用程序，使它们能够在Java环境中运行。从关键型业务应用程序和重要企业级应用程序到最小的部门级应用程序，WAS 都提供了最高的可靠性、可用性、安全性和可伸缩性水平。

1．WAS的产品线

（1）WebSphere Application Server Community EditionV 1.0

该产品是一个轻量级的J2EE应用程序服务器，它建立在Apache软件基金会的开放源代码应用程序服务器项目Apache Geronimo的基础上，旨在帮助您加速开发和部署工作，利用来自开放源代码社区的最新技术，为构建Java应用程序提供免费和灵活的技术基础。

（2）WebSphere Application Server V6

该产品是WebSphere Application Server的基础版本，它提供了完全的J2EE1.4兼容性以及深度Web服务支持，具备快速开发和部署特性（用于降低开发周期时间和最大化使用现有技能和资源），并与IBM Rational工具紧密集成。

（3）WebSphere Application Server-Express V6

该产品为中小企业管理简单的动态网站提供了一个简单便捷的选择，并具有友好的Web应用程序服务器和开发环境。

（4）WebSphere Application Server Network Deployment V6

该产品构建在WebSphere Application Server基础上，主要提供高级部署服务，包括集群服务、网络边际（edge-of-network）服务、增强的Web服务和用于分布式配置的高可用性服务。

（5）WebSphere Extended Deployment

该产品在WebSphere Application Server Network Deployment的基础上提供拓展的功能，用以进一步优化部署的效率，简化管理和增强关键业务应用程序服务质量。

（6）WebSphere Application Server for z/OS

该产品使用与针对分布式平台的WebSphere Application Server相同的编程模型，但是针对IBM zSeries硬件和z/OS操作系统进行了优化，根据系统特点提高服务质量。

2．WAS的体系结构

Websphere Application Server的体系结构主要由单元、节点、服务、概要文件和节点代理组成。

（1）单元

单元（Cell）是指整个分布式网络中一个或多个节点的逻辑分组，是一个管理上的概念。管理员用Cell将节点间逻辑关联起来，可以将看作是WAS最大的作用域。

（2）节点

节点（Node）是受管服务器（Server）的逻辑分组，通常与具有唯一IP主机地址的逻辑或物理计算机系统对应。节点不能跨多台计算机，它也是管理使用上的概念。

（3）服务

服务（Server）即实际部署应用的地方，在ND版本中一个节点可能有多个Server，但非ND版本（Single Server版本），一个节点只能使用一个Server。

（4）概要文件

概要文件（Profile）用以定义一个独立应用程序服务器的运行时环境，包括服务器在运行时环境中操作的所有文件。

（5）部署管理器

部署管理器（Deployment Manager）为单元中所有元素提供单一的管理控制，它是一个特殊的节点，使用DMGR部署管理概要模版创建。

（6）节点代理

节点代理（Node Agent）是将管理请求路由至服务器的管理代理程序。Node Agent是服务器，并不涉及应用程序服务功能。Node Agent 进程在每个受管节点上运行，并专门执行特定于节点的管理功能，如服务器进程监视、配置同步、文件传输和请求路由。DM就是通过与Node Agent的交互完成对单元内节点的控制。

3．WAS应用服务器技术优势

WAS产品现在是中间件平台最优的平台之一，它具有以下技术优势：

（1）安全、可伸缩、具有弹性的应用程序基础架构，这些基础架构是实现面向服务架构（SOA）所需要的。

（2）100%支持业界的开放性标准，包括Java/J2EE、XML、LDAP、CORBA、WML等。

（3）借助于一套简单的工具和界面，快速容易地构建和部署可重用的应用程序服务。

（4）在可靠、可伸缩、高度可用的环境中运行服务，以确保不因为应用程序宕机时间而失去业务机会。

（5）借助于具有弹性、基于标准的安全基础架构（此基础架构会移除易受攻击的威胁，同时最大限度地提高开发人员生产力），保证应用程序和数据的安全，提供了端到端（end-to-end）的安全解决方案。

（6）借助于基于标准的消息传递和最新的 Web 服务标准，重用软件资产并扩展其使用范围。

（7）借助于面向管理和监视的功能强大、易用的工具，轻松管理应用程序。

（8）跨最广泛的业界平台快速安全地进行扩展。

（9）支持完整的J2EE 1.4编程模型和扩展，包括 Servlet、JSP、EJB 和 Web 服务。

13.2.2 WebLogic软件

WebLogic最早由 WebLogic公司开发，后并入BEA公司，2008年Oracle为了进一步扩大和巩固数据库软件市场，成功收购BEA公司，相关软件也纳入到整个体系的开发和销售。WebLogic软件是用于开发、集成、部署和管理大型分布式Web应用、网络应用和数据库应用的Java应用服务器。将Java的动态功能和Java Enterprise标准的安全性引入大型网络应用的开发、集成、部署和管理之中。它是商业市场上主要的Java（J2EE）应用服务器软件（Application Server）之一，是世界上第一个成功商业化的J2EE应用服务器，目前Weblogic最新版本为Oracle Weblogic Server 12c（12.1.1）。

WebLogic将Java的动态功能和Java Enterprise标准的安全性引入大型网络应用的开发、集成、部署和管理之中，长期以来一直被认为是市场上最好的J2EE工具之一。WebLogic 最常用的使用方式是为在Internet 或Intranet上的Web 服务提供安全、数据驱动的应用程序，像数据库或邮件服务器一样，WebLogic Server 对于普通用户是不可见的。

1．Weblogic Server体系结构

Weblogic server的整体体系结构包括表现层、核心runtime服务层、集成服务层、可靠可用服务层、开发工具层、管理控制层。

（1）WebLogic 表现层

表现层为门户开发提供业内领先的企业级门户基础结构，提供丰富的、图形化的环境，并为业务专家提供基于浏览器的集成工具，一旦构建完成，企业的门户就可以在业务需求发生变化时快速适应变化。

（2）WebLogic 核心服务层

核心服务层是具有J2EE工业强度的应用服务器，它是BEA WebLogic Platform的基础。

（3）WebLogic 集成层

集成层是一个基于标准的平台，可以用于应用集成、业务流程管理、工作流、Web服务和B2B集成。它为用户提供统一的业务集成框架、简化的生产和管理，以及新的可扩展架构，该架构可以快速地集成并整合应用、业务流程。

（4）WebLogic可靠可用服务层

可靠可用服务器层为应用服务器的性能提升、负载均衡、记忆复制、容错等提供了高效的服务，增强了应用服务器的可靠可用性。

（5）WebLogic开发层

开发层为用户提供一个开发环境，用于为WebLogic Platform构建企业级J2EE应用。WebLogic Workshop可以帮助所有开发人员以前所未有的效率快速创建、测试和部署企业级的Web应用、XML Web服务、EJB、门户和业务流程管理（BPM）应用。

（6）WebLogic 管理控制层

管理控制层可以帮助系统管理人员快速地对应用服务器进行部署、配置、调优等操作。

2．Weblogic特性和优势

WebLogic软件现在是中间件平台最易用的平台之一，它具有以下技术优势：

（1）标准。对业内多种标准的全面支持，包括EJB、JSB、JMS、JDBC、XML和WML，使Web应用系统的实施更为简单，并且保护了投资，同时也使基于标准的解决方案的开发更加简便。

（2）可扩展性。WebLogic Server以其高扩展的架构体系闻名于业内，包括客户机连接的共享、资源pooling以及动态网页和EJB组件群集。

（3）快速开发。凭借对EJB和JSP的支持，以及BEA WebLogic Server 的Servlet组件架构体系，可加速投放市场速度。这些开放性标准与WebGain Studio配合时，可简化开发，并可发挥已有的技能，迅速部署应用系统。

（4）更趋灵活。WebLogic Server的特点是与领先数据库、操作系统和Web服务器紧密集成。

（5）可靠性。其容错、系统管理和安全性能已经在全球数以千计的关键任务环境中得以验证。

13.2.3 Tomcat软件

Tomcat是Apache 软件基金会（Apache Software Foundation）的Jakarta 项目中的一个核心项目，由Apache、Sun 和其他一些公司及个人共同开发完成。由于有了SUN公司（它是JAVA规范制定成员之一）的参与和支持，最新的Servlet 和JSP 规范得以迅速在Tomcat 中体现，Tomcat 5 支持最新的Servlet 2.4 和JSP 2.0 规范。因为Tomcat 技术先进、性能稳定，而且免费，所以深受Java 爱好者的喜爱并得到了部分软件开发商的认可，成为目前比较流行的Web 应用服务器，目前最新版本是8.0。Tomcat 是一个小型的轻量级应用服务器基础软件，在中小型系统和并发访问用户不是很多的场合下被普遍使用，是开发和调试JSP 程序的首选。

1．Tomcat总体结构

Tomcat 虽然结构很复杂，但是 Tomcat 非常的模块化，它由一系列嵌套的组件组成。

（1）顶层组件

顶层组件包含Server组件和Service组件。Server组件是Tomcat服务器的实例，可以在Java虚拟机（JVM）中生成唯一的服务器实例。它还可以在一个服务器中，为不同的端口设置单独的服务配置。这样，既方便单独地重启应用程序，又可以在某特定的JVM崩溃时，确保其他实例上的应用程序是安全的。Service组件用来访问请求，把请求转发给合适的Web应用程序，然后返回请求的处理结果，与它的链接器组成引擎组件。引擎也就是Servlet引擎，是请求处理的组件。引擎检查HTTP头，然后决定传送给哪个主机或者应用程序。每个Service都被命名，方便管理员能够通过日志记录每个Service的信息。

（2）链接器

链接器链接Web应用程序和客户端，代表和客户端实际交互的组件。它负责接受来自客户端的请求，以及向客户返回响应结果。Tomcat的默认端口是8080，以避免与其他的Web服务器标准端口（80）相冲突。比较常见的链接器是HTTP connector和Apache JServ Protocl（AJP）connector。

（3）容器组件

容器组件负责接受来自顶层组件的请求，然后处理这些请求，并把处理结果返回给上层组件。容器组件包括引擎组件（Engine Component）、主机组件（Host Component）和上下文组件（Context Component）。引擎组件负责接受和处理来自它所属的Service中的所有Connector的请求。每个Service组件只能包含一个引擎组件。主机组件定义了一个虚拟主机，它允许在同一台物理机器上，配置多个Web应用。多个主机组件可以包含在引擎组件中。上下文组件是使用最为频繁的组件，每个上下文组件代表了允许在虚拟主机上的每个Web应用。一个虚拟主机能够运行多个Context，它们通过各自的Context Path进行相互区分。

（4）嵌套组件

嵌套组件嵌套在容器内，为管理人员提供管理服务。它包括全局资源组件（The Global Resources Component）、加载器组件（Loader Component）、日志组件（Logger Component）、管理器组件（Manager Component）、域组件（Realm Component）、资源组件（Resources Component）和阀组件（Valve Component）。全局资源组件只能嵌套在Server组件中，用于配置Server中其他组件所用到的全局JNDI资源。加载器组件只能嵌套在上下文组件中，用于指定一个Web应用程序的类加载器，并将该应用程序的类和资源加载到内存中。一般来说，Tomcat中默认的类加载器就能满足大部分的需求，因此开发人员没有必要定制自己的类加载器。日志组件能借助Log4J来实现记录日志。管理器组件是会话管理器，负责会话的创建和维护。域组件是一个包含用户名、密码和用户角色的数据库。角色与UNIX的group类似。域的不同实现允许将Catalina集成到认证信息已经被创建和维护的环境中，然后利用这些信息来实现容器管理的安全性。在任何组件（如引擎、主机或者上下文组件）中都可以嵌套域组件。另外，引擎或者主机的域会自动被低层次的容器集成，除非被明确覆盖。资源组件只在上下文组件中支持，它代表的是Web应用程序中的静态资源，以及它们被允许存放的格式，例如压缩文件等。阀组件用于在请求到达目的之前，截取该请求，并处理它。有点类似于Servlet规范中定义的过滤器。它是Tomcat专有的、目前还不能用于其他的Servlet/JS容器。阀组件可以嵌入到其他组件中，如引擎、主机和上下文组件。阀组件通常用于记录请求、客户端IP地址，以及服务器端利用率信息，这种技术被称为请求转储（Request Dumping）。请求转储阀记录HTTP头的信息和Cookies信息。响应转储阀记录响应HTTP头和Cookies信息。阀是可重用的组件，能按照用户的需求增删。

2．Tomcat优势及特点

Tomcat服务器是一个免费的开放源代码的Web应用服务器，技术先进、性能稳定，而且免费，因而深受Java爱好者的喜爱并得到了部分软件开发商的认可。其运行时占用的系统资源小，扩展性好，且支持负载平衡与邮件服务等开发应用系统常用的功能。作为一个小型的轻量级应用服务器，Tomcat在中小型系统和并发访问用户不是很多的场合下被普遍使用，因此也成为目前比较流行的Web 应用服务器。

13.2.4 中间件维护技能

应用中间软件作为软件系统的应用服务器，是系统基础架构中最为核心的软件。做好应用中间件的运维服务是IT运维中的重中之重，如何做好应用中间件维护，应掌握哪些应用中间件技能来满足运维需求，是每个中间件运维人员需要考虑的事情。关于应用中间件运维工作应该了解和熟悉的技能如下：

（1）熟悉J2EE组成架构、标准和核心技术（JDBC、JNDI、EJB、RMI、JSP SERVLETS、XML、JMS、IDL、JTS、JTA、JAVAMAIL、JAF）原理及概念，重点要熟悉最常用的JDBC、JNDI、EJB、JSP和Servlets 技术规范以及J2EE多层体系架构功能原理。

（2）熟悉应用中间件的体系结构以及各组件功能。WAS应掌握单元、节点、服务、概要文件和节点代理的概念以及它们之间的关系，熟悉WAS数据服务层、业务逻辑层、表示层等多层之间的依赖关系以及各层实现的功能；熟悉智能管理（Intelligent Management）、系统管理、安全、性能监控、符合J2EE架构应用组件的功能原理和使用方法。

WebLogic应掌握WebLogic 应用服务器域（Domain）、族（Cluster）、机器（Machine）、服务器（Server）、管理服务器（Administrative Server）、被管理服务器（Managed Server）、节点管理器（Node Manager）的概念及各自扮演的角色；熟悉WebLogic表现层、核心服务层、集成层、可靠可用服务层、开发层、管理控制层之间的关联关系以及每一层提供的服务功能和所应用的技术规范。

Tomcat应掌握Server、Service、Connector、Engine、Host、Context概念及各自工作原理；熟悉顶层组件、链接器、容器组件、嵌套组件以及此四大组件所包含拓展组件的功能作用和所涉及的技术规范。

（3）能够在各种平台熟练安装中间软件并进行配置调试。

熟悉中间件在不同平台安装方法的区别以及不同版本所对应的Java运行环境；

熟悉中间件安装所依赖的系统环境并熟练配置环境变量；
熟悉不同版本的中间件对各操作系统版本和系统组件的依赖关系；
熟悉三大中间件的三种安装方法：图形安装方法、命令安装方法、静默安装方法；
熟悉三大中间件功能结构，在安装过程中熟练选择合适的功能组件；
熟练排除在安装过程中所遇到的问题；
中间件安装完毕后熟练对中间件进行初始化配置和验证。

（4）能够熟练地在中间件平台上部署和调试应用程序。作为中间件运维人员，最基础的工作首先是要熟悉在中间件上进行变量设置、数据库驱动创建、数据源配置调试、安全配置管理、应用程序发布调试、虚拟机管理、共享库以及类加载调试等操作。

（5）能够搭建中间件集群环境并能够进行集群负载均衡配置管理。

（6）能够熟练使用脚本语言进行日常系统管理操作，熟练使用WAS的jacl语言、WebLogic的wlst语言、Tomcat的python语言对中间件进行变量设置、数据库驱动创建修改、数据源配置调试、应用发布调试、共享库创建、安全管理等日常操作。

（7）能够通过日志信息判断中间件的异常，并熟练使用javacore、heapdump分析工具进行问题诊断。

熟悉WAS诊断日志SystemErr.log、SystemOut.log、ffdc日志；Weblogic诊断日志AdminServer.log、access.log、domain_name.log；Tomcat诊断日志llocalhost_access_log的配置方法、所在位置、所记录信息的类型和范围等，并能通过上述日志文件信息进行常规的问题诊断。
熟练应用WAS的Support Assistant、Log Analyzer；Weblogic的Oracle Enterprise Manager；Tomcat的jrockitgon工具软件进行 javacore、dump分析，并能够分析出应用程序的缺陷和性能等问题。

（8）能够通过中间件提供的各种性能指标进行跟踪调优操作。

熟悉WAS性能监控工具TIVOLI PERFORMANCE VIEWER；Weblogic性能监控工具iagnostics module、jconsole、sitescope；Tomcat性能监控工具probe、Jconsole等一些常用性能跟踪监控工具的配置方法、监控范围、使用方法，并能通过这些工具对应用程序、JVM信息、内存使用等进行跟踪和性能分析。
通过上述监控工具的跟踪分析结果，能够根据应用程序Servlet重新装载比例、会话活动数量比例、外部会话读写空间代价；线程池的利用率、挂起线程比例；数据库连接池利用率、访问效率、等待率；Java虚拟机的堆利用率、内存回收效率等性能指标值对中间件的相关性能指标进行调优操作。

13.3 数据库

数据库是一个单位或是一个应用领域的通用数据处理系统，它存储的是属于企业和事业部门、团体和个人的有关的数据集合。数据库中的数据是从全局观点出发建立的，按一定的数据模型进行组织、描述和存储。其结构基于数据间的自然联系，从而可提供一切必要的存取路径，且数据不再针对某一应用，而是面向全组织，具有整体的结构化特征。

数据库中的数据是为众多用户所共享其信息而建立的，已经摆脱了具体程序的限制和制约。不同的用户可以按各自的用法使用数据库中的数据；多个用户可以同时共享数据库中的数据资源，即不同的用户可以同时存取数据库中的同一个数据。数据共享性不仅满足了各用户对信息内容的要求，同时也满足了各用户之间信息通信的要求。

目前，商品化的数据库管理系统以关系型数据库为主导产品，技术比较成熟。面向对象的数据库管理系统虽然技术先进，数据库易于开发、维护，但尚未有成熟的产品。国际国内的主导关系型数据库管理系统有DB2、Oracle、MY SQL、Sybase和INFORMIX。这些产品都支持多平台，如UNIX、Linux、VMS、Windows，但支持的程度不一样。微软的SQL Server也是成熟的关系型数据库，但是SQL Server只支持Windows操作系统。

13.3.1 SQL SERVER软件

SQL Server最初是由Microsoft、Sybase 和Ashton-Tate三家公司共同开发的，于1988 年推出了第一个OS/2版本。在Windows NT 推出后，Microsoft与Sybase 在SQL Server 的开发上就分道扬镳了，Microsoft 将SQL Server移植到Windows NT系统上，专注于开发推广SQL Server 的Windows NT 版本。Sybase 则较专注于SQL Server在UNIX操作系统上的应用。

SQL Server的安全性及稳定性受操作系统限制，一般用于轻量级应用程序及非关键性系统，但是SQL Server 提供了众多的Web和电子商务功能，如对XML和Internet标准的丰富支持，通过Web对数据进行轻松安全的访问，具有强大的、灵活的、基于Web的和安全的应用程序管理等。而且，由于其易操作性及其友好的操作界面，深受广大用户的喜爱。目前微软共提供了五种不同的版本：

SQL Server Enterprise Edition（32 位和 64 位）——企业版Enterprise Edition，达到了支持超大型企业进行联机事务处理（OLTP）、高度复杂的数据分析、数据仓库系统和网站所需的性能水平。Enterprise Edition 的全面商业智能和分析能力及其高可用性功能（如故障转移群集），使它可以处理大多数关键业务的企业工作负荷。Enterprise Edition 是最全面的 SQL Server 版本，是超大型企业的理想选择，能够满足最复杂的要求。
SQL Server Standard Edition（32 位和 64 位）——标准版SQL Server Standard Edition，是适合中小型企业的数据管理和分析平台。它包括电子商务、数据仓库和业务流解决方案所需的基本功能。Standard Edition 的集成商业智能和高可用性功能可以为企业提供支持其运营所需的基本功能。SQL Server Standard Edition 是需要全面的数据管理和分析平台的中小型企业的理想选择。
SQL Server Workgroup Edition（仅适用于 32 位）——工作组版，对于那些需要在大小和用户数量上没有限制的数据库的小型企业，SQL Server Workgroup Edition 是理想的数据管理解决方案。SQL Server Workgroup Edition 可以用作前端 Web 服务器，也可以用于部门或分支机构的运营。它包括 SQL Server 产品系列的核心数据库功能，并且可以轻松地升级至 SQL Server Standard Edition 或 SQL Server Enterprise Edition。SQL Server Workgroup Edition 是理想的入门级数据库，具有可靠、功能强大且易于管理的特点。
SQL Server Developer Edition（32 位和 64 位）——开发版，SQL Server Developer Edition 允许开发人员在 SQL Server 顶部生成任何类型的应用程序。该应用程序包括 SQL Server Enterprise Edition 的所有功能，但许可用作开发和测试系统，而不用作生产服务器。SQL Server Developer Edition 是独立软件供应商（ISV）、咨询人员、系统集成商、解决方案供应商以及生成和测试应用程序的企业开发人员的理想选择。可以根据生产需要升级 SQL Server Developer Edition。
SQL Server Express Edition（仅适用于 32 位）——学习版，SQL Server Express 是免费的，可以再分发（受制于协议），还可以充当客户端数据库以及基本服务器数据库。SQL Server Express 是独立软件供应商 ISV、服务器用户、非专业开发人员、Web 应用程序开发人员、网站主机和创建客户端应用程序的编程爱好者的理想选择。如果您需要使用更高级的数据库功能，则可以将 SQL Server Express 无缝升级到更复杂的 SQL Server 版本。

借助于Windows优良的图形界面，在当前成熟的关系型数据库中，SQL Server应该是最容易维护最为简洁的数据库系统。但是要在SQL Server软件正常运行的基础上确保企业的应用程序能够稳定、高效、安全的运行，对运维人员也提出了较高的要求。针对不同的SQL Server应用，应该从以下几个方面进行研究。

（1）安装部署

相对于其他数据库系统，SQL Server受益于Windows的图形界面辅助，安装过程较为简单，但是安装部署要考虑的事情也是不容忽略的。部署前应该考虑到操作系统的安全、账户的权限、系统数据库设置、字符集及时区的设置等。

（2）内存管理

SQL Server在运行过程中使用的内存配置，将会对数据库的运行稳定性及性能产生较大的影响，因此对于SQL Server数据库的内存管理也要有深入的了解，其中包括数据页面、数据库组件、线程内存以及第三方代码消耗的内存。因此SQL Server内存使用情况的分析将是比较重要的工作内容，一般来说内存监控有两种方式。第一种是在分析系统内存情况时使用性能计数器，第二种是使用动态管理视图（DMV，只适用于SQL Server2005和2008），在此就不做具体介绍了。

（3）数据库数据文件及日志文件

数据库的日常工作主要是对数据的增删改查，以及对各操作进行记录。这些工作最终都会落实到文件的读写操作上，因此，数据文件及日志文件的分布配置以及存储类型将会影响到数据库的响应速度。对此运维人员应该对存储设备及类型有一定的了解，并深入掌握文件及文件组的使用。

（4）SQL编码

数据库系统作为数据管理的一个平台，在日常工作中所有的操作及交互都需要使用SQL进行。因此SQL的编写是运维人员必须具备的能力，在此基础上还要了解怎样的SQL可以让数据库引擎高效地执行。对于SQL Server的数据库引擎来说，复杂的SQL往往执行效率不高，调试困难，无法重复使用。复杂的存储过程同样面对阅读困难、复用性差以及不便维护的困境。因此应该尽可能地使用较为简单的SQL，合理地将SQL或存储过程进行拆分，简化逻辑。此外数据库引擎对于大批量的数据处理效率要优于行级数据处理，在维护过程中要多加注意。

（5）性能提升

在软件系统的整个生命周期中，比起规划设计阶段、编码阶段，运维阶段所做的工作对数据库的影响是最小的，也是对运维人员要求最高的。运维人员，没有办法改变数据组成，往往连查询语句都不能修改。这就需要运维人员使用索引、分区等一些对用户透明的手段，对数据库进行改造，以改善其性能，此外还要注意内存以及IO的重新配置和规划。此外，还应该熟练地进行数据库监控，以及数据库锁的使用。通过SQL Server Profiler（2000版本叫事件探查器）可以监控到执行较差的查询，登录尝试、故障、连接或者断开，语句级别使用的CPU，死锁的问题，tempdb数据库的性能等。

（6）容灾与备份

数据库的备份和恢复是运维人员必须要掌握的一项能力，此外，容灾是在备份的基础上更高的一种可用性要求，容灾是保障数据不因人为因素丢失的高可用方案。备份是保障数据在任何情况下都能回滚到可接受的范围的手段，而且容灾不能代替备份。对此运维人员应该了解并可以熟练进行数据库的备份恢复操作，并可以使用相关的容灾软件对数据库进行恢复（一些非关键性或小型企业的数据库系统可能对容灾没有那么高的要求）。

（7）故障诊断

除备份恢复之外，故障诊断应该是运维人员最重要的必需技能。SQL Server Profiler（2000版本叫事件探查器）跟踪数据库的告警及报错信息，根据跟踪信息进行诊断定位。对于24小时不间断运行的系统，还可以使用系统监视器来收集SQL Server的运行情况，进行系统诊断。

13.3.2 MY SQL软件

MySQL是一个开放源码的小型关联式数据库管理系统，由瑞典MySQL AB公司开发，目前属于Oracle公司。MySQL所使用的SQL语言是用于访问数据库的最常用标准化语言。MySQL软件采用了双授权政策，它分为社区版和商业版，由于其体积小、速度快、总体拥有成本低，尤其是开放源码这一特点，一般中小型网站的开发都选择MySQL作为网站数据库。由于其社区版的性能卓越，搭配PHP和Apache可组成良好的开发环境。

与其他的大型数据库例如Oracle、DB2、SQL Server等相比，MySQL自有它的不足之处，但是这丝毫也没有减少它受欢迎的程度。对于一般的个人使用者和中小型企业来说，MySQL提供的功能已经绰绰有余，而且由于MySQL是开放源码软件，因此可以大大降低总体拥有成本。Linux作为操作系统，Apache和Nginx作为Web服务器，MySQL作为数据库，PHP/Perl/Python作为服务器端脚本解释器。由于这四个软件都是免费或开放源码软件（FLOSS），因此使用这种方式不用花一分钱（除开人工成本）就可以建立起一个稳定、免费的网站系统，被业界称为“LAMP”组合。它具有以下系统特性：

（1）使用C和C++编写，并使用了多种编译器进行测试，保证源代码的可移植性。

（2）支持AIX、FreeBSD、HP-UX、Linux、Mac OS、NovellNetware、OpenBSD、OS/2 Wrap、Solaris、Windows等多种操作系统。

（3）为多种编程语言提供了API。这些编程语言包括C、C++、Python、Java、Perl、PHP、Eiffel、Ruby和Tcl等。

（4）支持多线程，充分利用CPU资源。

（5）优化的SQL查询算法，有效地提高查询速度。

（6）既能够作为一个单独的应用程序应用在客户端服务器网络环境中，也能够作为一个库而嵌入到其他的软件中。

（7）提供多语言支持，常见的编码如中文的GB 2312、BIG5，日文的Shift_JIS等都可以用作数据表名和数据列名。

（8）提供TCP/IP、ODBC和JDBC等多种数据库连接途径。

（9）提供用于管理、检查、优化数据库操作的管理工具。

（10）支持大型的数据库。可以处理拥有上千万条记录的大型数据库。

（11）支持多种存储引擎。

新版本特性中新加表和索引的分区、行级复制、MYSQL基群基于磁盘的数据支持、MYSQL集群复制、增强的全文本搜索函数、增强的信息模式（数据字典）、可插入的API、服务器日志表、XML/XPath支持、实例管理器、表空间备份、mysql_upgrade升级程序、内部任务/事件调度器、新的性能工具和选项如mysqlslap。

1．数据库引擎

MySQL作为开源的数据库管理系统，拥有最为众多的存储引擎，根据不同的应用系统特点选择需要的存储引擎，这对运维人员的技术水平就提出了很高的要求。常用的存储引擎为MyISAM、InnoDB、BDB、MEMORY、Archive、MERGE、Federated、Cluster/NDB、CSV、BlackHole、EXAMPLE，其中InnoDB、BDB提供事务安全表，其他存储引擎都是非事务安全表。

MyISAM是Mysql5.5之前的默认数据库引擎，最为常用。拥有较高的插入、查询速度，但不支持事务。

InnoDB是事务型数据库的首选引擎，支持ACID事务，支持行级锁定，MySQL 5.5起成为默认数据库引擎。

BDB源自Berkeley DB，是事务型数据库的另一种选择，支持COMMIT和ROLLBACK等其他事务特性。

Memory是所有数据置于内存的存储引擎，拥有极高的插入、更新和查询效率。但是会占用和数据量成正比的内存空间。并且其内容会在Mysql重新启动时丢失。

Merge将一定数量的MyISAM表联合而成一个整体，在超大规模数据存储时很有用。

Archive非常适合存储大量的独立的、作为历史记录的数据。因为它们不经常被读取。Archive拥有高效的插入速度，但其对查询的支持相对较差。

Federated将不同的Mysql服务器联合起来，逻辑上组成一个完整的数据库。非常适合分布式应用。

Cluster/NDB是高冗余的存储引擎，用多台数据机器联合提供服务以提高整体性能和安全性。适合数据量大、安全和性能要求高的应用。

CSV是逻辑上由逗号分割数据的存储引擎。它会在数据库子目录里为每个数据表创建一个.CSV文件。这是一种普通文本文件，每个数据行占用一个文本行。CSV存储引擎不支持索引。

BlackHole是黑洞引擎，写入的任何数据都会消失，一般用于记录binlog做复制的中继。

EXAMPLE存储引擎是一个不做任何事情的存根引擎。它的目的是作为MySQL源代码中的一个例子，用来演示如何开始编写一个新存储引擎。同样，对此有兴趣的是开发者。EXAMPLE存储引擎不支持编索引。

另外，Mysql的存储引擎接口定义良好，有兴趣的开发者可以通过阅读文档编写自己的存储引擎。

2．索引功能

索引是一种特殊的文件（InnoDB及其他关联型数据表上的索引是表空间的一个组成部分），它们包含着对数据表里所有记录的引用指针。索引不是万能的，索引可以加快数据检索操作，但会使数据修改操作变慢。每修改数据记录，索引就必须刷新一次。为了在某种程度上弥补这一缺陷，许多SQL命令都有一个DELAY_KEY_WRITE项。这个选项的作用是暂时制止MySQL在该命令每插入一条新记录和每修改一条现有记录之后立刻对索引进行刷新，对索引的刷新将等到全部记录插入/修改完毕之后再进行。在需要把许多新记录插入某个数据表的场合，DELAY_KEY_WRITE选项的作用将非常明显。另外，索引还会在硬盘上占用相当大的空间。因此应该只为最经常查询和最经常排序的数据列建立索引。注意，如果某个数据列包含许多重复的内容，为它建立索引就没有太大的实际效果。

3．数据库备份

MY SQL数据库的备份，主要是利用mysqldump来备份数据库，小数据量的库是直接用mysqldump来处理，稍微大些的数据库是在slave端做mysqldump备份，也在有些场合考虑使用xtrabackup。对于数据库比较分散的系统，相对来说备份校验的工作量有点大。对于小型数据库，还可以使用mysqlhotcopy进行备份。对于安全性较高的数据库，也可以使用主从复制机制（replication）实现数据库实时备份。

13.3.3 DB2软件

DB2是IBM出品的一系列关系型数据库管理系统，分别在不同的操作系统平台上服务。DB2主要应用于大型应用系统，具有较好的可伸缩性，可支持从大型机到单用户环境，应用于OS/2、Windows等平台下。DB2提供了高层次的数据利用性、完整性、安全性、可恢复性，以及小规模到大规模应用程序的执行能力，具有与平台无关的基本功能和SQL命令。DB2采用了数据分级技术，能够使大型机数据很方便地下载到LAN数据库服务器，使得客户机/服务器用户和基于LAN的应用程序可以访问大型机数据，并使数据库本地化及远程连接透明化。它以拥有一个非常完备的查询优化器而著称，其外部连接改善了查询性能，并支持多任务并行查询。DB2具有很好的网络支持能力，每个子系统可以连接十几万个分布式用户，可同时激活上千个活动线程，对大型分布式应用系统尤为适用。

DB2数据库根据不同的生产环境，提供了不同的软件产品：

DB2 Everyplace

DB2 Everyplace主要用于移动计算。移动计算的真正力量并不在于移动设备本身，而是在于能够利用来自其他来源的数据。DB2 Everyplace不仅仅是一种移动计算基础设施，它是一个完整的环境，包含了构建、部署和支持强大的电子商务应用程序所需的工具。DB2 Everyplace提供一个“指纹”引擎（大约200 KB），其中包含所有的安全特性，比如表加密和提供高性能的高级索引技术。

它可以在当今最常见的各种手持设备上顺利地运行（提供多线程支持），如Palm OS、Microsoft Windows Mobile Edition、任何基于Windows 的32 位操作系统、Symbian、QNX Neutrino、Java 2 Platform.Micro Edition（J2ME）设备（如RIM 的Blackberry pager）、嵌入式Linux 发布版（如BlueCat Linux）等。

DB2 Personal Edition

DB2 Personal Edition（DB2 Personal）是单用户RDBMS，运行于低价的商用硬件桌面计算机上。DB2 Personal 包含DB2 Express 的所有特性，但是有一个例外：远程客户机无法连接运行这个DB2 版本的数据库。

DB2 Express - C

DB2 Express - C 其实不算是DB2 系列的一个版本，但是它提供了DB2 Express 的大多数功能。2006 年1 月，IBM 发布了这个特殊的DB2 免费版本，可以用于基于Linux和Windows的操作系统。它是IBM专门针对开发者社区提供的完全免费的DB2数据库版本，可以在此版本的DB2上不受限制地开发、部署以及分发自己的数据库应用程序。

DB2 Express Edition

DB2 Express Edition（DB2 Express）是一种功能全面的支持Web 的客户机/服务器RDBMS。DB2 Express 可以用于基于Windows 和Linux 的工作站。DB2 Express 提供一个低价的入门级服务器，主要用于小型企业和部门的计算任务。

DB2 Workgroup Edition

DB2 Workgroup Edition（DB2 Workgroup）和DB2 Express Edition 功能相同，只是在服务器上可以安装的内存和价值单元（等于一个服务器处理器核心的能力）数量方面有区别。

DB2 Enterprise Edition

DB2 Enterprise Edition（DB2 Enterprise）是一种功能全面的支持Web 的客户机/服务器RDBMS。它可以用于所有支持的UNIX 版本、Linux 和Windows。DB2 Enterprise 适合作为大型和中型的部门服务器。DB2 Enterprise 包含DB2 Express 和DB2 Workgroup 的所有功能，还添加了其他功能。

Data Enterprise Developer Edition

Data Enterprise Developer Edition（DEDE）是为应用程序开发人员提供的特殊版本。这个版本提供了几个信息管理产品，使应用程序开发人员可以对应用程序进行设计、构建和建立原型，产生的应用程序可以部署在任何IBM 信息管理软件客户机或服务器平台上。在DB2 9 中，这个软件包已经取消了，由DB2 Express - C 取代。

DB2相较于其他几个数据库系统（SQL Server除外）是比较封闭的，但是也是维护最为简单的。虽然环境变量、全局变量、实例参数、数据库参数加起来有上百个供运维人员根据实际环境进行设置，但是IBM丰富的说明文档可以简明扼要地让所有初学者知道其各自的作用。也正是拥有这些自由的选择，使得DB2数据库具有巨大的伸缩性和扩展性。

IBM DB2数据库在以下几方面有自己的特点和特性，运维人员应重点关注和学习，并掌握其使用和维护方法。

（1）高可用-HADR

DB2发行版中，一个HADR环境需要两台数据库服务器：主数据库服务器（primary）和备用数据库服务器（standby）。当主数据库中发生事务操作时，会同时将日志文件通过TCP/IP传送到备用数据库服务器，然后备用数据库对接受到的日志文件进行重放（Replay），从而保持与主数据库的一致性。当主数据库发生故障时，备用数据库服务器可以接管主数据库服务器的事务处理。此时，备用数据库服务器作为新的主数据库服务器进行数据库的读写操作，而客户端应用程序的数据库连接可以通过自动客户端重新路由（Automatic Client Reroute）机制转移到新的主服务器。当原来的主数据库服务器被修复后，又可以作为新的备用数据库服务器加入HADR。

（2）数据库分区

DB2的企业版提供数据库分区功能，即DPF，这一功能主要用来为大规模数据处理提供支持。DB2数据库分区采用Share-nothing体系结构，数据库在一个非共享的环境中被分解为独立的分区，每个分区都具有自己的资源，例如内存、CPU和磁盘以及自己的数据、索引、配置文件和事务日志。通过它可以在物理或逻辑上将数据库负载分流，处理海量数据，多用于数据仓库和商业智能，数据库具有并行处理单一任务的能力。

（3）DB2 pureScale

DB2 pureScale 是一种新的 DB2 可选特性，它允许您通过“双机（active-active）”配置将数据库扩展到一组服务器上，以便交付高水平的可用性和可伸缩性。在这种配置中，运行于各主机（或服务器）上的 DB2 副本可以同时读取和写入相同的数据。共享 DB2 数据的一台或多台 DB2 服务器被称作数据共享组。数据共享组中的 DB2 服务器是该组的成员。目前，数据共享组支持的最大成员数量是 128。

（4）数据库并发

DB2在做数据修改时，在日志中既记录了修改前的数据（也就是UNDO日志），也记录了修改后的数据（即REDO日志）。对于DB2 V9.7之前的版本，读取数据的应用程序，遇到正在被其他应用程序修改的数据时，将会进行锁等待（除非使用UR隔离级别）。对于DB2 V9.7及以后版本，由于引入了当前已落实，读取数据的应用程序将不需要等待锁释放，而是会从日志中读取数据修改前的版本。当请求加锁时，DB2会检查锁列表，看数据对象上是否已加锁，以及请求的锁与已加的锁是否兼容。DB2强调“读一致性”，在读数据行时，会根据隔离级别的不同而加S或IS锁，只有在使用UR隔离级别时才不加S或IS锁，这保证了不同应用程序和用户读取的数据是一致的。DB2缺省的隔离级是CS，对于大多数应用来说，缺省的CS级别可以满足需要。DB2在UR隔离级别下，遇到正在被更改的数据会读最新的没有提交的脏数据。

（5）SQL优化器

DB2数据库里面是通过优化器来分析SQL，生成它认为最优的执行计划。DB2的优化器实际上是一个标准规则集合。DB2的优化器是基于成本的优化器，也就是CBO（costbasedoptmizer）。也就是说DB2优化器会应用查询成本公式，该公式对每一条可能的存取路径的四个因素进行评估和权衡：CPU成本、I/O成本、DB2系统目录中的统计信息和实际的SQL语句。DB2系统目录中统计信息是让DB2优化器正确工作的一个重要的依据。这些统计信息向优化器提供了与正在被优化的SQL语句将要访问的表状态相关的信息，因此应该保证数据库的统计信息是准确的。

（6）备份恢复

DB2数据库的备份和恢复是比较简单的，只需要一条明确的关键指令，备份工作就可以顺利进行。当然，不同的生产环境可能需要一些前期工作要做。根据应用系统的需要，从数据块到数据库级，从delta到增量备份再到全备份，从联机备份到脱机备份，甚至实时备份，DB2提供了完备的各种备份方案供运维人员选择。当然，想要很好地运用这些不同的备份方案，还需要深入的学习。在高可用方面，数据库分区以及数据库复制，也应该是运维人员应该关注的地方。

（7）故障诊断

DB2软件提供了管理通知日志、诊断日志、事件日志、转储文件、陷阱文件等日志信息帮你监控和记录数据库发生的问题过程，具体这些文件所处的位置及作用如下：

管理通知日志（“instance_name.nfy”）

该日志适用于所有的操作系统，只是根据操作系统的不同展现方式有所区别。

Linux和 UNIX：位于 diagpath 数据库管理器配置参数所指定的目录中。

Windows：使用事件查看器工具（“开始”>“控制面板”>“管理工具”>“事件查看器”）。

该日志在创建实例时自动创建。发生重大事件时，DB2 将信息写入管理通知日志，供数据库和系统管理员使用。记录在此文件中的消息类型由 notifylevel配置参数确定。

DB2 诊断日志（“db2diag.log”）

该日志位于 diagpath 数据库管理器配置参数所标识的目录中。

此文本文件包含关于实例遇到的错误和警告的诊断信息。此信息用于问题确定及 IBM软件支持。记录在此文件中的消息类型由diaglevel数据库管理器配置参数确定。

DB2 管理服务器（DAS）诊断日志（“db2dasdiag.log”）

该日志同样适用于所有的操作系统，根据操作系统的不同展现方式如下：

Linux和UNIX：位于DASHOME/das/dump中，其中DASHOME是DAS所有者的主目录。

Windows：位于DAS主目录的“dump”文件夹中。例如，C:\Program Files\IBM\SQLLIB\ DB2DAS00\dump。

该日志在创建 DAS 时自动创建。文件包含关于 DAS 遇到的错误和警告的诊断信息。

DB2 事件日志（“db2eventlog.×××”，其中×××是数据库分区号）

事件日志与诊断日志一样位于diagpath数据库管理器配置参数所指定的目录中。在创建实例时自动创建。

DB2 事件日志文件是数据库管理器中发生的基础结构级事件的循环日志。该文件大小固定，并且充当在实例运行时记录的特定事件的循环缓冲区。每次停止实例时，就会替换先前的事件日志，而不是追加。如果实例捕获，则还会生成db2eventlog.×××.crash文件。这些文件供 IBM 软件支持使用。

DB2调出脚本（db2cos）输出文件

位于diagpath数据库管理器配置参数所指定的目录中。出现应急启动、陷阱或分段违例时自动创建。还可以在使用db2pdcfg命令所指定的特定问题情况期间创建。缺省db2cos脚本将调用db2pd命令以打开方式收集信息。根据db2cos脚本中包含的命令，db2cos输出文件的内容会有所不同。

转储文件

该文件位于diagpath数据库管理器配置参数所指定的目录中，出现特定问题情况时自动创建，对于某些错误情况，会将附加信息记录在以失败进程标识命名的二进制文件中，这些文件可供 IBM 软件支持使用，对其分析定位问题有帮助。

陷阱文件

位于diagpath数据库管理器配置参数所指定的目录中。实例异常结束时自动创建。还可以使用db2pd命令创建。如果数据库管理器由于陷阱、分段违例或异常而不能继续处理，则会生成陷阱文件。

核心文件

核心文件是一个二进制文件，它包含类似于 DB2 数据库产品生成的陷阱文件的信息。核心文件还可能包含已终止进程的完整内存映像。位于diagpath 数据库管理器配置参数所指定的目录中。DB2 实例异常终止时由操作系统创建。

13.3.4 Oracle软件

Oracle数据库系统是美国Oracle（甲骨文）公司提供的以分布式数据库为核心的一组软件产品，是目前最流行的客户/服务器（Client/Server）或B/S体系结构的数据库之一。比如SilverStream就是基于数据库的一种中间件。Oracle数据库是目前世界上使用最为广泛的数据库管理系统，作为一个通用的数据库系统，它具有完整的数据管理功能；作为一个关系数据库，它是一个完备关系的产品；作为分布式数据库它实现了分布式处理功能。只要在一种机型上学习了Oracle知识，便能在各种类型的机器上使用它。

Oracle数据库最新版本为Oracle Database 12c。Oracle数据库12c 引入了一个新的多承租方架构，使用该架构可轻松部署和管理数据库云。此外，一些创新特性可最大限度地提高资源使用率和灵活性，如Oracle Multitenant可快速整合多个数据库，而Automatic Data Optimization和Heat Map能以更高的密度压缩数据和对数据分层。这些独一无二的技术进步再加上在可用性、安全性和大数据支持方面的主要增强，使得Oracle数据库12c成为私有云和公有云部署的理想平台。

到目前Oracle仍然是市场份额占有量最大的数据库系统。Oracle安装介质完全免费所以其同代产品中没有过多的版本。Oracle作为市场占有量最大，从业人员最多的数据库管理系统，其创新和升级也走在了其他数据库管理系统的前面。业内使用的版本从8i、9i到10g、11g、12g版本的升级都引入了大量的新功能，并对各项功能进行了增强。

Oracle数据库在以下几方面有自己的特点和特性，运维人员应重点关注和学习，并掌握其使用和维护方法。

（1）高性能——集群

Oracle的集群软件RAC的特点包括如下几点：

双机并行。RAC是一种并行模式，并不是传统的主备模式。也就是说，RAC集群的所有成员都可以同时接收客户端的请求。
高可用性。RAC是Oracle数据库产品高可用性的解决方案，能够保证在集群中只要有一个节点存活，就能正常对外提供服务。
易伸缩性。RAC可以非常容易地添加、删除节点，以满足系统自身的调整。
低成本。能使用较低廉的服务器来实现高可用性、高吞吐量的集群环境，这要比通过对某台高端服务器增加硬件实现高可用性、高吞吐量花费的成本低很多。
高吞吐量。随着节点数的增加，整个RAC的吞吐量也在不断增长。

（2）高可用——容灾

Oracle DataGuard是一种数据库级别的HA方案，最主要功能是冗灾、数据保护、故障恢复等。当然根据配置的不同，DATA GUARD还可以具备以下特点：高可用、性能提升、数据保护以及故障恢复等。

DATA GUARD可以分为物理STANDBY和逻辑STANDBY两种。二者的最大差别在于，物理STANDBY应用的是主库的归档日志，而逻辑STANDBY应用的是主库的归档日志中提取的SQL语句。由于二者这一点的区别，决定了物理STANDBY无论从逻辑结构和物理结构都是和主库保持一致，而逻辑STANDBY则只需保证逻辑结构一致，且逻辑STANDBY在应用SQL语句的时候，数据库可以处于打开的状态。

根据DATA GUARD的保护模式，可以分为三种不同类型：保护最大化、可用最大化、性能最大化。

（3）灵活性

Oracle 独家具有提供网格计算优势的功能，可以利用它来提高用户服务水平、减少停机时间以及更加有效地利用IT资源，同时还可以增强全天候业务应用程序的性能、可伸缩性和安全性。网格计算是一种新的IT体系结构，它能够适应不断变化的业务需求。网格计算还为IT经济带来了革命性的变化。通过企业网格计算，可以使用可随需应变的灵活成本结构构建一个功能强大的数据中心。

简单来讲，网格计算就是将所有IT资源集中到一组共享服务中，用于满足所有的企业计算需求。网格计算基础架构将不断分析资源需求，并对供应做出相应调整。

Oracle数据库还具有带 Oracle闪回数据归档的 Total Recall，使您可以在选定的表中查询以前的数据，从而提供了一种简单实用的向数据中添加时间维度的方法以便于更改跟踪、 ILM、审计和合规。

（4）管理自动化

利用管理自动化提高 DBA 效率，其中包括以下几个方面：

自动存储管理（ASM），增删硬盘不再需要操作系统管理员设置的镜像、负载均衡、物理卷、逻辑卷、分区、文件系统，只要打一条Oracle命令，ASM会自动管理增加或删除的硬盘。支持滚动升级，自动坏块检测和修复、快速镜像重新同步。自动存储管理的性能增强使得大型数据库可以更快地打开并减少 SGA 内存消耗。这些增强还允许 DBA增加存储分配单元大小以加快大型序列输入/输出（I/O）。

内存自动化，根据需要自动分配和释放系统内存。在该特性之下SGA与PGA将会根据需要自动地扩展与收缩。

（5）数据库并发

Oracle在日志中记录修改后数据，而将修改前的数据记录到“回滚段”（ROLLBACK SEGMENT）中。UNDO信息也会记录在REDO中，也就是说Oracle会把修改前的数据及其修改后的数据都记录在REDO中，以便实例失效的时候进行recovery。

当一个应用程序对表以Insert、Update和Delete操作进行修改时，另外一个应用程序在读取该表时，会从回滚段中读取该表修改前的数据。Oracle利用数据行上的标志位来实现锁机制。Oracle同一时刻不同的应用程序有读不一致的现象，这是因为Oracle认为一致性指的是在开始读的时候的断片应该保持一致，也就是说一直到TRANSACTION的生命周期里，总是能读到一致的内容。Oracle缺省的隔离级别类似DB2的UR，读取数据和更新不会互锁（如果提高Oracle的隔离级别，也会产生互锁问题），但只能读到已提交的数据，无法得到最近修改（但暂时未提交）的版本。Oracle在其所有的隔离级别（即read committed、serializable以及read-only隔离级别）下都不会读取脏数据（在read committed级别下，会从回滚段中直接读取修改前的曾经提交过的数据）。在一些应用里，需要读到最新的数据，也就是脏数据。

在旧的DB2里（DB2 9.7以前）是靠锁来解决并发问题的，这是一个阵营。而Oracle在另一个阵营，使用MVCC。Oracle叫UNDO。实践检验，MVCC胜出。读脏数据没有太大用处。对于并发控制，无论是DB2还是Oracle，都有自己的特色，只要合理地设计应用并配置好数据库参数，就能够满足绝大多数的需求。

（6）数据库备份恢复

当我们使用一个Oracle数据库时，总希望数据库系统的数据是可靠的、正确的，但由于计算机系统的故障（硬件故障、网络故障、进程故障和系统故障）影响数据库系统的操作，影响数据库中数据的正确性，甚至破坏数据库，使数据库中全部或部分数据丢失。因此当发生上述故障后，希望能重新建立一个完整的数据库，该处理称为数据库恢复。恢复子系统是数据库管理系统的一个重要组成部分，恢复处理随着所发生的故障类型所影响的结构而变化。Oracle数据库除了可以进行物理备份之外还可以进行逻辑备份。相对于DB2的备份来说，Oracle的备份有点让人烦躁，但得益于rman的应用，Oracle的备份开始变的越来越人性化。

（7）故障诊断

Oracle在数据库中内置了大量的视图，为性能及故障诊断提供丰富的数据基础。在此基础上，根据数据库诊断日志中的告警信息，参照Oracle文档，可以解决Oracle运行过程中的大部分故障。Oracle的高开放性是的Oracle的每一个运作机制都展现在我们面前。使得我们从参数设置不合理到四大主要文件（控制文件、日志文件、数据文件、参数文件）损坏，都可以通过技术手段将Oracle复活。

13.3.5 Informix软件

Informix是IBM公司出品的关系数据库管理系统（RDBMS）家族。作为一个集成解决方案，它被定位为作为IBM在线事务处理（OLTP）旗舰级数据服务系统。IBM对Informix和DB2都有长远的规划，两个数据库产品互相吸取对方的技术优势。

Informix动态服务器采用的是一种多线索体系结构（Oracle、Sybase也属于多线索数据库，DB2的情况较为复杂），这就意味着一个进程利用自己的多个线索可以同时完成多个任务，因而整个系统只需要较少的进程就足以完成DBMS的任务。

INFORMIX动态服务器系统由三个主要组件构成：共享内存、进程和磁盘。

共享内存

包括三个段：驻留段、虚拟段和消息段。驻留段主要用作磁盘数据的缓存。虚拟段主要用作内存池以支持进程及相关的会话（session）和线索。当客户与服务器利用共享内存进行通信时，消息段将用作两者之间的消息缓冲区。系统中还包括若干构成数据库服务器的UNIX进程，称为oninit。这些进程被称为虚拟处理器（VP）（virtual processors），每一VP隶属于某一虚拟处理类，而每一虚拟处理器类都负责完成一类特定的任务。

进程

在动态服务器中，线索是在oninit中的一段被执行的指令流。通过多线索机制，可以让一个进程同时为多个任务服务而不必生成多个OS级进程。进程oninit可以启动多个线索，各线索顺序执行，并在适当的时候把控制权转移给其他线索。在多线索进程中每一线索都有自己的执行环境，包括自己的代码空间和自己的局部变量。一个多线索进程负责多个线索间的正文切换。

磁盘组件

系统的磁盘组件由多个原始磁盘空间组成，称为chunk，chunk以页（page）为基本单位，多个chunk集合逻辑上构成了数据空间（dbspace），数据空间用于存储数据库、表、系统信息以及物理日志和逻辑日志，一个数据空间至少包括一个chunk。

运维人员需要清楚地知道共享内存中各段的工作内容，以及对数据库可能产生的影响。还要清楚操作系统对进程、线索的维护原理，以及进程和线索的关系以及使用中的优劣，磁盘组件的工作直接影响了数据库IO的效率。

13.3.6 Sybase软件

Sybase是美国Sybase公司研制的一种关系型数据库系统，是一种典型的UNIX或WindowsNT平台上客户机/服务器环境下的大型数据库系统。Sybase提供了一套应用程序编程接口和库，可以与非Sybase数据源及服务器集成，允许在多个数据库之间复制数据，适用于创建多层应用。系统具有完备的触发器、存储过程、规则以及完整性定义，支持优化查询，具有较好的数据安全性。Sybase通常与Sybase SQL Anywhere用于客户机/服务器环境，前者作为服务器数据库，后者为客户机数据库，采用该公司研制的PowerBuilder为开发工具，在我国大中型系统中具有广泛的应用。

1．SYBASE数据库的特点

（1）基于客户/服务器体系结构的数据库

一般的关系数据库都是基于主/从式的模型的。在主/从式的结构中，所有的应用都运行在一台机器上。用户只是通过终端发命令或简单地查看应用运行的结果。而在客户/服务器结构中，应用被分在了多台机器上运行。一台机器是另一个系统的客户，或是另外一些机器的服务器。这些机器通过局域网或广域网连接起来。客户/服务器模型的好处是：它支持共享资源且在多台设备间平衡负载；允许容纳多个主机的环境，充分利用了企业已有的各种系统。

（2）真正开放的数据库

由于采用了客户/服务器结构，应用被分在了多台机器上运行。更进一步，运行在客户端的应用不必是Sybase公司的产品。对于一般的关系数据库，为了让其他语言编写的应用能够访问数据库，提供了预编译。Sybase数据库，不只是简单地提供了预编译，而且公开了应用程序接口DB-LIB，鼓励第三方编写DB-LIB接口。由于开放的客户DB-LIB允许在不同的平台使用完全相同的调用，因而使得访问DB-LIB的应用程序很容易从一个平台向另一个平台移植。

（3）一种高性能的数据库

Sybase真正吸引人的地方还是它的高性能。体现在以下几方面：

可编程数据库

通过提供存储过程，创建了一个可编程数据库。存储过程允许用户编写自己的数据库子例程。这些子例程是经过预编译的，因此不必为每次调用都进行编译、优化、生成查询规划，因而查询速度要快得多。

事件驱动的触发器

触发器是一种特殊的存储过程。通过触发器可以启动另一个存储过程，从而确保数据库的完整性。

多线索化

Sybase数据库的体系结构的另一个创新之处就是多线索化。一般的数据库都依靠操作系统来管理与数据库的连接。当有多个用户连接时，系统的性能会大幅度下降。Sybase数据库不让操作系统来管理进程，它把与数据库的连接当作自己的一部分来管理。此外，Sybase的数据库引擎还代替操作系统来管理一部分硬件资源，如端口、内存、硬盘，绕过了操作系统这一环节，提高了性能。

2．Sybase数据库的主要组成

Sybase数据库主要由3部分组成：

（1）Sybase SQL Server，它是整个Sybase产品的核心软件，起着数据管理、高速缓冲管理、事务管理的作用。

（2）Sybase SQL Toolset，它是支持数据库应用系统的建立与开发的一组前端工具，主要有以下3个工具：

ISQL是与SQL Server进行交互的一种SQL句法分析器。ISQL接收用户发出的SQL语言，将其发送给SQL Server，并将结果以形式化的方式显示在用户的标准输出上。

DWB是数据工作台，是Sybase SQL Toolset的一个主要组成部分，它的作用在于使用户能够设置和管理SQL Server上的数据库，并且为用户提供一种对数据库的信息执行添加、更新和检索等操作的简便方法。在DWB中能完成ISQL的所有功能，且由于DWB是基于窗口和菜单的，因此操作比ISQL简单，是一种方便实用的数据库管理工具。

APT是Sybase客户软件部分的主要产品之一，也是从事实际应用开发的主要环境。APT工作台是用于建立应用程序的工具集，可以创建从非常简单到非常复杂的应用程序，它主要用于开发基于表格（Form）的应用。其用户界面采用窗口和菜单驱动方式，通过一系列的选择完成表格（Form）、菜单和处理的开发。

（3）Sybase Open Client/Open Server，它是把异构环境下其他厂商的应用软件和任何类型的数据连接在一起的接口，通过Open Client的DB-LIB库，应用程序可以访问SQL Server；而通过Open Server的SERVER-LIB，应用程序可以访问其他的数据库管理系统。

13.3.7 数据库软件维护技能

数据库运维服务是指：针对用户数据库开展的软件安装、配置优化、备份策略选择及实施、数据备份恢复、数据迁移、故障排除、预防性巡检等一系列服务。其具体要求如下：

（1）数据库安装与配置。主要指定制数据库安装配置方案，检查软件安装环境，安装数据库软件，完成数据库配置，并测试之；

（2）权限管理和配置。确保数据库管理的安全和数据的安全，数据库软件都设置了不同的用户、不同的角色和不同的权限，需要确定建立哪些用户，这些用户充当什么角色，这些角色都有什么权限。权限相关总原则，以最低粒度控制权限；

（3）数据库日常监控。数据库监控主要包括数据库系统的性能、事物、连接等方面的数据，如数据库工作状态、数据库表空间的利用情况、数据文件和数据设备的读写命中率、数据碎片情况、数据库的进程状态、数据库内存利用状态等；

（4）数据库备份与恢复。主要是指本地、异地、同步、实时的分级备份与恢复方案及实施；

（5）数据库性能优化。主要是指核心参数调优，SQL语句调优，性能评估方案的提供；

（6）故障排除。通过远程、上门等方式按服务级别实施故障排除；

（7）数据迁移。不同版本、不同厂商、不同结构数据库间的数据迁移；

（8）预防性巡检。定期提供预防性巡检，并完成系统参数、配置调优，及补丁分发、安装服务。

13.4 数据备份软件

随着企业的变大、应用的不断变化和增多，服务器海量数据的不断增长，数据的体积变得越来越庞大。同时，各种数据的安全性和重要程度也越来越重要。在运行过程中大到自然灾害，小到病毒、磁盘故障乃至操作员意外操作失误，都会影响系统的正常运行，甚至造成这个系统完全瘫痪。数据备份的任务与意义就在于，当灾难或系统故障发生后，通过备份的数据完整、快速、简捷、可靠地恢复原有系统。

随着存储技术的发展，从DAS到SAN、NAS存储架构，备份技术由传统的网络架构备份模式发展到LAN Free Backup、Serverless Backup等全新备份架构技术，如图13.1所示。

▲图13.1

所谓LAN Free Backup顾名思义，就是指释放网络资源的数据备份方式。在SAN架构中，LAN Free Backup的实现机制一般如下图所示。备份服务器相应用服务器发送指令和信息，指挥应用服务器将数据直接从磁盘阵列中备份到磁带库中。在这个过程中，庞大的备份数据流没有流经网络，为网络节约了宝贵的带宽资源。在NAS架构中，情形十分类似，磁带库直接连接在NAS文件服务器上，备份服务器通过一种称为NDMP的协议，指挥NAS文件服务器将数据备份到磁带库中。细心观察之下会发现，这两种方式虽然都节约了网络资源，但却增加了服务器的工作负荷。具体架构如图13.2所示。

Serverless Backup技术的核心就是在SAN的交换层实现数据的复制工作，这样备份数据不仅无需经过网络，而且也不必经过应用服务器的总线，完全保证了网络和应用服务器的高效运行。目前一些厂商推出了自己在这方面的相关产品和解决方案，但是比较成熟且开放性好的产品还在进一步发展中。到目前为止，Serverless Backup技术已经成为所有相关厂商争相追逐的目标，无疑是备份技术领域内最大的热点，相信在不久之后，用户就可以真正享受到这一新技术带来的成果。除了备份架构的新进展之外，在备份介质选择上，也出现了一些新的趋势。传统上备份介质主要是磁带设备为主，这主要是因为磁带在单位容量的成本上，较之其他介质具有非常大的优势。但是随着技术的发展进步，尤其是ATA技术的发展，硬盘的成本在迅速下降。现在，在一些场合下，磁盘作为备份介质其优势已经越来越明显。一些厂商正在着力劝说用户采用更加方便高效的磁盘代替磁带作为备份介质，更有一些厂商甚至推出了包含磁盘和备份软件的整体设备——备份一体机。

▲图13.2

事实上，磁盘作为备份介质的最大好处就是其介质管理工作的简化和性能的提升。前面提到过，一个磁带库的管理工作非常复杂繁琐，如果考虑到对不同厂家的不同型号的磁带库产品，都提供良好支持的话，工作无疑是极其艰巨的。而磁盘介质则几乎不存在这样的问题。这也是备份软件厂商看好磁盘备份的理由之一。

然而，磁带介质本身的技术发展并没有受到这一理念的冲击。相反的，就在磁盘介质向离线存储领域进军的同时，磁带介质也借数据迁移技术的发展，大踏步地向在线存储领域发展着。

数据迁移技术也称为分层存储管理，是一种将离线存储与在线存储整合的技术。传统上，离线数据是静态的，无法实时的被访问，而数据迁移技术正是冲破这一限制，将离线的数据与在线的数据统一调度，从而实现所有数据的实时访问。与磁盘备份技术相反，这一技术的主要目的就是以一定的存储系统性能为代价，换取大型海量存储系统的总体拥有成本。数据迁移的工作原理比磁盘备份技术略为复杂。简单地说，就是将大量不经常访问的数据存放在磁带库等离线介质上，在磁盘阵列上只保存少量访问频率高的数据。当那些磁带介质上的数据被访问时，系统自动地把这些数据回迁到磁盘阵列中；同样，磁盘阵列中很久未访问的数据被自动迁移到磁带介质上。从某种意义上讲，磁盘阵列以一个磁带库的“中间缓存”的方式被使用，既保证了大多数情况下数据访问的响应性能，也避免了大量利用率低的数据长期占用成本较高的磁盘空间，如图13.3所示。

不管采用何种架构，备份系统都是由备份硬件设备（如硬盘存储、光存储、磁带存储等）和自动化备份软件组成。本章不再赘述相关硬件知识，重点介绍自动化备份软件相关知识和运维人员应该掌握的备份技术。

▲图13.3

在任何系统中，软件的功能和作用都是核心所在，备份系统也不例外。磁带设备等硬件，提供了备份系统的基础，而具体的备份策略的制定、备份介质的管理以及一些扩展功能的实现，则都是由备份软件来最终完成的。下面我们就来看看一个备份系统中，软件的作用都包括些什么。

13.4.1 Symantec NetBackup软件

Symantec NetBackup备份软件是Symantec（赛门铁克）公司提供的企业级备份管理软件，它支持多种操作系统，包括UNIX、Microsoft Windows、OS/2以及Macintosh等。目前，NetBackup是国际上使用最广的备份管理软件，最新版本已到7.5。NetBackup软件可以实现为企业的应用系统实现全面保护、有效存储、随处恢复和集中管理，使企业的应用系统和数据得到有效保护。Netbackup 7.5版本具有以下特点：

异构环境的数据保护——可以在异构操作系统、应用程序、管理程序以及磁盘和磁带架构上实现数据保护功能。
集中式管理——可以从一个位置管理所有数据保护技术与多个 NetBackup 服务器和域，提高工作效率。
源和目标位置的重复数据删除——可以在远程办公室或数据中心按需轻松部署和管理重复数据删除技术。
与存储硬件设备的深入集成——NetBackup OpenStorageAPI 可以集中管理重复数据删除和复制技术。
虚拟机保护既全面又简单——可以对VMware和Microsoft® Hyper-V环境应用获奖的备份和恢复技术。
快速全面地恢复应用程序和管理程序的数据——可以快速全面恢复 Microsoft Exchange、SharePoint®、ActiveDirectory® 以及 VMware、Hyper-V 等管理程序的文件、电子邮件和其他项目。
可伸缩性高——提供了灵活的三层架构，可以满足当今数据中心不断增长的需求。
有效的灾难恢复——可以通过 NetBackup Bare MetalRestore™、内置的复制功能和异地磁带管理功能实现全自动的集成式系统恢复。
全面的数据保护——提供了灵活的加密技术，可以最大程度保护传输中的或介质上的数据。

13.4.2 NetWorker软件

NetWorker 是Legato公司为防止计算机网络数据丢失而开发的一整套跨平台网络数据备份存储管理应用软件。它为企业级网络多平台数据存储管理提供了完整的解决方案。2003年Legato公司被EMC公司并购后成为一个独立软件部门，原EMC主要提供存储硬件产品，并购后进一步扩充了EMC公司的产品线。

NetWorker备份软件现已经融合了从备份到磁盘、再到复制到磁带的各种数据保护功能，统一了备份和恢复，所有功能可在一个通用管理界面下使用，从而降低了成本和复杂性。并将新一代备份功能与 Avamar（重复数据消除备份软件）和 Data Domain（是一个自动化、基于策略的网络高效型复制软件解决方案，适用于灾难恢复、远程办公室数据保护和多站点磁带整合）的无缝集成，全面优化生产环境中重复数据消除的优势。

EMC NetWorker备份软件的主要特点有：

集中化管理。通过 NetWorker管理控制台管理整个基础架构，包括重复数据消除、备份到磁盘、快照、复制和磁带。
广泛的数据保护支持。保护从关键业务应用程序（如 Microsoft、Oracle、SAP和其他应用程序）到虚拟拓扑结构（包括 VMware 和 Microsoft HyperV）的整个环境。
灵活性、可扩展性和性能。满足从小型商业环境到大型数据中心的一系列数据保护要求。NetWorker Fast Start是中型客户的理想选择，因为他们需要简化的部署和管理，但不希望牺牲企业能力。
领先的重复数据消除支持。在一个框架下融合市场领先的重复数据消除解决方案。在 NetWorker工作流程和策略范围内管理 Avamar和 Data Domain，根据实际使用情形和业务需求获得最大收益。

13.4.3 TSM软件

TSM是Tivoli Storage Manager的简称，它是IBM Tivoli软件家族中的旗舰产品之一，而Tivoli则是IBM五大软件家族中的一个，其他的四大软件为：Websphere、IM（DB2）、Lotus、Rational。Tivoli软件主要定位于为用户提供企业级管理软件，如系统管理、安全管理和存储管理。TSM能够为用户提供企业级的存储数据管理解决方案，包括备份、归档、空间管理以及灾难恢复管理等功能。

TSM的核心功能是提供集中的数据备份管理，能够为大型的企事业单位提供可靠的集中数据备份管理，是业界最主要的备份软件之一。TSM能够提供稳定先进的架构，强大的备份功能支持，和更好的可扩展性。

TSM作为Tivoli软件家族的核心产品之一，拥有非常悠久的历史，可以说是IBM长期以来在存储管理领域不断技术沉淀的结晶。TSM存储管理技术最早可以追溯到1980年，其系统TSM原型是IBM Workstation Data Save Facility（WDSF），由IBM Almaden研究中心研发，主要为了解决当时新出现的分布式系统所面临的数据保护问题。此后IBM基于WDSF在分布系统环境下研发基于备份策略的备份产品，并在1993年7月推出了第一个版本，命名为ADSM（ADSTAR Distributed Storage Manager），也就是TSM的前身。在IBM收购Tivoli软件之后，将ADSM软件划入Tivoli软件家族，并在1999年将新推出的3.7版本正式命名为Tivoli Storage Manager 3.7。2009年4月10日IBM发布TSM6数据管理产品最新版本。

TSM存储管理软件采用了模块化的设计，可以针对不同用户的备份需求采用不同的TSM模块。根据所面向的目标用户规模，TSM软件家族主要分为三个不同的版本：TSM Express Edition、TSM Basic Edition和TSM Extended Edition，分别面向低、中、高端用户。其中TSM Express Editon主要支持Windows环境的数据备份，支持文件、SQL Server、Exchage等数据备份；TSM Basic Edition和TSM Extended Edition则面向中高端用户，能够支持几乎所有主流的操作系统和应用，TSM Extended Edition相比较TSM Basic Edition提供了更多的高级功能和大容量磁带库的支持，所以更加适合于企业级的应用。TSM Extended Edition提供的增强功能包括：支持3个驱动器以上的磁带库，支持灾难恢复功能（DRM模块），支持NDMP备份方式等。

TSM是一个功能非常全面的解决方案，能够提供企业级的存储数据管理功能。从信息生命周期的角度来看，TSM能够提供数据保护、数据归档、分级存储以及数据的销毁等一系列功能。因此，TSM不仅仅是一个数据备份软件，而且能够提供以数据备份为主的更多的数据管理功能，从数据管理功能角度来看，TSM主要有以下功能特点：

（1）集中的数据备份与恢复管理

TSM存储管理软件能够为用户提供专业的数据备份功能，能够提供多种级别的数据备份，如文件系统备份、应用系统备份、数据库备份、邮件系统备份、操作系统备份等不同的备份类别。TSM能够支持绝大多数主流操作系统平台、主流的应用，根据用户需求为不同的用户定制合适的备份解决方案。由于目前用户绝大多数的存储数据管理需求主要集中在集中备份方面，所以TSM更多的是被作为一个备份软件介绍给大家，因此，在本文中也主要介绍TSM的备份管理功能。

（2）专业的数据归档管理功能

TSM存储管理软件提供专业的文件系统数据归档功能，TSM的数据归档功能构建于TSM基础架构之上，不需要额外安装其他软件模块，也不需要用户单独付费。TSM提供独立的归档策略，能够为不同的数据对象指定不同的归档保存时间，并能够在归档时提供文件本地保留或从本地删除不同的选择。

（3）高效的分级存储功能

TSM存储管理软件能够提供专业的文件系统分级存储功能，能够将磁带等存储设备作为文件系统的二级存储，定制策略将访问较少的文件从服务器的文件系统迁移到TSM所管理的磁带库中，并在本地保留一个存根文件，整个过程可以自动完成，也可以手动迁移。当应用系统或者管理员访问该文件时，TSM能够在后台自动将文件迁移回本地。TSM提供的分级存储功能能够大大扩展硬盘的有效空间。

（4）流程化的灾难恢复管理

TSM存储管理软件提供流程化的灾难恢复管理功能，TSM内置一个灾难恢复管理模块（DRM），通过DRM能够对灾难恢复进行规范的流程管理，包括离线磁带的跟踪和回收，能够对磁带状态进行自动设置更新，并能够对整个恢复流程提供所需要的配置信息，恢复脚本，可以指导管理员顺利地完成整个恢复过程。TSM还提供通过网络进行数据传输的容灾方式，能够将一套TSM系统的数据通过专业技术传输到另外一套TSM系统，从而完成基于网络的数据级容灾。

13.4.4 备份软件维护技能

1．备份软件常用基本概念

（1）备份策略

备份策略（Policy）定义一台或几台服务器的备份方法。它包括哪些服务器需要备份、备份哪些目录或文件、在什么时间备份、采用什么方式进行备份等。

（2）备份时间表

备份时间表（Schedule）用来定义在什么时间进行备份和归档的操作。它用来定义做全备份，还是增量备份或者用户自己备份、是否归档，备份的频度，备份磁带保留多长时间，可以备份的时间段等。

（3）存储单元

存储单元（Storage Unit）指将备份作业按备份设备类型分组。如4mm磁带机、DLT磁带机、LTO磁带机、本地磁盘等。在一种备份服务器上有可能存在多种类型的备份设备。

（4）卷

在Media Manager中一盘磁带或一片光盘称为一个卷（Volume）。

（5）卷池

卷池（Volume Pool）是磁带或光盘的集合。通过指定卷池，我们可以将磁带按照组分配给用户，使不同类型的作业存放在不同的磁带组中。

（6）全备份

全备份（Full Backup）是指将用户设定的整个目录或文件全部备份。

（7）增量备份

增量备份（Differential Incremental Backup）是指备份上一次备份以来，更新过的文件或数据。不管上一次备份是全备份、增量备份，还是累积备份。

（8）备份保留期限

系统管理员可以指定每次备份可以保留多长时间，即备份保留期限（Retention），当该期限达到时，NBU自动将该备份的相关信息从NBU数据库中删掉（并不从磁带中删掉）。这时，用户就检索不到这次备份的信息。

2．备份软件维护工作内容

（1）设备管理工作

一个单纯的备份设备完成不了备份工作，每种备份设备都有各自的特点和驱动程序，而一般备份设备厂商并不提供设备的驱动程序，对备份设备的管理和控制工作，完全是备份软件的任务。备份软件和备份设备之间存在一个兼容性的问题，这两者之间必须互相支持，备份系统才能得以正常工作。日常维护中要关注设备的可用性，备份驱动器是否有异常和介质有异常，如发现异常需及时与硬件维保商联系进行硬件配件的更换。

（2）备份数据的管理工作

作为全自动的系统，备份软件必须对备份下来的数据进行统一管理和维护。在简单的情况下，备份软件只需要记住数据存放的位置就可以了，这一般是依靠建立一个索引来完成的。然而随着技术的进步，备份系统的数据保存方式也越来越复杂多变。例如，一些备份软件允许多个文件同时写入一盘磁带，这时备份数据的管理就不再像传统方式下那么简单了，往往需要建立多重索引才能定位数据。

（3）备份策略制定工作

我们知道需要备份的数据都存在一个2/8原则，即20%的数据被更新的概率是80%。这个原则告诉我们，每次备份都完整地复制所有数据是一种非常不合理的做法。事实上，真实环境中的备份工作往往是基于一次完整备份之后的增量或差量备份。那么完整备份与增量备份和差量备份之间如何组合，才能最有效地实现备份保护，这正是备份策略所关心的问题。还有工作过程控制。根据预前制定的规则和策略，备份工作何时启动，对哪些数据进行备份，以及工作过程中意外情况的处理，这些都是备份软件不可推卸的责任。这其中包括了与数据库应用的配合接口，也包括了一些备份软件自身的特殊功能。例如很多情况下需要对打开的文件进行备份，这就需要备份软件能够在保证数据完整性的情况下，对打开的文件进行操作。另外，由于备份工作一般都是在无人看管的环境下进行，一旦出现意外，正常工作无法继续时，备份软件必须能够具有一定的意外处理能力。

（4）数据备份检查工作

系统数据备份人员必须及时做好数据备份和相应记录；IT部门定期对各业务部门数据备份工作进行检查，主要是检查数据备份是否按时完成、记录是否完好无误、备份介质是否按规定保存。重点是检查数据备份和文件备份是否正常备份，以防需要恢复时找不到备份文件和恢复时发现备份文件不可用。

检查任务监视器。任务监视器可以监视备份、恢复和归档任务的状态，也可以监视备份软件本身数据库的备份。常见状态有正在排队、正在执行、执行失败、成功执行完毕。
检查备份任务是否正常发起。发起备份任务后，进入任务管理器界面，若看到相应作业前有运行标识，说明备份任务已正常发起。
检查备份配置中Driver的状态。Driver的正常运行直接影响到备份任务的执行，确保备份任务的有效执行，应定期检查Driver的状态。

（5）数据恢复工作

数据备份的目的是为了恢复，所以这部分功能自然也是备份软件的重要部分。很多备份软件对数据恢复过程都给出了相当强大的技术支持和保证。一些中低端备份软件支持智能灾难恢复技术，即用户几乎无需干预数据恢复过程，只要利用备份数据介质，就可以迅速自动地恢复数据。而一些高端的备份软件在恢复时，支持多种恢复机制，用户可以灵活地选择恢复程度和恢复方式，极大地方便了用户。

13.5 安全软件

继个人计算机、互联网变革之后，大数据、云计算、互联网金融作为第三次IT浪潮的代表正在向人们走来，它将带来人类生活、生产方式和商业模式的根本性改变，成为当前全社会关注的热点。在大数据、云计算和互联网金融产业的发展中，企业和用户关注的核心聚焦在数据安全及产业生态系统打造方面，数据安全贯穿了整个信息系统的建设和运维过程中，如何保障这些数据的安全是作为IT人应深思的课题，当然我们IT人本身要维护这份职业操守，首先保证自己不违反信息安全管理制度并确保数据安全。提到数据安全有人在想，数据安全和信息安全有什么区别，理解其各自含义后会对不同的工作方向有更深的理解，并有针对性地学习好相关知识，为做好IT服务打好基础。

信息安全可分为狭义安全与广义安全两个层次，狭义的安全是建立在以密码论为基础的计算机安全领域，早期国内信息安全专业通常以此为基准，辅以计算机技术、通信网络技术与编程等方面的内容；广义的信息安全专业是一门综合性学科，从传统的计算机安全到信息安全，不但是名称的变更也是对安全发展的延伸，安全不再是单纯的技术问题，而是将管理、技术、法律等问题相结合的产物。信息安全是指信息系统（包括硬件、软件、数据、人、物理环境及其基础设施）受到保护，不受偶然的或者恶意的原因而遭到破坏、更改、泄露，系统连续可靠正常地运行，信息服务不中断，最终实现业务连续性。信息安全主要包括以下五方面的内容，即需保证信息的保密性、真实性、完整性、未授权拷贝和所寄生系统的安全性。其根本目的就是使内部信息不受内部、外部、自然等因素的威胁。为保障信息安全，要求有信息源认证、访问控制，不能有非法软件驻留，不能有未授权的操作等行为。

数据安全包含数据本身的安全和数据防护的安全，数据本身的安全主要是指采用现代密码算法对数据进行主动保护，如数据保密、数据完整性、双向强身份认证等；数据防护的安全主要是指采用现代信息存储手段对数据进行主动防护，如通过磁盘阵列、数据备份、异地容灾等手段保证数据的安全。作为IT服务人来说要知道可能导致数据安全的因素，并做好防护工作和发生安全事件后如何追踪并知晓发生原因或系统的漏洞，做好修补工作避免再次发生。

13.5.1 信息安全软件

进入21世纪，随着信息技术的不断发展，信息安全问题也日显突出，如何确保信息系统的安全已成为全社会关注的问题，我们国家也意识到此问题的严重性，在2014年2月27日成立了中央网络安全和信息化领导小组，足以引起社会的重视。目前信息安全行业中的主流技术主要有病毒检测与清除技术、安全防护技术、安全审计技术、安全检测与监控技术、解密与加密技术和身份认证技术，这些技术运用在网站安全管理、网络检测与保护和信息系统应用访问控制上。

（1）病毒检测与清除技术及软件

计算机病毒检测通常从严密监控内存RAM区和严密监控磁盘引导扇区两个方面起作用，可以有效检测带毒文件并对其清除。这类软件目前主要还是针对Windows系统，近年随着Linux系统的盛行，在此系统上也出现了一些病毒特征。目前主要的常用软件有：360杀毒软件、金山毒霸、瑞星杀毒软件、卡巴斯基杀毒软件、诺顿防病毒软件等。

（2）安全防护技术及软件

做好一个企业的信息系统安全防护应从网络防护、系统防护和应用防护三个方面入手。利用网络架构设计（如不同网段不同的功能，划分安全区域等）、防火墙、路由器设置、入侵检测防御、网络安全审计等技术防止外部网络用户以非法手段进入内部网络，访问内部资源，保护内部网络操作环境的相关技术做好网络方面的防护；利用程序设计的规范防止不必要的接口、端口确保应用程序的安全；利用防篡改、备份恢复等技术做好系统级的主机防护。

（3）安全审计技术

包含日志审计和行为审计，通过日志审计协助管理员在受到攻击后察看网络日志，从而评估网络配置的合理性、安全策略的有效性，追溯分析安全攻击轨迹，并能为实时防御提供手段。通过对员工或用户的网络行为审计，确认行为的合规性，确保信息及网络使用的合规性。

（4）安全检测与监控技术

对信息系统中的流量以及应用内容进行二至七层的检测并适度监管和控制，避免网络流量的滥用、垃圾信息和有害信息的传播。

（5）解密与加密技术

在信息系统的传输过程或存储过程中进行信息数据的加密和解密。

（6）身份认证技术

用来确定访问或介入信息系统用户或者设备身份的合法性的技术，典型的手段有用户名口令、身份识别、PKI证书和生物认证等。

懂得这些信息安全技术后要针对不同的信息系统特点做好安全策略，一个信息网络的总体安全策略可以概括为“实体可信，行为可控，资源可管，事件可查，运行可靠”五个方面，总体安全策略为其他安全策略的制定提供总的依据。

（1）实体可信

实体指构成信息网络的基本要素，主要有网络基础设备、软件系统、用户和数据。

软硬设备可信：没有预留后门或逻辑炸弹等。

用户可信：防止恶意用户对系统的攻击破坏。

数据可信：数据在传输、处理、存储等过程中是可信的，防止搭线窃听，非授权访问或恶意篡改。

（2）行为可控

用户行为可控：即保证本地计算机的各种软硬件资源（如内存、中断、I／O端口、硬盘等硬件设备，文件、目录、进程、系统调用等软件资源）不被非授权使用或被用于危害本系统或其他系统的安全。

网络接入可控：即保证用户接入网络应严格受控，用户上网必须得到申请登记并许可。

网络行为可控：即保证网络上的通信行为受到监视和控制，防止滥用资源、非法外联、网络攻击、非法访问和传播有害信息等恶意事件的发生。

（3）资源可管

资源可管是指保证对软硬件及数据等网络资源进行统一管理。

主要资源有：路由器、交换机、服务器、邮件系统、目录系统、数据库、域名系统、安全设备、密码设备、密钥参数、交换机端口、IP地址、用户账号、服务端口等。

（4）事件可查

事件可查是指保证对网络上的各类违规事件进行监控记录，确保日志记录的完整性为安全事件稽查、取证提供依据。

（5）运行可靠

运行可靠是指保证网络节点在发生自然灾难或遭到硬摧毁时仍能不间断运行，具有容灾抗毁和备份恢复能力。保证能够有效防范病毒和黑客的攻击所引起的网络拥塞、系统崩溃和数据丢失，并具有较强的应急响应和灾难恢复能力。

13.5.2 数据安全软件

随着近年来网络系统的普及和应用，越来越多的用户注意到了数据的重要性。越来越多的人开始认识到企业中最宝贵的不是各种网络硬件，而是网络中存储的业务数据。系统的崩溃、病毒的入侵、人为的失误、机密数据泄漏、账户盗窃、不安全的API、内部人员的恶意操作、共享技术漏洞、云服务的滥用等都是数据安全的潜在威胁。数据一旦丢失或泄密，将会严重影响企业日常业务的正常运作——丧失商业机会、客户表示不满、营业收入降低、企业声誉受损。此时，最关键的问题就在于如何保护关键业务数据安全，避免机密数据的泄漏或者在数据丢失后尽快恢复数据，使系统恢复正常运作。保证数据的安全，就是保证企业的安全。

13.6 双机软件

所谓双机热备就是使用互为备份的两台服务器共同执行同一服务，其中一台主机为工作机（Primary Server），另一台主机为备份机（Standby Server）。在系统正常情况下，工作机为应用系统提供服务，备份机监视工作机的运行情况（工作机同时也在检测备份机是否正常），当工作机出现异常，不能支持应用系统运营时，备份机主动接管工作机的工作，继续支持关键应用服务，保证系统不间断的运行。因此双机热备软件就是实现上述功能的软件产品。

双机热备这一概念包括了广义与狭义两种意义。

从广义上讲，就是对于重要的服务，使用两台服务器，互相备份，共同执行同一服务。当一台服务器出现故障时，可以由另一台服务器承担服务任务，从而在不需要人工干预的情况下，自动保证系统能持续提供服务。

从狭义上讲，双机热备特指基于active/standby方式的服务器热备。服务器数据包括数据库数据同时往两台或多台服务器写，或者使用一个共享的存储设备。在同一时间内只有一台服务器运行。当其中运行着的一台服务器出现故障无法启动时，另一台备份服务器会通过软件诊测（一般是通过心跳诊断）将standby机器激活，保证应用在短时间内完全恢复正常使用。

（1）为什么要做双机热备

决定是否使用双机热备，正确的方法是要分析一下系统的重要性以及对服务中断的容忍程度，以此决定是否使用双机热备。即，你的用户能容忍多长时间恢复服务，如果服务不能恢复会造成多大的影响。

在考虑双机热备时，需要注意，一般意义上的双机热备都会有一个切换过程，这个切换过程可能是一分钟左右。在切换过程中，服务是有可能短时间中断的。但是，当切换完成后，服务将正常恢复。因此，双机热备不是无缝、不中断的，但它能够保证在出现系统故障时，能够很快恢复正常的服务，业务不致受到影响。而如果没有双机热备，则一旦出现服务器故障，可能会出现几个小时的服务中断，对业务的影响就可能会很严重。

另有一点需要强调，即服务器的故障与交换机、存储设备的故障不同，其概念要高得多。原因在于服务器是比交换机、存储设备复杂得多的设备，同时也是既包括硬件、也包括操作系统、应用软件系统的复杂系统。不仅设备故障可能引起服务中断，而且软件方面的问题也可能导致服务器不能正常工作。

还应指出的是，一些其他的防护措施如磁盘阵列（RAID）、数据备份虽然是非常重要的，但却不能代替双机热备的作用。

（2）双机热备的实现模式

双机热备有两种实现模式，一种是基于共享的存储设备的方式，另一种是没有共享的存储设备的方式，一般称为纯软件方式。

基于存储共享的双机热备是双机热备的最标准方案。

对于这种方式，采用两台服务器，使用共享的存储设备（磁盘阵列柜或存储区域网SAN）。两台服务器可以采用互备、主从、并行等不同的方式。在工作过程中，两台服务器将以一个虚拟的IP地址对外提供服务，依工作方式的不同，将服务请求发送给其中一台服务器承担。同时，服务器通过心跳线（目前往往采用建立私有网络的方式）侦测另一台服务器的工作状况。当一台服务器出现故障时，另一台服务器根据心跳侦测的情况做出判断，并进行切换，接管服务。对于用户而言，这一过程是全自动的，在很短时间内完成，从而对业务不会造成影响。由于使用共享的存储设备，因此两台服务器使用的实际上是一样的数据，由双机或集群软件对其进行管理。如图13.4所示：

▲图13.4

对于纯软件的方式，则是通过支持镜像的双机软件，将数据实时复制到另一台服务器上，这样同样的数据就在两台服务器上各存在一份，如果一台服务器出现故障，可以及时切换到另一台服务器。

纯软件方式还有另外一种情况，即服务器只是提供应用服务，而并不保存数据（如只进行某些计算，作为应用服务器使用）。这种情况下同样也不需要使用共享的存储设备，而可以直接使用双机或集群软件即可。但这种情况其实与镜像无关，只不过是标准的双机热备的一种小的变化。

（3）双机热备、双机互备与双机双工的区别

双机热备即是目前通常所说的active/standby方式，服务器数据包括数据库数据同时往两台或多台服务器写，或者使用一个共享的存储设备。当active服务器出现故障的时候，通过软件诊测（一般是通过心跳诊断）将standby机器激活，保证应用在短时间内完全恢复正常使用。

双机互备是指在双机热备的基础上，两个相对独立的应用在两台机器上同时运行，但彼此均设为备机，当某一台服务器出现故障时，另一台服务器可以在短时间内将故障服务器的应用接管过来，从而保证了应用的持续性。这种方式实际上是双机热备的一种应用。它避免了两个应用使用四台服务器分别实现双机热备。

双机双工是指两台或多台服务器均为活动，同时运行相同的应用，保证整体的性能，也实现了负载均衡和互为备份。需要利用磁盘柜存储技术（最好采用san）。对于数据库服务而言，它同时需要数据库软件的支持，是比较复杂的。而Web服务器或应用服务器就比较简单了。

（4）双机热备份与数据备份的关系

一些用户在规划双机热备或双机备份时，会有这样的问题：我已经有了RAID，以及磁带备份，还有需要做双机备份吗？或者，如果我做了双机备份，还有必要做磁带备份吗？

应该说RAID和数据备份都是很重要的。但是，RAID技术只能解决硬盘的问题，备份只能解决系统出现问题后的恢复。而一旦服务器本身出现问题，不论是设备的硬件问题还是软件系统的问题，都会造成服务的中断。因此，RAID及数据备份技术不能解决避免服务中断的问题。对于需要持续可靠地提供应用服务的系统，双机还是非常重要的。只要想一想，如果你的服务器坏了，你要用多少时间将其恢复到能正常工作，你的用户能容忍多长的恢复时间就能理解双机的重要性了。

从另外一个方面，RAID以及磁带备份也是非常需要的。对于RAID而言，可以以很低的成本大大提高系统的可靠性，而且其复杂程度远远低于双机。因为毕竟硬盘是系统中机械操作最频繁、易损率最高的部件，如果采用RAID，就可以使出现故障的系统很容易修复，也减少服务器停机进行切换的次数。

数据备份更是必不可少的措施。因为不论RAID还是双机，都是一种实时的备份。任何软件错误、病毒影响、误操作等等，都会同步地在多份数据中发生影响。因此，一定要进行数据的备份（不论采取什么介质，都建议用户至少要有一份脱机的备份，以便能在数据损坏、丢失时进行恢复）。

13.6.1 HACMP

HACMP是High Availability Cluster Multi-Processing的缩写。HACMP是IBM公司在P系列AIX操作系统上的高可靠集群软件。通过配置冗余，消除单点故障来保证整个系统连续可用性和安全可靠性。HACMP利用网络心跳来侦测主机及网卡的状况，搭配AIX所提供的硬盘镜像等功能，在主机、网卡、硬盘控制卡、硬盘或网络发生故障时，自动切换到另一套备用元件上重新工作。若是主机故障则切换至备份机上继续应用系统的运行，使最终用户只感受到很小的中断时间。

HACMP的软件包括以下五个部分：

（1）Cluster Manager

Cluster Manager运行在集群中所有节点上，主要的任务有：监控各节点的状态变化，并做出相应处理，协调并同步cluster各节点间的并发事件，当HA状态发生迁移或有HA事件发生时，执行相应的事件处理脚本。

（2）Event Scripts

Event Scripts是HACMP自带的一套shell脚本，使用标准的shell语言、AIX标准命令以及HACMP提供的工具命令。当某事件发生时，该事件对应的Event Scripts就会被Cluster Manager调用，同时传入相应的参数。用户可方便地定制时间发生时执行的操作。

（3）Lock Manager

在某些类型的HACMP应用中，比如concurrent方式的资源类型，双机各节点需要同时访问共享的数据，这就需要Lock Manager来给共享数据加锁，防止并发访问引起的共享数据的不一致或者损坏。

（4）SNMP Agent（clsmuxpd）

HACMP之间交换机节点信息需要使用SNMP协议，clsmuxpd进程作为HACMP系统的SNMP Agent，为客户端提供SNMP服务，使节点间基于SNMP协议的通信可以正常进行。

（5）Clinfo

Clinfo进程是HACMP各节点间交换信息的进程，它基于clsmuxpd与其他节点的Clinfo进行通信，交换节点状态信息。Clinfo还提供一组API函数，使应用进程可以取得HACMP系统当前的状态信息。

HACMP软件通过以下途径提供高可用性环境：

定义一组必需的群集资源，资源可以是硬件，也可以是软件。
定义群集节点访问这些资源的关系。这些关系确定哪个节点控制资源以及当该节点放弃资源的控制权后哪个节点接管资源，当一个节点离开群集时，Cluster Manager能够将这个节点的资源转移到群集中的其他节点上。

其中，资源可以是应用、磁盘、卷组、文件系统、NFS文系统、IP地址六种实体，这些资源是怎样做到高可用呢？

应用：由HACMP启动，如果节点发生故障，则在另一节点重新启动。

磁盘、卷组、文件系统：在非并发环境中，一个节点控制磁盘资源，如果该节点发生故障，它控制的磁盘资源由其他节点接管。在并发环境中，多个节点同时控制磁盘资源，一个节点发生故障并不影响其他节点。

IP地址：如果服务网卡发生故障，由本机的备份网卡接管其地址，称为“网卡切换”。如果整个节点故障，由另一个群集节点的备份网卡接管其地址，称为“IP地址接管”。HACMP软件使群集在遇到系统的关键组件（例如网卡）发生故障的情况下仍能继续对外提供服务。HACMP可以检测和响应三种类型的故障：节点故障、网卡故障和网络故障。

节点故障

节点故障指处理器硬件或操作系统故障。当发生节点故障上，其他节点可以配置通过HACMP对磁盘、IP地址、应用进行接管操作。

网卡故障

HACMP软件能够处理服务网卡和备份网卡的故障。当服务网卡故障时，Cluster Manager将同一节点的服务网卡和备份网卡进行切换，服务网卡的故障是透明的。Cluster Manager检测到备份网卡故障时只是记入日志，并不进行其他操作。

网络故障

当群集中连接所有节点的网络故障时，由于网络配置各不相同，所以HACMP无法定义响应动作。此时系统在主控台上显示信息，事件被记入日志。用户可以根据实际情况自己编写脚本程序来响应网络故障。在大多数配置中，网络都是单点故障，为避免发生网络单点故障，建议在配置HACMP时配置双网络。

13.6.2 Serviceguard

Serviceguard可在HP 9000或HP Integrity服务器组成的高可用性环境下创建群集。高可用性计算机系统使应用程序服务能够连续运行，而无论是否发生硬件或软件故障。高可用性系统保护用户不受软件故障以及系统处理设备（SPU）、磁盘或局域网（LAN）组件故障的影响。当某个组件出现故障时，将由冗余组件接管。Serviceguard和其他高可用性子系统负责协调各组件之间的切换。Serviceguard群集是由HP 9000或HP Integrity服务器（主机系统称为节点）组成的联网组合，拥有充分的软硬件冗余，所以单点故障不会对服务造成重大破坏。

Serviceguard的软件组件包括程序包（应用服务/服务/资源）、Serviceguard程序包（应用程序支持程序包、VxCFS系统程序包）、Serviceguard组件（程序包管理器、群集管理器、网络管理器、SG CFS群集成员管理器）、CFS组件（Vx CFS群集管理器）以及操作系统（卷管理器软件、HP-UX内核）。与Serviceguard有关的守护程序共有12个，分别是：

/usr/lbin/cmclconfd——Serviceguard配置守护程序；
/usr/lbin/cmcld——Serviceguard群集守护程序；
/usr/lbin/cmfileassistd——Serviceguard文件管理守护程序；
/usr/lbin/cmlogd——Serviceguard Syslog日志守护程序；
/usr/lbin/cmlvmd——群集Logical Volume Manager守护程序；
/opt/cmom/lbin/cmomd——群集Object Manager守护程序；
/usr/lbin/cmsnmpd——群集SNMP子代理（可以选择运行）；
/usr/lbin/cmsrvassistd——Serviceguard服务助手守护程序；
/usr/lbin/qs——Serviceguard Quorum Server守护程序；
/usr/lbin/cmnetassistd——网络传感器助手守护程序；
/usr/lbin/cmvxd——Serviceguard——VERITAS成员协调守护程序（仅当安装了VERITAS CFS 时，它才会存在）；
/usr/lbin/cmvxping Serviceguard——VERITAS激活守护程序（仅当安装了VERITAS CFS时，它才会存在）。

上述各个守护程序都将日志记录到/var/adm/syslog/syslog.log文件中，但/opt/cmom/lbin/ cmomd守护程序除外，它将日志记录到/var/opt/cmom/cmomd.log中。具体各个守护程序的含义为：

配置守护程序：cmclconfd

Serviceguard命令使用该守护程序来收集群集中所有节点的信息。它收集配置信息，如有关网络和卷组的信息。它还将群集二进制配置文件分发给群集中的所有节点。该守护程序由inetd（1M）启动。/etc/inetd.conf文件中包含与该守护程序对应的条目。

群集守护程序：cmcld

该守护程序通过向Serviceguard群集内其他节点上的cmcld守护程序发送心跳线消息，来确定群集中的成员。它按照实时优先级运行且锁定在内存中。cmcld守护程序在内核中设置了一个安全计时器，用于检测内核挂起。如果此计时器未由cmcld定期复位，则内核将产生系统TOC（即控制转移），这意味着CPU复位和创建崩溃转储文件。发生这种情况的原因可能是cmcld无法与大多数群集成员通信；或者是因为cmcld异常退出、异常中止，或无法运行足够长的时间并且无法更新内核计时器（从而表明内核挂起）。在因安全计时器过期而导致TOC之前，消息将会写入/var/adm/syslog/syslog.log文件和内核的消息缓冲区中。cmcld守护程序还检测系统中网络运行是否正常并执行本地局域网故障切换。最后，该守护程序负责Serviceguard程序包的管理，确定在何处运行它们以及何时启动它们。注释Serviceguard的三个核心组件——程序包管理器、群集管理器以及网络管理器——都作为cmcld守护程序的组成部分运行。该守护程序在所有群集节点上都以20的优先级运行。因此用户进程一定要以低于20的优先级运行，否则它们可能使Serviceguard无法更新内核安全计时器，这将导致节点上出现TOC。

文件管理守护程序：cmfileassistd

cmcld使用cmfileassistd守护程序，来管理需要读取磁盘和写入磁盘的文件。这样可以防止在执行输入/输出过程中出现的延迟影响cmcld的计时。

Syslog日志守护程序：cmlogd

cmcld使用cmlogd将消息写入Syslog。任何通过cmcld写入Syslog的消息都是通过cmlogd写入的。这样可以防止在写入Syslog的过程中出现的延迟影响cmcld的计时。群集Logical Volume Manager守护程序：cmlvmd该守护程序负责跟踪所有可由群集识别的卷组。当某个卷组可由群集识别时，群集节点只能以独占模式将其激活。这样可以防止多个节点同时以写入模式激活卷组。

群集Object Manager守护程序：cmomd

该守护程序负责将有关群集的信息提供给需要获取群集对象状态信息的客户端外部产品或工具（如Serviceguard Manager）。客户端向Object Manager发送查询，并从该管理器接收响应。该守护程序可能未在您的系统上运行，它仅用于Object Manager的客户端cmomd接受来自客户端的连接，并检验查询。查询将分解为隶属于不同提供者的（多个类的）类别。提供者从各种源收集信息（这些源通常包括连接的所有节点上的cmclconfd守护程序），然后将数据返回到一个中心分解点进行过滤，以切实满足客户端查询的需要。该守护程序由inetd（1M）启动。/etc/inetd.conf文件中包含与该守护程序对应的条目。

群集SNMP代理守护程序：cmsnmpd

Serviceguard图形界面（Serviceguard Manager）使用该守护程序来获取有关群集的信息。该守护程序生成群集MIB。只有将/etc/rc.config.d/cmsnmpagt文件编辑为自动启动该子代理时，它才会运行。为确保正常运行，cmsnmpd必须在Serviceguard群集之前启动。

服务助手守护程序：cmsrvassistd

该守护程序按照群集守护程序cmcld的要求派生并执行任何脚本或进程。该守护程序执行两种类型的派生操作：一是执行程序包运行和暂停脚本；二是启动服务。就服务而言，cmcld监视服务进程；同时将根据服务重试次数，决定是通过cmsrvassistd重新启动服务，还是暂停程序包并将其移到一个可用的备用节点上。

Quorum服务器守护程序：qs

在群集重组期间，Quorum Server守护程序可根据需要提供仲裁服务。QuorumServer在群集外部的系统上运行，并且由用户（而不是Serviceguard）启动。通常从/etc/inittab启动该守护程序，这意味着，如果该守护程序失败或被强行终止，它会自动重新加载。群集的所有成员都将启动并维护与Quorum Server的连接。如果Quorum Server终止运行，Serviceguard节点将检测到此情况并定期尝试去重新连接QuorumServer，直到其恢复正常运行。如果在Quorum Server终止运行时对群集进行重新配置，并且群集中的某个分区需要仲裁，则这种重新配置将失败。

网络传感器助手守护程序cmnetassistd

网络传感器助手守护程序负责添加和删除可重新定位的程序包IP（适用于IPv4和IPv6地址）。

（1）群集管理如何工作

群集管理器用于初始化群集、监视群集的运行状况、识别出现的节点故障以及当有节点加入或脱离群集时管理群集的重组。群集管理器作为守护程序运行在每个节点上。在群集启动和重组期间，会选出一个节点作为群集协调器。尽管所有节点都执行某些群集管理功能，但群集协调器是节点内通信的中枢点。

（2）程序包管理器如何工作

Serviceguard使用程序包启动和暂停已配置的应用程序。一个程序包是服务、磁盘卷和IP地址的集合，该集合由Serviceguard进行管理，以确保其中资源的可用性。群集中的每个节点都运行一个程序包管理器实例；驻留于群集协调器节点中的程序包管理器称为程序包协调器。

程序包协调器可完成如下工作：

确定运行、暂停或移动程序包的时间和位置。

所有节点上的程序包管理器可完成如下工作：

执行用于运行和暂停程序包及其服务的控制脚本。
对受监视资源状态的变化做出反应。

程序包将应用程序服务（单独的HP-UX进程）组合在一起。程序包的类型有三种，分别为故障切换程序包、系统多节点程序包及多节点程序包。典型的高可用性程序包是故障切换程序包。它通常配置为在群集中的若干个节点上运行，并且一次在一个节点上运行。如果服务、节点、网络或其他程序包资源在运行它们的节点上发生故障，则Serviceguard可以将程序包控制权自动转移到另一群集节点，使服务尽可能少地出现中断而保持可用状态。若同时在若干个群集节点上运行但不进行故障切换的程序包，这些程序包称为系统多节点程序包及多节点程序包。系统多节点程序包必须在群集中的所有活动节点上运行。如果它在一个活动节点上发生故障，则该节点将暂停。多节点程序包可以配置为在一个或多个群集节点上运行。只要它在任何已配置节点上运行，就视其处于UP状态。

（3）网络管理器如何工作

网络管理器的目的是检查网卡和电缆故障并从中恢复，以便网络服务对客户端保持高可用性。此功能实际上就是指将每个程序包的IP地址分配给其运行的节点上的主LAN接口卡，监视所有接口的运行状况，并在必要时进行切换。

13.6.3 Rose HA

Rose HA是美国Rose Datasystem Inc。出品的新一代高可用性软件。RoseHA主要支持的平台有Windows（Windows 2000 Server、Windows Server 2003、Windows Server 2008、Windows Server 2003 Enterprise Edition、Windows Storage Server 2003等）、Linux（Red Hat Enterprise Linux 2.1/3.0/4.0、Suse Linux Enterprise Server 9/10、Turbo Linux Server 10、Asianux Linux 1.0/2.0等）、UNIX（Solaris、SCO Unixware）。它可以将UNIX服务器组成集群系统，并对服务器进行监控、故障检测、故障恢复，保护运行于服务器中的关键性数据服务和网络服务。Rose HA是一套提供防止业务主机因不可避免的意外性或计划性宕机问题的高可用性软件。Rose HA软件同时安装在两台主机上，用于监视系统的状态，协调两台主机的工作，维护系统的可用性。它能侦测应用级系统软件、硬件发生的故障，及时地进行错误隔绝、恢复，以最低成本为用户提供几乎不停顿的计算机作业环境。

但随着服务器硬件的发展，服务器性能及内部存储容量等都有了大幅提升。服务器在应对主流业务方面提供了强大的能力，为了保证业务数据的连续性及提高客户投资回报率，开发了RoseMirrorHA软件来提供基于服务器的纯软高可用性软件，实现了应用高可用及数据镜像的低成本、高效率解决方案。

RoseMirrorHA是在实时数据镜像基础上，实现了不需要共享存储的纯软高可用性系统。在传统高可用性系统中需要通过共享存储来实现数据的共享提升性能，但这也增加了可用性系统的成本。RoseMirrorHA通过现有的以太网络基础环境，通过TCP/IP，在两台主机之间实现了数据的实时镜像，不需要额外的硬件投资。在充分利用已有资源的基础上，通过先进的软件技术，实现纯软的高可用性系统。

RoseMirrorHA高可用性系统，可以对主机的IP、应用程序、数据等进行监控和保护，当应用程序或主机发生故障后，RoseMirrorHA将自动、快速地切换应用到备机，确保应用服务的持续和可用性，保证公司业务的持续运行。

RoseMirrorHA支持Active/Standby和Active/Active两种模式。在Active/Standby的方式中，其中一台主机作为Active主机，运行重要的应用程序，向客户端提供各种应用服务，另一台主机作为备机，实时监控Active主机运行情况，只有当Active主机发生故障后，备机才接管Active主机上的应用服务。在Active/Active配置方式中，每台主机上运行各自的应用程序。服务器在运行自身的应用服务时，同时也是另一台主机的备机，即两台主机互为备机。

RoseMirrorHA通过网络在两台主机之间进行实时的数据复制。当Active主机发生故障时，RoseMirrorHA将自动将服务迅速地切换到备机，并在备机镜像数据的基础上，继续为客户端提供业务服务。

13.6.4 LifeKeeper

LifeKeeper属于高可用容错集群软件，运行于Windows Server及主流Linux平台。同时支持纯软件镜像方式和共享磁盘阵列柜方式，并支持远程灾难实时复制备份恢复系统，使用户的服务器、操作系统、数据库系统以及关键的数据及应用程序保持7×24小时连续不间断，提供99.99%的高可用性。它可以定义多种失效切换方式，支持Active/Active模式和Active/Standby模式。支持多应用、多实例的实时热备份，同时强大的数据复制功能可以单独使用实现数据迁移、数据备份、异地容灾。

LifeKeeper for Exchange提供了一层新的保护，它支持构建多节点的Exchange集群，通过局域网或者广域网的“多对一”或“层叠故障切换”配置。在多对一配置下，一台服务器可以充当多台活动的Exchange服务器的备份。如果任何一台活动的Exchange系统遭遇问题，LifeKeeper会自动将客户的连接重定向到运行在备份服务器上的Exchange。这种配置使得不必为每台活动的Exchange系统准备一台备份机，大大降低了实施成本。

LifeKeeper的关键特点：

（1）不用增加任何额外硬件投资，纯软件方式实现双机容错，且对备机无硬件配置要求。

（2）LifeKeeper在扩展镜像或共享磁盘阵列的方式下，均能实现两台服务器各自运行不同应用且相互热备份，即实现双Active运转模式。

（3）LifeKeeper占用系统资源极少，不增加网络负荷，且不打扰任何具体应用系统的操作。

（4）LifeKeeper实现无人值守，全自动地实现应用资源切换。

13.6.5 双机软件维护技术

双机软件作为基础架构的重要组成部分，它的运行好坏直接关系到业务运行的连续性，我们应从以下几方面入手和掌握双机的运维服务技能。

（1）熟悉双机热备的概念和原理。如应了解双机热备的原理，双机热备的类型等；

（2）熟悉集群的规划、设计、配置的方法。如了解搭建双机环境所需的软、硬件资源，双机网络环境的要求，存储的规划、心跳规划等；

（3）熟悉各种数据库、中间件软件的启停方法。如数据库有DB2、ORACLE，中间件有Websphere、Weblogic、Tomcat等；

（4）掌握各类主机操作系统操作。如存储空间的划分、网络的配置、系统软件的安装等；

（5）熟练掌握双机软件常见故障的解决办法。如双机软件无法启动时的排查方法；如何在单台服务器上启动所有业务应用，双机同步等；

（6）熟练掌握双机软件日常巡检及维护操作。如启动双机前的检查方法，如何使用命令启动双机，如何对搭建好的双机环境与应用结合测试，了解双机软件启动日志的位置，会查看和分析双机软件日志、双机软件打补丁等。

第17章天外有天：IT服务的国际标准

17.1 ITIL

ITIL（Information Technology Infrastructure Library，信息技术基础架构库）由英国政府部门CCTA（Central Computing and Telecommunications Agency）在20世纪80年代末制订，现由英国商务部OGC（Office of Government Commerce）负责管理，主要适用于IT服务管理（ITSM）。20世纪90年代后期，ITIL的思想和方法被广泛引用，并进一步发展。

ITIL一开始作为政府IT部门的最佳实践指南，问世后不久便被推广到英国的私营企业，然后传遍欧洲，随后开始在美国兴起。自从1980年至今，ITIL经历了三个主要的版本：

Version 1——1986—1999年原始版，主要是基于职能型的实践，开发了40多卷图书。

Version 2——1999—2006年ITIL v2版，主要是基于流程型的实践，包含7个体系：服务支持、服务提供、实施服务管理规划、应用管理、安全管理、基础架构管理及ITIL的业务前景。它已经成为了IT服务管理领域全球广泛认可的最佳实践框架。

Version 3——2004—2007年基于服务生命周期的ITIL v3整合了v1和v2的精华，并与时俱进地融入了IT服务管理领域当前的最佳实践。

ITIL为企业的IT服务管理实践提供了一个客观、严谨、可量化的标准和规范。企业的IT部门和最终用户可以根据自己的能力和需求定义自己所要求的不同服务水平，参考ITIL来规划和制定其IT基础架构及服务管理，从而确保IT服务管理能为企业的业务运作提供更好的支持。对企业来说，实施ITIL的最大意义在于把IT与业务紧密地结合起来了，从而让企业的IT投资回报最大化。

目前，ITIL已经在全球IT服务管理领域得到了广泛的认同和支持，四家最领先的IT管理解决方案提供商都宣布了相应的策略：IBM Tivoli推出了“业务影响管理”解决方案，HP公司倡导“IT服务管理”，CA公司强调“管理按需计算环境”，BMC公司则推出了“业务服务管理”理念。实际上，无论各公司的理念和解决方案有多大差异，但目标都是一致的：把IT与业务相结合，以业务为核心搭建和管理IT系统。

2001年英国标准学会（British Standard Institute，BSI）在国际IT服务管理论坛（itSMF）年会上，正式发布了基于ITIL的英国国家标准BS 15000。2002年，BS 15000为国际标准化组织（ISO）所接受，作为IT服务管理的国际标准的重要组成部分。目前，ITSM领域正成为全球IT厂商、政府、企业和业界专家广泛参与的新兴领域，对未来的IT走向和企业信息化，将会产生深远的影响。其内容描述的是IT部门应该包含的各个工作流程以及各个工作流程之间的相互关系。其架构模型如图17.1所示。

▲图17.1 服务生命周期框架

要强调的一点是：ITIL不是一个正式标准，而是目前普遍实行的“事实”上的标准。

1．ITIL的核心模块

ITIL的核心包括4个职能、26个流程，具体如下。

4个职能：服务台、运营管理、应用管理、技术管理；

18个流程：事件管理、事故管理、请求实施、问题管理、资产与配置管理、变更管理、发布与部署管理、服务级别管理、连续性管理、可用性管理、能力管理、IT服务财务管理、信息安全管理、服务报告、业务关系管理、供应商管理、知识管理、服务目录管理；

8个流程：战略制定、需求管理、服务组合管理、评估、服务验证与测试、转换规划与支持、访问管理。

下面就其中的部分流程加以说明：

服务台：服务台是IT部门和IT服务用户之间的单一联系点。它通过提供一个集中和专职的服务联系点促进了组织业务流程与服务管理基础架构集成。服务台的主要目标是协调客户（用户）和IT部门之间的联系，为IT服务运作提供支持，从而提高客户的满意度。

事故管理：事故管理负责记录、归类和安排专家处理事故并监督整个处理过程直至事故得到解决和终止。事故管理的目的是在尽可能最小地影响客户和用户业务的情况下使IT系统恢复到服务级别协议所定义的服务级别。

问题管理：问题管理是指通过调查和分析IT基础架构的薄弱环节、查明事故产生的潜在原因，并制定解决事故的方案和防止事故再次发生的措施，将由于问题和事故对业务产生的负面影响减小到最低的服务管理流程。与事故管理强调事故恢复的速度不同，问题管理强调的是找出事故产生的根源，从而制定恰当的解决方案或防止其再次发生的预防措施。

配置管理：配置管理是识别和确认系统的配置项，记录和报告配置项状态和变更请求，检验配置项的正确性和完整性等活动构成的过程，其目的是提供IT基础架构的逻辑模型，支持其他服务管理流程特别是变更管理和发布管理的运作。

变更管理：变更管理是指为在最短的中断时间内完成基础架构或服务的任一方面的变更而对其进行控制的服务管理流程。变更管理的目标是确保在变更实施过程中使用标准的方法和步骤，尽快地实施变更，以将由变更所导致的业务中断对业务的影响减小到最低。

发布管理：发布管理是指对经过测试后导入实际应用的新增或修改后的配置项进行分发和宣传的管理流程。发布管理以前又称为软件控制与分发，它由变更管理流程控制。

服务级别管理：服务级别管理是为签订服务级别协议（SLA）而进行的计划、草拟、协商、监控和报告以及签订服务级别协议后对服务绩效的评价等一系列活动所组成的一个服务管理流程。服务级别管理旨在确保组织所需的IT服务质量在成本合理的范围内得以维持并逐渐提高。

IT服务财务管理：IT服务财务管理是负责预算和核算IT服务提供方提供IT服务所需的成本，并向客户收取相应服务费用的管理流程，它包括IT投资预算、IT服务成本核算和服务计费三个子流程，其目标是通过量化服务成本减少成本超支的风险、减少不必要的浪费、合理引导客户的行为，从而最终保证所提供的IT服务符合成本效益的原则。IT服务财务管理流程产生的预算和核算信息可以为服务级别管理、能力管理、IT服务持续性管理和变更管理等管理流程提供决策依据。

IT服务持续性管理：IT服务持续性管理是指确保发生灾难后有足够的技术、财务和管理资源来确保IT服务持续性的管理流程。IT服务持续性管理关注的焦点是在发生服务故障后仍然能够提供预定级别的IT服务，从而支持组织的业务持续运作的能力。

能力管理：能力管理是指在成本和业务需求的双重约束下，通过配置合理的服务能力使组织的IT资源发挥最大效能的服务管理流程。能力管理流程包括业务能力管理、服务能力管理和资源能力管理三个子流程。

可用性管理：可用性管理是通过分析用户和业务方的可用性需求并据以优化和设计IT基础架构的可用性，从而确保以合理成本满足不断增长的可用性需求的管理流程。可用性管理是一个前瞻性的管理流程，它通过对业务和用户可用性需求的定位，使得IT服务的设计建立在真实需求的基础上，从而避免IT服务运作中采用过度的可用性级别，节约了IT服务的运作成本。

2．实施ITIL的益处

ITIL旨在解决并纠正这些可能出现的弊端，它提供了一个指导性框架，这个框架可以保留组织现有IT管理方法中的合理部分，同时增加必要的技术，并且方便了各种IT职能间的沟通和协调。但它并不是一套理论模式，而是以全球最佳实际经验为依据，基于高质量、合理定义、可重复流程等运作为基础，确立的可持续改进的计划。

对于企业实施ITIL，可以有助于最终进行完善的服务管理。在ITIL的各个流程管理中，可以直接与各个业务部门相互作用，实现对业务功能及流程进行重新设计，降低成本、缩短周转时间、提高质量和增进客户满意度。

ITIL的实施，使信息系统部门能够对发生在财务、销售、市场、制造等业务上的流程改变，做出及时反应。某些情况下，这还导致了一些相关组织机构的诞生，如变更委员会、紧急变更委员，内部的业务经理等，以增进业务与IT的整合。

实施ITIL，可以实现IT对业务支持的精确性和前瞻性。市场竞争的加剧要求企业能够快速做出决策，并缩短反应时间。传统的企业效益度量标准如收入、市场份额等，对业务状况的反映是滞后的，一旦发现问题后，再想规避问题，往往为时已晚。

就IT部门来讲，在投资回报方面，参考ITIL来考虑IT投资，就很容易定义期望的收益，并对收益进行度量。同时，可以明确地建立一支担有共同责任和义务的、多技能的、跨组织的合作团队。由于相互信赖程度的加深，用户与IT人员之间将不再会互相指责，而形成相互促进的形式，改变其“救火队”的形象。

对于企业管理者，ITIL能够帮助：

IT从规划到实施到运维更加有效，降低成本的同时获得更高的IT服务体验。
确保IT流程支持业务流程，提高企业整体业务运营的质量。
推进IT部门和业务部门的沟通，也增进IT部门于业务部门的相互融合，变IT部门由成本中心为利润中心。
减少冗余和重复的工作，提高IT客户和业务人员的生产效率。

对于IT部门负责人，ITIL能够帮助：

了解业界领先的IT服务管理模式，熟悉业界领先的IT管理最佳实践。
学会让IT部门为公司创造新的战略竞争力。
让企业内部客户对IT有更合理的期望，更清楚为达到这些期望需要付出什么。
让部门中的IT员工更清楚对他们的期望，有合适的流程和相应培训来确保他们能实现这些期望。
加强个人的IT服务管理工作技能，成为IT界的MBA，向管理型的IT人才发展。

对于IT部门的运维操作人员，ITIL能够帮助：

了解业界领先的IT服务管理模式，熟悉业界领先的IT管理最佳实践。
加强个人的工作技能提高工作表现；获得更多的专业知识，从而胜任更多的工作。
当软件或硬件不再使用时，可以及时取消对其的维护及相应的维护合同。
加强个人的IT服务管理工作技能，成为IT界的MBA从而获得更好的发展机会。

3．ITIL的实施步骤

ITIL虽然在20世纪90年代就已经成为标准，但国内企业对它的了解才刚刚开始。针对这一状况，Malcolm Fry先生给出了他的建议。

首先要阅读ITIL资料，了解ITIL准则，培养ITIL专家。ITIL不是一种产品，而是一套流程和准则，必须对它有充分的了解，才可能成功实施。国外一些企业已经培养了大批ITIL人才，例如，微软公司有3000多人通过了考试，宝洁公司有1000多人通过，BMC也有400多人通过。国内的情况则不容乐观，有关ITIL的培训认证还没有开展起来，虽然很多企业关注ITIL，但真正实施的并不多。

其次是要建立科学合理的流程。Malcolm Fry认为，在ITIL的实践过程中，流程是最重要的，因为流程是IT管理的基础：在IT管理的过程中，针对同一问题的具体实施步骤可能不同，但流程是不会改变的。让我们来看一个简单的例子：早上上班，你发现你的计算机不能正常工作了，你会怎么办？你可能会做以下事情：检查电缆、请系统管理员来检查机器、报告老板等。故障很快找到，问题得到了解决！如果我们不按流程办事，而是随意而为，那么查找一个小故障就可能用掉一整天的时间。

第三是要选择适当的软件产品。企业对IT系统的管理是通过IT管理软件实现的，因此，选择适当的软件对成功实现ITIL的目标至关重要。目前，一些主流厂商的软件产品都符合ITIL的要求，包括IBM Tivoli、CA Unicenter、HP OpenView、BMC Patrol等。

17.2 PDCA戴明环

PDCA循环又叫戴明环，是美国质量管理专家休哈特博士首先提出的，由戴明采纳、宣传，获得普及，从而也被称为“戴明环”。它是全面质量管理所应遵循的科学程序。

PDCA是英语单词Plan（计划）、Do（执行）、Check（检查）和Action（处理）的第一个字母，PDCA循环就是按照这样的顺序进行质量管理，并且循环不止地进行下去的科学程序。PDCA环如图17.2所示。

P（Plan）计划，包括方针和目标的确定，以及活动规划的制定。

D（Do）执行，根据已知的信息，设计具体的方法、方案和计划布局；再根据设计和布局，进行具体运作，实现计划中的内容。

C（Check）检查，总结执行计划的结果，分清哪些对了，哪些错了，明确效果，找出问题。

A（Action）处理，对检查的结果进行处理，对成功的经验加以肯定，并予以标准化；对于失败的教训也要总结，引起重视。对于没有解决的问题，应提交给下一个PDCA循环中去解决。

▲图17.2 PDCA环

PDCA循环，可以使我们的思想方法和工作步骤更加条理化、系统化、图像化和科学化。它具有如下特点：

（1）大环套小环，小环保大环，推动大循环

PDCA循环作为质量管理的基本方法，不仅适用于整个工程项目，也适应于整个企业和企业内的科室、工段、班组以至个人。各级部门根据企业的方针目标，都有自己的PDCA循环，层层循环，形成大环套小环，小环里面又套更小的环。大环是小环的母体和依据，小环是大环的分解和保证。各级部门的小环都围绕着企业的总目标朝着同一方向转动。通过循环把企业上下或工程项目的各项工作有机地联系起来，彼此协同，互相促进。

（2）不断前进、不断提高

PDCA循环就像爬楼梯一样，一个循环运转结束，生产的质量就会提高一步，然后再制定下一个循环，再运转、再提高，不断前进，不断提高。

（3）门路式上升

PDCA循环不是在同一水平上循环，每循环一次，就解决一部分问题，取得一部分成果，工作就前进一步，水平就进步一步。每通过一次PDCA循环，都要进行总结，提出新目标，再进行第二次PDCA循环，使品质治理的车轮滚滚向前。PDCA每循环一次，品质水平和治理水平均进步一步。

在日常工作生活中，我们都可以借鉴PDCA的方法论。关于PDCA的应用阶段，具体说明如下：

一是计划阶段。要通过市场调查、用户访问等，摸清用户对产品质量的要求，确定质量政策、质量目标和质量计划等。

二是设计和执行阶段。实施上一阶段所规定的内容。根据质量标准进行产品设计、试制、试验及计划执行前的人员培训。

三是检查阶段。主要是在计划执行过程之中或执行之后，检查执行情况，看是否符合计划的预期结果效果。

四是处理阶段。主要是根据检查结果，采取相应的措施。巩固成绩，把成功的经验尽可能纳入标准，进行标准化，遗留问题则转入下一个PDCA循环去解决。即巩固措施和下一步的打算。

17.3 ITSM

ITSM（IT Service Management，IT服务管理）是一套帮助企业对IT系统的规划、研发、实施和运营进行有效管理的高质量方法。它结合了高质量服务不可缺少的流程、人员和技术三大要素——标准流程负责监控IT服务的运行状况，人员素质关系到服务质量的高低，技术则保证服务的质量和效率。“IT服务管理”是一套面向过程、以客户为中心的规范的管理方法，它通过集成IT服务和业务，协助企业提高其IT服务提供和支持能力。TISM流程示意图如图17.3所示。

▲图17.3 ITSM流程示意图

ITSM适用于IT管理，而不是企业的业务管理。清楚这点非常重要，因为它明确划分了ITSM与ERP、CRM和SCM等管理方法和软件之间的界限，这个界限是：前者面向IT管理，后者面向业务管理。ITSM不是通用的IT规划方法。ITSM的重点是IT的运营和管理，而不是IT的战略规划。如果把组织的业务过程比作安排一辆汽车去完成一趟运输任务，那么IT规划的任务相当于为这次旅行选定正确的路线、合适的汽车和司机。而ITSM的任务则是确保汽车行驶过程中司机遵循操作规程和交通规则，对汽车进行必要的维修和保养，尽量避免其出现故障；一旦出现故障也能很快修复；并且当汽车到达目的地时，整个行驶过程中的所有费用都可以准确地计算出来，这便于衡量成本效益，为做出有关调整提供决策依据。简单地说，IT规划关注的是组织的IT方面的战略问题，而ITSM是确保IT战略得到有效执行的战术性和运营性活动。

“IT服务管理”是一套面向过程、以客户为中心的规范的管理方法，它通过集成IT服务和业务，协助企业提高其IT服务提供和支持能力。而在IT服务管理领域有一个事实上的标准，就是英国商务部开发的“信息技术基础设施库”（Information Technology Infrastructure Library，ITIL）。ITIL将IT服务分为十个核心流程和一个服务职能，分别是：服务级别管理、可用性管理、能力管理、服务连续性管理、财务管理、事件管理、问题管理、变更管理、配置管理、发布管理以及服务台。正是通过这十个核心流程和一个服务职能，实现了IT服务管理的规范化、流程化。

17.4 ISO 20000体系

1．什么是ISO 20000

ISO 20000是由国际标准化组织（ISO）和国际电工委员会（IEC）在2005年正式发布的第一部针对IT服务管理的国际标准。ISO 20000规定了IT组织在向其内外部客户提供IT服务和支持过程中所需完成的工作。通过这些规定，ISO 20000展示了一套完整的IT管理流程，旨在帮助IT组织识别并管理IT服务的关键流程，保证向业务和客户有效地提供高质量的IT服务。

ISO 20000的标准模型如图17.4所示。

▲图17.4 ISO20000标准模型

ISO/IEC 20000是一个针对管理流程系统的标准，ISO/IEC 20000的认证适合IT服务的提供者，可以是内部的IT部门，也可以是外部的服务提供商。获取ISO/IEC 20000的认证，意味着提供服务的IT组织，对ISO/IEC 20000中定义的这些管理流程，具有足够好的管理控制力。这里所谓对流程的管理控制力包括：

对流程输入的了解和控制。
对流程输出的了解、使用和诠释。
制定和执行对流程效能的衡量机制。
有客观的证据表明，对流程的功能负责，使之符合ISO 20000标准要求。
制定流程的改进提高计划，衡量和回顾改进结果。

2．建立ISO 20000体系带来的益处

应用ISO 20000能够使企业建立起一套IT服务管理的最佳流程，从而系统地、有序地提供管理服务，为企业带来以下益处：

获得权威认证机构颁发的认证证书，能够提升市场竞争优势；
就服务质量和服务承诺与业务及供货商达成一致，建立和业务及供货商统一的沟通平台；达到相关利益方均满意的IT服务管理目标；
提高IT服务的可用性、可靠性和安全性，为用户提供高质量的服务；
建立透明、优化的组织架构，降低IT运营成本；
持续优化服务流程，提升服务水平，提高客户满意度；
将服务管理与整体业务流程相结合；
建立清晰的、集中的关于服务流程和常规实践的文件系统；
建立IT部门一整套行之有效的持续改善机制和内控机制；
提高IT部门相关员工的专业素质，提高员工的服务能力和工作效率；
定期评估服务管理流程，维护和改进其有效性；
提升IT部门整体运作及部门间沟通的能力；
易于和其他管理体系整合，如ISO 9001、ISO 27001等。

3．如何获得ISO 20000认证

IT服务组织要获得ISO/IEC 20000的认证，必须证明它能够对标准中涉及的所有5组13个流程都具有以上的管理控制力。ISO/IEC 20000系列对流程的最佳实践进行了总结，可适用于不同规模、类型和结构的组织，服务管理流程最佳实践要求并不会因为组织形式不同而被改变。

要获得ISO 20000认证，需要一系列流程才能实现，包括：认知ISO 20000、定义目标和实施范围、初始评估与差距分析、决策层批准实施、ISO 20000培训、选择审核机构并定义审核范围、建立管理体系流程及政策、体系实施与持续改进、重新评估与定位目标、认证审核、通过ISO 20000认证、认证维护等。具体流程如图17.5所示。

▲图17.5 获得ISO20000认证的过程

17.5 ISO 27001

1．什么是ISO 27001

ISO 27001是有关信息安全管理的国际标准，最初起源于英国标准BS 7799，经过十年的不断改版，终于在2005年被国际标准化组织（ISO）转化为正式的国际标准，于2005年10月15日发布为ISO/IEC 27001:2005。该标准可用于组织的信息安全管理体系的建立和实施，保障组织的信息安全，采用PDCA过程方法，基于风险评估的风险管理理念，全面系统的持续改进组织的安全管理。

ISO/IEC 27001标准包括11个章节：

（1）安全策略。指定信息安全方针，为信息安全提供管理指引和支持，并定期评审。

（2）信息安全的组织。建立信息安全管理组织体系，在内部开展和控制信息安全的实施。

（3）资产管理。核查所有信息资产，做好信息分类，确保信息资产受到适当程度的保护。

（4）人力资源安全。确保所有员工，合同方和第三方了解信息安全威胁和相关事宜以及各自的责任、义务，以减少人为差错、盗窃、欺诈或误用设施的风险。

（5）物理和环境安全。定义安全区域，防止对办公场所和信息的未授权访问、破坏和干扰；保护设备的安全，防止信息资产的丢失、损坏或被盗，以及对企业业务的干扰；同时，还要做好一般控制，防止信息和信息处理设施的损坏和被盗。

（6）通信和操作管理。制定操作规程和职责，确保信息处理设施的正确和安全操作；建立系统规划和验收准则，将系统失效的风险降到最低；防范恶意代码和移动代码，保护软件和信息的完整性；做好信息备份和网络安全管理，确保信息在网络中的安全，确保其支持性基础设施得到保护；建立媒体处置和安全的规程，防止资产损坏和业务活动的中断；防止信息和软件在组织之间交换时丢失、修改或误用。

（7）访问控制。制定访问控制策略，避免信息系统的非授权访问，并让用户了解其职责和义务，包括网络访问控制，操作系统访问控制，应用系统和信息访问控制，监视系统访问和使用，定期检测未授权的活动；当使用移动办公和远程控制时，也要确保信息安全。

（8）系统采集、开发和维护。标示系统的安全要求，确保安全成为信息系统的内置部分，控制应用系统的安全，防止应用系统中用户数据的丢失、被修改或误用；通过加密手段保护信息的保密性、真实性和完整性；控制对系统文件的访问，确保系统文档、源程序代码的安全；严格控制开发和支持过程，维护应用系统软件和信息安全。

（9）信息安全事故管理。报告信息安全事件和弱点，及时采取纠正措施，确保使用持续有效的方法管理信息安全事故，并确保及时修复。

（10）业务连续性管理。目的是为减少业务活动的中断，使关键业务过程免受主要故障或天灾的影响，并确保及时恢复。

（11）符合性。信息系统的设计、操作、使用过程和管理要符合法律法规的要求，符合组织安全方针和标准，还要控制系统审计，使信息审核过程的效力最大化，干扰最小化。

2．通过ISO 27001认证带来的益处

（1）通过定义、评估和控制风险，确保经营的持续性和能力；

（2）减少由于合同违规行为以及直接触犯法律法规要求所造成的责任；

（3）通过遵守国际标准提高企业竞争能力，提升企业形象；

（4）明确定义所有组织的内部和外部的信息接口目标：谨防数据的误用和丢失；

（5）建立安全工具使用方针；

（6）谨防技术诀窍的丢失；

（7）在组织内部增强安全意识；

（8）可作为公共会计审计的证据。

3．ISO 27001认证要求

ISO 27001标准是为了与其他管理标准，比如ISO 9000和ISO 14001等相互兼容而设计的，这一标准中的编号系统和文件管理需求的设计初衷，就是为了提供良好的兼容性，使得组织可以建立起这样一套管理体系：能够在最大程度上融入这个组织正在使用的其他任何管理体系。一般来说，组织通常会使用为其ISO 9000认证或者其他管理体系认证提供认证服务的机构，来提供ISO 27001认证服务。正是因为这个缘故，在ISMS体系建立的过程中，质量管理的经验举足轻重。ISO 27001的认证过程和ISO 20000认证基本相似，但更为灵活一些。

17.6 ITSS运行维护标准

随着各行业、各领域信息化工作的深入开展，越来越多的信息系统进入运行维护阶段。然而，提供运行维护服务的各类组织的能力水平参差不齐，需方缺乏评价或选择供方的方法、手段及规范。由中国信息技术标准化技术委员会（简称ITSS）提出的GB/T 28827.1—2012《信息技术服务运行维护第1部分：通用要求》是国家层面推荐的“信息技术服务运行维护”标准。此标准对不同服务对象、服务过程和服务需求的能力要素进行抽象，并通过关键指标对服务能力进行评价；同时针对运行维护服务过程、服务交付内容及特定服务需求的要求；另外还针对不同服务对象的运行维护服务提出了要求。各部分之间的关系如图17.6所示。

GB/T 28827.1提出了信息系统运行维护的基本组成要素，以及提供运行维护服务的各类组织在这些要素方面应具备的条件和能力，旨在指导供方改进和提升其运行维护服务能力，并为需方提供选择和评价供方的依据。

▲图17.6 GB/T 28827各部分之间的关系

第4章提出了运行维护服务能力模型，解释了模型中4个关键要素，并明确运行维护服务能力管理原则。

第5章对运行维护服务能力的策划、实施、检查和改进提出了管理要求。

第6章规定了人员管理、岗位结构、知识、技能和经验要求及关键指标。

第7章规定了运行维护工具、服务台、知识库和备件库要求及关键指标。

第8章规定了技术研发以及与发现和解决问题相关的技术要求及关键指标。

第9章规定了服务级别管理、服务报告、事件管理、问题管理、配置管理、变更管理、发布管理和信息安全管理要求及关键指标。

附录A给出了运行维护服务对象和内容。

附录B给出了实施指南。

详细可访问www.itss.cn官方网站查阅。

17.7 创新是王道

苹果公司的创始人史蒂夫·乔布斯曾经说：“苹果公司是一个非常有条理的公司，而且有了不起的流程。但是这并非苹果公司的全部。流程使人效率更高。但创新则来自于人们在过道上见面，或在夜晚10点半互相通电话，因为有了一个新点子，或者是因为他们意识到对于某个问题的考虑有漏洞等。创新来自于对一百件事说不，以确保我们不走上歧途或不去试图做太多的事。我们总是在考虑有哪些新的市场可以进入，但是只有通过说不才能保证集中精力在最为重要的事情上。”

在苹果公司，创新是一种生活方式，是公司基因的一部分。苹果公司的成功可以归因于它开发创新产品的能力。在过去的几年中，苹果公司在市场里推出了一些优异的产品，这些产品成为了顾客体验的标杆。苹果公司连续7年（2006—2013）排在由商业周刊编制的世界最具有创新公司排行榜的首位。

自公司成立起，苹果就一直把重点放在创新上，并且进入了那些它可以做出巨大贡献的市场。根据分析师的观点，苹果公司的主要目标之一是使得技术在顾客面前无缝。根据它的口号“不同的思考”，苹果公司采用了一个自我满足的运营风格。这使得苹果公司领先于竞争对手。在试图超越自身的过程中，苹果公司很少承认竞争，公司制造的产品既有意义又有利润。

苹果公司的创新成功只是一个缩影，它用不争的事实告诉我们：创新才是王道！没有创新，整个社会将停滞不前；没有创新，企业将失去它的用户；没有创新，你必然会被别人超越。

当前，很多网站在建设内容上还是一味地在制造同质化的内容，没有自己的特色，感觉就是应付用户和搜索引擎。这一点主要是因为优化人员和管理人员对内容的重要程度理解都不深，管理人员只是求网站的效果，对于销售结果更看重，优化推广人员由于对行业理解不深也不能深入去研究。因此，从总体上来说内容的创新存在一些盲区。在IT服务方面也是这样，同质化现象很严重，很多好的做法一旦实施立马会被其他企业所效仿，从而不再是自己特有的服务，几乎所有的服务商的服务内容和方式都千篇一律，毫无新意可言。

为让自身脱颖而出，除了创新，别无他法。在IT服务方面，要想使服务内容创新就必须要深挖用户需求，而且要研究一些知名的大企业好的做法，将其与企业自身进行有效结合，才能更好地使内容不断创新，从而紧紧吸引用户的目光，保持住用户对自身服务的忠诚度。

我们在工作中，应遵循创新的七大原则，只有这样，乔布斯的创新之举可能在你身上出现：

（1）做你所爱的事（对事业有不同的考思考）；

（2）在宇宙留下凹痕（对你的愿景有不同的思考）；

（3）拨动你的大脑（对你的思维方式有不同的思考）；

（4）出售梦想，而不是产品（对你的顾客有不同的思考）；

（5）对一千件事说不（对设计有不同的思考）；

（6）创造疯狂的伟大体验（对品牌体验有不同的思考）；

（7）掌握信息（对你的故事有不同的思考）。

IT运维之道

图书目录:

详情

图书摘要

版权信息

作者简介

专业书评

内容提要

序言

前言

机遇篇

第1章 奇葩的IT男

1.1 半年月薪过万

1.2 三年当部门经理

1.3 IT服务的创意人生

第2章 机遇就是选择大于努力

2.1 IT开发还是IT服务

2.2 早选择，早领跑

做事篇

第3章 IT运维做什么

3.1 IT运维的四件要事

3.2 IT运维服务的原则

3.2.1 讲计划

3.2.2 重承诺

3.2.3 讲规范

3.2.4 重控制

3.2.5 有反馈

3.2.6 重效率

3.2.7 能应急

3.2.8 有保障

3.3 掌握服务平衡

3.3.1 主动服务

3.3.2 受理服务

1．受理服务分类标准

2．受理服务处理规范

3．受理服务效率要求

3.3.3 服务的平衡

3.4 落实整体运维

3.4.1 软件支撑系统运维

3.4.2 应用系统的运维

3.4.3 计算机硬件设备的运维

3.4.4 机房及环境的运维

3.5 贯穿始终的服务流程

3.5.1 事件流程

3.5.2 问题流程

3.5.3 配置管理流程

3.5.4 变更流程

3.5.5 发布流程

第13章 运维软功夫——运维软件技术介绍

13.1 操作系统

13.1.1 Windows系统

1．嵌入式操作系统

2．桌面操作系统

3．服务器操作系统

13.1.2 Linux系统

1．Red Hat Linux

2．SuSE Linux

3．Debian Linux

13.1.3 UNIX系统

1．AIX系统

2．HP-UX系统

3．Solaris系统

13.1.4 操作系统维护技能

13.2 中间件软件

13.2.1 Websphere软件

1．WAS的产品线

2．WAS的体系结构

3．WAS应用服务器技术优势

13.2.2 WebLogic软件

1．Weblogic Server体系结构

2．Weblogic特性和优势

13.2.3 Tomcat软件

1．Tomcat总体结构

2．Tomcat优势及特点

13.2.4 中间件维护技能

13.3 数据库

13.3.1 SQL SERVER软件

13.3.2 MY SQL软件

1．数据库引擎

2．索引功能

第1章奇葩的IT男

第2章机遇就是选择大于努力

第13章运维软功夫——运维软件技术介绍

第17章天外有天：IT服务的国际标准