数据中心基础设施运维常规工作介绍-程序员宅基地

技术标签: python  java  运维  人工智能  大数据  

695cf49085ce40b58314ee7ecab8e2da.gif

更多专业文档请访问 www.itilzj.com

 随着互联网、云计算需求的爆发式增长,数据中心的规模不断扩大,稳定、能耗、占地等问题持续困扰着数据中心运营者,维护、持续扩容等新的问题接踵而来。为了应对挑战数据中心的形式也在不断的变化。从早期的集中供电集中制冷到分布式供电分布式制冷,从机柜摆放方向的简单调整到封闭冷/热通道,从简单划分功能区的数据中心到现在流行的微模块数据中心。今天我们来了解一下数据中心常规运维工作的重要性并通过下文介绍熟悉数据中心常规运维的工作内容。

一、 运维常规工作重要性

445f9b0b953ead621a9cd65b6e76f387.png

运维工作面临的挑战

  • 功率密度升高,给运维人员反应的时间更短,管理难度加大。

  • Uptime报告显示,数据中心超过70%的故障由于人为操作失误造成。

1、主要故障类型:

  1. 磨损所致

  • 设备也有生命现象,累计达到某一使用程度之后,就寿终正寝,想修都没得修,只有更新换代,这一点在高精密的设备上表现的最明显。

  • 设备的磨损可分为有形磨损和无形磨损二种。有形磨损是指:设备在使用过程中发生的物质磨损或由于环境自然侵蚀而造成的物理、化学变化。无形磨损是指:由于科学技术的进步,使得设备的使用价值降低,甚至被淘汰。

  2. 异常操作所致

  • 几乎所有的设备的动作顺序都有严格的要求,由不得你随意操作,不遵守操作规程,只会直接导致或加速其产生故障。现场管理活动中,未熟练的新人,错误的操作、设定,都是损坏设备的最直接的“杀手”。

  3. 非法改变其功能所致

  • 如果设备在设计上就潜在着该功能的话,那么对其对进行改造,恐怕还无大碍,就怕没有该项功能,却硬要强加该功能,这会活活要了设备的“命”。

  4. 超负荷使用

  • 人停机不停,一天二十四小时连轴转,一年开足三百六十五天,不坏就不停;不坏就不修,一心急着要翻本,这是“山寨厂”典型的设备使用方法。虽然有的设备在超负荷状态下,暂时看不出有什么故障发生,然而超负荷运转,却使设备产生疲劳,老化、磨损进程大大加快,最终导致寿命缩短。

  5. 设计上潜在不良因素

  • 设计时未能充分研讨清楚相关事项,匆匆上马,导致使用阶段故障多多,于是又进行二次补丁设计,三次补丁设计……,迟迟无法定型。这样的设备,让人无法放心使用。

  6. 维护手法欠佳

  • 一流设备,二流操作,三流维护。不把设备当“人”看,只叫干活,不给“饭”吃,连最基本的清洁都不搞,以致小故障逐渐演变成大故障。

浴盆曲线

    实践证明大多数设备的故障率是时间的函数,典型故障曲线称之为浴盆曲线(Bathtub curve)。曲线的形状呈两头高,中间低,具有明显的阶段性,可划分为三个阶段:早期故障期,偶然故障期,严重故障期。浴盆曲线是指产品从投入到报废为止的整个寿命周期内,其可靠性的变化呈现一定的规律。如果取产品的失效率作为产品的可靠性特征值,它是以使用时间为横坐标,以失效率为纵坐标的一条曲线。因该曲线两头高,中间低,有些像浴盆,所以称为“浴盆曲线”。失效率随使用时间变化分为三个阶段:早期失效期、偶然失效期和耗损失效期。

9a71cdaa4fe09c93f9d0072c68565b04.png

0be12668565d55614944e7cb5b9e0b90.png

维护的常规工作

二、工作内容及关系

1、上电调试

关注点:

  • 检查新设备或系统是能否正常上电启动;检查扩容后、改造后的设备或系统是否能正常上电启动,验证设计的合理性。

  • 检查修复后的设备或系统能否正常上电启动,检查设备故障和隐患的处理情况。

  • 初始调试配置参数对设备或者系统的稳定运行至关重要,参数更改不当,将造成系统无法正常工作,严重的甚至损坏系统。

工作安排:

  • 涉及人员:专业工程师(配电等专业)、运维技术经理、设备商工程师。

  • 人员职能:根据设备商上电SOP,由专业工程师或者设备商工程师进行上电启动。根据设备商操作SOP,由专业工程师或者设备商工程师进行参数调试。

补充说明:

    SOP:SOP是Standard Operating Procedure三个单词中首字母的大写,即标准作业流程,就是将某一事件的标准操作步骤和要求以统一的格式描述出来,用来指导和规范日常的工作。

一体化UPS场景上电调测

  • 基本原则:

1. 双路输入或双路供电时,建议先给A路上电,再给B路上电。

2. 给一体化UPS上电,然后给照明、空调上电,再然后给机房管理系统上电,最后给IT负载上电。

  • 基本流程:

1. 上电前检查

2. 系统上电调试

e3d02753043a69bbca96ffa6980bb939.png

  • 操作步骤

    步骤1 合上模块外一体化UPS 前端电源输入市电空开,给一体化UPS 柜上电,一体化UPS柜上方电源指示灯点亮,上电正常。

    步骤2 闭合一体化UPS 输入空开QF1,等待约2~3 分钟, MDU 显示屏启动。设置语言、时间、网络参数、系统参数(单并机、电压频率、电池容量、单体数量)。

7d53ae441334bad7d87a7b38a805b583.png

    步骤3 确认系统旁路输入正常,系统由旁路供电,在监控显示模块中查看系统运行状态图,确认系统是否已经由旁路供电。步骤2 闭合一体化UPS 输入空开QF1,等待约2~3分钟, MDU显示屏启动。

    步骤4 开启逆变器。

cd59283707d1f8bc18421690a6149960.png

    步骤5 逆变器开启后,一体化UPS 由逆变供电, MDU 中“旁路供电”告警消失,查看系统运行状态图确认系统是否由主路逆变供电。

    步骤6 核对实际电池容量与单体数和监控界面中设置的值是否一致,用万用表测试负电池组电压绝对值与正电池组电压之和大于一定值( 2×电池单体数),用以检测电池组连接是否正常。

    步骤7 确认电池组已连接好后,闭合电池组输入空开。

    步骤8 (可选)闭合一体化UPS 照明输出空开,查看交流执行器“ PWR”指示灯是否亮起。给照明上电。

    步骤9 合上一体化UPS 柜空调空开,给空调上电。

    步骤10 依次闭合一体化UPS IT 输出空开,为对应设备上电。

    步骤11 检查监控部分是否上电正常。

a39f3c3d44602fd189d08cf2aa0b6cb6.png

  • 例行维护

关注点:

  • 检查设备的部件完整性、清洁度和老化程度。

  • 记录设备日常运行过程中参数、告警、日志和状态,及时更新形成动态SCP,后期进行评估。

  • 通过操作检查设备的功能、部件运行情况。

  • 定期进行设备外、内部的清理。

  • 检查设备、系统及外部环境是否存在隐患。

工作安排:

  • 涉及人员:运维值班员、运维值班班长、专业工程师、运维技术经理、设备商工程师。

  • 人员职能:由运维技术经理编写或者设备商提供MOP,专业工程师或设备商工程师根据MOP进行周期性的维护、养护工作;由运维值班班长制定例行维护人员计划,运维值班员按照计划进行例行维护巡检;由运维值班班长刷新SCP数据中心,并形成周期性评估报告。

补充说明:

    MOP:MOP是Maintenance Operating Procedure三个单词中首字母的大写,即维护作业流程,对机房关键基础设施设备的每次维护、维修、安装操作进行制定作业程序,部分MOP中也会包含SOP。可以要求设备供应商提供MOP的建议,但对于MOP最终确认审核的责任在于运维团队,批准责任在于运维管理团队。

    SCP:SCP是Site Configuration Process三个单词中首字母的大写,即场地配置流程,动态管理数据中心基础设施系统与设备运行配置。包括设备系统固定信息(类型、数量、物理位置、资产编号、投入时间等)和动态信息(运行状态、剩余容量等),对设备系统进行全生命周期的管理。

日常巡检表

419ffa3ab2b5bc2cbc1750a7e7add3e6.png

995ae7a30eb93325901eeee9b05f01b1.png

da3948911d94c2b34ee45b4329b3e6ac.png

供配电系统例行维护(一体化UPS 场景)- 月度维护

1d08bf311417f4846927857dd871271e.png

供配电系统例行维护(一体化UPS 场景)- 季度维护

57fafc322899eaad093744aa9b71c992.png

供配电系统例行维护(一体化UPS 场景)- 年度维护

eea633b4a9ba6fff3b722ab95808aac8.png

  • 系统联调

关注点:

  • 查找系统设计、设备性能是否存在影响整体的“短板”。

  • 检测设备安装是否适应日后的运行维护。

  • 检验设备安装和运行质量是否稳定可靠等。

工作安排:

涉及人员:专业工程师(配电等专业)、运维技术经理、运维值班员、运维值班班长、设备商工程师。

人员职能:由运维技术经理根据SOP以及设备商资料制定系统联调流程方案,并由讨论确定最终方案的可行性;由运维技术经理统称安排专业工程师或者设备商工程师根据流程方案进行操作,设备商还需提供技术督导作为现场应急顾问;运维值班班长需要安排通过运维值班员做好现场保护工作。

    基于数据中心项目的最佳实践,IBM主张采用“五步法”流程对数据中心的基础设施进行联调测试。即,

第一步(Level 1)——图纸资料评审与调试计划制订

第二步(Level 2)——工厂验收测试

第三步(Level 3)——现场检查

第四步(Level 4)——单系统验收测试

第五步(Level 5)——综合系统性能联动调试验证

“五步法”流程也是国际公认的数据中心专业调试验证工作流程规范:

第一步(Level 1)——图纸资料评审与调试计划制订

  • 调试验证工作团队架构与分工

  • 图纸资料所反映的系统是否具备“可测试性”

  • 图纸资料是否已经明确操作顺序

  • 测试验证所需资源(人员、时间、能源、负载、仪器)是否落实

  • 调试总体计划的制订

第二步(Level 2)——工厂验收测试

  • 对电力系统、空调系统的核心设备在出厂前进行性能验证

  • 就测试与验证发现的问题在工厂进行整改纠正

  • 避免或减少设备故障对现场施工的延误

  • 业主设备采购合同验收的重要标志

第三步(Level 3)——现场检查

  • 检查现场安装情况与设计图纸相符。

  • 检查现场电源条件安全可用。

  • 检查现场安全状况符合运行调试工作的要求。

  • 运行调试验证用的设备设施到场就绪。

第四步(Level 4)——单系统验收测试

  • 设备上电,系统启动测试。

  • 在设计负载水平下测试系统功能,空调系统负荷不低于30%,电力系统负荷不少于单台设备的额定容量。

  • 在各冗余系统内验证故障切换模式。

  • 在各系统的计量点、控制点和数据收集点进行验证校准。

  • 记录备案测试结果与系统效率。

第五步(Level 5)——综合系统性能联动调试验证

  • 模拟电、水等外部资源供应中断,检验系统响应与切换模式。

  • 空调系统热负荷模拟测试,空调系统负荷从0逐步增加到100%,检验空调系统各部分的性能。

  • 系统集成测试,综合测试电气、空调、消防与智能化控制等多个系统的接口性能。

  • 在设计满负载下进行多系统连续运转(一般不少于12小时)测试,检验系统的稳定性。

  • 记录备案测试结果与系统效率。

  • 故障处理

关注点:

  • 故障应急预案,执行冗余方案尽快恢复业务或保证业务不中断。

  • 故障清除处理,根除故障并行政讨论小组研讨根源问题,并形成解决方案(如扩容、改造、优化等)。

工作安排:

  • 涉及人员:专业工程师(配电等专业)、运维技术经理、设备商工程师。

  • 人员职能:根据运维技术经理和设备工程师编制EOP,并在故障发生期间由专业工程师或者设备商工程师按照EOP进行故障应急预案操作。后期根据SOP进行设备系统故障清除处理。

补充说明:

    EOP:EOP是Emergency Operating Procedure三个单词中首字母的大写,即应急作业流程,突发设备或者系统故障时,为保证业务不中断或者恢复业务而启动冗余或备用系统而需要执行的操作流程。

UPS故障处理案例f262e448bb3b2fd35598a190f86fffb5.png

常见故障处理(一体化UPS 场景)

aabe705b9604e8c578538d0bc12ebfbf.png

部件更换

关注点

  • 达到使用寿命的设备系统部件,通过更换恢复设备系统正常运行。

  • 存在隐患、发生故障的设备系统部件,通过更换恢复设备系统正常运行。

工作安排:

  • 涉及人员:专业工程师(配电等专业)、运维技术经理、设备商工程师。

  • 人员职能:根据运维技术经理和设备工程师根据SOP更换设备系统部件。

更换一体化配电柜&精密配电柜MCB

操作步骤
    步骤1 打开配电柜前门,将配电柜输入、输出开关切换到OFF 状态,且上下级开关也断开。
    步骤2 拆卸配电柜面板上的螺钉保留好备用,并取下面板。

    步骤3 拆卸MCB 左右两端的线缆,如图所示。更换一体化配电柜&精密配电柜MCB

5a6f0be68aca09a7004b5611cf91d2b8.png    7380de2e477dd7ed4dd981abdee5f565.png

拆卸面板                                        拆卸线缆

    步骤4 用一字螺丝刀将MCB 黑色卡扣件向外拨动,如图所示,然后将MCB 沿配电柜内侧方向拆卸。

    步骤5 将新的MCB 装上。

    步骤6 连接线缆。MCB 线缆推荐接线孔位如所示。

    步骤7 将面板重新装回配电柜。

    结束。

38be41dda8ba6f93a7172b3047c52ff7.png

福利

数据中心建设/基础知识/运维人员的交流圈子,不定期为您提供数据中心领域前沿资讯/培训课程/独家技术手册/机房建设标准规范/标准体系文档模板等,行业大咖分享交流/同行经验分享互动,期待你的加入!扫码即可加入。

随着材料不断增多社群会不定期涨价早加入更优惠

de175ec98a3506cf6cbe19ae3f29a7fa.png

免责声明:

本公众号部分分享的资料来自网络收集和整理,所有文字和图片版权归属于原作者所有,且仅代表作者个人观点,与本公众号无关,文章仅供读者学习交流使用,并请自行核实相关内容,如文章内容涉及侵权,请联系后台管理员删除。

更多推荐

           

数据中心供配电系统继电保护基础知识

五种常用的UPS电源并机方案,你用过哪种?

UPS电源安装流程

通信机房蓄电池鼓涨原因

数据中心机房设备标签规范建议

       
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_15350605/article/details/125454554

智能推荐

使用JDBC连接数据库出现 The server time zone value ‘�й���׼ʱ��‘ is unrecognized or represents more than one解决方案_jdbc.properties timezone-程序员宅基地

文章浏览阅读553次。在 jdbc.properties 文件中的 url 后面加上 ?serverTimezone=UTC加入之前的jdbc.properties文件:user=rootpassword=12345678url=jdbc:mysql://localhost:3306/testdriverClass=com.mysql.cj.jdbc.Driver加入之后:user=rootpassword=12345678url=jdbc:mysql://localhost:3306/test?serv_jdbc.properties timezone

计算机图形学孔令德基础知识,计算机图形学基础教程孔令德答案-程序员宅基地

文章浏览阅读1.4k次。计算机图形学基础教程孔令德答案【篇一:大学计算机图形学课程设】息科学与工程学院课程设计任务书题目:小组成员:巴春华、焦国栋成员学号:专业班级:计算机科学与技术、2009级本2班课程:计算机图形学指导教师:燕孝飞职称:讲师完成时间: 2011年12 月----2011年 12 月枣庄学院信息科学与工程学院制2011年12 月20日课程设计任务书及成绩评定12【篇二:计算机动画】第一篇《计算机图形学》..._计算机图形学基础教程 孔令德 答案

python xlwings追加数据_大数据分析Python库xlwings提升Excel工作效率教程-程序员宅基地

文章浏览阅读1k次。原标题:大数据分析Python库xlwings提升Excel工作效率教程Excel在当今的企业中非常非常普遍。在AAA教育,我们通常建议出于很多原因使用代码,并且我们的许多数据科学课程旨在教授数据分析和数据科学的有效编码。但是,无论您偏爱使用大数据分析Python的程度如何,最终,有时都需要使用Excel来展示您的发现或共享数据。但这并不意味着仍然无法享受大数据分析Python的某些效率!实际上,..._xlwings通过索引添加数据

java8u211_jre864位u211-程序员宅基地

文章浏览阅读911次。iefans为用户提供的jre8 64位是针对64位windows平台而开发的java运行环境软件,全称为java se runtime environment 8,包括Java虚拟机、Java核心类库和支持文件,不包含开发工具--编译器、调试器和其它工具。jre需要辅助软件--JavaPlug-in--以便在浏览器中运行applet。本次小编带来的是jre8 64位官方版下载,版本小号u211版..._jre8是什么

kasp技术原理_KASP基因分型-程序员宅基地

文章浏览阅读5k次。KASP基因分型介绍KASP(Kompetitive Allele-Specific PCR),即竞争性等位基因特异性PCR,原理上与TaqMan检测法类似,都是基于终端荧光信号的读取判断,每孔反应都是采用双色荧光检测一个SNP位点的两种基因型,不同的SNP对应着不同的荧光信号。KASP技术与TaqMan法类似,它与TaqMan技术不同的是,它不需要每个SNP位点都合成特异的荧光引物,它基于独特的..._kasp是什么

华为p50预装鸿蒙系统,华为p50会不会预装鸿蒙系统_华为p50会预装鸿蒙系统吗-程序员宅基地

文章浏览阅读154次。华为现在比较火的还真就是新开发的鸿蒙系统了,那么在即将上市的华为p50手机上会不会预装鸿蒙系统呢?接下来我们就来一起了解一下华为官方发布的最新消息吧。1.华为p50最新消息相信大家都知道,随着华为鸿蒙OS系统转正日期临近,似乎全网的花粉们都在关注华为鸿蒙OS系统优化、生态建设等等,直接忽略了不断延期发布的华为P50手机,如今华为P50系列手机终于传来了最新的好消息,在经过一系列方案修改以后,终于被..._华为手机p50直接预装鸿蒙系统

随便推点

python用什么软件编程好-初学python编程,有哪些不错的软件值得一用?-程序员宅基地

文章浏览阅读2.1k次。Python编程的软件其实许多,作为一门面向大众的编程言语,许多修正器都有对应的Python插件,当然,也有特地的PythonIDE软件,下面我简单引见几个不错的Python编程软件,既有修正器,也有IDE,感兴味的朋友可以本人下载查验一下:1.VSCode:这是一个轻量级的代码修正器,由微软规划研发,免费、开源、跨途径,轻盈活络,界面精练,支撑常见的自动补全、语法提示、代码高亮、Git等功用,插..._python入门学什么好

pytorch一步一步在VGG16上训练自己的数据集_torch vgg训练自己的数据集-程序员宅基地

文章浏览阅读3.2w次,点赞30次,收藏307次。准备数据集及加载,ImageFolder在很多机器学习或者深度学习的任务中,往往我们要提供自己的图片。也就是说我们的数据集不是预先处理好的,像mnist,cifar10等它已经给你处理好了,更多的是原始的图片。比如我们以猫狗分类为例。在data文件下,有两个分别为train和val的文件夹。然后train下是cat和dog两个文件夹,里面存的是自己的图片数据,val文件夹同train。这样我们的..._torch vgg训练自己的数据集

毕业论文管理系统设计与实现(论文+源码)_kaic_论文系统设计法-程序员宅基地

文章浏览阅读968次。论文+系统+远程调试+重复率低+二次开发+毕业设计_论文系统设计法

在python2与python3中转义字符_Python 炫技操作:五种 Python 转义表示法-程序员宅基地

文章浏览阅读134次。1. 为什么要有转义?ASCII 表中一共有 128 个字符。这里面有我们非常熟悉的字母、数字、标点符号,这些都可以从我们的键盘中输出。除此之外,还有一些非常特殊的字符,这些字符,我通常很难用键盘上的找到,比如制表符、响铃这种。为了能将那些特殊字符都能写入到字符串变量中,就规定了一个用于转义的字符 \ ,有了这个字符,你在字符串中看的字符,print 出来后就不一定你原来看到的了。举个例子>..._pytyhon2、python3对%转义吗

java jar 文件 路径问题_「问答」解决jar包运行时相对路径问题-程序员宅基地

文章浏览阅读1.3k次。我这几天需要做一个Java程序,需要通过jar的形式运行,还要生成文件。最终这个程序是要给被人用的,可能那个用的人还不懂代码。于是我面临一个问题:生成的文件一定不能存绝对路径。刚开始我想得很简单,打绝对路径改成相对路径不就行了吗?于是有了这样的代码:String path = "../test.txt";File file = new File(path);……这个写法本身并没有问题,直接运行代码..._jar启动文件路径中存在!

微信读书vscode插件_曾经我以为 VSCode 是程序员专属的工具,直到发现了这些……...-程序员宅基地

文章浏览阅读598次。如果你知道 VSCode,一说起它,你可能第一个想到的就是把它当做一个代码编辑器,而它的界面应该可能大概率是这样的——如果你恰好又是个程序员,那你可能经常会用到它,不管是 Python、JS 还是 C++ 等各种语言对应的文件,都可以用它来进行简单的编辑和整理,甚至是运行和 debug......但是今天要讲的显然不是这些,经过小美的多方研究,发现了即使是对于大多数并不了解 VSCode,也完全不..._vscode weixin read

推荐文章

热门文章

相关标签