高速公路数据中心智能运维体系建设探讨 - ITS文库 - 智慧交通网 ITS114.COM|领先的智能交通门户网站
  • 首页 > ITS百科 > ITS文库 > 正文

    高速公路数据中心智能运维体系建设探讨

    2022-01-11 10:31:10 来源:中国交通信息化 作者:刘伯海等 评论:
    分享到:

    作者:刘伯海,李世忠(福建省高速公路联网运营管理中心)


    摘要:本文围绕机电系统运维数字化、网络化、智能化发展趋势,分析福建省高速公路祥谦数据中心基础设施配置及运维管理现状,并对联网运营新形势下数据中心智能运维体系建设的目标和内容进行探讨。


    为适应高速公路信息化建设的需要,加强高速公路信息资源合理的开发利用,福建高速集团在祥谦收费站大院内建成了服务于福建省高速公路信息化的数据中心。随着福建高速公路信息化的快速发展,祥谦数据中心承载的系统不断增加,业务的复杂性不断增强,依靠传统的人力运维手段已无法满足当前联网运营运维信息化管理的新要求。打造大数据驱动下的智慧高速,迫切需要建立数字化、智能化、网络化的数据中心运维管理体系,优化全省联网系统运行监测与预警功能,提升数据中心运维管理制度化、运维业务智能化、运维决策科学化水平。为此,本文对高速公路数据中心智能运维体系建设进行探讨。

    现状评估

    祥谦数据中心建筑面积约为3000平方米,设计可容纳标准机柜300个,目前已配置机柜112个。祥谦数据中心除支撑全省联网收费、通信以及监控系统外,还支撑集团本部信息化系统。硬件设施配置有华为、IBM等服务器共200余台,存储系统6套,网络交换机70台,网络安全设备80台;系统软件配置有虚拟化平台7套,在线虚拟服务器727台,Oracle RAC集群数据库5套,华为大数据实验平台1套,MongoDB分布式非结构化数据库1套,备份软件2套,容灾软件1套;电力系统具备双回路外供电,并配置有柴油发电组和两组双机并联1+1 UPS后备电源。按照“统一规划、分级管理、管养分离”原则,数据中心采取自主运维和外包维护相结合的管养模式;集团业务处室负责监督管理,省联网中心负责系统运行监测及运维管理,运维单位负责运行维护作业。
    通过对标ISO20000国际运维服务通用评估标准,从服务管理体系要求、服务级别管理,以及配置管理等13个维度73个评估项,对祥谦数据中心当前运维管理进行初步评估,总体满足率为62%。数据中心IT服务标准化存在许多短板,有待进一步优化和提升。主要指标评估情况如下表所示。
    对标ISO20000评估情况一览表
    image.png
    通过ITSS信息技术服务标准,从服务台、事件管理、问题管理、工具技术、配置管理、变更管理、发布管理以及服务级别管理等8个角度,对祥谦数据中心运维服务能力进行初步评估,目前的运维服务能力成熟度平均分为2.69,处于不够完善水平,特别是在制度体系、组织体系、技术体系方面仍有较大提升空间。运维服务能力成熟度如图1所示。
    image.png
    图1 运维成熟度
    1、制度体系,欠缺闭环管控机制。现有的运维管理制度、技术规范和服务标准尚不健全,出现事故时往往采用紧急修复的方式应对,没有体系化的运维管理流程。难以评判运维团队服务质量的优劣,更无法对运维服务进行绩效评价,导致运维管理过程的持续改进难以进行。
    2、组织体系,运维协同工作难。数据中心运维范围涉及硬件设备维护、通信系统保障、业务系统软件运维等工种,跨部门协同处理没有统一的调度人,协同处理困难。
    3、技术体系,缺少专业的运维管理平台。现行的人工运维方式不能及时全面地监控到信息系统运行状态,也无法预警潜在的隐患,不能采取有效的风险预防手段,导致突发事故出现时业务中断,信息系统技术服务处于被动的“救火式”运维状态。

    建设方案

    (一)建设目标
    通过统一的运维一体化管理平台实现联网监测、远程管理、大数据等的整合,更好满足数据中心联网系统智能运维各业务层面的需求。从监督指导视角,实现决策可视,可直观展示各项监控数据信息,获取运维整体状况,且便于对各运维单位维护质量进行量化考核评价;从运营管理视角,实现运营可控,便于突发情况下能够通过系统远程快速处理事故;从维护作业视角,实现执行可管,通过监控管理功能,管理不同类型设备的运行情况。
    同时,搭建以“制度规范、运维工具、运维团队”为核心的运维体系。以高效的运维工具为基础,专业的运维保障团队为核心,运维制度规范为保障,提升系统运行状态的实时监测能力、故障的精准定位能力、运维快速交付能力和应急快速处置能力等,改变现有的传统运维模式,实现运维管理模式由“被动到主动,分散到集中,事后向事前”的转变,为福建省高速公路信息化系统的稳定运行提供及时、有效的运维支撑。
    (二)主要建设方案
    1、完善运维制度体系规划设计
    (1)建立健全运维体系总纲。主要内容包括制度清单,制定各级部门的相关职责;管控方案,制定整个管理体系的总体管控实施方法;考核规范,制定整个管理体系的考核规范;组织机构,制定管理制度文档的清单。
    (2)建立健全运维体系管理程序、流程和规定。从例行管理、服务支持、服务交付、安全管理和质量管理等维度,对运维管理制度的操作细则持续优化和改进。例如:《数据中心日常值班管理细则》《问题流程管理细则》《事件流程管理细则》《变更流程管理细则》《配置流程管理细则》以及《网络安全应急预案》等。
    (3)建立健全运维体系日常操作性文件、表单和记录表。包括对流程执行过程的详细描述,规范化、固化操作过程及方法。例如:《机房巡检标准作业流程》《服务台操作规范》《变更实施操作规范》以及行业内积累的技术类文档。所有的线上、线下的流程表单和流程处理记录信息,包含所有流程的表单字段,审批记录、处理记录以及处理结果等所有的处理信息。
    2、建设智能运维一体化平台
    (1)实现运维平台统一监测。通过融合数据中心已建的按系统资源层次分类部署的监控软件,实时获取系统运行状态及告警信息。系统运行监测涵盖了机房基础环境、传输通信、网络及安全、主机存储、应用服务器、操作系统、数据库、虚拟化平台、容灾备份以及应用层业务系统等,并通过可视化大屏直观展示出数据中心各系统运行情况。智能运维一体化平台架构如图2所示。
    image.png
    图2 智能运维一体化平台架构
    (2)快速故障定位和影响分析。通过配置管理,建立业务系统的逻辑拓扑和物理拓扑图,实现业务系统的可视化管理。同时,将告警智能定位在拓扑图上,并在图上直接显示告警级别和告警数量,实现可视化的故障定位及影响分析。
    (3)运维闭环流程工单管理和知识库建立。通过建立闭环的工单处理流程,服务台将用户申报或自动故障报警生成的工单分派,并随时跟踪服务执行进展,由值班工程师及时处理并反馈,若值班工程师无法解决,则可以转到专业工程师或第三方服务商处理并反馈。同时,构建辅助管理功能,实现故障统计分析和故障处理服务时效,并构建故障共享的知识库。
    (4)实现运维态势感知。通过各系统运行情况分析系统故障发展发生态势,并进行预测和告警,及时发现系统潜在的问题和风险,在系统发生故障前能够迅速反应,相关人员能够及时获取相关预警信息,定位故障隐患、异常发生的位置和可能的原因,提高运维效率。
    (5)整合各领域运维能力。运维平台需要解决跨网络、跨系统、跨层级等问题,只有把各领域运维能力集中起来,才能形成端到端的全程视图,实现超融合的运维监测和运维业务的在线化、数字化、网络化、智能化。祥谦数据中心网络结构划分为互联网区、综合网区、收费网区和视频网区,信息网络系统依照国家信息安全等保三级标准进行保护和管理,每个外网边界均已部署边界防火墙,数据中心各个网络区域通过网闸隔离实现数据交互。因此,智能运维一体化平台可以利用已有安全设施实现数据采集和交互;同时,对在用机电设备管理系统、联网收费系统、ETC运行监测、综合路网、视频上云、二代监控软件以及全省通信网管系统(含交换机和4G路由器监测)等数据资源充分开发利用,整合各领域运维能力。数据中心网络结构如图3所示。
    image.png
    图3 网络结构示意图
    3、优化联网运维保障体制机制
    在组织体系建设方面,以撤站后联网运营体制机制改革为契机,进一步优化运维保障组织体系建设,增强省联网中心对数据中心及各类信息化系统的运维技术管理,建立各层级维护力量统筹协调和协同机制,提升联网运营保障规范化水平。同时,建立数字化运维管控机制,充分应用智能运维平台采集的各类监测数据,加强各联网系统设施运行状况和运维情况的统计分析工作,通过量化指标对运维工作进行考核评价,持续保障各类机电设施连通率、正常率以及数据上传及时率。

    结束语

    本文通过对祥谦数据中心运维管理体系现状的分析,对高速公路机电运维制度体系、组织体系和技术体系建设方案进行探讨,并重点介绍了智能运维一体化平台建设方案。


  • 关键字: 智能高速
  •    责任编辑:zhuoqun
  • 延伸阅读!

  • 每周新闻精选

  • 关于我们
  • 联系我们
  • 广告赞助