Smarthaven智航数据中心基础设施监控管理系统是从大规模数据中心管理需求出发,集合数据中心运营的特点,从设备的底层监控到管理,再到全面运营流程管理,运用数据挖掘、人工智能、实时运算等多种手段,对各种工作进行高效协调、调度、指引实现数据中心基础设施高效、安全的维护工作。
架构特点:
数据采集
通过云原生边缘计算(Kubeedge)和云原生消息队列(Cefco/NATs)进行数据采集;同时,支持面向动力系统和环境系统的现场监控单元数据直采(一体式或主从式数据采集网关)。边缘测数据中心采集数据统一汇聚至云原生消息队列(NATs集群),由在线实时处理应用,基于配置管理预先定义的点表映射关系进行处理,转换成动环监控平台自定义编码;而现场监控单元,基于配置管理预先定义的点表映射关系,将底层动力和环境系统产生的测量数据,直接转换成动环监控平台自定义编码,无需在线实时处理应用进行点表映射处理。
集群式消息队列
在支持各个边缘测数据中心的不同业务系统 数据(传感器网关或分布式管理系统等),采集数据集中汇总到云原生消息队列(NATs)缓冲,每一个数据中心在消息队列中采用唯一标识的主题(Topic)存储,数据存储格式采用JSON格式;集中存储的优势在于:管理服务应用方无须关注实现各个动环系统的数据格式和交互流程,在数据汇总的方式上基于标准进行了统一,数据格式可以不统一。传统做法是要求数据格式的统一,将复杂的数据格式处理转嫁给了数据采集方,增加了数据采集方的工作量,另外,所谓的统一格式,也不能得到动环厂商的 认可,采用消息队列的通讯方式是公认的技术。
实时高并发大数据处理机制
统一业务数据格式(设备编号、测点编号、测点数值、测点类型、采集时间等),预先定义映射关系,将不同数据格式的底层采集数据,统一格式化成标准的业务数据;采用大数据实时计算框架Flink对于模拟量、计算量、开关量实时数据的处理和存储。Flink计算框架现阶段采用Session的方式 运行在Kubernetes平台上,将来会采用PerJob的方式提升资源的利用效率。
机器学习和智能推理
通过在Kubernetes云原生平台上部署基于简化版的Kubeflow的模型训练控制器,基于大数据平台采集的数据进行自动化标注和训练,并将训练后的模型通过云原生分布式的模型(文件)分发组件Cefco将模型分发到位于边缘测的数据中心进行推理和预测。支撑供配电管理、容量管理、设备资产综合管理、能耗的监测、预测分析管理、移动巡检及基于AI的智能运维管理等动环监控系统的新应用。
混合数据存储模式
针对不同类型数据,依据业务应用实际要求,选择合适的存储模式进行数据持久化处理,并对外提供数据。对于文件、图像、视频以文件方式存储;实时测点数据存储在内存数据库(Redis集群),事件状态数据局域(Redis)的消息订阅机制,及时向外部应用推送;历史测点数据存储在时间序列数据库(OpenTSDB集群),配置管理、基础信息、业务数据、主题分析数据存储在关系数据库(MySQL集群)。
开放式共享服务接口
事件、状态、告警等即时消息服务采用云原生的方式进行部署,通过消息队列订阅机制对外推送;提供RESTful Web服务共享接口,为远程控制操作、实时数据和历史数据查询提供应用基础;同时,对外开放时间序列数据库、内存数据库、消息队列访问方式。
可拓展业务应用
共享服务支持第三方集控中心、第三方服务调用、大数据分析应用、其它应用等二次开发。
标准化、规范化
制定规范化和标准化的编码、命名、字典、接口定义,基于标准化、规范化基础,提供可视化的配置管理工具。