基于数据资源整合平台的数据质量提升技术研究与应用

[摘 要] 针对信息系统产生信息孤岛、运行维护工作困难、统一管控薄弱、长期积累的数据不能互用共享等问题,开展了统一数据资源整合平台的构建研究,并从数据完整性、一致性、规范性、及时性、规范性等方面提出综合的数据质量提升方案,为曲靖供电局局全业务管理应用提供数据支撑。

下载论文网 关键词] 数据资源整合平台;数据完整性;一致性;规范性;及时性   doi : 10 . 3969 / j . issn . 1673 — 0194 . 2017. 23. 094   [中图分类号] TP311 [文献标识码] A [文章编号] 1673 — 0194(2017)23— 0189— 03   1 引 言   云南电网曲靖供电局通过多年的项目建设,形成了各种各样的信息化系统来支撑日常工作的开展。

虽然建立了许多信息系统却也产生了许多信息孤岛、运行维护工作困难、统一管控薄弱、长期积累的数据不能互用共享等问题。

针对目前信息资源管理过程的困惑,曲靖供电局将借助云计算手段实现信息资源池化管理,有效提高本局的资源使用效率,降低资源管理难度。

通过资源管理平台实现与外部单位数据贯通,并通过资源管理平台实现资源动态调度,实现曲靖供电局基础设施及服务模式。

同时将为未来云网分布式?稻葜行牡慕ㄉ杞?行预研与技术沉淀,延伸电力产业链,打造出全新高效优势明显的电力信息通信产业,推动电网由单一输电载体向综合性能源及信息供给平台发展。

2 现状分析   由于曲靖供电局在用的信息系统主要有南网推广的CSGII各业务系统、云网统一组织自建的业务系统,以及曲靖局为支持辅助业务开展而自建的系统。

目前曲靖局相关系统交互时信息不能很好的共享、数据不能互通、来回切换查找比较复杂、数据不能根据各自岗位的需要,直观的呈现出来,处于被动式、运维不能统一管控,未能对曲靖局的全业务管理提供有效的支撑。

本文将开展统一数据资源整合平台的构建研究,并从数据完整性、一致性、规范性、及时性、规范性等方面提出综合的数据质量提升方案,为曲靖供电局全业务管理应用提供数据支撑。

3 数据资源整合平台构建   平台构建将以数据为核心,运用平台化的建设思路构建分布式数据中心,通过数据建模、数据集成、数据融合等技术手段,对现有系统数据进行整合,提高各业务系统之间的数据共享能力,提升曲靖数据资产的应用水平,如下图1所示。

其中,数据源主要包括南网通推的资产管理系统、GIS系统、营销系统,云网自建的技术监督、所务系统、调度系统,曲靖供电局自建的订餐管理系统、班组精益化支撑平台,图像及环境监控,门户等系统,涉及信息系统较多,数据结构复杂。

数据接入将针对各系统实际情况,以ETL工具、文件解析器、JStorm流式处理、数据导入、MQ消息队列等方式支撑。

数据中心则需构建统一的数据模型,基于hadoop架构体系上部署关系型、非关系型的数据统一存储、模型管理及数据质量管理。

提供离线计算、流式计算、内存计算、机器学习等的统一计算,以及服务管理、服务注册、服务发布、服务订阅、访问控制、负载均衡的统一服务。

4 数据质量提升   针对来源于不同信息系统的数据范围,如何解决数据的统一采集、统一存储、统一应用需从数据完整性、数据一致性、数据规范性等方面开展数据质量提升工作。

4.1 数据完整性验证及提升   数据完整性是指数据的精确性和可靠性,本模块需实现相关数据的完整性验证

(1)验证变电站信息的完整性,包括:变电站名称、地址、变电站类型、变电站类别、变压器台数、主变压器总容量、出线数、进线数、污区等级、控制方式、值守方式等信息是否完整。

(2)验证设备台账信息的完整性,包括:设备名称、设备类别、设备型号、电压等级、生产厂家、供应商名称、出厂编号、出厂日期、投运日期、是否虚拟、资产状态、固定资产编码、运行编号、经度、纬度、海拔高度、运维部门、所属供电局信息是否完整。

(3)验证缺陷记录信息的完整性,包括:缺陷设备缺陷部件、缺陷时间、缺陷类型、缺陷等级、缺陷表象、缺陷原因、缺陷部位、缺陷描述、缺陷发现来源、缺陷处理措施、处理情况描述、遗留问题、消缺人、消缺时间、消缺结果、未消缺原因等信息是否完整。

(4)验证监测装置信息的完整性,包括:监测装置名称、监测装置类型、监测装置厂家、监测装置安装日期等是否完整。

4.2 数据一致性验证及提升   数据一致性通常指关联数据之间的逻辑关系是否正确和完整,本模块需实现相关数据的一致性性验证

(1)验证设备信息中所属变电站编号是否和变电站信息中的编号一致。

(2)验证设备缺陷记录中的设备编码是否设备信息中的物理编码一致。

(3)验证设备试验报告中设备编码是否设备信息中的物理编码一致。

(4)验证变电监测装置中的被监测设备编码是否设备信息中的物理编码一致。

(5)验证输电监测装置中的线路编号是否和线路信息中的编号一致。

(6)验证变电监测数据的中装置编码是否和变电监测装置中的编码一致。

(7)验证输电监测数据中终端编码是否和输电监测装置中的终端编码一致。

发现数据不一致时可协调数据源端进行处理并上传,或采用人工核对的方式完成整改。

4.3 数据及时性验证及提升   任何信息的价值都有其时间性,且在某种程度上信息越及时其价值越高。

过时的信息只能作为历史资料,对决策毫无用处。

所以,及时性原则是相关性的重要保证,没有及时性也就谈不上相关性。

本模块需实现相关数据的及时性验证

(1)验证设备缺陷数据是否每天及时上传

(2)验证变电在线监测数据是否每天及时上传

(3)验证输电在线监测数据是否每天及时上传

(4)验证配电在线监测数据是否每天及时上传

(5)验证气象环境数据是否每天及时上传

(6)验证雷电监测数据是否每天及时上传,包括以上数据每天上传数据量、上传时间的验证

发现有数据间断或停止上传时,可自动进行提醒,并通知运维人员补采或补录。

4.4 数据准确性验证及提升   数据准确性直接反应了设备运行的真实情况,需保障上传数据的真实性、准确性。

(1)验证变电站信息是否与实际情况一一对应。

(2)验证设备信息是否与实际情况一一对应。

(3)验证线路信息是否与实际情况一一对应。

(4)验证变电监测装置信息是否与实际情况一一对应。

(5)验证输电监测装置信息是否与实际情况一一对应。

(6)验证配变监测信息是否与实际情况一一对应。

发现数据不准确时可协调数据源端进行处理并上传,或采用人工核对的方式完成整改。

4.5 数据规范性验证及提升   数据规范性主要体现在接入的数据需符合事先定义的数据类型、数据长度规范。

(1)验证日期型数据的规范性,包括:“出厂日期”、“投产日期”、“退役日期”等数据类型为“日期型”的信息字段,应满足“yyyymmdd”(yyyy—表示4位年份数字;mm—表示2位月份数字,不足2位长度用0填充;dd—表示2位日期数字,不足2位长度用0填充;)的数据格式要求,同时还应满足[1960—01—01~当前日期)的区间范围要求,并通过“出厂日期参考文献   [1][美]Matt Casters,Roland Bouman.Pentaho Kettle 解决方案[M].初建军,曹雪梅,译.北京:电子工业出版社,2014.   [2][荷]Wil van der Aalst.工作流管理:模型、方法和系统[M].王建民,闻立杰,译.北京:清华大?W出版社,2004.   [3][美]米罗斯拉夫?库巴特.机器学习导论[M].王勇,仲国强,孙鑫,译.北京:机械工业出版社,2009.   [4][英]维克托?迈尔—舍恩伯格,肯尼思?库克耶.大数据时代[M].周涛,等,译.杭州:浙江人民出版社,2012.   [5][美]Jared Dean.大数据挖掘与机器学习[M].林清怡,译.北京:人民邮电出版社,2015.

2 次访问