统计数据专题库的研究与设计

摘 要:着眼统计领域信息的发展趋势,从建设统计专题数据的必要性、基本思路出发,对统计领域专题数据建设的步骤、方法、应用等进行阐述,并对统计数据专题库的应用等方面作了一些思考。

【关键词】专题统计 数据处理 数据应用。

1 统计专题建设的必要性。

统计部门应用系统繁多,数据来源广。在对数据进行使用时,一方面可能会出现不同系统中的相同指标数据矛盾的情况;另一方面,若涉及不同专业,则需要协调的范围、周期的难度都会明显增大,数据的时效性和及时性都难以得到保障。而专题库的建设将可有效的将历史数据整合利用起来,以专业为边界切割海量数据,实现按专业的跨年度数据存储,从而可进行更深价值的挖掘。

2 专题建设的步骤和方法。

2.1 确定专题范围。

专题建设时,首先需要明确该专题数据范围,专题数据可来源于统计年鉴、专题汇报等文件以及联网直报系统等应用,紧密围绕专题的业务本质进行设定,如能源专题库则应该包括能源建设、能源生产、能源消费等内容。

2.2 建立数据模型。

根据对统计领域已有系统和基础数据的分析,建立专题库的数据模型。其元数据主要包括13类,其中9类为业务元数据(图1)、4类为管理元数据(图2)。

专题库中最直接的为数据,通过对9类业务元数据的分析可得知指标与数据关联最为紧密,其他元数据均可通过指标与数据进行关联,通过分析和设计,可变为如图3所示的数据模型。

通过分析每个元数据本身的属性,根据模型可得出每一数据应包括60多个属性,考虑数据存储专题库的价值,逐一评估后给出需冗余的属性,如下:ID、值、报送单位_ID、期别_ID、指标_ID、目录条目_ID、入库时间戳、报送单位全称、期别_起、期别_讫、指标全称、目录_ID、目录条目名称、分组1条目_ID 、分组2条目_ID 、分组3条目_ID 、分组4条目_ID 、分组5条目_ID 、分组6条目_ID 、分组7条目_ID、地域1级_ID 、地域2级_ID 、地域3级_ID、计量单位_ID、数据释意全文。

其中,5个必须字段为值、报送单位_ID、期别_ID、指标_ID、目录条目_ID;2个管理字段为ID、入库时间戳,以及18个冗余存储字段。

2.3 确定数据来源。

数据专题库的基础,所有的数据处理和分析都是建立在及时、准确、全面的数据之上,专题数据的来源主要包括以下几个方面:

(1)通过联网直报系统由企业、地方统计部门等按照制度报送周期的要求进行数据报送;。

(2)通过各专业司建立的信息上报系统,由相关的企业(如房地产企业等)进行定期的数据报送;。

(3)通过电子邮件、纸质文件等由各部委办局或地方统计局等将相关的数据进行汇总报送;。

专题库的建设将支撑不同数据来源、不同类型数据的汇聚,并以统一的数据集合加以利用。

2.4 数据处理及存储

数据处理和存储时需考虑数据的处理,包括输入格式转换、数据筛选、数据单位的转化、数据的校验、数据存储等。

(1) 输入格式转换。不同数据来源可能有不同数据格式,系统将自动解析来源数据的格式,并转换为系统的统一数据格式。

(2) 数据筛选。由于专题库的数据有着多种数据来源,可能存在不同来源间的数据冲突,系统将建立数据冲突的处理机制,对数据进行筛选,确定数据采集途径的标准,确保数据的唯一性。

(3) 数据单位的转化。在统计数据中,经常会碰到以不同数量级的单位作统计数据,如万吨和吨。针对这种情况,系统将自动把不同数量级的单位转换成标准单位存储入库。

(4) 数据的校验。数据之间存在一定的关联验证关系,系统在进行数据处理时将对数据的准确性进行审核,如不同指标数据的交叉对比、历史数据的对比等,通过系统审核可保障数据的准确性,对异常的数据进行报警。

(5) 数据存储。在存储方面,专题库的建设将采用分布式数据存储,以提高海量数据的分析时效性,提升专题数据库的服务能力。

3 专题库的应用。

3.1 多维的统计信息检索服务。

为满足不同对象的信息需求,专题库将建立多维的统计信息检索服务,以更快更准确的获取所需信息。另一方面,专题库将提供关键字检索服务,以支持用户的模糊检索需求,并提供检索结果的历史数据轨迹跟踪服务。

3.2 可视化产品服务。

通过对数据的汇总、统计、分析,结合空间和时间属性,以专题地图、柱状图、饼状图和曲线等多种形式展示数据,直观地支持领导决策。

系统为各统计部门的业务提供GIS展示功能,使业务数据和地理空间数据融合,满足统计部门使用系统的应用需求。如能源统计专题系统可以支持以下应用:某地区历史能源消费动态演示,各地区能源消费排名,各地区能源消费预测,发布各地区能源消费预警信息等。

3.3 专题数据供给服务。

为了更好的利用专题数据库资源,专题库应该给其他部门提供数据服务。数据共享可以通过以下两个途径来实现:一、导出专题库报表提供给相关部门使用;二、提供查询调用接口给其它部门,可通过网络进行数据的调阅。

4 统计专题库的几点思考。

4.1 建设统计专业数据库群。

单个专题数据库涉及的内容相对狭窄,仅适用于某些固定的对象和用途,所以可在专题建设的基础上逐步拓展建立专题库的统一平台,可以接入各种专题库,组成统计专业数据库群,共享数据,互相补充,扩展专题库的深度和广度,为用户提供更广泛的数据服务。这样才能更加发挥出专题库的作用和优势,相应地也会促进专题库群的进一步发展,形成良性循环。

4.2 建设面向不同用户专题库。

不同用户不同的信息需求,一方面专题库的内容要基于不同用户的需求来建设,另一方面有些信息具有敏感性,对不同用户需要把信息分保密级别。因此针对不同用户,需把专题数据分类和分级,建设相关的数据权限。

4.3 统计专题库的维护。

统计专题库的维护包含以下几个方面:

(1)数据的备份和恢复:对专题库的数据库文件定期做物理备份,同时设置逻辑备份机制,以保证一旦发生故障能尽快的把数据库恢复到某种一致的状态,并尽可能减少对数据完整性的破坏。

(2)数据的安全性控制:在系统运行过程中由于应用环境的变化,对安全性的要求也会发生变化,如有的数据原来是机密的但现在可以公开查询了。或者系统用户的权限级别改变,也需要做相应的安全配置。

(3)数据库性能监测:通过分析数据库的系统指标,判断当前系统运行状态是否最佳,应做哪些改进或者扩容等。

参考文献。

[1]李顺,李京,张波,王利强,孙强,吴班. 国家环境数据中心建设研究[A].中国环境科学学会.2007中国环境科学学会学术年会优秀论文集(下卷)[C].中国环境科学学会,2007(10).

[2]. 我国统计信息化建设的回顾与展望[J]. 电子政务,2010(Z1):159—166.

[3]门凤超,王会仙.浅谈统计信息化建设[J].经济研究导刊,2009(11):248—249.

[4]黄莺,李建阳.元数据质量评估方法及模型研究[J].图书馆学研究,2013(12):52—56+51.

[5]陈智.中国统计信息化建设初探[J].经济研究导刊,2013(15):243—244.

2 次访问