基于网格的中医药数据挖掘的研究

【摘要】 建立在网格基础上的数据挖掘结合了网格技术的优点,能够对Internet上广域分布海量信息进行高效的处理分析挖掘。文章分析网格数据挖掘的特点,并将基于网格数据挖掘技术引入到中医药领域,为中医药的发展开辟了一条新途径。

【关键词】 网格; 数据挖掘; 中医药信息化。

随着lnternet的普及和计算机软、硬件技术的发展,以及国家对中医药产业的重视,中医药信息化建设取得初步成效,相继建成了中医药文献数据库、临床医学数据库、中药方剂数据库等一批中医药数据库。随着中医药数据库的建立和发展,数据急剧增加,可是目前用于对这些数据进行分析处理的工具却不是很多。为了获取隐藏在这些数据之后的更重要的信息采用了数据挖掘。通过数据挖掘可以从大量的、不完全的、有噪声的、模糊的随机数据中,提取隐含在其中的、人们事先不知道的、但又是潜在的有用信息和知识。但是随着科技和中医药产业的发展,将会产生越来越多的数据,并且和各个领域产生融合,成为了广域产业。那么要分析挖掘这些广域分布海量数据,以获取新的科学知识、规律和决策支持,传统的数据挖掘模式和技术已经无法胜任。而网格计算技术是解决复杂海量科学数据的访问存储组织和管理的一种有效技术,是广域分布的异构虚拟组织间实现协同资源共享、多领域的科学和工程的问题求解。建立在网格基础上的数据挖掘结合网格计算的思想及其技术的优点,能够对广域分布海量数据进行高效的处理分析挖掘,将给中医药领域带来新的发展和机遇。

1 数据挖掘网格

广义上来说,网格是一个集成的资源环境,或者说是一个资源池,它能够充分吸纳各种资源,并将它们转化成一种随处可得的、可靠的、标准的、经济的能力。这些资源包括计算资源、网络通信资源、数据资料、仪器设备、知识等各种各样的资源。网格计算就是基于网格的问题求解[1]。数据挖掘指从数据库或数据仓库中发现隐藏的、预先未知的、有趣的信息的过程,该过程可以看作是知识发现中的一个核心的步骤。数据挖掘就是从大量的数据中发现或"挖掘"知识,而网格上含有丰富的数据,是数据挖掘的理想目标。网格数据挖掘建立在数据网格的基础设施和相关技术的基础上,在广域分布海量数据和计算资源的环境中发现数据模式,获取新的科学知识和规律[2]。

2 基于网格数据挖掘

2.1 网格数据挖掘过程。

2.1.1 数据处理 数据处理阶段主要完成从数据网格环境中收集广域分布数据和计算资源,并对原始数据进行归档处理,更正校对,过滤清理和数据的转换、合并,最后再对经过处理后的数据进行归档。

2.1.2 数据分析挖掘该阶段主要完成对处理后的数据进行分析、概括和挖掘,生成关联的规则,发现新的数据关系等,并归档概括出来的数据

2.1.3 模式的评价该阶段对处理后的数据和归纳后的数据再次进行分析,得出一些数据模式,并评价数据挖掘结果的有效性和可靠性,提交得出的结论或新的关系、趋势。

2.2 网格数据挖掘特点 网格数据挖掘是在已有数据挖掘技术的基础上结合了网格的特点,具有更强的功能。

2.2.1 超强的计算能力网格计算能够为科学计算领域和社会经济生活领域提供超级的计算能力。网格数据挖掘系统建立在网格计算的技术基础上,数据的传输具有高效的并行性特点,而且数据处理能力超强。

2.2.2 具有分布性和动态性数据分布范围广,在网格计算环境中,广域分布的各种资源都是动态创建和删除的,因此,网格数据挖掘系统具备分布性和动态性,并以分布计算的方式,同时考虑数据流通负载来分析数据

2.2.3 具有高性能的I/O负载平衡能力在对广域分布海量数据处理的过程中,无论是数据的远程传输还是挖掘过程中的数据处理分析挖掘模式评价等过程,数据的工作流都是很大的,这需要网格提供网络负载调度、管理和高性能的1/ 0负载平衡能力。

1 次访问