科技创新导报2017  NO.12Science and Technology Innovation Herald信息科学
DOI:10.16660/j.cnki.1674-098x.2017.12.142
基于异构数据资源整合的方法和系统实现
陈倬
(四川职业技术学院  四川遂宁  629000)
①
摘 要:随着信息化领域的不断深入及发展,电力企业已经积累了大量的异构数据源处理,而Web技术的成熟在一定程度上推动了异构数据整合可能性。因此,该文在对数据库系统开发技术进行分析的基础上,提出数据资源整合方法,从而有效地解决了资源整合问题。
关键词:异构数据  资源整合  系统  方法中图分类号:TP311.13
文献标识码:A
文章编号:1674-098X(2017)04(c)-0142-02
异构系统数据的整合也就是说利用现有的网络以及计算机技术,对多个业务系统进行优化及调整,从而使业务与业务之间存在关联,最终便能够在无人干预的条件下,实时共享及自动同步不同业务系统之间的数据资源。而随着我国信息化的进一步推进,相关单位及部门均要求将异构数据作为撰写报告以及分析数据的基础。但由于远程没有相同的数据库系统及大量错误的存储方式,并且还没有统一的数据描述标准,从而导致对数字化进程以及主题信息化造成了一定阻碍。目前所采用的数据整合方式主要是基于C/S结构,在实际应用的过程中用户需要在机器上安装客户端,因而对用户机器具有较高的要求。加上在维护客户端软件的过程中具有较大的难度,没有相关的工作流程作为支持,从而便导致数据使用以及整合在不同的系统中,在一定程度上阻碍了资料的检索及共享。
在一定程度上导致系统资源的异构性。而语义差异则主要指的是具有相同结构的数据形式,不同形式数据所具有的表示方式为解释不同语义或同一语义。
异构数据根据数据的不同来源进行区分可以分为互联网数据、自产及外购资源。获得异构数据的途径是各种数据源,而数据源能够为数据的加工及处理提供相关的源数据,同时也能够为电力系统中的跨库检索及异构数据之间的整合提供一定基础。而电力企业自产资源的内容主要包括企业内部的各类简报、报告、简讯、文档、交换资源以及视频文件数据等。外购资源获得数据资源的方式主要为从各个不同的资源商通过有偿的方式购置的数据资源,购置的数据资源类型主要为专利库、图书、机构库、标准库、外文及中文论文库等多种数据。异构数据中的互联网数据资源则主要是从互联网上通过网络爬虫对信息资源进行定点采集。
根据源数据不同的存储方式可以包括数据库数据存储以及原文文件存储。一般来说,数据库的数据存储获得源数据的途径很多,但最终都是通过排重及分类等多种形式对所收集到的数据进行加工处理,然后再将加工处理后的数据存储到Web数据库中。文件存储的主要方式是通过一定分类规则,将系统中所获得的所有资源文件统一地存放于Web数据库中,并将数据进行存储。2.2 整合方法
对于异构数据资源的整合方式主要是通过数据仓库、多个数据库以及数据集构成,以此来实现不同数据库与不同系统之间的透明访问以及资源的共享。而对于异构数据库中组合的不同数据库及不同的数据集来说,因其在异构整合前均拥有各自的DSMS,所以在整合成异构数据库后两者在一定程度上均具有其自治性与应用特性。2.3 数据库整合方案
为了能够实现数据库全文检索的功能,在异构数据整合的过程中应该将重点放在不同数据库之间的整合中。自定义全文检索数据库作为资源数据的统一存储数据库,使用全
(下转144页)
1 系统架构
在整个电力系统中,系统框架作为其最为核心的部分,在系统架构层中主要的工作内容是负责与数据库之间的交互,同时还需要对多个运行协调以及指挥处理平台业务支撑层进行处理。在实际应用的过程中,为了能够对电力企业现有网络硬件环境进行充分地利用,就需要采用基于B/S模式以及J2EE标准规范。网络数据库管理系统是整个数据库的核心,且客户端之间的沟通交流平台主要为IE浏览器与微软平台。根据此可以建立一个基于异构数据的整合技术,从而便能够实现综合系统,其中包括对异构资源的统一管理,结构化与非结构化数据的统一搜索等工作内容。
2 异构数据源整合
2.1 异构数据源
数据源异构主要指的是数据源具有多种不同的类型,并且在存储方式上数据源包括不同模式及数据语义差异。在不同的存储模式中,使用对象模式以及关系模式均具备较好的兼容性,但并不适用于每个系统。在某些特殊的系统中,尽管采用同一种类型的存储模式,差异性的模式结构也会
①课题来源:基于层次聚类逻辑回归分类算法在煤炭领域中的应用,科研项目编号:15ZB0354. 作者简介:陈倬(1981,6—),男,汉,本科,讲师,研究方向:计算机科学与技术。142
科技创新导报 Science and Technology Innovation Herald