第26卷第11期2008年11月
情报科学
Vol.26,No.11November,2008
基于主题图的数据仓库模型
陈卓群,王忠义,夏立新
(华中师范大学信息管理系,湖北武汉430079)
摘
要:针对当前数据仓库模型中存在的问题,在深入分析主题图技术的基础上,提出了一种新的
基于主题图的数据仓库模型。该模型通过主题图的自动生成与合并来构建数据集市的局部模式和数据仓库的全局模式以及局部模式和全局模式之间的映射关系。并在这些局部模式、全局模式以及它们之间的映射关系的指导下完成数据抽取、转换和加载过程,实现数据仓库和数据集市中数据的语义集成。
关键词:数据仓库;数据集市;主题图;ETL中图分类号:TP311
文献标识码:A
文章编号:1007-7634(2008)11-16-05
DataWarehouseModelBasedonTopicMapCHENZhuo-qun,WANGZhong-yi,XIALi-xin
(InformationManagementDepartment,CentralChinaNormalUniversity,Wuhan430079,China)Abstract:InviewoftheproblemsoftheexistentDataWarehouseModelandbasingonanalyzingandresearchingthetechnologyoftopicmap,thispaperproposesanewmodelofDateWarehousebasedonthetechnologyoftopicmap.ThismodelcreatesschemasofDWandDMartthroughtheautomaticgen-erationandmergeroftopicmaps.ThenunderthedirectionoftheseschemasitfulfilstheprocessofETL,torealizethesemanticintegrationofDWandDMart.Keywords:datawarehouse;datamart;topicmap;ETL
来越突出,主要表现在以下几个方面。
1引言
(1)全局模式的局限性。在依据传统数据仓库模
型构建数据仓库时需要一个全局模式,该模式是通过对操作型数据库模式的整合而来,因此,在增加、删除和修改源数据库模式时,将引起对整个模式的更新。同时,随着数据源数量的增加,异构操作型数据环境也越来越复杂,该模式也将包含大量成员和多种对象,以致太复杂而无法有效使用,使得分析设计相当困难。
随着信息技术的发展和市场竞争的加剧,一种面向主题的、集成的、不可更新的、随时间不断变化的数据仓库技术应运而生【1】。该技术能够更好地支持企业或组织的决策分析处理,提高企业或组织的决策能力和水平。然而随着数据仓库技术的发展和应用的深入,传统的数据仓库模型存在的问题也越
收稿日期:2008-03-21
基金项目:高等学校学科创新引智计划(B07042)
作者简介:陈卓群(1983-),女,吉林人,硕士研究生,从事信息组织与检索研究;王忠义(1982-),男,河南人,硕士研究生,
从事信息组织与检索研究;夏立新(1968-),男,湖北武汉人,教授,博士,博士生导师,从事信息组织与检索、数字图书馆研究.
1690情报科学26卷
(2)不一致性。在传统数据仓库结构中,作为导
出数据和决策支持基础的元数据其导出和修改是与操作型数据、调和数据、导出数据分离的,因此,常导致它们之间的不一致性。
(occurrence)和关系(association)。主题是一个或多个主题类型的式例;出现是被指定与主题相关的信息;关系是一个连接元素,表明在两个或多个主题之间的一种关系【6】。此外,主题图通过范围(scope)的概念解决了获取有效的语境问题,通过描述主题在不同语种的名称,可以实现多种语言支持。
主题图将信息结构图分为两层:资源域和主题域(如图1所示),其中资源域包含如电子文档、数据库文件、网页、电子书籍等在内的所有的信息资源;主题域是在资源域之上定义,包括如资源名称、特性、类型等所需的所有主题,可以对已经存在的数据库文件或XTM文档建立主题,设置主题之间的关系等。实际上XTM是基于主题图规范的描述语言,主要定义了用于描述主题图的DTD文档。
(3)ETL的局限性。在数据仓库中,ETL一般要占60%—80%的工作量,是数据仓库项目成功与否的关键。然而现有的ETL方案只能在语法和结构层
次上完成数据集成,无法解决数据的共享、重用、以及语义上的集成问题【2】。
(4)数据集市开发方法的局限性。当前创建数据
集市的方法主要有自顶向下和自底向上两种方法。前者,首先构建一个企业级的DW,然后从DW导出
DMart,因此开发周期长,开发成本高,功能调整不
易,同时可能由于初期效果不明显,使用户对新系统失去信息和耐心,从而导致系统的失败。后者,先开发各部门的DMart,然后以递增、进化方式逐步实现数据仓库。在这种方法中由于各DMart的异构性,将导致将DMart集成到DW中时需要进行大量的修改,造成集成困难,形成“信息孤岛”【3】。
针对传统数据仓库模型存在的以上问题,本文在深入分析主题图技术在知识表示、知识描述、资源定位、可合并性等方面优势的基础上,提出了一种基于主题图的数据仓库模型。该模型通过主题图的自动生成与合并来构建数据集市的局部模式和数据仓库的全局模式以及局部模式和全局模式之间的映射关系。然后在这些局部模式、全局模式以及它们之间的映射关系的指导下完成数据抽取、转换和加载过程,实现数据仓库和数据集市中数据的语义集成。该模型的最大优点是在有效克服传统数据仓库模式以上缺点的同时,其实现的自动化程度也较高。
图1主题图结构
3基于主题图的数据仓库模型
在深入分析主题图技术的基础上,结合传统的数据仓库技术,我们设计实现了一个基于主题图的数据仓库模型,该模型主要分为四个层次:数据资源层、数据调和层、决策支持层、应用层(见图2)。
(1)数据资源层。数据资源是数据仓库系统的基础,是整个系统的数据源泉。它通常包括企业内部信息和外部信息。内部信息包括存放于数据库中的各种业务处理数据和各类文档数据等;外部数据包括各类法律法规、市场信息和竞争对手的信息等。
(2)数据调和层。该层主要包括两个功能模块:主题图自动生成与合并模块和主题图指导下的ETL模块。该层主要功能是在主题图的指导下完成数据源数据到数据仓库和数据集市的加载。
(3)决策支持层。该层主要包括企业数据仓库和各类数据集市。企业数据仓库主要服务于企业决策者,而各类数据集市则主要是为支持各部门决策者进行决策而开发设计的。
(4)应用层。该层主要包括在各类数据仓库和数据集市的基础上开发的各种应用系统,如OLAP、数据挖掘和EIS等,以支持决策者进行决策。2支撑技术
主题图(TopicMap)是一种类似于语义网络的知识表示模式,它提出了一种基于主题的元数据组织和描述方式,提供了语义级的数据导航和组织方式,是一个表达和交换结构化信息的元数据模型,是一种用于描述信息资源的知识结构的数据格式,它可以定位某一知识概念所在的资源位置,也可以表示知识概念间的相互联系【4】,可以用于组织大量的信息,表达复杂规则和过程,管理分布知识和信息、门户功能等。它实际上是在信息资源的上层构建了一个结构化的语义网,于具体的技术平台
【5】
。
主题图主要有三个元素构成:主题(topic)、出现11期基于主题图的数据仓库模型1691
过子模式的整合得到的,因此全局模式和各子模式之间具有密切的映射关系,这也就克服了采用自底向上开发策略开发数据仓库过程中的“信息孤岛”问题。
4模型实现
在我们设计的数据仓库模型中,最重要的是数据调和层。该层是模型实现的关键,也是我们的主要创新之处。其他各层都是采用现有的比较成熟的技术,本文就不再赘述。
数据调和层主要包括两个模块:主题图自动生成与合并模块和主题图指导下的ETL模块。在它们的共同作用下完成数据源数据到数据仓库和数据集
图2数据仓库模型
市的语义集成。
与传统的数据仓库模型相比,我们设计并实现的这种基于主题图的数据仓库模型不同之处有以下几点。
(1)该数据仓库模式首先通过主题图自动生成模块构建各数据源的子模式,其次通过主题图合并整合各子模式,这样得到的每个整合后的模式都是经过抽象的,为建立全局模式而构建的更集成的子模式,然后重复上述过程,最终合并为一个全局模式。这样在增加、删除和修改源操作型数据库模式时,只引起与该数据库相关的子模式的更新,而不是导致对数据调和层的整个模式的更新。
(2)在该数据仓库模型中,数据集市的设计和实现比传统模型要简单,因为每个数据集市都是在一个子模式上建立的,所以设计者可以把注意力集中在相应的抽象数据子集上。
(3)由于主题图是一种基于主题的元数据组织和描述方式,因此在我们设计的数据仓库模式中,元数据是在主题图生成与合并过程中得到的,各模式的每一次更新都会引起元数据的更新,在保持元数据、导出数据等的一致性上,该模式更具优势。
(4)主题图作为一种简单本体,能描述信息资源的知识结构。它实际上是在信息资源的上层构建了一个结构化的语义网,因此这种基于主题图的数据仓库模型能够实现数据的语义集成。
(5)在数据集市的开发过程中,我们采用自底向上的开发方法,各数据集市可以在任何层次的子模式上实现,这样就克服了自顶向下开发方法中开发周期长,开发成本高,漫长的开发过程易使用户丧失对系统的兴趣和耐心的缺陷。而全局模式又是通4.1主题图自动生成与合并模块
主题图自动生成与合并模块主要功能是创建各数据集市的子模式和数据仓库的全局模式,并建立各子模式与全局模式以及它们与数据源之间的映射关系。该功能模块又主要包括主题图自动生成与主题图合并两个模块(见图3)。从图3可以看出主题图自动生成与合并模块首先通过主题图自动生成模块构建各数据源的主题图也即子模式,其次,通过主题图合并整合各子模式,这样得到的每个整合后的模式都是经过抽象的,为建立全局模式而构建的更集成的子模式,然后重复上述过程,最终合并为一个综合主题图也即全局模式。此外,如果该全局模式本身仍然很复杂,还可以对该全局模式进一步抽象。
通过上面过程我们可以看到,除了最底层的主题图是从数据源直接得到的外,其他高层的主题图都是在下一层主题图的基础上通过合并得到的,这样就形成了一个分层的主题图也即分层模式。数据仓库可以在全局模式的指导下创建。而数据集市则可以在各子模式的指导下创建,无需先生成数据仓库再在此基础上创建数据集市。这样在该统一的存在语义映射关系的分层模式的指导下创建的数据仓库和数据集市,既吸收了自底向上的数据集市开放方法的优点,又吸收了自顶向下开发方法的优点,同时又有效地克服了两者的缺点。
此外,在该分层模式中,当增加、删除和修改源操作型数据库模式时,只引起与该数据库相关的子模式的更新,而不是导致对数据调和层的整个模式的更新。1692情报科学
【9】
26卷
(主题图合并过程
情况下两个主题可以进行合并见图5)。
图5主题图合并
第一张主题图对应的XTM代码如下:
图3主题图自动生成与合作
(1)主题图自动生成模块。主题图自动生成模块的主要功能是完成主题图的自动生成(见图4)。
Mergetest1.XTM
商品A商品id销售额NameString>
XTM自动生成模块能够在底层的主题图模板、元数
据和规则文档的支持下自动生成主题图。其中元数据最为重要,因为它不仅能为XTM生成模块提供必要的元数据信息也即主题信息,而且描述了各主题之间的关系,是联系数据仓库各部分的主要纽带;而主题图模板则主要是为主题图的自动生成提供一个参照;此外,XTM文档的自动生成还需要一系列规则控制,转换程序通过对这些规则进行解释并得到可信数据作为输入,便可自动生成XTM文档也即主题图。
销售量
…………….
图4主题图自动生成模块
将第一张主题图合并到第二张主题图后生成的综合主题图对应的XTM代码为:
(2)主题图合并模块。主题图合并主要包括:一般的主题合并、基于事物的合并、基于主题命名约束的合并、主题图之间的合并等合并操作。在合并时应遵循的规则是:任何代表同一事物的主题、联系将被合并,重复的主题或者联系被删除;当两个主题被合并时,结果是一个主题,其特征元素是原来两个主题的并集【7-8】。若两个主题具有以下条件之一者则被认为描述了同一概念。①两者具有一个或多个相同的主题指示符;②两者在同一范围定义中有相同的基准名称;③它们具体化同样的可寻址的主题。在以上mergetest2.XTM
11期基于主题图的数据仓库模型1693商品A商品id
销售量销售额
生产地生产商……………..
这样当需要向数据仓库中集成新的数据源时,就可以先创建该数据源的主题图,然后通过主题图的合并将其集成到全局模式中,实现对数据源的加载。因此,主题图合并也即模式合并功能在很大程度上就提高了数据仓库的可扩展性。
联系;然后根据语义联系进行推理,挖掘潜在语义;最后在主题图及其挖掘的潜在语义的指导下完成
ETL过程。事实上主题图就是一种简单本体,通过它
可以建立数据源与数据仓库之间的语义联系,用其指导ETL过程便可以有效克服“信息孤岛”问题。
5结语
本文在深入分析主题图技术的基础上,针对传统数据仓库模型中存在的问题,提出了一种新的基于主题图的数据仓库模型。该模型通过主题图来指导ETL过程,提高了数据集成过程的语义性、可扩展性、灵活性等,克服了传统模型中存在的局限性。在今后的研究中,我们将在此基础上,依照该模型,实现一个基于主题图的数据仓库原型系统,进一步验证、完善该模型,为其在数据仓库建设中的具体应用提供有力的支持。
参考文献
1ImmonWH.BuildingtheDataWarehouse[M].王志海,林
友芳译.北京:机械工业出版社,2003:3-5.
2吴飞.数据仓库中基于本体的异构数据集成研究[D].江
苏:江苏大学.2006.
3潘宝娟.数据仓库/数据集市体系结构的改进[J].现代计算
机,2006,(249):15-18.
4艾丹祥,张玉峰.利用主题图建立概念知识库[J].图书情报
知识,2004,(2):48-50,53.
5MartinS.Lacher,StefanDecker.RDF,TopicMaps,andtheSemanticWeb.MarkupLanguages[J].Theory&Pratice,2002,3(3):313-331.
6吴雯娜.基于元数据、叙词表与主题图的数字图书馆知识
组织[J].情报学报,2006,25(S1)345~347.
4.2主题图指导下的ETL模块
该模块的主要功能是在主题图的指导下完成数据库中的数据到数据仓库的集成。在传统数据仓库模型中ETL的数据抽取过程简单、结构清晰,但在将数据库中的数据集成到数据仓库中时由于缺乏标准,常导致形成新的“信息孤岛”,与其他数据仓库不能兼容。为克服传统数据仓库模型中存在的问题,我们引入了主题图的概念,首先对数据库中的元数据进行主题分析,通过主题图建立各主题之间的语义
7刘茜.XTM主题图与知识组织体系互操作[D].四川:四
川大学.2003.
8马建霞.主题图技术在沙尘暴知识导航中的应用研究[D].
北京:中国科学院文献情报中心,2004.
9XMLTopicMaps(XTM)1.0[EB/OL].http://www.topicmaps.org/xtm/index.html,2008-02-20.
(责任编辑:徐
波)