第24卷第3期 连云港职业技术学院学报 Vo1.24 No.3 2011年9月 Journal of Lianyungang Technical College Sept.2011 文章编号:1009—4318(2011)03—0015—03 基于数据仓库技术的高校联机事务分析系统设计 陈 军,王振 (连云港职业技术学院信息工程学院,江苏连云港222006) 摘要:简要介绍了使用数据仓库技术来解决高校信息化建设中联机事务处理数据、历史数据和外部数据的异构、编码不统 一、数据采集困难等问题的方法。 关键词:联机事务分析系统,数据仓库,数据挖掘 中图分类号:G647 文献标识码:A 高校信息化建设中不仅包括联机事务处理系统 2.1业务需求分析 (OLTP),同时,也包括了联机事务分析系统(OLAP), 业务需求分析是数据仓库建设的基础。在这个 常见的事务分析系统包括:招生决策系统、就业决策 阶段需要设定可达到的目标,并明确所有的需求;确 系统、专业发展决策系统,图书管理分析系统等。 定主题和数据源。 在联机事务分析系统中多采用数据仓库技术、数 主题的抽取应该按照分析的要求来确定。综合 据挖掘技术和异构数据集成技术,为领导层、教师和 学校各部门中招生、教学、就业、科研、后勤等宏观分 学生提供所需的决策分析数据。 析领域涉及的各种分析对象,可以得到一系列的主 1整理高校历史数据 题,然后根据不同的主题选取所使用的数据源。 事务分析决策往往要用到大量的历史数据,只有 2.2逻辑模型设计 进行长时间的历史数据的积累,数据仓库才能为决策 逻辑模型设计主要是指数据仓库的逻辑表现形 者的长期决策行为提供良好的数据支持。 式。根据高校业务需求分析,确定数据仓库主题,既 信息化建设之初,学校存在大量没有形成数字化 要确定事实表的粒度和必要的维,又要确定维的属 的历史数据。个别部门有部分数字化的历史数据,由 性。设计时采用星型多维模型,这种数据模型直观且 于数据库结构和编码的不同,不能直接使用。为了利 简化了数据结构,有助于提高查询的性能。数据仓库 用好历史数据,可以采取以下手段: 中的每一个主题对应于一个星型模型结构,由事实表 (1)对于已经数字化的历史数据,可以分析它和 和若干维表组成,并按不同的粒度来存储数据。 目前同类数据库结构及编码的变化,设计出转化方 2.3物理模型设计 案,进行数据转换; 物理模型设计主要包括数据仓库物理模型实现 (2)对于没有数字化的历史数据,需要根据决策 和硬件平台配置。这里重点考虑存储策略和索引技 的需要,逐步建立建健全数字化的历史数据。 术,所有表的存放都要充分利用并行处理技术和多线 2数据仓库的设计与实施 程技术,以此来提高数据仓库性能。在数据仓库环境 下,主要使用位图索引和联合索引,加快今后查询的 数据仓库的设计与实施是高校联机事务分析系 速度,同时还可以建立很多汇总表和视图。 统从事务处理发展到事务分析关键,联机事务分析系 高校联机事务分析系统数据库包含文本数据、音 统(OLAP)的成功取决于数据仓库建设的质量。在数 频数据、视频数据等多种数据表现形式,一般情况下 据仓库建设过程中包括以下步骤。 高校联机事务分析系统数据库大约为几十个GB到 -收稿日期:2011—06—27 ・l6・ 连云港职业技术学院学报 2011年第3期 几百个GB之间,比较普通数据库而言信息量要大的 多。 3 数据抽取 数据抽取是数据进入仓库的入口。数据仓库的 数据并不要求与高校联机事务处理系统保持实时的 数据仓库是对大量数据的存储和管理。在目前 只有大型关系数据库系统能够担当此任。关系数据 同步,数据抽取定时进行,为每个主题设置抽取的时 库经过近3O年的发展,在数据存储和管理方面已经 问,并且根据实际情况设置多个抽取操作相互的顺 非常成熟,不少关系数据库系统已支持数据分割技 序,以上因素和抽取的成败对数据仓库中信息的有效 术,能够将一个大的数据库表分散在多个物理存储设 备中,进一步增强了系统管理大数据量的扩展能力。 高校联机事务分析系统的操作型事务处理数据 可采用Microsoft SQL Server 2000进行管理,在Microsoft SQL Server 2000中集成了在线分析处理(OLAP),提供 可扩充的基于COM的OLAP接口。数据传输服务 DTS提供数据输入/输出和自动调度功能,在数据的 传输过程中可以完成数据的验证、清洗和转换等操 作 通过与Microsoft Repository集成,共享有关元数据, Microsoft Repository存储包括元数据在内的所有中间 数据;SQL Server OLAP Services支持在线分析处理; PivotTable Services提供客户端OLAP数据访问功能, 开发人员可以用VB或其他语言开发用户前端数据 展现程序,还允许在本地客户机上存储数据。 数据仓库的决策支持查询的优化。这主要针对 关系数据库而言,在技术上,针对决策支持的优化涉 及数据库系统的索引机制、查询优化器、连接策略、数 据排序和采样等诸多部分。高校联机事务分析系统 采用扩充的关系数据库则引入了位图索引的机制,以 二进制位表示字段的状态,将查询过程变为筛选过 程,单个计算机的基本操作便可筛选多条记录。扩充 的关系数据库中对连接操作可以做预先的定义,即连 接索引。它使得数据库在执行查询时可直接获取数 据而不必实施具体的连接操作。数据仓库的查询并 不需要像事务处理系统那样精确,但在大容量数据环 境中需要有足够短的系统响应时间。因此,在系统设 计时可使用SQL Server2005数据库系统增加的采样数 据的查询能力,在精确度允许的范围内,大幅度提高 系统查询效率。 数据仓库支持多维分析的查询模式,这也是关系 数据库在数据仓库领域遇到的最严峻的挑战之一。 用户在使用数据仓库时的访问方式是基于用户业务 的分析模式,即联机分析。它的特点是将数据想象成 多维的立方体,用户的查询便相当于在其中的部分维 (棱)上施加条件,对立方体进行切片、分割,得到的结 果则是数值的矩阵或向量,并将其制成图表或输入数 理统计的算法。 性至关重要。 异构数据的抽取是数据抽取的难点。高校联机 事务分析系统在信息化过程中遗留下来大量基于各 种业务流程和异构数据源的应用系统。这些系统数 据有自身的特点,其它系统很难使用别的系统的数 据,在高校管理部门内部产生了信息“孤岛”,阻碍了 高校联机事务分析系统信息化进程。 为了解决异构数据源的集成,消除信息“孤岛”, 必须解决数据源的异构性、透明性和自制性。在高校 联机事务分析系统的数据仓库中,许多主题的早期数 据必须从其他系统中抽取,由于数据管理系统的多样 性,数据属性名含义、编码和标准的不一致性,导致在 数据抽取非常困难,给信息共享带来了极大的不便。 解决多格式数据源集成方式大致有三种:数据格式转 换模式、数据互操作模式、直接数据访问模式。 (1)数据格式转换模式是传统数据集成方法。在 这种模式下,其他数据格式经专门的数据转换程序进 行格式转换后,复制到当前系统中的数据库或文件 中。 (2)数据互操作模式是Open Geospatial consoritum (OGC)制定的规范。互操作是指在异构数据库和分 布计算的情况下,用户在相互理解的基础上,能透明 地获取所需的信息。根据OGC颁布的规范,可以把 提供数据源的软件称为数据服务器(Data Servers),把 使用数据的软件称为数据客户(Data Clients),数据客 户使用某种数据的过程就是发出数据请求,由数据服 务器提供服务的过程,其最终目的是使数据客户能读 取任意数据服务器提供的空间数据。 (3)直接数据访问模式指在一个软件中实现对其 他软件数据格式的直接访问,用户可以使用单个软件 存取多种数据格式。直接数据访问不仅避免了繁冗 的数据转换,而且在一个软件中访问某种软件的数据 格式不要求用户拥有该数据格式的宿主软件,更不需 要该软件运行。直接数据访问提供了一种更为经济 实用的多源数据集成模式。 4数据仓库元数据的管理 第24卷第3期 陈军,王振:基于数据仓库技术的高校联机事务分析系统设计 ・17・ 元数据是关于数据的数据。元数据涉及到数据 列,目的是为了预测未来发展趋势,寻找相似的发展 仓库构造、运行、维护的整个生命周期。按照元数据 模式或发现周期性发展规律。 的使用情况和面向对象的不同,可以将元数据分为业 6决策支持系统的分析工具 务元数据、技术元数据。业务元数据用业务名称、定 义、描述和别名来表示数据仓库和业务系统中的各种 属性,直接供系统使用人员使用。技术元数据描述了 数据源、数据转换、抽取过程、加载策略以及目标数据 库的定义等。在实际应用中业务元数据和技术元数 据是相互参照和关联的,对业务元数据的全面了解、 描述、表达能够推动数据仓库的应用。对系统中的技 术元数据的获取、描述、应用,能够使数据及时、正确 地得到应用和维护。 高校管理者进行分析决策使用的工具操作要简 单,但提供的功能则要非常强大。开发用于决策支持 系统的分析工具——查询工具、分析工具、C/S工具、 OLAP工具及各种数据挖掘工具,通过分析工具实现 决策需求。 高校数据仓库建设不能一蹴而就,要长时间的维 护。除了为已存在的主题定期抽取数据,保持决策分 析的有效性外,还要根据学校需求添加新的主题,并 5 数据挖掘 高校联机事务分析系统是对现实高校中的一切 对象和行为进行模拟的信息系统,其数据库中丰富的 数据和信息包括自然信息和人类社会活动信息,高校 联机事务分析系统中所需要的许多知识就可能隐藏 在数据库中。在系统中利用DM技术,从高校联机事 务分析系统的数据中得出有关校内教学、工作、学习 的有关规律,必将为高校联机事务分析系统的应用和 发展提供新的手段和方法。 方面,高校联机事务分析系统的应用需要DM 技术的帮助,这种需要使得高校联机事务分析系统必 将成为DM的一个极好的应用领域。另一方面,DM 在高校联机事务分析系统中的应用必将促进DM自 身的发展。 高校联机事务分析系统中可使用的DM的方法 包括: (1)归纳与演绎法是从数据库中获取知识的最 基本的方法,即从多个已存在的事实中归纳出规则。 在高校联机事务分析系统中,任何类型的数据在进行 抽象和概括时,均可用到此方法。 (2)序列分析法用于发现一定时间间隔内接连发 生的事件,该方法在数据仓库中应用广泛。 (3)时间序列分析法是随着时间而变化的事件序 一重复以上操作。长此以往,才能逐步建设起完善的高 校联机事务分析系统。 参考文献: [1] 李群力,肖锋.数字化校园架构浅议[J].重庆工学院学报 (自然科学),2OO'7,21(5):107—110. [2] 张俊平.基于数据仓库的高校信息决策系统的设计研究 [J].浙江工贸职业技术学院学报,2006,(6).47—51. [3]谢文阁,江婷,韩冷.基于数据仓库技术的高校教学分析 系统的研究与设计[J].湘潭大学自然科学学报,2008, (6):113—115. [4]王玉芬,张治斌,李长江.数据仓库在高校决策支持中的 应用研究[J].陕西理工学院学报,200r7,(12):17—20. [5]孟志青,游峰,郭云七.分布并行结构的数据仓库成绩管 理系统[J].计算机系统应用,1997,10(2):2—5. 作者简介:陈军(1976一),男,江苏连云港人,连云港职业技 术学院讲师、计算机调试技师,主要从事计算机硬件技术、软 件开发及研究。 Design of On——line Analytical Processing in Universities Based on Data Warehouse Technology C皿N Jun.W_ANG Zhen (Lianytmgang Technical College,Lianyungang 222006,China) Abstract:Data warehouse technology is introduced to solve such problems as on—line analytical processing,diferent structures of historical data and external data,inconsistent coding and dififcult data acquisition. Key words:OLAP;data warehouse;data mining