信息科学 2科0技10年第8宰焦藉 期 数据挖掘在图书馆的应用分析 胡瑛 (乐山师范学院图书馆,四川乐山614004) 摘要信息技术正从数据处理向数据应用转变,图书馆迫切希望将多年来在数字化建设中形成的数据集进行面向过程、主题的抽取和分 析,形成支持决策的分析数据和报表,从而改进图书馆的管理和服务。数据挖掘(Data Mining)这一技术下正是为数据从处理向使用转变 的技术解决方案。 关键词数据仓库;数据挖掘;分析系统;个性服务;wEB服务 中图分类号G25文献标识码A 文章编号1673—9671一(2010)042—0028—02 信息技术的发展改变了读者对图书馆资源索取和利用的方式和手 信息服务提出更高的要求。 段,提出了新的服务要求,图书馆不得不采用新的技术手段来满足或适 应读者的需求,图书管理系统在技术自动化、信息处理多元化等方面较 2数据仓库与数据挖掘技术 以前有了很大的提高,对数据库技术的普遍应用较好地解决了读者在时 数据仓库实际是一个以大型数据管理信息系统为基础,附加在这些 间、地域的问题,方便读者快捷地索取资源。但是读者对信息索取 数据库系统之上并存储了从所有业务数据库中获取的综合数据并能利用 这些综合数据为用户提供经过处理后的有用的应用系统。数据挖掘就是 的查准率仍然不高,如何将图书馆的众多信息上升成为读者知识等问题 依然没有解决,甚至变得更加严重。究其原因是:信息成几何数增长 在庞大的数据库中找出有价值的隐藏事件,并且加以分析,归纳出有用 的结构,获取有意义的信息 作为决策的依据的方法和过程,建立数据 的同时,图书信息管理系统(MIS)依然是面向处理的、关注数据的管 理,是一种联机事务处理系统(OLTP),没有从数据使用的角度进行 仓库的最终目的是为数据挖掘做好数据准备。 分析和挖掘,实现面向主题的、支持决策的功能的联机分析处理系统 2.1数据仓库是基于数据库管理之上的信息管理 (OLAP),为此我们不仅要将计算机在数据管理上发挥作用,更重要是 建立数据仓库并不是取代图书馆原有的联机事务处理系统,而是将 在数据分析、信息服务上体现出高效、快捷的功效。 图书馆不同的数据库管理系统中的联机处理数据按一个统一的视图组织 并存储,不改变原有数据的基础上进行清理、转移、分析、映射、总结 1图书馆信息服务现状 和综合,形成统一的存储格式,建立新的数据模型,并按其关键技术分 信息、数据、知识的提升过程在信息社会中已被众多机构瞄准,他 为数据抽取、存储和管理以及数据表现三个基本方面,数据仓库离不开 们的管理和服务正撼动着图书馆信息服务的主体地位,近年来许多I p公 原的数据库系统,必须以原有的数据库系统为基础和数据采集源。 司宣布开拓知识服务,建立基于文献服务的知识创新,于是有人惊呼图 2.2数据挖掘的核心是知识发现 书馆将走向没落和消亡,图书馆将被替代,调查表明图书馆的用户群正 数据挖掘和知识发现是同一过程,其手段是从数据库和数据仓库中 逐年流失,用户将获取知识的途径转向互联网,依赖搜索引擎。为此, 提取所感兴趣的知识、或更高层次的信息,将过去的、历史的数据进行 我们不得不审视图书馆信息管理和服务的现状。 数据统计、形成能预测将来、支持决策的信息,并以图形、图表的形式 1.1信息不虞和信息过剩问题变得越来越严重 反映,知识就能够准确、安全、可靠地从数据库取出数据。 信息以数字形式在图书馆界得以应用和普及,数据以比特流在网络 3数据挖掘在图书馆信息管理中的应用 中传播和利用,滚雪球似地被用户加工和完善,面对如此众多的数据, 在图书馆信息服务领域,利用数据仓库和数据挖掘技术,不仅可以 如何找到有用的信息,成为知识,成为信息社会最大矛盾。今天,用 了解用户访问图书馆的目的、特征和趋势,而且可以在了解用户的兴趣 户真切地感受到了“信息贫乏”(Information poor)和“数据关在牢笼 和需求的基础上,改进服务质量,变被动服务为主动服务,同时还可以 中”(datainjail)的无奈,奈斯伯特(JohnNaisbett)就曾惊呼“We are 为资源购买提供及时、准确、可行的信息决策依据。目前,图书馆在 drowning in information,but starving for knowledge”(人类正被数据淹没, 经历了十年的数据库建设和管理,已积累了大量的、实在的数据使用记 却饥渴于知识!)的精辟论断,这说明信息的数量和用户需求的矛盾越 录,为建立数据仓库提供了理想的数据储备。 来越突出。 3.1图书馆集成管理系统中的数据挖掘 1.2信息用户松散使得我们难以把握用户的需求 图书馆管理系统是根据传统手工借阅和卡片目录实现计算机管理而 1)读者的在跨地域和时间使用图书馆资源、享受图书馆的服务, 设计的一种计算机软件,此软件能快速地将图书馆传统手工业务通过计 图书馆提供了诸如留言簿(Guest Book)、电子邮件(Email)、在线服 算机和网络实现读者服务,增强工作效率,达到理想的用户服务。但是 务(Online Service)、虚拟参考咨询服务(VisualReferenceService)、点 新的问题随之而出,在这个信息技术不断革新升级的过程中,图书馆业 对点服务(P2P软件,如MsN等)等新的服务手段和交流渠道,让我们 务自动化的软件数据成几何级的数量增长,软件升级和更换成了图书馆 对他们的需求变得难以掌握,但是每一种服务平台(系统)都产生自己 管理软件发展不得不面临的问题,数据和日志由于数据量大和系统的异 的系统日志,反映用户在当前平台下的利用情况,我们称为日志数据源 构性,致使大部分数据成为历史数据,甚至成为垃圾数据而存在,图书 (Logs Source Data),过多的数据源增加了数据综合分析统计和报表的 馆不得不保存这些垃圾数据,随着时间的推移,部分用户抛弃了这些数 难度。2)图书馆在信息化建设中多平台、异构系统的广泛应用,数据 据,有些图书馆对数据遗弃感到价值贬值,作为管理者和经营者,更多 孤岛现象越来越严重,我们在面对数字化建设进程中所积累的大量用户 地希望通过对历史数据的采样和分析,获得读者阅读习惯、阅读动态数 访问日志和资源使用日志,我们却束手无策,无法真正获取读者的需求 据,了解馆藏结构和发展变化,充分掌握馆藏的情况,根据分析报告指 和评价资源的依据,我们急需技术创新。 导图书馆业务工作。 1.3图书馆2.0带来新的挑战 3.2电子资源系统中数据挖掘 Web2.0最重要的理念是以用户为中心,图书馆应本着“以人为本、 现代图书馆,电子馆藏已成为必要的组成部分,各个商业数据库从 开放、实用、易用”的经营理念和服务于用户的态度,保持最大程度的 访问方式和系统架构都趋于多样化、复杂化,图书馆要想获得使用情况 中立性,充分整合各类开放资源,来构建一种开放、主动、互动的创新 的分析,不得不依赖商业公司提供的有限的报表支持功能,且系统间的 氛围,并利用自己的核心资源和核心能力发展事业。Web2.0强调用户参 数据不能实现共享和综合分析,即信息系统还不足以支持决策,图书馆 与和协作,能为用户带来真正的个性化和信息自主权。Lib2.O走出了本 要进一步全方位综合地分析和处理,具有本馆特色的分析,才能从根本 馆的概念,在资源建设上走向合作和分工,信息发送者和使用者已没有 上多面(multiply tub)分析数据,通过数据挖掘技术对电子资源进行综 严格界限,保证信息不失真和严谨、对信息的有效识别变得难以把握, 合评估、分析、对比形成资源在本馆的价值分析系统。 图书馆在从信息管理上升到知识管理的难度越来越大,2.0时代对图书馆 3.3图书馆留言、FAQ等虚拟咨询台信息的数据挖掘 蔫辜蠹蟊 信息科学 29 基于图书馆网站的第二服务平台,其形式和手段都得以改善和提 高,用户可以通过网络平台进行咨询,获取图书馆的服务,一系列的虚 拟参考服务系统(平台)在图书馆得到广泛的应用,解决了在网络环境 对下用户与图书馆员间的沟通和互动,但是这些信息相对零散,虚拟参 考平台侧重于从技术手段改进,没有从根本上解决语义分析,知识提取 的功能,采用数据挖掘技术,将用户咨询问题,解答日志进行分析,通 过一定的计算机模型,让计算机模仿和学习,通过网络计算机以人的方 式分担馆员的部分咨询和服务。 信息的搜集订购。 3)对web访问信息的挖掘,可以发现信息资源的缺漏。另外,利用 路径分析模式采掘捕捉用户频繁浏览访问的路径改进数字图书馆站点结 构设计。 4.3存在的问题 数据挖掘是在大量的数据中发现潜在的、有价值的模式和数据间关 4数据挖掘对图书馆管理与服务的改进和存在的问题 4.1个性化服务 系(知识)的过程,这一领域还有面临诸多问题:各种数据挖掘问题及 挖掘方法基于不同的模型和技术,彼此互相孤立,联系很少,缺少简明 精确的问题描述方法,挖掘的语义通常是由实现方法决定的。数据挖 掘系统仅提供孤立的知识发现功能,难于嵌型应用,数据挖掘引擎 个性化服务指的是以用户为中心,基于用户的信息使用行为、习 与数据库系统是松散耦合。到目前为止,数据挖掘行业是高度分散的, 惯、偏好、特点及用户特定的需要,向用户提供满足其个眭化需求的信 需要计算机专业技术人员和图书馆管理专家的共同的参与,特别是在粒 息内容和系统功能的一种服务,包含两方面的含义:首先是针对不同的 度、维度和元数据的设计方面需要资深的、掌握本馆各种业务概况的管 用户所提出的不同的信息需求提供有针对性的信息服务,包括信息咨 理人员参与,方可针对本馆的科学模型,提供联机分析。 询、信息结果推送等;其次是通过对用户信息或者是对用户的信息需求 5结束语 历史进行数据分析从而发现用户对信息的潜在需求,从而实现对用户进 目前,图书馆界的学者利用各自不同的技术和方法对数据挖掘进行 行主动的、符合其要求的、有用的信息服务。因此,用户的兴趣、习 了卓有成效的研究,在数据挖掘应用方面已取得了一定的成果。但是数 惯、偏好和特点是个性化服务的起点,先进的技术是个性化服务的重要 据挖掘还面临着如数据挖掘语言的标准化、对多种类型、多层次知识的 手段,针对性、主动性是个性化服务的特点。对于数字图书馆来说,个 有效挖掘方法;在实施方面图书馆管理行政化特点还相对浓厚,还不能 性化服务首先应该是利用现代网络、人工智能等计算机技术,提供能够 完全按企业标准在实施;在技术手段上如何在lntemet网进行快速有效的 满足用户个体信息需求的服务即根据用户提出的明确要求为其提供信 数据挖掘、数据挖掘中的隐私保护与信息安全等问题。不过数据挖掘在 息咨询、信息检索、信息收集、信息整合等一系列的综合性信息服务机 其他行业已取得了骄人的成就,特别是在企业的ERP,CRM系统中为决 制;其次个性化服务应该是一个研究、分析、实现的过程,即对不同 策者提供强有力分析数据支持。图书馆在竞争日益激烈的情况下和行业 用户所有信息的历史数据包括用户的信息检索、信息查询方式等方面进 多元化的推动下,图书馆的管理手段和服务能力将更多的依赖先进的技 行研究,分析他们之间的特殊性和共同性。并从中获取不同用户的不同 术手段,数据挖掘这一技术将在图书馆得到合理的开发和应用。 信息特征,然后把这些信息特征加载到数字图书馆个性化信息服务系统 中,从而实现数字图书馆对用户需求信息的个性化服务。这两方面都离 不开对数据的分析和挖掘,不得不借助于联机分析处理系统。 参考文献 4.2改善馆藏结构.指导资源建设 [1]王蔚擞据仓库与WEB技术应用研究[J1.图书馆研究,2007,3:11-14. 传统图书馆信息采集多由采访人员独自确定或与少数专家同共商讨 [2】李小平,李军.图书管理系统中的数据挖掘应用『J].贵,his.业大学学报,社会科 决定,甚至成立文献采购委员会,均不可避免地带有极大的主观性以及 学版,2007.9(3):206—208. 个人喜好。利用Web数据挖掘,至少可以从以下三方面搜集广泛的信息 [3】罗晓沛墩据库技术北京[M】:清华大学出版社,1999,6. 需求,聚集用户智慧,达到信息资源的优化并提高针对性:1)可以对 [4]刘俊熙.Web挖掘过程和元数据的运用【J】_情报杂志,2004,2:30—33. 流通记录、检索请求进行分析,按类统计文献借阅信息的频繁度,有针 [5]杨宝森.面向学科的Web数据挖掘研究『J1.情报杂志,2006,3:19—21. 对性地补充和丰富信息资源;可结合文献的利用率,及时剔除过时的文 [61t建平.数据挖掘技术的发展与研究fJ1.情报杂志,2007,6:79—81. 献信息,或减少部分文献信息的复本量或共享站点数。另一方面,对用 [7]欧阳烽.Web数据挖掘与高校数字图书馆个性化服务[J].数字图书馆论 户每次借阅的文献进行关联分析,发现各类文献间的关联规则或比例关 坛,2008.1:103—105. 系,优化信息建设或馆藏布局。 [8】李默.基于Web的数据挖掘技术在数字图书馆中的应用阴.大学图书馆情报学 2)收集整理并重构图书馆网上咨询、荐购书刊等栏目中的数据, 刊,2007.4(25):44—46. 使之转化为标准的结构化数据,利用数据挖掘方法发现用户兴趣模式, [9]林建勤.数据挖掘主要问题的对策研究[J].贵阳学院学报:自然科学 甚至可以预先发现用户群体兴趣的变迁,调整馆藏方向,提前做好文献 版,2007.6(2):1—4. (上接第65页) 表l 4种加固方法特点比较 加固方法 桥面补强层加固 粘贴钢板布加固 粘贴碳纤维布加固 喷射混凝土加固 比较 编号 1 2 3 4 增加原结构自重程度 增加结构自重 增加结构自重和断面尺寸 不增加结构自重和断面 尺寸 增加结构自重和断面尺寸 1>4>2>3 施工难度 施工工艺不复杂,施工质量控制有一 施工工艺简单,施工质量 施工工艺简单,施工质 工艺复杂,施工质量不易 定难度 易控制 量易控制 控制 4>l>2>3 对原结构产生损伤程度 对原结构产生扰动 性损伤 对原结构产生扰动性损伤 不对原结构产生损伤 对原结构产生扰动性损伤 1>4>2>3 施工成本 工期短,较经济不 工期短,较经济能有效封 工期短,原材料价格较 能有效封闭裂缝 闭裂缝 高能有效封闭裂缝 工期稍长,成本高能有效 封闭裂缝 4>3>2>1 加固效果 增加原构件强度和 刚度,基本能处治 增加原构件强度和刚度, 提高原构件承载能力, 增加原构件强度和刚度, 究尚待研 单板受力病害 不能处治单板受力病害 不能处治单板受力病害 能处治单板受力病害 比较 ,无法 适合加固对象 适合所有桥梁 适合加固现浇梁板 适合加固T梁桥和整体现 适合混凝土质量差、预制 浇梁板 板结构桥梁 影响外观程度 加固后不影响外观 加固对外观影响不大 加固后不影响外观 加固影响外观 4>2>1:3 参考文献 [2]张嘉林,田晓晨.旧桥下部结构贴钢板加固方法研究[J].建筑科技与管 [1]朱娜,赵力.既有桥梁上部结构的维修加固方法IJJ.科技创新导报,2008,31 理 2009.3.