您的当前位置:首页正文

大数据时代高校图书馆受到的挑战及其发展对策

来源:九壹网
第3期 李风念:大数据时代高校 书馆受到的挑战及其发展对策 到现在也没有形成统一的定义。 “大数据”最早用来描述为更新网络搜索索引需要 同时进行批量处理或分析的大量数据集。随着谷歌 MapReduce和GoogleFile System(GFS)的发布,大数 据不再仅用来描述大量的数据,还涵盖了处理数据的 速度。对大数据理解的共同点是:大数据不是对数据 量大小的定量描述.而是在种类繁多、数量庞大的多 样数据中进行的快速信息获取[3】。所以从某种程度上来 说大数据是一种数据分析的前沿技术。大数据技术的 战略意义不在于掌握庞大的数据信息,而在于对这些 有意义的数据进行专业化处理。 1.2大数据的特点 大数据不仅仅是数据量的体量巨大,而且它具有 大量化、多样化、快速化和价值密度低四大特点。 1.2.1大量化(volume): 数据量巨大,一般指在10TB规模以上的数据。遍 布世界各个角落的电脑、传感器、移动设备、在线交 易和社交网络每时每刻都在产生大量数据。大数据遍 及各行各业.企业、机构甚至个人的活动都在产生和 积累大量数据。 1.2.2多样化(variety) 数据类型繁多,包括结构化数据和非结构化数据。 大数据囊括了网络日志、视频、声频、图片、地理位 置信息、交易信息、科学数据集等。目前非结构化数 据已占数据总量的80%以上嗍。 1.2.3快速化(velocity) 处理多样化的海量数据。对速度的要求很高。对 大数据快速处理,才能了解迅速变化的环境并作出反 应,才能快速制定出合理准确的应对策略。 1.2.4密度低(veracity) 价值是大数据的终极意义所在,大数据的价值密 度很低,比如用户观看2小时的视频资源,其中有价 值的往往只有几十秒。而对海量的数据进行挖掘分析, 是大数据分析的难点。 1.3大数据的应用 1.3.1大数据在政治领域中的应用 各国军队通过最大限度地提升自己的存储、挖掘 和使用大数据的能力,能够挖掘高价值情报并快速作 出反应。美国中央情报局通过利用大数据技术.将分 析搜集数据的时间由63天缩减到27分钟[J】。大数据的 应用可以提高政策的预见性和响应性、提升公共服务 的质量和降低运营开支等。 1.3.2大数据推动经济的发展 大数据创造的经济价值有两个方面:一是围绕大 数据催生的硬件、软件及服务市场所产生的价值。二 是通过大数据推动相关行业产生的价值。大数据将显 著提升医疗、零售、金融、制造、能源等行业的价值。 这类价值规模更大,意义更深刻 1.3.3大数据推动科技的发展 大数据能直接引领互联网行业技术创新,技术能 让生物工程、海洋勘察、运动科学等越来越多的科技 领域的研究变得更加精细和准确.让我们能够更快地 走进科学、掀开科学神秘的面纱。 2高校图书馆正在迎接大数据时代的到来 2.1各种电子资源的积累,为高校图书馆提供了海 量数据 信息技术的发展促进了电子资源的增长,为高校 图书馆提供了海量数据。截至201 1年底,中文网页数 量达866亿个,年增长率达44.3%。文献的出版方式发 生巨大的变化,数字出版日益普及,截至2010年底. 中国电子书总量已达115万种,年新增18万种。单独 出版的数字报已达700份以上,电子期刊已近万种。 2010年底,清华图书馆机房有110台服务器,集中存 储1 70TB,国家图书馆资源总量达到470TBt ̄。 2.2手机上网、数字电视等网络业务的迅速发展, 使数据量呈指数上升 截至2011年底,中国网民人数达5.13亿,互联网 普及率达38.3%,手机用户突破9亿人,其中手机上网 达3.56亿,数字电视用户超过1 000万户,这为数字 图书馆提供了信息传输途径和服务渠道【 。近几年,移 动设备如雨后春笋。智能手机、平板电脑为学习者提 供了新的学习途径。并以其它设备无法比拟的优势提 高学习体验,与人产生更多的交互,使得数据快速增加。 2.3云计算、RFID、语义网、社交网络等新技术的 发展,为高校图书馆提供了广泛的数据来源 云计算具有超强的数据处理能力,为大数据的诞 生创造了物质基础。RFID技术,可实现图书自动借 还,智能盘点,自动分拣,图书位置与信息的实时跟 踪导航。以Facebook、Twitter/微博为代表的社会网络 体现了开放、共享、参与、个性化、用户驱动等Web2.0 特性。语义网使信息发生“革命”,从而上升到“知 识”的技术。 由此可见,信息技术的发展使高校图书馆具备了 大数据的特征。科学研究和科技创新越来越依赖于对 数据的管理和利用,学科知识服务依赖于大数据的分 析与挖掘。但是,要面临的数据非常复杂,高校图书 馆将遇到很多挑战。 农业图书情报学刊:工作研究 第26卷 3大数据时代高校图书馆面临的挑战 大数据对高校图书馆既提出了挑战.又提供了机 化和智能化的服务。在大数据时代,用户面对众多图 书馆的数据资源,深受大数据所带来的困扰,很难方 便、快捷、准确地检索到所需数据资料。高校图书馆 遇。挑战是高校图书馆数据获取、数据存储、数据处 理的模式,以及数据管理、数据应用及数据服务。机 要掌握读者用户、馆员乃至社会服务群体等的信息, 既要有当前通用的数据记录中的个人身份、借阅记录 遇是大量数据使高校图书馆能够精确把握用户群体和 个体网络的行为模式.从海量信息中快速准确找到用 户所需要的个性化信息,提升高校图书馆的数字知识 服务水平。当前,高校图书馆面临的挑战主要有以下3 个方面: 3.1网络结构设计 大数据时代,大量数据存储在分布广泛、不同地 域、各种类型的服务器中,用户发出搜索或查询请求 后,主要是服务器之间进行信息交换,最后将结果返 回给用户。这与以往的用户向服务器发出请求,由服 务器把结果返回给客户的垂直结构不同。以往的结构 已经不能满足大数据时代网络应用的需求。所以大数 据时代,需要新的网络结构设计.以适应Web2.0时代 的水平。 3.2数据的存储 大数据时代,数据产生的方式、范围、途径发生 了很大变化,人们的一举一动、一言一行等都将产生 出大量的数据。这些数据不但量大,而且组成结构、 类型格式、存在形态复杂。除结构化数据外,大量数 据是办公文档、文本、图片、XML、HTML、各类报 表、图片和音频、视频等非结构化数据。高校图书馆 存储这些复杂的数据具有极强的挑战性。不仅有技术 问题,也包括社会问题。 非结构化数据.其移动和修改将耗费大量的人力 物力,数据移动代价太高,读取效率也将越来越低。 更多的网络设备将同时访问数据中心,传统数据中心 难以适应快速变化,面临巨大压力。高校图书馆对数 据的存储和运算能力,决定着高校图书馆能拥有什么 质量、多少数量的数据。 社会问题指个人信息的隐私保护。高校图书馆的 大数据收集了读者用户的个人信息、搜索历史、地理 位置等大量信息,很可能威胁到读者的隐私,这也是 阻碍大数据被广泛应用的主要问题。如何安全的存储 和利用这些数据,在不暴露用户个人隐私的前提下为 用户提供优质的个性化服务是高校图书馆面临的又一 挑战。 3.3数据的处理 高校图书馆数据的处理包括两方面的内容:一是 帮助用户快速找到自己需要的资源,二是分析处理用 户行为数据,并加以利用,为用户提供个性化、准确 等结构化数据,还需要大量的存储信息行为、搜索方 式、行为痕迹等半结构化、非结构化数据[31。 随着社会信息化进程的加快,国内高校图书馆基 本实现了信息化建设.以互联网信息搜索、查询为基 础的知识信息服务逐渐被图书馆吸纳。成为图书馆服 务体系中不可或缺的一部分。尽管Web2.0等互动技术 提高了高校图书馆的个性化和人性化服务,但是程度 不高。大数据对高校图书馆提出了更高的服务标准, 要求高校图书馆不但能够通过结构化数据了解现在客 户需要什么服务,也能够利用非结构化数据、半结构 化数据深度挖掘高校图书馆与用户之间正在发生什么。 以及预测和分析将来会发生什么,从而使高校图书馆 能够找到更好的服务营销模式。 4大数据时代高校图书馆所要采取的对策 大数据时代高校图书馆需要采取的对策有: (1) 成立专门的数据管理机构.对数据进行管理,制定统 一的数据管理使用政策,协调校内外与大数据有关的 工作。(2)研究解决大数据的采集、存储及处理等相 关技术问题。 (3)培养一支高素质的数据管理队伍。 笔者在此主要探讨大数据存储和处理的技术层次上的 问题。 4.1大数据格式的统一 高校图书馆大数据中不同格式的数据越来越多, 其中包括电子邮件、数据日志、阅读记录.社交网络. 科研数据以及媒体数据等,格式不同,处理方法也就 不同.给数据处理带来了一定的麻烦。大数据的价值 密度低,不能直观的展现数据本身的意义,只有通过 统一格式,进行整合才能发挥出最大价值。所以需要 通过对来自不同结构资源的海量数据进行抽取、映射、 收割、导入等手段进行预收集,归并映射到一个标准 表达式,进行预聚合及融合,形成格式统一、内容丰富、 结构清晰的数据.灵活构建各种分类和界面,按照知 识本体进行组织和揭示.进而保障强大高效地检索能 力和良好地结果相关度排序。 4.2大数据的高效率、安全存储 大数据的高效率存储是高校图书馆面临的一个关 键问题。随着数据库技术以及云计算技术的迅猛发展, 大规模数据存储要借助非关系型的数据库分析技 第3期 李风念:大数据时代高校罔书馆受到的挑战及其发展对策 术 osQL、MapReduce和Hadoop[6]。这些技术简 单易用,能够并行处理大规模数据,非常适合非结构 数据的处理,也成为大数据分析领域的主流技术。大 数据存储也可采用基于云计算的分布式存储技术,利 用分布式的数据云存储技术和与之相关的虚拟技术能 够使高校图书馆的数据更加统一有序,使通过网络进 行的访问与存储更加方便快捷。 数据存储的安全性可以从两个方面采取措施:一 是个人数据保存多久,被用于什么用途将被设置权限; 二是高校图书馆要树立良好的职业形象,完善保障机 制。读者对自己的检索历史等数据有知情权,可以决 定自己的数据是否被图书馆利用,以及被用于什么用 途,以及多久之内删除这些数据。解除读者对个人隐 私的顾虑.让高校图书馆能够合法合理地采集到更多 的读者数据。 4.3非结构化数据的处理 大数据中的数据信息复杂多样,传统的数据分析 和挖掘对关系型数据,非结构化的、半结构化的数据 力不从心。高校图书馆中待处理的非结构化数据与读 者兴趣密切相关,通过分析为读者提供个性化服务非 常重要。当前使用的方法是基于内容的推荐方法和协 同过滤的推荐方法[5]。协同过滤法是目前最为成功的算 法,但也存在着读者兴趣变化、数据稀疏性、读者评 分的真实性及差异性等问题,根据读者信息数据构建 个性化读者行为模型。结合基于读者行为的协同过滤 算法,挖掘模型中存在的规则,从而产生个性化服务 值得研究。 高校图书馆利用数据挖掘、数据检验、相关性分 析、回归分析、聚类分析、社会网络分析等方法对用 户检索、浏览以及下载不同学科文献的数据进行分析 归纳,可以得出不同学科被用户的关注程度,从而对 热点学科进行分析和预测。同样通过分析数据.构建 模型,展示学科、学者、期刊、文章、时间之间的关 系.可以得出某一时期某一学科的科研热点.使科研 人员、科研部门更快地洞察最新的科研走向,以及该 领域科研人员的研究进展。 个性化服务是指在分析预测用户个体信息需求的 基础上,向用户主动提供其可能需求但又无法获取的 信息资源的服务方式,是解决海量信息困惑问题的重 要方法。高校图书馆存有用户信息行为产生的大量数 据.如用户查询书目、借还书籍、检索浏览下载电子 资源等产生的日志数据。高校图书馆可以通过对这些 数据进行分析挖掘,描述读者行为,定位读者需求, 为读者提供推送式服务。 参考文献: 【1]李志刚.大数据:大价值、大机遇、大变革【M】.北京:机械工业出版社, 2012. [2】Big Data is a Big Dea1.http://www.whitehouse.gov/blog/2012/03/29/big —data—big—dea1. [3]韩翠峰.大数据带给图书馆的影响与挑战[J].图书与情报,2012,(5): 37—40. 【4】姜山,王刚.大数据对图书馆的启示叨.图书馆工作与研究,2013,(4): 52—54. 【5]朱静薇,李红艳.大数据时代下图书馆的挑战及其应对策略叨.现代 情报,2013,(5):9—13. [6]周和平,等.加快实施推广工程建设覆盖全国的数字图书馆服务体 系——在数字图书馆推广工程馆长培训班上的讲话 .国家图书馆 学刊,2012(10):5—13. 

因篇幅问题不能全部显示,请点此查看更多更全内容

Top