第18期 2018年9月 无线互联科技 Wirele SS Internet TechnologY No.18 September,2018 大数据聚类算法的研究现状与展望 于怨 李慧敏 (福建船政交通职业学院信息工程系,福建福州 350000) 摘要:在大数据时代,如何有效利用数据是目前的研究重点,大数据聚类是其中的一个挑战性研究课题。文章对大数据聚 类算法进行了综述。首先,介绍大数据聚类算法的分类及比较;其次,归纳大数据聚类算法在4个关键领域的研究现状;最 后,总结了大数据聚类算法面临的挑战并对未来的研究方向进行了展望。 关键词:大数据;聚类算法;用户数据挖掘 当前,各个领域每时每刻都产生了大量的数据,我们己 器,让它们并行运行聚类算法,以此提高速率,并且后续可 进入大数据时代。谁能有效分析和利用这些海量数据,谁将 以很方便地进行扩展。 掌握创新和转型的关键。其中的一项关键技术就是大数据 Map Reduce是一种将任务分布在大量的服务器上执行 的聚类算法,在商业、农业、移动网络、医疗、科学、教育等 的任务分解机制。目前已有大量研究将各种传统聚类算法改 应用领域都具有重要应用价值。 写成Ma口Reduce版本,并通过实验证明了可行性。 1 大数据聚类算法介绍 2各应用领域研究现状 文中将已有的大数据聚类算法划分成两种:单机聚类算 目前大数据聚类算法的应用才刚起步,我们需要探索更 法和多机聚类算法【】】。 多、更高效的应用模式。商业、农业、移动网络、医疗、科学、 1.1单机聚类算法 工程、法律、教育等特定领域都能看到大数据聚类算法应用 单机聚类算法主要有传统聚类算法、基于抽样的聚类以 的影子。下面从几个关键领域来分析大数据聚类算法的研究 及基于降维的聚类3种。 现状。 传统聚类算法包含分区聚类算法、分层聚类算法、基于 2.1商业应用 密度的聚类算法、基于网格的聚类算法、基于模型的聚类算 商业智能f2】可以说是大数据聚类应用的“前辈”,对企 法。其中,分区聚类算法根据点和点之间在单个分区中的分 业内部的大数据进行聚类分析,可以挖掘出很多隐藏的规律 离距离聚类;分层聚类算法根据数据的层次进行划分;基于 和知识,这可能是企业创新和转型的关键。目前已经广泛应 密度的聚类算法能发现不同密度的区域;基于网格的聚类能 用于客户关系管理、异常消费行为检测、股票数据分析等方 降低算法复杂度;基于模型的聚类算法可以较好地避免测 面。比如说通过聚类从客户基本信息库中挖掘出不同的客户 量划分的不确定性问题,但是速度较慢。 群,更准确地了解客户的使用行为,以此制定新的策略。 基于抽样的聚类算法先从大数据中抽取一个样本,对 在金融领域,大数据聚类的应用也在快速发展。在各大 样本进行聚类,再应用到整个大数据上,提高了效率并节 商业银行中,利用大数据聚类的结果,针对性地制定个性 省了空间。抽样聚类主要有以-F3种聚类算法:基于随机选 化产品来满足客户的个性化金融需求,增加客户忠诚性。海 择的聚类算法(CLARANS)、利用层次方法的平衡迭代 沫等『3 根据盈利能力指标、偿债能力指标、资产管理质量指 规约和聚类(BTRCH)和针对大型数据库的高效的聚类 标等15项财务指标对中国股票市场上所有上市公司进行了聚 算法(CURE)。其中,CLARANS的优势在动态处理上; 类实验,得到股票板块分类,为投资者的投资决策提供有益 BTRCH提高数据处理效率的方式是充分利用其自身的数据 参考。 结构节省空间;CURE的特点是用一组分散的数据点来表示 在通信领域,王海晶 将聚类结果结合运营商生命周期 聚类,这样能较好地表示不同类型的聚类。 理论,分析得到了不同的用户群,然后分别从用户个性化营 基于降维的聚类算法是在聚类时先对两个主要维 销策略方面和用户挽留策略方面提出了相关的对策建议,为 度——变量的数量和实例的数量中的一个进行预处理,通 黑龙江移动公司的发展提供决策参考。 过降维可以消除无关信息和冗余信息,同时缩小样本空间, 2.2农业应用 有效改善高维度下的复杂性,降低失误率。 在农业领域,大数据聚类算法也应用广泛,因为农业数 1.2多机聚类 据具有没有先验知识的特点,通过有效聚类可以挖掘到隐藏 多机聚类又分为并行聚类和基-T-Map Reduce的聚类。 其中的规律和知识,为农民的种植、养殖等生产、销售环节 并行聚类是指将数据进行分块,然后分发给不同的机 给出指导意见。 基金项目:福建省教育厅中青年教师教育科研项目资助;项目名称:基于Hado0p平台的大数据挖掘算法优化研究;项目编号:JA15657。 作者简介:李慧敏(1985一),女,福建仙游人,讲师, ̄-t--;研究方向:网络与智能信息技术的教学。 ——157—— 第18期 20l8年9月 No.18 无线互联科技·技术应用 September,2018 2013年,张焕君等[9 提出了基于模糊聚类分析的临床路 径决策方法,栗伟等[】叫使用短文本白适应聚类算法解决电子 病历中医学名词的识别问题。Lenart等口 对患者的血压、血 红蛋白等生理指标进行聚类,聚类结果将慢性肾病患者划分 成几个群,分别对应慢性肾病发展的不同阶段。孙磊磊 使 2_3移动网络应用 用改进的AP聚类算法对电子病历进行数据挖掘,将人口统 随着时代发展,移动终端(如手机、传感器等)和应用也 计学信息和诊断信息进行聚类得到病人分组,将联合用药网 越来越多,产生了大量的数据。其中,比较有价值的就是轨 络进行聚类挖掘出联合用药模块,对治疗记录进行聚类得 迹数据,目前人们主要通过语义轨迹聚类挖掘相似性用户、 到典型治疗方案,最后对照病人分组和治疗记录评估典型治 推荐用户下一个目的地以及轨迹数据中热点区域识别。 疗方案的可行性。 于拮 提出了基于聚类的GSRM原型系统,通过对原始 3 结语 数据的预处理找到具有语义的停留点,然后通过分布式聚类 随着技术进步和应用的需要,大数据聚类算法发展迅 算法挖掘用户公认的“热点”,最后通过对用户行为模式的 速,越来越多,主要有下面3个研究方向:(1)对大数据进行 挖掘,对用户进行位置服务。 抽样或降维得到样本,采用传统聚类算法进行聚类,再应用 廖律超等 提出卜种交通路网谱聚类方法(TSSC), 到大数据上,主要缺点是样本可能会出现偏差,精确性低。 其实现的路网网格聚类能跟实际交通路网相匹配,还可用于 (2)并行聚类算法的优点是效率高、可扩展性好,但同样复 交通拥堵点发现等应用场景。牟向伟等 】将流式数据两阶段 杂性也高。(3)基于Map Reduce实现的大数据聚类算法具 生,但在任务分解过程中会占用较多的软硬件资 方法,应用在北京市出租车的定位数据上,聚类得到出租车 有高可扩展}活动较为频繁的热点区域和线路,与日常出行经验相符合, 源。可见急需研究简单、高效、可扩展、低耗和精确的大数据 还可应用到交通活动情况实时分析、交通规划和拥堵治理等 聚类算法。另外,各个领域的数据都有各自的特点,需要针 方面。 对各个领域,探索更多、更高效的应用模式,科学、商业、农 2.4医疗应用 业、工程、医学、医疗、法律、教育、运输、零售、电信等特定 医疗数据的产生具有持续性、高增长性、复杂性,同样 领域的大数据聚类算法应用都是重点研究方向。 其中蕴涵可观的信息价值。故在医疗领域,大数据聚类算法 【参考文献】 【1】海沫.大数据聚类算法综述『J]计算机科学,2016(43):380-383. 徐勇[5 提出了改进的谱聚类算法并应用到农业大数据平 台上,对黑龙江省的农垦系统各个农场的农业机械装备水平 数据进行聚类,将聚类结果结合黑龙江省垦区地理环境一同 分析,提供解决方案应对机械装备水平差异大的问题;对全 国猪肉价格聚类,通过聚类结果帮助养猪用户根据市场走势 科学养猪,以取得更好的经济效益。 也得到快速发展。 [2】张引,陈敏,廖小飞.大数据应用的现状与展望[J]计算机研究与发展,2013(50):216.233. [3】海沫,牛怡晗,张悦令面向大数据的并行聚类算法在股票板块划分中的应用[J].大数据,2015(4):9-17. 『4]王海晶.基于改进CURE聚类的黑龙江移动公司用户数据挖掘研究[D]晗尔滨:哈尔滨理工大学,2016. f5】徐勇.农业大数据平台的实现与数据分析算法【Dj晗尔滨:东北农业大学,2017. 『6】于蛄.移动社交网络中大数据聚类算法的研究与应用[D].南京:南京邮电大学,2017. [7]廖律超,蒋新华,邹复民,等一种支持轨迹大数据潜在语义相关性挖掘的谱聚类方法[J]吨子学报,2015(43):956—964. [8]牟向伟,陈燕,曹虮一种大规模流式数据聚类方法在交通热点分析中的应用[J].科学技术与工程,2017(15):260—267. 【9】张焕君,杨小宁基于模糊聚类分析的临床路径决策研究机[J].控制工程,2013(6):1118-1122. [10]栗伟,许洪涛,赵大哲,等一种而向医学短文本的自适应聚类方法[J].东北大学学报自然科学版,2015(1):19—23. [1 1]LENART M,MASCARENHAS N,XIONG R,et a1.Identifying risk of progression for patients with chronic kidney disease using clustering modelsIf].Charlottesville:2016 IEEE Systems and Information Engineering Design Symposium,2016:221-226. [12]-N、磊磊_AP聚类算法研究及其在电子病历挖掘中的应用[D】.大连:大连理工大学,2017. Research status and prospect of the big data clustering algorithms Li Huimin (Department ofInformation Engineering,Fujian Chuanzheng Communications College,Fuzhou 350000,China) Abstract:In the era of big data,ode of the focuses of current research is how to use data effectively,and the big data clustering is one of the challenging research topics.The clustering algorithm of big data is reviewed.Firstly,the classiifcation and comparison of the big data clustering algorithms are introduced.Secondly,the research status of the big data clustering algorithms in four key areas is summarized. Finally,the challenges faced by the big data clustering algorithms are summarized and the future research directions are prospected. Key WOrdS:big data;clustering algorithm;user data mining 一】58—