84 马丽丽:数据挖掘中聚类算法的研究与探讨 教学园地 数据挖掘中聚类算法的研究与探讨 马日日日日 潍坊科技学院 山东寿光262700 摘 要聚类算法是数据挖掘中用来发现数据分布和隐含模式的一项重要技术。通过分析研究数据仓库及数据挖 掘中聚类算法的现状,对数据挖掘中常见的几种聚类算法的性能进行相互比较,并分析它们各自的优缺点,对数 据挖掘中聚类算法的发展趋势作出展望。 关键词数据仓库;数据挖掘;聚类算法 中图分类号:TP301.6 文献标识码:B 文章编号:1671—489X(2011)27—0084—02 Research and Di scussion of CI usteri ng Algorithin in Data Mining//Ma Li1i Absttact Clustering algorithm is an important technique in Data Mining(DM)for the discovery of data distribution and latent data pattern.Through analysis of the data warehouse and data mining the clustering algorithm,the present situation of data mining in several comlnon clustering algorithm of performance is compared each other,and analyzes on the advantages and disadvantages of each,in data mining 1’s the development trend of the clustering algorithm is presented. Key words data warehouse:data mining:clustering algorithm Author’s address Weifang University of Science and Technology,Shouguang,Shandong,China 262700 随着计算机技术和信息技术的迅猛发展,人们需 要从越来越多的文本、图像、视频以及音频数据中分析 并得到其中有价值的知识,因此产生数据挖掘(Data 即所有的数据点是逐一进行处理的;它能将聚类中心点 映射到一个二维的平面上,从而实现可视化。 1.4高维数据的聚类算法 高维数据聚类是多媒体数据挖掘领域中所面l临的重大 挑战之一。高维数据聚类在此领域中的困难主要体现在两 个方面:高维使得数据之间的区分界限变得越来越模糊;对 于高维属性空间中那些无关的属性出现使数据失去聚类的 Mining,DM)技术。与此同时,聚类算法也逐渐发展成 为数据挖掘技术中的关键技术,就是把大量数据点的集 合分成若干类,使得每个类中的数据之间最大限度地相 似,而对于不相同类中的数据最大限度地不同。 1数据挖掘中常见的聚类算法 聚类是一种重要的数据分析技术,搜索并识别一个有限 的种类集合或簇集合,从而描述数据。聚类分析已广泛应用 于数据挖掘领域,根据所采用的基本思想将其分为5类。 1.1分割聚类算法 分割聚类算法主要是先将这些数据点集划分为n个, 然后从这n个初始划分开始,利用重复的控制策略使某个 准则最优化从而达到最终的结果。分割聚类算法又可以 细分为基于网格的聚类、基于图论的聚类、基于密度的 趋势。最直接的方法就是降维,除此之外,对高维数据的聚 类处理还可以包括子空间聚类及联合聚类等 。 1.5基于约束的聚类算法 真实世界中的聚类问题往往是具备多种约束条件的,然 而由于在处理过程中不能准确表达相应的约束条件、不能很 好地利用约束知识进行推理以及不能有效利用动态的约束条 件,使得这一方法无法得到广泛的推广和应用。该方法的一个 重要应用在于对存在障碍数据的二维空间数据进行聚类。 2现有聚类算法的性能比较 通过上面的分析可以看出,不同的聚类算法在不同 聚类以及基于平方误差的迭代重分配聚类等 。 1.2层次聚类算法 层次聚类算法主要是把数据组织成若干组,形成一 个相应的树状结构图来进行聚类。它可以划分为自顶向 下的分解层次聚类和自底向上的聚合层次聚类两类 。分 解层次聚类是先将所有的对象都看成一个聚类,然后将 的应用领域中都表现出不同的性能。具体来说,分割聚 类算法的应用最为广泛,同时收敛速度快,并且能够扩 展用于各个大规模的数据集;其缺点在于不能发现形状 相对复杂的聚类,并且初始聚类中心的选择和噪声数据 对聚类结果也会产生较大的影响。层次聚类方法不仅适 用于任意形状和任意属性的数据集,而且可以灵活控制 其不断分解直至满足终止条件;而聚合层次聚类是先将 每个对象各自作为一个原子聚类,然后对这些原子聚类 逐层进行聚合,直至满足一定的终止条件。 不同层次的聚类粒度,具有较强的聚类能力;缺点是延 长了算法的执行时间,对层次聚类算法中已形成的聚类 结构不能进行回溯处理。高维数据的子空间聚类和联合 聚类等算法虽然通过在聚类过程中选维、逐维聚类和降 维,在一定程度上能减少高维度带来的影响,却不可避 免地带来原始数据信息的损失和相应的聚类准确性的降 1.3机器学习中的聚类算法 机器学习中的聚类算法是指与机器学习相关,采用 某些机器学习理论的聚类方法,它主要包括人工神经网 络方法以及基于进化理论的方法。自组织映射作为向量 量化方法的典型代表,其特点为:采用一种递增方法, 20l1年9月下第27期(总第249期) 低,因此,寻求这类算法在聚类质量和算法时间复杂度 (下转P86) 中国教育技术装备 教学园地 杨晓宇:关于高职院校非计算机专业计算机课程改革的分析 较多的软件进行课外补充 87 的主抓方向,将学生培养成社会需要的多元化人才。 2.2增加学生学习的趣味性,要多结合计算机发展的前 沿性知识 有些高职院校计算机课时安排比较少,由于现在社 会上很多领域都需要一些会简单编程、做网页、会修改 图片的计算机人才,所以对于非计算机专业的学生就应 该按照选修课的方式,让喜欢学习的学生有机会学到自 己想学的知识,给学生课余时间有个很好的补充。 2l世纪计算机技术发展迅猛,这就要求高职院校的 计算机教师能够针对不断推陈出新的软件进行相关的学 习。将社会上一些常用的软件应用到教学课件中来,这样 既能增加课件的观赏性,又能丰富课堂的教学内容,还能 激发学生学习新软件的兴趣。而不能一味地以计算机一级 考试大纲为指向,那样培养出的学生较死板,没有对计算 机新知识的学习兴趣,更谈不上什么计算机上的创新,养 成教师随便教、学生听不听无所谓的无限死循环。 3结束语 在计算机迅猛发展的21世纪,面对中学的教学改革 目标,要求高职院校的计算机教师适应时代的变化,要 根据社会的需求适时变化自己的教学方法和教学内容。 这样高职院校出来的学生才能更好地适应这个社会,才 能在这个多变的社会上更容易找到适合自己的位置。 2.3多一些计算机方面的选修课,尤其针对社会上需求 参考文献 [1]崔娅萍.高校非计算机专业大学计算机基础课程改革[J].科技资讯,2010(27):210,212 [2]赵力.高职计算机基础课程改革的现状与分析[J].计算机光盘软件与应用,2010(7):181 [3]丁玲.高职《计算机应用基础》课程改革新思路[J].江苏教育学院学报,2009(3):115—117 之间的折中也是一个重要的问题。基于约束的聚类通常 只用于处理某些特定应用领域中的特定需求。同时其聚 类结果的好坏也依赖于对某些经验参数的选取 。 4总结 聚类分析作为数据挖掘中的一项关键技术,可以作 为一种单独的工具来发现数据仓库中分布的一些更深层 次的信息,并且概括出每一类的特点,或者把注意力放 3聚类算法的发展趋势 聚类算法的研究在数据挖掘领域具有广泛的应用前 景,同时也面临越来越多的挑战。从多媒体领域的应用 中可以看出,由于多媒体特征数据的高维性、动态性、 复杂性,在其数据挖掘的聚类算法中还应更多地考虑以 下几个问题:处理大规模数据和高维数据的能力;融合 在某一个特定的类上以作进一步的分析。作为一个数据 挖掘的重要功能,聚类分析能作为一个的工具来获 得数据的分布情况,观察每个类的特点,集中对特定的 某些类做进一步的分析。同时它还可以作为数据挖掘算 法中其他分析算法的一个预处理步骤。将领域知识引入 聚类过程,领域知识的引入不仅有助于选择合适的模式 不同的聚类思想形成新的聚类算法,从而综合利用不同 聚类算法的优点;对聚类的结果进行准确评价,以判断 是否达到最优解,这也自然要求聚类结果具有可解释 表达机制,选择合适的聚类算法,还能使以上很多方面 的问题都能得到合理的解决,从而提高相应的聚类算法 的性能。 性;选取合适的聚类类别数,这是一个重要的参数。 参考文献 [1]杨善林,李永森,胡笑旋.K-means算法中的值优化问题研究[J].系统工程理论与实践,2006(2):96—121 [2]孙士保,秦克云.改进的k一平均聚类算法研究[J].计算机工程,2007(13):200—201 [3]韩家炜.数据挖掘概念与技术[M].北京:机械工业出版社,2006 [4]毛国君,段立娟,王实,等.数据挖掘原理与算法[M].北京:清华大学出版社,2005 (上接P85) 改进,在课堂以教材和MATLAB软件相结合,把快速傅里 数字信号处理是门综合课程,涉及多方面的知识。 叶算法和滤波器用仿真程序验证讲解,在实验课上把理 论算法和DSP硬件相结合,再配以专门的图像或者语音 模块来增强信号处理的理解,这样既丰富课堂,深化理 论,又可以拓展理论,增加动手能力。 在针对通信工程专业的具体教学实践中,笔者结合自身 的教学经验及体会,对存在的问题进行思索和改进,提 供一些创新的教学改革思路,很好地解决了理论知识与 工程设计相脱节的问题。经过两届教学实践,证明了该 方法的可行性、有效性和可推广性。 5结论 参考文献 [1]黄泽伟,黎兵.“任务式”教学法在1inux操作系统中的应用探讨[J].重庆电力高等专科学校学报,2007(3):55 [2]马晓慧.操作系统课程教学方法探索[J].计算机教育,201 1(3):75-77 2011年9月下第27期(总第249期) 中国教育技术装备