第36卷第9期 湖北科技学院学报 V01.36.No.9 2 0 1 6年9月 Journal of Hubei University of Science and Technology Sep.2016 文章编号:2095—4654(2016)09—0001—03 基于微博热点分析的改进聚类算法 宋华明 (咸宁市公安局 公安科学技术信息规划建设部,湖北 咸宁437100) 摘要:微博中热点话题的自动发现对于舆情监测与研判具有重要的价值和意义,已有的研究 一直在速度与效率之间缺乏有效的平衡。本文在KMeans聚类算法的基础上,提出了一种改进 的KMeansPlUS算法来试图发现微博的热点话题。通过随机选取的10 000条微博语料对比实 验分析表明,与传统的KMeans算法相比较,KMeansPlus算法能够在很大程度上有效提高计算 的速度。 关键词:微博聚类算法;KMeans算法 中图分类号:TP311 文献标识码:A 一、问题的提出 具系统ICTCLAS2015对微博的文本进行分词,并 微博对信息即时分享的特质,使其成为舆情 使用开源工具Lucene建立索引库。考虑到本文 观察与研判的最佳窗口,具有相当强的时效性。 主要研究的是微博热点的聚类,所以主要采集的 同时,对微博进行信息分析可以发现社会群体关 信息是微博用户发表或转载的短文本,采集的方 注的热点话题是什么以及受众在这些话题上的倾 式有两类:(1)通过关键词查询的方式来爬取语 向和态度。相关的研究工作已经有不少,如文献 料,分别为用户发布微博内容和以关键字查找的 [1]提出一种改进的CURE算法来试图发现微博 方式来爬取数据;(2)通过Python爬取网页的 中的热点问题;文献[2]则是提出了一种多标签传 HTML源代码。 播聚类方法;文献[3]结合微博的语言特征,从语 2.特征向量的提取与筛选 义的角度对微博里面的热话题自动发现技术进行 (1)信息增益 了全面的研究,提出一种基于改进H—K聚类算 法的话题发现方法;文献[4]提出一种基于主题词 微博的文本一般较为短小,通常字数被限定 的中文微博热点话题发现方法;文献[5]提出一种 在汉语字符140以内,这种短字符集的特征给文 基于离散PSO(DPSO)的热点话题发现算法。可 本里面特征词的提取带来了一定的困难,因此我 以看到的是尽管在微博的热点发现问题上已经具 们选择了通过信息增益的方法来进行特征词的提 有各种方法的应用,取得了一定的成果,但也存在 取。与分类中的信息增益不同的是,聚类中的信 一定的不足与局限:在算法设计上效率和速率之 息增益不会去区分每一个类的具体特征。对于某 一间缺乏很好的平衡,基于此本文试图提出一种改 给定的微博文本而言,可以将每一个特征词都 进的微博热点自动发现的聚类算法。 看作是一个类,所以对于信息增益法,进行了以下 二、数据采集与文本的预处理 的改进,如式(1)至(6)所示: 1.数据采集 IG ( ):log2( +0.O1)×IG( ) (1) 本文中我们选取了模拟登陆的数据爬取方 其中, 指的是在文本集中出现过t 的文本 式,对新浪微博的语料数据进行采集。在对语料 总数目,IG(t )即t 对于聚类对象的信息增益值。 进行了清洗和预处理之后,使用了中科院分词工 IG(t )=H(D)一H(DIt ) (2) ・收稿日期:2016—06—29 2 湖北科技学院学报 第36卷 其中,文档集合D的信息熵为: H(D)=一∑died(p(d )×log2(P(d ))) (3) 算每个词的信息增益时适当考虑加大其H(DIt ) 的值,降低其IG 的值;而多字词则是需要增大其 词条t 的条件熵: H( It )=一∑di(P( It )×log2(P(d lt )))(4) P(d It )是特征词t 出现之时,文档d 出现 的条件概率,P(d )表示文档 出现的概率。 P(d )的计算公式为: P(d )=IWord(di)I/∑ 。lWord(di)l 的数目。 IG 的值,减小其H(DIt )的值。前期的实验研究 表明,IG 的阈值设为IG >1.25的时候结果较 为理想。同时也要对特征向量的信息增益值设置 阈值,选取阈值之内的特征向量。 (3)特征向量权重的计算 (5) 在进行了特征向量的提取与筛选以及特征权 重的计算之后,本文运用了向量空间模型VSM (Vector space mode1)将提取到的特征词转化为机 Word(d )表示的是在文档d 中的不同词条 P(d lt )的计算公式为: P(d lt )=l W0rd(d )l/∑“DIWord(d It )I (6) 器可以识别的语言,并使用了TFIDF算法对每个 特征词进行权重计算。假设待聚类的微博文本有 , ,…, 篇,在经过了信息增益法对特征向量 1word(d It )I代表出现词条t 的文档d 中 不同词条的数目。H(Dlt )代表已知文本集中有 词条t 时,其他所有词的信息量,用整个文本集的 信息量H(D)与H(Dlt )相减,即可以知道词条t 在文本集中的信息量。 (2)特征向量的筛选 进行了提取和筛选之后,有t,,t:,…t 个特征词, 对每个特征词在微博文本中的特征权重进行计 算,设其为 ¨则微博文本的向量空间模型如表1 所示: 表1微博文本集的向量空间模型 由于不是所有的特征项都具有文本区分的能 力,因此在进行信息增益的计算之时,需要对前期 ICTCLAs2015分词器分出的所有词都进行信息增 益值的计算,同时也要对这个特征向量集进行一 定程度的降维处理。 经过预处理的分词文本中有单字构成的词, 也有多字词,相比较的话单宇词一般而言的多义 性更强。因此对于字长小于等于1的词条,在计 Input:seed值(种子数),文本集 ,目标簇k的个数 Output:k个簇集 Steps: 三、微博热点的聚类算法研究 1.KMeans算法 KMeans算法是一种经典的聚类算法,其算法 流程可以参考文献[6],如表2所示: 表2 KMeans算法流程 1.待聚类文本集 中随机选取k个文本作为初始簇的中心,S({s …一,S …“,S }; 2.度量已处理文本与未处理文本的见得距离d (X ,s,); 3.形成新的簇集G+{C …一,C …一,C },对文本和距离其最近的中心点进行匹配; 4.重新计算k个簇的中心; 将虫!I 点定义 初始 强点.repeat 2至4步骤.直到中心点稳定 2.KMeansP1US算法 不再根据seed值随机选择k个点作为初始点,这 种改进、加强版的KMeans算法优化了初始点选择 由于KMeans算法给定的生成簇的个数的条 件下需要初始的seed值,并且对初始点的选择也 较为敏感,初始值的不同通常会形成不一样的聚 类结果。在具体的研究中如果要提高聚类结果的 准确度,一般需要对初始点的选取进行参数优化。 为了解决这一问题我们提出了KMeansPlus算法, 的问题。它的基本思想是:增大了初始中心点是 真实中心点的概率,使各初始聚类中心之间的距 离尽可能的远,以此来提高聚类结果的准确率。 KMeansPlus在初始点选择上的算法步骤如表3所 示: 第9期 宋华明 基于微博热点分析的改进聚类算法 表3 KMeansPlus算法 3 Input::目标簇的个数k,seed值(种子数)s,文本集x Output::初始中心点集 Steps: 根据seed值在待聚类文本集 中选取一个文本作为初始中心点集的第一个中心点; 计算剩余的文本与当前中心点的距离dis(X ,S); 将dis(X , )最大的点作为下一个中心点; 重复2至3步骤,直到找出k个初始点。 四、实验与讨论 次聚类算法的时间要高于K—MEANS算法的运 行时间。因此,与层次聚类算法相比较的话, KMeansPlus算法具有更好的性能。 表4层次聚类算法聚类结果 1.算法评估标准 本文采用F值作为聚类性能的评价标准,公 式如式(7)所示: = (7) P为信息检索中的查准率(Precision),R为信 息检索中的查全率(Recal1), 为参数。Fl值统 筹度量了查准率和查全率,F1值表征了算法效率 值。 2.K—MEANS聚类与层次聚类比较 这部分我们结合了统计与人工识别的方法, 从抽取的微博语料中随机选取了10 000条数据进 表5 KMeansPlus算法聚类结果 行算法测试,并通过人工的方式对这10 000条数 据进行了话题的再分类。以六个话题类别作为标 签,也就是将参数的初始值设定为6,分类的主题 分别是:“国考”、“双十一”、“春节”、“考研”、“雾 霾”、“踩踏事件”。运用凝聚层次聚类与 KMeansPlus聚类算法对数据进行聚类,并对二者 的聚类结果采用算法评估标准中的查准率(P)、 查全率(R)以及F1值进行评估,从而更直观的比 较二者的聚类效果。聚类比较结果如表4、表5所 示。图1为二者运行时间的比较图。 ’●啪● 五、结语 本文提出了一种基于传统KMeans算法的改 进聚类算法——KMeansPlus算法,这种算法提出 的意义主要在于能够对初始聚类中心的选择进行 了优化,以此能够显著提高聚类结果的准确度。 同时,实验结果也表明K—MEANS算法的聚类效 l2oo l∞O 锄 ●删, 棚 … ,\ 一- 一 | 入 产● 一一… 果略优于层次聚类算法的聚类效果,并且随着特 征项数目的增加,K—MEANS算法聚类的时间复 杂度远低于层次聚类算法的时间复杂度。 参考文献: j∞ ,。 ” l聃 22— 232 242 2{2 242 [1]杨长春,周猛,叶施仁,等.基于改进CURE 图1 层次聚类与KMeanPlus聚类运行时间比较分析 算法的微博热点话题发现[J].计算机仿真, 2013,30(11):383—387. 对比两种算法实验的结果,层次聚类算法和 KMeansPlus聚类算法在微博文本聚类方面,在查 [2]陈羽中,方明月,郭文忠.面向微博热点话题发 现的多标签传播聚类方法研究[J].模式识别与 人工智能,2015,28(1):1—10.(下转第52页) 准率、查全率以及Fl值等几个指标上差距较小, 具体数据见表4、表5。但随着特征项的增加,层 52 湖北科技学院学报 第36卷 stone,and the poetry inscription was engraved with a copy version of Chairman Mao’S.Mao’S calligraphy is natural,unstrained and pithy.In this poem, Chaiman Mao depicted grrand scenery of late autumn in Changsha,declaring his patriotism and will to ifght for Chinese people. 株潭含有岳麓山景区(5A)、刘少奇故居和纪念馆 (5A)、韶山毛泽东故居和纪念馆(5A)、杨开慧故 居和纪念馆、炎陵县红色旅游景区(4A)等八大红 色旅游景区。这些景区在湖南红色旅游景区中影 响力极大,其相关的英文介绍也比较多,为翻译实 践基地的建立和实践操练提供了丰富的研究资 通过比较试译的译文与网站提供的译文,我 们可以清楚地看到两者的区别。网站提供的译文 仅仅翻译了词碑位置、制作材料和碑文来源,漏译 了字体的特点,没有增补任何关于《沁园春・长 沙》诗词的文化内涵和赞扬诗人的爱国之情。同 时,该译文在一些表达方面欠佳,如“毛主席”译成 “President Mao”,“President”常用于西欧国家的 总统,如克林顿总统“President Clinton”,虽都是国 家的最高领导人,但“毛主席”的称呼已成为国人 心中的一座永远铭记的丰碑,不容被随意更改,所 以我们仍沿用“Chairman Mao”这一译名。该词碑 上的碑文是毛泽东1961年10月16日手书水印 木刻《沁园春・长沙》复制稿制作而成,“水印木 刻”是我国的一种独特印刷方法,专门用来复制画 料。经实地调研和网站信息搜集,我们发现红色 旅游景区文本翻译存在大量的问题。翻译人员的 不规范化、公示语翻译中的胡译乱译、机器式英语 表达和文化误译、翻译文本印刷错误和英语翻译 资料的缺乏等都阻碍了红色文化的对外宣传。 目前,很多高校在红色旅游景区设立了爱国 教育基地,定期组织教师和学生去参观学习,进行 爱国教育。如果各高校与红色旅游景区进行互帮 互助,在景区建立红色旅游文本翻译实践基地,以 红色旅游景区的文本翻译资料作为翻译实践素 材,基于任务式和翻译工作坊式的翻译教学方法 开展实践操练,并定期修正和更新红色旅游景区 的文本翻译资料。教师在翻译教学中结合高校的 优质资源与红色旅游景区的第一手资料,不仅有 利于提高学生的实践翻译能力,更有利于将红色 旅游爱国教育引进课堂,提高红色文化的对外宣 传。 三、结语 作、诗词等手迹艺术品,印刷复制制作的成品,能 保持原作的风格,被誉为“再创造的艺术”。对于 “水印木刻”这一词语很难用一个贴切的词汇表 达,即使用注释法补充说明也让人晦涩难懂,但其 本义就是指该碑文上的字迹不是诗人的真迹而是 其复制品,所以我们直接译为“a copy version of Chaiman rMao—S’。除此之外,我们借鉴了翻译大 师许渊冲对该诗词名的翻译名,并增补了该诗词 要表达的意境和寓意。因此,我们的试译文比网 站提供的译文严谨,更加符合红色旅游文本对外 宣传的要求。 (三)红色旅游文本翻译实践基地的建立 在湖南省八大国家级红色旅游景区群中,长 红色旅游文本翻译是对外宣传红色文化的主 要途径,优质的红色旅游文本翻译不仅维护了我 国对外宣传的形象,也有利于目的语接受者客观 地了解中国的革命发展史和红色文化软实力的对 外宣传。在英语翻译教学中渗透红色旅游文本翻 译,能让更多的英语人才参与红色文化的宣传,既 能培养学生的爱国情怀、提高学生的实践翻译技 能,更能实现红色旅游文本翻译又快又好地发展。 (上接第3页) [3]豆康康.基于改进H—K聚类算法的热点话 题发现方法[D].哈尔滨:哈尔滨工程大学, 2014. [5]马慧芳,吉余岗,李晓红,等.基于离散粒子 群优化的微博热点话题发现算法[J].计算机 工程,2016,(3). [6]沈睐基于微博文本的话题聚类研究与实现[D]. 石家庄:河北科教大学,2014. [4]叶成绪,杨萍,刘少鹏.基于主题词的微博热点话 题发现.[J].计算机应用与软件,2016,(2):46~50.