基于中文语义词典的标签间语义关系挖掘 邹 盼 (华中师范大学 湖北武汉430079) 米 摘 要:目前。国内外许多学者借助语义词典WordNet进行标签间语义关系挖掘方面研究, 并取得了一定的进展,但却很少有专门针对中文语义词典与标签结合的研究。文章通过选取豆 瓣读书上的标签数据,充分分析并利用中文语义词典《同义词词林》的分类体系和编码特点,利 用一种基于《同义词词林》的词汇语义相似度计算系统WordSimilar计算标签数据的语义相似 度。进而挖掘标签间的语义关系。该方法得到的结果与我们思维中的词汇语义关系基本一致, 有比较高的准确性 关键词:中文语义词典;标签;语义关系;同义词词林 中图分类号:TP393 文献标识码:A doi:10.3969 ̄.issn.1665—2272.2016.07.038 0引言 近年来.随着de1.icio.US、flick. er、豆瓣网等Web2.0网站的发展和 的效率。 但纵观目前的相关研究.可以 发现,国内有关标签间语义关系挖 掘方面的相关研究与国外相比尚 有一定的距离.实证研究数据实例 了一个词语的同义词,也包含了一 定数量的同类词,即广义的相关 词。针对《同义词词林》因著作时间 久远、缺乏及时更新而导致原词典 中的某些词语逐渐成为生僻、罕用 词汇的问题。哈工大信息检索研究 室在其基础上,参考多部电子词典 资源以及词语在人民日报语料库 中出现的频度,剔除大量生僻、罕 普及。改变了互联息生成、组 织、发布和共享的传统方式,形成 了一种以用户为中心的社交网络, 网络用户在网络信息组织和分享 的各个方面变得越来越重要。网络 基本上都选择国外流行的大众分 类网站(如de1.icio.tlS)标签,语义词 典基本上也都是选取国外在线词 典(如WordNet),却很少有学者选 取中文大众分类网站的标签数据 和中文语义词典。由于中文语言结 构的特殊性导致其在语法、语境和 信息用户根据自身对信息资源的 理自发选择适当的词汇来描述某 类资源。其优势在于它既没有严格 的分类标准,标注语言也不会受到 任何。因此这种自由随意、方 用词汇,只保留频度不低于3(小规 模语料的统计结果)的部分词语。 同时利用很多词语相关资源增添 一语义处理等方面均与外文具有极 大的差异,无法直接移植国外的研 究成果,而需要借鉴国外的相关研 究成果,针对中文的语言特性展开 专门系统的研究。所以,本文选取 些最近常用新词.最终完成了一 部具有汉语大词表的《哈工大信息 检索研究室同义词词林扩展版》 便灵活的分类方式大受网络信息 用户的欢迎。但是,大众分类的这 种特性也导致了标签的多样性、模 (简称《同义词词林扩展版》)。对于 新加入的词汇,按照《同义词词林》 的结构体系进行分类。最终的词表 包含77 343条词语,其中一词多义 糊性、组织方式的非等级性和词汇 之间语义关系缺乏等缺陷.这些缺 陷不仅严重影响了利用标签检索 网络信息的效率.同时又很难适应 语义网的要求。所以。我们希望通 过挖掘标签间的语义关系.构建标 签间的语义网络。全面优化大众分 类体系,提高网络信息传播和检索 《同义词词林》和豆瓣网标签数据 来探讨借助中文语义词典的标签 间语义关系挖掘。 的词语为8 860个,该词典以现代 汉语词语为主,包括词、词组、少量 1《同义词词林》简介 梅家驹等学者在1983年共同 成语及俗语。此外还收录了一些词 素和方言、古语词和专科词。 1.1《同义词词林》分类体系 编纂完成了我国首部汉语义类词 典《同义词词林》,该词典不仅包括 《同义词词林》按照树状的层 基金项目:国家社科基金项目“大众分类中标签间语义关系挖掘研究”(编号:12BTQ038) 收稿日期:2016—02—08 92科技创业月刊2016年第7期 基于中文语义词典的标签间语义关系挖掘 次结构把所有收录的词条组织到 一艺”是该编码在词典中所对应的 相似度时,从词汇的语义出发。根 据词汇义项在《同义词词林》的位 置和编码,把两个词汇所包含的义 起,根据汉语的特点和使用原 词语集合。这样的词语编码规则 能够保证每个编码唯一的表示词 则,确定词的语义分类原则:以词 义为主,兼顾词类,并注意将题材 相同、语义关系密切的尽可能集中 编排在同一或比邻的小类中.多义 词分别收人不同的词群。它将词义 分为大类、中类、小类三层,共分12 个大类:A类为人,B类为物,C类 为时间与空间,D类为抽象事物。E 类为特征,F类为动作。G类为心理 典中出现的相应词语集合。《同义 词词林扩展版》的词语编码规则 见表1: 表1 《同义词词林扩展版》词语编码表 编码位 1 2 3 4 5 项分别两两计算得出其义项相似 度,再取义项相似度的最大值作为 两个词汇的语义相似度值。在计算 词语义项相似度 时,只考虑分支节 0 1 =\#\@ 符号举例D k 中类 2 5 A 点处的处理,分层 之后的层次编号不 符号性质 大类 级别 小类 词群 原子词群 第1级第2级第3级第4级 第5级 予考虑。具体计算 活动,H类为活动,I类为现象与状 态,J类为关联,K类为助语,L类为 敬语。 表1中的词语编码位是按照 方式:首先判断在《同义词词林》中 作为叶子节点的两个义项在哪一 从左至右的顺序排列。第五级的分 类结果需要特别说明,所以有必要 再在第8位采用相应符号标识来 代表三种不同情况:有的行是同义 词,用“=”表示“相等、同义”;有的 层开始分支,即两个义项的编号在 哪一层开始不同。从第1层开始判 断,相同则乘1.否则在分支层乘以 《同义词词林扩展版》在原有 《同义词词林》三层分类体系基础 上对词语继续细分.将其扩展为五 层分类体系,如图1所示。随着分 类层级的递增.词义被刻画得越来 相应系数。然后为了保证把义项相 似度控制在[0,1]之间,再乘上一 行是相关词,用“#”表示“不等、同 类”;有的行只有一个词,用“@”表 越细致,到了第五层.每个分类里 的词语数量已经很少.大多数只有 一示在本词典中不存在与它同义或 相关的词汇。 个调节参数c。s(n×裔),而分支 的多少将直接影响义项的相似度. 个词语.变得不可再分.可以称 2基于《同义词词林》词汇相 似度计算 众所周知,中文词汇语义博大 再乘以一个控制参数旦= n ,其中 为原子词群、原子类或原子节点。 不同层级的分类结果可以反映不 n是分支层的节点总数。k是两个 分支间的距离。这样便能得到较为 精确的词语义项相似度。 有学者在此基础上设计了一 同粒度的语义类别信息,从而为自 然语言处理提供不同的服务,例如 第四层和第五层的分类在信息检 精深,一个词汇往往包含了很多方 面的涵义,也就是说通常一个词汇 具有多个义项。常见的释义性语言 词典将词语的多个义项放在同一 个词目之下.而 索、文本分类、自动问答等研究领 域都得到了一定的应用。 个基于《同义词词林》的词汇语义 相似度计算系统WordSimilar,该系 统能够同时计算一个词汇与多个 词汇间的语义相似度.不同比较词 之间用逗号进行分隔。本文选择此 系统进行标签词汇之间的语义相 似度计算,这种语义相似度计算分 为两种情况: 《同义词词林》是 以词语的义项为 收词单位的,它将 多义词的不同义 项分别收录到不 同的词群之中。如 图1 《同义词词林扩展版》五层分类体系 第一,简单词汇,即在《同义词 词林》中已收录的词汇。对于这种 简单词汇,我们可以用WordSimilar “奶”.可以分为三 1.2《同义词词林》编码规则 个义项:“Hj45D02=n ̄L喂奶奶” (用乳汁喂孩子)、“B101C01=奶水 乳汁奶乳母乳奶品”(乳汁的 通称)和“Bk05D01= ̄L房乳奶奶 《同义词词林扩展版》为五层 分类体系下的词语相应提供了五 级编码结构,即大类用大写英文字 系统直接计算词汇间的语义相似 度.从而可以作为其对应概念匹配 的可信度,如利用WordSimilar系 统计算“文学”与“小说”之间的语 义相似度为0.899。 第二,复合词汇,即在《同义词 词林》中尚未收录、由一些词汇复 合形成的词汇。对于复合词汇,首 先通过正向最大匹配法对复合词 母表示。中类用小写英文字母表 示。小类用二位十进制整数表示, 第四级用大写英文字母表示,第五 级用两位十进制整数表示。例如: “Dk25A01=文学文艺”。其中 “Dk25A01=”是一个编码,“文学文 子胸部”。因此,我们在计算中文 词汇相似度的时候要考虑到词汇 的所有义项。 田久乐和赵蔚提出了一种基 于《同义词词林》的词汇相似度的 计算方法,该算法在计算两个词汇 PIONEERING WlTH SCIENCE&TECHNOLOGY MONTHLY NO.7 2016 93 基于中文语义词典的标签间语义关系挖掘 表2豆瓣图书标签抽样数据集合 为1时,这两个标签 为同义关系。 (2)标签间语义 相似度“大于O.65 且小于1”的标签对 有:<文学,诗歌/ 诗>、<文学,中国文 我们看到标签抽样数据集合 图2基于WordSimilar系统词汇语义相似 学>、<文学,随笔>、<文学,散文>、< 有很多重复的标签,将所有标签进 行去重整理后剩余如下标签:诗 歌、诗、中国文学、文学、中国、随 文学,小说>、<文学,短篇小说>、< 中国。中国文学>、<随笔,诗歌/ 诗>、<随笔,小说>、<随笔,短篇小 度计算 进行切分,然后利用WordSimilar 系统计算切分得到的简单词汇间 的语义相似度.最后计算简单词汇 间相似度的平均值作为复合词汇 间的语义相似度。如计算“文学”与 “中国文学”相似度:“中国文学”是 一个复合词汇,可以将其切分为 “中国”和“文学”两个简单词汇,然 后利用WordSimilar系统计算“文 学”与“中国”、“文学”这两个词汇 之间的语义相似度分别为0.586和 1.0.最后通过求和平均得到“文学” 与“中国文学”之间的语义相似度 为0.793。 3实证研究 3.1标签数据 豆瓣网(www.douban.corn)由杨 勃创立于2015年3月6日。它是 一个集博客、交友、小组、收藏于一 体的兴趣社交平台,在行业内拥有 良好的口碑,已被公认为国内极具 影响力和发展潜力的Web 2.0网 站。从表面上看,豆瓣仅仅是一个 能够提供书评、乐评和影评等相关 评论的网站,而实际上它还提供了 书影音推荐、线下同城活动、共同 兴趣小组话题交流等多种服务功 能。 为了展开研究,笔者从《豆瓣 读书2015年度榜单》的“2015年度 中国文学”抽取排在前5名的图 书.然后从这些图书资源标签中分 别提取5个豆瓣成员最常用的标 签。得到一个包含25个标签的抽 样数据集。汇总整理之后放人豆瓣 图书标签抽样数据集合中,见表2。 94科技创业月刊2016年第7期 笔、散文、写作、生活、小说、短篇小 说>、<散文,诗歌/诗>、<散文,小 说。 说>、<散文,短篇小说>、</b说,诗 3.2基于《同义词词林》标签间语 歌/诗>、<小说,中国文学>、<短篇 义关系挖掘 小说,诗歌/诗>、<短篇小说,中国 本文利用WordSimilar系统计 文学>、<短篇小说,小说>。这些标 算标签词汇之间的语义相似度, 签对语义相似度较高(本文设定的 “诗歌、诗、中国文学、文学、中国、 阈值为0.65),可以将其理解为近 随笔、散文、写作、生活、小说、短篇 义关系。 小说”这些标签中除了“中国文学” (3)“写作”与其他标签间语义 外都是简单词汇,可以先将“中国 相似度都为0.1,即“写作”与其他 文学”切分成“中国”和“文学”两个 标签基本没有相关关系。同时在 简单词汇再进行相似度计算,最终 《同义词词林》中查找到相应的编 计算结果见表3。 码为“Hgl6A01=写作著作创作 表3基于WordSimilar计算标签词汇语义相似度 诗歌 1.000 ‘ 诗 1.000 1.000 中国文学0.622 0.622 1.000 文学0.657 0.657 0.793 1.000 中国0.586 0.586 0.793 0.586 1.000 随笔0.678 0.678 0.632 0.678 0.586 1.000 散文0.678 0.678 0.632 0.678 0.586 0.765 1.000 写作0.100 0.100 0.100 0.100 0.100 0.100 0.100 1.000 生活0.586 0.586 0.451 0.586 0.315 0.586 0.586 0.541 1.000 小说0.657 0.657 0.743 0.899 0.586 0.678 0.678 0.100 0.586 1.000 短篇小说0.657 0.657 0.743 0.899 0.586 0.678 0.678 0.100 0.586 0.959 1.000 诗歌 诗 中国文学文学 中国 随笔散文写作生活小说短篇小说 从表3的计算结果我们可以 编写…”、“Dk25A01=文学文 看出: 艺”、“Dk26A03=漫笔随笔”、 (1)“诗歌”和“诗”这两个标签 “Dk26A01=散文散记”、“生活5 间语义相似度为1,同时在《同义词 Dal7B01=Di19C01=Hj000002 词林》中查找到相应的编码为 Hj01A01=Ib03A01=”、“Dk25B01= ‘'Dk27A01=诗诗歌诗篇诗文诗 小说小说书闲书”、“Dk25B02# 抄诗词诗句诗选诗章”,“诗 短篇小说中篇小说长篇小说侦 歌”和“诗”是同义词。即利用基于 探小说言情小说…”。这样的编 《同义词词林》的语义相似度计算 码可以看到.“写作”与其他标签词 系统WordSimilar计算两个标签词 汇从《同义词词林》分类体系的大 汇之间的语义相似度得到的结果 (下转第97页) 城乡医院对口支援工作的实践研究匿番蕾圈 (上接第94页) 类开始就不同,从而印证系统计算 的“写作”与其他标签的语义相似 果表明借助中文语义词典进行标 签间语义关系挖掘的结果与我们 思维中的词汇语义关系基本一致, 4梅家驹。竺一呜,高蕴琦,等.同义词 词林[M].上海:上海辞书出版社, 1993 度较低。即利用基于《同义词词林》 的语义相似度计算系统WordSimi— lar计算两个标签词汇之间的语义 有比较高的准确性;当然,标签所 采用的某些词汇也可能是现有中 5田久乐.赵蔚.基于同义词词林的词 语相似度计算方法[J].吉林大学学 报(信息科学版),2010(6) 文语义词典未收录的,这样也能在 一6东.一颗长势良好的“豆瓣”[J]. 上海信息化,2o07(5) 相似度结果较小时,这两个标签之 间没有相关关系。 定程度上起到丰富语义词典的 作用。但是,由于本文采用标签数 7豆瓣.[EB/OL].[2016—2—15].http: //www.douban.tom. 4 结 语 大众分类是网络时代的一种 重要信息组织方式,对其标签间语 义关系进行挖掘研究,其研究成果 不仅可以极大优化大众分类体系, 而且将为下一代互联网的全面实 据和中文语义词典的局限性,还需 在更多领域进行深入研究。 参考文献 8周鑫.王军.基于概念外延的F0lk. sonomy语义关系挖掘方法[J].现代 图书情报技术.2008(10) 9崔晓莉.从社会性标签中进行语义关 1魏来.基于在线词表的folksonomy语 义关联识别方法研究[J].图书情报 工作,2011(5) 系抽取——一种元数据生成方法[J]. 现代图书情报技术,2009(3) lO李艳.分众分类与受控词表的集成 2熊回香,邓敏,郭思源.国外社会化标 注系统中标签与本体结合研究综述 现提供理论支撑,是实现标签的语 义组织和智能检索是提高其检索 研究[D].太原:山西大学,2013. [J].情报杂志,2013(8) 3熊回香.王学东.大众分类体系中标 (责任编辑吴汉) 效率的有效途径之一。本文以《同 义词词林》为例进行了小范围的标 签间语义关系挖掘的试验.试验结 签与本体的映射研究[J].情报科学, 2014(3) PIONEERING WlTH SCIENCE&TECHNOLOGY MONTHLY NO.7 201 6 97