您好,欢迎来到九壹网。
搜索
您的当前位置:首页基于条件随机场的中文分词方法

基于条件随机场的中文分词方法

来源:九壹网
维普资讯 http://www.cqvip.com 基于条件随机场的中文分词方法 A Chinese Word Segmentation Approach Using Conditional Random Fields 迟呈英 于长远 战学刚 (辽宁科技大学鞍山 114051) 摘要提出了一种基于条件随机场(ConditioIlal Random Fie!ds,简称CRF)的中文分词方法。CRF模型剃用词的上 下文信息,对歧义词和未登陆词进行分词统计处理取得了理想的效果。以SIGHAN2006 Chinese Language Processing Bakeoff提供的数据作为实验数据。实验数据表明,基于CRY的中文分词方法取得了很好的效果,在Uppen,Msra两 种语料的封闭潮试中准确率分别达到了95,8%和95.9%。 关键词 条件随机场 中文分词 歧义词 未登陆词 中文分词是自然语畜理解中很重要的内容之一,也是当 在链式CRF中,无向图中的所有标记结点形成一个链。在一 前智能信息处理技术的基础。分词的效果将影响到后续分析 阶链式条件随机场中,全连通子图集合就是所有的含有当前 的难易程度,如句法分析、语义分析等。现阶段人们提出了许 标记Y 、前一个标记YH和包含观测序列 的任何子集的最 多中文分词的算法,主要可以分成以下三类:a.基于字符串匹 大连通子图。例如,在图1中,结点集合{Y2,Y3,X}就为一个 配的分词方法:待分析的中文字符串与一定规模的词典中的 最大连通子图。其形式如图1所示: 词条进行匹配,若在词典中找到某个字符串,则匹配成功(识 一 别出一个词)。按照扫描方向的不同,串匹配分词方法又可分 为正向和逆向匹配;按照优先匹配的原则,可分为最大和最小 匹配。b.基于理解的分词方法:这种分词方法是通过让计算 机模拟人对句子的理解,达到识别词的效果,也称人工智能 法。C.基于统计的分词方法:这种方法只需对语料中的字组 田1镊式采件雕机场 频率进行统计,而不需要切分词典,因而又叫作元词典分词法 在序列标注任务中,随机变量X={X ,…,X }表示可 或统计取词方法,其主要包括基于引马尔可夫模型、基于最大 观测序列;随机变量Y={yl,y2,…, }表示观测序列对 熵模型、基于条件随机场模型的方法等…。 应的标记序列,随机变量y的链式条件概率分布为: 条件随机场模型是新近提出的一个基于统计的序列标记 1 exp( (Yi-1,Yi,x)+ ( )) 和分割的方法。CRF是一个在给定输入节点条件下计算输 出节点的条件概率的无向图模型。它没有隐马尔可夫模型 (1) (Hidden Markov Mode1)(L.R.Rabiner.1989)那样严格的独 是只依赖于观测序列的归一化函数(normalizing 立假设,同时克服了最大熵马尔可夫模型(Maximum Entropy factor) Markov ModeI,MEMM)(Andrew McCallum,2000)和其他非 ( )=exp(∑∑ (c,Yi,x)) (2) 生成的有向图模型(non—generative directed graphical models) 所固有的“标记偏置”[ 】(1abel—bias)(John Lafferty,2001)的 其中,exp(∑ ( —l,Y , ))是针对边的非负因子。 缺点。 ^(YH,Y{, )是针对边、捕获标记转移特征的状态特征函 1条件随机场模型理论 数。exp(∑ g-I( f.1,Yi,z))是针对每个结点的非负因子。 1.1条件随机场模型的定义 CRF是无向图模型,其最 厂 (Y , )是针对结点、捕获当前标记特征函数。 和 都是 简单的形式是链式CRF,也就是模型中的各个节点构成了链 待学习的模型参数,表示特征函数的权重。 式分布,根据中文分词的特点,本文采取的就是链式CRF。 1.2 条件随机场的训练 在序列标注任务中,给定训练 作者简介:迟呈英.女,1963年生,教授,硕士,研究方向为数据库技术、自然语言理解;予长远,男.1981年生,硕士研究生,研究为自然语言理解; 战学剐,男.1962年生,教授,博士,研究方向为自然语言理解、信息检索、网络安全。 圃 维普资讯 http://www.cqvip.com D=(X,Y),观测数据X=}x1,x2,…,xN},标记数据Y= 在我们实验中,如果字符是阿拉伯数字,那么丁(.)为1; }y1,y2,…,yN}。 如果字符是‘年’、‘月’或‘日’,那么T(.)为2;如果字符是 在中文分词系统中,条件随机场的训练就是通过训练语 ‘分’或‘秒’那么丁(.)为3;如果字符是文字数字形式(如 料来学习最恰当的模型参数,来使得某种规则标准最大。在这 ‘’一、‘二’等),那么T(.)为4;如果字符是英文字符,那么 里,基于最大似然原则(maximum—likelihood principle)对条 丁(.)为5;如果字符是其他情况,丁(.)为6。特征模板(a)和 件随机场进行训练,使得条件概率的log似然值(1og— (c)都是单个序列元素的特征;特征模板(b)和(d)都是元素 likelihood)[3 J最大: 序列的组合特征。同样,实验中也针对多字词的情况实验过 L( )= logp^( l X) (3) C—l CoCl等长词特征。但实验效果并不理想。 ( .,)∈D 1.3 条件随机场的推理 条件随机场的推理是指在给定 试验结果和分析 一个观测序列X={xl,x2,…,xN}的条件下 找到一个对 3应于最可能的标记序列Y=}yI,y2,…,yN}。 3.1 CRF分词实验结果本次实验使用的所有数据都来 从式(1)可以看到,在条件随机场的分布函数,归一化因 自于SIGHAN2006 Chinese Language Processing Bakeoff[ 】提 子完全于标记序列。所以,给定模型参数条件下,求得最 供的数据,进行的是分词封闭性测试。分词测试结果如下: 可能的标记序列可以表示为: 衰1 条件随机蠕在SIGHAN2006中文分词语料上的分词结暴 Y =arg rnaxyP(y l x)=argmaxy exp( ( H, i.I Yf,z)+ ^( ,z)) (4) .I 在当前序列位置为i、当前标记为Y的时候,Viterbi算法 可以求得至当前位置的最优标记序列的未归一化概率值。其 切分准确率(Precisi。n)=焉 递归形式为: 召回率(Recal1)= 雨 _E犟喜 ( , )=maxy { ( 一1, )*P (Ⅲ・, } (5) F ̄(Fseore)= l ̄Viterbi算法属于动态规划算法(dynamic programming)。 re c1SlO n十 KecalI 动态规划是最优化原理中的一种重要方法。在解决一个大的 3.2 CRF对歧义词和未登陆词的处理实验 中文分词任 问题中包含有很多重叠的子问题情况的最优解是有效的,它 务的难点在于分词边界的歧义处理和未登陆词的识别问题。 将问题重新组合成子问题。为了避免多次解决这些子问题,计 我们从分词歧义情况的处理和未登陆词的识别两个方面,来 算过程中会将中间结果保存以备后用,直至整个大的问题被 分析条件随机场的分词处理方法、效果及其在分词任务中仍 解决。 待解决的方面。 3.2.1歧义词的处理实验。在这里,我们首先考察、分 2 自动分词模型 析条件随机场解决中文分词词边界的消歧能力。因为歧义片 在本文中,根据中文分词的特点及条件随机场所使用的 断很难确定,所以我们目前只是简单地通过正向匹配分词和 特征[4-5】,即CRF能够同时使用中心词的前n个词和后m个 逆向匹配分词法对测试语料进行分词,然后通过双向比对来 词作为该词的上下文信息。这样,中心词的词性不仅与它前面 确定歧义片断。通过此法,在Upenn语料中得到共有2046 的词有关,还与它后面的词有关,更加符合实际情况。在本文 处歧义片断。得到这些歧义片断含有只有通过简单的字组合 中,使用了中心词本身、中心词的前两个词和中心词后两个 匹配可能的词典词。 词,以及它们之间的结构特征,我们所采用的特征模板如下: 比如,歧义片断“外交”等。其中的词典词有“外交 (a)C (n=一2,一1,0,1,2) 部”、“外交”和“”。最大匹配只是机械地匹配字数最长的 (b)C C +l(71=一2,一1,0,1,2) 词典词,根本不会考虑上下文的信息。所以,该歧义片断会被 (c)P (C0) 错误地切分为“外交”。而使用条件随机场进行分词,条 (d)T(C一2)T(C—1)T(C0)T(C1)T(C2) 件随机场模型可以通过当前字的上下文的位置信息来进行判 其中。C代表着中文字符; 断,比如,在“外交”的片断中,虽然“外交部”是词典词,但 C。代表着当前字符;Y/是相对于当前字符所处的位置。 条件随机场模型会从该片断序列整体考虑出发,进行统计判 比如,在序列“辽宁科技大学的学生”中,假如当前字符是 断。在训练语料中,“外交部”一词后面从来没有出现过“长” ‘的’,那么Cn表示‘的’;C—l表示‘学’;C:表示‘生’。P“(C0) 字。而且“外交”这个切词片断在训练语料中出现了22 是针对分词语料在中存在的标点符号(预先搜集,比如‘。’、 次。这些统计信息都将作为条件随机场的重要特征,使得歧 ‘?’等)而设置的特征;丁(C )是针对分词语料中实体名词而 义片断“外交”能够被正确切分。 设置的特征。这主要针对诸如日期、时间等和数字符号相关的 所以我们说,统计语言模型——条件随机场会根据上文 词类。 的有用信息作为决策权重特征,能够准确地切分出大部分歧 固 维普资讯 http://www.cqvip.com

义片断。对于Upenn语料中的2046处切分歧义片断,被条 件随机场正确切分的有1830个。同样,我们考虑了条件随机 场在Msra语料中的分词歧义情况处理。通过正向匹配分词 和逆向匹配方法,得到共有1253处歧义片断。条件随机场可 以正确地切分出其中的1025个。 衰2 CRF对歧义片断的处理结果 的短词信息,组成未登陆词的字符的位置信息比较稳定,位置 分布可以准确地通过窗ISI特征Cn和CnCn+1被统计建模。 所以,字数少的未登陆词可以很好地被切分出来。但对于多 字符(字符长度大于等于4)其它的未登陆词,条件随机场对 其的识别还有很大困难。试验结果见表3: 寰3 CRF对未登陆词和多字符未登陆词切分比较结果 CRF未登陆词处理结果 CRF对多字符未登陆词处理结果 所以,通过其上分词结果的数据分析来看,在分词任务 中,条件随机场能够很好地解决分词中的边界歧义问题。歧 表3中的实验数据通过对未登陆词和多字符未登陆词的 切分结果进行了比较,充分说明了实验数据,也充分说明了 CRF未登陆词切分取得了令人比较满意的结果,但CRF对多 字符未登陆词的切分效果还不够理想。 义片断一般情况下比较短,上文指示信息明确。实验中条件 随机场模型使用的窗口字词语言特征可以很好地帮助条件随 机场正确处理歧义片断。 3.2.2未登陆词的处理实验。在实验中,我们考察、分 析条件随机场对未登陆词的识别能力。由于语言模型的结构 特点以及使用的针对性特征都会对未登陆词的识别有一定影 响。所以,在这里我们对未登陆词进行比较清晰的分类 】。 将未登陆词细分为:命名实体词、factoid词(指年月日等包含 大量的阿拉伯数字或文字数字的词)、词法衍生词和其它未登 陆词等。 4结论 根据以上条件随机场在Upenn语料和Msra语料上的分 词实验及其相关分析,我们可以看到条件随机场在分词方面 的性能非常优秀。借助于恰当、准确的语言特征,条件随机场 可以识别出大部分的词典词和一定量的未登陆词。而我们同 样做了详细的分词错误分析,除了语料本身所导致的错误切 a.在未登陆词识别中,命名实体的识别较为准确。比如 片断“菲律宾总统埃斯特拉达”中的人名“埃斯特拉达”,“南斯 拉夫首都贝尔格莱德”中的地名“贝尔格莱德”等。通过这些 命名实体片断,我们可以看到,大多数的命名实体上下文中都 分情况外。在连续的词边界歧义,长字结构的未登陆词(包括 命名实体词)和词法衍生词识别方面,条件随机场性能都很一 般。还需要针对这些错误的情况,进行更有效的特征选择等。 参考文献 有强烈、明显的指示词。比如“总统”、“公司”或“市”、“州”等。 这些上下文指示词,可以通过条件随机场的窗口字词语言特 征Cn和CnCn+1很好地进行捕获统计。 1周文帅,冯速.汉语分词技术研究现状与应用展望[J].山西师范 大学学报(自然科学版),2006(1) 2 John Lafferty,Andrew McCallum,Femando Pereira.Conditional Random Fields:Probabilistie Models for Segmenting and Labeling Se— b.条件随机场对绝大部分的factoid词都能够做到切分 准确。比如,“15.6万”、“3O%”等。主要是因为,条件随机场 模型使用了当前字符是否是数字或数字单位的强烈语言特征 T(Cn)。由于组成factoid词的数字及其相关符号的有限性, quence Data[M],2001:282—289 3 Sha F,Pereira F.Shallow Parsing with Conditional Random Fields 这些符号的位置分布趋于稳定,位置信息通过factoid特征可 以被条件随机场准确地统计估计到。所以大部分的非特殊 【C].In:Proceedings of Human Language Technology Conference and North American Chapter of the Association for Computational Lin— factoid词都可以准确地切分出来。试验中出现的factoid词有 1321个,正确分词个数为1169个。 guistics(HLT—NAAC1),2003 4 Hai Zhao,Chang—Ning Huang,Mu Li.An Improved Chinese Word C.在词法衍生词方面,比如“嘻嘻哈哈”、“完完整整”、“走 来走去”等。条件随机场几乎都不能够将其正确地切分出来。 因为在训练语料中,两字词的情况居于大多数,所以词法衍生 词的切分结果为“嘻嘻哈哈”或“完完整整”等。其中“嘻嘻” 和“哈哈”都不是词典词,只有“完完”是词典词。所以词法衍 生词更多地是被错误切分为内部词典词组成的片断或两字词 片断。 egmentatiSon System with ondiCtional Random Field[C].Proceedings of the Fifth SIGHAN Workshop on Chinese Language Processing (SIGHAN一5),2006:162—165 5 Jin Kiat.Hwee Tou Ng.Wenyuan Guo.A Maximum Entropy Ap— proach to Chinese Word egmentatSion[C].Proceedings of the Fourth S1GHAN Workshop on Chinese Language Processing.2005:161— 164 6 SIGHAN2006[EB].http://sighan.es.uchicago.edu/bakeoff2006/ 7 Jianfeng Gao,Mu Li,Andi Wu Chang—Ning Huang.Chinese Word d.最后是关于其它未登陆词的识别切分。首先,字符数 少的未登陆词可以被条件随机场很好地被识别出来。比如 “困受”、“审阅”、“排水沟”等。虽然是未登陆词,在训练语料 中,短词(字符长度在2~3个)占绝大多数。通过这很大比例 Segmentation:A Prgamatic Approach[J].2004.中文计算语言学期 刊(英文版),2006,11(4):393—416 I责编:京梅) 团 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- 91gzw.com 版权所有 湘ICP备2023023988号-2

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务