学科採素Disciplines Exploration基于深度学习的中文抽取式摘要方法应用齐翌辰王森淼 赵亚慧*(延边大学工学院计算机科学与技术学科数字媒体技术专业 吉林•延吉133002)摘要在当今网络信息化发展迅速丝时代,每时每刻都有大量的信息产生,其中以文本信息居多,自动文摘技术能够
从一段文本中快速准确提取出其核心内容,相比关键词或句子作为摘要的可读性更高,可提高读者获取信息的效率.本文使用Python语言,利用TextRank算法,首先将文本切分成句子作为网络顶点(Vertex),再将文本预处理后,计算句 子相似度作为边(Edge)的权重、表示各句子间的关系,构建候选句子图模型.最后根据算法为每个句子进行评分,将评
分结果进行倒序排序,排在最前面得分较高的句子就是该文本的摘要.该方法能够帮助读者高效高质量地阅读、检索 及管理文本,为人们阅读丈献提供了便利.关键词 自动摘要 TextRank中文分词 深度学习中图分类号:TP391
文献标识码:A DOI: 10.100/j.cnki.kjdkz.2019.05.032Application of Chinese Extractive Abstraction
Method Based on Deep Learning
QI Yichen, WANG Senmiao, ZHAO Yahui(Digital Media Tech no logy Major in Computer Science and Technology, Yanbian University College of Technology,
Yanji, Jilin 133002)Abstract In this age of rapid developing network information, lots of information are produced every time, texts play an im
portant role, the core content of the text can be abstracted by automatic summarization technology quickly and accurately, as an abstraction, the readability of sentences are better than keywords, it can raise the efficiency of obtaining information for re
aders. This article uses Python and TextRank algorithm, firstly cut texts into sentences as vertex, and after preprocessing the
texts, calculates the similarity between sentences as the weight of edge, meaning the relationship of each sentence, and constructs graph model of candidate sentences. At last, grades every sentence according to the algorithm, the results are sorted in descending order, the top sentence is the abstraction of this text. This method can help readers read, retrieve and manage the
text with high efficiency and high quality, and it offers convenience for people reading literature.Keywords automatic abstraction; TextRank; Chinese word segmentation; deep learning0引言切分句子、中文分词、去除停用词。随着互联网技术的飞速发展,网络已然成为人们获取外界
1.1切分句子信息的重要途径。但面对过于密集的信息量,人们如何快速且 为了得到摘要,先将文本以句子为单位分开。句子间以具
准确地提炼到信息的关键内容,是我们亟待解决的问题。有标志性的标点符号相隔,读取文本后,对字符逐个进行遍历,
文本摘要是指通过对全文信息进行处理,从中提炼出最关
并将读取到的字符与分句标志符号比对。在遍历到句号、感叹
键的内容,重组成更精简的文本的过程。抽取式摘g(Extraction)
号、问号等中文句子终止符时,表明这段字符成句,切出该句子。指从原文本中截取出一部分可以概括全部内容的片段构成摘 1.2中文分词要,这些片段可以是段落也可以是句子,本文选择抽取关键句。
词是自然语言处理中有意义的构成单位,中文分词是对中文
如果每个文本都需要人工进行总结概括进而再提取摘要,显然 信息进行处理重要的一步,是进行中文信息处理的基础严中文文 是非常巨大的工作量,耗时费力,效率非常低,而且由于每个人
本与英文不同,词与词之间没有显性的分隔标志,在本文中采用
的文化背景及对文本的理解不同,人工摘要带有很大的主观色 Python语言中的第三方开源库jieba,对切分好的句子进行分词。131彩,使得抽取结果不够准确。因此,使用计算机通过一个统一的
1.3去除停用词标准,高效精确地对文本自动抽取摘要是目前的一个研究热点。在信息处理时,文本中存在一些没有实际意义的词语,而
本文所用实验数据实来自延边朝鲜族自治州科技局的科
且出现次数较多,如“的”、“在”、“你、我、他”,在计算时会产生
技文献语料库,本文的实验使用Python语言实现,利用Text-
比较大的误差,停用词表有通用停用词表与专用停用词表之分, Rank算法,对语料经过以下步骤处理,从原文本中选择抽取关 其来源有人工构造与基于统计的自动学习两种方式。⑷去除文
键句,完成该文本的抽取式摘要。本中的停用词,可以缩小计算的范围,提高抽取效率和准确性。1文本预处理2句子相似度计算文本预处理\"'(Text preprocessing)主要包括以下几个步骤:
经典的PageRank是一种链接分析算法,⑸以一个网页链接
2019年/第14期/5月(中)69学科探素Disciplines Exploration的数量和质量,可以计算出该网页的重要性。利用推荐的思
s4实验描述实验样本设定为科技、政治、教育、经济、体育五类新闻各
想,各个页面既可以推荐其他页面,也可以被其他页面推荐,重
要性不同的页面推荐的质量也不尽相同,可根据其指向性构建
30篇,共150篇作为测试语料库。由五名同学对测试语料库 中的文本进行人工提取摘要,每名同学提取出文本中的5至8 句摘要,并对这些句子排序,选出提取率最高的三个句子作为
候选。有向带权图,进一步迭代计算。而在TextRank算法中,以句子 为顶点构建的图模型,实质上为无向带权图,图中的边表示两 顶点的连通性,权重即句子的相似度,表示句子之间互相推荐
的程度,公式为:Si mi lari , S)他丨t* e S c S』
log(|5,|) + log(S」)本文利用平均准确率,平均召回率和平均F值3分析自动
(1)摘要与人工摘要的差异,作为评定摘要的标准。同时记录运行
时间,在计算算法执行时间时,考虑到计算机所处状态的不同
其中,S,和S)代表两个句子,h代表句子中的词项。⑸和|将会对运行时间造成一定的影响,需要足够大量的样本减小这
样的误差,因此我们将经过多次测试,取多次测试结果数据的
SJ表示预处理之后句子S中词项的个数,具体实现该算法时,直接计算同时出现在两个句子中的词项个数即可,其中log() 函数是以自然对数e为底。平均值,保证数据的相对可靠性(表1).表1科技类政治类实验结果教育类本文中定义每个句子与其本身的相似度为0,输出邻接矩
经济类体育类阵表示句子之间相似度的图。平均执行时间1.457s0.3510.3461.549s0.3670.3571.584s0.3621.450s0.3361.500s0.3533应用TextRank算法平均准确率平均召回率平均F值TextRank是一种基于图排序的算法,何利用投票的原理, 票的权重取决于每个句子的票数。其基本思想是对于给定的
一篇文本,通过句子相似度计算出每个句子的得分,分数代表
0.3130.3350.30.3490.3290.3400.3490.361这个句子的重要程度,得分较高的句子即为摘要。公式为:略亿)=(1 一 d) + d x y ~ (K.)V^OutWj)由实验结果可知,TextRank算法的平均准确率,平均召回
率和平均F值均在35%左右,运行时间在1.5s左右。总体来 说,该算法的可行性较高。公式中,WS(Vi):代表句子Vi的得分。d:阻尼系数(Damping
5结束语在信息呈指数级爆炸式增长的今天,读者如何在信息的海 洋里既快又准地发现自己的所需,是日前自然语言处理技术的
Factor),确保每一个句子至少有1-d的分数,通常情况下取0.85,
表示图中某个句子推荐其他句子的概率。如果d过大则需要迭
一个研究重点。本文介绍了以Python语言为工具,利用其强大的第三方
代的次数非常大,并且算法的排序不稳定,如果d过小会造成迭
代的效果不明显。In(V):表示推荐V;的句子。Out(V,):表示V」
库资源,可以轻松地完成中文分词、计数、排序等功能,为实现
推荐的句子。w”:表示句子V;和V」之间的相似度。给每个句子
赋初始值WS(V,) = 0.5。当同一个句子前后两次迭代的分数差
TextRank算法提供了便利条件。在具体实现过程中,为研究该
算法及结果的特点,完善其不足之处。对运行时间、句子所在
距小于0.0001时,我们就认为分数趋于稳定,不用再继续迭代,
跳出循环,将当前迭代下句子的得分作为最终得分。再将得分进行降序排序后,选择得分最高的句子作为文本的摘要(图1)。位置进行记录,并计算准确率。如果可以通过对候选句子在文
本中位置的研究,进一步确定摘要句常在的文本区间,甚至可
以根据不同类文本的不同特点,设定不同的区间,以及文本标
题与摘要句是否有一定的数量关系,则可以大大提高抽取效 率。摘要是一篇文本的精华,是我们接触信息最直接的方式,
值得我们做更深一步的研究。*通讯作者:赵亚慧参考文献[1] 张爱科.基于云计算Hadoop平台的文本挖据预处理方法LH.上海工程技术
太学学报,2017.31(02):115-119.[2] 宗成庆冲文信息处理研克现状分析[J].语言战略研Jt.2016.1(06): 19-26.[3] 那彪,根绒切机多吉.基于jieba分词搜索与SSM框架的电子商城购物蔡统
[J].信息与电脑(理论版),2018(07): 104-105,108.[4] 化柏林.知识抽取中的停用词处理技术[J],现代图书情报技术,2007 (08):
48-51.[5]
曹军.Google 的 PageRank 技术剖析杂志,2002(10):15-18.
[6] 李娜娜,刘培玉,刘文锋,刘伟童.基于TextRank的自动摘要优化算法[J/OL].计算机应用研 %,2019(05):1-3[2019-03-08].图1 TextRank算法流程图70 2019年/第14期/5力(申)