基于信息熵的领域术语自动抽取算法在产品评论过滤中的具体运用

摘要:随着电子商务的迅速发展,评论挖掘将成为了是数据挖掘、自然语言处理领域的热点研究领域。要完成产品评论挖掘系统中产品特征自动提取子系统的设计与实现,就必须掌握好过滤用户评论这一环节。为了更好地先过滤产品评论,以提高挖掘结果的准确率。基于信息熵领域术语抽取算法的应用,显著提高了产品评论分类的精度,获得了较高的召回率与正确率,更好地为产品评论挖掘系统服务。 毕业论文网   ?关键词:产品评论挖掘,信息熵领域术语自动抽取   ?网上商品评论从本质上讲就是一种文本数据,对于一个关注该商品的潜在消费者而言,全部阅读如此庞大的文本数据以帮助自己做决定是十分困难的,所以,有效的产品评论挖掘系统成为了帮助消费者轻松进行产品评论所必不可少的。要完成产品评论挖掘系统设计与实现,获取用户评论过滤用户评论抽取产品特征等内容必不可少,而在过滤用户评论的过程中,由于Web上的用户产品评论存在大量的噪音,有的评论根本和产品无关,还有很多的广告信息,严重影响了产品评论挖掘的质量。因此,要先过滤产品评论,以提高挖掘结果的准确率,同时在从指定网站获取产品评论后,根据需要以词语为单位进行过滤、以字为单位进行过滤、以组块为单位进行过滤,以求过滤掉其中的低质评论。使其更好地为产品评论挖掘系统服务。   ?例如在数码相机领域中出现的“某些领域日货有优势,某些领域国产有优势。要尽可能地支持国产品牌,看看咱们国家过去走过来的路,多么坎坷。现在我们发展势头很好,大家多努力,多支持国货。”又比如“北京吉祥数码商城,所有数码产品全部都是市场价的5折”,像以上这种评论对于评论挖掘说毫无用处,让它存留在语料库中只会增加程序的负荷,同时降低挖掘质量,降低挖掘结果的准确率。所以在进行产品评论挖掘以前我们需要对产品评论语料库进行过滤,去掉其中的低质评论,以提高挖掘质量,提高挖掘结果的准确率。   ?领域术语自动抽取是指从一定规模的语料抽取出能反应某一领域文本特征或共性的词语,是自然语言处理中的一项重要任务。术语抽取被广泛应用于本体构建 、自动摘要 、语言模型等领域。单纯靠语言学专家抽取领域术语费时费力,因而很难形成规模,开发一种自动化的方法来辅助术语抽取显得尤为必要,能为许多面向领域的应用提供重要语言学资源。通常被采用的方法可以分为基于规则的和基于统计的方法两大类。基于规则的方法是通过预先设定许多规则模版,然后把待处理语料中与规则模版相匹配的词语作为领域术语候选。规则方法的不足在于很难制定一个完备的规则集来穷尽所有语言现象,并且当已有许多规则时,还需要考虑多个规则之间的冲突及解决。基于统计的方法通常包括机器学习方法和基于统计量度的方法。基于统计量度的方法是从领域分类语料中统计用词规律从而发现领域术语。已有的统计量度包括TFIDF、KFIDF、DR + DC。KFIDF 量度与TFIDF 相比,引入了词语类别信息。DR 和DC 分别表示词语领域相关性和领域一致性,领域一致性是指词语在其相关领域的所有文档中分布的一致性,它对获取高质量领域术语起重要作用。该方法被用于英文文本的领域术语抽取并取得了很好的效果,但该方法没有考虑不同领域语料的规模以及不同文档长度对领域术语抽取的影响。   ?在前人工作基础上,基于如下两个度量标准又有了一种新的领域术语抽取方法被提出,它能够更加准确、有效地度量领域术语的属性:   ?①.领域术语应该在不同领域类别间分布不均匀。   ?②.领域术语在其相关领域文档集中应尽可能分布均匀。   ?我们采用信息熵来衡量以上两个分布,并根据不同领域语料的规模及文档长度做正规化。这样也就是从类间分布、类内分布及语料规模三方面来衡量每个词语。本文还用该领域术语抽取方法代替传统特征选择方法应用于文本分类,使文本分类精度有了很大提高。   ?一、基于信息熵领域术语自动抽取算法   ?方便起见,我们定义如下数学符号:   ?m:领域类别个数   ?D?i(1≤i≤m):第i个领域类别   ?n?i(1≤i≤m) :类别Di中的文档数目   ?P(D?i|W) :词语W出现在类别Di中的概率   ?d??ij?(1≤j≤m) :类别D?i中的第j个文档   ?l??ij?:文档d??ij?的长度,即在该文档中出现的所有词语的词频之和   ?L?i:类别D?i包含的所有文档长度之和   ?WS??Di?:类别D?i的领域术语集合   ?WS??rel?:领域相关词语集合   ?WS??irre?:领域无关词语集合   ?WS:文本中所有词语集合   ?领域术语抽取的目标是给出集合WS的一个合理划分,满足WS??rel?∪WS??irre?=WS, WS??rel?∩WS??irre?=?,同时求出WS??Di??WS??rel?,在领域术语不兼类时, WS??D1?,WS??D2?,…,WS??Dm?构成WS??rel?的一个划分。通过全面考虑词语领域类内、类间分布情况来给出WS的合理划分。   ?二、正规划的类间分布   ?为了衡量词语领域类别间的属性,利用信息熵定义词语领域类别间的分布为corpus distribution(CD) :   ??CD(W)=—∑mi=1P(D?i|W)?log?P(D?i|W)?   ?CD(W)值越小, 说明词语W越有可能成为某个或某几个类别术语。与单纯考虑词语类别出现比例(P(Di|W)) 的方法相比,该方法不仅考虑了词语W的类别出现比例P(D?i|W) ,同时考虑了W在不同类别间的分布,也就是出现类别数越少越好。这是由于不同领域领域术语可能会有交叉,一个词语可能同时为两个领域领域术语,这就需要在考虑P(D?i|W)的同时,考虑W在类别间的分布情况CD(W)。以2003 年863 文本分类评测的标准语料为例:词语“党性”和“知觉”在类别A(马列主义) 均以0.5 的概率出现,但“党性”只出现在A(马列主义) 与D(政治、法律) 两个类别,而“知觉”共出现在11个类别语料中,那么“党性”极有可能是A 类的领域术语(当然可能兼D类) ,但以同样概率出现在A 类的“知觉”则不是该类的领域术语。可见传统方法中仅考虑词语领域出现概率是不够的,还应考虑词语在多个领域间的分布。不难发现,某个领域语料越多,那么一个词语在该类语料中出现的可能性将越大,为了消除语料规模对词语的出现带来的影响,于是提出了基于领域规模的正规化方法。词语W的正规化的类间分布为:   ??NCD(W)=—∑mi=1P′(D?i|W)?log?P′(D?i|W)   ?其中,P′(D?i|W)=P(D?j|W)/L?j∑mj=1(P(D?j|W)/L?j)?   ?三、正规划的类内分布   ?领域术语抽取的第一条标准是将NCD值尽可能小的词语W作为领域术语候选。领域术语抽取的第二条标准是领域术语应该在其相关领域内分布尽可能均匀。这条标准对于获取高质量的领域术语起着重要作用并首次被提出时没有考虑不同文档长度对分布的影响,本文定义了NDD(W,D?i)来刻画词语W在类别D?i中的正规化类内分布:   ??NCD(W、D?i)=—∑nij=1P′(d??ij?|W)?log?P′(d??ij?|W)   ?P′(d??ij?|W)=P(d??ij?|W)/L??ij?∑mk=1(P(d??ik?|W)/L??ik?)?。

?NDD(W,D?i)值越大, W越有可能成为类别D?i的领域术语。 如果W只在D?i的一篇文档中出现多次,在D?i的其他文档中没有出现,那么很有可能W在这篇文档中的出现是偶然的,不能代表该领域的普遍特征。 比如“蛔虫”在类别G(文化、科学、教育、体育) 的一篇介绍中小学生健康问题中蛔虫感染的文章中多次出现,但在该类别的其它文档中未出现,那么该词就不具有领域代表性, 不能成为G类的领域术语。另外领域分类文档很难百分百准确,难免会有一两篇文档被错分,这样更有可能出现上述某个非该领域的词汇多次出现在该领域的某篇文档中的情况。 因此通过衡量词语的类内分布会排除许多类似噪声。   ?四、具体算法及在文本分类中的应用   ?      ?以上领域术语抽取算法不仅考虑了词语在不同类别间的分布,还考虑了词语在其相关类别内的分布一致性。该算法抽取出的词语数目远大于文本分类需要的特征数目,因此用公式RS(W,D?x)表示词语W在其相关领域D?x中的排序权重,其中领域类别数m和D?x包含的文档数n?x用于将熵值NCD和NDD 归一化。   ?RS(W,D?x)=—λNCD(W)?log?m+(1—λ)NDD(W,D?x)/?log?nx   ?其中,经验最优化的λ取值为0?5。   ?五、以词为单位产品评论过滤   ?(一)实验原理   ?本课题首先以词为单位进行产品评论过滤,即先将语料库中的每条评论进行分词处理,再将分词后的产品评论直接按分词结果一个词一个词地录入数据库,同时记录该词的详细信息,如属于哪个领域、属于哪条评论、属于哪个句子,以方便日后在计算出错的时候找到原句查找原因。   ?然后运用多种数据库统计操作,按基于信息熵领域术语自动抽取算法中的NCD公式计算出每个词的NCD值,再将每个词按NCD值升序排列,从小到大抽取N个在某个领域出现过M次的词作为该领域领域术语。接着,按基于信息熵领域术语自动抽取算法中的NDD公式计算出上文抽取出来的领域术语的NDD值。   ?最后运用以下两种方法分析某条产品评论在某个领域的相关性以过滤掉不相关的评论,即分别按以下两种方法计算出每条评论的相关性值,同时分别计算出该种方法在该领域计算所有评论相关性值时的平均值:   ?①.将该条评论中的所有词的NDD相叠加,得出相关性值   ?②.按基于信息熵领域术语自动抽取算法中的RS(W,D?x)公式将熵值NCD和NDD结合在一起计算,得出相关性值   ?若某评论的相关性值高于平均值,则判断为相关,反之,则不相关。再将判断结果与人工标注评论相比较,得出相关性判断的正确率与相关评论的召回率。   ?(二)实验过程与结果   ?本系统先从省略网站获取了5类产品评论,分别是数码相机、手机、笔记本、摄像机、MP3,每类抽取最热门的10种型号,并且每种型号获取10页评论,以此来构建包含5个领域每个领域1000条左右评论语料库。   ?然后运用中科院的ICTCLAS Version 1.0软件对语料库中的所有评论进行分词,再将语料库中人工判断为相关的评论标注为相关。   ?最后对分词结果分领域地进行相关性分析,即以词为单位进行产品评论过滤,得出结果如下:   ?       六、以字为单位产品评论过滤   ?(一)实验原理   ?以字为单位进行产品评论过滤与以词为单位进行产品评论过滤原理大同小异,区别就在于以字为单位进行过滤时由于不是将每条评论中的词语录入数据库,而是直接将每条评论中的字一个一个的录入数据库,所以不需要对语料库进行分词处理。   ?(二)实验过程与结果:   ?本系统先从省略网站获取了5类产品评论,分别是数码相机、手机、笔记本、摄像机、MP3,每类抽取最热门的10种型号,并且每种型号获取10页评论,以此来构建包含5个领域每个领域1000条左右评论语料库。同时,将语料库中人工判断为相关的评论标注为相关。   ?然后直接读取语料库中的产品评论,并逐个截取每条评论中的汉字,分领域地进行相关性分析,即以字为单位进行产品评论过滤,得出结果如下:          七、以组块为单位产品评论过滤   ?原始领域文本中汉字被分词软件切分后是以“字”或“词”为单位的,直接对原始文本逐字、词分析来进行术语提取,没有语言知识的引导,容易出现术语边界判断不准的错误。所以我们对原始领域文本先进行粗切分,即用常用分词软件进行词语切分 。在领域文本粗切分后,系统采用互信息计算待识别字串的内部结合强度,然后利用普通词语搭配前缀、后缀信息库和计算出的互信息值相结合进行术语选择,生成组块术语,得到最终术语抽取结果。   ?(一)基于互信息的字串内部结合强度计算   ?记待识别字串为c=c?1c?2…c?n,c的两个最长子串记为a=c?1c?2…c??n-1? ,b=c?2c?3…c?n。例如,字串“自然语言处理”,c=自然语言处理; a=自然语言处; b=然语言处理;记f(c)为字串c?1c?2…c?n在语料中的共现频率; p(c)为字串c?1c?2…c?n在语料中的共现概率。根据最大似然估计,在语料规模足够大的情况下,可以认为p(c)等于f(c)。其中n为字串的长度,要求n >1。   ?在信息论中两个事件AB的互信息计算如下:   ?MI=?log??2p(AB)p(A)p(B)(1)   ?那么对于字串c?1c?2…c?n,可以定义其互信息为   ?MI=?log?p(c)p(a)p(b)=?log??2f(c)f(a)f(b)(2)   ?如果字串c结合十分紧密,那么f(c)就与f(a)或f(b)相差不大,依据式(2)计算的字串互信息就比较大;反之,f(a)和f(b)就会远远大于f(c),这样计算出来的互信息就比较小。因此,互信息可以用来表示一个字串的内部结合强度。基于统计的思想认为,一个词语搭配如果在语料中出现,那么它肯定不止出现一次。因此运用上述公式分析字串的内部结合强度时,一般只对在语料中出现次数大于两次的术语进行考察。   ?(二)字串内部结合强度(互信息)计算公式优化   ?经仔细分析以词为单位进行产品评论过滤抽取出的领域术语,将原本是一个词组块领域术语切分为两部分的情况为大多数,所以本系统按两个相邻字或词来进行互信息计算,同时将互信息运算公式优化为:   ?I(w?1,w?2)=P(w?1,w?2)•?log?P(w?1,w?2)P(w?1)•P(w?2)   ?P(w?1,w?2)=count(w?1,w?2)|w?x,w?x|   ?P(w?1)=count(w?1,w?x)|w?x,w?x|   ?P(w?2)=count(w?x,w?2)|w?x,w?x|   ?其中,w?1与w?2为两个相邻的字或词,P(w?1,w?2)为w?1与w?2作为一个组块同时出现的概率,即w?1与w?2同时出现最为组块的个数与所有相邻的字或词的个数之比,P(w?1)为w?1作为组块的前缀单独出现的概率,即前缀为w?1的组块个数与所有相邻的字或词的个数之比,P(w?2)为w?2作为组块的后缀单独出现的概率,即后缀为w?2的组块个数与所有相邻的字或词的个数之比。   ?(三)实验原理   ?以组块为单位进行产品评论过滤与以词为单位进行产品评论过滤原理大同小异,区别就在于以组块为单位进行过滤时需要先对分词后的结果中的每两个相邻的词进行互信息运算,将互信息最大的几个两两相邻的词合成为一个词组块,以后在读取数据时凡是见到这两个相邻的词就按这两个词合成的组块进行处理。

?(四)实验过程与结果:   ?本系统先从省略网站获取了5类产品评论,分别是数码相机、手机、笔记本、摄像机、MP3,每类抽取最热门的10种型号,并且每种型号获取10页评论,以此来构建包含5个领域每个领域1000条左右评论语料库。   ?但是因为上面所建语料库质量不高,所有5个领域中只有数码相机领域符合互信息计算要求,所以只能对该领域进行互信息计算。又因为进行产品评论过滤即相关性计算时需要有其他领域语料信息,而现在无法获取其他领域经过互信息计算的语料,故本实验重新从省略网站上获取了6000多条数码相机领域的产品评论作为语料库,然后运用中科院的ICTCLAS Version 1.0软件对语料库中的所有评论进行分词,最后进行了互信息计算,现将得出的有用组块作为实验结果,统计如下:             从以上统计中我们可以得出的组块为:取景器、对焦、图象、费电、液晶屏、噪点、数据线、高速卡、贴膜、存储卡、记忆棒、变焦、卡片机、死机、SD卡、读卡器。   ?然后按以上组块代替原来的组块前缀和后缀词以词为单位进行领域术语抽取。将抽取出的领域术语比对原来以词为单位进行产品评论过滤实验中抽取出来的领域术语如下:          根据实验结果可以得出,经过互信息计算后的领域术语抽取显然更加准确,更能提高产品评论过滤的精度。如果将该方法运用于产品特征抽取,也必将取得良好的效果。(重庆市大渡口区国土资源管理分局;重庆;400084)   ????   ?参考文献   ?[1] 伍星,何中市,黄永文. 产品评论挖掘研究综述. 计算机工程与应用,2008.3   ?[2] 娄德成,姚天?. 汉语句子语义极性分析和观点抽取方法的研究. 计算机应用,2006.11   ?[3] Steven Bethard, Hong Yu,Ashley Thornton, Vasileios Hatzivassiloglou,Dan Jurafsky. Extracting Opinion Propositions and Opinion Holders using Syntactic and Lexical Cues. Computing Attitude and Affect in Text: Theory and Applications.Volume 20,2006.Page 125—141.   ?[4] Ellen Riloff,Janyce Wiebe.Learning Extraction Patterns for Subjective Expressions, Proceedings of the 2003 Conference on Empirical Methods in Natural Language Processing.Sapporo,Japan.2003.

0 次访问