1. 首页
  2. 移动开发
  3. 其他
  4. 论文研究 基于模板的中文人物评论意见挖掘.pdf

论文研究 基于模板的中文人物评论意见挖掘.pdf

上传者: 2020-07-29 00:57:28上传 PDF文件 342.22KB 热度 26次
使用基于模板的方法对中文人物评论语句进行意见元素挖掘,提取出句中所含的评价对象、评价词语,并分析出意见的倾向性。进行了中文人物评论语句的自动意见挖掘实验,实验中首先建立了一定数量的熟语料库,然后从语料库中生成意见模板,最后用生成的模板来提取语句的意见元素。实验获得了72.55%的F-score,表明该算法是有效的。第3期李娟,等:基于模板的中文人物讦论意见挖掘·835·(P〉、(V)(V)、C)〈C)、〈0〉(/0)分别是被评价者、评价和O3检索关键字采用这四种组合方式是由于倾向性的表达的谓语动词、评价内容和评价词在分词结果中的词序号,序号是通过评价词O来进行的,所以检索关键字中必须包含0,谓以0开始,小于0的序号表示没有出现该项内容;ori)(/omi)语动词Ⅴ和评价内容C可以有也可以没有,因此一共是四种标签是评价的倾向性,正面表示褒义评价,负面表示贬义评价。组合。1)工作子串b)使用检索关键字在模板库中检索可能与生语料匹配的棂据1.2.1节的模板设计方案,何中所有的意见元素都转模板。由于能够与模板中的意见元素匹配数量较多的检索关換为相应的符号,冋时谓语动词Ⅴ、评价内容C和评价词O被键字更为准确,模板检索关键字按照VCO、VO、CO、O的顺序提取岀来,按照亡们在句中的顺序生成模板的检索关键字。句在模板库中检索模板,当检索到模板并成功匹配时,停止继续中除意见元素、谓语动词、连词、助词、介词之外的词被去除,这检索,以匹配上的模板作为结果。样形成的结果称为工作千串。c)进行模板的匹配。将检索到的模板和从未标注句子中2)模板的形式提取出的工作子串过行匹配,匹配方式用寻找两者的最大公工作子串过滤并结构化后形成模板,最后生成的模板如例共串的方式。当检索到的模板和工作子串的最大公共字串6所示长度与模板长度相同时,表明工作子串和模板可以完全匹配。例这时可以根据意见元素在模板中的分布获得意见元素在工作子串中的分布,并通过工作子串的还原得到原句中的意见元素。下面例7说明意见挖掘的过程。key)C是O{/key)ele PCvO(/ele)例7北京时间8月20日,中国队90比121败于美国Pattern)P的C是o(/ PatterN队,但是姚明的表现还是得到了足够的肯定。(Pps)P/nr的/aC/n是/O/vn〈/Ppos北京/n时间/n8月/t20日/t,/w中国队/n90/m比/pori)1(/ori121/m败/v于/P美国队/n,/w但是/e姚明/nr的/u表例子中 pattern)〈 pattern)标签标记了一个模板,模板的vn还/d是/v得到/v了/u是够/a的/u肯定/v。/w第一个节点是模板中的谓溍动词;〈key〉〈/key〉节点标记了模例子中是需要进行意见挖据的句子,已经经过词性标注板中VCO元素的实际出现情况及其顺序;〈ele)(/ele)节点标首先在句子中查找候选的意见元素,查找得到评价内容C:表现;评价词O:肯定;人物P:姚明,谓语动词V:是、得到。根据记了模板中实际的意见元素和谓语动词出现情况及其顺序;候选意见元素提取工作子串:P的C是得到的O。候选意见元( Pattern)(/ Pattern)节点标记了模板的内容;〈Ppos〉/Ppos)节点给出了〈 PatterT)节点中每个词的词性;〈qri〉/oi)节点标记素组合成检索关键字:C得到O、得到O、CO、O。检索关键字C得到在模板库中检索到一个相应的模板了该模板的倾向性。1.2.3候选模板过滤K patternV)得到〈/V有些候选模板在熟语料库中出现的次数较多,这些候选模key)C得到0〈/key板相对比较可信,而那些岀现次数较少的候选模板可信度相对ele〉PCVO/ele较差,因此需要对候选模板进行过滤。过滤阈值为Pattern)P的C得到O〈/ PatternPpos)P/mr的/cC/n得到/、O/vn(/Psorl其中:d是一个计算得到的结果,它的含义是候选模板在熟语料库中出现的平均次数乘以一个比例系数,它的值与三个变量模板的内容为P的C得到O,工作子串为P的C是得到有关:sum为所有候选模板在熟语料库中出现的次数之和;m的O,两者的最大公共字串为P的C得到o,与模板相符,匹配为候选模板的数量,是比例系数,取值为(0,1)。过滤后得成功。从模板中恢复意见元素的结果如表1所示。到模板存入模板库中。在系统实际测试中,sum=465;nm=表1例7意见挖掘结果被评价者P请语动词V评价内容C评价词0姚明得到表现肯定1.3意见元素挖掘意见元素的提取可以分为两步,即模板检萦和模板兀配。2实验结果及分析其中,模板检索的作用是根据输入的未标注句子在模板库中检本章对系统进行了测试,首先从互联网收集了600条带索相应的模板。显然,未标注的句子是无法直接用于检索模板的,这中间存在三个问题:用什么样的关键字来检索模板;如何有人物评价信息的句子,并对意见元素进行了人工标注。其获得这些关键字;怎样使用这些关键字来检索模板。模板匹配中400句作为训练语料,另200句再加上50句没有意见的客的作用是应用模板来提取句中的意见元素。观陈述句作为测试语料。先对测试语料进行分词,对分词的a)需要从未标注句中提取出检索关键字。检索关键字的结果进行了人工校对,然后输入系统进行测试。测试结果如内容包括谓语动词V、评价内容C和评价词0,候选谓语动词表2所示。表2语句意见挖掘结果选取词性标注出的动词。评价内容一定是与人有关的名词,本语句含有观点的提出观点的结果结果召回率止确率文建立了内容词表(或称属性词表),共103词,然后将ⅤCO组F-score总数句了数句子数正确错误/%/%合以形成检索关键字。实际的系统中,各项元素需要按照其实2501861407075.372.55际的出现顺序进行排列。组合的方式有四种,即ⅤCO、VO、CO对46个错误的句子进行错误原因统计,结果如表3所示。836计算机应用研究表3错误原因统计对这些部分作有针对性的改进。错误总薮人物属性错评价词错意见倾向错其他对象人物错且前语句级的意见挖掘成型的系统不多,且都是针对产品的挖掘,正确率一般在76%以下。本文的工作达到了75.3%以下举例给出实验的结果,如表4~7所示的准确率,与他人的工作相比,本文工作取得了较好的效果。例8周娥皇的美,还是超乎了李煜的想象,双目流盼,明召回率略低,主要是由于模板的覆盖面不够广,有些测试语料净澄澈樱桃小嘴別致玲珑;如云鸟发,高高挽起;如玉脖颈,颀是模板没有覆盖到的,可以通过增加模板来改进系统的性能;长优雅。由丁模板依賴丁熟语料库,夲文中熟语料库规模较小,只有表4例句8挖掘结果400个句子,影响了模板的覆盖能力,因此可以通过建立更为被评价者属性评价词情感偭向完备的熟语料库来増加模板的数量,从而提高系统的性能。本李煜喵别致玲珑正面例9张氏在其夫心里就是一个简单粗俗、常常醋意大发文选择的人物评论挖掘,相对于产品挖掘来说难度更大,主要表现在以下几个方面:a)对主题抽取。人物既可以发表评论的人。也可以被评谂,而产品只能被评论,因此在被评价者抽取上更表5例句9挖掘结果为困难。b)被评价对象的属性抽取。人物的属性复杂而且用被评价者属性情感傾向其夫语多样,如“眼”“口”“眼睛”“双眼”“双日”“眸”“眸子”“日以上是对象判断错误的例子。例8中都是对周娥皇的评光”“眼神”等都是指同一个评价属性。产品的属性相对较为价意见,但是系统把第三小句及其后面的意见都判断为是对李间单,称谓较为圄定,如数码相机的“像素”等。c)评价词提煜的评价。这是因为系统没有对人物的句间省略进行详细的取。对人物的评价词灵活而丰富,如“杏眼”“蜂”“柳下惠”分析和处理,只取最近一个出现的人物进行恢复,此句中靠等,又如“婉顺”“宽和”等由多个词揉合而成,又如“风流”“风后出现的“李煜”就作为第三小句的被评价者而提取出来,没骚”等描述人物的词语常有二义性,囚此增加了识别和判断的有提取到正确的被评价者。难度。d)意见的倾向分析。对人物的评论常常显得委婉含例9中出现了两个人物,而系统判断被评价者发生了错蓄,不够直接,表达方式也丰富异常,而产品的评价大多直截了当。因此,综合考虑上述原因,本文在中文人物评价挖掘方面误。句中出现了人物张氏和其夫,被评价者应该是张氏,系统采用基于模板方法取得∫75.3%正确率,具有一定的价值。锆误地判断成了其夫。这是在模板匹配时出现的错误。出于在对工作子串和模板进行匹配时采用的是LCS算法,当工作3结束语子串中有两个人物张氏和其夫,而模板中只有一个人物时,匹配上的是靠后的人物,即其夫。本文提岀了一种基士模板的中文人物评论语句意见挖掘例10冰冰做出似傻非傻的神情,很可爱。算法,算法分为模板库生成和意见元素挖掘两个模块。在模板表6例句10挖掘结果库生成模块中,首先在对意见元素及汉语词性特点的分析基础被评价者属性评价词情感倾向上,设计了评价挖掘结构化模板;根据模板设计,从已标注的语冰冰无负面料屮提取候选模板并过滤,生坟模板库。在意见元素挖掘模垬中,对输入的测试句子提取作子串和检索关键字,使用检索例⑩0是评价词判断错误的例子,句中的第一个“傻”被判关键字在模板库中检索相应的模板并将检索到的模板和工作断成了评价词,这是由于模板匹配的方法比较机械,没有对句子串进行匹配,根据匹配的结果挖掘出意见元素。实验表明,∫结构作详细分析。一日出现∫可能的意见元素并且有能够本文的方法能够较为准确地从测试语料中提取出意见元素,正匹配的模板,就会提取出相应结果确率达到75.3%。例11我从来就不曾觉得罗纳尔多是忠诚的。参考文献:表7例句11挖掘结果[1]路斌,万小军,场建武,等.基于同义词词林的词汇褒贬计算被评价着属性评价词情感倾向[C]//中国计算技术与浯言问题研究——第七届中文信息处理罗纳尔多无国际会议论文集.北京:电子工业出版社,2007:17-23例11是倾向性判断错误的例子,这是一个否定句,否定词[2」朱嫣岚,闵锦,周雅倩,等,基于 HowNet的洞汇语义倾向计算和评价词距离较远,而系统只会对紧邻评价词的否定词作处[冂].中文信息学报,2006,20(1):14-20理,因此没有判断出“忠诚”已经被否定。[3 KIM S M, HOVY E. Determining the sentiment of opinions C1//通过上面的实验可以看出,本文所采用的基于模板的方法Proc of the 20th International Conference on Computational Linguistics. Morristown: Association for Computation Linguistics, 2004: 1367可以比较有效地从句中提取出意见元素。系统的问题主要在1373于:a)模板匹配时单纯采用LCS算法进行匹配,没有作进一步[4]娄德成,姚天汉语句子语义视忙分析和观点抽取方法的研究的分析;b)系统对丁句间人物的省略没有作很好的处理;c)系[J.计算机应用,2006,26(11):2622-2625统没有对句子的结构进行分析,因此当评价意见以较为复杂的5]奏德成,基子NLP技的中文网落评论观点抽取方法的研究形式出现时,提取会出现错误;d)极性词、属性词等的识别也[D].上海:上海交通大学,2007[6]彭其伟.基于统计方法的中文文本情感倾向分类研究[D].大会对提取效果产生影响。在各项意虬元素的提取中,被评价者连:大连理工大学,2007的错误较多,这主要是由于上述a)b)这两个原因造成的;而第「71徐琳宏,林鸿飞,杨志。基于语义理解的文本倾向性识别机制三点原因对其他意见元素的影响较大。在将来的工作中,将会[J].中文信息学报,2007,21(1):96-100
下载地址
用户评论