0942152116-彭灿《嵌入式系统及应用》大作业模版.docx
0尔敏斯华冷例ANHlIXINHUAUZlVERSlTY嵌入式系统及应用(大作业)(题目:基于S3CC400的嵌入式Web服务器BOa移植)姓名:彭灿学号:0942152116专业:院系:电子通信工程学院指导老师:完成时间:2013年10月8日基于看法挖掘的中文词汇语义倾向性分析摘要近年来随着互联网的快速发展,网络已经成为人们表达民意的重要场所,网络评论也已经成为政府和企业等单位了解民意和消费者需求倾向的一个重要途径,网民言论将对政府在内的各类社会组织发挥前所未有的影响力。通过对这类网络评论进行分析,政府可以了解网民对公众事务的看法,企业可以依据评论改进产品质量和服务。如何处理这些信息从中得到他们想要的内容,在近年来得到了很多的关注和探讨。其中情感分析就是随之兴起的一个探讨领域,可以应用到信息过滤、产品举荐和用户爱好发掘等方面。本文针对基于看法挖掘的中文词汇语义倾向性分析主要做了以下工作:(1)主要介绍看法挖掘的相关概念,并对目前的国内外探讨现状做了一个深度的介绍。(2)介绍目前词汇语义倾向性计算中比较常用的两种算法,分别对它们的优缺点进行分析。(3)介绍自己的探讨方法和相关过程。本文主要针对热点新闻事务中的评论数据进行收集,然后利用中科院分词软件TCTC1.AS对收集到的评论数据进行分词,将它们看成一段段的短文本,抽取其中的关键词(一般以形容词、副词居多),与事先打算好的情感语料库进行对比,提出语义倾向相像度的概念,通过对PMl算法和HowNet算法计算词语的倾向性的优缺点进行分析,提出一种改进的基于看法挖掘的中文词汇语义倾向性分析方法。从而为相关部门针对这些问题实施新的政策供应更好的决策支持。关键词:看法挖掘;情感倾向性;文本倾向性分析;情感分析BasedOnAnalysisOfChinese1.exicalSemanticTendentiousnessOpinionMiningABSTRACTWiththerapiddevelopmentofthenetwork,Internethasbecomeanimportantplacewherepeoplecouldexpresstheiropinions.Internetcommentingalsobecameavitalmethodwherethegovernmentandenterprisesgetpeople'sopinionsandcustomers,needtendencywhichwillmakegreatandimmeasurableimpactsonthegovernmentandallkindsofsocialorganizations.Thegovernmentcangettoknownetizens,viewofpublicaffairs,andenterprisescanadjustandpromotetheirproductsqualityandafterservicesthroughtheanalysisofcommentspostedonline.Inrecentyears,moreandmoreresearcheshavefocusedonthetopicabouthowtofilerandselectinformationtheyneed.Andemotionanalysisisoneofthoseresearcheswhichcouldbeappliedininformationfiltering,productsrecommending,userinterestdevelopingandmanyotheraspects.ThispaperisaresearchconcentratingontheanalyzingofthetendencyofChinesewordsbasedoncommentdiscovering.Thepaperismainlyabout:1. Basicconceptsaboutcommentdiscovering,andadeepintroductionaboutrelatedresearchesbothfromChinaandforeigncountries.2. Anintroductiontotwobasiccalculatingmethodsinpresentcalculationsofwordstendency,andtheanalysisofadvantagesanddisadvantagesofthesetwomethods.3. Anintroductiontothemethodandprocessofmyownresearch.Thispapermainlyfocusesondatacollectedfromhotcurrenteventscomments,whichwillbeanalyzedwithTCTC1.ASsoftwarefromChineseAcademyofSciencesandputthemintoshorttexts.Itwillselectsomeofthekeywords(mostlyadjectivesandadverbs),makeacomparisonwiththewordsfromemotionlexiconpreviouslypreparedandcomeupwithasimilarconcepttowordtendency.AndthroughtheanalysisofadvantagesanddisadvantageswiththehelpofPMIandHowNet,itwillgetamoreadvancedmethodtotheanalyzingofwordstendencybasedoncommentdiscovering,sothatitcanproviderelevantofficeswithbettersupportandsolutionstoproblemsfromthelaunchingofnewpolicies.Keywords:Commentdiscovering;Emotiontendency;Analysisoftexttendency;Amotionanalysis1绪论错误!未定义书签。第一章ARM体系结构介绍错误!未定义书签。1.1ARMcore描述错误!未定义书签。1.2编程模型介绍错误!未定义书签。1.2.1ARM处理器模式错误!未定义书签。1. 2.2ARM寄存器组介绍错误!未定义书签。ARM存储系统错误!未定义书签。其次章Bootloader的概念错误!未定义书签。2. 1Bootloader的基本概念错误!未定义书签。2. 2Bootloader的操作模式错误!未定义书签。第三章Bootloader的设计与实现错误!未定义书签。2.1 课题探讨的平台环境错误!未定义书签。硬件平台错误!未定义书签。软件环境以及软件开发工具错误!未定义书签。3. 2Bootloader的总体设计错误!未定义书签。阶段设计错误!未定义书签。地址规划设计错误!未定义书签。模式设计错误!未定义书签。3. 3Bootloader的具体实现错误!未定义书签。阶段1的代码实现错误!未定义书签。阶段2的代码实现错误!未定义书签。代码的编译错误!未定义书签。目标文件的链接与转换错误!未定义书签。第四章试验结果与测评错误!未定义书签。3.1 试验结果错误!未定义书签。基本功能的实现结果错误!未定义书签。扩展功能的实现结果错误!未定义书签。第五章总结与展望错误!未定义书签。致谢错误!未定义书签。1绪论11.1 选题背景和探讨意义21.2 国内外看法挖掘探讨现状31.3 本文主要探讨内容41.4 本文的主要结构52看法挖掘及其相关探讨方法62.1 看法挖掘与情感分析62.1.1 看法挖掘62.1.2 情感分析62.2 相关探讨方法介绍62.2.1 PMI算法72.2.2 HowNet的算法83数据的预处理及语义倾向相像度探讨方法93.1 数据的预处理93.2 评价对象的抽取93.3 方法的原理和流程93.3.1 词汇的表示和选择103.3.2 语义倾向相像度的描述和计算11333词汇语义倾向识别方法134试验及结果分析154.1 对试验数据的分析154.2 试验结果比较164.3 情感词典的建设175结论19致谢20参考文献21附录241绪论随着互联网的快速发展和普及,网络已成为人们日常生活、学习和消遣的重要组成部分。互联网包含了各种专业学问和商务信息的新闻报道、各种类别各种形式的信息,为用户供应了一个极有价值的信息来源。然而在面对网络中如此错综困难的信息时,人工处理这些数据量将花费大量的时间和精力,所以我们须要在多种智能信息处理方法的帮助下,自动从大量数据中挖掘有价值的信息。情感分析主要是针对用户评论中的主观性文本自动获得有价值的看法信息,是一个特别具有前景的探讨方向。情感分析技术可被广泛应用于多种自然语言处理问题中,如:问答系统、信息抽取系统等。同时,情感分析也产生了很多有挑战性的相关子方向。例如:文本主客观分析,旨在识别文本单元的主客观性;情感分类,旨在识别主观文本单元是褒义、中性还是贬义等。本文致力于探讨评论性的情感句中的评价对象选取以及组成情感句的短文本的倾向性推断任务。该任务可分为两个主要阶段:(1)如何提取这些情感句中的评价对象;(2)如何判别组成情感句的这些短文本的情感倾向性。例如:对于某一评论“这款手机的待机时间很长,但是功能太少。系统首先提取出评论中的评价对象(如:“待机时间”和“功能”),然后结合修饰评价对象的评价词语(如:长,少),通过与现有的情感语料库进行对比,给出两个评价对象的相应情感倾向性,即“待机时间,长”一“电池寿命,褒义”,“功能,少”一“功能,贬义二关于评价对象的获得,已有的方法大致可以归为两类:一种是对类似于像新浪微博这类的探讨对象要抽取里面关于某条微博中的全部评论,可以采纳申请API的方法来获得全部评论数据;另一种则是对像新浪新闻这类的新闻类网站的评论,我们主要采纳手工获得,即把全部用户的评论数据通过人工的方式采集起来,放到一起组成一个试验资料库。人工获得的缺点在于须要大量人力,且可移植性较差;自动获得的缺点在于只是针对特定的内容(如新浪微博、腾讯微博这类可以申请API的)才可以用到。鉴于本文选取的探讨对象是新浪新闻其中的某一条,评论数据量不大,所以我们获得数据的方式主要采纳人工获得。目前关于评价对象的倾向性推断主要包括有指导和无指导这两类方法。有指导方法主要是Kim和Hovy运用词、位置以及情感词三类特征来对情感句进行分类;赵军等人运用CRF和冗余标签对句子序列进行情感倾向性标注,有指导方法的缺陷在于须要人工标注大量语料,不利于领域切换。无指导方法目前主要是基于句法规则的方法,这类方法的优点在于能够精确的描述情感词和评价对象之间的修饰关系,缺点在于各种修饰关系须要人工统计,导致召回率不高。MinqingHu和Bing1.iu基于句子的情感词以及上下文信息来判定倾向性,但他们的方法主要处理英文,系统中的部分技术无法干脆向中文移植,同时有以下两类问题没有很好的解决,一是句子中褒、贬情感词数目相同,二是含有上下文相关情感词的句子。鉴于以上方法的不足,本文运用无指导方法进行评价对象抽取和倾向性分析。在评价对象抽取上,首先运用中文分词软件ICTC1.AS对评论句进行中文分词,然后运用基于句法分析技术的评价对象抽取方法,同时加入三种过滤技术。在倾向性分析阶段,将情感句分为四类,采纳分治策略对各类别情感句制定相应的判定规则,从而完成评价对象的倾向性判定。1.1 选题背景和探讨意义互联网的快速发展使得人们表达自己的观点越来越自由。在网络中,人们可以通过门户网站对特定的内容进行评论。而这些评论数据对相关部门了解民意方面有着很重要的作用,如可以依据网民的反馈状况制定新的政策等等。由于现有技术的局限性,综合分析网络评论仍旧存在很大困难。网络评论产生的数据量是巨大的,人工查看这些信息和统计数据,这明显是低效和不切实际的。如何有效地利用这些评论和看法,以使其更好地为相关部门服务是当前探讨的热点之一。本文主要探讨中文词汇语义倾向性分析技术,通过引入语义倾向相像度的概念,提出了一种基于语义倾向相像度的中文词汇语义倾向性分析方法。该方法首先通过短语模式对词汇表达情感的实力进行评估,选择出候选词汇,避开了客观词汇对识别结果的影响,并且大大减小了计算量;然后,引入词汇的语义倾向相像度的概念,通过词汇间的四种连接关系计算词汇的语义倾向相像度;最终,对单个词汇的语义倾向性进行识别,进而完成情感词典的构建。试验结果表明,与通用的SO-PMl算法和基于HOWNet的方法相比,本方法具有较好的识别性能,并且便于情感词典的扩展。1.2 国内外看法挖掘探讨现状国外从20世纪90年头中期就起先普遍关留看法挖掘方面的探讨,探讨的方法主要有这几种:1.基于机器学习的传统文本分类技术。2002年BoPang运用了常用的机器学习技术,如朴实贝叶斯(NaiVeBaye)最大端、支持向量机(SUPPOrtVectorMachine)等对文本进行情感倾向分类,改进的机器学习方法随后也被接连提出,例如K-近邻(KNN)、NB、简洁线性分类器(S1.C)、C4.5决策树等,这些算法都是基于统计理论的,采纳分析词语间的相像度或文档中的词频数,利用监督学习方法,统计出相关类别中词语的出现频率或概率,然后依据目标文本中相关词语的频度信息判别出其情感类别。2 .基于集合的方法,利用词共现(CO-OCeUrrenCe)的统计检验方法。这种方法起先涉及到了词语的语义,2002-2003年Turney提出了基于词共现的非监督文本分类算法:SO-PMI(SemanticOrientationusingPointwiseMutualInformation)#So-1.SA,其理论假设是依据自然语言文本里的一个现象:语义倾向性越相像的两个词,在同一篇文档中共现的概率越大,此后有人改进了基于SO-PMI算法以其他的探讨还有。基于词典的方法。例如利用WOrdNet(中文HoWNet)等来推断词语的情感倾向。3 .其他方法:模糊集方法1,潜在变量模型(1.VM)方法U*电子自旋模型方法【等。2004年Kim和HoVy对看法挖掘中的“看法(OPiniOn)”做了定义叫随后,HU和1.iU引入特征级看法挖掘,1.iU等人探讨这个问题从正向、反向观点短语中提取特征。2007年Popescu和Etzioni提出了一种无监督的方法(OPlNE)并与1.iU的探讨作了比较U%国内针对看法挖掘的探讨起步较晚,但是也陆接连续有一些探讨成果发表。2004年FeiZhongchao等通过分析文本中词的词性组成进行文本情感倾向的推断,702006复旦高校朱嫣岚等人利用HowNet来计算词汇情感倾向的两种方法:一种是基于HoWNet语义相像度的方法,另外一种是基于语义相关的方法,其试验结果表明,在相同的测试集上,第一种方法要比其次种方法的精确率高。2006年QiangYe等通过改进的SO-PMI方法对中文电影评论进行了情感倾向分类口纥2006年BinShi等改进了文献中的方法,提出了一种手工建立“特征-情感”词汇模型,依照这个模型来分析句子,先识别出情感词,然后依据情感词找出隐藏的特征词。2007年唐慧丰等人对各种基于有监督机器学习方法的中文情感倾向分类问题做了比较,结果表明:采纳BiGrams特征表示方法、信息增益特征选择方法和SVM分类方法,在足够大训练集和选择适当数量特征的状况下,情感分类能取得较好的效果31。2007年徐琳宏等人提出了一种基于语义理解的识别机制,首先计算文本中词汇与HowNet中已标注褒贬性词汇间的相像度,获得词汇的倾向性,再选择语义倾向性明显的词汇作为特征值,用SVM分类器分析文本的褒贬性2008年QiSU等探讨了产品特征与语义词汇之间的隐含关系,提出了一种无监督机器学习方法来建立“特征-情感词汇”关系模型,用来识别隐含的特征-情感词汇关系【22。2008年ChangliZhang等利用基于StringKernel的机器学习方法对中文文档进行情感分类囚】。2008年李钝等从词典中对词语语义定义的特点,采纳“情感倾向定义”权重有限的计算方法获得短语中各词的语义倾向度,然后分析短语中各词组合方式的特点,提出中心词概念来对各词的倾向性进行计算来识别短语的倾向性和倾向强度口】。2008年FengHou等探讨了带有比较性质的语句的情感倾向分类问题25)。2009年杜伟夫等人把词语的语义倾向问题归结为了一个优化问题,首先利用多种词语相像度计算方法构建词语无向图,然后利用“最小切分”为目标的函数对该图进行划分,并利用模拟退火算法进行求解26】。试验表明,当语料数量足够时,利用基于共现的方法(SO-PMD可以实现较高的词汇语义倾向计算精确率。1.3 本文主要探讨内容在语言学中,语言粒度通常是从小到大依次分为词素、词汇、短语、句子、段落和篇章这几种。自然语言处理常见的思路是将粗粒度语言单元分解成细粒度语言单元,然后用一个相对成熟的方法进行分析。词素作为最小的语言粒度,由于其自身缺乏完整的语义,几乎不能表示实际的意义,因此一般只用来构成词汇。而词汇是语义相对比较丰富的语言粒度,在大多数状况下能够独立包含语义倾向信息,并且由词汇语义倾向性可以实现粗粒度语言单元的情感倾向性分析。本文引入了语义倾向相像度的概念,提出一种基于语义倾向相像度的中文词汇语义倾向性识别方法。首先利用制定的短语模式选取候选词汇;然后利用网络评论中词汇间的四种连接关系,计算出词汇的语义倾向相像度;最终对候选词汇的语义倾向进行识别,并构建通用的情感词典。本文主要通过中国科学院探讨出来的汉语词法分析系统IeTC1.AS来对评论句进行中文分词。它可以进行中文分词、词性标注、命名实体识别、未登录词识别,并可以手动添加用户词典、ICTC1.AS具有以下几个特色:国内和国际权威的公开评测、多数客户的认可;综合性能最优;统一的语言计算理论框架;全方位支持各种环境下的应用开发;应需而变,量身定做;测试精度高等优点。该分词系统的主要思想是先通过CHMM(层叠形马尔可夫模型)进行分词,通过分层,既增加了分词的精确性,又保证了分词的效率。系统先进行原子切分,然后在此基础上进行N-最短路径粗切分,找出前N个最符合的切分结果,生成二元分词表,然后生成分词结果,接着进行词性标注并完成主要分词步骤。1.4 本文的主要结构本文主要内容分为四章。第一章是绪论,主要介绍选题背景和探讨意义,看法挖掘的探讨现状和中文词汇语义倾向性识别的相关概念。其次章介绍看法挖掘及其现有的一些好的探讨方法。第三章介绍改进后的基于看法挖掘的中文词汇语义倾向性识别方法,具体包括方法的原理和流程等。第四章是进行试验以及对试验结果进行处理和分析,得出结论。2看法挖掘及其相关探讨方法2.1 看法挖掘与情感分析看法挖掘看法挖掘是指对带有主观性极性情感的文本进行情感处理、推理和归纳的过程,从而获得有用的信息和学问。看法的本质是人们对事物的主见和看法,也即是带有情感色调的主观性语句。情感分析情感分析大致可以分为广义和狭义两种,广义的情感分析指的是文本情感分析,又称为看法挖掘,是对看法型的带有情感色调的文本进行信息抽取、分析和处理的一系列过程。而狭义的情感分析特指观点词极性推断,是针对说话人关于某事务的评论进行“赞同”或是“反对”的分类,或者是进行“褒义”、“中性”、“贬义”三类分类,也可以是“喜、怒、哀、乐”等更细致类别的分类,也有学者将其情感的程度用具体的数值表示。一般提到的“情感分析”是狭义的概念,而“情感分析综述”等指的是广义的情感分析概念。2.2 相关探讨方法介绍本文主要探讨内容就是基于看法挖掘方面的,每条短文本我们都可以看作是一些不同词性的中文词汇的简洁组合,例如:“这个新政策对农夫来说真是太好了”,我们运用分词软件就可以把它分成以下内容:这个/r新/a政策/n对/p农夫/n来说/u真是/d太/d好/a了y,其中的r指代词,a指形容词,n指名词,P指介词,u指助词,d指副词,y指语气词,这样就将这条评论的结构分析出来了。而本文中主要的探讨方法也是利用中文分词软件ICTC1.AS对评论性的短文本进行分词,然后运用相关的算法计算出每个词汇的倾向性,继而计算出整条评论的倾向性。后面二节主要介绍词汇语义倾向性识别中目前比较有代表性的两种方法:PMI算法和基于HowNet的方法。2.2.1 PMI算法Turney等人提出的SO-PMI算法是目前最常用的词汇倾向性识别方法,它是以网络中的搜寻引擎作为查询的大型语料库。很多文献资料中引用该算法,并依据不同的语种类别和对应搜寻引擎做出相应调整,并改善选取的基准词用来提高算法识别的性能。YUen等认为中文词汇中的少量词素(MorPhere)可以有效的指示词汇的语义倾向,选择含有剧烈语义倾向的词素,如:“爱、恨、怒、穷、急、怕、杀、疑、败、赢”作为基准词,运用PMl算法计算出词汇的语义倾向性。它主要包含两个部分:PMI(PointwiseMutualInfOrmatiOn,点态互信息)计算和情感倾向计算。通过统计词汇共现次数来计算两个词汇间的PMl值,表达式(2-1)如下:p(wordl8tword2)PMI(word1.word2)=Iog2lp(wordl)(pword2)J(2-1)其中,P(Wordl)和P(Word2)分别表示词汇word和WOrd2出现的概率,P(WordI&word2)表示WordI和WOrd2同时出现的概率。PMI值表示词汇间相关性的强弱程度。利用PMl值可以计算词汇间的语义倾向性。公式(2-2)如下:So-PMl(WOrd)NPWSdCPWOrdSPMI(w。PPWord).nw°rdcNwsdsPMI(WordmWord)(2_2)其中,PWOrdS表示带有主动语义倾向的基准词集合,nwords表示带有消极语义倾向的基准词集合。当SO-PMI(WOrd)N时认为词汇word为主动语义倾向;反之为消极语义倾向。依据TUrney的方法,可将网络搜寻引擎看作一个大型语料库,通过查询返回值估计词汇出现概率。该方法不限制待测词汇的类型,简洁实现网络新词的语义倾向性识别。当限定语料库为特定领域时,能够识别特定领域内词汇所表达的语义倾向。然而,该方法的性能一般差于基于语义学问库的方法,并且对语料库和基准词集合的选择具有较高要求。相关探讨中,通过限定词汇共现的范围或加入句法分析结果,用以改善词汇相关性推断的精确性,但该类处理导致的数据稀疏问题有待解决。2.2.2 HowNet的算法在基于语义学问库的方法中,相关探讨大多利用HowNet的词汇语义相像度计算,进而识别词汇的语义倾向性。同样,令PWordS表示带有主动语义倾向的基准词集合,nwords表示带有消极语义倾向的基准词集合。词汇的语义倾向值表示为公式(2-3):Orient(Word)=2PWordePwordSsim(Pw0rd0rd)nwordeNwordssim(nw0rd>w0rd)(2.3)其中,Sim(word,WOrd2)表示词汇word和WOrd2的语义相像度。当Orient(word)时认为词汇WOrd为主动语义倾向;反之为消极语义倾向。基于语义学问库的方法能够获得较高的识别精确率,并且具有较快的识别速度。该方法的主要缺点是依靠于语义学问库,可扩展性较差。对于语义学问库中不包含的词汇,须要依据规则进行人工标注。3数据的预处理及语义倾向相像度探讨方法3.1 数据的预处理互联网的快速发展使得人们对自己所关切的公共事务越来越敢于表达自己的看法和看法,具体表现在新闻的文章中网民的评论越来越多、越来越具有针对性,而这些评论对相关部门了解民意和制定相关的政策和措施来说具有重要的意义。因此,本文选取了新浪网这个有代表性的网站进行探讨,这个探讨结果具有普遍适用的意义。这次我们选取的是新浪新闻里的“多地严查行人闯红灯”这个话题,到目前为止,这条新闻下的评论数已经达到326条。本章引入语义倾向相像度的概念,提出一种基于语义倾向相像度的中文词汇语义倾向性识别方法,并给出该方法的关键技术。3.2 评价对象的抽取我们选取的试验内容是“多地严查行人闯红灯”这个话题,目前像这种试验对象大多实行人工收集的方法来获得数据。我们首先把这个话题下面的全部评论收集到一起建成一个库,然后通过数据去重和数据规范化处理,去除一些无效评论和包含常见停用词和低频词汇的评论,得到经过处理好的试验数据。3.3 方法的原理和流程一般状况下,针对同一网络评论表达的情感在上下文环境中具有一样性,并且情感倾向主要是由评论中的部分词汇表达出来。本方法的大致思路是利用该特性建立起词汇间的语义倾向关系,再将语义倾向相近的词汇划分到同一类别,来实现词汇语义倾向性的识别。由于收集全部的词汇组合的工作量是特别大的,而且其中不乏很多客观词汇。假如想创建全部词汇之间的连接关系,不仅会影响识别结果,而且还会使计算量大幅增加。所以须要先对每个词汇表达的语义定向的实力进行评估,选择出的强度较大的词汇作为候选词汇。然后给出每个候选词汇的语义倾向之间的关系量化,最终完成了词汇语义倾向性识别。如图所示,是该方法的基本流程。首先,把词汇表示成节点的形式,利用制定的短语模式选择候选词汇节点;然后,通过词汇间的间接同向关系、间接异向关系和干脆关系计算语义倾向相像度,最终,确定的词汇语义倾向性。3.3.1 词汇的表示和选择文本是由一组有序的词汇序列组成的,并且每个词汇在语义上都有着相互联系。在语义倾向识别过程中,可以把词汇看成节点,用词汇间的语义倾向关系来表示每个节点间的紧密程度,关系越强的节点联系越亲密。设节点集为V=V1,V2,Vn,节点VVi,Vj间的关系为Wii下图为词汇节点关系示意图。图3.2词汇节点关系示意图鉴于目前的自然语言处理现状,通过语义理解的方式来实现文本的情感倾向性分析仍存在特别大的困难。因此,最常用的分析方法大多仍以短语模式来作为文本情感的特征,它们通过试验证明白短语模式可以有效地识别情感信息。为了从网络评论中识别出具有情感倾向的词汇,须要对各个词汇表达情感的可能性进行评估。我们通过制定词性的组合模式选择候选词汇,并计算候选词汇在全部模式中出现的频数,提取模式匹配率较高的词汇作为节点。下表列出制定的部分词性组合模式及其实例。其中,表示词性组合模式中语义倾向词汇的候选项;BC)S和EoS为句首和句尾标记;符号7”表示可任选一项;为可选项。本文选用的分词软件是中科院的ICTC1.AS30。采纳二元关系(Word,freq)表示模式中的各个词汇,去除停用词和低频词汇后,得到候选词集合W=wl,w2,wn,n为候选项总数。下表3-1是部分词性模式组合及其实例。表3-1部分词性模式组合及其实例词性组合模式模式表示实例形容词+连接词+V形容词<a>+cc+<a>和善/a且cc温顺/a副词+形容词d+<a>太/d邪恶/a形容词+的+名词<a>+udel+n美丽/a的Aide1花朵/nBOS/分隔符+形容词+E0S/分隔符B0Sw+<a>+E0Sw霸道a!wt不及物动词/名动词+不及物动词/名动词<vivn>+<vivn>造谣vn醒悟vnBoS+副词+动词+部分标点+EOSBOS+d+<v>+wjwtwf+EOS不d支持v!wt3.3.2 语义倾向相像度的描述和计算语义倾向识别方法通常须要借助于词汇的语义相像度,词汇语义相像度很高的词汇表达有着相同的语义倾向性。语言处理中的语义相像度是指在不同环境下的两个不同的词的句法和语义结构可以相互替换不变更文本的句法语义结构的程度。它不仅考虑了语义倾向是否相同,还要求词语的用法一样。为了更有效地利用现有数据,可以忽视词汇的用法因素,只考虑这个词的语义倾向的一样性。因此,本文引入了词汇的语义倾向相像度的概念,将其描述为针对同一对象词汇所表达情感色调的相像程度。由于网络评论的短文本和不规范等特性,依靠句法分析提取词汇间关系的方法会出现数据稀疏问题。本文利用词汇间的连接状态推断语义倾向性,将评论看作子句序列ri=silsi2sim,依据两词汇是否位于同一子句分为词间关系(WordRelation)和句间关系(ClaUSeRelation)0词间关系为语言学上连接词对词汇语义倾向的约束性,如:“光荣和宏大”、“美丽但虚伪”。一般状况下,同一条评论中评论者表达的情感一样,即认为句间关系默认包含一样的情感,当子句为转折复句时转向相对的情感。则词汇之间存在四种连接关系R=wr-s,wr-i;cr-s,cr-i,分别表示同向(异向)词间关系和同向(异向)句间关系。对于同一评论中的两个词汇k,k'Z存在连接关系r,可用三元组(k,r,k)表示。文献定义三个事务:A表示词汇k被随机选中;B表示连接关系r被随机选中;C表示词汇k被随机选中。三元组(k,r,k)为事务A,B,C同时发生,Ilk,r,k,l为三元组出现的频数。则(k,r,k)所包含的信息量可由下式(3-1)计算:I(k,r,k,)=-logPM1.E(B)PM1.E(A|B)PM1.E(C|B)+logPmle(A,B,C)1II(JK)MI(*/,*)IlCn=log(3-1)Il氏八*)1111(*JK)Il其中,PM1.E为最大似然估计;*表示可取随意项;IlIl表示事务发生的频数。同时,I(k,rk)等价于词汇k和k的互信息,表示在r已知的状况下k确定出现后对k不确定性的削减量。词汇k,k间的关系具有可逆性,即(k,r,k,)=(k',r,k),于是可以证明等式I(k,r,k,)=I(k',r,k)成立。对于两个不同的词汇KhK2一般可通过三种方式建立语义倾向联系:(1)间接同向关系Ds(k,k2),即k,k2都与第三词汇k(kk,kk2)有相同的连接关系r。如:三元组(美丽,wr-i,虚荣)和(聪慧,wr-i,虚荣)中,词汇“美丽”和“聪慧”通过第三词汇“虚荣”建立同向联系。该类关系包含的信息量越大,词汇间的语义倾向相像度越高,将词汇的公共信息量表达式表示为公式(3-2):”心+竺心一一(EQ+Q(3-2)其中,T(kl)=(r,k)I(k1,r,k)>O表示信息量为正值时全部与k相关的词汇及其关系的集合。(2)间接异向关系D(k,k2),即k,k2分别与第三词汇k(kk,kk2)有相对的连接关系r、r,o如:三元组(美丽,wr-i,虚荣)和(开朗,wr-s,虚荣)中,词汇“美丽”和“开朗”通过第三词汇“虚荣”建立异向联系。该类关系包含的信息量越大,词汇间的语义倾向相像度越低,可表示为(3-3)。YninZ)1(w1,w2)=(3-3)37WJ(K/次)+Eag,,,k)其中,r'为r的同类异向关系,共有两组对应关系Wr-S4wr-i和Cr-S-cr-i。(3)干脆关系F(kl,k2),假如三元组中存在(k,r,k2),可以干脆用于推断词汇间的语义倾向相像度,表达式为(3-4)。F(kM)J(W>即2)+/化工一任2)+1(3.4)*/(占/,%2)+1考虑到三类关系对词汇语义倾向相像度的影响,得到计算式如下(3-5):Sim(k1,k2)=F(k1,k2)Ds(k1,k2)-D(k1,k2)(3-5)由于在实际评论语料中,词间关系和句间关系表示词汇关系的可信度有差异,一般认为词间关系的可信度更高,本节为包含两类关系的信息量分别加上权重,2(cu>2,1+2=1)0另外,当词汇由否定副词修饰时,连接关系更改为同类异向关系。3.3.3 词汇语义倾向识别方法常见的语义倾向性识别方法是将待测词汇与预先选定的褒贬义基准词集合进行比较,干脆判别他们所属的集合。这类方法须要选取精确的基准词的,否则计算结果将产生一个偏移量,两种类型的参考字的词汇的平均相像,所不同的是不再为零为准线。因此,须要克服偏移对语义倾向判别的影响。分类算法中,一般定义空间中点到类别的距离为点和类中心之间的距离,距离越大则该点属于该类别的可能性越小。这里,运用待测节点Vi与类Ck中各个节点的平均语义倾向相像度表示节点与类的平均相像度S(vi.ck),表示为(3-6):S(匕,q)=彳ZSim(Vi,甘)(3-6)1.=其中,1.为类Ck中的节点数,Ck=Vf,V*.V".本节从模式组合确定的词汇合合中选取出一组剧烈褒贬倾向且具有代表性的词汇各20个组成基准词集BASESET=PP,PN,其中PP表示褒义基准词集,PN表示贬义基准词集。通过以下步骤进行类别推断:(1)利用基准词构造初始褒义和贬义类;(2)计算各个节点分别与褒义和贬义类的平均相像度,选择相像度最高的节点加入对应的类。并更新褒义和贬义类;(3)重复上面步骤,直至全部节点都归于对应的类中。4试验及结果分析试验对以上提出的中文词汇语义倾向性识别方法进行验证。先通过已制定的词性组合模式选取候选词汇,再将候选词汇视为节点计算各个节点之间语义倾向相像度,并完成词汇语义倾向性的识别。将试验结果与当前探讨最多的基于SO-PMI算法和基于HowNet的方法进行比较,以验证方法的有效性。4.1 对试睑数据的分析本文采纳新浪新闻评论和其中的“多地严查行人闯红灯”这个话题,共涉及二十个话题八千余条评论。试验语料是从互联网中采集的网络评论数据,由于网络的开放性,使得评论的发表过程更加随意。因此,运用这类语料前,须要经过数据去重和简洁的数据规范化处理。(1)数据去重相同评论者在较短时间间隔内发表的相同评论认为是重复评论,这部分评论所信息量特别小,须要在采集以后去除。例如“剧烈支持!”这条评论前4秒该用户也评论了“支持!”,这在我们看来就是属于数据重复了,我们统计试验数据的时候就把“支持!”这条评论去掉,只保留了“剧烈支持!”这条。(2)数据规范化处理网络评论的书写格式多样,须要进行简洁的规范化处理,以提高分类的精确性。常见步骤有:简繁转换、全角半角转换,以及不规范分隔号识别和特别符号去除等。比如“平常有法不执,间或来次严打。&h;br/>典型的选择性执法“少”这条评论,其中就包含了;和纯表情这样无意义的内容,我们收集数据的时候就须要把它去除掉。在网络评论文本中,虽然包含大量语义倾向词汇,但其中绝大多数仍旧是中性词汇。采纳词性的组合模式选取候选词汇,并依据候选词汇在模式中出现的频数进行排序,得到频数序列如下图所示。其中,红线表示由二十个话题组成话题无关语料中候选项的频数变更,蓝线