从评论语料库中挖掘产品特征词论文.docx
《从评论语料库中挖掘产品特征词论文.docx》由会员分享,可在线阅读,更多相关《从评论语料库中挖掘产品特征词论文.docx(36页珍藏版)》请在三一办公上搜索。
1、重庆科技学院毕业设计(论文)题 目 从评论语料库中挖掘产品特征词 院 (系) 电子信息工程学院 专业班级 计科应2006-01 学生姓名 程学伟 学号 2006540220 指导教师 黄永文 职称 讲师 评阅教师_ _ 职称_ 2010年 6 月 10 日注 意 事 项1. 设计(论文)的内容包括:1) 封面(按教务处制定的标准封面格式制作)2) 题名页3) 中文摘要(300字左右)、关键词4) 外文摘要、关键词 5) 目次页(附件不统一编入)6) 论文主体部分:引言(或绪论)、正文、结论、参考文献7) 附录(对论文支持必要时)2. 论文字数要求:理工类设计(论文)正文字数不少于1万字(不包括
2、图纸、程序清单等),文科类论文正文字数不少于1.2万字。3. 附件包括:任务书、文献综述、开题报告、外文译文、译文原文(复印件)。4. 文字、图表要求:1) 文字通顺,语言流畅,书写字迹工整,打印字体及大小符合要求,无错别字,不准请他人代写2) 工程设计类题目的图纸,要求部分用尺规绘制,部分用计算机绘制,所有图纸应符合国家技术标准规范。图表整洁,布局合理,文字注释必须使用工程字书写,不准用徒手画3) 毕业论文须用A4单面打印,论文50页以上的双面打印4) 图表应绘制于无格子的页面上5) 软件工程类课题应有程序清单,并提供电子文档5. 装订顺序1) 设计(论文)2) 附件:按照任务书、文献综述、
3、开题报告、外文译文、译文原文(复印件)次序装订3) 其它重庆科技学院本科生毕业设计(论文)从评论语料库中挖掘产品特征词 院(系) 电子信息工程学院 专业班级 计科应2006-01 学生姓名 程学伟 指导教师 黄永文 讲师 2010年 6月 10日学生毕业设计(论文)原创性声明本人以信誉声明:所呈交的毕业设计(论文)是在导师的指导下进行的设计(研究)工作及取得的成果,设计(论文)中引用他(她)人的文献、数据、图件、资料均已明确标注出,论文中的结论和结果为本人独立完成,不包含他人成果及为获得重庆科技学院或其它教育机构的学位或证书而使用其材料。与我一同工作的同志对本设计(研究)所做的任何贡献均已在论
4、文中作了明确的说明并表示了谢意。毕业设计(论文)作者(签字): 年 月 日重庆科技学院本科毕业生论文 中文摘要摘要 随着web的广泛应用,用户购买和实用产品之后会在web上发表对产品的评论,这些评论中包含用户对产品性能或者功能等方面持有肯定还是否定的态度,生产厂商和用户对产品的评论的分析可以获得大量有用信息:生产厂商不仅可以了解用户对产品目前已经提供的性能的评价和产品的不足,还可以了解用户的需求,找出用户最感兴趣和最希望提供的功能,从而改进产品。用户购买产品之前可以了解已经购买了该产品的用户关于该产品的使用体验,了解产品各个方面的性能,还可以对同类型的产品按照性能进行比较,从而合理的购买产品。
5、 产品特征提取目的是从众多的用户评论中挖掘出用户所关心的产品特征(比如:相机的产品特征包括重量、大小、图片的质量、电池的使用时间、存储容量等;手机的产品特征包括制式、重量、体积、屏幕大小、摄像头像素等)。由于角度不同及用户通常使用一些常识性描述,生产厂家所使用的产品功能和不见特征名称与用户所表达出来的有很多是不一样的,主要对厂家产品的规格特征和用户描述特征提取及其关系进行了研究。 产品评论挖掘是从自然语言描述的用户评论中获取信息的过程,产品特征抽取是产品评论挖掘的第1个阶段,产品特征的好坏决定了产品评论挖掘中后续阶段的质量.采用弱监督的学习方法,只需要提供少量的产品特征作为种子,从这些种子出现
6、的语句中抽取文本 模式,利用文本模式来发现新的产品特征.实验结果表明,从英文文本中自动抽取产品特征的实验系统,取得了较好的效果。关键字:文本模式抽取 产品评论 特征提取I重庆科技学院本科毕业生论文 英文摘要ABSTRACTWith the extensive use of web users, after purchasing and useful products will be published in the web comments on the product, which contains the user comments on the product performance o
7、r functionality such as hold positive or negative attitude, manufacturers and users of the product Analysis of the comments get a lot of useful information: manufacturers can not only understand the users of products now provides the evaluation of performance and product deficiencies, but also to un
8、derstand the needs of users, to identify the most interesting and most users want to provide the function to improve the product. Before the user can purchase products already purchased the product to understand the user experience on the use of the product, understand all aspects of product perform
9、ance, but also the same type of product in accordance with the performance comparison to be reasonable to purchase products. Feature extraction aims to comments from many users are concerned about the excavation to the users product characteristics (such as: camera product features include weight, s
10、ize, picture quality, battery life, storage capacity, etc.; phone product features include the standard , weight, volume, screen size, camera pixel, etc.). Because users typically use different perspectives and a number of common-sense description of the products used by manufacturers of functions a
11、nd features not seen expressed in the name of the user out of many is not the same, the main features of the manufacturers and users of the product specifications described in feature extraction and relations were studied. Product review mining is a natural language description from the user comment
12、s in the process of obtaining the information, products feature extraction is a product review mining stage 1, the product characteristics of the decision good or bad the product review mining in the quality of follow-up phase. With weak supervision learning methods, only a small amount of product f
13、eatures to provide a seed, the statement appears from these seeds to extract the text mode, using the text mode to the discovery of new product features. The experimental results show that the English text automatically extracted from the product characteristics of the experimental system achieved g
14、ood results.features. The experimental results show that the English text automatically extracted from the product characteristics of the experimental systems, achieved good results.Keywords: Text pattern extraction;Product reviews;The feature extraction28重庆科技学院本科毕业生论文 目录目录中文摘要I英文摘要II1 绪论11.1 研究背景11
15、.2 选题意义11.3 从评论语料库中挖掘产品特征词的研究现状21.4 产品特征词挖掘的发展前景31.5 汉语分词介绍31.5 特征词挖掘的相关算法61.6 开发环境介绍62 产品特征词的挖掘82.1问题的提出及相关研究82.2评论语料库使用的现状92.3 弱监督机器学习方法介绍92.4 产品评论内容的分析132.5 产品评论统计特征的提取132.6 模式结构与模式特征集143系统设计163.1 系统总体设计163.2 系统界面设计163.3 特征词挖掘的系统设计214 系统测试234.1 系统功能测试234.2 系统的不足244.3 系统的后续工作24总结26致谢27参考文献28重庆科技学院
16、本科毕业生论文 1绪论1 绪论1.1研究背景随着Internet的广泛应用,用户使用产品会通过Web 对产品进行评论,这些评论中包含用户对产品的各个方面的性能持有肯定还是否定的意见。产品评论中蕴涵了丰富的信息,生产厂商分析产品评论可以了解产品的不足和用户实际需求以改进产品,用户浏览产品评论可以在购买产品之前更多地了解产品,从而更加合理地购买产品。要从大量使用自然语言进行描述用户评论获取信息,只有通过人工逐一阅读,这是一个需要大量时间和精力的过程,因此,需要自动化的产品评论挖掘来更快地从大量的用户评论中获取信息。产品评论大多用自然语言进行描述,生产厂商和用户只有采用人工阅读的方式才能从中提取信息
17、,而这是一个费时、费力且容易产生错误的过程,因此,产生了自动产品评论挖掘的需求。产品评论挖掘一般分为产品特征提取、主观句定位和用户词性判断和挖掘结果显示等4个阶段。产品特征提取作为产品评论挖掘的第1个阶段,目的是从众多的用户评论中挖掘出用户所关心的产品特征,从而对实际产品销售和售后服务做出正确的评价,帮助决策者和购买者能够最大限度的了解现有产品的特点和特征。1.2选题意义找出用户最感兴趣和最希望提供的功能,从而改进产品。用户购买产品之前可以了解已经购买了该产品的用户关于该产品的使用体验,了解产品各个方面的性能,还可以对同类型的产品按照性能进行比较,从而合理的购买产品。产品特征提取目的是从众多的
18、用户评论中挖掘出用户所关心的产品特征(比如:相机的产品特征包括重量、大小、图片的质量、电池的使用时间、存储容量等;手机的产品特征包括制式、重量、体积、屏幕大小、摄像头像素等)。由于角度不同及用户通常使用一些常识性描述,生产厂家所使用的产品功能和不见特征名称与用户所表达出来的有很多是不一样的,主要对厂家产品的规格特征和用户描述特征提取及其关系进行了研究。抽取出产品特征之后就着重于研究用户对某个产品特征的看法,即在一个表达了用户看法的主管句中提取出产品特征、极性词汇及程度,在现有研究的处理过程中,对产品特征并未进行归类处理,所有的特征地位都是等同的,故本来处于上下位的特征可能放在不同的表示中,这样
19、就造成用户看到的是没有主次之分的特征,同时有些本是同一特征的不同表示方法,却归纳到不同的特征中去,这种情况下虽然对某些特征进行了评价,但由于使用哪个不同的词语作为产品特征,结果对同一部件的评价放在了不同的展示中,这样展现给用户的是很多没有主次之分特征堆积。摩托罗拉A1890(MOTO A1890)天翼3G双网双待手机的评论如图1.1所示:图 1.1摩托罗拉A1890(MOTO A1890)天翼3G双网双待手机评论在这种情况下,对产品特征之间的层次关系合理且准确处理的要求,就显得非常急迫,本课题应运时势,对产品特征进行分层次的特征抽取。1.3 从评论语料库中挖掘产品特征词的研究现状产品评论挖掘需
20、要了解用户对产品的哪些功能、性能进行了评价,因此需要从产品评论语句中提取表达了用户评价的对象产品特征。产品特征提取的目的是发现用户在产品评论中对哪些产品特征表达了自己的看法。用户在产品评论中对特征的描述是一个开放性的问题,可能在产品评论中发表厂家根本没有考虑到的一些性能,因此挖掘出产品评论中所提及的特征,了解用户对这类产品最关心的功能及性能是很重要的。由于同类产品的特征基本一致,故可以利用产品特征对同类产品所获得的评价进行对比。产品特征的提取分为人工定义和自动提取两类。在人工定义方面,Kobayashi、Inui 和 Matsumoto 以人工定义方式提出了针对汽车的产品特征,建立了 287
21、个产品特征,每一个特征使用一个三元组进行表示(),其中subject 表示产品,attribute 表示产品的特征,value 表示对这个特征的观点;姚天昉利用本体建立了汽车的产品特征,该系统可在电子公告板、门户网站的各大论坛上挖掘并且概括意见持有者对各种汽车品牌的不同性能指标的评论和意见,并且判断这些意见的褒贬性以及强度;Li Zhuang 针对电影人工定义电影的产品特征,将电影的产品特征分为两类:电影的元素(screenplay, vision effect)和与和电影相关的人员(director, screenwriter, actor)。人工定义产品特征的方法需要每一个领域的产品都有该
22、领域的专家参与,因此不具有移植性。同时人工定义的产品特征是静态的,当产品的功能发生改变后(比如手机加入了新的功能),只有重新召集领域专家才能将新特征加入该类产品的产品特征集合中。而且人工定义的方法需要有人工标注的语料作为训练集,不同种类的产品就必须要标注不同的语料,这就相当耗费时间,也无法适用所有种类的产品。1.4产品特征词挖掘的发展前景产品评论挖掘在国内外属于新的研究方向,但是这方面研究的意义非常重大,它作为自然语言处理领域的一个重要应用,涉及到了大量理论和应用技术,它对电子商务的发展有着直接的促进作用。本文主要研究了产品评论挖掘中的产品特征词的抽取以。产品评论挖掘是一个充满机遇和挑战的研究
23、领域,尽管取得了一些研究成果,但是许多问题还有待进一步的探索和研究。1.5 汉语分词介绍目前, 汉语自动分词的研究重心主要集中在对传统文本的有效切分上。在计算机科学、情报信息和语言文字研究三个领域的学者专家们的共同努力之下,传统文本的有效切分已经取得了重大进展。汉语词的规范研究。由于汉语词的规范是汉语自动分词的基础。没有统一和明确的汉语词的定义,汉有规范的汉语分词词表,汉语自动分词就无从谈起。在汉语语言学家和计算机中文信息处理研究专家们的共同努力之下,目前,我国汉语词的规范研究和汉语分词规范词表的制定已经有了较大突破。信息处理用现代汉语分词词表的制定及不断完善, 说明了我国在汉语自动分词词表方
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 评论 语料库 挖掘 产品 特征 论文
链接地址:https://www.31ppt.com/p-1776962.html