招生领域问答系统中问题理解的研究硕士学位论文.doc
《招生领域问答系统中问题理解的研究硕士学位论文.doc》由会员分享,可在线阅读,更多相关《招生领域问答系统中问题理解的研究硕士学位论文.doc(89页珍藏版)》请在三一办公上搜索。
1、摘 要随着互联网的高速发展,网上的信息越来越多,如何在这些海量信息中快速准确地找到所需要的信息也越来越困难。自动问答系统的出现很好的解决了这一问题,它既能够让用户用自然语言句子提问,又能够为用户返回一个简洁、准确的答案。中国每年高考的考生数百万之巨,很多考生和家长对高考有这样或那样的问题。因此,开发一个招生咨询领域的自动问答系统是非常具有现实意义的。本文通过对自动问答系统中的答案抽取部分的研究,提出了一种将FAQ库(常问问题答案库)与蕴涵丰富招生咨询材料的文本库相结合的答案抽取方式,有效地提高了系统的性能。在FAQ库中,由于存储了大量而正确的问题答案对,使得答案的抽取更为准确和快捷;在基于FA
2、Q库的答案抽取方法中,本文提出采用基于关键词信息和基于语义词典相结合的融合算法来计算用户问句与FAQ库中问句的相似度。该算法不仅考虑了词面的信息,更深入到语义层次的信息,使句子间的相似度计算更为精确,从而使答案的提取也更为准确。在文本库的答案抽取方法中,采用的是比较成熟和常见的基于向量空间模型的TF-IDF方法来计算问句与文本之间的相似度。并将从文本库中提取出的答案定期进行人工判断整理,备份至FAQ库中,从而使更多的问题能直接从FAQ库中获得答案,有利于提高系统的运行速度。最后本文设计实现了一个招生咨询问答系统。实验结果表明,系统可以快速、准确的满足用户的需求,从而有效地验证了上述方法的有效性
3、和可行性。关键词:自动问答系统;答案抽取;常问问题答案库(FAQ库);文本库ABSTRACTWith the rapid development of Internet, there are more and more informations online, how to find the informations they need quickly and accurately are more and more difficult.The Automatic Question and Answering System is a good method to resolve this pr
4、oblem,it not only let people ask a question with natural language,but also return a concise and accurate answer.China has millions of candidates take the university entrance examination each year, many students and parents have this or that problems on the college entrance examination.Therefore the
5、development of Question Answering System based on Admission Counseling has a very practical significance.In this paper, research by Answer Extraction of Automatic Question and Answering System,it advances a new method that combines the Frequently Answer Question Library (FAQ) with the document libra
6、ry which has the rich materials about Admission Counseling,and effectively improves the performance of the system.In the FAQ Library, it can get the answer accurately and quickly because it stores a lot of correct question-answer pairs;In the method of Answer Extraction based on the FAQ Library, the
7、 paper advances the amalgamation arithmetic that combines the keywords information with the semantic dictionary to calculate the similarity between the users question and the question in the FAQ library.This arithmetic is not only consider the information of the words surface,but also consider the m
8、ore depth informations of the semantic level,makes the similarity calculation between the sentences more accurate,and also makes the anwer extraction more accurate too.In the method of Answer Extraction based on the document library,it uses the relatively mature and common TF-IDF method which based
9、on the Vertor Space Model to calculate the similarity between the question and the document.It also manual corrects the answer regularly which extract from the document library,and backups to the FAQ library.So that more questions can be directly obtained the answers from the FAQ library directly.It
10、 can impove the system speed.At the end of the paper, it designs a Question Answering System based on Admission Counseling.The result of the experiment shows that the system can rapidly and accurately meet the requirement of the users, and it also validates the validity and feasibility of all the me
11、thods above.Chunlan Yuan (Computer Application Technology) Directed by A.Prof. Lin ZhangKEYWORDS: Automatic Question and Answering System;Answer Extraction;Frequently Answer Question Library;Document Library毕业设计(论文)原创性声明和使用授权说明原创性声明本人郑重承诺:所呈交的毕业设计(论文),是我个人在指导教师的指导下进行的研究工作及取得的成果。尽我所知,除文中特别加以标注和致谢的地方外
12、,不包含其他人或组织已经发表或公布过的研究成果,也不包含我为获得 及其它教育机构的学位或学历而使用过的材料。对本研究提供过帮助和做出过贡献的个人或集体,均已在文中作了明确的说明并表示了谢意。作 者 签 名: 日 期: 指导教师签名: 日期: 使用授权说明本人完全了解 大学关于收集、保存、使用毕业设计(论文)的规定,即:按照学校要求提交毕业设计(论文)的印刷本和电子版本;学校有权保存毕业设计(论文)的印刷本和电子版,并提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其它复制手段保存论文;在不以赢利为目的前提下,学校可以公布论文的部分或全部内容。作者签名: 日 期: 学位论文原创性声明本人
13、郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名: 日期: 年 月 日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权 大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。涉密论文按学校规
14、定处理。作者签名:日期: 年 月 日导师签名: 日期: 年 月 日指导教师评阅书指导教师评价:一、撰写(设计)过程1、学生在论文(设计)过程中的治学态度、工作精神 优 良 中 及格 不及格2、学生掌握专业知识、技能的扎实程度 优 良 中 及格 不及格3、学生综合运用所学知识和专业技能分析和解决问题的能力 优 良 中 及格 不及格4、研究方法的科学性;技术线路的可行性;设计方案的合理性 优 良 中 及格 不及格5、完成毕业论文(设计)期间的出勤情况 优 良 中 及格 不及格二、论文(设计)质量1、论文(设计)的整体结构是否符合撰写规范? 优 良 中 及格 不及格2、是否完成指定的论文(设计)任务
15、(包括装订及附件)? 优 良 中 及格 不及格三、论文(设计)水平1、论文(设计)的理论意义或对解决实际问题的指导意义 优 良 中 及格 不及格2、论文的观念是否有新意?设计是否有创意? 优 良 中 及格 不及格3、论文(设计说明书)所体现的整体水平 优 良 中 及格 不及格建议成绩: 优 良 中 及格 不及格(在所选等级前的内画“”)指导教师: (签名) 单位: (盖章)年 月 日评阅教师评阅书评阅教师评价:一、论文(设计)质量1、论文(设计)的整体结构是否符合撰写规范? 优 良 中 及格 不及格2、是否完成指定的论文(设计)任务(包括装订及附件)? 优 良 中 及格 不及格二、论文(设计)
16、水平1、论文(设计)的理论意义或对解决实际问题的指导意义 优 良 中 及格 不及格2、论文的观念是否有新意?设计是否有创意? 优 良 中 及格 不及格3、论文(设计说明书)所体现的整体水平 优 良 中 及格 不及格建议成绩: 优 良 中 及格 不及格(在所选等级前的内画“”)评阅教师: (签名) 单位: (盖章)年 月 日教研室(或答辩小组)及教学系意见教研室(或答辩小组)评价:一、答辩过程1、毕业论文(设计)的基本要点和见解的叙述情况 优 良 中 及格 不及格2、对答辩问题的反应、理解、表达情况 优 良 中 及格 不及格3、学生答辩过程中的精神状态 优 良 中 及格 不及格二、论文(设计)质
17、量1、论文(设计)的整体结构是否符合撰写规范? 优 良 中 及格 不及格2、是否完成指定的论文(设计)任务(包括装订及附件)? 优 良 中 及格 不及格三、论文(设计)水平1、论文(设计)的理论意义或对解决实际问题的指导意义 优 良 中 及格 不及格2、论文的观念是否有新意?设计是否有创意? 优 良 中 及格 不及格3、论文(设计说明书)所体现的整体水平 优 良 中 及格 不及格评定成绩: 优 良 中 及格 不及格(在所选等级前的内画“”)教研室主任(或答辩小组组长): (签名)年 月 日教学系意见:系主任: (签名)年 月 日目 录第1章 绪论11.1 课题的背景和意义11.2 自动问答系统
18、概述21.2.1 国内外研究现状21.2.2 问答系统的一般结构31.3 答案抽取简介41.3.1 答案抽取的定义41.3.2 答案抽取技术的分类41.4 主要工作与本文的组织7第2章 FAQ库中的答案抽取技术92.1 引言92.2 FAQ库的建立92.2.1 FAQ库的收集92.2.2 FAQ库的组织与存储112.3 候选问题集的建立122.4 句子相似度计算的主要方法132.4.1 句子相似度的概念及分类132.4.2 TF-IDF方法142.4.3 基于语义依存的相似度计算方法152.4.4 基于知网的语义方法介绍152.4.5 各种句子相似度计算方法的优劣势比较192.5 FAQ库中相
19、似度计算新方法202.5.1 改进的基于关键词信息的方法202.5.2 基于知网的语义相似度计算具体步骤232.5.3 改进的相似度方法-基于关键词信息与基于知网相结合的方法252.6 实验252.6.1 算法中特定值的确定252.6.2 实验步骤262.6.3 结果分析372.7 本章小结37第3章 文本库中的答案抽取技术383.1 引言383.2 文本库的建立383.2.1 网页抓取程序383.2.2 HTML格式过滤403.3 文本库预处理403.4 中文文本相似度计算的主要方法423.4.1 基于向量空间模型的TF-IDF方法423.4.2 基于汉明距离的文本相似度计算方法433.4.
20、3 潜在语义分析技术443.4.4 基于语义理解的相似度计算方法453.4.5 各种方法的优劣势比较453.5 文本库中的答案抽取技术463.5.1 文本相似度计算方法的选择463.5.2 文本库中答案抽取的具体实现步骤473.5.3 实验结果及分析483.6 本章小结51第4章 系统设计与实现524.1 引言524.2 系统的总体设计524.2.1 系统的总体框架524.2.2 系统设计的基本思想534.3 系统各模块的实现534.3.1 自动问答系统界面设计534.3.2 问题分析模块544.3.3 信息检索模块564.3.4 答案抽取模块564.3.5 FAQ库更新模块614.4 本章小
21、结61第5章 系统总体测试与评价625.1 引言625.2 TREC评测标准625.3 本系统的评测标准635.4 测试结果及分析635.5 本章小结70第6章 总结与展望71致 谢73参考文献74附录:攻读硕士学位期间发表的学术论文76第1章 绪论1.1 课题的背景和意义20世纪90年代以来,Internet在世界范围内得到了迅猛的发展,互联网上的信息也越来越丰富。但人们也越来越烦恼这样一个问题:如何从堆积如山的电子文档中获取自己需要的答案?虽然现在的搜索引擎如Google, baidu等己经取得了很大的成功,但仍存在很多不足的地方,其中主要有三个方面:一是很难以几个关键词的逻辑组合来表达清
22、楚用户的检索意图;二是相关性信息太多,用户将浪费很多时间在这些网页中查找自己所需要的信息;三是以关键词为基础的索引、匹配算法尽管简单易行,毕竟停留在语言的表层,而没有触及语义,因此检索效果很难进一步提高。而自动问答系统的出现弥补了这些不足。自动问答系统1(Automatic Question and Answering System),简称问答系统(QA),是指接受用户以自然语言形式描述的提问,并从大量的异构数据中查找出能回答该提问的准确、简洁答案的信息检索系统。它既能够让用户用自然语言句子提问,又能够为用户返回一个简洁、准确的答案。自动问答系统的研究主要分为开放域问答系统和受限域问答系统2。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 招生 领域 问答 系统 问题 理解 研究 硕士学位 论文

链接地址:https://www.31ppt.com/p-3441898.html