招生领域问答系统中问题理解的研究硕士学位论文.doc
摘 要随着互联网的高速发展,网上的信息越来越多,如何在这些海量信息中快速准确地找到所需要的信息也越来越困难。自动问答系统的出现很好的解决了这一问题,它既能够让用户用自然语言句子提问,又能够为用户返回一个简洁、准确的答案。中国每年高考的考生数百万之巨,很多考生和家长对高考有这样或那样的问题。因此,开发一个招生咨询领域的自动问答系统是非常具有现实意义的。本文通过对自动问答系统中的答案抽取部分的研究,提出了一种将FAQ库(常问问题答案库)与蕴涵丰富招生咨询材料的文本库相结合的答案抽取方式,有效地提高了系统的性能。在FAQ库中,由于存储了大量而正确的问题答案对,使得答案的抽取更为准确和快捷;在基于FAQ库的答案抽取方法中,本文提出采用基于关键词信息和基于语义词典相结合的融合算法来计算用户问句与FAQ库中问句的相似度。该算法不仅考虑了词面的信息,更深入到语义层次的信息,使句子间的相似度计算更为精确,从而使答案的提取也更为准确。在文本库的答案抽取方法中,采用的是比较成熟和常见的基于向量空间模型的TF-IDF方法来计算问句与文本之间的相似度。并将从文本库中提取出的答案定期进行人工判断整理,备份至FAQ库中,从而使更多的问题能直接从FAQ库中获得答案,有利于提高系统的运行速度。最后本文设计实现了一个招生咨询问答系统。实验结果表明,系统可以快速、准确的满足用户的需求,从而有效地验证了上述方法的有效性和可行性。关键词:自动问答系统;答案抽取;常问问题答案库(FAQ库);文本库ABSTRACTWith the rapid development of Internet, there are more and more informations online, how to find the informations they need quickly and accurately are more and more difficult.The Automatic Question and Answering System is a good method to resolve this problem,it not only let people ask a question with natural language,but also return a concise and accurate answer.China has millions of candidates take the university entrance examination each year, many students and parents have this or that problems on the college entrance examination.Therefore the development of Question Answering System based on Admission Counseling has a very practical significance.In this paper, research by Answer Extraction of Automatic Question and Answering System,it advances a new method that combines the Frequently Answer Question Library (FAQ) with the document library which has the rich materials about Admission Counseling,and effectively improves the performance of the system.In the FAQ Library, it can get the answer accurately and quickly because it stores a lot of correct question-answer pairs;In the method of Answer Extraction based on the FAQ Library, the paper advances the amalgamation arithmetic that combines the keywords information with the semantic dictionary to calculate the similarity between the users question and the question in the FAQ library.This arithmetic is not only consider the information of the words surface,but also consider the more depth informations of the semantic level,makes the similarity calculation between the sentences more accurate,and also makes the anwer extraction more accurate too.In the method of Answer Extraction based on the document library,it uses the relatively mature and common TF-IDF method which based on the Vertor Space Model to calculate the similarity between the question and the document.It also manual corrects the answer regularly which extract from the document library,and backups to the FAQ library.So that more questions can be directly obtained the answers from the FAQ library directly.It can impove the system speed.At the end of the paper, it designs a Question Answering System based on Admission Counseling.The result of the experiment shows that the system can rapidly and accurately meet the requirement of the users, and it also validates the validity and feasibility of all the methods above.Chunlan Yuan (Computer Application Technology) Directed by A.Prof. Lin ZhangKEYWORDS: Automatic Question and Answering System;Answer Extraction;Frequently Answer Question Library;Document Library毕业设计(论文)原创性声明和使用授权说明原创性声明本人郑重承诺:所呈交的毕业设计(论文),是我个人在指导教师的指导下进行的研究工作及取得的成果。尽我所知,除文中特别加以标注和致谢的地方外,不包含其他人或组织已经发表或公布过的研究成果,也不包含我为获得 及其它教育机构的学位或学历而使用过的材料。对本研究提供过帮助和做出过贡献的个人或集体,均已在文中作了明确的说明并表示了谢意。作 者 签 名: 日 期: 指导教师签名: 日期: 使用授权说明本人完全了解 大学关于收集、保存、使用毕业设计(论文)的规定,即:按照学校要求提交毕业设计(论文)的印刷本和电子版本;学校有权保存毕业设计(论文)的印刷本和电子版,并提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其它复制手段保存论文;在不以赢利为目的前提下,学校可以公布论文的部分或全部内容。作者签名: 日 期: 学位论文原创性声明本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名: 日期: 年 月 日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权 大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。涉密论文按学校规定处理。作者签名:日期: 年 月 日导师签名: 日期: 年 月 日指导教师评阅书指导教师评价:一、撰写(设计)过程1、学生在论文(设计)过程中的治学态度、工作精神 优 良 中 及格 不及格2、学生掌握专业知识、技能的扎实程度 优 良 中 及格 不及格3、学生综合运用所学知识和专业技能分析和解决问题的能力 优 良 中 及格 不及格4、研究方法的科学性;技术线路的可行性;设计方案的合理性 优 良 中 及格 不及格5、完成毕业论文(设计)期间的出勤情况 优 良 中 及格 不及格二、论文(设计)质量1、论文(设计)的整体结构是否符合撰写规范? 优 良 中 及格 不及格2、是否完成指定的论文(设计)任务(包括装订及附件)? 优 良 中 及格 不及格三、论文(设计)水平1、论文(设计)的理论意义或对解决实际问题的指导意义 优 良 中 及格 不及格2、论文的观念是否有新意?设计是否有创意? 优 良 中 及格 不及格3、论文(设计说明书)所体现的整体水平 优 良 中 及格 不及格建议成绩: 优 良 中 及格 不及格(在所选等级前的内画“”)指导教师: (签名) 单位: (盖章)年 月 日评阅教师评阅书评阅教师评价:一、论文(设计)质量1、论文(设计)的整体结构是否符合撰写规范? 优 良 中 及格 不及格2、是否完成指定的论文(设计)任务(包括装订及附件)? 优 良 中 及格 不及格二、论文(设计)水平1、论文(设计)的理论意义或对解决实际问题的指导意义 优 良 中 及格 不及格2、论文的观念是否有新意?设计是否有创意? 优 良 中 及格 不及格3、论文(设计说明书)所体现的整体水平 优 良 中 及格 不及格建议成绩: 优 良 中 及格 不及格(在所选等级前的内画“”)评阅教师: (签名) 单位: (盖章)年 月 日教研室(或答辩小组)及教学系意见教研室(或答辩小组)评价:一、答辩过程1、毕业论文(设计)的基本要点和见解的叙述情况 优 良 中 及格 不及格2、对答辩问题的反应、理解、表达情况 优 良 中 及格 不及格3、学生答辩过程中的精神状态 优 良 中 及格 不及格二、论文(设计)质量1、论文(设计)的整体结构是否符合撰写规范? 优 良 中 及格 不及格2、是否完成指定的论文(设计)任务(包括装订及附件)? 优 良 中 及格 不及格三、论文(设计)水平1、论文(设计)的理论意义或对解决实际问题的指导意义 优 良 中 及格 不及格2、论文的观念是否有新意?设计是否有创意? 优 良 中 及格 不及格3、论文(设计说明书)所体现的整体水平 优 良 中 及格 不及格评定成绩: 优 良 中 及格 不及格(在所选等级前的内画“”)教研室主任(或答辩小组组长): (签名)年 月 日教学系意见:系主任: (签名)年 月 日目 录第1章 绪论11.1 课题的背景和意义11.2 自动问答系统概述21.2.1 国内外研究现状21.2.2 问答系统的一般结构31.3 答案抽取简介41.3.1 答案抽取的定义41.3.2 答案抽取技术的分类41.4 主要工作与本文的组织7第2章 FAQ库中的答案抽取技术92.1 引言92.2 FAQ库的建立92.2.1 FAQ库的收集92.2.2 FAQ库的组织与存储112.3 候选问题集的建立122.4 句子相似度计算的主要方法132.4.1 句子相似度的概念及分类132.4.2 TF-IDF方法142.4.3 基于语义依存的相似度计算方法152.4.4 基于知网的语义方法介绍152.4.5 各种句子相似度计算方法的优劣势比较192.5 FAQ库中相似度计算新方法202.5.1 改进的基于关键词信息的方法202.5.2 基于知网的语义相似度计算具体步骤232.5.3 改进的相似度方法-基于关键词信息与基于知网相结合的方法252.6 实验252.6.1 算法中特定值的确定252.6.2 实验步骤262.6.3 结果分析372.7 本章小结37第3章 文本库中的答案抽取技术383.1 引言383.2 文本库的建立383.2.1 网页抓取程序383.2.2 HTML格式过滤403.3 文本库预处理403.4 中文文本相似度计算的主要方法423.4.1 基于向量空间模型的TF-IDF方法423.4.2 基于汉明距离的文本相似度计算方法433.4.3 潜在语义分析技术443.4.4 基于语义理解的相似度计算方法453.4.5 各种方法的优劣势比较453.5 文本库中的答案抽取技术463.5.1 文本相似度计算方法的选择463.5.2 文本库中答案抽取的具体实现步骤473.5.3 实验结果及分析483.6 本章小结51第4章 系统设计与实现524.1 引言524.2 系统的总体设计524.2.1 系统的总体框架524.2.2 系统设计的基本思想534.3 系统各模块的实现534.3.1 自动问答系统界面设计534.3.2 问题分析模块544.3.3 信息检索模块564.3.4 答案抽取模块564.3.5 FAQ库更新模块614.4 本章小结61第5章 系统总体测试与评价625.1 引言625.2 TREC评测标准625.3 本系统的评测标准635.4 测试结果及分析635.5 本章小结70第6章 总结与展望71致 谢73参考文献74附录:攻读硕士学位期间发表的学术论文76第1章 绪论1.1 课题的背景和意义20世纪90年代以来,Internet在世界范围内得到了迅猛的发展,互联网上的信息也越来越丰富。但人们也越来越烦恼这样一个问题:如何从堆积如山的电子文档中获取自己需要的答案?虽然现在的搜索引擎如Google, baidu等己经取得了很大的成功,但仍存在很多不足的地方,其中主要有三个方面:一是很难以几个关键词的逻辑组合来表达清楚用户的检索意图;二是相关性信息太多,用户将浪费很多时间在这些网页中查找自己所需要的信息;三是以关键词为基础的索引、匹配算法尽管简单易行,毕竟停留在语言的表层,而没有触及语义,因此检索效果很难进一步提高。而自动问答系统的出现弥补了这些不足。自动问答系统1(Automatic Question and Answering System),简称问答系统(QA),是指接受用户以自然语言形式描述的提问,并从大量的异构数据中查找出能回答该提问的准确、简洁答案的信息检索系统。它既能够让用户用自然语言句子提问,又能够为用户返回一个简洁、准确的答案。自动问答系统的研究主要分为开放域问答系统和受限域问答系统2。如果把问答系统限定在某一领域来研究,就是我们常说的受限域问答系统。在受限域问答系统方面,英语、日语和德语的问答系统已经获得了相当的应用。在国内,复旦大学3、中科院计算所4、清华大学也都开展了这方面的研究工作。受限域中文问答系统在国内已经成为一个研究的重点,具有重要的基础理论研究意义和重大的应用价值,其社会效益深远,经济效益巨大。本文所要研究的就是受限域问答系统,即高考招生咨询领域的自动问答系统。中国每年高考的考生数百万之巨,很多考生和家长对高考有这样或那样的问题。如果采用普通搜索引擎,不仅浪费时间和精力去筛选信息,而且往往还很难获得所需的确切答案;而如果采用人工回答的方式也不现实,不仅浪费人力物力,而且也不具有时效性。因此开发招生咨询领域的自动问答系统是非常具有现实意义的。1.2 自动问答系统概述1.2.1 国内外研究现状随着网络和信息技术的快速发展,有越来越多的公司和科研院所参与了自动问答技术的研究。在每年一度的文本信息检索(TREC)会议上,自动问答(Question Answering Track)是最受关注的主题之一。同时,越来越多的大学和科研机构参与了TREC会议的Question Answering Track5-9。目前,国外已经开发出一些相对成熟的问答系统,典型的有:麻省理工(MIT)开发的一个问答系统Start。它可以回答一些有关地理、历史、文化、科技、娱乐等方面的简单问题。但Start的回答能力非常有限,系统的准确性和稳定性都比较差。Kupiec等人开发的MURAX系统使用百科全书作为知识库用来回答一般性问题,它采用了基于统计与语言学知识相结合的技术,通过布尔搜索引擎和句法分析器从百科全书中抽取问题的答案。AnswerBus是一个比较成熟的问答系统,而且是个多语种的自动问答系统,它不仅可以回答英语的问题,还可以回答法语、西班牙语、德语、意大利语和葡萄牙语的问题10-12。AskJeeves系统是通过手工收集大量的自然语言问句以及相应的URL链接,尽管它比较实用,但它的准确率比较低,并且返回给用户的还是网页而不是准确的答案。相对英文问答系统来说,中文问答系统起步较晚,不够成熟,这和中文的语法、语义复杂性等多种因素有关。国内也有不少大学和研究所正在进行问答系统的研究,但是参与中文自动问答技术研究的科研机构比较少,而且基本没有成型的中文自动问答系统。复旦大学和中科院都参加了QA Track的竞赛,哈工大也在这方面做了一些研究。中科院计算所正在进行的大规模知识处理科研项目National Knowledge Infrastructure(简称NKI)中的一个具体应用就是NKI知识问答系统HKI。HKI以NKI知识库为基础,向用户提供各个领域的知识服务,其特点是向用户提供准确的信息,支持自由的提问方式。1.2.2 问答系统的一般结构问答系统通常包含三个主要部分:问题分析、信息检索和答案抽取13。如下图1-1所示:图1-1 自动问答系统结构1.问题分析问题分析模块主要对自然语言表达的问句进行处理,将其中的信息提取出来,供后续处理环节使用。通常需要提取两种问句信息:答案类型和问句关键词。2.信息检索(IR:information retrieval)IR的目的是缩小答案抽取需要处理的文档范围,它使用检索词组合从语料库中查找候选集,这些检索词组合在问题分析模块由问句转化而来。问答系统中的信息检索可以有多种选择,如果语料库存放在本地,则可以使用开放的检索系统如SMART14或者QUERY;如果语料库是互联网知识库,那么调用商业搜索引擎如Google则是比较好的选择。3.答案抽取IR模块返回的是候选句子集或文档集,而问答系统则返回答案本身。所以还需要对答案进行抽取。基于不同的语料库的问答系统,有着不同的答案抽取方法。如基于FAQ库的问答系统,该系统的FAQ库存储了用户可能提出的问答对。系统根据用户输入的自然语言句子,通过一定的答案抽取方法来提取出与用户问句最相关的问题答案对,将其中的答案返回给用户。而如基于全文检索的问答系统,它的特点是知识库不是现成的问题答案对,而是相关文本库。先提取出与用户问句相关度比较高的文档,再从这些候选文档集中进行答案抽取,提取出最相关的句子返回给用户。1.3 答案抽取简介1.3.1 答案抽取的定义答案抽取是一个复杂的研究领域,它涉及分类、统计、逻辑表示、模式识别等多个领域的内容,并对语言处理技术有相当高的要求。不同学者从不同的研究方面出发,可能会得到对此问题的不同理解,尽管如此,其根本目的都是获得质量较高的返回答案。对答案抽取的定义可能有多种,其中普遍认可的定义是:定义1-1 答案抽取15是指根据用户提出的问题从搜索引擎返回的相关网页中抽取出能够体现答案的词、短语或是段落。在具体实现中,需要考虑用户提问的问题类型。1.3.2 答案抽取技术的分类按照自动问答系统依托的技术来划分,答案抽取技术可以分为基于自然语言理解(NLP,Natural Language Processing)、基于问题模板(QP,Question patterns)和基于信息检索(IR,Information Retrieval)三类。下面以这三类技术为线索,对答案抽取技术的研究现状和成果作简要的回顾。1. 基于NLP的答案抽取技术 传统计算机处理的数据是结构化的,而非结构化或半结构化的文本数据, 如自然语言文本和网页,转化成特征向量后,特征数可能高达几万或几十万。所以,答案抽取面临的首要任务是如何在计算机中合理的表示文本。 这种表示方法既要包含足够的信息以反映文本的特征,又不至于过于复杂而不利于答案抽取。这就涉及到了NLP技术。 NLP是一种将自然语言映射为形式语言模型(Formal world model)的技术。形式语言模型可以是一阶谓词逻辑、语义网络、概念依存图或某种框架表示形式16。在NLP应用初期,QA系统试图模拟人的思维,形式语言模型扮演着“前置语言”(front end Natural language)的角色,对数据库系统、对话系统或故事理解系统进行查询。前置分析器首先将用户输入自然语言形式的问句转化成中间逻辑查询,然后再转换成数据库支持的查询语言。而在另外一些应用中,形式语言模型普遍表示为本体论(Ontologies)17,它对基于知识的概念做出了明确的规定。 随着网络技术的发展,在线文本迅速增加,信息抽取技术(IE,Information Extraction)18逐渐成为从大规模非结构化文本获取信息的关键技术。为适应这种需要,浅层句法分析技术开始引入NLP中。基于浅层句法分析的NLP技术没有进行文本语义分析,与传统的文本理解不同,它侧重文本组块分析,以匹配事先准备的问题模式库。比如在“who won the Nobel prize in 1998?”这个问题中, 疑问词who对应于“Person Names”实体类型,通过查找与关键词“won”,“1998” ,“Nobel”,“prize”有关联的人名信息,即可得到正确答案。在文献19的研究中,还引入机器学习方法进行模式抽取。基于浅层分析的NLP具有领域无关的性质,但要求文本中的答案和模式样式相符。采用这种技术的问答系统有文献20和21所描述的方法。2. 基于句模(QP)的答案抽取技术 基于模板的答案抽取技术是自然语言模式匹配技术的扩展,其智能性体现在人工创建的问题模板集上。 START22系统是采用模板技术的典型系统之一,自1993年以来,START回答在线提问己达数百万条。该系统运行时根据问题查询预先处理过的“主、谓、宾”三元组数据库,形成模式“subject-relationship-object",在匹配用户问题的时候,通过词汇层和结构层两个层次进行。如果用户问题匹配标注实体,系统追踪并返回指针指向的信息片断,作为提交用户的答案。 START的成功离不开Ommibase23的支持。Ommibase是建立在START知识标注基础上的虚拟数据库系统,内部存放了大量的联机半结构化数据,比如CIA事实手册、网络电影数据库等等。Ommibase的数据模型可以表示为“object-property-value",数据源包括对象,对象由属性描述。凭借着Ommibase,START可以按照属性描述把问题转化成结构式查询条件。 Sniders24介绍了一种类似START的数据库查询系统,该系统通过操纵问题模板,建立与数据库概念模型相互映射关系。问题模板由关键词表达式构成,类似于正则表达式。每个问题模板都可以看成一个带变元和固定参数的谓词,形如: 在匹配过程中,固定的参数(varl,.,varn)表示用户提问的词。如果数据库中有一组实例(datal,.,datan)恰好符合谓词的变参,那么Q的值为真,表示这组实例可以构成问题的答案。 START和Ommibase的自然语言注释和问题模板一样,有一个共同的特点,它们都经过了标注处理,且非常贴近答案信息,这使得运用自然语言查询潜在的数据模型成为可能。答案形式可以是静态文本、数据库查询结果,甚至是多媒体材料。目前,基于QP的答案抽取技术并不是只停留在学术界的研究中,其方法已经在商业化产品中获得了成功应用。较为著名的商业问答系统有ASKJEEVS25、Kivilogic26和QUICKASK27。3. 基于信息检索(IR)的答案抽取技术 IR是处理信息的表示、存储、组织和访问。在问答系统中,IR对用户提交的问题进行查询,以获得问题的答案。IR系统通常又称为文本查询系统,因为它只返回嵌入答案的文本,而不是明确的答案。在目前大多数系统中,IR已成为标准答案抽取组件,为进一步的答案分析和抽取提供相关文本。例如,SMART23就是采用IR技术的比较著名的问答系统之一。 在常问问题系统方面,IR是答案查找的主要方法,如FAQFinder28采用传统的基于词频的统计方法,同时结合了英语语义知识库Wordnet进行相关问题检索。 近年来,在国际性评估会议(如ANLP-NAACL和TREC)的大力推动下,IR和NLP 相结合逐渐成为答案抽取技术发展的主流。Voohees对参加TREC QA Track的问答系统的执行步骤做出了如下总结29:第一,根据用户提问确定期望问题类型,如对出现的疑问词“Who",判定期望的答案为人名类型“Person Names";第二,在不影响答案内容的前提下,尽可能减少相关文本的词条数;第三,对含有答案的文本排序,从中抽取确切的答案。 Mulder30是第一个基于网络的开放系统,它和其它参加TREC的系统一样,在答案抽取过程结合了IR和NLP技术。Mulder的答案抽取过程分为三个阶段,首先,用句法分析器处理用户提问,使提问词划归到临时目录;然后,系统把句法分析结果转换成一系列查询词,这些查询词最终提交到Google,作为检索项进行信息查询;最后,Mulder对Google返回的网页进行加工,包括解析、抽取相关文本片断(Snippets)、生成可能的候选答案队列。1.4 主要工作与本文的组织在受限域中文问答系统的研究中,答案抽取是最关键的环节之一,答案抽取的实时性和准确性直接影响到问答系统的效率。因此,答案抽取是一个非常值得研究的话题。本文所要研究的是招生咨询领域的自动问答系统中答案抽取的部分。本文根据目前国内问答系统中存在的主要问题,即基于FAQ库的问答系统的答疑能力比较有限;而基于文本库的问答系统的速度比较慢的情况,提出了一种利用两者优势的更有效的方法:即把蕴涵丰富招生咨询方面材料的文本库与常问问题答案库(FAQ)相结合的方法。该方案使得系统对常问问题能快速给出解答,提高了系统的效率和准确率;同时系统还能自动回答FAQ库中没有存储的其他大部分问题,大大增强了系统的答疑能力和实用性。本文主要对以下几个方面开展研究:1.FAQ库及文本库的结构设计。FAQ库的设计是系统设计的重点之一,FAQ库结构设计的好坏直接关系到查询的速度和准确度。2.答案提取研究。答案提取是问答系统的主要模块,答案提取有许多方式和方法,本文主要采取以下两种方式相结合的答案抽取技术:一是通过FAQ库中的问题答案对进行匹配,直接寻找需要回答的问题;二是对文本库进行检索,通过一定的答案抽取技术,获取答案。3.FAQ库的更新。将从文本库中提取出来的答案,建立好与之匹配的问题答案对后,存入到FAQ库,进行更新。4.问答系统设计。本文设计了一个招生咨询领域的问答系统,完成了系统中答案抽取部分的架构和流程设计。本文的内容组织如下:第1章 绪论。分析了本课题的背景和意义,介绍了目前问答系统的发展状况,并详细介绍了一些常用的答案抽取技术,最后给出本文的工作与结构安排。第2章 FAQ库中的答案抽取技术。介绍了FAQ库的设计内容,并详细介绍了在FAQ库中进行答案抽取的关键技术,即候选问题集的建立及句子相似度的计算。提出了采用基于关键词信息和基于语义词典相结合的相似度计算方法,来提高相似度计算的准确性。最后给出一定的实验分析。第3章 文本库中的答案抽取技术。介绍了文本库的建立及预处理的过程,重点研究了文本库的相似度计算方法,并选择基于向量空间模型的TF-IDF方法来计算问句与文本之间的相似度。最后也给出了一定的实验及分析。第4章 系统设计与实现。给出了系统的总体设计框架和各模块的实现过程。重点描述了招生咨询领域问答系统中的答案抽取部分的设计与实现。第5章 系统总体测试与评价。给出系统的评价机制,并进行了系统的测试,结果证明该系统能有效提高准确度,具有一定的实用价值。第6章 总结与展望。给出本文的结论并对今后需要改进的地方做出分析和展望。第2章 FAQ库中的答案抽取技术2.1 引言自动问答系统通常包含三个主要部分:问题分析、信息检索和答案抽取。其中的关键部分是答案抽取。本章主要介绍在FAQ库中的答案抽取技术。FAQ(Frequently Answer Question)库即常问问题答案库,FAQ库中保存了用户常问的问题和对应的答案。在进行答案抽取时,我们采取先到FAQ库中去查找答案的策略。如果在FAQ库中,我们能够找到最相似的问题,就直接将FAQ库中问题所对应的答案返回给用户,从而避免进行一系列复杂的检索和答案提取的过程。因此,常问问题库的引进,将大大提高自动问答系统的准确率和效率。2.2 FAQ库的建立2.2.1 FAQ库的收集FAQ数据库是问答系统的核心资源,FAQ库中的数据主要来源于三种途径:第一种是采用人工收集的方式。收集在FAQ库中不存在且询问频率较高的问题,把这类问句和对应的答案加入到FAQ库中;第二种是对于一些已经存在的格式化数据,如原有系统数据库中保存的问答对、或者是以文本格式保存但是具有一定规律的数据,对于这部分数据即可以通过编写专门的接口实现转换;第三种从网上自动获取。由于本系统是关于限定的高考咨询领域的问题,内容相对集中,数据收集主要采取人工收集的方式。以上海海事大学高考咨询领域为例,通过招生办的电话咨询及录音、招生网站留言、招生咨询现场对话记录等方式,收集大量的用户问句。将所有问句中出现频率超过5%的问句收集为常问问题集。同时将问题分类整理,分类的方法按照问题分析阶段的分类算法来实现。(问题分类模块的工作由另一位同学负责研究,不在我研究的范围之内)对收集、归类好的所有信息,给出对应的答案,将问题与答案对收集入库。以下给出部分问答对的例子:(Q代表问句,A代表问句所对应的答案)u 关于分数Ø Q:上海海事大学2007年计算机科学与技术专业在上海的招生分数是多少?A:2007年我校计算机科学与技术专业在上海的招生分数是428分(理科)。Ø Q:我考了500分,能不能进上海海事大学的计算机科学与技术专业,我是上海的考生。A:2008年我校计算机科学与技术专业在上海的招生分数是435分(理科)。Ø Q:上海海事大学2007年理科类在上海的最低分数线是多少?A:2007年我校在上海的最低分数线是412分,专业是航海技术(理科)。u 关于人数Ø Q:上海海事大学2007年计算机科学与技术专业在上海的招生人数是多少? A:2007年我校计算机科学与技术专业在上海的招生人数是77个(理科)。