第三章_信息检索评价教材课件.ppt
第三章:信息检索系统的评价,任飞亮东北大学自然语言处理实验室2010,内容提要,引言性能评价指标基本评价指标单值评价指标特殊的评价方法其他评价方法国外信息检索评测信息检索评价的研究,内容提要,引言性能评价指标基本评价指标单值评价指标特殊的评价方法其他评价方法国外信息检索评测信息检索评价的研究,评价,评价一般是指评估某个系统的性能、某种产品的质量、某项技术的价值,或者是某项政策的效果等等信息检索评价则是指对信息检索系统的性能(主要是其满足用户信息需求的能力)进行评估的活动从信息检索系统诞生以来,对检索系统的评价就一直是推动其研究、开发与应用的一种主要力量,信息检索的评价,针对一个检索系统,可以从功能和性能两个方面对其进行分析评价功能评价可通过测试系统来判定是否支持某项功能因此相对来说较容易性能评价时间与空间性能相关度排序性能,用户真正关心的性能,评价信息检索系统的困难,相关性不是二值评价,而是一个连续的量即使进行二值评价,很多时候也很难从人的立场上看,相关性具有如下特点:主观的,依赖于特定用户的判断情景相关的,依赖于用户的需求认知的,依赖于人的认知和行为能力时变的,随着时间而变化,准备条件:,在评价和比较检索系统的检索性能时,需要以下条件:一个文档集合C。系统将从该集合中按照查询要求检出相关文档一组用户查询要求q1,q2,qn。每个查询要求qi描述了用户的信息需求对应每个用户查询要求的标准相关文档集R1,R2,Rn。该集合可由人工方式构造一组评价指标。这些指标反映系统的检索性能。通过比较系统实际检出的结果文档集和标准的相关文档集,对它们的相似性进行量化,得到这些指标值,内容提要,引言性能评价指标基本评价指标单值评价指标特殊的评价方法其他评价方法国外信息检索评测信息检索评价的研究,基本评价指标,准确率与召回率平均准确率,基本评价指标,准确率与召回率平均准确率,召回率和准确率(查全率和查准率),召回率(Recall)=检出的相关文档数/相关文档数准确率(Precision)=检出的相关文档数/检出文档数假设:文本集中所有文献已进行了检查,举例,ExampleRq=d3,d5,d9,d25,d39,d44,d56,d71,d89,d123通过某一个检索算法得到的排序结果:1.d123 6.d9 11.d382.d847.d511 12.d483.d56 8.d129 13.d2504.d69.d187 14.d1135.d8 10.d25 15.d3,(准确率,召回率),(100%,10%),(66%,20%),(50%,30%),(40%,40%),(33%,50%),准确率上升的时候,召回率在下降,反之亦然!,相关文档集,准确率和召回率的关系,11点标准召回率下的准确率曲线,11个标准召回率下所对应的准确率:0%,10%,20%,100%,0,20,40,60,80,100,20,40,60,80,100,准确率,召回率,准确率上升的时候,召回率在下降,反之亦然!,基本评价指标,准确率与召回率平均准确率,平均准确率,上述准确率召回率的值对应一个查询每个查询对应不同的准确/召回率曲线为了评价某一算法对于所有测试查询的检索性能,对每个召回率水平下的准确率进行平均化处理,公式如下:,Nq:使用的查询总数Pi(r):在召回率为r时的第i个查询的准确率,多个查询下进行检索算法的比较,对多个查询,进行平均,有时该曲线也称为:准确率/召回率的值。如下为两个检索算法在多个查询下的准确率/召回率的值。第一个检索算法在低召回率率下,其准确率较高。另一个检索算法在高召回率下,其准确率较高,准确率与召回率评价的适应性,这两个指标相互关联,评价不同方面,结合在一起形成单个测度更合适测的是批处理模式下查询集合性能,内容提要,引言性能评价指标基本评价指标单值评价指标特殊的评价方法其他评价方法国外信息检索评测信息检索评价的研究,单值评价方法,随着测试集规模的扩大以及人们对评测结果理解的深入,更准确反映系统性能的新评价指标逐渐出现单值评价方法已检出相关文献的平均准确率均值P10R准确率准确率直方图,单值评价方法,随着测试集规模的扩大以及人们对评测结果理解的深入,更准确反映系统性能的新评价指标逐渐出现单值评价方法已检出相关文献的平均准确率均值P10R准确率准确率直方图,已检出相关文献的平均准确率均值,Mean Average Precision,MAP最近几年常用的评价标准单个查询的平均准确率是逐个考察排序中每个新的相关文档,然后对其准确率值进行平均后的平均值;查询集合的平均准确率是每个查询的平均准确率MAP的平均值,MAP的计算公式如下:,MAP是反映系统在全部查询上性能的单值指标系统检索出来的相关文档位置越靠前,MAP就可能越高.如果系统没有返回相关文档,则MAP默认为0.,r为相关文档数,MAP-例子,MAP=?,ExampleRq=d3,d5,d9,d25,d39,d44,d56,d71,d89,d123通过某一个检索算法得到的排序结果:1.d123 6.d9 11.d382.d847.d511 12.d483.d56 8.d129 13.d2504.d69.d187 14.d1135.d8 10.d25 15.d3,(1+0.66+0.5+0.4+0.3)/5=0.57,相关文档集,新的评价指标,随着测试集规模的扩大以及人们对评测结果理解的深入,更准确反映系统性能的新评价指标逐渐出现单值评价方法已检出相关文献的平均准确率均值P10R准确率准确率直方图,P10评价,定义:系统对于查询返回的前10个结果的准确率.考虑到用户在查看搜索引擎结果时,往往希望在第一个页面(通常为10个结果)就找到自己所需的信息,因此P10能比较真实有效地反映在真实应用环境下所表现的性能.,P10-例子,P10=?,ExampleRq=d3,d5,d9,d25,d39,d44,d56,d71,d89,d123通过某一个检索算法得到的排序结果:1.d123 6.d9 11.d382.d847.d511 12.d483.d56 8.d129 13.d2504.d69.d187 14.d1135.d8 10.d25 15.d3,0.4,相关文档集,新的评价指标,随着测试集规模的扩大以及人们对评测结果理解的深入,更准确反映系统性能的新评价指标逐渐出现单值评价方法已检出相关文献的平均准确率均值P10R准确率准确率直方图,R准确率,单个查询的R准确率是指检索出R篇相关文档时的准确率.R是当前检索中相关文档总数查询集合中所有查询的R准确率是每个查询的R准确率的平均值.,R准确率-例子,1.d123 6.d9 2.d847.d5113.d56 8.d1294.d69.d1875.d8 10.d25,10-准确率=?,d123d84d56,10-precision=4/10=0.4,3-准确率=?,3-precision=1/3=0.333,新的评价指标,随着测试集规模的扩大以及人们对评测结果理解的深入,更准确反映系统性能的新评价指标逐渐出现单值评价方法已检出相关文献的平均准确率均值P10R准确率准确率直方图,准确率直方图,用于快速比较两个检索算法的性能在多个查询下,分别计算每一查询下的R准确率,计算其差值,并用直方图表示.用RPA(i)和RPB(i)分别表示使用检索算法A和检索算法B检索第i个查询时得到的R准确率,它们之间的差值RPA-B(i)=RPA(i)-RPB(i)RPA-B=0:对于第i个查询,两个算法有相同的性能RPA-B0:对于第i个查询,算法A有较好的性能RPA-B0:对于第i个查询,算法B有较好的性能,准确率直方图-例子,算法A在其中的8次查询中具有较好的检索性能,而算法B有2次查询的性能更好.,R准确率A-B,单值评价指标的不足,随着信息技术以及互联网的发展,信息检索研究所采用的数据集越来越大,因此构建完整的相关判断越来越难.在相关判断不完整的情况下,采用现有评价方法得出的测试结果会有失公正.对于搜索引擎这样的对高相关性文档进行检索的任务来讲,传统的评价方法也无法很好地对任务评测.,内容提要,引言性能评价指标基本评价指标单值评价指标特殊的评价方法其他评价方法国外信息检索评测信息检索评价的研究,一些特殊的评价指标,解决单值评价方法中面临的三种问题,出现了三种特殊的评价方法.Bpref指标N(D)CG方法单一相关文档检索的评价,一些特殊的评价指标,解决单值评价方法中面临的三种问题,出现了三种特殊的评价方法.Bpref指标N(D)CG方法单一相关文档检索的评价,Bpref(binary preference-based measure)指标,只考虑对返回结果列表中的经过判断后的文档进行评价在相关性判断完整的情况下,bpref具有与MAP相一致的评价结果在测试集相关性判断不完全的情况下,bpref依然具有很好的应用这个评价指标主要关心不相关文档在相关文档r之前出现的次数n。具体公式为:,R为相关文档的数目,r是一个相关文档,n是在相关文档r之前的非相关文档数,检索结果保证至少有10篇文档,Bpref举例,下面举个例子来说明bpref的性能,假设检索结果集S为:S=D1,D2,D3*,D4*,D5,D6,D7,D8,D9,D10 其中D2、D5 和D7是相关文档,D3 和D4为未经判断的文档。求Bpref,R=3;bpref=1/3(1-1/3)+(1-1/3)+(1-2/3),一些特殊的评价指标,解决上面三种问题,出现了三种特殊的评价方法.Bpref指标N(D)CG方法单一相关文档检索的评价,N(D)CG(Normalized(Discounted)Cumulated Gain,提出背景一方面,针对一个查询,检索系统会向用户返回大量的检索结果另一方面,不同的文档对用户的意义是不同的,即不同的文档具有不同的相关度一般情况下,文档在返回结果中的排序越靠后,则意味着对用户的价值就越小.因此,检索系统应该给予相关性高的文档更多的关注,并在返回结果中对其优先排序,使用户能方便地得到期望的文档NDCG就是一种新的对高相关性文档检索能力的评价方法,N(D)CG(Normalized(Discounted)Cumulated Gain),在NDCG方法考察的检索环境下,对应一个查询,每个文档都有一个相关度权值。NDCG方法在实际计算的过程中分为三个步骤,分别为CG、DCG以及NDCG;举例如下:假设相关度权值定为0、1、2、3(0为完全不相关,3为完全相关)假设一个查询的返回结果排序G为:G=D1,D2,D3,D4,D5,D6,D7,D8,D9,D10,N(D)CG(Normalized(Discounted)Cumulated Gain,第一步骤:CG在文档集G中,若D1,D3,D9的相关度权值为3,D2,D7,D8的相关度权值为2,D6的相关度权值为1,D4,D5,D10,的相关度权值为0,则可将G改写为一个相关度权值排序G,G中的数值代表在G中相应文档的相关度权值G=3,2,3,0,0,1,2,2,3,0排序列表中第i个累积权值CG由G按如下规则来计算:,G=D1,D2,D3,D4,D5,D6,D7,D8,D9,D10,CG=3,5,8,8,8,9,11,13,16,16,N(D)CG(Normalized(Discounted)Cumulated Gain,第二步骤:DCG在相关文档排序列表中,位置相对靠后的文档对用户的价值相对较小。基于上面信息,在DCG值的计算中引入一个与排序位置相关的折扣因素。在计算累积权值时相关文档的实际权值会随着排序号的增加而降低。,CG=3,5,8,8,8,9,11,13,16,16,折扣因子b代表了对用户在查看检索结果时耐心的一个模拟,b=2时,DCG=?,DCG=3,5,6.89,6.89,6.89,7.28,7.99,8.66,9.61,9.61,N(D)CG(Normalized(Discounted)Cumulated Gain,第三步骤:NDCG在用CG和DCG方法来衡量一个信息检索系统的时候,还需要与最理想的结果做一个对比。最理想的检索结果应该是相关度最高的文档排在前面,接下来排相关度次高的相关文档,依此类推。NDCG方法用理想结果下的CGI和DCGI值去归一化当前的CG和DCG值。令V=v1,v2,v3,vk为信息检索系统返回的结果序列,I=i1,i2,i3,ik表示理想结果,则归一化的结果为,N(D)CG(Normalized(Discounted)Cumulated Gain,第三步骤:NDCG-举例上例中,返回结果的最理想情况I为I=3,3,3,2,2,2,1,0,0,0CGI=3,6,9,11,13,15,16,16,16,16DCGI=3,6,7.89,8.89,9.75,10.52,10.88,10.88,10.88,10.88,CG=3,5,8,8,8,9,11,13,16,16,DCG=3,5,6.89,6.89,6.89,7.28,7.99,8.66,9.61,9.61,归一化后NCG及DNCG分别为?,NCG=norm-vect(CG,CGI)=1,0.83,0.89,0.73,0.62,0.6,0.69,0.81,1,1,NDCG=norm-vect(DCG,DCGI)=1,0.83,0.87,0.78,0.71,0.69,0.73,0.80,0.88,0.88,一些特殊的评价指标,解决上面三种问题,出现了三种特殊的评价方法.Bpref指标N(D)CG方法单一相关文档检索的评价,单一相关文档检索的评价,对于搜索引擎系统来讲,由于没有一个搜索引擎系统能够保证搜集到所有的网页,所以召回率很难计算,因而准确率成为目前的搜索引擎系统主要关心的指标。而当用户在使用Web搜索引擎的时候,用户常常在找到一个好的页面后就不再继续察看排序列表其他结果。因此,获得最相关的文档的高准确率就是信息检索系统的一个重要任务排序倒数平均排序倒数O-measureNWRR,单一相关文档检索的评价,对于搜索引擎系统来讲,由于没有一个搜索引擎系统能够保证搜集到所有的网页,所以召回率很难计算,因而准确率成为目前的搜索引擎系统主要关心的指标。而当用户在使用Web搜索引擎的时候,用户常常在找到一个好的页面后就不再继续察看排序列表其他结果。因此,获得最相关的文档的高准确率就是信息检索系统的一个重要任务排序倒数平均排序倒数O-measureNWRR,排序倒数-RR,RR(Reciprocal Ranking)是第一个相关文档出现位置的倒数经常用于评价只找到一个相关文档的情况RR值具体为1/r,其中r为第一个相关文档在结果中排序数如果检索结果中没有相关文档,那么RR值为0,单一相关文档检索的评价,对于搜索引擎系统来讲,由于没有一个搜索引擎系统能够保证搜集到所有的网页,所以召回率很难计算,因而准确率成为目前的搜索引擎系统主要关心的指标。而当用户在使用Web搜索引擎的时候,用户常常在找到一个好的页面后就不再继续察看排序列表其他结果。因此,获得最相关的文档的高准确率就是信息检索系统的一个重要任务排序倒数平均排序倒数O-measureNWRR,平均排序倒数-MRR,MRR是在RR的基础上对多个查询的RR结果取平均值。即对一个检索系统输入多个查询,分别得到每个查询的排序倒数,取平均即为MRR。计算公式如下:例如MRR=0.25就意味着检索系统平均在返回结果的第四个位置找到相关文档。然而RR评价是基于2元相关判断基础上的,因此RR与MRR都不能区分一个高相关性的文档与低相关性文档之间的区别。,单一相关文档检索的评价,对于搜索引擎系统来讲,由于没有一个搜索引擎系统能够保证搜集到所有的网页,所以召回率很难计算,因而准确率成为目前的搜索引擎系统主要关心的指标。而当用户在使用Web搜索引擎的时候,用户常常在找到一个好的页面后就不再继续察看排序列表其他结果。因此,获得最相关的文档的高准确率就是信息检索系统的一个重要任务排序倒数平均排序倒数O-measureNWRR,O-measure方法,O-measure 也只关心排序倒数,但这个标准能对相关度不同的文档进行很好的评价,更能贴近对用户需求的模拟:其中r1为第一个相关文档的位置,Gr1、CGr1 为前面NDCG方法中提到的相关度权值序列与累积权值序列中第r1个元素;在二值相关判断的情况下,O-measure与RR相当,单一相关文档检索的评价,对于搜索引擎系统来讲,由于没有一个搜索引擎系统能够保证搜集到所有的网页,所以召回率很难计算,因而准确率成为目前的搜索引擎系统主要关心的指标。而当用户在使用Web搜索引擎的时候,用户常常在找到一个好的页面后就不再继续察看排序列表其他结果。因此,获得最相关的文档的高准确率就是信息检索系统的一个重要任务排序倒数平均排序倒数O-measureNWRR,NWRR方法,先定义加权排序倒数WRR:其中r1为第一个相关文档的位置,L1为在r1位置的文档的相关度权值,在不同查询下,对应的不同文档的相关度权值的最大值可能不同WRR会受到这个最大权值的影响,于是,引入NWRR,M为所有相关度权值的最大权值,内容提要,引言性能评价指标基本评价指标单值评价指标特殊的评价方法其他评价方法国外信息检索评测信息检索评价的研究,其他评价方法,调和平均值E评价指标面向用户的测度方法,其他测度方法,调和平均值E评价指标面向用户的测度方法,调和平均值,调和平均值是将准确率和召回率加权平均的评价方法P为准确率,R为召回率F指数反映了系统的综合性能。,调和平均值例子,1.d1236.d9 11.d382.d847.d51112.d483.d56 8.d129 13.d2504.d69.d18714.d1135.d8 10.d25 15.d3,(33.3%,33.3%),(25%,66.6%),(20%,100%),其他测度方法,调和平均值E评价指标面向用户的测度方法,E评价指标,E评价指标是另一种把准确率和召回率结合在一起的评价方法,b为用户指定的参数,可以允许用户调整召回率和准确率的相对重要程度当b=1时,E=1-F。表示E指标和F互补当b1时,表示准确率P的重要性大于召回率R当b1时,表示召回率R的重要性大于准确率P,其他测度方法,调和平均值E评价指标面向用户的测度方法,面向用户的测度方法,覆盖率:在用户已知的相关文档集合中,检出相关文档所占的比例新颖率:检出的相关文献中用户未知的相关文献所占的比例,U为用户已知的相关文档集,Rk为系统检索出的文档集合A与集合U的交集,Ru为检出的用户以前未知的相关文档集,图示覆盖率和新颖率,相关文献|R|,结果集|A|,用户已知的相关文献|U|,检出的用户以前未知的相关文献|Ru|,检出的用户已知的相关文献|Rk|,内容提要,引言性能评价指标基本评价指标单值评价指标特殊的评价方法其他评价方法国外信息检索评测信息检索评价的研究,国外的评测,统一评测的意义同一个算法在不同的数据条件下得到的结果差异很大没有统一的测试方法和共同的数据集合,几乎不可能比较不同算法数据采集需花费很大的人力物力.而由政府学术机构或者学术团体组织的开放技术评测,可以为科研提供一种统一的、普遍认可的评价基准和大型测试集,节省了各个研究者重复采集数据而造成的重复付出,对整个领域的科学研究和技术进步起到很大的推动作用。通过技术评测可以提出新的研究问题。国外著名的评测TRECNTCIRCLEF,国外的评测,统一评测的意义同一个算法在不同的数据条件下得到的结果差异很大没有统一的测试方法和共同的数据集合,几乎不可能比较不同算法数据采集需花费很大的人力物力.而由政府学术机构或者学术团体组织的开放技术评测,可以为科研提供一种统一的、普遍认可的评价基准和大型测试集,节省了各个研究者重复采集数据而造成的重复付出,对整个领域的科学研究和技术进步起到很大的推动作用。通过技术评测可以提出新的研究问题。国外著名的评测TRECNTCIRCLEF,TREC评测,TREC评测 文本检索会议(Text Retrieval Conference,TREC)是信息检索(IR)界为进行检索系统和用户评价而举行的活动,它由美国国家标准技术协会(NIST)和美国高级研究计划局(DARPA)(美国国防部)共同资助,开始于1992年。主要致力于以下几个方面促进基于大规模测试文档集的检索研究。为了反映现实系统的主题多样性,必须保证有足够的实验语料集,TREC的文献集合一般在2G左右,包括50100万篇文献;建立一个开放的论坛来交流研究思想,使与会者能交流研究的成果与心得,促进企业学术机构和政府部门之间的交流沟通。通过展示检索方法在解决实际问题中的有效性,来加速实验室技术的商业化产品转换。通过提供大型的语料库、统一的测试程序,有系统地整理评测结果,达到改善文本检索评价和检验方法的目标。,TREC评测任务,早期的评测任务:Ad hoc检索任务(传统的批处理检索)类似图书馆里的书籍检索,即书籍库(数据库、文档集合)相对稳定不变,而用户的查询要求是千变万化的。主要研究任务包括对大数据库的索引查询、查询的扩展等;固定主题检索任务(Information Routing)用户的查询要求相对稳定,而文档集常常发生变化研究的主要任务不是索引,而是对用户兴趣的建模,即如何为用户兴趣建立合适的数学模型;,TREC评测任务,新的任务博客任务:研究在博客上的信息检索方法企业检索任务:研究企业搜索问题,即满足用户对组织机构的相关数据的信息检索需求;基因数据检索任务:法律文档检索任务:目的是提高律师检索电子文档集效率的技术问答系统任务:要求系统能针对问题给出具体而明确的答案垃圾邮件过滤任务超大规模文档检索任务:目的是研究是否以及什么时候把传统信息检索中基于测试集的评价方法应用于超大规模文档集。,TREC评测影响,在测试集方法:TREC评测的测试集开创了大量文档集、结构化的查询、务实的相关性判断,被信息检索的研究团体广泛采用;在评测任务方面:TREC致力于持续地研究发展许多新的测试任务,为新的热点研究提供了急需的数据和评价体系,促进了这些技术的快速发展。在会议及论坛方面:TREC会议的举行使得研究者能透过系统测试以及相互间的观摩切磋,使系统的检索技术得到提高,并获得更高的检索效益。,国外的评测,统一评测的意义同一个算法在不同的数据条件下得到的结果差异很大没有统一的测试方法和共同的数据集合,几乎不可能比较不同算法数据采集需花费很大的人力物力.而由政府学术机构或者学术团体组织的开放技术评测,可以为科研提供一种统一的、普遍认可的评价基准和大型测试集,节省了各个研究者重复采集数据而造成的重复付出,对整个领域的科学研究和技术进步起到很大的推动作用。通过技术评测可以提出新的研究问题。国外著名的评测TRECNTCIRCLEF,NTCIR,NTCIR评测NTCIR(NACSIS Test Collection for IR Systems)始于1998年,是由日本国立信息学研究所(National Institute of Informatics,简称NII)主办的搜索引擎评价型国际会议 主要评测任务传统的日文、中文、韩文、英文的单语ad hoc任务.最重要的任务是跨语言信息检索。若以C、J、K、E分别代表中文、日文、韩文、英文,则有CCJKE、JCJKE、KCJKE、ECJKE等极为复杂的检索任务。另外一个比较重要的任务是中枢语言信息检索,这个任务是模拟在语言资源不足的情况下进行跨语言信息检索。如要进行CK的跨语言信息检索,但是没有中韩双语词典,只好借用中英词典以及英韩词典,此时,英语就被视为中枢语言。,NTCIR,其他评测任务问答挑战(Question Answering Challenge,QAC):它与TREC的QA任务类似,是单语QA,但是QAC的难度更大。它提供一种特别的QA评测任务,这些任务由一系列问题构成,这些问题是环环相扣。网页检索:与TREC的Web 检索任务类似;自动文摘:为文档进行摘要。专利检索:与日本知识产权局合作的专利检索评测任务,其目的是为了提升专利检索的品质与绩效。,国外的评测,统一评测的意义同一个算法在不同的数据条件下得到的结果差异很大没有统一的测试方法和共同的数据集合,几乎不可能比较不同算法数据采集需花费很大的人力物力.而由政府学术机构或者学术团体组织的开放技术评测,可以为科研提供一种统一的、普遍认可的评价基准和大型测试集,节省了各个研究者重复采集数据而造成的重复付出,对整个领域的科学研究和技术进步起到很大的推动作用。通过技术评测可以提出新的研究问题。国外著名的评测TRECNTCIRCLEF,CLEF,CLEF(Cross-Language Evaluation Forum)评测CLEF于2000年开始筹办,是欧洲各国共同合作进行的一项长期研究计划,主要想通过评测信息科技技术,促进欧洲语言中的各种单一语言以及多语言信息技术的发展,CLEF的目标只在于跨语言信息检索以及多语言信息检索方面 CLEF的评测任务跨语言文本检索:包括三个子任务,即单语检索、双语检索以及多语检索。跨语言专利数据检索:主要是使用专业领域上下文的信息进行单语言以及跨语言的信息检索。交互式跨语言检索(Interactive Cross-Language Retrieval(iCLEF):尝试模拟实际检索环境下使用者与检索系统的互动情形,以改善信息检索系统的性能。多语问答:是一种跨语言QA检索评测图像跨语言检索/跨语言语间检索,内容提要,引言性能评价指标基本评价指标单值评价指标特殊的评价方法其他评价方法国外信息检索评测信息检索评价的研究,信息检索评价的研究,在评测推动下,取得了很大的成果。今后的研究问题与趋势增加测试数据集合的规模继续针对相关判断的完整性与一致性做进一步研究;信息检索评价方法的研究发展方向以TREC等信息检索评测具体的检索任务为发展方向。中文信息检索评价以及评测还处于起步阶段,与国际知名评测仍有较大差距。,本章小结,引言性能评价指标基本评价指标单值评价指标特殊的评价方法其他评价方法国外信息检索评测信息检索评价的研究,思考题,1、分析对比MRR评价方法与MAP评价方法,并指出何时二者等价。2、分析信息检索评价方法中的准确率与召回率评价方法的局限性。3、在一个检索评价中,产生了几个查询,对每个查询,检索系统按相关度从高到低的顺序对返回的文档结果排序。对某个特定的主题,相关文档集是这样生成的:先将每个检索系统提交结果中排序为1的文档放入文档集,然后再依次将排序为2、排序为3、的文档放入文档集,直到文档集中有不少于120个不重复的文档为止。这120个文档分成6组,每组20个文档,交给6个人,进行人工相关性判断。如果一个人没有提交他的相关判断的结果,那么就只好将那20个文档判断为非相关的。问题:1、如果有一个人未提交他的判断结果,那么会对相应主题的评价结果产生什么样的影响?这个影响会有多大?2、这个影响是否会因检索系统而异?3、假设120个文档都经过相关判断,对某个查询来说仍会有上百个文档是未经过判断的。这种情况会对这个查询的评价结果产生什么样的影响?请以召回率、准确率以及平均准确率为中心对此问题进行讨论。,