第三章_信息检索评价教材课件.ppt
《第三章_信息检索评价教材课件.ppt》由会员分享,可在线阅读,更多相关《第三章_信息检索评价教材课件.ppt(81页珍藏版)》请在三一办公上搜索。
1、第三章:信息检索系统的评价,任飞亮东北大学自然语言处理实验室2010,内容提要,引言性能评价指标基本评价指标单值评价指标特殊的评价方法其他评价方法国外信息检索评测信息检索评价的研究,内容提要,引言性能评价指标基本评价指标单值评价指标特殊的评价方法其他评价方法国外信息检索评测信息检索评价的研究,评价,评价一般是指评估某个系统的性能、某种产品的质量、某项技术的价值,或者是某项政策的效果等等信息检索评价则是指对信息检索系统的性能(主要是其满足用户信息需求的能力)进行评估的活动从信息检索系统诞生以来,对检索系统的评价就一直是推动其研究、开发与应用的一种主要力量,信息检索的评价,针对一个检索系统,可以从
2、功能和性能两个方面对其进行分析评价功能评价可通过测试系统来判定是否支持某项功能因此相对来说较容易性能评价时间与空间性能相关度排序性能,用户真正关心的性能,评价信息检索系统的困难,相关性不是二值评价,而是一个连续的量即使进行二值评价,很多时候也很难从人的立场上看,相关性具有如下特点:主观的,依赖于特定用户的判断情景相关的,依赖于用户的需求认知的,依赖于人的认知和行为能力时变的,随着时间而变化,准备条件:,在评价和比较检索系统的检索性能时,需要以下条件:一个文档集合C。系统将从该集合中按照查询要求检出相关文档一组用户查询要求q1,q2,qn。每个查询要求qi描述了用户的信息需求对应每个用户查询要求
3、的标准相关文档集R1,R2,Rn。该集合可由人工方式构造一组评价指标。这些指标反映系统的检索性能。通过比较系统实际检出的结果文档集和标准的相关文档集,对它们的相似性进行量化,得到这些指标值,内容提要,引言性能评价指标基本评价指标单值评价指标特殊的评价方法其他评价方法国外信息检索评测信息检索评价的研究,基本评价指标,准确率与召回率平均准确率,基本评价指标,准确率与召回率平均准确率,召回率和准确率(查全率和查准率),召回率(Recall)=检出的相关文档数/相关文档数准确率(Precision)=检出的相关文档数/检出文档数假设:文本集中所有文献已进行了检查,举例,ExampleRq=d3,d5,
4、d9,d25,d39,d44,d56,d71,d89,d123通过某一个检索算法得到的排序结果:1.d123 6.d9 11.d382.d847.d511 12.d483.d56 8.d129 13.d2504.d69.d187 14.d1135.d8 10.d25 15.d3,(准确率,召回率),(100%,10%),(66%,20%),(50%,30%),(40%,40%),(33%,50%),准确率上升的时候,召回率在下降,反之亦然!,相关文档集,准确率和召回率的关系,11点标准召回率下的准确率曲线,11个标准召回率下所对应的准确率:0%,10%,20%,100%,0,20,40,60,
5、80,100,20,40,60,80,100,准确率,召回率,准确率上升的时候,召回率在下降,反之亦然!,基本评价指标,准确率与召回率平均准确率,平均准确率,上述准确率召回率的值对应一个查询每个查询对应不同的准确/召回率曲线为了评价某一算法对于所有测试查询的检索性能,对每个召回率水平下的准确率进行平均化处理,公式如下:,Nq:使用的查询总数Pi(r):在召回率为r时的第i个查询的准确率,多个查询下进行检索算法的比较,对多个查询,进行平均,有时该曲线也称为:准确率/召回率的值。如下为两个检索算法在多个查询下的准确率/召回率的值。第一个检索算法在低召回率率下,其准确率较高。另一个检索算法在高召回率
6、下,其准确率较高,准确率与召回率评价的适应性,这两个指标相互关联,评价不同方面,结合在一起形成单个测度更合适测的是批处理模式下查询集合性能,内容提要,引言性能评价指标基本评价指标单值评价指标特殊的评价方法其他评价方法国外信息检索评测信息检索评价的研究,单值评价方法,随着测试集规模的扩大以及人们对评测结果理解的深入,更准确反映系统性能的新评价指标逐渐出现单值评价方法已检出相关文献的平均准确率均值P10R准确率准确率直方图,单值评价方法,随着测试集规模的扩大以及人们对评测结果理解的深入,更准确反映系统性能的新评价指标逐渐出现单值评价方法已检出相关文献的平均准确率均值P10R准确率准确率直方图,已检
7、出相关文献的平均准确率均值,Mean Average Precision,MAP最近几年常用的评价标准单个查询的平均准确率是逐个考察排序中每个新的相关文档,然后对其准确率值进行平均后的平均值;查询集合的平均准确率是每个查询的平均准确率MAP的平均值,MAP的计算公式如下:,MAP是反映系统在全部查询上性能的单值指标系统检索出来的相关文档位置越靠前,MAP就可能越高.如果系统没有返回相关文档,则MAP默认为0.,r为相关文档数,MAP-例子,MAP=?,ExampleRq=d3,d5,d9,d25,d39,d44,d56,d71,d89,d123通过某一个检索算法得到的排序结果:1.d123 6
8、.d9 11.d382.d847.d511 12.d483.d56 8.d129 13.d2504.d69.d187 14.d1135.d8 10.d25 15.d3,(1+0.66+0.5+0.4+0.3)/5=0.57,相关文档集,新的评价指标,随着测试集规模的扩大以及人们对评测结果理解的深入,更准确反映系统性能的新评价指标逐渐出现单值评价方法已检出相关文献的平均准确率均值P10R准确率准确率直方图,P10评价,定义:系统对于查询返回的前10个结果的准确率.考虑到用户在查看搜索引擎结果时,往往希望在第一个页面(通常为10个结果)就找到自己所需的信息,因此P10能比较真实有效地反映在真实应用
9、环境下所表现的性能.,P10-例子,P10=?,ExampleRq=d3,d5,d9,d25,d39,d44,d56,d71,d89,d123通过某一个检索算法得到的排序结果:1.d123 6.d9 11.d382.d847.d511 12.d483.d56 8.d129 13.d2504.d69.d187 14.d1135.d8 10.d25 15.d3,0.4,相关文档集,新的评价指标,随着测试集规模的扩大以及人们对评测结果理解的深入,更准确反映系统性能的新评价指标逐渐出现单值评价方法已检出相关文献的平均准确率均值P10R准确率准确率直方图,R准确率,单个查询的R准确率是指检索出R篇相关文
10、档时的准确率.R是当前检索中相关文档总数查询集合中所有查询的R准确率是每个查询的R准确率的平均值.,R准确率-例子,1.d123 6.d9 2.d847.d5113.d56 8.d1294.d69.d1875.d8 10.d25,10-准确率=?,d123d84d56,10-precision=4/10=0.4,3-准确率=?,3-precision=1/3=0.333,新的评价指标,随着测试集规模的扩大以及人们对评测结果理解的深入,更准确反映系统性能的新评价指标逐渐出现单值评价方法已检出相关文献的平均准确率均值P10R准确率准确率直方图,准确率直方图,用于快速比较两个检索算法的性能在多个查询
11、下,分别计算每一查询下的R准确率,计算其差值,并用直方图表示.用RPA(i)和RPB(i)分别表示使用检索算法A和检索算法B检索第i个查询时得到的R准确率,它们之间的差值RPA-B(i)=RPA(i)-RPB(i)RPA-B=0:对于第i个查询,两个算法有相同的性能RPA-B0:对于第i个查询,算法A有较好的性能RPA-B0:对于第i个查询,算法B有较好的性能,准确率直方图-例子,算法A在其中的8次查询中具有较好的检索性能,而算法B有2次查询的性能更好.,R准确率A-B,单值评价指标的不足,随着信息技术以及互联网的发展,信息检索研究所采用的数据集越来越大,因此构建完整的相关判断越来越难.在相关
12、判断不完整的情况下,采用现有评价方法得出的测试结果会有失公正.对于搜索引擎这样的对高相关性文档进行检索的任务来讲,传统的评价方法也无法很好地对任务评测.,内容提要,引言性能评价指标基本评价指标单值评价指标特殊的评价方法其他评价方法国外信息检索评测信息检索评价的研究,一些特殊的评价指标,解决单值评价方法中面临的三种问题,出现了三种特殊的评价方法.Bpref指标N(D)CG方法单一相关文档检索的评价,一些特殊的评价指标,解决单值评价方法中面临的三种问题,出现了三种特殊的评价方法.Bpref指标N(D)CG方法单一相关文档检索的评价,Bpref(binary preference-based mea
13、sure)指标,只考虑对返回结果列表中的经过判断后的文档进行评价在相关性判断完整的情况下,bpref具有与MAP相一致的评价结果在测试集相关性判断不完全的情况下,bpref依然具有很好的应用这个评价指标主要关心不相关文档在相关文档r之前出现的次数n。具体公式为:,R为相关文档的数目,r是一个相关文档,n是在相关文档r之前的非相关文档数,检索结果保证至少有10篇文档,Bpref举例,下面举个例子来说明bpref的性能,假设检索结果集S为:S=D1,D2,D3*,D4*,D5,D6,D7,D8,D9,D10 其中D2、D5 和D7是相关文档,D3 和D4为未经判断的文档。求Bpref,R=3;bp
14、ref=1/3(1-1/3)+(1-1/3)+(1-2/3),一些特殊的评价指标,解决上面三种问题,出现了三种特殊的评价方法.Bpref指标N(D)CG方法单一相关文档检索的评价,N(D)CG(Normalized(Discounted)Cumulated Gain,提出背景一方面,针对一个查询,检索系统会向用户返回大量的检索结果另一方面,不同的文档对用户的意义是不同的,即不同的文档具有不同的相关度一般情况下,文档在返回结果中的排序越靠后,则意味着对用户的价值就越小.因此,检索系统应该给予相关性高的文档更多的关注,并在返回结果中对其优先排序,使用户能方便地得到期望的文档NDCG就是一种新的对高
15、相关性文档检索能力的评价方法,N(D)CG(Normalized(Discounted)Cumulated Gain),在NDCG方法考察的检索环境下,对应一个查询,每个文档都有一个相关度权值。NDCG方法在实际计算的过程中分为三个步骤,分别为CG、DCG以及NDCG;举例如下:假设相关度权值定为0、1、2、3(0为完全不相关,3为完全相关)假设一个查询的返回结果排序G为:G=D1,D2,D3,D4,D5,D6,D7,D8,D9,D10,N(D)CG(Normalized(Discounted)Cumulated Gain,第一步骤:CG在文档集G中,若D1,D3,D9的相关度权值为3,D2,
16、D7,D8的相关度权值为2,D6的相关度权值为1,D4,D5,D10,的相关度权值为0,则可将G改写为一个相关度权值排序G,G中的数值代表在G中相应文档的相关度权值G=3,2,3,0,0,1,2,2,3,0排序列表中第i个累积权值CG由G按如下规则来计算:,G=D1,D2,D3,D4,D5,D6,D7,D8,D9,D10,CG=3,5,8,8,8,9,11,13,16,16,N(D)CG(Normalized(Discounted)Cumulated Gain,第二步骤:DCG在相关文档排序列表中,位置相对靠后的文档对用户的价值相对较小。基于上面信息,在DCG值的计算中引入一个与排序位置相关的
17、折扣因素。在计算累积权值时相关文档的实际权值会随着排序号的增加而降低。,CG=3,5,8,8,8,9,11,13,16,16,折扣因子b代表了对用户在查看检索结果时耐心的一个模拟,b=2时,DCG=?,DCG=3,5,6.89,6.89,6.89,7.28,7.99,8.66,9.61,9.61,N(D)CG(Normalized(Discounted)Cumulated Gain,第三步骤:NDCG在用CG和DCG方法来衡量一个信息检索系统的时候,还需要与最理想的结果做一个对比。最理想的检索结果应该是相关度最高的文档排在前面,接下来排相关度次高的相关文档,依此类推。NDCG方法用理想结果下的
18、CGI和DCGI值去归一化当前的CG和DCG值。令V=v1,v2,v3,vk为信息检索系统返回的结果序列,I=i1,i2,i3,ik表示理想结果,则归一化的结果为,N(D)CG(Normalized(Discounted)Cumulated Gain,第三步骤:NDCG-举例上例中,返回结果的最理想情况I为I=3,3,3,2,2,2,1,0,0,0CGI=3,6,9,11,13,15,16,16,16,16DCGI=3,6,7.89,8.89,9.75,10.52,10.88,10.88,10.88,10.88,CG=3,5,8,8,8,9,11,13,16,16,DCG=3,5,6.89,6
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第三 信息 检索 评价 教材 课件

链接地址:https://www.31ppt.com/p-4093748.html