《网上信息搜索》PPT课件.ppt
《《网上信息搜索》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《网上信息搜索》PPT课件.ppt(75页珍藏版)》请在三一办公上搜索。
1、多媒体文化基础网上信息搜索,清华大学 计算机科学与技术系,2023/7/29,多媒体文化基础,2,第9章 网上信息搜索,9.1 信息搜索工具9.2 信息搜索方法9.3 网页评估方法9.4 网页搜索方法9.5 图像搜索方法9.6 影视搜索方法9.7 音乐搜索方法9.8 多媒体搜索引擎,2023/7/29,多媒体文化基础,3,概要,网上信息是网上文件所含内容的描述网上信息(web-based information)网上信息搜索是查找多媒体文件信息的过程文字搜索(text search1)搜索文字文件的信息图像搜索(image search)搜索图像文件的信息声音搜索(audio search)搜
2、索声音文件的信息视像搜索(video search)搜索影视文件的信息信息搜索的必备知识搜索工具有哪些搜索工具的特性搜索信息的方法搜索工具的使用,2023/7/29,多媒体文化基础,4,9.1 信息搜索工具(1),两种类型的搜索信息方法主题搜索(subject search)主题是用简明的术语或短语描述信息资源的标题主题搜索是搜索编辑人员(如图书管理员)赋予信息资源的标题,搜索范围限定到描述信息资源的术语或短语关键字搜索(keyword search)关键字是用于概括信息资源核心内容的字词关键字词可出现在标题、摘要和正文的任何地方关键字搜索是搜索包含关键字的信息资源,2023/7/29,多媒体
3、文化基础,5,9.1 信息搜索工具(2),四种类型的信息搜索工具(information search tool)网页目录主题搜索工具网页目录像书前面的目录,列出每一篇、每一章、每一节的标题和相应的页码网页索引关键字搜索工具网页索引像英文书后面的索引1,列出书中所有关键词和每个关键字所在的所有页码专题数据库基本属于关键字搜索工具网页搜索门户主题搜索和关键字搜索相结合的搜索工具,2023/7/29,多媒体文化基础,6,9.1 信息搜索工具(3),1.网页索引索引(index)是由关键字和关联数据组成的列表,说明信息及其存储位置网页索引(Web index)是万维网上的网页或网站信息的列表如果把万
4、维网看成是一本“超大型的书”,那么网页索引就是这本书后面的“索引”网页索引放在“索引数据库”里网页索引包含“所有”网页的关键字和每个关键字所在的“所有”网页地址和简短说明按照网页索引提供的信息,可找到包含这个关键字的所有网页,2023/7/29,多媒体文化基础,7,9.1 信息搜索工具(4),网页索引用搜索引擎创建 搜索引擎的工作原理搜索引擎(search engine)是由网爬虫、索引器、数据库、查询和网页排名等部件组成的程序,2023/7/29,多媒体文化基础,8,9.1 信息搜索工具(5),搜索网页:使用 网爬虫(crawlers)/网蜘蛛(spiders)不停地在网上搜索网页,并将搜索
5、到网页暂时存放到网页库创建索引:通过索引器(indexer)分析网页、抽出词汇、创建索引,并将索引存入索引数据库,以备用户查询接收查询:当用户查询时,把查询请求告诉查询引擎(query engine),将查询结果返回给用户搜索引擎可分成两种类型 独立搜索引擎(individual search engine),简称为搜索引擎,拥有自己的网页索引数据库,如Google、必应和百度元搜索引擎(meta search engine),没有自己的网页索引数据库,2023/7/29,多媒体文化基础,9,9.1 信息搜索工具(6),网页索引的性能 查全率(recall)搜索引擎返回的匹配文档数量占所有相匹
6、配文档总量的比例。例如,总共有100个相匹配的文档,搜索引擎只返回其中的80个文档,则其查全率是80查准率(precision)搜索引擎列出的文档与查询内容相匹配的程度。列出的匹配文档越多,说明查准率越高。例如,搜索引擎列出80个文档,若其中有20个文档包含搜索字词,则其查准率为25查询速度查询速度的衡量比较困难,2023/7/29,多媒体文化基础,10,9.1 信息搜索工具(7),网页索引的特点网页索引是查找网页的最好工具,尤其是查找包含关键字(keyword)、短语(phrase)和引述(quote)的网页网页索引是用搜索引擎创建的,能较及时地对新创建和更新的网页做索引给用户返回的查询结果
7、中,通常有与查询请求不相关或相关性很小的网页虽然创建网页索引的原理相同,但各个公司开发的搜索引擎的性能不同,包括搜索速度、搜索范围、搜索算法和排名算法,呈现给用户的结果也就不同。虽然差别不是很大,但比较明显,2023/7/29,多媒体文化基础,11,9.1 信息搜索工具(8),2.网页目录(Web directory)网页目录主要是由编辑人员按主题人工创建的网页分类目录,不是用网上机器人自动生成的网页分类目录,也称主题目录(subject directory)编辑人员按照某些准则,对网站进行审核,确定是否要编入到目录,并按主题对网页进行分类,然后输入到数据库,以供用户使用主题目录是网页搜索工具
8、,但不是网页索引工具主题目录是图书馆中早已有之的图书资料管理方法如把万维网看成是 一本超大型图书,网页目录就是这本书前面的目录网页目录的编排和布局则不一定像书目录那样千篇一律,2023/7/29,多媒体文化基础,12,9.1 信息搜索工具(9),网页目录的结构 网页目录通常采用分层结构层次越高的主题,覆盖的网页范围越大层次越低的主题,覆盖的网页范围越小最低层的主题就是具体的网页信息,包括网页名称、说明和网址网页目录在网页上呈现的形式基本上都是二维的有的主题(主目录)在窗口的左侧,列表(子目录)在窗口右侧有的主题(主目录)在窗口上部,列表(子目录)在窗口的下部有的主题放在按钮上,而列表(子目录)
9、在下拉菜单上,2023/7/29,多媒体文化基础,13,9.1 信息搜索工具(10),网页目录示例(2010年2月)(http:/),2023/7/29,多媒体文化基础,14,9.1 信息搜索工具(11),网页目录的特点可更有针对性地快速获取某个主题的概貌需要高水平的编辑人员、选编网页时不抱成见信息质量比较高,与查询请求的相关性比较大网页目录结构很清晰,浏览很方便呈现给用户的网页数目比搜索引擎提供的少浏览网页目录时,需要多次点击连接对象才能找到具体的网页信息网页目录更新周期长,而网页地址变动快,2023/7/29,多媒体文化基础,15,9.1 信息搜索工具(12),3.专题数据库 1.数据库是
10、什么数据库(database)由数据库管理系统(DBMS)创建和管理的数据集合,可快速和准确地搜索和获取所需的信息DBMS是数据库和用户之间的接口软件,用于组织、创建、存储、修改、查询、搜索、分类、备份、格式和打印数据库中的数据,维护数据的安全和数据的完整性数据库中的数据以记录(record)形式组织每一个记录包含若干个域(field),每个域都有自己的名称和数据类型1优点是便于搜索、排序、重新组合或其他操作,2023/7/29,多媒体文化基础,16,9.1 信息搜索工具(13),数据库中的记录组成示例,2023/7/29,多媒体文化基础,17,9.1 信息搜索工具(14),2.专题数据库(s
11、pecialized database)也称专业数据库,垂直门户vortal(vertical portal的简写)针对某个题目收集的资料库由各行各业的专家、教授、研究人员、政府机构、商业团体创建,他们对某个特定题目有专门的知识和深入的研究提供的信息和资料极具权威性专题数据库类型公共数据库(public database):包含公共资料,由政府机构和非营利组织管理和维护,通常出现在Web上私有数据库(proprietary database)/商业数据库(business database):包含公共数据库中没有的专业资料,由公司管理和维护,通常需要账户或授权的IP地址才能登录和使用,2023
12、/7/29,多媒体文化基础,18,9.1 信息搜索工具(15),3.专题数据库示例ScienceDirecthttp:/世界著名的学术期刊出版商荷兰Elsevier公司出版的全文数据库收录1995年以来Elsevier出版的1600多种电子期刊,原文以html和pdf格式存储该数据库涵盖20多个学科,包括数学、物理学、化学、天文学、医学、生物化学、生命科学、计算机科学、环境科学、材料科学、社会科学、工程和技术、能源和动力等 既可搜索又可浏览,打印也很方便,2023/7/29,多媒体文化基础,19,9.1 信息搜索工具(16),Web of Science数据库,Web of Science的用
13、户界面(2010-01-26),2023/7/29,多媒体文化基础,20,9.1 信息搜索工具(17),5.网页搜索门户 网页门户(Web portal)企业创建和维护的按主题分类的网页目录向用户提供的服务包括新闻、天气预报、电子邮件、讨论组、在线购物、娱乐站点和与其他站点的链接门户网站(Web portal(s)site)支持“网页门户”的网站它将各种应用系统、数据资源集成到服务机上国内的门户网站:新浪、网易、搜狐、腾讯QQ、Tom、凤凰网、新华网、阿里巴巴、中华网和中国网络电视台等Web网站1都应属于“门户网站”,有大有小,2023/7/29,多媒体文化基础,21,9.1 信息搜索工具(1
14、8),网页搜索门户(Web search portal)网页门户和网页索引相结合的信息搜索工具,如Google Directory http:/MSNhttp:/,http:/Yahoo!Searchhttp:/,Gigablasthttp:/,2023/7/29,多媒体文化基础,22,9.2 信息搜索方法,成功的信息搜索需要两个方面的努力,一个是提高搜索工具的性能,另一个是提高使用搜索工具的技能在提高搜索工具性能方面,科学技术人员已经做了非常出色的工作,而且还在孜孜不倦地继续努力在提高使用搜索工具的水平方面,除了要理解搜索工具的知识外,还要靠自己在实践中不断地摸索、总结和提高,2023/7/
15、29,多媒体文化基础,23,9.2 信息搜索方法(1),信息搜索过程 信息搜索过程可归纳为五个步骤:充分准备、明智决策、细心构思、用好工具和反复查询,信息搜索的概念,2023/7/29,多媒体文化基础,24,9.2 信息搜索方法(2),1.充分准备:信息描述语句描述语句:用关键字词描述要搜索的信息搜索范围:可添加时间、地点或其他条件,使描述语句更接近你的查询意图 2.明智决策:用什么搜索工具浏览主题概貌宜先用网页目录查找特定信息宜先用网页索引查找专业信息宜先用专题数据库,如中国国家图书馆()北京大学图书馆()清华大学图书馆(),2023/7/29,多媒体文化基础,25,9.2 信息搜索方法(3
16、),3.精心构思:查询语句查询语句是由描述性短语由运算符/操作符/标识符和操作对象组成查询语句是表达查询请求/查询条件的方法如选择网页目录(即主题搜索),无需构思查询语句如选择关键字搜索,则需构思查询语句,2023/7/29,多媒体文化基础,26,9.2 信息搜索方法(4),4.巧用域名:限定搜索范围在只用一二个关键字搜索信息时,返回给用户的信息可能远远多于想要的信息限定搜索范围的选项限定域(limit field),其名称叫“域名(field name)”。常见域名,语言域:限定使用的语言,如中文,英文,日文文件格式域:限定文件类型,如.doc,.pdf,.ppt,.xls时间域:限定日期,
17、如年限,时间段网域:限定网站的域名,如.com,.edu,.gov限定出版类型,如图书,期刊,文章摘要不同搜索工具支持的限定域的数目和类型相差较大,2023/7/29,多媒体文化基础,27,9.2 信息搜索方法(5),5.反复推敲:精练查询结果一次搜索就获得满意的查询结果往往做不到查找信息需要用户不断调整查询策略和查询语句,通过多次查询以改善查询结果返回信息太多可用前面介绍的方法,调整查询请求后再搜索返回信息太少可重新选择搜索术语,如选择与关键字词同义的字词,调整查询请求后再搜索,2023/7/29,多媒体文化基础,28,9.2 信息搜索方法(6),搜索引擎数学(search engine m
18、ath)构造查询语句的数学目的是精炼和控制查询语句,以改进搜索结果主要是布尔逻辑查询语句中的字词用运算符连接,连接方法直接输入:在搜索工具的搜索框中,输入搜索字词的同时输入运算符 使用对话框:在搜索工具的对话框中,让用户选择选项,无需直接输入运算符网页索引工具(如Google、必应和百度)对以上两种方法都支持,但笔者感觉使用Google最方便,效果最好,其次是必应,2023/7/29,多媒体文化基础,29,9.2 信息搜索方法(7),1.使用运算符构造查询语句运算符给多个对象施加运算的符号或字符两种运算符布尔运算符:AND(与)、OR(或)、NOT(非)、NEAR(相近)和ADJ(相邻)。算术
19、运算符:加号(+)和减号(-)大多数搜索引擎都使用,2023/7/29,多媒体文化基础,30,布尔运算符和算术运算符的含义及使用示例,9.2 信息搜索方法(8),2023/7/29,多媒体文化基础,31,9.2 信息搜索方法(9),2.使用引号标识特定短语使用双引号标识特定短语是非常有效的方法【例1】在Google的搜索框中,分别输入带双引号的“少壮不努力老大徒伤悲”和不带双引号的少壮不努力老大徒伤悲,查询结果差别很大【例2】在必应搜索框中,分别输入带英文双引号“multimedia literacy”和不带双引号的multimedia literacy,查询结果差别很大3.使用圆括号构造复杂
20、查询语句当两个搜索字词(如W和X)用运算符连接而又想把W和X当作一组看待时,可用圆括号表示【例】如想搜索包含W不包含X,但同时包含Y的网页,查询语句可为(W-X)+Y。读者可分别在Google、必应和百度的搜索框中键入(猫-老鼠)游戏,比较查询结果,2023/7/29,多媒体文化基础,32,9.2 信息搜索方法(10),4.注意关键字的次序把最重要的关键字放在查询条件前面【例】使用Google分别查询“猫和老鼠”与“老鼠和猫”的网页,将得到不同的查询结果 5.使用通配符构造查询语句在查询语句中可使用通配符。通配符有两个问号(?):表示任何其他单个字符星号(*):表示一个或多个字符【例1】查询扫
21、除?盲将返回包含“扫除科盲”和“扫除网盲”的网页信息【例2】查询扫除*盲将返回包含“扫除科盲”、“扫除电脑盲”和“扫除理财盲”的网页信息,2023/7/29,多媒体文化基础,33,9.2 信息搜索方法(11),信息搜索概念图 概念(concept)从事物或事件中抽象出来加以概括得到的一般性想法概念图(concept map)用图形方法表达想法的方法,它包含一个核心思想、若干个相关想法以及它们之间的关系信息搜索概念图(concept map for information searching)用图形方式表达搜索信息的方法,在查找信息过程中,可帮助我们做决策和构思查询语句注意事项不要在第一次查询时
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网上信息搜索 网上 信息 搜索 PPT 课件
链接地址:https://www.31ppt.com/p-5569105.html