网络技术(光纤网络协议等)的发展课件.ppt
《网络技术(光纤网络协议等)的发展课件.ppt》由会员分享,可在线阅读,更多相关《网络技术(光纤网络协议等)的发展课件.ppt(101页珍藏版)》请在三一办公上搜索。
1、1,Metadata,Instructor:E-mail:,Semantic Web & Ontology,谢谢观赏,2019-9-13,2,Outline,Why MetadataWhats MetadataWhats XMLQuestion,谢谢观赏,2019-9-13,3,URI, HTML, HTTP,Static,WWW,500 million usermore than 3 billion pages,2.1 Current Web,谢谢观赏,2019-9-13,4,快速发展的因素,电脑技术的快速发展电脑的普及电脑知识的普及网络技术(光纤、网络协议等)的发展 带宽的提高校园网、电信
2、的ISDL用户对资源的需求 知识的需求娱乐信息,谢谢观赏,2019-9-13,5,引发一系列问题(1),信息发布 网络IP地址的分配问题产生虚拟IP网络、IPV6等方法来解决 信息获取 如何从这些海量信息中查到自己感兴趣的资源如何获取这些信息产生搜索引擎、信息挖掘技术 信息存储 如何存储海量信息 产生磁盘阵列、TB级存储器,谢谢观赏,2019-9-13,6,引发一系列问题(2),信息传递 采用何种工具传递网络信息 产生FTP、BT等软件 信息使用 如何合法、正确使用网络信息 产生网络信息监管的职能部门和法规产生针对用户(如儿童)权限等的信息过滤技术,谢谢观赏,2019-9-13,7,Web信息
3、结构,大部分采用HTML(HyperText Markup Language)也采用XML(eXtensible Markup Language) HTML标记语言是在普通文本的基础上加上特殊标记(Tag)目的是运用标记使文件达到预期的显示效果方法是用“”扩住标记,起始标记用表示,终止标记用表示,谢谢观赏,2019-9-13,8,HTML网页片断(1), 一个容器标记,用以指明这是表格,其它表格标记只能在这个标记范围内使用 表示表格的行。表示表格行中的单元。,谢谢观赏,2019-9-13,9,HTML网页片断(2), 用来划分框格,每个框格由一个标记来表示 这里把页面分成上下两部分,上面显示a
4、.html,下面显示b.html,谢谢观赏,2019-9-13,10,2.2 搜索引擎,从1995年开始逐渐发展 产生原因 用户要在如此浩瀚的信息海洋里寻找信息,必然会“大海捞针”无功而返。搜索引擎正是为了解决这个迷航问题而出现的技术 目的 以一定的策略在互联网中搜集、发现信息 对信息进行理解、提取、组织和处理 为用户提供检索服务,谢谢观赏,2019-9-13,11,现有的搜索引擎,谢谢观赏,2019-9-13,12,Google 简介,斯坦福大学的博士生 Larry Page 和 Sergey Brin在 1998 年创立 搜索时间通常不到半秒 每天需要提供 1.5 亿次查询服务 Googl
5、e 的技术 代理搜索技术 高级 PageRank(网页级别)技术 Google 释义 由英文单词“googol”变化而来 表示 1 后边带有 100 个零的数字 代表Google想征服网上无穷无尽资料的雄心 PageRank利用巨大的网络链接结构 网页 A 链接到网页 B 时, 就认为“网页 A 投了网页 B 一票避免任何人为感情因素,谢谢观赏,2019-9-13,13,百度搜索引擎简介,李彦宏先生及徐勇先生 1999年底,百度成立于美国硅谷 2000年百度公司回国发展 百度的起名 辛弃疾的青玉案中 “众里寻她千百度” 象征着百度对中文信息检索技术执著的追求 竞价排名由用户为自己的网页出资购买
6、关键字排名 按点击计费的一种服务 搜索结果的顺序将根据竞价的多少由高到低排列,谢谢观赏,2019-9-13,14,雅虎搜索引擎简介,大卫费罗(David Filo) 和杨致远(Jerry Yang) 美国斯坦福大学电机工程系的博士生 1994年4月建立了网络指南信息库 分类目录 站点目录分为14个大类,每一个大类下面又分若干子类 连接速度快,包含范围广 雅虎中国网站提供简单易用、手工分类的简体中文网站目录,谢谢观赏,2019-9-13,15,性能指标,召回率(Recall)检索出的相关文档数和文档库中所有的相关文档数的比率衡量的是搜索引擎的查全率 精度(Pricision) 检索出的相关文档数
7、与检索出的文档总数的比率 衡量的是搜索引擎的查准率 影响性能的因素 文档和查询的表示方法评价文档用户查询相关性的匹配策略查询结果的排序方法用户进行相关度反馈的机制,谢谢观赏,2019-9-13,16,搜索引擎的类别,分类依据 信息搜集方法 服务提供方式 类别 目录式搜索引擎 机器人搜索引擎 元搜索引擎,谢谢观赏,2019-9-13,17,目录式搜索引擎,搜集信息 人工方式或半自动方式 信息处理 由编辑员查看信息之后,人工形成信息摘要并将信息置于事先确定的分类框架中 服务方式提供目录浏览服务 提供直接检索服务 优点讨论缺点讨论代表 YAHOO、LookSmart、Dmoz等,谢谢观赏,2019-
8、9-13,18,机器人搜索引擎,搜集信息 蜘蛛(Spider)的机器人程序 以某种策略自动地在互联网中搜集信息 信息处理建立索引库 服务方式 面向网页的全文检索服务 优点 讨论缺点讨论代表 Google 、天网等,谢谢观赏,2019-9-13,19,元搜索引擎,技术方法将用户的查询请求同时向多个搜索引擎递交 将返回的结果进行重复排除、重新排序等处理 作为自己的结果返回给用户 服务方式面向网页的全文检索 本质特点没有自己的数据 优点讨论缺点讨论代表WebCrawler、InfoMarket等,谢谢观赏,2019-9-13,20,搜索引擎系统结构,搜索器索引器检索器用户接口,谢谢观赏,2019-9
9、-13,21,搜索器,功能在互联网中漫游,发现和搜集信息 尽可能多、尽可能快地搜集各种类型的新信息 定期更新已经搜集过的旧信息 搜集策略从一个起始URL集合开始,以宽度优先、深度优先或启发式方式循环地在互联网中发现信息 将Web空间按照域名、IP地址或国家域名划分,每个搜索器负责一个子空间的穷尽搜索 信息类型 HTML、XML、FTP文件、字处理文档、多媒体信息 其它支撑技术分布式、并行计算技术,谢谢观赏,2019-9-13,22,索引器,功能理解搜索器所搜索的信息从中抽取出索引项,用于表示文档以及生成文档库的索引表 索引项 客观索引项内容索引项 支撑技术统计法、信息论法和概率法(计算索引项的
10、权值 ) 倒排表(Inversion List),由索引项反过来查找相应的文档 可以使用集中式索引算法或分布式索引算法,谢谢观赏,2019-9-13,23,检索器,方法根据用户的查询在索引库中快速检出文档进行文档与查询的相关度评价对将要输出的结果进行排序并实现某种用户相关性反馈机制 如何实现多点的海量检索(讨论)集中式海量检索分布式海量检索,谢谢观赏,2019-9-13,24,用户接口,作用输入用户查询显示查询结果提供用户相关性反馈机制 目的方便用户使用搜索引擎高效率、多方式地从搜索引擎中得到有效、及时的信息简单接口只提供用户输入查询串的文本框 复杂接口 让用户对查询进行限制,如逻辑运算 、时
11、间、长度等例子Google提供多种用户使用界面,谢谢观赏,2019-9-13,25,搜索引擎的研究动向,提高信息查询结果的精度,提高检索的有效性基于智能代理的信息过滤和个性化服务采用分布式体系结构提高系统规模和性能交叉语言检索的研究和开发 国际会议 美国Infornotics公司主办的搜索引擎国际会议从1996年开始,每年举行一次IEEE主办的国际万维网会议、人机交互会议,谢谢观赏,2019-9-13,26,当前搜索引擎的不足之处 (1),1) 语义分析不足,缺少较好的中文分词技术支持 用google搜索引擎,关键词“和服”,在第3页有如下结果:外交部公布新版中国境外领事保护和服务指南 .外交
12、部公布新版中国境外领事保护和服务指南(附全文), 中国外交部通过其官方网站公布了中国境外领事保护和服务指南(2003年版),以帮助中国公民了解中国驻外使、领馆的领事保护和服务范围。 .,谢谢观赏,2019-9-13,27,当前搜索引擎的不足之处 (2),2)智能化不足 都需要用户提供检索的关键词、关键词组,但还不能直接检索语句 要直接检索语句,需要更强的自然语言处理技术支持,谢谢观赏,2019-9-13,28,2.3 Web信息提取,从提取规则角度,网页信息提取方法可分为两大类基于标识规则的方法应用网页文档的标识来提取网页信息 基于内容规则的方法应用自然语言处理技术 从关键词匹配到有层次的句法
13、分析,谢谢观赏,2019-9-13,29,基于标识规则的方法,Harvest信息提取系统 利用手工编写的wrappers分析一批固定的Web资源 只能处理Web文档而忽略了Internet上提供的服务 依赖于提前定义的文档类型,对新文档结构则无能为力 斯坦福大学提出的对象交换模型(OEM)方法 一个简单的、自描述、嵌套的对象模型 一个带标记的有向图 这个模型依赖于具体问题的分析DSE(Data-rich section extraction)算法 用树型结构表示HTML网页的布局 实质是针对具体问题建立文档对象模型,提取网页信息,谢谢观赏,2019-9-13,30,基于内容规则的方法,Arte
14、quakt系统 建立在自然语言处理技术和实体论基础上通过句法和语义分析来确定实体及关系根据用户要求,产生描述格式,从而描述出艺术家传记DL(description logics)方法 建立在实体论基础上用DL方法从词汇关系、概念关系和上下文关系,抽取概念及其依赖关系树 Diffusion webIE系统 依照实例模型(又称IE规则)构出的框架依据关键词位置和值的特征的定位规则依据词类型和取值范围的表格提取规则句法分析规则,谢谢观赏,2019-9-13,31,两种方法比较,基于标识的方法不具有自适应能力准确定位信息段的起止位置,基于内容的方法不易准确定位信息段的起止位置有一定自适应能力依赖较强的
15、自然语言处理技术,谢谢观赏,2019-9-13,32,信息提取的研究趋势,融合两种规则一些网页信息提取方法把这两种规则融合在一起以求充分发挥着两种提取规则的特点来提高提取效率 语义网 改变现有网页信息结构XML语言把信息结构、内容与数据的表现形式进行分离RDF把信息转换成元数据 本体论把信息的结构与内容相分离信息具有计算机可理解的语义,谢谢观赏,2019-9-13,33,2.4 元数据,定义 data about data (关于数据的数据) 是对web信息的一种描述方式是机器可理解的信息 基本作用 管理数据,从而实现查询、阅读、交换和共享组成 一系列元素或属性例子:图书馆目录如:作者,书名,
16、出版日期,主题,分类排架号等元素,谢谢观赏,2019-9-13,34,元数据与资源之间的关联方式,独立方式元素可包含在独立于该项资源的记录中 例如:图书馆目录 嵌入方式数据可嵌在资源本身中 例如:印在书内封上的在版编目(CIP)数据例如:电子文本的标题 关联方式的确定不预先规定 由具体情况决定,谢谢观赏,2019-9-13,35,元数据的主要作用,用来组织和管理网络信息,并挖掘信息资源 准确地识别、定位和访问信息 (举例讨论)帮助用户查询所需信息 可按照不同的地理区间、指定的语言以及具体的时间段来查找信息资源 (举例讨论)组织和维护一个机构对数据的投资 可方便创建网页(举例讨论)用来建立信息的
17、数据目录和数据交换中心 可以共享信息、维护数据(举例讨论)提供数据转换方面的信息通过元数据,用户可以接受并理解信息 (举例讨论),谢谢观赏,2019-9-13,36,如何获取元数据,元数据的编写标准 目的为实现领域中的数据信息交换和共享,为研究和生产服务 不同领域会根据不同的需求定义一个标准或几个标准 如MARC(Machine-ReadabIe Cataloging,机器可读编目)和Dublin Core等 实现的技术手段 XMLRDF,谢谢观赏,2019-9-13,37,XML技术,特点从数据与文档的底层实现格式化,保证了从里到外、从处理到交换的一致性 实现自动抽取采用XML解析器开发的工
18、具,可以从网上Web服务器的HTML、XML和数据库中自动抽取并索引元数据,谢谢观赏,2019-9-13,38,RDF 技术,元数据的互操作性要求在由不同的组织制定与管理且技术规范不尽相同的元数据环境下,能够作到对用户保持一致性的服务 可同时携带多种元数据来往于互联网的架构 RDF特点提供能对结构化元数据进行编码,交换及再利用的体系框架 可使不同的用户或团体在这一框架下定义他们自己的元数据元素提供了各种不同的元数据体系之间的互操作性,谢谢观赏,2019-9-13,39,元数据映射(Metadata Mapping),原因存在元数据的互操作性问题 定义利用特定转换程序对不同元数据标准进行转换 方
19、法一 (元数据标准的特定转化程序)Dublin Core与USMARC Dublin Core与EA 方法二(中介元数据格式)如UNIverse项目利用GRS格式进行MARC格式和其他记录格式的转换 比较方法一转换准确、转换效率较高,谢谢观赏,2019-9-13,40,元数据类型,内容元数据 描述对象内容的信息 如大字标题、主题、引导段落、图像、影片 管理元数据 描述和电子文档相关的信息 如作者、创建者、创建日期等 负载信息元数据 提供电子文档的物理属性 如文本中表示强调的粗体标识,电子邮件系统中邮件的大小标识 参考信息元数据源自电子文档中的超链接 扩展到表达任何万维网信息、文档和资源的参考链
20、接 包括环境信息,以及文档的结构信息 如经常出现电子文档中指向各章节的链接,谢谢观赏,2019-9-13,41,元数据表示语言,标记语言 标准通用标记语言SGML超文本标记语言HTML可扩展标记语言XML虚拟现实模型语言VRML无线标记语言WML元数据标准 Dublin Core HL7(描述医学网络资源的元数据 )教育资源元数据 机读目录(MARC),谢谢观赏,2019-9-13,42,SGML,标准通用标记语言是一种描述语言的语言,定义了以电子形式表示文本的方法 特点 正式的,能允许验证文档的正确性 结构化的,能够处理复杂的文档 可扩充的,能够支持大型信息存储的管理 组成部分SGML声明,
21、设定基本情况 定义DTD文档类型,设定标记语言结构的语法 描述用于标记的语义规格说明,做出了DTD表达的语法限制 描述用于标记的语义规格说明,做出了DTD表达的语法限制应用实例HTML、XML,谢谢观赏,2019-9-13,43,其它标记语言,虚拟现实模型语言VRML用于对3维虚拟场景进行建模的描述性语言 HTML定义2维,而VRML定义3维 无线标记语言 WML 类似于HTML的测览语言提供测览支持、数据输入、超级链接、文本和图像表现以及表格交互 应用于“无线应用软件”环境下的网页语言 为WAP(Wireless Application Protocol)协议所包括的一种标记协议语言,谢谢观
22、赏,2019-9-13,44,Dublin Core元数据标准,背景搜索引擎的查准率比较低 创建者OCLC(Online Computer Library Center,Inc.,美国在线计算机图书馆中心) 目的从用户的角度出发创建了一种新的网络资源描述标准或格式 第一次国际研讨会 1995年3月,在都柏林(Dublin)召开 探讨如何建立一套描述网络上电子文件特征、提高信息检索效果的方法 开始启动电子图书馆对象元数据标准的研究项目,谢谢观赏,2019-9-13,45,DC元数据集,包括15个核心元素 按照信息的类型和范围分为三个子集数据资源内容 数据知识产权 数据实体 特点简练、易于理解、可
23、扩展能与其他元数据形式兼容被称为一个良好的网络信息资源描述元数据集,谢谢观赏,2019-9-13,46,数据资源内容子集,谢谢观赏,2019-9-13,47,数据知识产权子集,谢谢观赏,2019-9-13,48,数据实体(形式)子集,谢谢观赏,2019-9-13,49,DCMI,DCMI(Dublin Core Metadata Initiative) 都柏林核元数据研究行动已经成为一个国际性的电子数据对象标准研究组织 有来自英国、澳大利亚、芬兰、加拿大、美国等国的具有多种不同专业背景的个人和团体参加 从事元数据标准、实践指南、支撑技术及相关政策的研究与开发 成立了一个教育工作组DCE 从数字
24、图书馆元数据标准中筛选出上述DC中的15个核心元素作为学习对象数据要素,谢谢观赏,2019-9-13,50,HL7(Health Level 7),开发机构 1987年,由美国国家标准局(ANSI)授权的HL7(Health Level Seven Inc)开发领域专门用于医疗卫生机构及医用仪器、设备数据信息传输的标准支持的国家在1994年HL7已纳入美国ANSI国家标准 澳洲、加拿大、德国、以色列、日本、纽西兰、荷兰及英国 用途适用于医院内部的信息交换适用于医院与医院之间,医院与保险公司、医院与上级主管部门之间的大量信息交换,谢谢观赏,2019-9-13,51,HL7技术,参考了OSI的通讯
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网络技术 光纤 网络 协议 发展 课件
链接地址:https://www.31ppt.com/p-1522535.html