信息组织第5章XML语言.ppt
《信息组织第5章XML语言.ppt》由会员分享,可在线阅读,更多相关《信息组织第5章XML语言.ppt(104页珍藏版)》请在三一办公上搜索。
1、1,第5章,XML,2,置标语言,“markup language”给文本添加标记的语言标准通用置标语言 SGML超文本置标语言 HTML可扩展的置标语言 XML,3,SGML,Standardized Generalized Markup Language SO/ANSI/ECMA的一个标准,一种用来注释文本文档,提供文档片断的类型信息的规范。标准通用置标语言是一种通用的文档结构描述置标语言,为语法置标提供了异常强大的工具,同时具有极好的扩展性,因此在数据分类和索引中非常有用。但SGML复杂度太高,不适合网络的日常应用,加上开发成本高、不被主流浏览器所支持等原因,使得SGML在Web上的推广
2、受到阻碍。HTML和XML都是SGML的子集。,4,HTML,HTML(超文本置标语言,HyperText Markup Language)是为网页创建和其它可在网页浏览器中看到的信息设计的一种置标语言。HTML被用来结构化信息例如标题、段落和列表等等,也可用来在一定程度上描述文档的外观和语义。由蒂姆伯纳斯李给出原始定义,由IETF用简化的SGML(标准通用置标语言)语法进行进一步发展的HTML后来成为国际标准,由万维网联盟(W3C)维护。,5,HTML,HTML是Hypertext Marked Language的英文缩写,即超文本标记语言,是一种用来制作超文本文档的简单标记语言(就是网页制
3、作的最基本的语言标记语言).HTML语言是一种标记语言,它不需要编辑,可以直接由浏览器执行.在标准网页设计中HTML负责填充网页的内容.,6,HTML,HTML文件也可以说是一个文本文件,它包含了一些HTML元素,标签等.HTML文件必须使用html或htm为文件名后缀.HTML编写的超文本文档(文件)称为HTML文档(网页),它能独立于各种操作系统平台,如UNIX,WINDOWS等,并且可以通知浏览器显示什么.自1990年以来HTML就一直被用作互联网的信息表示语言,用于描述网页的格式设计和它与互联网上其它网页的连结信息.,7,HTML,HTML语言描述的文件(网页),需要通过浏览器显示出效
4、果,如HTML文件也可以说是一个文本文件,它包含了一些HTML元素,标签等.HTML文件必须使用html或htm为文件名后缀.HTML编写的超文本文档(文件)称为HTML文档(网页),它能独立于各种操作系统平台,如UNIX,WINDOWS等,并且可以通知浏览器显示什么.自1990年以来HTML就一直被用作互联网的信息表示语言,用于描述网页的格式设计和它与互联网上其它网页的连结信息.,8,HTML,HTML语言描述的文件(网页),需要通过浏览器显示出效果,如FireFox,IE.HTML是大小写不敏感的,HTML与html是一样的.,9,HTML,包含HTML内容的文件最常用的扩展名是.html
5、,但是像DOS这样的旧操作系统限制扩展名为最多3个字符,所以.htm扩展名也被使用。虽然现在使用的比较少一些了,但是.htm扩展名仍旧普遍被支持。编者可以用任何文本编辑器或所见即所得的HTML编辑器来编辑HTML文件。,10,HTML,早期的HTML语法被定义成较松散的规则以有助于不熟悉网络出版的人采用。网页浏览器接受了这个现实,并且可以显示语法不严格的网页。随着时间的流逝,官方标准渐渐趋于严格的语法,但是浏览器继续显示一些远称不上合乎标注准的HTML。使用XML的严格规则的XHTML(可扩展超文本置标语言)是W3C计划中的HTML的接替者。虽然很多人认为它已经成为当前的HTML标准,但是它实
6、际上是一个独立的、和HTML平行发展的标准。W3C目前的建议是使用XHTML 1.1、XHTML 1.0或者HTML 4.01进行网络出版。,11,HTML,标准的版本历史 超文本置标语言(第一版)在1993年6月发为互联网工程工作小组(IETF)工作草案发布(并非标准).HTML 2.01995年11月作为RFC 1866发布,在RFC 2854于2000年6月发布之后被宣布已经过时 HTML 3.21996年1月14日,W3C推荐标准 HTML 4.01997年12月18日,W3C推荐标准,12,HTML,HTML 4.01(微小改进)1999年12月24日,W3C推荐标准 ISO/IEC
7、 15445:2000(“ISO HTML”)2000年5月15日发布,基于严格的HTML 4.01语法,是国际标准化组织和国际电工委员会的标准 XHTML 1.0发布于2000年1月26日,是W3C推荐标准,后来经过修订于2002年8月1日重新发布。XHTML 1.1,于2001年5月31日发布(XHTML 2.0,W3C工作草案),13,HTML,HTML没有1.0版本是因为当时有很多不同的版本。有些人认为蒂姆伯纳斯李的版本应该算初版,这个版本没有IMG元素。当时被称为HTML+的后续版的开发工作于1993年开始,最初是被设计成为“HTML的一个超集”。第一个正式规范在为了和当时的各种HT
8、ML标准区分开来,使用了2.0作为其版本号。HTML+的发展继续下去,但是它从未成为标准。,14,HTML,HTML3.0规范是由当时刚成立的W3C于1995年3月提出,提供了很多新的特性,例如表格、文字绕排和复杂数学元素的显示。虽然它是被设计用来兼容2.0版本的,但是实现这个标准的工作在当时过于复杂,在草案于1995年9月过期时,标准开发也因为缺乏浏览器支持而中止了。3.1版从未被正式提出,而下一个被提出的版本是开发代号为Wilbur的HTML 3.2,去掉了大部分3.0中的新特性,但是加入了很多特定浏览器,例如Netscape和Mosaic的元素和属性。HTML对数学公式的支持最后成为另外
9、一个标准MathML。,15,HTML,HTML 4.0同样也加入了很多特定浏览器的元素和属性,但是同时也开始“清理”这个标准,把一些元素和属性标记为过时的,建议不再使用它们。HTML的未来和CSS结合会更好。,16,HTML,标记元素类型 html元素 标记HTML内容的开始和结束。head元素 标记HTML文件头,包含不在正文中显示的关键字、标题、脚本等等。title元素 标记HTML文件的标题。body元素 标记HTML文件正文的开始和结束。,17,HTML,呈现性标记。描述文字的外观,例如 boldface 将boldface显示为粗体文字。但是为了统一网站的风格,很多网络出版者使用C
10、SS而不是重复使用呈现性标记。对于bold和italic,也有通常更加明确的等价呈现性标记,例如strong emphasis和emphasis。超文本标记。将文档的一部分关联到其他文档。例如 Wikipedia 将会把Wikipedia显示为一个超链接URL。,18,除了HTML内容之外,经常也有人在代码中加入注释:注释不被浏览器解释,仅仅起到说明代码含义或者隐藏部分代码的作用。,19,XML产生的背景,XML同HTML一样,都来自Standard Generalized Markup Language,即标准通用标记语言,简称SGML。早在Web未发明之前,SGML就早已存在。正如它的名称
11、所言,SGML是一种用标记来描述文档资料的通用语言,它包含了一系列的文档类型定义(简称DTD),DTD 中定义了标记的含义,因而 SGML 的语法是可以扩展的。SGML十分庞大,既不容易学,又不容易使用,在计算机上实现也十分困难。鉴于这些因素,Web的发明者-欧洲核子物理研究中心的研究人员根据当时(1989年)计算机技术的能力,提出了HTML语言。,20,HTML只使用SGML中很小一部分标记,例如HTML 3.2定义了70种标记。为了便于在计算机上实现,HTML规定的标记是固定的,即HTML语法是不可扩展的,它不需包含DTD。HTML这种固定的语法使它易学易用,在计算机上开发 HTML的浏览
12、器也十分容易。正是由于HTML的简单性,使 Web 技术从计算机界走向全社会,走向千家万户,Web的发展如日中天。,21,XML产生的背景,近年来,随着 Web的应用越来越广泛和深入,人们渐渐觉得HTML不够用了,HTML过于简单的语法严重地阻碍了用它来表现复杂的形式。尽管HTML推出了一个又一个新版本,已经有了脚本、表格、帧等表达功能,但始终满足不了不断增长的需求。另一方面,这几年来计算机技术的发展也十分迅速,已经可以实现比当初发明创造HTML时复杂得多的Web浏览器,所以开发一种新的Web页面语言既是必要的,也是可能的。,22,有人建议直接使用SGML 作为Web语言,这固然能解决HTML
13、遇到的困难。但是SGML太庞大了,用户学习和使用不方便尚且不说,要全面实现SGML的浏览器就非常困难,于是自然会想到仅使用SGML的子集,使新的语言既方便使用又实现容易。正是在这种形势下,Web标准化组织W3C建议使用一种精简的SGML版本-XML应运而生了。,23,HTML的局限性缺乏语法检查缺乏结构对内容不敏感不是面向对象的缺乏健壮的链接机制不可重用不可扩展,24,XML的定义,XML是一个精简的SGML,它将SGML的丰富功能与HTML的易用性结合到Web的应用中。XML保留了SGML的可扩展功能,这使XML从根本上有别于HTML。XML要比HTML强大得多,它不再是固定的标记,而是允许
14、定义数量不限的标记来描述文档中的资料,允许嵌套的信息结构。HTML只是Web显示数据的通用方法,而XML提供了一个直接处理 Web 数据的通用方法。HTML着重描述Web页面的显示格式,而XML着重描述的是Web页面的内容。,25,26,XML的定义,XML并不是HTML的替代产品。XML不是HTML的升级,它只是HTML的补充,为HTML扩展更多功能。我们仍将在较长的一段时间里继续使用HTML。(但值得注意的是HTML的升级版本XHTML的确正在向适应XML靠拢。),27,XML的定义,XML来源于SGML,一种比HTML更早的标志语言标准。SGML全称是“Standard Generali
15、zed Markup Language”(通用标识语言标准)。看名称就知道:它是标志语言的标准,也就是说所有标志语言都是依照SGML制定的,当然包括HTML。SGML的覆盖面很广,凡是有一定格式的文件都属于SGML,比如报告,乐谱等等,HTML是SGML在网络上最常见的文件格式。而XML就是SGML的简化版,只不过省略了其中复杂和不常用的部分。和SGML一样,XML也可以应用在金融,科研等各个领域。,28,XML的定义,XML保留了SGML的一些特点,并克服了HTML的局限性。主要特点是:XML可用于现有的Web协议和机制。XML支持Web的各种不同的应用,并使用了一种类属的方法使其具有可扩展
16、性。HTML则不支持,它需要借助使用用于链接HTML和应用的脚本语言才支持Web的各种不同的应用。XML与SGML兼容,所以大多数SGML应用可以向XML转化。XML文档易于创建。,29,XML的定义,XML文档内容和结构清晰易懂,所以即使对非专业人员来说,也易于阅读和使用。XML的设计严谨,所以XML中标记的信息可以很容易地被计算机程序所处理。XML标准定义精炼,这就保证了其下载和处理的速度。,30,XML与HTML,有了HTML,为什么还需要用XML?因为现在网络应用越来越广泛,仅仅靠HTML单一文件类型来处理千变万化的文档和数据已经力不丛心,而且HTML本身语法十分不严密,严重影响网络信
17、息传送和共享。人们早已经开始探讨用什么方法来满足网络上各种应用的需要。使用SGML是可以的,但SGML太庞大,编程复杂,于是最终选择了减肥的SGML-XML作为下一代web运用的数据传输和交互的工具。,31,XML和HTML的区别,XML和HTML都来自于SGML,它们都含有标记,有着相似的语法,HTML和XML的最大区别在于:HTML是一个定型的标记语言,它用固有的标记来描述,显示网页内容。比如标记可同时表示20磅的Helvetica字体的粗体、第一级标题和页面标题。相对的,XML则没有固定的标记,XML不能描述网页具体的外观,内容,它只是描述内容的数据形式和结构。这是一个质的区别:网页将数
18、据和显示混在一起,而XML则将数据和显示分开来。正是这种区别使得XML在网络应用和信息共享上方便,高效,可扩展。,32,XML与HTML,例如,在HTML中,一首歌可能是用定义标题、定义数据、无序的列表和列表项来描述的。但是事实上这些项目没有一件是与音乐有关的。用HTML定义的歌曲可能如下:Hot Cop by Jacques Morali Henri Belolo and Victor WillisProducer:Jacques MoraliPublisher:PolyGram RecordsLength:6:20Written:978Artist:Village People,33,XM
19、L与HTML,而在XML中,同样的数据可能标记为:Hot Cop Jacques Morali Henri Belolo Victor Willis Jacques Morali PolyGram Records 6:20 978 Village People 在这个清单中没有使用通用的标记如和,而是使用了具有意义的标记,如、和等。这种用法具有许多优点,包括源码易于被人阅读,使人能够看出作者的含义。,34,更复杂的XML实例:陈伯钧陈国懋523173918.jpg1910年11月26日1974年2月6日四川省达县河市乡北京高等军事学院院长上将1955年1955年一级解放勋章陈 伯 钧(1910
20、-1974)陈伯钧,原名陈国懋,字少达。中国人民解放军高级将领。1955年被授予上将军衔,荣获一级八一勋章、一级独立自由勋章、一级解放勋章。.,35,XML与HTML,XML标记还使自动机器人易于找出文档中的所有歌曲。在HTML中,机器人只能告诉我们这个元素是dt。机器人不能决定dt到底代表一首歌的题目还是定义,抑或只是一些设计者喜爱的缩进文本格式。事实上,单一文档中可以很好地包括带有三种意义的各种dt元素。可以选择XML的元素名称,以便使其在附加的上下文中具有额外的意义。例如,元素名称可以是数据库的域名。XML比HTML更为灵活而且适用于各种应用,因为有限数目的标记不必用于许多不同的目的。,
21、36,XML的严格格式,吸取HTML松散格式带来的经验教训,XML一开始就坚持实行良好的格式。我们先看HTML的一些语句,这些语句在HTML中随处可见:1.sample2.sample3.sample4.sample在XML文档中,上述几种语句的语法都是错误的。因为:1.所有的标记都必须要有一个相应的结束标记;2.所有的XML标记都必须合理嵌套;3.所有XML标记都区分大小写;4.所有标记的属性必须用括起来;,37,XML的严格格式,1.sample2.sample3.sample4.sample另外,XML标记必须遵循下面的命名规则:1.名字中可以包含字母、数字以及其它字母;2.名字不能以数
22、字或_(下划线)开头;3.名字不能以字母 xml(或 XML 或 XML.)开头;4.名字中不能包含空格。,38,XML的严格格式,XML Quick Start ajie 20010115,39,XML的严格格式,1.这段代码仅仅是代码,让你初步感性认识一下XML,并不能实现什么具体应用;2.其中类似,的语句就是自己创建的标记(tags),它们和HTML标记不一样,例如这里的是文章标题的意思,HTML里的是页面标题。,40,XML的特点,XML从诞生之日起,就显示了其强大的生命力。它吸收了HTML简易性的优点,克服了其局限性,开拓了新领域。它具备许多特点。,41,XML的特点,使用XML有什
23、么好处?XML使得在网络上使用SGML语言更加简单和直接:简化了定义文件类型的过程,简化了编程和处理SGML文件的过程,简化了在Web上的传送和共享。1.XML可以广泛的运用于web的任何地方;2.XML可以满足网络应用的需求;3.使用XML将使编程更加简单;4.XML便于学习和创建;5.XML代码将清晰和便于阅读理解;,42,XML的特点,XML Quick Startajie20010115第一行是一个XML声明,表示文档遵循的是XML的1.0 版的规范。第二行定义了文档里面的第一个元素(element),也称为根元素:。这个就类似HTML里的开头标记。注意,这个名称是自己随便定义的。再下
24、面定义了四个子元素:title,author,email,和date。分别说明文章的标题,作者,邮箱和日期。,43,XML的特点,XML轻松学习手册ajie20010115,44,XML的特点,XML(Extensible Markup Language),一种扩展性标识语言。扩展性-使用XML,你可以为你的文档建立自己的标记(tags)。XML的第一个词是“扩展性”,这正是XML强大的功能和弹性的原因。在HTML里,有许多固定的标记,我们必须记住然后使用它们,你不能使用HTML规范里没有的标记。而在XML中,你能建立任何你需要的标记。你可以充分发挥你的想象力,给你的文档起一些好记的标记名称。
25、比如,你的文档里包含一些游戏的攻略,你可以建立一个名为的标记,然后在下再根据游戏类别建立,等标记。只要清晰,易于理解你可以建立任何数量的标记。,45,XML的特点,扩展性使用户有更多的选择和强大的能力,但同时也产生一个问题就是用户必须学会规划。用户自己要理解自己的文档,知道它由哪几部分组成,相互之间的关系和如何识别它们。关于建立标识还需要说明一点,标识是描述数据的类型或特性,比如,年龄,姓名等,而不是数据的内容,比如:,,这些都是无用的标记。,46,XML的特点,标识-使用XML你可以识别文档中的元素。XML的第二个词是标识,这表明了XML的目的是标识文档中的元素。不论是HTML,还是XML,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息 组织 XML 语言
链接地址:https://www.31ppt.com/p-6549762.html