XML编程开发教程.docx
《XML编程开发教程.docx》由会员分享,可在线阅读,更多相关《XML编程开发教程.docx(31页珍藏版)》请在三一办公上搜索。
1、第一章XML与DTDXML 的产生:XML 的全称是 Extensible Markup Language,意思是可扩展的标记语言,它是标准通用 标记语言(Standard Generalized Markup Language, SGML)的一个子集。在80年代早期, IBM提出在各文档之间共享一些相似的属性.例如字 体大小和版面。IBM设计了一种文档系统,通过在文 档中添加标记,来标识文档中的各种元素,IBM把这 种标识语言称作通用标记语言(Generalized Markup Language),即GML。经过若干年的发展, 1984年国际标准化组织(ISO)开始对此提案进行讨 论,并于
2、1986年正式发布了为生成标准化文档而定 义的标记语言标准(ISO 8879),称为新的语言SGML, 即标准通用标记语言。SGML功能非常强大,是可以 定义标记语言的元语言。W3C介绍:W3C是万维网联盟(World Wide Web Consortium)英文的缩写,它成立于1994年10月,以 开放论坛的方式来促进开发互通技术(包括规格、指南、软件和工具),开发网络的全部潜 能。万维网联盟(W3C)从1994年成立以来,已发布了 90多份Web技术规范,领导着Web 技术向前发展。W3C认为自身不是官方组织,因此将它正式发布的规范称为推荐(建议) 标准,意思是进一步标准化的建议,但是由于
3、该组织自身的权威性往往成为事实上的标准。 一项技术要成为W3C的推荐标准,需要7个步骤:1. W3C 收到提交(Receives a Submission) 2.W3C 发布注释(Publishes a Note) 3.W3C 成立工作 组(Creates a Working Group) 4.W3C 发布工作草案(Publishes a Working Draft) 5.W3C 发布候 选推荐标准(Publishes a Candidate Recommendation) 6.W3C 发布提议的推荐标准(Publishes aProposed Recommendation) 7.W3C 发布
4、推荐标准(Publishes a Recommendation)关于XML的问题:XML是HTML的扩展吗?HTML的全称是 Hypertext Markup Language (超文本标记语言),而 XML的全称是 (Extensible Markup Language)可扩展的标记语言,这很容易让人联想到XML是通过增加新 标记来扩展HTML的一种标记语言。实际上HTML和XML在标记语言中处于不同的层次。 这是一个欢迎的例子标题这是一个欢迎的例子/标题内容你好!欢迎你! /内容你好!欢迎你! /欢迎词提示:XML在设计之初,就考虑到了国际化的问题,同HTML4.01 一样,XML也是基于
5、ISO/IEC 10646字符集标准中定义的通用字符集(Universal Character Set.UCS)。SGML、HTML和XML之间的关系:SGML、HTML和XML之间是什么关系?SGML是一种在Web发明前就早已存在的使用标记来描述文档资料的通用语言,它是 一种定义标记语言的元语言。HTML和XML都是从SGML发展而来的标记语言,因此, 它们有一些共同点,如相似的语法和标记的使用。不过HTML是在SGML定义下的一个描 述性的语言,只是SGML的一个应用,其DTD作为标准被固定下来,而XML是SGML的 一个简化版本,是SGML的一个子集,严格意义上来说,XML仍然是SGML
6、。HTML不能 用来定义新的应用,而XML可以,例如RDF和CDF那是使用XML定义的应用.事实上。 XML和SGML是兼容的.但又没有SGML那么复杂,它是设计用于有限带宽的网络,如 Internet. XML规范的制定者之一 Tim Bray说,XML的设计出发点是取SGML的优点,去 除复杂的部分,使其保持轻巧,可以在可。6上工作。HTML、SGML和XML将继续使用于 适合的地方,它们中的任何一个都不会使其它一个废弃。对于像新闻、网络日记、论坛留言 等大部分短期的数据,HTML仍是在Web上快速出版数据的最简单的方法。如果数据要长 期使用,并且需要更多的一些结构,我们更推荐使用XML。
7、不同于HTML和XML,SGML 可能永远不会在Internet上被广泛接受,因为它们不是为某个网络协议而设计,也从来没有 为某个网络协议的需求而优化过。对于高端的、复杂结构的出版应用,SGML将继续应用。XML与HTML的比较:XML将数据与显示分开 静夜思 静夜思 作者:李白床前明月先,疑是地上霜举头望明月,低头思故乡 静夜思 李白 床前明月光疑是地上霜举头望明月 低头思故乡 XML对文档的格式要求更加严格,由于HTML文档格式非常松散,导致了 HTML文档解析 的复杂性,也造成了浏览器兼容的问题,所以XML从一开始,就对文档的格式制定了非常 严格的标准,凡是符合这一标准的XML文档就是格
8、式良好的XML文档(Well-Formed XML Documents)0开始标签必须要有一个结束标签:在HTML文档中,可以直接使用, , 等标签,而不用加结束标签,在XML中,开始标签和结束标签必须配套,也就是必须写成 vp.v/p、vtr.v/tr, . 空元素标签必须被关闭.在HTML文档中,可以使用 , , 等单标签,而在 XML 中,空元素标 签必须被关闭。空元素标签采用斜杠 (/)来关闭,例如:vbr/,vhr/,vimg src=logo.gif” width=197 height=81/所有的标签都区分大小写在HTML文档中,标签是不区分大小写的,和是tr元素的开始标签和结
9、束标签,但是在XML中,vtr和是两个不同的标签,开始标签和结束标签的大小写形式必须一致.所有的标签都必须合理嵌套。在HTML文档中,vbvi.v/bv/i是允许 的,但是在XML中,这是错误的.在XML中,所有的标签都要成对出现,合理嵌套,正 确的形式是:vi.v/b.所有标签的属性值必须用双引号(域单引号(”)括起来。在HTML文档中,属性值可以加引号,也可以不加,例如:vhr color=blue和 都是合法的。在XML文档中,即使是数等字符,也必须加双引号或单引号,例如:vstudentname=zhangsan age=18/。XML的编辑工具:XML有且只能有一个根元素,在HTML
10、中,可以有多个根元素,如下:.v/table vtable.v/table.但是在XML中,有且只能有一个根元素,如下:vtable.v/tableNotepad(Windows 自带)、UltraEdit、XMLSpyXML的文档:每一个XML文档都有一个逻辑和一个物理结构。物理上而言,文档由称为实体(entities )的存储单元组成,实体都具有内容并且都通过实体的 名字进行标识文档实体和外部DTD子集除外)。实体可以是一段文本、一个文件、一个 数据库记录或其他包含数据的项目。一个实体可以引用其它的实体,从而将它们包含在文档 中。文档开始于根(root)”或文档实体(document en
11、tity).格式良好的XML文档形成了一种层 次树结构,而这个树的树根就是文档实体,与其它实体不同,文档实体没有名宇,只是用于 表示文档树的根。XML文档的根元素被称为文档元素(document element),它和在其外部出 现的处理指令、注释等作为文档实体的子节点,而根元素本身和其内部的子元素也是一棵树. 实体可以包含已分析(parsed)的或未分析的(unparsed)数据.已分析的数据由字符组成,其 中一些字符组成字符数据,另一些字符组成标记。已分析的实体(parsed entity)内容被称为 它的替换文本,这个文本被看成是文档整体的一部分.在XML处理器分析XML文档时, 凡是文
12、档中出现引用已分析实体的地方,都将被该实体的内容所替换.未分析的实体(unparsed entity)是一种资源,它的内容可以是也可以不是文本,并且,如果是文本的话,可 以不是XML文本。每一个未分析的实体有一个相关联的用名字标识的记号(notation)o除了 要求XML处理器能向应用程序提供可用的实体和记号的标识符之外,XML对未分析的实 体内容不作任何限限制。已分析的实体以实体引用的方式通过名字来调用:未分析的实体通 过ENTITY或ENTITIES属性中给出的名字来调用.逻辑上而言,文档由声明,元素,注释, 字符引用和处理指令组成,在文档中,所有这些都是通过显式的标记(markup )
13、来指明的.XML 标记(markup)包括开始标签(tag)、结束标签、空元素标签、实体引用、字符引用、注释、CDATA 段定界符、文档类型声明,处理指令、XML声明、文本声明以及任何在文档实体顶层的空 白(即,在文档元素之外,且不在任何其它的标记内部)。其它所有非标记的文本组成文档 的字符数据。XML文档在逻辑上主要由以下五个部分组成。-XML声明-文档类型声明-元素-注释-处理指令。XML 声明:XML文档总是以一个XML声明开始,其中指明所用的XML版本、文 档的编码、文档的独立性信息。其格式如下 一对中括号()中的部分表示是可选信息。版本声明文档编码声明 在XML声明中还可以加上交档编
14、码信息,默认是UTF-8,如果要使用中 文,我们可以在声明中加上encoding=gb2312”,如下所示: 独立文档声明如果我们的文档不依赖于外部文档.在 XML声明中,我们可以通过standalone=yes”来声明这个文档是独立的文档,如要文档依赖于外部文档,可以通过 standalone=no”来声明。完整的 XML 声 明如下所示: XML声明必须位于文档的第一行,前面不能有任何字符。文档类型声明DTD (Document Type Definition).文档类型定义.XML从SGML继承了用于定义语法规则的DTD机制,但DTD本身井不要求遵循XML规 则,几乎所用的XML应用都是
15、使用DTD来定义的。HTML就有一个标准的DTD文件,所 以其组织结构和所有的标签都是固定的.DTD文件也是一个文本文件,通常用dtd作为其 扩展名.通过文档类型声明,指出XML文档所用的DTD.文档类型声明有两种形式.一种 是声明 DTD 在一个外部的文件中,如下:一种是直接在 XML 文档中给出 DTD,如下: !DOCTYPE greeting 兀素:在XML中,元素由开始标签、元素内容和结束标签构成,对于空元素,由空元 素标签构成。每一个元素有一个用名字标识的类型,同时它可以有一个属性说明集,每一个 属性说明有一个名字和一个值。在给元素命名的时候要注意,以xml或其他任何匹配(XTx)
16、(MTm) (L|l)的字符串开头的名字,被保留用于XML规范的当前版本或后续版本 的标准化。此外,在给元素命名时,还要遵守下列规范:1、名称只能以字母、下划线(_)或者冒号(:)开头;2、名称中可以包含字母、数字、下划线以及其它在XML标准中允许的字符;3、名称中不能包含空格;4、名称中尽可能不要使用冒号(:),因为冒号在名称空间中被用于 分隔名称空间前缀和本地部分,空元素带有属性的空元素带有内容的元素这是一个学生的信息 张三 18带有内容和属性的元素 vstudent name=张三 18 提示:“元素”和“标签”这两个词具有不同的含义。元素是指开始标签、结束标签以及两者之间的一切内容,包
17、括属性、文本、注释以及子元素。标签是一对尖括号(V)和两 者之间的内容,包括元素名和所有属性。例如:vfont color=blue”是一个标签,也 是一个标签:而Hello Worldv/fontK0 是一个元素。元素的内容可以包含子元素、字符数据、字符引用和实体引用、CDATA段。子元素本身也是元素,被嵌套在上层元素之内。子元素是相对于父元素而言的,如果子元素 还嵌套了其它元素,那么它同时也是父元素。 vstudentsvstudentvname张三18 .在一个元素的内容中,字符数据可以是不包括任何标记的起始定界符和CDATA段的结束定 界符的任意字符串,也就是说在元素的内容中,字符数据
18、不能有和号(&)和小于号(,在CDATA段中,字符数据可以是不包括CDATA段的结束定界符的任意 字符串。注释:在字符数据中,不能有和号(&)和小于号(),因为未经处理的小于号(。与和号(&)在XML 文本中往往被解释为标记的起始定界符(例外的情况见下面要介绍的CDATA段).在XML中, 提供了 5个预定义的实休引用,分别引用XML文档中的5个特殊字符:小于号()、双引号()、单引号()、和号(&)。这5个特殊字符也可以通过字符引用的方式去引用. 字符引用和预定义实体引用都是以一个和号(&)开始并以一个分号(;)结束.如果用的是宇符 引用,需要在和号(&)之后加上一个井号(#),之后是所需字
19、符的十进制代码或十六进制代码 (ISO/IEC 10646字符集中字符的编码)。如果用的是预定义实体引用,在和号(&)之后写上 宇符的助记符.字符字符引用(十进制代码)字符引用(十六进制代码)预定义实体引用>>>n";""1'''DATA段中包含的都是纯字符数据,在字符数据可以出现的任何地方 cData段主要用于需要将整个文本解释为字符数据而不是标记的,都可以使用CDATA 情况下。CDATA段中C的内容不被XML处理器分析,所以可以在其中包含任意的字符。例如,在XML文档中, 我需要包含Java代码,而Java代码
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- XML 编程 开发 教程

链接地址:https://www.31ppt.com/p-4926479.html