信息管理概论课件第6章.ppt
第六章 信息采集与组织,6.1 信息源与信息采集6.2 信息组织的一般原理6.3 分类与主题标引6.4 元数据6.5 网络信息组织6.6 信息构建,6.1 信息源与信息采集,信息源概述信息采集,6.1.1 信息源概述,信息源的3个层次 信息源的类型信息源的分布,6.1.1 信息源概述,1.信息源的3个层次(1)信息最原始的来源 物质和现象的存在及人类的实践活动(2)信息资源开发机构(3)信息系统,6.1.1 信息源概述,2.信息源的类型 依不同角度,信息源可分为不同的类型。(1)按时间顺序:先导信息源、实时信息源、滞后信息源(2)按信息产生过程:原始信息源、加工信息源(3)按信息源在信息布局中的地位:强势信息源、弱势信息源(4)按信息的存在形式记录型信息源、实物型信息源、思维型信息源、零次信息源,6.1.1 信息源概述,3.信息源的分布 信息源的分布有一个总的规律,即非均衡。一是在时间序列上,信息源的分布是非均衡的。从时序上看,信息源的分布遵循社会学的一个发展理论:后胜于今,今胜于古。二是空间分布也显示出非均衡的规律,国家与国家之间、地区与地区之间其信息分布都不均衡。此外,信息源在行业、部门、学科、信息类型等方面的分布也存在着非均衡的现象。,纽约时报,6.1.2 信息采集,信息采集的实质是信息的选择过程,是根据不断变化的用户信息需求从已确定的信息源体系中连续地选择、提取和收求信息的过程。1.信息采集的原则 2.信息采集的渠道和方法 3.信息采集方法举要分析:调查访问 4.网络信息采集,6.1.2 信息采集,1.信息采集的原则(1)针对性原则(2)完整性原则(3)及时性原则(4)预见性原则(5)计划性原则(6)连贯性原则(7)灵活性原则,6.1.2 信息采集,2.信息采集的渠道和方法 信息采集的渠道是指经由哪些信息源去采集信息,信息采集的方法是指到信息源那里采集信息的行动手段,两者是密切相关的。信息采集的渠道主要有:大众传媒渠道、出版发行渠道、信息系统渠道、人际关系渠道、文献情报机构渠道、专业性学会渠道、行业协会渠道、社会中介机构渠道、信息发布机构渠道、互联网渠道、各类会议渠道、邮政部门渠道等。,6.1.2 信息采集,信息采集的方法(1)内部信息索取法(2)互通有无的交换法(3)委托采集法(4)实物样品分析法(5)实地考察法(6)间接调查法(7)网络查询法(8)大众传媒采集法(9)咨询采集法,6.1.2 信息采集,3.信息采集方法举要分析:调查访问(1)问卷调查法 问卷的设计形式有3种:结构式、非结构式和混合式。(2)访问调查法 此法又叫采访法,是新闻机构常用的信息采集方法,它又包括电话采访、信函采访、会议采访、观察访问、座谈采访、单独采访等。,会议采访,信函采访之预约,6.1.2 信息采集,4.网络信息采集 这里主要是指搜索引擎的信息采集机制和方法,即对WWW站点和其他网络信息资源进行采集、标引和检索的一类检索系统机制。这里主要涉及它的信息采集机制。基本机制:搜索引擎的信息采集机制是按照一定规律和方式对网络上WWW站点进行搜索,并将搜索到的WWW页面信息存入搜索引擎的临时数据库。自动采集器:是采用自动采集方式的搜索引擎的核心,是一种在网络上搜索文件、自动跟踪该文件超文本结构并循环检索被参照文件的软件。,6.2 信息组织的一般原理,信息组织概念信息组织的3个层次 信息组织的内容,6.2.1 信息组织概念,信息组织是采用各种方法和手段使信息有序化的过程,它通过揭示信息之间内在逻辑联系,将其一方面大量、分散和杂乱的信息经过加工、整理、提炼和优化,使之组织化、系统化,从而达到有效利用的目的。,6.2.2 信息组织的3个层次,在信息过滤的过程中,存在着3个不同的层次,即信息的语法过滤、语义过滤和语用过滤,因而形成了3种不同层次的信息类型,即语法信息、语义信息和语用信息。与此相对应,信息组织也分为三种不同的层次:语法信息组织语义信息组织语用信息组织,6.2.2 信息组织的3个层次 1.语法信息组织语法信息组织是以信息的形式特征为根据序化信息的方法。语法信息的组织需要遵循方便性、多向成族性和标准化等原则。其重要特征是标准化.比较常见的语义信息组织方法有以下几种:(1)字顺组织法(2)代码组织法(3)地序组织法(4)时序组织法(5)上述组织法所没有囊括的信息组织法,比如颜色组织法 和形状组织法等。,商标条代码,电话号码,6.2.2 信息组织的3个层次,6.2.2 信息组织的3个层次,2.语义信息组织它是以信息的内容或本质特征为依据序化信息的方法。语义信息组织需要遵循客观性原则、逻辑性原则和发展性原则。比较常见的语义信息组织方法有以下两种:(1)分类组织法它属于一种逻辑组织法,常见的分类组织法包括学科分类、文献分类、专利分类、商品分类和职能分类等。(2)主题组织法主题组织法是从事物内涵的主题或涉及的问题与事物的属性出发,以语词作为概念标识,并通过概念标识的字顺排列和参照方法等间接地揭示概念之间相互关系的一种信息组织方法。,6.2.2 信息组织的3个层次,3.语用信息组织它是以信息的效用特征为依据序化信息的方法。语用信息组织需要遵循目的性、实用性和个性化原则。常见的语用信息组织方法有以下几种:(1)重要性大小组织法(2)权值组织法(3)概率组织法(4)特色组织法,6.2.3 信息组织的内容,信息源外表特征描述初级组织信息源内容特征揭示中级组织信息重组高级组织信息存储空间组织,6.2.3 信息组织的内容,1.信息源外表特征的描述即信息形式特征的描述,是根据一定的原则和方法,对信息的外表特征和部分内容特征进行全面描述并予以记录的过程。对信息的外表特征的描述,目前比较成熟的是:1)对文献信息描述的ISBD模式。这种模式已获得国际上的认可,它主要采用统一描述格式、统一描述内容(包括描述项目和描述单元)和统一描述符号(即标识符号)的方式,核心是统一描述内容,在此基础上运用统一描述符号按统一描述格式记录。2)另一种重要的信息描述模式是MARC(Machine Readable Catalogue)模式,这是一种在ISBD模式上利用计算机技术的新型处理格式,是一种国际性的书目数据标准交换格式。,6.2.3 信息组织的内容,2.信息内容特征的揭示信息内容特征的揭示是指对信息内容特征进行深层揭示并转换成规范化的标识(包括分类号和主题词),形成科学的概念标识系统。它需要利用一定的工具(信息组织语言)或规范(标引规则)将信息内容特征进行转换。,6.2.3 信息组织的内容,3.信息重组信息重组是在信息内容特征分析的基础上的具有创造性的活动,它根据特定的目的和任务,对有关的大量信息进行系统性、综合性的加工处理,形成新的信息的过程。其基本方法是,以一批相关信息为基础,利用分析、鉴别、浓缩、提炼、综合归纳和评价等手段,对信息中的相关各方面知识点进行重组,形成更加系统的信息产品或知识产品。,6.2.3 信息组织的内容,4.信息存储信息存储是指在对信息的外部、内容特征进行描述,且在确定标识之后按一定的规则和方法,把所有的信息记录组织成为一个有序的体系,以方便人们检索利用。,6.3 分类与主题标引,分类语言与分类标引主题语言与主题标引,6.3.1 分类语言与分类标引,分类语言是分类组织法的语言基础和依据,其具体表现形式主要是分类表。由于用分类表和分类规则来标引、组织和检索文献信息的方法被称为分类法,因此习惯上人们将某种分类语言又叫分类法。分类法的主要类型有先组式分类法和分面组配式分类法,前者又被称为体系分类法或等级列举式分类法,后者的典型代表是印度阮冈纳赞编制的冒号分类法。,1.分类法的结构 类目表 1)基本大类。2)简表。3)详表。4)复分表。分类号,其构造方法可分为如下几种:1)层累制:即分类号的位数与类目级别基本上相对应,一位号码表示一级类目,两位号码表示二级类目,依此类推。2)顺序制:即分类号是按类目的先后顺序而不是等级从小到大安排。3)混合制:即混合采用以上两种方法构成分类号。类目注释和分类法索引 1)类目注释:是说明类目的含义、范围、使用规则等事项,以便正确理解和使用该类目的文字。2)分类法索引:是为了帮助不熟悉类目表逻辑体系的人,从类名及其他相关名称字顺途径查找分类号的工具。,6.3.1 分类语言与分类标引,国际专利分类法,美国生物学文摘,6.3.1 分类语言与分类标引,6.3.1 分类语言与分类标引,2.分类法用于信息组织的使用方式(1)分类编排手工检索工具的正文(主体)部分,具体来说,这种使用方式有两种情况:编排分类目录。用于编排文摘型或题录型检索刊物的正文(文摘、题录)部分。(2)用于编排检索工具的分类索引。(3)用于构成计算机检索数据库信息记录的分类号字段。,美国化学文摘,英国科学文摘,美国生物学文摘,6.3.1 分类语言与分类标引,6.3.1 分类语言与分类标引,3.分类组织法的实施保证分类标引规则基本标引规则(2)各种主题形式的信息的分类标引规则,6.3.2 主题语言与主题标引,主题语言是信息的主题组织法的语言基础,是以信息的主题为依据,用语词作为概念标识,将概念标识按字顺组织排列,并用参照系统间接显示概念之间的相互关系的一种检索语言。主题语言包括标题词语言、单元词语言、叙词语言和关键词语言,其中叙词语言是较为规范和使用较广泛的信息组织语言,因此这里以它为例进行介绍:1叙词语言的构成原理 2叙词语言的具体体现叙词表 3.用于信息组织的使用方式 4.主题组织法的实施保证主题标引规则,6.3.2 主题语言与主题标引 1叙词语言的构成原理 就其性质而言,叙词语言是一种采用表示单元概念的规范化语词的组配来对信息主题进行描述的后组式词汇型标识系统。(1)它采用了组配分类法的概念组配,并适当采用了标题法的概念预先组配的方法,克服了某些词分拆后再组配时产生意义失真的缺点。(2)它采用了标题法对语词进行严格规范化的方法,以保证词和概念的一一对应。(3)它采用并完善了标题法的参照系统,采用了分类法的基本原理编制叙词分类索引和等级索引,采用了与关键词法类似的方法编制叙词轮排索引,从多方面显示叙词间的相互关系,以保证准确、全面地选用叙词进行标引和检索。,6.3.2 主题语言与主题标引 2叙词语言的具体体现叙词表 叙词表有以下几个组成部分:主表附表辅助索引:1)词族索引。又称为等级索引或族系索引。它是将主表中具有属种关系、整体与部分关系、包含与被包含关系的正式主题词,按其本质属性展开,显示词间从属关系的一种词族系统。2)范畴索引。又称范畴表或分类索引。它是把叙词表的全部叙词按其所属学科范畴归结在相应的类下,同一类中的叙词按字顺排列。3)轮排索引。又称轮排表,它是把主表中全部词组按其所含词素的字顺排列,使含有同一词素的词组集中于一处的叙词索引,它方便查词者从一个词组的各个部分进行查找。4)双语种对照索引。是把主表中的词与其外语译名相对应,提供从外语词字顺查找主表叙词的一种索引。,6.3.2 主题语言与主题标引 3.用于信息组织的使用方式(1)在计算机检索的数据库记录中构成主题字段,提供主要检索途径。(2)构成主题标识,组织文献主题目录。(3)用于编排检索工具的正文,这种使用方式不多见。(4)用于编排检索工具的辅助主题索引。具体包括:单个叙词(单词或词组)后直接标出一个或多个文摘号。单个叙词(单词或词组)下配有说明语(主要是来自文献题名中的词)或直接列出题名,然后标出文摘号。多个叙词组成主题标识,表达文献主题,之后标出文摘号。,6.3.2 主题语言与主题标引4.主题组织法的实施保证主题标引规则主题标引规则分为一般标引规则、不同文献信息的特殊标引规则和单位具体标引细则。依据我国汉语主题标引工作细则(1998年修订本)和国家标准文献主题标引规则对主题标引的规定如下:(1)标引词的书写规则(2)标引深度规则(3)标引词选取的专指性规则(4)单主题文献信息标引规则(5)多主题信息标引规则(6)一般信息的主题标引规则(7)特殊信息主题标引,6.4 元数据,元数据的概念、类型与特征网络信息组织中的元数据及 元数据的应用元数据的发展,对象元数据,元数据模块,6.4.1 元数据的概念、类型与特征,1.元数据的概念元数据是描述和限定其他数据的数据.其典型事例有:用于描述数据的重要特征(如创作者的名称、出版年)、用于数据定位的数据(如图书馆图书的杜威分类号、电视节目频道)以及有助于数据检索的数据(如数据的自由文本描述或数据的摘要,或者一系列适用于一系列数据的可检索的主题关键词)关于元数据,迄今为止,还没有完全统一的定义,最简洁的定义是:元数据是关于数据的数据(data about data)。其中前一个“数据”代表的是“资源”,后一个则对应着元数据。,6.4.1 元数据的概念、类型与特征为了正确认识和使用元数据,有必要对其概念和范围有一个清楚的认识。在关于元数据的许多定义的表述内容中,其中比较重要的几点内容有:1)元数据最简洁定义中的“数据”一般指的是表示事物性质的符号,是进行各种统计、计算、科学研究、技术设计所依据的数值。2)元数据形式多样,不一定是数字形式的。3)元数据不只是对信息对象的描述,在对博物馆、档案馆、图书馆的数据进行描述或编目的同时,还能够说明被描述资源的使用环境、管理、加工、保存和使用等方面的情况。4)元数据可以来自各种不同的资源,元数据可以由人类(编制者、信息专家或使用者)提供,还可以由计算机自动生成,或者通过一项资源与另一项资源的关系来推断,如超链接。,6.4.1 元数据的概念、类型与特征,2.元数据的类型及其应用范围管理型元数据:在管理信息资源中利用的元数据。描述型元数据:用来描述或识别信息资源的的元数据。保存型元数据:与信息资源的保存管理相关的信息。技术型元数据:与系统如何行使职责或元数据如何发挥作用相关的元数据。使用型元数据:与信息资源利用的等级和类型相关的元数据。,6.4.1 元数据的概念、类型与特征,3.元数据的属性与特征 一般认为,元数据的来源主要有两部分:来自信息对象内部,是由信息对象的制作部门首次生成该对象或其数字化时编制;来自与信息对象相关的信息对象外部,它是后来生成的,往往由其他人而不是信息对象的原来制作者编制。元数据的生成方式也有两种:由计算机自动生成的元数据;由人工编制的元数据。,6.4.1 元数据的概念、类型与特征,3.元数据的属性与特征元数据的状态:稳定的元数据,一旦生成就永远不变;动态的元数据,可能会随着信息对象的使用或操作而改变。长期使用的元数据,用于保证信息对象的持续存取和使用;短期的元数据,主要是用于处理的数据。元数据的结构:结构化的元数据,符合可预言的标准化的或非标准化的结构;非结构化的元数据,不符合可预言的结构。元数据的语义:控制的元数据,符合标准化的词汇或规范格式;非控制的元数据,不符合任何标准化的词汇或规范格式。元数据的层次:馆藏元数据,与信息对象的集合相关;文献元数据,与单个的信息对象相关,通常被包含在馆藏中。,6.4.2 网络信息组织中的元数据 及元数据的应用,1.元数据的应用目的确认和检索(Discovery identification),著录描述(Cataloging资源管理(Resource Administration)资源保护与长期保存(Preservation and Archiving),6.4.2 网络信息组织中的元数据 及元数据的应用,2.元数据的建立为信息包生成元数据的过程包括3个部分:编码、提供对信息包的描述以及信息包的管理和保存所必需的其他信息。利用元数据组织因特网上信息内容的活动正在扩展。在创作阶段,当作者将元数据嵌入使用HTML META标识符、SGML标题和/或其他元数据的模板时,就可以生成元数据。它也可以由搜索引擎生成。例如,摘要对象交换格式(Summary Object Interchange Format,SOIF)的元数据是由收获程序生成的。还可以在服务阶段形成的元数据,元数据被定位在一个有指示器指向它所描述的资源的集中或分散式数据库中。,6.4.2 网络信息组织中的元数据 及元数据的应用,3元数据的结构(1)总体结构定义方式 一个Metadata格式由多层次的结构予以定义:内容结构(Content structure),对该Metadata的构成元素及其定义标准进行描述。句法结构(Syntax structure),定义Metadata结构以及如何描述这种结构。语义结构(Semantic structure),定义Metadata元素的具体描述方法。(2)内容结构内容结构定义Metadata的构成元素,包括:描述性元素、技术性元素、管理性元素、结构性元素。(3)句法结构句法结构定义格式结构及其描述方式,例如元素的分区分段管理、元素选取使用规则、元素描述方法(例如Dublin Core采用ISO/IEC11179标准)、元素结构描述方法(例如MARC记录结构、SGML结构、XML结构)、机构语句描述语言(例如EBNF Notation)等。(4)语义结构语义结构定义元素的具体描述方法,例如:描述元素时所采用的标准、最佳实践(Best Practices)或自定义的描述要求(Instructions)。,6.4.2 网络信息组织中的元数据 及元数据的应用,4.元数据的编码语言与制作方式(1)元数据编码语言(Metadata Encoding Languages)指对元数据元素和结构进行定义和描述的具体语法和语义规则,常称为定义描述语言(DDL)。(2)元数据制作方式专门编制模块(例如对MARC、GILS、FGDC等);数据处理时自动编制(例如对Dublin Core等);数据物理处理时自动编制(例如数字图象扫描时的某些元数据参数);共享元数据(例如OCLC/CORC IMESH,6.4.2 网络信息组织中的元数据 及元数据的应用,5.元数据格式的应用范围描述:根据元数据的定义,它最基本的功能就在于对信息对象的内容和位置进行描述。定位:由于网络信息资源没有具体的实体存在,因此,明确它的定位至关重要。搜寻:元数据提供搜寻的基础。评估:元数据提供有关信息对象的名称、内容、年代、格式、制作者等基本属性,使用户在无需浏览信息对象本身的情况下,就能够对信息对象具备基本了解和认识,参照有关标准,即可对其价值进行必要的评估,作为存取与利用的参考。选择:根据元数据所提供的描述信息,用户便能够做出对信息对象取舍的决定,选择适合用户使用的资源。,6.4.2 网络信息组织中的元数据 及元数据的应用,6.元数据格式的应用程度 不同领域的元数据处于不同的标准化阶段:在网络资源描述方面,Dublin Core经过多年的国际性努力,已成为一个广为接受和应用的事实标准;在政府信息方面,美国政府大力推动和有关法律标准的实行,GILS已经成为政府信息描述标准,并在世界若干国家得到相当程度的应用,与此类似的还有地理空间信息处理的FGDC/CSDGM;但在某些领域,由于技术的迅速发展变化,仍然存在多个方案竞争,典型的是数字图象的Metadata,现在提出的许多标准都处于实验和完善阶段(http:/purl.org/dc/documents/dcmes-guabifiers/)。,6.4.3 元数据的发展,MARC DC(都柏林核心集)XML(可扩展标记语言)主要元数据格式应用存在的问题及其综合,6.4.3 元数据的发展1MARC 据世界科学情报系统的国际书目著录中心(UNIBID)规定,一种机读格式需3个基本组成部分:载体形式,数据单元定义,数据单元组。如果把数据单元定义和数据单元组称为内容特征,可将MARC归纳为两个部分:载体形式;内容特征。,6.4.3 元数据的发展2DC(都柏林核心集)都柏林核心元素集(Dublin Core Element Set)简称为都柏林核心(DC),始于1995年,由OCLC和NSCA发起,DC董事会定在美国俄亥俄州都柏林的联机图书馆中心。DC 设立了15个标准的“描述性的要素”,这15个要素包括标题、著者或创建者、主题和关键词、描述(如文摘)、出版者、其他贡献者、日期、资源类型、格式、标识符、来源、语种、关系、范围、权利。,6.4.3 元数据的发展利用DC对网络信息资源描述和组织有以下特点:简单性。DC与传统的目录卡片及MARC格式相比,DC格式简单许多。灵活性。DC每一描述项目是可选择和重复的。扩展性。DC允许制作者为特定目的、学科、网页增加特定的著录信息。适应性。DC的著录信息由制作者提供,其著录信息与网页信息吻合,适应网络信息不断变化的发展趋势。兼容性。可以与其他元数据兼容,可以作为结构化元数据进行编码、转换的模块化基础结构。同时兼容还表现为与浏览器、制作软件的兼容。,6.4.3 元数据的发展 3XML(可扩展标记语言)SGML(ISO8897)是一种用于与文本应用有关的数据方法。XML并不是一种“原语言”,是一系列定义文档元数据的规则集合。它是SGML的一个精简子集,既保留了SGML的可扩展性和适用性,又支持了灵活多边的WEB应用。XML文件通常有两部分:一部分是XML标签及其内容,另一部分是定义标签及其险乎关系的DTD文件定义类型,DTD规定文档的逻辑结构,它可以定义文档的语法,而文档的语法反过来能让XML语法分析程序确认某张页面标记使用的合法值,DTD定义页面的元素、元素的属性以及元素和属性之间的关系。,6.4.3 元数据的发展 XML与HTML、SGML相比的优点:与HTML相比,XML的优点是它的可扩展性,标记不再是固定的,允许定义数量,不限的标记来描述文档中的资料,允许嵌套的信息结构存在。XML通过DTD使得所包含的数据具有自解释性。XML允许客户定义他们自己的文件元素集合。文件具有专用的与用户关注的信息相配的一些标记,可更快导向用户所需要的信息数据。这使得用它表示的数据具有很好的使用效率和可重用性,这一点在通过网络交换数据时表现得更为明显。XML更简单,更适合带宽不是很高的Internet应用。,XML,6.4.3 元数据的发展,4主要元数据格式应用存在的问题及其综合(1)MARC的改进与替换MARC对网络信息资源著录显得力不从心。一些信息机构采用如下两种途径解决:一是基于HTML改良,建立能描述书目数据和其他信息的元数据格式和规范,并将之纳入HTML技术体系中;二是采用早已出现的能对信息、进行详细描述的SGML,现在进行改进的XML。(2)DC的采用与局限(3)XML的优点与不足XML采用的是一种先控手段,主张彻底改变管理对象的文件形态,这种方式对新产生的信息固然能体现它的优越性,但对于已存在的网页和由大量的数据库生成的页面,则缺乏一种有效转换机制来继承现有的数据;其次,鉴于HTML在WEB中广泛应用以及厂商对基于HTML的WEB浏览器强有力的支持,XML在今后有相当的发展空间。(4)对于目前流行且具有国际化前景的元数据方案要进行借鉴,。(5)针对元数据不同特点,取长补短、发挥各自特长。(6)加快中文元数据标准化进程,6.5 网络信息组织,网络信息资源的界定与类型网络信息组织的原则与主要技术条件网络信息资源的组织模式,6.5.1 网络信息资源的界定与类型,从字面上讲,网络信息资源一般可以被理解为“通过计算机网络可以利用的各种信息资源的总和”。从图书馆学、情报学的角度出发,网络信息资源分成:电子期刊、电子通讯期刊、图书的文本;论文的抽印本、技术报告;法律文件、判例、政府出版物;数值数据、统计资料、实验数据;软件;图象数据、声音数据;数据库。,6.5.1 网络信息资源的界定与类型,以资源稳定性状况分为:不稳定的信息资源和稳定的信息资源;以资源的正式化程度分为:非正式信息、半正式出版物和正式出版物等;以来源和表现形式分为:电子文件、软件、资料档案、图书馆线上公用目录、电子图形档案、电子布告栏、群研论坛及其伺服、网络名录、网络资讯服务中心、档案传输地、一般线上服务系统、校园资讯系统、分散式档案伺服、自由网络系统;以信息的流动和存在形式分为:邮件型、电话型、广播型、图书馆型、书目型,6.5.2 网络信息组织的原则 与主要技术条件,1网络信息组织的要求首先,网络信息组织方法应该能够处理各种类型的信息资源,应该符合网络资源内容的分布情况;其次,网络信息资源应该根据用户对信息的需求进行组织,应重视它的通用性和易用性;再次,网络信息资源组织应该注意与计算机、网络技术的结合,特别应该探讨超文本技术对信息资源分类法编制的影响;最后,要合理的设置检索查询的界面,充分、有效、合理的利用屏幕。,6.5.2 网络信息组织的原则 与主要技术条件,2.网络信息组织的原则1)标准化原则2)系统性原则3)特色性原则4)安全性原则,6.5.2 网络信息组织的原则 与主要技术条件,3.网络信息组织的主要技术条件确定网上信息的资源标识的统一命名方法:统一资源标识URI和统一资源地址URL,它们确定网络文件存放的地方。在网络资源之间实现链接和浏览的超文本链接技术。对网络文本进行结构化处理的超文本标记语言HTML和元数据(MetaData)。存取资源的网络协议:超文本传输协议HTTP。,6.5.3 网络信息资源的组织模式,1.网络一次信息的组织方式 网上一次信息组织是将网外信息资源数字化上网,这种经过数字化的信息可称为网上一次信息,它是网上一次信息组织的对象。,6.5.3 网络信息资源的组织模式,网上一次信息的组织方法主要有:自由文本方式 主要用于全文数据库的建设,是对非结构化的文本信息进行组织和处理的一种方式,它将图书、期刊或者报纸的全部文本通过计算机上网,建成网上全文数据库系统。超文本方式 由于超文本系统是利用计算机实现知识网络的检索和动态组合的,因此它的数据库和一般的文本数据库不同,超文本数据库由节点和链路组成,节点表示知识单元、片段或其组合;链路表示这些节点间的关系,例如引用、反驳、赞同、修正、补充等。主页方式 这种信息组织方式是将有关某机构或个人的信息集中组织在一起,是对某机构或个人的全面介绍。目前互联网上关于机构或个人的信息几乎毫无例外地采用这种组织方式。,6.5.3 网络信息资源的组织模式,2.网上二次信息的组织方式网上二次信息组织是指对以自由文本、超文本和主页方式进入网络的网上一次信息进行索引。索引时可以选取有检索意义的标识进行,如网址、篇名、主题、文档内容、服务器名称和用户信息等。,6.5.3 网络信息资源的组织模式,网上二次信息组织的主要方式有:搜索引擎方式:这是目前互联网上二次信息组织的主要形式,其实质是一种报道、存贮网上一次信息的检索工具,其性质、作用和传统的二次文献目录检索工具是一致的。指示数据库方式菜单方式 以菜单方式组织的网上二次信息本来是一个超文本文件,一般是围绕某一专题,采用分类法、地序法、时序法、主题法等方式,将与该专题有关的网上一次信息的线索和有关描述信息依此罗列,供用户浏览选择,用户若对其中某一项感兴趣,直接在其上点击即可。,指示数据库方式的工作原理,6.5.3 网络信息资源的组织模式,3.网上信息的分类与主题组织方式(1)网络信息的分类组织方式 目前网上信息采用分类法的网站主要是学术性资源和图书馆的各种信息资源。但是大多数网络信息资源的分类组织是各个网站自编的主题-等级式分类体系。这些体系的基本特点:重视以事物为中心设置类目。淡化分类体系的学科属性。较大地拓宽类目外延。类目排列方式简便。更新迅速。,6.5.3 网络信息资源的组织模式,(2)网络信息的主题组织方式网络信息组织使用主题方式最常见的是关键词技术,使用叙词的很少见。网络搜索引擎中的自动索引软件,如Robot、Spider、Crawler、Wanderer等都采用了关键词技术。,6.5.3 网络信息资源的组织模式,4.网上信息组织的宏观方式数字图书馆方式 虚拟图书馆方式,6.5.3 网络信息资源的组织模式,(1)数字图书馆方式 数字图书馆信息组织是基于图书馆馆藏文献资源的数字化,因此数字图书馆是一个数字化的信息系统。它将信息资源以数字化方式存贮,以网络化方式相互连结,提供即时利用,实现资源共享。数字图书馆的信息组织是一种分布式模式,其信息对象可能并不存贮在同一个地方,而可能分布在不同的数据服务器上。信息对象的格式化和多格式化是数字化图书馆信息组织的重要内容。,数字图书馆,6.5.3 网络信息资源的组织模式,(2)虚拟图书馆方式 虚拟图书馆的实质是一个专业性的信息检索系统,它将互联网上某一特定领域的网页收集起来,作为一次信息,然后对其进行标引,形成各种倒排文档。与数字图书馆相比,虚拟图书馆无需有自己的馆藏,而是对网上已经存在的信息资源进行有序化组织,并提供相应的检索与浏览功能。与一般搜索引擎相比,虚拟图书馆具有学科专业性强、信息组织有序化程度高等特点。,虚拟图书馆,虚拟图书馆,6.6 信息构建,信息构建的概念信息构建的两个阶段信息构建师的职能与来源信息构建的应用,6.6.1 信息构建的概念,1.信息构建概述 信息构建(Information Architecture,IA)着重于信息的有效组织和表达,主要应用于网络化、数字化的信息空间,是关于网络化、数字化信息空间结构的设计和实施。信息构建的目的是帮助人们快速查找信息和有效管理信息,或者说是构建信息路径,帮助用户接近信息、成功地利用信息。尽管对IA有不同的认识,但总的来说,人们认为IA有广义和狭义的定义。广义上是指如何组织信息以帮助人们有效实现其信息资源与信息需求相匹配的一门艺术和科学。狭义上是指网站的信息构建,在用户需求分析的基础上组织网站内容、设计导航、标识和检索机制,其目的是帮助用户更准确的找到相关的信息。,6.6.1 信息构建的概念,2.狭义IA(网站IA)狭义IA的核心内容包括由浅入深的两个层面:“使信息可访问”,“使信息可理解”。,6.6.1 信息构建的概念,3网站IA含义由此,IA狭义上可定义为:借助图形设计、可用性工程、用户体验、人机交互等理论,以用户需求分析为基础,进行组织系统、标识系统、导航系统和搜索系统的设计。无论广义上对信息空间的组织和建构还是狭义上对网站的设计,其核心理念都是“化复杂为明晰”、“使信息变得可理解”,以人为本,帮助用户接近信息,找到最优路径。,6.6.1 信息构建的概念,4广义IA广义IA是对组织机构中的信息、信息服务、以及与信息相关的各部门及其人员的整合与合理化配置,包括技术层面的基础设施建设、管理层面的部门建设、以及信息系统本身从信息采集到用户界面的结构构建。信息构建从广义上可概括为:组织信息和设计信息环境、信息空间或信息体系结构,以满足需求者信息需求的一门艺术和科学。,6.6.1 信息构建的概念,5.信息构建的内容 IA的研究内容包括三部分:描述信息体系各组成部分之间的关系的系统体系结构;描述生产、传递和交换信息的技术体系结构;描述信息流及其管理的运行体系结构。网站的信息构建内容主要包括:1)内容组织系统:指网页上的数据实体,表现为一些简单的文字、图像以及结构化了的数据,例如从数据库检索出的信息。2)网站导航系统:在网站信息构建时,用户需要网站导航系统明确信息的访问路径。3)标引检索系统:是基于内容组织系统之上的网站内容的标引与检索。其中有标引和检索两大功能模块,具体又可分为内容分析器、索引器、检索端数据库、检索器。,6.6.1 信息构建的概念,6IA的“一、二、三、四、五”内涵一个空间是信息空间:指某一领域的信息设施总体,小到某一台计算机上的硬盘驱动器,大到整个互联网。构成信息空间的是各种要素和关系的网络,它们组成了一个信息生态圈。二是两种方法:是指信息构建过程中采用的两种主要方法:自顶向下法和自下而上法。三是三个基本阶段:信息构建的全过程大体可分为三个基本阶段,即调查分析阶段、设计建模阶段、实施测试阶段。四是四种系统:信息构建的结果是生成四种系统,即内容组织系统、标识系统、导航系统和检索系统。五是五种强调:强调使信息可理解、强调体系结构、强调用户体验、强调可用性、强调科学与艺术的结合。,6.6.2 信息构建的两个阶段,1.IA的前网络时期IA的前网络时期,是指从1975年到90年代初期这一阶段。这个阶段重要特点是Internet从无到有、逐步发展、慢慢从美国向其他国家和地区蔓延。在此阶段中,IA实践的主要对象是书本,将图形设计、写作和技术有机地融合在一起,为读者呈现可以理解和更加容易理解的信息是这个阶段信息构建的主要任务。Wurman的最主要贡献是提出了五项规则,用于指导信息建筑师完成“化复杂为明晰”和“使信息可理解”任务。在前网络时期,以Wurman为代表的IA实践者主要是利用版面设计和编辑技术使信息(数据)可视,便于读者理解。,6.6.2 信息构建的两个阶段,2.IA的网络时期20世纪90年代中后期以来,Internet向全世界各个角落渗透,全球几乎所有的国家和地区无不被网罗其中。在这样的背景下,IA被引入网站设计,其发展进入到网络时期。在这个阶段里,IA的实践对象呈现出现多样化趋势,包括书本、网站和现代大型组织机构。可将网络时期的IA视为狭义IA和广义IA,分别针对网站、书本和现代组织机构。,6.6.3 信息构建师的职能与来源,信息构建师肩负着网站整体规划的任务,是贯穿于整个网站建设过程的灵魂人物,他们的工作对于实现站点业务目标、提高用户服务效率、控制网站设计开发成本、延长网站生命周期具有重大意义。1.信息构建师的职能2.信息构建师的来源3.信息构建团队,6.6.3 信息构建师的职能与来源,1.信息构建师的职能组织数据中的固有模式,化复杂为明晰;创建信息结构或地图,令他人找到其通向知识的个人路径;信息建筑师是即将到来的21世纪的专业化职业,代表着该时代对清晰、人类理解、信息组织科学的集中需求。信息建筑师完成的具体工作:使网站的使命和远景明晰化,平衡来自组织和用户两方面的需求;确定网站的内容和功能;通过定义网站的组织、导航、标引和检索系统,阐明用户将如何在网站中寻找信息;制订网站适应未来变化和升级的方案,指导网站顺应变化、发展壮大。,6.6.3 信息构建师的职能与来源,2.信息构建师的来源 优秀的信息构建师应该具备以下三个基本特征。首先,他们必须同时以两种身份来看待网站:一方面把自己当作“外部人士”,对用户的需求反应灵敏,使之不至于与组织内部利益比重失衡;另一方面又要融入组织,成为“内部人士”,这样才能真正理解组织的使命、目标和客户,并且在建设网站的全过程中担负起责任。其次,虽然信息构建师可能来自于以上所列举的领域之一,但他们却不能局限于自己单一的专业背景。最后,信息构建师应当具有创新思维。,6.6.3 信息构建师的职能与来源,3.信息构建团队 信息构建团队的主要专家成员及其职责:构建策划师:熟悉业务环境,负责监督信息构建的总体设计,促进成员间的合作。控制词表管理的人:管理控制词表的演化。词典设计师:开发分类方案、控制词表和词典。索引编制专家:基于控制词表中的元数据标引信息内容交互设计师:将信息构建与图像设计联系起来,创建导航方案,以用户为中心设计页面版式。可用性设计师:关注可用性和信息构建的交叉部分。检索分析师:设计、改进并分析检索系统。内容管理者:创建动态发布环境,确定信息内容的所有权和信息流的输入输出。,6.6.4 信息构建的应用,1.IA应用的主要领域网站建设 在网络环境下,IA已成功地应用于Web网站的建设,特别是大型网站的信息系统的设计与构建。任何一个在互联网上存在的网站,都涉及到网站空间构建的问题。在国外,信息构建已经作为网站设计和开发的必备知识。,6.6.4 信息构建的应用 2.信息构建在网络信息组织中的应用这种应用实际上就体现为IA信息构建的主要步骤。IA具有三要素:用户、内容和组织。在网络信息组织中同样存在相应的三要素,因此将信息构建应用于网络信息组织,具有内在的合理性。对应性分析表明,用户是网络信息的使用者,需要明确的问题是用户的类型以及用户分别需要什么信息;内容是指获取处理信息和元数据、构造信息单元和组织信息的过程及其相应的信息模块;组织是内容与用户之间的信息开发商和信息服务商及其业务模式、服务策略