知识系统工程方法.ppt
知识工程方法温有奎,一、知识工程概念的提出,知识工程就是探索关于知识的表示、获取(包括学习、保存及交换)和运用(包括检索、推理以及其它各种形式的加工)的理论、方法及实现技术。在1975年第五届国际人工智能会议上,有美国斯坦福大学计算机系教授哥鲍姆作了关于“人工智能技艺”的演讲,提出了知识工程这一概念,由此出现了知识工程的学科,并在近些年来迅速发展和演化。从传统意义上讲,知识工程与信息系统的发展有关,在信息系统中,知识和推理扮演着关键的角色。,CommonKADS是一系列国际研究和知识工程应用项目的结晶。CommonKADS的实际应用表明许多系统项目之所以失败是因为一种叫做技术推动的方法。只有清楚系统的角色和它对组织的潜在影响,并且在系统开发之前和系统开发期间两者达到高度的一致,一个组织才能成功的应用信息和知识技术。因此对于组织的分析而言,引入面向知识的方法和技术是一个很大的进步。,组织的分析目的是建立一个应用推动的方法。这种方法可以面向用户、客户和项目相关人员保证新系统能够解决实际问题或者利用组织内真正的机会。这个方法的其他有用的功能是可以解决复杂人机交互的建模问题,解决新规范技术的引入问题,解决灵活性、风险驱动定义以及可配置的生命周期管理方法的定义问题,该方法替代了用于信息系统项目的瀑布模型(该模型很经典,但过于严格)。,4.1 知识工程的含义与原理,CommonKADS方法学提供了一种结构化方法。它基于几个基本思想或原则,而这些基本思想或原则是从长年的经验中得到的。我们简要地介绍作为现代知识工程基础的基本原则。知识工程不是“从专家的头脑中挖掘”的某种东西,而是由构造人类知识不同方面的模型组成。,习惯上,知识工程被视为一种从专家的头脑中“提取”或“挖掘”出来并以可计算形式传送到机器的过程。这已被证明是原始和相当幼稚的观点。今天,知识工程被视为一种建模活动。模型是对现实的某一部分进行的一种有目的的抽象。建模是对知识的少数几个方面建立一种好的描述(即能够清楚地表达你的目的),而又忽略其他方面。按照CommonKADS的观点,知识项目用于构造某些方面的模型,这些模型应成为项目所提交的产品的一个重要部分。CommonKADS模型套件是分解和结构化知识工程过程的方便工具。,知识级原则:在知识建模中,首先要集中考虑知识的概念结构,而把编程细节留在以后考虑。,知识级原则首先是由AlanNewell(1982)提出的,他说:知识要在概念级上建模,而不应依赖于特殊的计算结构和软件实现。知识建模中所使用的概念应参照和反映现实世界领域,并用相关人员可理解的词汇进行表达。按照CommonKADS的观点,知识系统的制品的设计应当称为保持结构的设计,因为它遵循和保持了所分析的知识的概念结构。,尽管知识的体系结构明显比基于规则的系统的结构更为复杂,但知识确实有可以理解的结构,这就是我们进行成功的知识分析的出发点。从概念上来说,知识级模型通过知识分类可帮助我们理解人类解决问题的世界。现代知识工程的一个重要结果是:人的专长可根据知识的稳定和通用的种类、模式和结构来进行明确的分析。因此,我们把知识看作是具有良好结构的函数模型,其不同部分在人类问题求解中担当着不同的、有限制的和专门的角色。,开发简单或非常著名的信息系统通常遵循一种固定的管理路线。这就是所谓的系统开发的瀑布模型。它由按照预先定义好顺序的一些预先定义的阶段组成:项目的准备和计划;找出客户需求;详细说明和设计系统;编程、测试和交付使用并且只能按这种顺序进行。,知识非常丰富,直接套用这种严格的方法非常困难。快速原型法在知识系统中非常流行,因为它能进行现场学习,并能根据需要随时改变流程。快速原型法的缺点是难以预测和管理,这是它特定的本质。因此,ComnonKADS采用的一种可配置的、平衡的项目管理方法,它比瀑布模型更灵活,比快速原型法更易于控制。知识项目管理遵循螺旋式方法,这种方法支持结构化学习,即CoommonKADS模型的暂时结果或“状态”可作为下一步来采取什么步骤的信号。在确定这些步骤时,目标和风险概念起着关键作用。,我们主要对知识抽取这一技术进行。知识抽取是由一组技术和方法组成的.这些技术和方法通过与专家不同形式的交互来抽取该领域专家的知识。领域专家是指掌握特定知识的人,这些知识可以用来解决我们感兴趣的应用任务。,从始至终,我们将重点放在执行抽取的实际方法和方式上。在知识建模方法论语境中,我们使用例子来说明不同的技巧和工具是怎样在一起协调。,知识抽取的特征,知识抽取可以为知识建模提供素材。这些素材不全是“未加工”的,使用抽取技术后的结果通常是得到一种结构化的数据,例如,标记、图表、术语表、公式和非正式的规则等。意识到脱离了抽取技巧,一个人就无法得到真正且正式的描述是很重要的。在抽取上强加正式的表示将会在抽取过程中导致偏见,甚至经常会得到错误的数据。抽取应该要集中化和结构化,但是也要尽可能的开放。将抽取的原材料转化成问题解决过程中更正式的描述是知识建模的一个任务。,执行知识抽取和知识分析的知识工程师(或者叫知识分析员)实质上不需要掌握很深的应用领域知识。在大多数情况下,他(她)实际上需要请教资深专家。这也许是因为当时没有可用的文档,或者他们意识到在从事的领域中真正的专家来自与实践,而不是死读书本。,以下两个问题在知识抽取过程中相当突出,(1)我们怎样让专家们告诉我们或者给我们演示他们做什么?(2)我们怎样决定他们解决问题的能力是由什么形成的?,这个任务是非常艰巨的,特别是在大的应用语境中显得尤为突出。有很多情况会使问题变得更加难以处理。许多技术知识是从多年积累的经验中获得的,并且是以直观推断的形式表示的。直观推断是一种经验规则或者是一种已证明了的方法这些规则和方法可以用来获得特定信息的结果。通常,专业技术变得如此墨守成规,以至于专家们都无法知道他们做什么或者为什么做。,知识库(KB)知识库管理系统(KBMS),要用计算机进行知识处理和智能处理,则必须要有个“能对知识进行系统化地组织与管理、能存储、增、删、改、查询和检索知识的机构,这就是知识库和知识库管理系统的功能。因此,研究、开发知识库相知识库管理系统就是迫切而又必须要做的事情。,知识的系统化组织与管理,所谓知识,是人们对自然现象的认识和从中总结出规律、经验。人类的知识是极其丰富与庞杂的,如何规范地描述这些认识、规律、经验,一直是人们所探讨的问题。至今还没有一个统一的格式,但常用 KF十R十C模式来表达,其中;K表式知识项(Knowledge),F表事实(Fact),R表示规则(Rules),C表示概念(Concepts)。这里的概念主要指术语的含义、规则的语义说明等。,知识的系统化的组织与管理机制包括:,知识的结构化的存储。由于人类的知识太庞杂了,首先要对知识进行分类,再进行结构化处理,抽象出来,以便能由计算机进行有效的存储,这要与所用的知识表示的方式结合起来,在知识表示里大家可能已经知道了,但还要考虑知识库的存储结构,在下面小节里将对此进行介绍。,技术工具(方法、硬件、软件、系统)包括:,对知识库里存放的知识进行快速有效的查询与检索,对用户提供行之有效的查询与检索工具,是知识库最基本的功能。还应考虑在查询中用户提出的各种约束条件的处理,这个过程就包含了推理的因素,所以有人把这称为“智能性查询”。是有道理的。,对知识库进行增、删、改操作,这是知识库的生命力的体现。因为人类的知识的变化与更新是很频繁的,对知识库里存放的知识进行增、删、改的操作是不可避免的,而且操作的次数还不会少,因此,向用户提供方便的增、删、改操作就显得特别重要了。,在对知识库的增、删、改操作过程中必然会发生矛盾,即非一致性问题。还会出现知识的不完整性问题,这就要进行一致性与完整性处理,这是保证知识库所提供知识的正确性、完整性的重要措施。,对知识进行结构化处理的方法,引入“元规则”(MetaRu1e),即阐述规则的规则,用来指导规则的存储;构成具有层次结构的规则库,以便于查询、检索和运用;组成“树形结构”,如马里兰大学的CSA系统,将规则组成“激发树”;采用“树形结构”,如利用语义网络方法来表达和存储知识;适当地分类组织知识,如卡内基梅隆大学的AM系统,将数学核心概念知识以框架方式存放在事实库中;采用数据库技术,利用各种索引、目录、词典等技术,提高存储、检索效率。,下面介绍的一种规则连接表和谓词规则索引技术的方法,就是一种在一阶谓词逻辑的表示形式下,利用关系数据库提供的存储与管理数据的功能来对规则、事实、概念进行有效管理的一种方法。,在一阶谓词逻辑中,谓词是最基本的语句表示单位,所有的规则和事实都是用谓词表达的。因此,通过谓词将规则库和知识库联系起来,能改变知识库的组织化程度,提高知识检索的效率。,假设知识库KB中所有的谓词集合为P(1)事实库FB可表示成:FBf(Pi),Pi属于P其中,(f(Pi)表示所有的以谓词Pi打头的事实;(2)规则库RB可表示为:RB r(pi);Pi属于 P其中r(Pi)(Pi,ci1,ci2,cin)表示以pi为结论谓词,以cil,ci2,cin为条件谓词的一条规则:,r(Pi)表示所有的以谓词Pi为结论谓词的规则;规定规则连接图的结点表示规则库中的一条规则。若ci是规则r(Q)的一个条件谓词。并且r(ci)属于RB,则在规则连接图中,从结点r(Q)到结点r(ci)画条有向弧。这样,就可以建立起对应于规则库RB的规则连接图RcG;同时,建立从结论谓词到规则的谓词规则索引,就可以一次性地快速检索出与某谓词有关的所有事实和规则。,根据这些谓词很容易从事实库中找出所有以它们打头的事实来。用这种方法,可以快速、一次性地找出所有与某谓词有关的事实和规则来。即使出现递归的情况,也不会影响算法的正确性和效率,因此,这是一种非常有效的知识检索算法。,知识库和知识库管理系统的功能,知识表示功能;应能提供用户一种或多种知识表示方法,目前已有的知识表示方法有谓词逻辑方法、以框架为基础的知识表示方法、产生式规则、语义网络方法、脚本方法等等。常用的是谓词逻辑方法(尤以一阶谓词逻辑用得最为普遍)、框架方式和产生式规则。2对知识有系统化的、组织管理机制,包括事实管理,规则管理,及概念管理,还有知识字典的管理工作。大容量知识的存储与管理是人们必须重视的。,3知识库的操作:知识库的建立与撤消,知识的插入、删除和修改,知识库的重组工作。4能向用户提供对知识项进行查问、检索的功能,例如“知识查询语言”,还应能对用户的查询请求进行语法检查,并给出出错信息。将来,系统会用声、图、文的形式与用户进行交互活功。,5知识的获取与学习功能,知识的编辑功能,在获取新知识的过程中要对知识的完整性、新旧知识的一致性进行处理。6知识库与知识库管理系统的维护与诊断,包括日常的系统事务管理、出错处理等等。7知识库和知识库管理系统的安全控制用户的使用权限管理。,知识模型组件,“知识”与“信息”紧密相关,我们说:一个患者体温达到39.0C的事实是一条信息,但内科医生有相应的知识推断出是否患者发烧。从系统工程的观点来看:知识最可能被看作是一种特殊类型的信息,叫做“关于信息的信息”。知识告诉我们关于特定信息的事情。将知识整合到一个子类体系中,这通常会成为知识建模的工具。两类之间子类链接提供这两类的信息。因此知识具有典型的“关于”特征:它告诉我们关于理解一些其他信息的方式:,四、知识系统的开发步骤,进入与知识建模相关的详细内容之前,我们先来看一个简单例子。试想一个提供贷款的财务应用。这个领域中的两个类和其他一些典型属性如图4.1 所示。该图还表示了信息和知识的区别。信息通常是一个某人X 有一笔贷款Y。我们用一个信息type(类型)做这个信息的模型,在这个例予中,在person(人)和loan(贷款)之间有has_loan(借贷)关系。图中还包含被我们直觉地称为知识的三个陈述。例如,所有申请贷款者至少18周岁。知识作为“关于信息的信息”的观点在这里得到支持。这些陈述告诉我们一些关于上面所列信息的一些情况。这些知识片断告诉我们关于人和贷款的一般信息,而不仅仅是关于特定的人-贷款实例。,借贷,信息 John有$1750贷款Harry有$2500贷款知识贷款人年龄至少满18岁收入达到$10000的人可贷款的最高限额为$2000 收入在$10000到$20000之间的人贷款最高限额为$3000,知识模型,知识模型本身是一个帮助我们阐明知识-密集型信息-处理任务结构的工具。一个应用的知识模型可提供应用所需要的数据和知识结构的规范说明。模型开发成为分析过程的一部分。因此它在应用词汇中表示,包含领域(如汽车、房屋、船舶)和推理任务(如评估、配置、诊断)两层意思。,知识模型在本质上与软件工程中传统分析模型具有相似的结构.推理任务通过对函数或“过程”的层次分解来描述。功能操作的数据和知识类型通过一个类似于数据模型或对象模型的方案来描述。这些概念与其他现代方法所采取的概念在目的上是相似的。当然也有许多关键的区别。,一个知识模型包括三部分,每一部分包含一组相关的知识结构。我们将每一部分称为知识范畴。第一个范畴称为领域知识。这个范畴详细说明特定领域知识和在一个应用中我们所讨论的信息类型。例如,一个涉及医疗诊断应用的领域知识将会包含相关疾病、症状和检验以及这些类型之间关系的定义。一个领域知识的描述在某种程度上类似于软件工程中的“数据模型”或“对象模型”。,知识模型的第二个范畴包含推理知识。推理知识描述了使用领域知识的基本推理步骤。最好是将这些推理看作推理机的构件。在软件工程术语中,推理表示功能分解的最低水平。在医疗诊断应用中的两个推理的例子,是将症状和某种可能疾病相联系的“假设”推理和用于确定某种特定疾病确实是引起所看到的症状的因素的试验的“检验”推理。,知识模型的第三个范畴是任务知识。任务知识描述一个应用所要达到的目标是什么以及如何通过将任务分解成子任务和推理来实现这些目标。这个“如何”包含了任务的动态行为描述,即它们的内在控制。例如,一个简单的医疗诊断应用可将DIAGNOSIS(诊断)作为其最高层任务,并且认为这个诊断可以通过一连串重复执行的“假设”和“检验”推理来实现。任务知识类似于软件工程中功能分解的较高水平,但还包含对相关功能的控制。,三个知识范畴的简要概括和每个范畴的一些实例知识元素,任务知识与任务方法,推理总有一个“原因”。换句活说,知识的一个重要方面是我们想用它做什么。我们想应用知识达到什么目标?我们下面就提出知识的典型目标:我们想评估一个贷款应用,将损失的风险最小化。我们想找到复印机的故障原因,以尽快恢复服务。我们想给新建筑设计电梯。,任务和任务方法可分别理解为关于推理任务的“需要做什么”和“怎样做”。任务定义复杂推理功能。高层任务通常与任务模型中定义的任务一致。任务规范说明告诉我们任务的输入和输出时什么。例如,医疗诊断任务的输出不是:“疾病”,而是类似“错误范畴”之类的抽象名称。,知识模型模板,1.任务摸板任务模板形成了一种有关模型元素的可复用组合的公共类型。一个任务模板就是一个部分的知识模型,其中已经指定了推理知识和任务知识。任务模板给知识工程师提供解决某个问题的典型的推理和任务。此外,任务模板还规定一种任务观点所要求的典型的领域模式。知识工程师可用任务模板作为一个新应用的模板,进行支持自顶向下的知识分析。,2.任务类型一般来说,当知识工程同软件工程相比时,其优点就在任务类型的范围有限。在认知心理学专著中给出了有关知识密集(人类)型的推理任务的任务类型学。许多作者已经采用并进行了细化以应用在知识工程中。,我们将任务分成两类:分析(analytic)任务和综合(syntheic)任务。分析任务 一个很有名的分析任务类型就是classfication(分类)。,图4.7所示的任务层次结构,分析任务类型一览,分析任务,分析任务 一个很有名的分析任务类型就是classfication(分类)。这种任务类型的原型例子是动物和植物的分类。在分类中,一个对象需要用他所属的类别来描述其特征。基础知识通常为每一类别提供对对象特征值的约束。分类经常涉及到“自然的”(而不是人造的)对象。,Diagnosis(诊断)和分类的不同之处在于诊断想要得到的输出是该系统的一个故障。该任务类型的一个例子是诊断某个电路网络中的故障。在诊断时,基础知识一般都包含于析系统行为的知识。例如一个因果关系模型。诊断的输出(故障类别)有很多种形式:它可以是一个故障组件,一个故障状态,一个因果关系链,甚至一个抽象的标签,而这个标签没有任何内部系统含义。诊断任务经常出现在技术系统领域。,Assessment(评估)这个任务类型经常在财政和社会服务领域出现。评估的目标是用一个决策的类别来描述一个案例的特征。例如,在贷款评估时,任务的输入是一个关于某人申请贷款的案例,输出是一个诸如“是否需要更多信息”之类的决策类别,以显示是否给该人发放贷款。基础知识一般都包括一个用于评估的规范集或标准集。,monitor(监控)时,被分析的系统具有动态的性质,一般都有一个正在进行的过程。核电厂监控和一个软件项目的监控都是监控任务的例子。每个监控周期看起来都像一个评估任务。主要区别是在监控时,输出只是一个差异(系统是否工作正常?)而不是一个决策类别。前一周期的数据可以用在新的周期中。,虽然 prediction(预测)有一些综合任务的特性,但是我们还是把他归于分析任务这一类。在预测时,可以分析现在的系统行为以便描述系统在将来某个时间点的状态。天气预报就是一个预测任务。预测任务经常出现在教学系统(如物理学)的知识密集型模块中。与预测任务相反的任务也存在,即回推(retrodiction)大爆炸理论就是一个著名的例子。,综合任务,综合任务 design(设计)就是一个综合任务,其中要构建的系统是一些物理制品。设计任务的一个例子是设计一辆汽车。设计任务一般包括组件的创造性设计,就像汽车设计一样。创造性设计对现在的知识技术来说是个非常难解决的问题。为了使系统构建可行,我们假设制品所有的组件预先定义好了这种设计的子类型称为配置设计(configuration design).用一系列Lego 木块造一条船就是一个配置设计的任务的著名例子。另外一个例子是计算机系统的配置。,assignment(分配)是一个相对比较简单的综合任务,其中有两个对象集,我们需要在它们之间建立一个(部分的)映射。比如给职员分配办公室、给飞机分配跑道都是分配的例子。分配必须同约束保持一致(“波音747”不能放在3538的跑道上),也要符合偏好(荷兰航空公司的飞机应该停靠在航空集散站1)。,planning(规划)有许多和设计一样的特性,主要区别在于所构建的系统类型。设计主要关注物理对象的构建,而规划则关注活动和它们的时间依赖性。规划任务的例子有旅行规划和建筑活动的规划。而且,规划任务的自动化只有在基本的规划都预先定义好了才可行。因为它们之间存在相似性,所以设计模型有时能用于规划,反之亦然。,scheduling(调度)经常放在规划之后。规划交付一系列活动;在调度时,需要在一定的时间间隔里给这些活动(“作业”)分配好资源。输出是一个在活动和时间槽之间的映射,同时遵守约束(A 必须在 B 之前)而且尽可能满足偏好(C 的讲座更适合安排在星期五)因此,调度同分配有密切的关系,主要的区别在于调度具有面向时间的特征。调度的例子有大学某个系的讲座调度和某工厂生产线的工作休息调度。,为了保持完整性,我们把 modelling(建模)也作为一种综合任务。在建模时,我们构建一个系统的抽象描述以便解释和预测该系统的属性或现象。知识建模本身就是建模任务的一个例子。另外一个例子是构建一个核事故的模拟模型。建模任务很少在系统中自动运行,但是有时也用在知识管理的语境中。我们所涉及的一个实际例子是构建一个核事故模拟领域退休专家的建模专门技术的知识模型。,分类,目标 分类主要是为一个对象确定正确的类别(或者种类)。对象能够用于检查。分类以对象的特征为基础。典型例子 苹果的分类。一块岩石中矿物质的分类术语 对象:要找到类别或种类的那个物体,比如某个苹果。类别:一组特征相似的对象,比如一种GrannySmith苹果。属性:一个能被观察或推测的特征,比如苹果的颜色。特性:某个对象具有的一个属性-值对,如“颜色绿色”,输入 需要确定类别的对象。输出 找到的类别。特性 分类是最简单的分析任务之一,并包含了许多方法。其他的分析任务有时可以简化为一个分类问题。尤其是诊断任务经常可以进行这样的简化:完整的诊断需要关于因果行为的知识,但是如果将它简化为症状和故障的直接关联,它就可以被看成是一个分类问题。,默认方法 首先要做的一个决定是是否选择一种数据驱动或者方案驱动的方法。数据驱动的方法从一些初始特性开始,这些特征用来产生一组候选方案。方案的驱动方法从所有可能的方案集合开始,然后在所收集的信息的基础上尽量简化这个集合。,指定属性,专家们一般可以提供这种类型的属性顺序信息。规范知识则以一棵决策树的形式呈现。更复杂的方法是计算有最高信息潜能的属性。有许多用于该方法的算法。最后一种方法非常有效,但是可能导致与用户和专家相悖的系统行为(虽然在理论上是最优的)。,获取特性 一般要让用户输入一个“未知”值。有时,也有领域知识建议某些属性应该一起或得。匹配 这个推理要为每一个候选方案执行,并产生一个真值来指示候选类别是否与收集到的信息保持一致。该推理应该能处理关于某些属性的“未知”值。标准的方法是每一候选方案都与一个“未知”值保持一致。,评估,一般特征 目标 根据一个特定领域规范集给某个案例找到一个决策类别。典型例子 决定某人是否能得到她所申请的贷款。术语 评估的情况,比如关于借款者和需要贷款的数据。决策类别 比如是否可以发放贷款。规范 用来做出决定的领域知识,比如将收入同可贷款数目联系起来的规则。输入 关于案例的数据(通常),特定案例的规范(有时)。输出 决策类别。,特性 特性评估的结构看起来和监控的结构非常相似。有两个主要的区别:首先监控中经常有一个时间方面的考虑:评估在时间的某一个点执行,而在监控中任务在时间间隔执行。其次,输出也不同。监控输出的是差异而不是决策类别。第二个区别相当细微,而且经常不清晰。可以尝试着将监控视为评估任务的一个延续,其中以前的结果在新的评估循环中重新使用。,抽象案例 一般来说,有些案例数据需要抽象。所需的抽象由规范使用的数据决定。抽象在这里被模型化为一条重复执行的推理,直到无法再进行抽象:抽象后的特性加入到案例中。指定规范 经过抽象后,需要做的第一步是找到能用于该案例的规范或标准。大多数评估任务所使用的规范都至少部分依赖案例,因而案例作为这个推理的一个输入角色。例如,一个贷款评估应用中的某个规范可以是“贷款额该同收入匹配”,选择规范 需要从刚才的推理所产生的规范集中选择一个规范来用于评价。对于最简单的案例来说,这个选择就是随机的。然而,经常有可用的领域知识指示规范评价的某种顺序。这个知识能够指导选择。选择知识没必要十分完整.因为系统经常将随机选择作为默认的方法。评价规范 根据案例数据来评价所选择的规范。这个函数产生一个用于该规范的真值,比如“贷款额与收入匹配为假值”。一般而言,这个函数的计算非常简单。,典型的领域模式 在默认方法中有四种主要的信息和知识类型:1)案例数据的规范说明:这经常是两个领域类型的特性的组合,比如申请者和所申请的贷款(在贷款评估领域)。2)案例抽象知识:指定案例数据之间的依赖关系。3)规范评价知识:指定案例数据和规范之间的逻辑依赖关系。如前所述,规范顺序知识也能加入其中。4)决策知识:指定能作为任务输出的决策选项,以及规范值和一个特定决策之间的逻辑依赖关系。,诊断的典型的领域模式,监控任务模板的推理结构,