2018知识图谱发展报告.docx
知识图谱发展报告20181 .知识图谱的研究目标与意义知识图谱(KnOWledgeGnlPh)以结构化的形式描述客观世界中概念、实体及其关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。知识图谱给互联网语义搜索带来了活力,同时也在智能问答中显示出强大威力,已经成为互联网知识驱动的智能应用的基础设施。知识图谱与大数据和深度学习一起,成为推动互联网和人工智能发展的核心驱动力之一。知识图谱技术是指知识图谱建立和应用的技术,是融合认知计算、知识表示与推理、信息检索与抽取、自然语言处理与语义Web、数据挖掘与机器学习等方向的交叉研究。知识图谱于2012年由谷歌提出并成功应用于搜索引擎,知识图谱属于人工智能重要研究领域一一知识工程的研究范畴,是利用知识工程建立大规模知识资源的一个杀手铜应用。94年图灵奖获得者、知识工程的建立者费根鲍姆给出的知识工程定义一一将知识集成到计算机系统从而完成只有特定领域专家才能完成的复杂任务。在大数据时代,知识工程是从大数据中自动或半自动获取知识,建立基于知识的系统,以提供互联网智能知识服务。大数据对智能服务的需求,己经从单纯的搜集获取信息,转变为自动化的知识服务。我们需要利用知识工程为大数据添加语义/知识,使数据产生智慧(smartdata),完成从数据到信息到知识,最终到智能应用的转变过程,从而实现对大数据的洞察、提供用户关心问题的答案、为决策提供支持、改进用户体验等目标。知识图谱在下面应用中已经凸显出越来越重要的应用价值:- 知识融合:当前互联网大数据具有分布异构的特点,通过知识图谱可以对这些数据资源进行语义标注和链接,建立以知识为中心的资源语义集成服务;- 语义搜索和推荐:知识图谱可以将用户搜索输入的关键词,映射为知识图谱中客观世界的概念和实体,搜索结果直接显示出满足用户需求的结构化信息内容,而不是互联网网页;- 问答和对话系统:基于知识的问答系统将知识图谱看成一个大规模知识库,通过理解将用户的问题转化为对知识图谱的查询,直接得到用户关心问题的答案;- 大数据分析与决策:知识图谱通过语义链接可以帮助理解大数据,获得对大数据的洞察,提供决策支持。2 .知识工程的发展历程知识图谱的发展是人工智能重要分支知识工程在大数据环境中的成功应用。回顾知识工程四十年来发展历程,总结知识工程的演进过程和技术进展,体会知识工程为人工智能所做出的贡献和未来面临的挑战,可以将知识工程分成五个标志性的阶段,前知识工程时期、专家系统时期、万维网1.0时期,群体智能时期以及知识图谱时期。195CM970年代19902000年代图I.知识工程发展历程1950-1970时期:图灵测试人工智能旨在让机器能够像人一样解决复杂问题,图灵测试是评测智能的是手段。这一阶段主要有两个方法:符号主义和连结主义。符号主义认为物理符号系统是智能行为的充要条件,连结主义则认为大脑(神经元及其连接机制)是一切智能活动的基础。这一阶段具有代表性的工作是通用问题求解程序(GPS):将向题进行形式化表达,通过搜索,从问题初始状态,结合规则或表示得到目标状态。其中最成功应用是博弈论和机器定理证明等。这一时期的知识表示方法主要有逻辑知识表示、产生式规则、语义网络等。这一时代人工智能和知识工程的先驱Minsky,Mccarthy和Newell以Simon四位学者因为他们在感知机、人工智能语言和通用问题求解和形式化语言方面的杰出工作分别获得了1969年、1971年、1975年的图灵奖。1970-1990时期:专家系统通用问题求解强调利用人的求解问题的能力建立智能系统,而忽略了知识对智能的支持,使人工智能难以在实际应用中发挥作用。70年开始,人工智能开始转向建立基于知识的系统,通过知识库+推理机实现智能,这一时期涌现出很多成功的限定领域专家系统,如MYCIN医疗诊断专家系统、识别分子结构的DENRAL专家系统以及计算机故障诊断XCON专家系统等。94年图灵奖获得者FeigenbaUm教授在70年代提出知识工程的定义,确立了知识工程在人工智能中的核心地位。这一时期知识表示方法有新的演进,包括框架和脚本等。80年代后期出现很多专家系统的开发平台,可以帮助将专家的领域知识转变成计算机可以处理的知识。1990-2000时期:万维网Web1.()在1990年代到2000年,出现了很多人工构建大规模知识库,包括广泛应用的英文WordNet,采用一阶谓词逻辑知识表示的Cyc常识知识库,以及中文的HownetoWebl.0万维网的产生为人们提供了一个开放平台,使用HTML定义文本的内容,通过超链接把文本连接起来,使得大众可以共享信息。W3C提出的可扩展标记语言XML,实现对互联网文档内容的结构通过定义标签进行标记,为互联网环境下大规模知识表示和共享奠定了基础。这一时期还提出了本体的知识表示方法。2000-2006时期:群体智能Web2.0WebkO万维网的出现使得知识从封闭知识走向开放知识,从集中知识成为分布知识。原来专家系统是系统内部定义的知识,现在可以实现知识源之间相互链接,可以通过关联来产生更多的知识而非完全由固定人生产。这个过程中出现了群体智能,最典型的代表就是维基百科,实际上是用户去建立知识,体现了互联网大众用户对知识的贡献,成为今天大规模结构化知识图谱的重要基础。也是在2001年,万维网发明人、2016年图灵奖获得者TimBerners-Lee提出语义Web的概念,旨在对互联网内容进行结构化语义表示,并提出互联网上语义标识语言RDF(资源描述框架)和OWL(万维网本体表述语言),利用本体描述互联网内容的语义结构,通过对网页进行语义标识得到网页语义信息,从而获得网页内容的语义信息,使人和机器能够更好地协同工作。2006年至今:知识图谱“知识就是力量”,将万维网内容转化为能够为智能应用提供动力的机器可理解和计算的知识是这一时期的目标。从2006年开始,大规模维基百科类富结构知识资源的出现和网络规模信息提取方法的进步,使得大规模知识获取方法取得了巨大进展。与Cyc、WOrdNet和HoWNet等手工研制的知识库和本体的开创性项目不同,这一时期知识获取是自动化的,并且在网络规模下运行。当前自动构建的知识库已成为语义搜索、大数据分析、智能推荐和数据集成的强大资产,在大型行业和领域中正在得到广泛使用。典型的例子是谷歌收购FreebaSe后在2012年推出的知识图谱(KnowledgeGraph),Facebook的图谱搜索,MiCroSOftSatOri以及商业、金融、生命科学等领域特定的知识库。最具代表性大规模网络知识获取的工作包括DBPedia,Freebase,KnowItAll,WikiTaxonomy和YAGO,IilSBabelNet,ConceptNet,DeepDive,NELL,Probase,Wikidata,XLore,ZhiShi.me等。这些知识图谱遵循RDF数据模型,包含数以千万级或者亿级规模的实体,以及数十亿或百亿事实(即属性值和与其他实体的关系),并且这些实体被组织在成千上万的由语义类体现的客观世界的概念结构中。现在我们看知识图谱的发展和应用状况,除了通用的大规模知识图谱,各行业也在建立行业和领域的知识图谱,当前知识图谱的应用包括语义搜索、问答系统与聊天、大数据语义分析以及智能知识服务等,在智能客服、商业智能等真实场景体现出广泛的应用价值,而更多知识图谱的创新应用还有待开发。3 .知识图谱技术人们通过概念掌握对客观世界的理解,概念是对客观世界事物的抽象,是将人们对世界认知联系在一起的纽带。知识图谱以结构化的形式描述客观世界中概念、实体及其关系。实体是客观世界中的事物,概念是对具有相同属性的事物的概括和抽象。本体是知识图谱的知识表示基础,可以形式化表示为,O=C,H,P,A,I,C为概念集合,如事物性概念和事件类概念,H是概念的上下位关系集合,也称为Taxonomy知识,P是属性集合,描述概念所具有的特征,A是规则集合,描述领域规则,I是实例集合,用来描述实例属性值。Google于2012年提出知识图谱,并在语义搜索中取得成功应用。知识图谱可以看做是本体知识表示的一个大规模应用,Google知识图谱的知识表示结构主要描述客观存在实体和实体的关系,对于每个概念都有确定的描述这个概念的属性集合。知识图谱技术是知识图谱建立和应用的技术,是语义Web、自然语言处理和机器学习等的交叉学科。我们将知识图谱技术分为三个部分:知识图谱构建技术、知识图谱查询和推理技术,以及知识图谱应用。在大数据环境下,从互联网开放环境的大数据中获得知识,用这些知识提供智能服务互联网/行业,同时通过互联网可以获得更多的知识。这是一个迭代的相互增强过程,可以实现从互联网信息服务到智能知识服务的跃迁。3.1 知识图谱构建知识表示与建模知识表示将现实世界中的各类知识表达成计算机可存储和计算的结构。机器必须要掌握大量的知识,特别是常识知识才能实现真正类人的智能。从有人工智能的历史开始,就有了知识表示的研究。知识图谱的知识表示以结构化的形式描述客观世界中概念、实体及其关系,将互联网的信息表达成更接近人类认知世界的形式,为理解互联网内容提供了基础支撑。知识表示学习随着以深度学习为代表的表示学习的发展,面向知识图谱中实体和关系的表示学习也取得了重要的进展。知识表示学习将实体和关系表示为稠密的低维向量,IV实现了对实体和关系的分布式表示,可以高效地对实体和关系进行计算,、缓解知识稀疏、有助于实现知识融合,已经成为知识图谱语义链接预测和知识补全的重要方法。由于知识表示学习能够显著提升计算效率,有效缓解数据稀疏,实现异质信息融合,因此对于知识库的构建、推理和应用具有重要意义,值得广受关注、深入研究。实体识别与链接实体是客观世界的事物,是构成知识图谱的基本单位(这里实体指个体或者实例)。实体分为限定类别的实体(如常用的人名、地名、组织机构等)以及开放类别实体(如药物名称、疾病等名称)。实体识别是识别文本中指定类别的实体。实体链接是识别出文本中提及实体的词或者短语(称为实体提及),并与知识库中对应实体进行链接。实体识别与链接是知识图谱构建、知识补全与知识应用的核心技术。实体识别技术可以检测文本中的新实体,并将其加入到现有知识库中。实体链接技术通过发现现有实体在文本中的不同出现,可以针对性的发现关于特定实体的新知识。实体识别与链接的研究将为计算机类人推理和自然语言理解提供知识基础。实体关系学习实体关系描述客观存在的事物之间的关联关系,定义为两个或多个实体之间的某种联系,实体关系学习就是自动从文本中检测和识别出实体之间具有的某种语义关系,也称为关系抽取。实体关系抽取分类预定义关系抽取和开放关系抽取。预定义关系抽取是指系统所抽取的关系是预先定义好的,比如知识图谱中定义好的关系类别,如上下位关系、国家一首都关系等。开放式关系抽取。开放式关系抽取不预先定义抽取的关系类别,由系统自动从文本中发现并抽取关系。实体关系识别是知识图谱自动构建和自然语言理解的基础。事件知识学习事件是促使事物状态和关系改变的条件,是动态的、结构化的知识。目前己存在的知识资源(如谷歌知识图谱)所描述多是实体以及实体之间的关系,缺乏对事件知识的描述。针对不同领域的不同应用,事件有不同的描述范畴。一种将事件定义为发生在某个特定的时间点或时间段、某个特定的地域范围内,由一个或者多个角色参与的一个或者多个动作组成的事情或者状态的改变。一种将事件认为是细化了的主题,是由某些原因、条件引起,发生在特定时间、地点,涉及某些对象,并可能伴随某些必然结果的事情。事件知识学习,即将非结构化文本文本中自然语言所表达的事件以结构化的形式呈现,对于知识表示、理解、计算和应用意义重大。知识图谱中的事件知识隐含互联网资源中,包括已有的结构化的语义知识、数据库的结构化信息、半结构化的信息资源以及非结构化资源,不同性质的资源有不同的知识获取方法。3.2 知识图谱查询和推理计算知识存储和查询知识图谱以图(GraPh)的方式来展现实体、事件及其之间的关系。知识图谱存储和查询研究如何设计有效的存储模式支持对大规模图数据的有效管理,实现对知识图谱中知识高效查询。因为知识图谱的结构是复杂的图结构,给知识图谱的存储和查询带来了挑战。当前目前知识图谱多以三元存在的RDF形式进行存储管理,对知识图谱的查询支持SPARQL查询。知识推理知识推理从给定的知识图谱推导出新的实体跟实体之间的关系。知识图谱推理可以分为基于符号的推理和基于统计的推理。在人工智能的研究中,基于符号的推理一般是基于经典逻辑(一阶谓词逻辑或者命题逻辑)或者经典逻辑的变异(比如说缺省逻辑)。基于符号的推理可以从一个已有的知识图谱推理出新的实体间关系,可用于建立新知识或者对知识图谱进行逻辑的冲突检测。基于统计的方法一般指关系机器学习方法,即通过统计规律从知识图谱中学习到新的实体间关系。知识推理在知识计算中具有重要作用,如知识分类、知识校验、知识链接预测与知识补全等。3.3 知识图谱应用通用和领域知识图谱知识图谱分为通用知识图谱与领域知识图谱两类,两类图谱本质相同,其区别主要体现在覆盖范围与使用方式上。通用知识图谱可以形象地看成一个面向通用领域的结构化的百科知识库,其中包含了大量的现实世界中的常识性知识,覆盖面广。领域知识图谱又叫行.业知识图谱或垂直知识图谱,通常面向某一特定领域,可看成是一个基于语义技术的行业知识库,因其基于行业数据构建,有着严格而丰富的数据模式,所以对该领域知识的深度、知识准确性有着更高的要求。语义集成语义集成的目标就是将不同知识图谱融合为一个统一、一致、简洁的形式,为使用不同知识图谱的应用程序间的交互提供语义互操作性。常用技术方法包括本体匹配(也称为本体映射)、实例匹配(也称为实体对齐、对象共指消解)以及知识融合等。语义集成是知识图谱研究中的一个核心问题,对于链接数据和知识融合至关重要。语义集成研究对于提升基于知识图谱的信息服务水平和智能化程度,推动语义网以及人工智能、数据库、自然语言处理等相关领域的研究发展,具有重要的理论价值和广泛的应用前景,可以创造巨大的社会和经济效益。语义搜索知识图谱是对客观世界认识的形式化表示,将字符串映射为客观事件的事务(实体、事件以及之间的关系)。当前基于关键词的搜索技术在知识图谱的知识支持下可以上升到基于实体和关系的检索,称之为语义搜索。语义搜索利用知识图谱可以准确地捕捉用户搜索意图,借助于知识图谱,直接给出满足用户搜索意图的答案,而不是包含关键词的相关网页的链接。基于知识的问答问答系统(QUeStionAnswering,QA)是指让计算机自动回答用户所提出的问题,是信息服务的一种高级形式。不同于现有的搜索引擎,问答系统返回用户的不再是基于关键词匹配的相关文档排序,而是精准的自然语言形式的答案。华盛顿大学图灵中心主任Etzioni教授2011年曾在Nature上发表文章SearchNeedsaShake-Up,其中明确指出:“以直接而准确的方式回答用户自然语言提问的自动问答系统将构成下一代搜索引擎的基本形态”Etzioni0.,201lo因此,问答系统被看做是未来信息服务的颠覆性技术之一,被认为是机器具备语言理解能力的主要验证手段之一。4.报告的宗旨和组织结构中国中文信息学会语言与知识计算专委会旨在为学术界和工业界提供在知识图谱、语义计算和语言理解等方面的产学研用的交流平台,提升语言与知识计算学术方向在国家科学研究和国际学术方面的影响力,促进研究成果应用和向产品的转化。知识图谱发展报告是语言与知识计算专委会邀请知识图谱技术领域专家对本学科方向和前沿技术的一次梳理,并在今后定期更新最新进展。我们的定位是深度科普,旨在向政府、企业、媒体等对知识图谱感兴趣的研究机构和企业界介绍相关领域的基本概念、研究和应用方向,向高校、科研院所和高技术企业中从事相关工作的专业人士介绍相关领域的前沿技术和发展趋势。目录第一章知识表示与建模1第二章知识表示学习12第三章实体识别与链接21第四章实体关系学习29第五章事件知识学习45第六章知识存储与查询65第七章知识推理83第八章通用和领域知识图谱98第九章语义集成124第十章语义搜索134第十一章基于知识的问答145第一章知识表示与建模1.什么是知识表示尽管人工智能依靠机器学习技术的进步取得了巨大的进展,例如,AlphaGoZero不依赖人类知识的监督,通过自我强化学习击败获得极高的棋力,但人工智能在很多方面,如语言理解、视觉场景理解、决策分析等,仍然举步维艰。一个关键的问题就是,机器必须要掌握大量的知识,特别是常识知识才能实现真正类人的智能。哲学家柏拉图把知识(KnOWIedge)定义为“JustifiedTrueBelief,即知识需要满足三个核心要素:合理性(Justified)、真实性(True)、被相信(Believed)。简单而言,知识是人类通过观察、学习和思考有关客观世界的各种现象而获得和总结出的所有事实(Facts)、概念(Concepts)规则或原则(Rules&Principles)的集合。人类发明了各种手段来描述、表示和传承知识,如自然语言、绘画、音乐、数学语言、物理模型、化学公式等。具有获取、表示和处理知识的能力是人类心智区别于其它物种心智的重要特征。人工智能的核心也是研究怎样用计算机易于处理的方式表示、学习和处理各种各样的知识。知识表示是现实世界的可计算模型(ComputableModelofReality),广义的讲,神经网络也是一种知识表示形式。上世纪90年代,MITAl实验室的R.Davis定义了知识表示的五大用途或特点:(1)客观事物的机器标示(AKRisaSurrogate),即知识表示首先需要定义客观实体的机器指代或指称。(2)一组本体约定和概念模型(AKRisasetofOmologicalCOmmitments),即知识表示还需要定义用于描述客观事物的概念和类别体系。(3)支持推理的表示基础(AKRiSaTheOryoflntenigentReaSoning),即知识表示还需要提供机器推理的模型与方法。(4)用于高效计算的数据结构(AKRiSamediUmforEffkiemComPUtatiOn),即知识表示也是一种用于高效计算的数据结构。(5)人可理解的机器语言(AKRisaMediumofHumanExpression),即知识表示还必须接近于人认知,是人可理解的机器语言。有关知识表示的研究可以追溯到人工智能的早期研究。例如,1960年,认知科学家AlIanM.Collins提出了SemanticNetwork(语义网络)的知识表示方法,以网络的方式来描述概念之间的语义关系。典型的语义网络如WOrdNet属于词典类的知识库,主要定义名词、动词、形容词和副词之间的语义关系。1970年,随着专家系统的提出和商业化发展,知识库构建和知识表示更加得到重视。传统的专家系统通常包含知识库(KnoWledgeBaSe)和推理引擎(InferenceEngine)两个核心模块。早期专家系统最常用的知识表示方法包括基于框架的语言(Frame-basedLanguages)和产生式规则(ProductionRules)等。框架语言主要用于描述客观世界的类别、个体、属性及关系等,较多的被应用于辅助自然语言理解。产生式规则主要用于描述类似于IF-THEN的逻辑结构,适合于刻画过程性知识。不论是语义网络,还是框架语言和产生式规则都缺少严格的语义理论模型和形式化的语义定义。为了解决这一问题,人们开始研究具有较好的理论模型基础和算法复杂度的知识表示框架。比较有代表性的是描述逻辑语言(DeSCriPtionLogic)0描述逻辑是目前大多数本体语言(如OWL)的理论基础。第一个描述逻辑语言是1985年由RonaldJ.Bmehman等提出的KL-ONEo描述逻辑主要用于刻画概念(ConCepts)、属性(Roles)>个体(Individual)>关系(Relationships元语(Axioms,即逻辑描述LogicStatement)等知识表达要素。与传统专家系统的知识表示语言不同,描述逻辑家族更为关心知识表示能力和推理计算复杂性之间关系,并深入研究了各种表达构件的组合所带来的查询、分类、一致性检测等推理计算的计算复杂度问题。1998年,Web之父TimBernersLee提出了SemanticWeb的概念。其早期理想是希望把传统基于超文本链接的Web逐步转化为基于实体链接的语义网。语义网的基础数据模型RDF受到了元数据模型、框架系统和面向对象语言等多方面的影响,其最初的目的是为人们在Web上发布结构化数据提供一个标准的数据描述框架。RDF最基本的表达构件是被称为三元组的(SUbjeCt,Predicate,Object)。与此同时,语义网进一步吸收描述逻辑的研究成果,发展出了用OWL系列标准化本体语言。现代知识图谱如DBPedia、YagoFreebaseSchema.ORG、Wikidata等大都以语义网的表达模型为基础进行扩展或删减。不论是早期专家系统时代的知识表示方法,还是语义网时代的知识表示模型,都属于以符号逻辑为基础的知识表示方法。符号知识表示的特点是易于刻画显性、离散的知识,因而具有内生的可解释性。但由于人类知识还包含大量不易于符号化的隐性知识,完全基于符号逻辑的知识表示通常由于知识的不完备而失去鲁棒性,特别是推理很难达到实用。由此催生了采用连续向量方式来表示知识的研究。基于向量的方式表示知识的研究由来已有。表示学习的发展,以及自然语言处理领域词向量等嵌入(Embedding)技术手段的出现,启发了人们用类似于词向量的低维稠密向量的方式表示知识的研究。通过嵌入(Embedding)将知识图谱中的实体和关系投射到一个低维的连续向量空间,可以为每一个实体和关系学习出一个低维度的向量表示。这种基于向量的知识表示可以实现通过数值运算来发现新事实和新关系,并能更有效的发现更多的隐性知识和潜在假设,这些隐性知识通常是人的主观不易于观察和总结出来的。更为重要的是,知识图谱嵌入也通常作为一种类型的先验知识辅助输入到很多深度神经网络模型中,用来约束和监督神经网络的训练过程。基于离散符号的知识表示RDF, OWL,各种RUIe LangUage等显式知识、强逻辑约束、易于解释' 推理不易扩展Tensor,各种Embedding,神经网络表示等基于连续向量的知识表示隐式知识、弱逻辑约束、不易解释、对接神经网络图1.基于离散符号的知识表示与基于连续向量的知识表示综上所述,知识图谱时代的知识表示方法与传统人工智能相比,已经发生了很大的变化。一方面,现代知识图谱受到规模化扩展的要求,通常采用以三元组为基础的较为简单实用的知识表示方法,并弱化了对强逻辑表示的要求;另外一方面,由于知识图谱是很多搜索、问答和大数据分析系统的重要数据基础,基于向量的知识图谱表示使得这些数据更加易于与深度学习模型集成,使得基于向量空间的知识图谱表示得到越来越多的重视。由于知识表示涉及大量传统人工智能的内容,并有其明确、严格的内涵及外延定义,为避免混淆,本文主要侧重于知识图谱的表示方法的介绍,因此将“知识表示”和“知识图谱的表示方法”加以了区分。2 .知识图谱的表示方法与传统专家系统时代的知识库不同,现代知识图谱通常规模巨大,这导致知识图谱的表示方法也与传统的知识表示有所不同。下面从知识图谱的规模化发展对知识表示带来的挑战出发,分别介绍了基于符号和基于向量的知识表示方法。2.1 知识图谱的规模化带给知识表示的挑战与传统专家系统时代主要依靠专家手工获取知识不同,现代知识图谱的显著特点是规模巨大,无法单一依靠人工和专家构建。传统的知识库,如由DouglasLenat从1984年开始创建的常识知识库CyC仅包含700万条1的事实描述下文有关知识图谱规模的描述都以三元组(Triple)为计算单元,一个元组对应一条事实描述(Factor3(Assertion)oWordnet主要依靠语言学专家定义名词、动词、形容词和副词之间的语义关系,目前包含大约20万条的语义关系。由著名人工智能专家MarvinMinsky于1999年起开始构建的ConceptNet常识知识库依靠了互联网众包、专家创建和游戏三种方法,但早期ConCePtNet规模在百万级别,最新的ConCePINet5.0也仅包含2800万RDF三元组关系描述。现代知识图谱如谷歌和百度的知识图谱都已经包含超过千亿级别的三元组,阿里巴巴于2017年8月份发布的仅包含核心商品数据的知识图谱也已经达到百亿级别。DBpedia已经包含约30亿RDF三元组,多语种的大百科语义网络BabelNet包含19亿的RDF三元组,Yago3.0包含1.3亿元组,Wikidata已经包含4265万条数据条目,元组数目也已经达到数十亿级别。截至目前,开放链接数据项目LinkedOpenDataAssertion) hup:" I(XkClOUd.nei统计了其中有效的2973个数据集,总计包含大约1494亿三元组。元组级千亿百亿亿千万百万万19601980200020102020 时间图2.知识库及知识图谱的规模发展趋势现代知识图谱对知识规模的要求源于“知识完备性”难题。冯诺依曼曾估计单个个体的大脑中的全量知识需要2.4*1020个bits来存储。客观世界拥有不计其数的实体,人的主观世界更加包含有无法统计的概念,这些实体和概念之间又具有更多数量的复杂关系,导致大多数知识图谱都面临知识不完全的困境。在实际的领域应用场景中,知识不完全也是困扰大多数语义搜索、智能问答、知识辅助的决策分析系统的首要难题。知识图谱对规模的扩展需求使得知识表示方法逐渐发生了四个方面的变化:(1)从强逻辑表达转化为轻语义表达;(2)从较为注重TBox概念型知识转化为更加注重ABox事实型知识;(3)从以推理为主要应用目标转化为综合搜索、问答、推理、分析等多方面的应用目标;(4)从以离散的符号逻辑表示向以连续的向量空间表示方向发展。传统常识知识库如Cyc的知识表示语言主要以一阶谓词逻辑(FOPC)为基础,扩展了新介(Equality)>(Defaultreasoning斯科林化(SkolemiZatiOn)和部分二阶谓词逻辑等知识表示能力。基于描述逻辑(DeSCriPtiOnLogic)的本体语言(Onogy),如EL+,为可判定可扩展的自动推理提供了知识表示理论基础,并更加侧重于TBox概念型知识。而现代知识图谱如Freebase、Wikidata>Yago、SChema.Org等都在逻辑的语义表达方面降低了要求,并以事实型知识为主。例如,FreebaSe的知识表示框架只包含如下几个要素:对象-Object,事实-FaCts,类型-TyPeS和属性-ProPerties。“Object”代表实体;一个"Object”可以有一个或多个"Types“;"Properties”用来描述“Facts”;并使用复合值类型(CVT:CompoundValueTypes)来处理多元关系。SChemaQrg只定义轻量的Schema,突出ABoX事实型数据的重要性。此外,随着表示学习与深度神经网络的发展,一个重要的发展趋势是基于向量的知识表示方法得到越来越多的重视。传统基于逻辑的符号知识表示的优点是基于显性知识表示,因而表示能力强,能处理较为复杂的知识结构,具有可解释性,并支持复杂的推理。基于表示学习的连续向量表示优点是易于捕获隐性知识,并易于与深度学习模型集成,缺点是对复杂知识结构的支持不够,可解释性差,不能支持复杂推理。目前,基于符号和基于向量的知识图谱表示并存并逐步相互融合。2.2 基于符号的知识图谱表示方法目前大多数知识图谱的实际存储方式都是以传统符号化的表示方法为主。大多数开放域的知识图谱都是基于语义网的表示模型进行了扩展或删改。下面主要以语义网的知识表示框架为例简要介绍基于符号的知识图谱表示方法。当然,语义网只是符号知识表示框架和方法的一-种。 RDFRDF是最常用的符号语义表示模型。RDF的基本模型是有向标记图(DireCtedLabeledGniph)。图中的每一条边对应于一个三元组(SUbjeCt-主语,Predicate-谓语,Object-宾语)。一个三元组对于一个逻辑表达式或关于世界的陈述(Statement)o图3.RDF基于有向标记图模型 RDFSRDF提供了描述客观世界事实的基本框架,但缺少类、属性等Schema层的定义手段。RDFS(RDFSchema)主要用于定义术语集、类集合和属性集合,主要包括如下元语:Class,subClassOf,type,Property,SubPropertyOf,Domain,Range等。基于这些简单的表达构件可以构建最基本的类层次体系和属性体系。 OWLOWL主要在RDFS基础之上扩展了表示类和属性约束的表示能力,这使得可以构建更为复杂而完备的本体。这些扩展的本体表达能力包括:1)复杂类表达ComplexClasses,如intersection,union和complement:2)属性约束PropertyRestrictions,如:existentialquantification,universalquantification,hasValue等;3)基数约束CardinalityRestrictions,如:InaxQualifiedCardinality,minQualifiedCardinality,qualifiedCardinality等;4)属性特征PropertyCharacteristics,如:inversef,SymmetricProperty,AsymmetricProperty,propertyDisjointWith,ReflexiveProperty,FunctionalProperty等。OWL以描述逻辑为主要理论基础,在很多领域知识图谱的构建,如医疗、金融、电商等有实际应用的价值。2.3 基于向量的知识图谱表示学习模型依据知识图谱嵌入表示模型建模原理将基于向量的知识表示模型划分为翻译模型、组合模型、神经网络模型。翻译模型的灵感来自word2vec中词汇关系的平移不变性,典型的方法包括基于向量的三角形法则和范数原理的TransE模型,通过超平面转化或线性变换处理多元关系的TranSH、TranSR和TranSD模型,通过增加一个稀疏度参数向量解决异构多元关系的TranSparse模型等。组合模型采用的是向量的线性组合和点积原理,典型特征是将实体建模为列向量、关系建模为矩阵,然后通过头实体向量与关系矩阵的线性组合,再与尾实体进行点积来计算打分函数。经典成员包括采用普通矩阵的RESCAL.采用低秩矩阵的LFM采用对角矩阵的DiStMUk和采用循环矩阵的HoIEo神经网络模型采用神经网络拟合三元组,典型模型包括采用单层线性或双线性网络的SME,采用单层非线性网络的SLM、NTN和MLP,以及采用多层网络结构的NAM。下一章对知识图谱的表示学习模型进行了详细介绍,此处不再赘述。3 .常见知识库及知识图谱的知识表示方法从人工智能的概念被提出开始,构建大规模的知识库一直都是人工智能、自然语言理解等领域的核心任务之一。下面分别介绍了早期知识库和以语义网为基础构建的知识图谱项目所采用的知识表示方法。不同的知识图谱项目都会根据实际的需要选择不同的知识表示框架。这些框架有着不同的描述术语、表达能力、数据格式等方面的考虑,但本质上有相似之处。3.1 早期的知识库项目CyC是持续时间最久,影响范围较广,争议也较多的知识库项目。CyC是在1984年由DoUglaSLenat开始创建。最初的目标是要建立人类最大的常识知识库。典型的常识知识如"Everytreeisaplanf,Tlantsdieeventually”等。Cyc知识库的知识表示框架主要由术语TermS和断言ASSertionS组成。TermS包含概念、关系和实体的定义。ASSertiOnS用来建立TermS之间的关系,这既包括事实FaCt描述,也包含规则RUle的描述。最新的CyC知识库已经包含有50万条TermS和700万条AssertionsoCyc的主要特点是基于形式化的知识表示方法来刻画知识。形式化的优势是可以支持复杂的推理。但过于形式化也导致知识库的扩展性和应用的灵活性不够。CyC提供开放版本OPenCyc。WOrdNet是最著名的词典知识库,主要用于词义消歧。WordNet由普林斯顿大学认识科学实验室从1985年开始开发。WordNet的表示框架主要定义了名词、动词、形容词和副词之间的语义关系。例如名词之间的上下位关系(如:“猫科动物'是“猫”的上位词),动词之间的蕴含关系(如:“打鼾”蕴含着“唾眠”)等。WordNet3.0已经包含超过15万个词和20万个语义关系。ConceptNet是常识知识库。最早源于MIT媒体实验室的OPenMindCommonSense(OMCS)项目。OMCS项目是由著名人工智能专家MarvinMinsky于1999年建议创立。ConceptNet主要依靠互联网众包、专家创建和游戏三种方法来构建。ConceptNet知识库以三元组形式的关系型知识构成。ConceptNet5版本已经包含有2800万关系描述。与CyC相比,ConCePtNet采用了非形式化、更加接近自然语言的描述,而不是像Cyc那样采用形式化的谓词逻辑。与链接数据和谷歌知识图谱相比,ConceptNet比较侧重于词与词之间的关系。从这个角度看,ConceptNet更加接近于WordNet,但是又比WordNet包含的关系类型多。此外,ConceptNet完全免费开放,并支持多种语言。ConceptNet5的知识表示框架主要包含如下要素:概念-ConCepts、iWords短语-PhraSes、断言Assertions关系-ReIations、边-Edges。COnCePtS由WOrdS或PhraSeS组成,构成了图谱中的节点。与其它知识图谱的节点不同,这些ConCePtS通常是从自然语言文本中提取出来的,更加接近于自然语言描述,而不是形式化的命名。ASSertionS描述了COnCePtS之间的关系,类似于RDF中的Statements。EdgeS类似于RDF中的Propertyo一个COnCePtS包含多条边,而一条边可能有多个产生来源。例如,一个“化妆CaUSe漂亮”的断言可能来源于文本抽取,也可能来源于用户的手工输入。来源越多,该断言就越可靠。COnCePtNet根据来源的多少和可靠程度计算每个断言的置信度。ConceptNet5中的关系包含21个预定义的、多语言通用的关系(如:IsA、USedFor等)和从自然语言文本中抽取的更加接近于自然语言描述的非形式化的关系(如:ontopof,CaUSedby等)。ConceptNet5对URl进行了精心的设计。URl同时考虑了类型(如,是概念还是关系)、语言、正则化后的概念名称、词性、歧义等因素。例如“run”是一个动词,但也可能是一个名词(如basement比赛中一个“run”),其URl为:t7cenrunnbasement,o其中,n代指这是一个