基于深度学习的机载传感器领域知识图谱构建研究与实现 遥感地质专业.docx
经历了世界航空维修产业(MRO,Maintenance,Repair&Operations)的高速发展,我国的航空维修产业(MRo)也获得了到了很多发展的契机与挑战。怎样按照自己的发展情况计划好布局和方向,加入该产业的世界化高速发展中成了目前亟待解决的问题。中国的民用航空维修产业第一是要把技术发展放在首位。依托当下热门的大数据研究民用飞机维修方案,以寻求更加合理化的、增强航空器性能的、减少维修成本的方案,是非常有意义的。中国民航所在飞航空器中,大多数采用电传操纵,机载传感器数量、种类众多。以知识图谱为代表的处理关联数据的大数据应用技术是解决机载传感器更好飞机维修方案的方法之一。机载传感器知识图谱构建的核心内容包括实体识别和关系抽取,本文以作者所在MRO企业机载传感器维修日志文本信息为基础,全面探索机载传感器知识图谱识别与关系抽取的理论,进行了以下的研究:(1)在机载传感器实体识别问题中,提出一种基于转换器的双向编码表征(BERT)与双层双向长短期记忆网络(BiLSTMS)与条件随机场(CRF)结合的机载传感器实体识别方法,针对BERT预处理模型对其Positionembedding进行每一个字的标注,再接双层BiLSTM模型,获取更好的上下文表示,结合AttentiOn机制,进行字力度信息获取,减少三层模型带来的庞大计算量,最后在CRF模型的作用下得到序列标注的成果。研究结果显示,和传统的CRF模型相较而言,F值上升了百分之4.03。(2)(2)在机制传感器关系抽取问题中,采用BiLSTM-ATT模型。首先将文本信息中的每个词向量与位置向量进行融合,将其输入BiLSTM模型中,然后引入一层词注意力机制来获取词重要性,减少噪声,最后通过SoftmaX分类输出关系抽取结果。(3)运用Neo4j构建可视化机载传感器知识图谱,并进行数据分析应用。关键词:机载传感器知识图谱,关系抽取,深度学习,实体识别,算法ABSTRACTWiththecontinuousgrowthoftheglobalaviationmaintenanceindustry(MRO,maintenance,repairandoperation)market,China'saviationmaintenanceindustryhasalsousheredinmanydevelopmentopportunitiesandchallenges.Howtomakealayoutplanaccordingtoitsowndevelopmentstatustoadapttothenewwaveofdevelopmenthasbecomeatopicworthyofattentioninthedomesticaviationmaintenanceindustry.Makingfulluseofthedevelopmentofadvancedtechnologyisofgreatsignificancetomycountry'scivilaviationmaintenanceindustry.technologyandrelyonthepopularbigdatatostudycivilaircraftmaintenanceprogramstofindmorerationalizedsolutionsthatImproveaircraftperformanceandreducemaintenancecosts.MostoftheplanesflyingbyChina'scivilaviationareoperatedbywire,andthenumberandtypesofairbornesensorsarealsonumerous.Thebigdataapplicationtechnologyofprocessingrelateddatarepresentedbytheknowledgegraphisoneofthewaystouseairbornesensorstosolvebetteraircraftmaintenanceplans.Thecorecontentofairbornesensorknowledgegraphconstructionincludesentityrecognitionandrelationshipextraction.Basedonthetextinformationoftheauthor'sMROcompany'sairbornesensormaintenancelog,thispaperconductsin-depthresearchontheentityrecognitionandrelationshipextractionoftheairbornesensorknowledgegraph.Themainresearchcontentsinclude:(1) Intheproblemofairbornesensorentityrecognition,Aconverter-basedbidirectionalencodingrepresentation(BERT)combinedwithatwo-layerbidirectionallong-termshort-termstoragenetwork(BiLSTM)andaconditionalrandomfield(CRF)forairbornesensorentityidentificationisproposed.ThemethodistomarkeachwordembeddedinitspositionfortheBERTpreprocessingmodel,andthenconnectthetwo-layerBiLSTMmodeltoobtainabettercontextualrepresentation.Combiningtheattentionmechanismtoobtainthestrengthinformationofthewords,reducethehugeamountbroughtbythethree-layermodel.Calculatethenumber,andfinallyobtainthesequenceannotationresultthroughtheCRFmodel.TheexperimentalresultsshowthattheFvalueisincreasedby4.03%comparedwiththetraditionalCRFmethod.(2) Intheproblemofmechanismsensorrelationshipextraction,theBiLSTM-ATTmodelisused.Firstly,eachwordvectorinthetextinformationisfusedwiththepositionvector,andinputitintotheBiLSTMmodel.Thenalayerofwordattentionmechanismisintroducedtoobtainwordimportanceandreducenoise.Finally,therelationshipextractionresultsareoutputthroughSoftmaxclassification.(3) UseNeo4jtobuildavisualizedknowledgemapofairbornesensorsandperformdataanalysisapplications.Keywords:airbornesensorknowledgegraph,entityrecognition,relationextraction,deeplearning,algorithm目录第一章绪论11.1 研究背景及意义11.2 国内外研究发展及现状21.2.1 知识图谱发展及研究现状31.2.2 实体识别发展及研究现状41.2.3 关系抽取发展及研究现状51.3 本文的研究内容71.4 本文的组织结构8第二章相关的理论分析与研究92.1 知识图谱构建技术92.1.1 知识图谱的基本概念92.1.2 知识图谱的关键技术102.2 条件随机场模型122.3 词向量模型152.3.1 Word2vec模型152.3.2 ELMo模型162.3.3 BERT模型172.4 深度学习方法192.4.1 卷积神经网络192.4.2 循环神经网络212.4.3 Attention机制242.4.4 Transformer模型262.5 机载传感器实体识别和关系抽取相关研究错误!未定义书签。2.5.1 实体识别相关研究错误!未定义书签。2.5.2 关系抽取相关研究错误!未定义书签。2.6 本章小结错误!未定义书签。第三章基于BERT-BiLSTM-CRF的机载传感器实体识别错误!未定义书签。3.1 基于深度学习的机载传感器实体识别流程错误!未定义书签。3.2 数据预处理错误!未定义书签。3.3 改进的BERT-BiLSTM-CRF模型构建设计错误!未定义书签。3.3.1 字符向量表示层错误!未定义书签。3.3.2 BERT预训练层错误!未定义书签。3.3.3 BiLSTM层错误!未定义书签。3.3.4 CRF层错误!未定义书签。3.4 实验结果及分析错误!未定义书签。3.4.1 实验数据错误!未定义书签。3.4.2 评价指标错误!未定义书签。3.4.3 实验结果与分析错误!未定义书签。3.5 本章小结错误!未定义书签。第四章基于BiLSTM的机载传感器关系抽取错误!未定义书签。4.1 实体关系抽取问题描述错误!未定义书签。4.2 文本结构关系处理方法错误!未定义书签。4.3 机载传感器关系抽取方法错误!未定义书签。4.3.1 特征向量的生成错误!未定义书签。4.3.2 BiLSTMs-ATT模型构建错误!未定义书签。4.3.3 SOftmaX分类错误!未定义书签。4.4 关系抽取结果及分析错误!未定义书签。4.5 本章小结错误!未定义书签。第五章机载传感器的知识图谱构建错误!未定义书签。5.1 知识图谱的构建流程错误!未定义书签。5.2 知识图谱构建错误!未定义书签。5.3 基于知识图谱对机载传感器数据进行分析错误!未定义书签。5.4 本章小结错误!未定义书签。第六章总结与展望错误!未定义书签。6.1 总结错误!未定义书签。6.2 展望错误!未定义书签。致谢错误!未定义书签。参考文献错误!未定义书签。攻读硕士学位期间取得的成果错误!未定义书签。第一章绪论这一章是对此次探索的实验背景和最终意义摘到,还有对这个项目在世界范围的研究情况,结尾在对此次行为的文章内容和文章分布进行说明。1.1 研究背景及意义根据中国民用航空维修产业年鉴2020表示,我国民用航空维修产业要利用好先进技术的发展,把握好对时下应用较多的bigdata、数学建构、区块链、预测性维修、机器人等方面富有创新性的技术,来引领行业“新业态”发展。紧盯前沿高端研发专业化修理技术,如以大数据为依托实现传统维修方式的变革。同时,民用飞机维修方案则是可以直接影响到民用飞机的性能和所费资本的,所以需要重视飞机的维修成本,合理化安排维修方案。研究发现,飞机的维修成本已经跃升为飞机在使用寿命内最大的花销之一,甚至可以相当于飞机购买价格的1.2倍,是飞机使用寿命中花销最大的一项开支。依托当下热门的大数据研究民用飞机维修方案,以寻求更加合理化的、增强航空器性能的、减少维修成本的方案,是非常有意义的。电传操纵(Fly-By-Wire,简称FBW)系统,还被叫做电子飞行控制系统,使用的原理是将驾驶员提出的命令转化为电信号再和飞机的运动传感器的反馈进行一起处理,在经过电脑的程序语言转化之后,用电缆传送的方式传递给操作面作动器,是一种能够绝对控制飞机运行的一类人工飞行操作装置。现在的民航上还在应用的电传操控装置,切却来看大概是20世纪80年代空客公司研发的a30为他的初始模型。那个时候的数字技术也被应用到主飞控装置上,造成了第一台携带机械备份的全电传飞龙装置。如今我国的民用航空大多应用的客机机型,有空客系列和波音系列等等的都使用的操作方式为电传操控,还有马上要投入飞行使用的我国制造的飞机c919同样应用的也为电传系统。电传操纵有传感器数量多、传感器种类多的特点。且根据作者所在公司维修日志数据库资料显示,与传感器相关的维修日志条数众多。本文依托大数据研究机载传感器相关数据信息,是非常有意义的。以知识图谱为代表的处理关联数据的大数据应用技术是解决修复机载传感器一个值得选择的方案。知识图谱为系统化的语言知识储存仓,知识图谱的组成结构主要是以实体为主,再用图像的类型进行展示。知识图谱可以把机载传感器的维修日志数据实现全面分析,把数据信息还有它们之间的联系整合成有用的部分,让信息资源得到更有效的利用。创造机载传感器的一个知识图谱,在通过对相关数据的直接运用,现存信息的理想外推和寻找,得到信息间存在的关系,能够把机载传感器的运行检测方法的精确度和可行性提高。笔者在这里主要探索机载传感器的知识图谱创建的方式与相关技术的路径,可以创造效果更佳的记载传感器维修知识的数据库,使用图像的方法一定会对飞机的正常修复、意外检修和飞机的维修方案起到一个积极的约束作用。同时,国内的MRO大部分负责诸如航线维护、机体大修、航材管理等低利润的业务。部附件修理方面,进入门槛相对较低,企业呈现百家争鸣的状态,但普遍维修能力重复建设,缺乏深度维修能力,关键部件与核心技术受OEM产权保护,维修受限,仍要送修国外。根据本文所建立的知识库,对机载传感器故障种类、故隙次数等要素进行分析,能够有效指导国家对高新技术与小微企业的扶持政策,在确保安全的前提下依据国家政策极大节约维修飞机的总体成本。按照织体系框架和所占领域的不一样,能够把知图谱化成一般突破与特别区域知识图谱。但是我们不能忘记的是它们的性质是没有差别的。总的来说,一般知识图谱的特点是作用对象是所有领域的性质、常识的主观认识强、状态一般是系统化的百科知识、侧重于知识的涉猎领域广、大多是普通用户在进行应用等等的特点。特别区域的知识图谱还被叫做行业知识图谱,较前者言之,特定领域知识图通常被构造为描述某个专业领域的知识。它通常提取特定领域中的特定实体和特定关系,并在此基础上完成语义网络的构建。目前,市场上尚未建立基于机载传感器的特定领域知识图谱,本文进行机载传感器知识图谱的建立具有十分重要的意义。机载传感器的知识图谱,创造的中心部分主要是实体识别与关系抽取等等,这两个部分是创造机载传感知识图谱必不可少的部分。笔者在这里以自己公司的机载传感器相关的文本信息作为实体识别和关系抽取的数据来源,从机载传感器实体识别和关系抽取两个方向开展全面和深入的研究,有效地实现了机载传感器实体和关系的自动提取,为机载传感器知识图谱的构建奠定了重要基础并提供了更好的方法支撑,在机载传感器飞机维修方案制定、修订方面具有重耍的理论意义和实际应用价值。1.2 国内外研究发展及现状1.2.1 知识图谱发展及研究现状在维基百科中,知识图谱的正式术语定义如下:知识图谱是GOOgIe用来增强其搜索引擎功能的知识库。按照维普百科对峙图谱的理解,最早的之图谱是被谷歌在二十一世纪十二年五月份的时候定义的。谷歌公司使用它是因为它可以让谷歌的搜索引擎的相关能力拓展和提升,让用户拥有更好的体验感。谷歌的知图谱最早是在二十一世纪十年,他以freebase网站的服务为基础,捕获与应用维基百科还有和他相像的更多数据发源地,最后创造出了知识图谱。两年过后,谷歌公司对知识图谱下了定义。随即将知识图谱功能引入其搜索引擎,其结果当然是引入的知识图谱功能极大地增强了其搜索引擎的能力,从而可以为用户提供更快、更准确的搜索知识,以及其他相关信息。其他的搜索引擎公司无一不进入了知识图谱的探索领域。就像facebook研发出了facebook社会图表知识图谱,而我们国家的Baidu公司也研发出自己的知心知识图谱还有Sogou公司的智立方知识图谱等等的。经过对知图谱的探索和开发进程,使得它慢慢的被扩展到了其他的行业,就像在AI问答、个性化推送等等的智能信息应用中,知识图谱可以产生巨大的学术和商业价值。近年来,学术界和工业界都建立了自己的知识图谱,根据应用可以将其分为两个主要类别:一种是通用知识图谱,也称为开放领域知识图谱。通俗讲就是大众版,没有特别深的行业知识及专业内容,它通常解决了科普知识和常识性问题,主要用于互联网大规模的搜索、推荐、问答等场景。另一种是行业知识图谱,也称为特定领域知识图谱和垂直领域知识图谱。通俗讲就是专业版,基于对某个行业或子领域的深入研究而定制的版本,主要用于解决当前行业或子领域的专业问题,是目前知识图谱更具价值的研究方向。就目前的研究现状来看,国内外在通用知识图谱的构建方面都取得了重大成果。例如,对于国外的通用知识图谱而言,由CyC公司1984年开始创建推出的典型常识知识“Everytreeisaplant,在PrinCeton大学,的知识科学实验室自20世纪80年代研发的应用在语句消除分歧的Wordnet词典知识库,最后被谷歌公司合并的Mateweb公司,最后得到的freebase知识图库,UniversitatLeiPZig、FreieUniversitatBerlinOppolinksoftware一起研发出了DBPedia知识图谱,把维基百科和WordNet的大部分的Yago知识图谱结合起来,被维基媒体基金会倡导能够自己制作编写的包含很多国家语种的百科知识库Wikidata知识图谱,如今,国际上包含的领域最多的各种语种百科同义词典BabelNet知识图谱等;而在中国对于知图谱的方面来说,BaidU公司研发出的大型知识图谱和SOgOU公司,制造出的知识立方图谱,还有我国的殿堂级高校清华也得到了XLore知识图谱,复旦大学推出了CN-DBPedia知识图谱以及上海交通大学推出了ZhiShi.me知识图谱等。相较于国内外在通用知识图谱上取得的重大成果,受限于领域专业数据的严重缺乏,领域知识图谱的成果就略显不足。目前只有少量领域推出了较为成熟的领域知识图谱,就像欧洲联盟的重要合作研究项目药物行业知识图谱OpenPHACTS还有医疗方面的知识图谱体重指数的Watson机器人。根据2018知识图谱发展报告,我国在电商、企业商业、图情、创投四个领域均在开展知识建模。总的来说,尽管目前知识图谱研究方面可谓是硕果累累,而且许多的科研发现都转化成商业利润了,例如语义检索、智能问答、语境分析、还有智能知识体系等等,然而,如今制图谱还有他的使用依然含有很高的研究意义,其一是中文句子的识别、中文关系抽取较英文语法复杂很多,在中文知识图谱的研究和应用方面仍有很大的发展空间。并且目前互联网高速发展,人工智能不断向深研究,也从侧面证明了中文知识图谱具有巨大的学术研究价值和商业应用价值。另一方面,与大量的通用知识图谱相比,成熟的领域知识图谱需要更为专业的、深入行业的人员来建立,而且领域知识图谱涉及更多的行业,具有更大的研究价值。简而言之,在中文方面,选择一个行业领域,例如本文中的机载传感器领域,建立领域知识图谱是具有很大研究价值和发展前景的方向。1.2.2 实体识别发展及研究现状在上一小节中,本文介绍了知识图谱的发展及现状,发现构建机载传感器领域知识图谱是极具前景的方向。创造行业内的知识突破,第一步要要开展的就是实体识别,这里的实体是指在文章里概括数据的主体句段信息,一个文本的含义能够理解成他所有的文本实体之间存在的融合关联。所以实体识别自然就是文本分析的重要之处。例如,“2021年02月21日,机号为B7563的B737-800飞机在北京大兴站点完成指令维护工作”中的信息可以通过其包含的时间实体"2021年02月21日”,航空器属性实体"B7563”、“B737-800”,地点实体“北京大兴”和从业类型实体“指令维护工作”直接表达。实体在知识图谱中的重要不言而喻,完整的知识图谱具有非常系统的结构组成,一般是在实体的基础上,还有实体的属性和相互之间的关联。举个例子,电子商务这个行业的知识图谱,最重要的就是电子商业行业的实体部分,向购买者,供货商,产品店铺竞争对手,质量产品类别,店铺自制,还有社会评价,这些都包含在内。而对实体的命名识别,咋又表示能够分辨出文章里的一命名的实体,接着把他归纳到相应的类别里的工作,我们使用的较多的实体类别有人名、地点、公司、时间等的。实体链接存在的主要原因是清除实体名称会出现的歧义与多样的弊端,也就是为那些真实的广为人知的实体正名的一个工作,还可以被叫做实体减歧。就拿苹果公司最新上市的产品iPhone12来举例,实体链接框架的任务是把文本里的苹果和他真实世界里说的苹果公司来进行一一连接。实体识别这个概念首次被定义是在1980年左右的muc工作里,迄今为止都还在被自然语言处理行业所重视。实体链接在一开始,具有实体共指消除和实体消歧等等的名称,它经常被数据库外部还有自然语言等等方面被强调,而且,最终于TAC系统里被规定。现如今,越来越多的方式被研究且最终应用在实体的认知和链接方面。按照系统的差别实际分析方法又能够被分成已统计系统的方式为基础的、以深度学习的方式为基础的和以文本发觉的方式为基础的三种类型;按照对知识监督系统的需要程度还能归纳为不需要监督、弱监督、知识监督和有监督四个类型。从1990年之后,统计系统均采用了实体识别的一般方式。数不胜数的统计方式应用在了摘取文本里的实体识别上,比较广泛的是最大场分类系统和SUM等方式(刈。基于统计模型的方法可验证企业情报,预测从文本输入到特定目标结构的情况,使用统计模型对输入输出关系进行建模以及使用机器学习技术,从而可以研究建模模型。深度学习模型正在各个领域中日益探索,以解决企业解决问题的方法。当前,有两种类型的深度学习架构可用于提高企业效率。第一个是NN-CRF体系结构。该体系结构使用CNN/LSTM研究每个单词位置的石头表示形式。基于矢量表示,NN-CRF为该位置写出最佳标签。第二种是在分类窗口中使用收缩理论,并使用神经网络检查句子中每个ngram的表示形式,并预测ngram是否为杰作。与数字会计方法相比,深度学习方法的主要优点在于,培训是一种端到端的操作,无需手动识别有用的功能。好的一点是,深入的研究可以在不同的文化,不同的体裁和不同的语言之间建立联系,以便学习工作的特殊性并提高公司业务的绩效。在这里,如何将知识标准(语言结构约束,结构理解等)整合到深度学习方法中,如何考虑多种活动之间的约束,以及使用(语言)深度学习进行资源不足。识别问题私营公司)这是当前问题的热门话题。1.2.3 关系抽取发展及研究现状在上一小节中,本文介绍了实体识别的发展及现状,构建知识图谱的下一步就是采用实体关系抽取算法从非结构化的大量文本数据中抽取实体关系三元组,然后这些实体关系三元组就构成了相应的知识图谱,本小节主要介绍实体关系抽取算法的发展及研究现状。虽然实体关系抽取算法是构建知识图谱的核心任务,但是实体关系抽取任务比知识图谱这一概念更早提出,具有更加悠久的历史,在知识图谱提出之前,实体关系抽取也一直是学术界和工业界重点的研究方向。自1990年被提出以来,关系抽取一直以来都是自然语言处理的研究焦点。现在关系抽取方法可以从不同的角度进行分类。比如,依据关系的类型,关系抽取可划分为限定域关系抽取和开放域关系抽取;依据关系抽取的办法可以分成基于规则方法和基于机器学习方法;根据监督知识的依赖程度,关系抽取可分为有监督关系抽取、无监督关系抽取和弱监督关系抽取。近年来,基于神经网络的方法已成为主流。首先,为了对句子建模,建议使用卷积神经网络,并基于“至少一个假设“,将整个学习过程视为多实例学习。使用FreebaSe知识库(提供给NYU语料库),以最可靠的方式从55种比率中选择100个结果进行人工评估,平均准确度为86%。相信该方法只能在一个数据包中使用一个句子,并且建议使用一种监视机制来学习该数据包中每个句子的权重,然后根据该数据包将句子表示形式表示为该数据包的表示形式。权重并归类包最后获得包之间的关系。也使用外部文本数据。作为“至少一个”假设的例外,他们认为在许多情况下有必要同时使用多个句子中的数据来确定数据包的比率,因此,他们提出了一种组合交叉句子的方法。另外,近来已经提出使用动态矩阵来对噪声建模以增强对强和弱控制比的提取。它还提请人们注意消除语言之间关系薄弱的关系。当前,基于机器学习的关系选择方法一直占主导地位。但是,通过不受控制的关系提取获得的信息缺乏语义信息,难以规范化。提取受控关系需要大量高质量的手动标记数据作为训练语料库。手动标记非常耗时,费力且昂贵,因此难以大规模推广。尽管控制不力的关系选择可以自动创建大规模的训练语料库,但是自动创建训练语料库需要使用大规模的现有数据图作为种子,并且该语料库WL在20世纪98年左右,当时的实体关系抽取任务被第七届MUC会议的评测任务第一次引入,在当时会议的实体关系抽取算法是在基于模板的方式,抽取实体间存在的语义关系,后来这一届MUC会议也是最后一届,在随后MUC会议停制筹办。后来他们在1999年NIST在线下组织开展了ACE会,从此ACE会议就取代MUC会议,在这次评测任务中一直被深度引入实体关系抽取任务中,从此就推动学术界实体关系抽取的研究发展历史。然而SemEval会议是在MUC会议和ACE会议之后的在评测任务中被引入实体关系抽取的重要会议的,同时它提供的数据集成为目前为止成为国际上使用最多的评测数据集。语言的处理讨论研究热点。但是现有关系抽取方法是可以从不同的维度进行划分和区别的。比如,根据它们关系的类型,关系抽取就可以分为自20世纪90年代被提出的,关系抽取一直是自然语言是处理的研究套路的热点。现有关系抽取方法可以从不同的维度进行区别划分。比如,根据他们的关系类型,关系抽取大概可以分为限定域关系抽取,开放域关系抽取;我们根据关系抽取的方法大概可以分为基于规则的方法以及基于机器学习的方法;我们在根据对监督知识的依赖,关系抽取又可以大概分为有监督关系抽取、无监督关系抽取和弱监督关系抽取。通常是限定域关系抽取和开放域关系抽取;我们根据关系抽取的方法大概可以分为基于规则的方法,基于机器学习的方法;我们在根据对监督知识的依赖。我认为关系抽取可以分为有监督关系抽取、无监督关系抽取,弱监督关系抽取。通常,当前基于深度学习的方法是实体关系提取技术的主流方向。同时,由于当前基于深度学习的实体关系提取技术是学术性的。经有着众多研究以及各种阶段性成果,因此后续对于实体关系抽取的研究重点应该在工程应用上,将实体关系抽取的学术成果转为工程应用,产生商业价值。1.3 本文的研究内容本论文主要以作者所在公司的机载传感器相关的文本信息作为数据来源,对目前知识图谱构建的两大关键步骤实体识别和关系抽取的国内外研究现状、主流算法进行研究,并且改进了相关算法,应用于机载传感器知识图谱的构建之中。本文主要研究内容如下:1 .对于实体识别任务与关系抽取任务的现状进行了分析,两项任务现在依然处于研究阶段,相关的改进工作一直在进行。接着介绍了构建两项任务要用到的一些相关技术与理论。2 .对于自然语言处理(NLP)任务中需要的大量训练集采集工作,本文结合作者公司机载传感器维修日志已有的数据,通过少量的人工标记作为种子,结合层次聚类算法,收集识别实体所需的实体训练集。对于关系提取所需的关系文本,本文使用了远程监视方案。通过收集到的实体对,进行关系定义,再采集训练语料。3 .将采集到的训练文本,通过一定工作量的人工操作与词向量模型对训练集进行预处理工作。结合上一步中通过已经采集到的实体标签特征,作为结合词向量矩阵和BERT模型进行重新编码作为输入层,结合BiLSTM模型再进行一次特征提取工作。最后通过CRF模型获得序列标注结果。4 .关系提取任务使用基于词模型的嵌入在输入向量中的相对位置来解决网络中收集词序信息的问题,并提高对模型句子含义的理解,以及在自注意力层引入结合了关系三元组与句子之间的相关性,来对模型的效果进行改进。5 .对比了现在主流的一些算法与本文提出的算法在测试集上的效果,包含数据的介绍、实验设计与结果分析。然后结合了本文提出的算法,构建机载传感器知识图谱的方案。1.4 本文的组织结构本文共有六个章节,具体章节安排如下:第一章:本章主要分析了本文构建机载传感器知识图谱的工作背景和意义,围绕如何构建知识图谱,介绍了与构建相关的实体识别和关系抽取的研究现状和发展历程。第二章:本章分为四个部分,第一部分阐述并分析了知识图谱构建技术;第二部分对条件随机场模型进行了分析;第三部分详细介绍了文中将用到的词向量模型W0RD2VEC.ELMO、BERT的原理和结构;第四部分对详细介绍了本文应用到相关深度学习方法模型一一卷积神经网络、循环神经网络、Attention机制、TranSfOrmer模型的知识。第三章:本章分为五个部分,第一部分详细描述了基于深度学习的机载传感器实体识别流程;第二部分和第三部分别对数据预处理和改进的BERT-BiLSTM.CRF模型构建设计进行讲解;第四部分介绍本文所提出的方法在机载传感器实体识别数据集上的实验结果与分析;第五部分是本章小结。第四章:本章分为五个部分,第一部分介绍了实体关系抽取问题描述;第二部分着重对机载传感器文本结构关系处理方法进行介绍;第三部分机载传感器关系抽取方法进行讲解;第四部分在机载传感器抽取数据集上进行实验并对实现结果进行分析;第五部分是本章小结。第五章:本章分为四个部分,第一部分详细描述了知识图谱的构建流程;第二部分讲解了机载传感器知识图谱的构建;第三部分是根据构建的结果,进行了数据分析的举例;第四部分是本章小结。第六章:研究了前人的历史资料,且对未来寄予的期望。第二章相关的理论分析与研究本章对知识图谱构建技术进行阐述,而且把条件随机场模型、词向量模型和深度学习方法开始说明。为后续第三章机载传感器实体识别方法以及第四章机载传感器关系抽取方法研究提供方法支撑。2.1 知识图谱构建技术知识图谱是本文研究的机载传感器构建的最终目标,了解知识图谱的概念、构建框架以及构建的关键技术,是本文实现的基础。本节将从知识图谱定义、框架以及关键技术这三个方面对知识图谱技术的研究进行展开介绍。目前,根据构建知识图谱方式主要分为两种,分别是人工构架和自动构建。人工构建方法主要应用于知识图谱的早期研究,采用人工编撰的形式构建知识图谱,其中具有代表性的知识图谱为国外的WordNet和国内的同义词林。人工构建方法只是在早期的研究中使用过,而后逐步被淘汰,到如今,自动构建方法已经完全代替了人工构建方法,自动构建方法也是本文构建机载传感器知识图谱采用的方法。目前,几乎所有的通用或者领域知识图谱都是采用自动构建方法进行知识图谱的构建,自动构建方法的核心就是采用实体关系抽取算法识别抽取大量实体关系三元组,这些实体关系三元组经过知识融合、知识加工等技术方法处理后,形成网状结构,生成目标知识图谱。自动知识图构造方法可以分为三种知识图构造方法:自上而下,自下而上。自顶向下构建方式通常是借助百科类网站等,从中获取高质量结构化知识,进而提取本体信息,最终加入到知识库中:自底向上构建方式他们中的大多数人都使用信息挖掘技术从非结构化,半结构化和结构化数据中收集和提取知识,并将其合并到知识库中。自上而下和自下而上的方法的结合导致了行业知识图谱的发展。最近统治着警察巡逻,宠物等知识图首先,使用自上而下的方法创建模型层。然后使用自下而上的方法从警察巡逻和宠物知识中提取知识,并创建一个数据层。最后,使用图数据库来存储知识并提供知识图的可视化。面向行业领域知识图谱的研究近年来呈上升趋势,通过知识图谱,从而实现各行业领域的业务需求。在民航领域,目前还没有高质量的基于机载传感器的知识图谱。2.1.1 知识图谱的基本概念语言的处理讨论研究热点。但是现有关系抽取方法是可以从不同的维度进行划分和区别的。比如,根据它们关系的类型,关系抽取就可以分为自20世纪90年代被提出的,关系抽取一直是自然语言是处理的研究套路的热点。现有关系抽取方法可以从不同的维度进行区别划分。比如,根据他们的关系类型,关系抽取大概可以分为限定域关系抽取,开放域关系抽取;我们根据关系抽取的方法大概可以分为基于规则的方法以及基于机器学习的方法;我们在根据对监督知识的依赖,关系抽取又可以大概分为有监督关系抽取、无监督关系抽取和弱监督关系抽取。通常是限定域关系抽取和开放域关系抽取;我们根据关系抽取的方法大概可以分为基于规则的方法,基于机器学习的方法;我们在根据对监督知识的依赖。我认为关系抽取可以分为有监督关系抽取、无监督关系抽取,弱监督关系抽取。知识图谱通常是有三元组,基于图的结构来表示的形式。知识图谱采用大概结构为“实体一关系一实体”的实体关系三元组作为其基本组成元素,然而知识图谱就可以采用实体关系三元组当作它的表达方式,如公式(2-1)所示。GNE,R,S)(2-1)其中,G表示知识库,E是实体集合,代表现实世界中相应事物的概念,假设共有IEl个实体,那么其表达方式为ee2,e;R是关系集合,代表现实世界中相应事物之间的关系,假设共有IRl种关系,那么其表达方式为r"2,"r;S是实体关系三元组集合,代表现实世界中所有事物对及其相互关系的集合,当然,其数量等于E中的实体对在R中存在相应关系的数量,也就是等于Vk,r,e>,ei,ez6E,rcR的数量。三元组表示的知识图谱包含两种形式知识:GS,二(实体X,关系r,实体y)表示实体X与实体y具有某种关系r,如(四川,省会,成都)表示四川的省会是成都(其中四川和成都都是实体,省会是实体之间的关系)和Gw=(实体X,属性p,属性值V)表示实体X具有某种属性P其属性值为V,如(B75XX飞机,故障发生时间,2021年2月21日)表示B75XX飞机在2021年2月21日发生故障(其中B75XX飞机是实体,故障发生时间是属性,2021年2月21日是属性值)。基于图的知识图谱表示为G=(V,E),其中节点集合V表示所有实体和属性,边集合E表示实体与实体、实体和性能两者间的关联。3元组的表示方式不复杂,基于图的形式更加直观,一般基于所需场景选择合适的表示形式。2.1.2 知识图谱的关键技术知识图谱本质上是提供语义知识的知识库,其关键技术包括知识图谱的构建与应用,因应用与实际业务场景密切相关,其范围过于宽泛,本文重点讨论知识图谱构建过程中的关键技术,其构建架构如图2-1所示。知识图谱构建与更新数据采集知识抽取知识融合知识加工图2-1知识图谱构建与更新架构图图2-1中虚线框中内容表示知识图谱的构建过程,其构建过程的不断迭代更新即知识图谱的更新。上一节已阐述知识图谱的自动构建的方法。为更好理解知识图谱构建技术,本文基于知识图谱构建过程中三个部分内容进行说明:知识抽取、知识融合和知识加工。1 .知识抽取知识抽取示意从结构、半结构和非结构化多方面数据源中抽出实体、关系和属性,具体分为实体、关系和属性抽取。实体抽取又称之为实体识别(Nam