数据资产图谱关键资产识别研究.docx
《数据资产图谱关键资产识别研究.docx》由会员分享,可在线阅读,更多相关《数据资产图谱关键资产识别研究.docx(13页珍藏版)》请在三一办公上搜索。
1、数据资产图谱关键资产识别研究中南大学唐健恒,李国统,段凯轩(I.中南大学计算机学院,湖南长沙410083;2.中南大学计算机学院,湖南长沙410083;3.中南大学计算机学院,湖南长沙410083;)周芳芳教授中文摘要:随着数据时代的到来,数据资产变得越来越重要,企业亟需寻求种有效的方法来管理和利用自己的数据资产。数据资产图谱是一种描述企业数据资产及其关联关系的点边双异质网络,可以帮助企业实现数据资产化运营,加快数据变现,方便企业智能化构建行业知识库以及快速构建数据运营能力。然而,由于数据资产的网络规模不断扩大,节点连边的数量越来越多,导致用户难以理解网络的拓扑特征,从而无法有效地挖掘、分析数
2、据资产图谱并提炼出图谱中高价值的信息。针对上述难题,提出了一种基于子图塌陷机制的可靠的数据资产图谱化简方法,用以克服现有技术中对数据资产图谱无法有效化简的问题,从而实现对企业数据资产的有效挖掘,更好地探索和利用大数据时代下数据资产的价值。英文摘要:With(headventofthedataera,dataassetshavebecomeincreasinglyimportant,andenterprisesneedtofindaneffectivewaytomanageandutilizetheirdataassets.Dataassetgraphs,whichdescribeanenter
3、prisesdataassetsandtheirrelationships,canfacilitateoperations,acceleratemonetization,andbuildknowledgebases.However,asthegraphsizeincreases,itbecomeschallengingforuserstounderstanditstopologicalfeaturesandextracthigh-valueinformation.Thisarticleproposesareliablegraphsimplificationmethodbasedonsubgra
4、phcollapsingtoovercomethisissue.Itenableseffectiveminingofenterprisedataassetsandbetterutilizationof(heirvalueintheeraofbigdata.关键词:数据资产:知识图谱;关键资产识别;图化简国家级大学生创新创业训练计划支持项目(7)作者简介:唐健恒(2002-),男,湖南永州人,数据科学与大数据技术,2020级,主要从事数据可视化等研究。李国统(200I-),男,河南南阳人,数据科学与大数据技术,2020级,主要从事大数据分析等研究。段凯轩(2002-),男,湖南娄底人,计算机科学
5、与技术,2020级,主要从事数据挖掘等研究。一、引言步入二H世纪,我们正处于IT(InformationTechnology)时代到DT(DataTechnology)时代转型的历史变革中,”数据即资产”俨然成为了这场变革中最核心的变化趋势和最广泛的思维逻辑。在这场变革中,数据不仅用于记录已发生的事情,而且还用于以惊人的效率和力量预测和驱动社会性的变革。在这个数据为王的时代,越来越多的互联网企业的关注重点不只局限于关于架构、开发语言、软件开发模式的选型,或对于网络、存储、安全设备这类硬件的创新,还包括自身的“数据资产”。2020年4月9日,中央出台了第一份关于要素市场化配置的文件中共中央、国务
6、院关于构建更加完善的要素市场化配置体制机制的意见,正式把数据列为生产要素,数据与土地一样有价值,具备登记,抵押,融资,交易等经济属性,这标志着对“数据即资产”的认同以及数据资产的定位已经站在了国家层面的高度,数据中潜藏着巨大的经济价值川或数据资产图谱是一种以数据资产为节点、以数据资产间关联关系为连边的点边双异质网络,用于描述一个或多个公司掌握的数据资产及资产间的关联关系,从而能够高效地挖掘与综合企业数据资产的价值,帮助企业实现数据资产化运营,加快数据变现,方便企业智能化构建行业知识库以及快速构建数据运营能力,从而实现数据增值化。随着现在数据资产的网络规模不断扩大,节点连边的数量越来越多,导致用
7、户愈加难以理解网络的拓扑特征,以至于无法有效地挖掘、分析数据资产图谱并提炼出图谱中高价值的信息。为了解决上述问题,现在经常采用例如图聚类的方法实现数据资产图谱化简阳,首先,通过定的指标将近似节点归并成群组,然后,根据该指标应用图聚类算法计算出所有的群组以及节点-群组的从属树型关系,最后,采用聚类节点等隐喻实现聚类树的可视化表达,并提供一定的交互方法以帮助用户进行可视分析。然而,在数据资产图中存在很多视觉上冗余的小结构,它们的拓扑特性基本一致,在数据资产图中表达的语义也相同,在真实场景中也发挥着相同的业务作用,这部分小结构在工业界和学术界上可称为结构等价子图,对于这些结构等价子图,无法有效寻找出
8、不同结构的子图类型,无法很好的进行子图分组,同时也不能有效识别子图是否同构且同质,因此,传统的图聚类化简方法无法实现有效的化简。针对上述难题,本文对数据资产图谱进行了全面的抽象化图谱建模,并基于子图塌陷机制,提出了一种可靠的数据资产图谱化简方法,用以克服现有技术中对数据资产图谱无法有效化简的问题,从而实现对企业数据资产的有效挖掘,更好地治理和利用大数据时代下数据资产的价值。二、数据资产图谱建模(一)知识图谱技术架构知识图谱在2012年5月被GoogIe正式提出,初衷是增强搜索引擎的能力,提高用户的搜索体验。目前,随着智能信息化的不断发展,知识图谱已被广泛应用于智能搜索、智能问答、个性化推荐等领
9、域。知识图谱是结构化的语义知识库,以符号形式描述物理世界的概念及其相互关系,其基本组成单位是“实体关系实体”三元组,以及实体及其相关属性值对,实体之间通过关系相互连接,构成网状的知识结构。图1展示了知识图谱的技术架构。KnowledgeGraphConstruction/UpdateProcessDataAcquisitionInformationKnowledgeFusionKnowledgeAcquisitionProCeSSing图1知识图谱的技术架构三元组是知识图谱的一种通用表示方式,构建一个知识图谱G,有G=(E,R,S),其中上=%,为是知识库中的实体集合;R=M,公,他是知识库中
10、的关系集合;SqERE代表知识库中的三元组集合。(二)数据资产类型的抽象数据资产图谱以节点表示产业实体,实体对应现实世界客观存在的数据资产,例如目录、数据表、逻辑实体等。我们规定主要数据资产与图谱的核心功能高度相关,能够满足用户的主要业务需求,因此需要在数据资产图谱网络中应保持默认显示;边缘数据资产满足用户的特定需求,供用户灵活探索图谱网络,因此可以通过多种交互手段从关键数据资产处拓展显示。通过参考行业标准和数据资产图谱的功能设计需要,数据资产图谱将需要进行管理的数据资产,我们将其概括为10种,并划分为关键数据资产和边缘数据资产,如表1所示:表1数据资产实体分类类别数据资产关键数据资产逻辑实体
11、、业务属性、数据表、字段、见解边缘数据资产数据库、目录、表作业节点、见解节点、作业(三)数据资产关联关系的提取数据资产图谱以边表示各个实体之间的关联关系,关联关系对应现实世界中数据资产之间的联系,例如数据表和作业节点之间存在的数据流向关系、逻辑实体与数据表之间的逻辑模型和物理模型关系等。我们可以将数据抽象为节点与节点以及节点与边之间的关系,从而得出网络资产图谱的抽象模型。譬如目录与目录、目录与逻辑实体、逻辑实体与业务属性等关系。根据数据资产类型的定义与相关研究,我们梳理出4种数据资产关联关系:PARENT_CHILD、LOGICAL.PHYSICALDATA_FLOW、PK_FK这4类关联关系
12、具体可以演化为17种细分的关联关系。(四)图谱模型的构建与存储根据以上数据资产类型和关联关系的梳理,我们将其构建为一个具备10个节点、17条边的抽象数据资产图谱,用于表示数据资产图谱数据中的10种实体及其之间产生的17种关联关系,其中,节点表示数据资产,单向边表示数据资产之间的单向关联关系。我们将其进行具象化,确定其字段、表作业节点、字段作业节点等信息,最终得到数据资产图谱点边双异质的抽象建模见图2所示,并将其存储到基于图模型的数据库中。图2数据资产图谱点边双异质抽象建模三、网络中心性与关键资产理论(一)网络中心性理论在图论和网络分析中,中心性(CemraliIy)是判断网络中节点和连边重要性
13、的指标。在社会网络分析中,一项基本的任务就是鉴定一群人中哪些人比其他人更有影响力,从而帮助人们理解他们在网络中扮演的角色。常用的中心性有度中心性与随机游走介数中心性,下文将对度中心性与随机游走介数中心性分别进行介绍。1 .度中心性度中心性通过衡量节点的度值大小来确定节点在网络中的重要性。如果节点的度很高,那么该节点可以直接影响到的节点就越多,该节点在网络中的重要程度越高。对于一个拥有g个节点的无向图,节点i的度中心性i与其他g-1个节点的直接联系总数,数学表达式如下:CD(Ni)=EXij(ij)J=I其中CD(Ni)表示节点i的度中心性,之马力用于计算节点i与其他g-个节点j=l之间直接联系
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 资产 图谱 关键 识别 研究

链接地址:https://www.31ppt.com/p-5594258.html