物联网数据存储及管理分析课件.ppt
《物联网数据存储及管理分析课件.ppt》由会员分享,可在线阅读,更多相关《物联网数据存储及管理分析课件.ppt(71页珍藏版)》请在三一办公上搜索。
1、目录,物联网数据存储现状分析海量元数据查询需求分析物联网元数据管理系统设计面向数据更新的结构设计和分析 面向预计算的元数据组织结构数据立方体,物联网数据存储现状分析,大规模存储系统的应用越来越广泛,存储容量也从以前的TB(Terabyte)级上升到PB(Petabyte)级甚至EB(Exabyte)级。随着存储系统规模不断增大,在大规模文件系统中,文件的数量高达几十亿个,在这种海量数据中查找和管理文件变得异常困难。,物联网数据存储现状分析,这与互联网环境形成了鲜明的对比:由于搜索引擎技术的发展,在互联网的环境下查找信息很方便,而用户在存储系统中找到想要的信息比在互联网上查找信息更加困难,物联网
2、数据存储现状分析,如今存储系统中的数据量的快速增长使得查找和管理文件异常的困难,为了能够合理的管理这些不断增多的海量数据,不管是用户还是管理者都需要能够高效的获得文件的属性。,物联网数据存储现状分析,元数据查询包含索引文件元数据,例如索引节点和一些扩展属性,能够帮助回答很多复杂查询问题。利用文件属性,元数据查询允许点查询、范围查询、top-k查询和聚集查询,这些使得复杂的、特定的查询变得简单。,物联网数据存储现状分析,能够帮助管理者回答“哪些文件在过去的一周里增长很快?”或者是“哪些应用程序和用户的文件占用大多数存储空间?”元数据查询也能够帮助用户找到10个最近访问的报告或最大的虚拟机镜像。准
3、确地回答这些问题能够极大的提高用户和管理者管理大规模存储系统中的文件。,物联网数据存储现状分析,现存的系统一般都采用通用型的数据库管理系统(Database Management System,DBMS)来索引元数据,由于DBMS不能很好的适用于多维元数据的查询,查询效率非常低,物联网数据存储现状分析,这就限制了在大规模存储系统中元数据查询的性能和可扩展性,所以在大规模存储系统中要想获得快速、高效的元数据查询是很难实现的。,物联网数据存储现状分析,从而使得一些复杂查询非常耗时、效率低下,不能有效地支持用户或管理者查找到想要的文件,或得到想要的数据。例如,“我最近修改过的PPT在哪?”或者“我的
4、目录下这个文件有几个副本?,物联网数据存储现状分析,为了解决上述问题,必须提供一种高效的多维元数据查询系统,而且必须满足以下特点:第一,必须能够从存储系统中快速收集到元数据;第二,查询和更新必须快速而且可扩展;第三,必须能够快速的返回计算结果,比如用户提交一个复杂查询后并不想长时间在线等待计算结果,有时这个过程非常费时,物联网数据存储现状分析,例如“某公司想统计一个星期内用户产生的数据总量有多少?”或者“最近一星期内排前五名的热点文件是哪五个?”,用户或管理者希望系统能够预先计算好这些结果而不用在线等待,当提交查询后能够快速返回结果,物联网数据存储现状分析,第四,资源需求必须很低,现存的很多元
5、数据查询工具需要专门的CPU、内存以及硬盘,这就使得它们非常昂贵而且很难集成到存储系统中;第五,查询的接口必须灵活好用,对于现存的文件系统接口和查询语言,复杂查询非常困难,物联网数据存储现状分析,在海量的数据中,让用户获得想要的信息至关重要,对存储系统中多维元数据查询的研究将大大提高文件元数据的查询效率,实现复杂查询,缩短响应时间,这对于用户或管理者查找和管理文件,以及决策支持都有重要的意义,海量元数据查询需求分析,现在的存储系统都是采用层次化的目录结构来组织文件的,层次化结构使得文件的访问效率不高。访问某个文件必须通过层次型的目录树结构到达文件的保存位置,如果不知道文件保存位置,就必须遍历整
6、个目录或使用操作系统的搜索功能,而操作系统仅能依靠文件名来检索和查找数据。,海量元数据查询需求分析,在最近的十几年里,新数据类型(多媒体、电子邮件)不断涌现,这些数据中包含了大量的元数据信息。认识到现有文件系统的不足,学术界和工业界都做了大量的工作来研究如何利用丰富的元数据信息来提高文件的管理和搜索效率,海量元数据查询需求分析,在大规模存储系统中查找和管理文件显得更加困难,元数据查询可以很好的解决点查询、范围查询、top-k查询以及聚集查询,便于进行一些复杂、特殊的查询。能够快速地实现上述查询能极大地提高用户或管理者对大规模存储系统的管理,海量元数据查询需求分析,在大规模存储系统提供高效的元数
7、据查询是一个很大的挑战,而现在有一些商业元数据查询系统主要致力于小型的存储系统(最多几千万个文件)并且常常很慢,耗费的资源多,海量元数据查询需求分析,在大规模存储系统中想要实现高效的元数据查询,需满足以下几点:最小的资源需求元数据查询不应该需要额外的硬件,它应该集成到存储系统中而不降低系统的性能。现在大多数的元数据查询系统都需要专门的CPU、内存以及磁盘,使得它们非常昂贵而且很难部署,这就限制它们的扩展性,海量元数据查询需求分析,快速的元数据收集必须从几十亿、几百亿个文件中周期性的收集发生改变的元数据,而不会给整个存储系统带来额外负载,使得系统变慢。现在的爬行算法(crawling metho
8、d)非常慢而且消耗系统资源,海量元数据查询需求分析,快速可扩展的索引查询和更新查询必须快速,甚至随着系统规模的扩大,性能依旧能保持很好,能够快速周期性的对元数据索引进行更新。但是,现存的系统一般都采用通用型的关系型数据库来索引元数据。DBMS常常使用重量级的锁和事务,这给系统增加负载,海量元数据查询需求分析,易用的查询接口大多数系统输出简单的查询应用程序接口,但是研究表明专门设计的接口能够很好表达且容易使用,这会大大提升查询体验。,物联网元数据管理系统设计,系统设计要求第一、高性能,能够快速的从文件系统中聚集元数据,解决并发操作、热点数据的管理和访问等问题;第二、查找和更新速度必须快且可靠。现
9、有的系统一般采用通用的DBMS来索引元数据,但是通用的DBMS的设计并不完全适合各种应用场合,比如元数据查找,特别是支持各种复杂的元数据查询,热点数据查询等;而且在大规模存储系统中会限制其性能和扩展性。,物联网元数据管理系统设计,第三、低的资源消耗。保证元数据查询不需要占用太多的存储空间,且不会降低系统的性能。第四、接口灵活好用。现有的文件系统接口不能很好的支持各种复杂文件查询。第五、良好的伸缩性及可用性。随着存储系统的规模越来越大,必须保证系统具有良好的伸缩性和可用性,多维元数据组织结构,传统的索引方法已不能满足多维数据的索引和查询要求,比如哈希表是数据的精确匹配而不能进行范围查询,而B树索
10、引一维数据而不能搜索多维空间。目前存在大量的空间数据索引方法,多维元数据组织结构,一般来说,常见的多维空间数据索引有两种数据组织方式:基于规则的分割方法和基于数据的分割方法。基于规则分割的索引结构按照特定算法对数据空间进行划分,包括KD树、网格等,这种方法仅适用于数据分布均匀的情况,在数据分布不均匀时会引起索引结构的不平衡。基于数据的分割方法有R树,Cell树等,按照数据的分布特性逐层划分空间,多维元数据组织结构,如果系统基于每个维度单独建立索引,则需要对每个维度进行查找之后将结果做交集。如果系统按照多维属性信息建立了空间索引结构,则可以同时在文件大小、创建时间和修改时间这个三个属性维度上做约
11、束,大大减少了查询的数据量和查询的时间代价。系统耗费一定的存储空间维护空间索引结构,在提供各种复杂查询服务时可以有效的减少查询时间延迟,相关研究工作:R树结构,与B树相似,R树是一种高度平衡的树,它的叶子节点的记录包含数据对象的指针。如果索引是磁盘驻留的,则每个节点对应一个磁盘页,以节点为单位读取和写入。该结构设计使得空间搜索只需要访问一小部分的节点,大大提高检索效率。索引结构是完全动态的;插入、删除和查找操作能同时进行而且不需要定期地对树的结构进行重新组织,相关研究工作:B树、B-树、B+树、B*树,B树 即二叉搜索树:1.所有非叶子结点至多拥有两个儿子(Left和Right);2.所有结点
12、存储一个关键字;3.非叶子结点的左指针指向小 于其关键字的子树,右指针 指向大于其关键字的子树;如:,B树,B树的搜索,从根结点开始,如果查询的关键字与结点的关键字相等,那么就命中;否则,如果查询关键字比结点关键字小,就进入左儿子;如果比结点关键字大,就进入右儿子;如果左儿子或右儿子的指针为空,则报告找不到相应的关键字;如果B树的所有非叶子结点的左右子树的结点数目均保持差不多(平衡),那么B树的搜索性能逼近二分查找;但它比连续内存空间的二分查找的优点是,改变B树结构(插入与删除结点)不需要移动大段的内存数据,甚至通常是常数开销;,B树,是一种多路搜索树(并不是二叉的):1.定义任意非叶子结点最
13、多只有M个儿子;且M2;2.根结点的儿子数为2,M;3.除根结点以外的非叶子结点的儿子数为M/2,M;4.每个结点存放至少M/2-1(取上整)和至多M-1个关键字;(至少2个关键字)5.非叶子结点的关键字个数=指向儿子的指针个数-1;6.非叶子结点的关键字:K1,K2,KM-1;且Ki Ki+1;7.非叶子结点的指针:P1,P2,PM;其中P1指向关键字小于K1的子树,PM指向关键字大于KM-1的子树,其它Pi指向关键字属于(Ki-1,Ki)的子树;8.所有叶子结点位于同一层;如:(M=3),B-树,B树,B+树是B-树的变体,也是一种多路搜索树:1.其定义基本与B-树同,除了:2.非叶子结点
14、的子树指针与关键字个数相同;3.非叶子结点的子树指针Pi,指向关键字值属于Ki,Ki+1)的子树(B-树是开区间);5.为所有叶子结点增加一个链指针;6.所有关键字都在叶子结点出现;如:(M=3),B+树,是B+树的变体,在B+树的非根和非叶子结点再增加指向兄弟的指针;B*树定义了非叶子结点关键字个数至少为(2/3)*M,即块的最低使用率为2/3(代替B+树的1/2);B+树的分裂:当一个结点满时,分配一个新的结点,并将原结点中1/2的数据复制到新结点,最后在父结点中增加新结点的指针;B+树的分裂只影响原结点和父结点,而不会影响兄弟结点,所以它不需要指向兄弟的指针;B*树的分裂:当一个结点满时
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 联网 数据 存储 管理 分析 课件

链接地址:https://www.31ppt.com/p-3410620.html