物联网工程自考-智能数据处理复习资料.docx
高纲1728江苏省高等教育自学考试大纲12577智能数据处理南京信息工程大学编(2018年)Ill课程内容与考核要求第一章物联网与产业发展一、学习目的与要求通过本章学习,要求了解物联网产业的发展历史,理解传感器与智能硬件的概念,了解物联网服务平台,了解工业4.0与CPS;理解物联网与大数据的概念及关系;理解物联网产业面临的挑战,理解物联网操作系统与数据库,理解物联网大数据处理与应用。二、课程内容(考试内容)三、考核知识点与考核要求1 .物联网产业的发展领会:传感器与智能硬件的概念。传感器通常由敏感元件和转换元件组成,能够检测感受到的信息按一定规律转换成电信号输出,以满足对信息的传输、处理、显示、记录和控制等要求智能硬件:家庭安防、空气净化器、智能路由器、智能插座、智能灯泡等等简单应用:物联网服务平台,工业4.0与CPS2014年8月苹果WWDC(国际消费电子展)大会上发布了HomeKit平台主要为智能硬件开发者提供IOS上的数据、控制接口,实现利用苹果设备作为智能家居的控制中心工业4.0的IK念由德国在2011年的汉诺威工业博览会上第一次提出。信息物理系统(Cyberphysicalsystems,简称CPS)作为计算进程和物理进程的统一体,是集成计算、通信与控制于一体的下一代智能系统。信息物理系统通过人机交互接口实现和物理进程的交互,使用网络化空间以远程的、可靠的、实时的、安全的、协作的方式操控一个物理实体。“工业4.0”与“CPS”在本质上是异曲同工的,其战略核心是制造智能化。它们的目标在于通过物联网、信息通信技术和大数据分析,把不同设备通过数据交互连接到一起,让工厂内部,甚至工厂之间都能成为一个整体,在自动化之上形成制造的智能化。2 .物联网与大数据领会:物联网与大数据的概念、关系、作用意义。近年来随着互联网的飞速发展,特别是随着电子商务、社交网络、移动互联网及多种传感器的广泛应用,以数量庞大、种类众多、时效性强为特征的非结构化数据不断涌现,数据的重要性愈发凸显。传统的数据存储、分析技术难以实时处理这些大量的非结构化信息,大数据的概念应运而生。对于“大数据”,IT研究机构Gantner给出了这样的定义,伏数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产”3 .物联网产业的机遇与挑战挑战:1 .多数的受访者表示他们对数据隐私和个人敏感信息安全等事务相当担忧数据安全和个人隐私泄露的危险将大大增加。2 .物联网缺乏一套通用标准,也没有保障兼容性和易用性的相关技术。3 .大数据处理的难度不仅仅在于数据量大,因为计算机系统的扩展可以在一定程度上缓解数据量大带来的挑战。而大数据真正难以对付的挑战来自数据类型多样、要求及时响应和数据的不确定性机遇:物联网技术的发展将和大数据技术紧密结合起来,将成万上亿计的传感器嵌入到现实世界的各种设备中,获取来自传感器的数据,对其进行智能化的处理、分析、挖掘出物联网大数据在单个物联网设备及传感器条件下完全不同的价值,从而提供更加深化、智能、贴近于用户的产品及服务,这将是物联网产业发展面临的一大机遇。领会:物联网产业面临的挑战,物联网操作系统与数据库,物联网大数据处理与应用1.微软推出了Windows物联网开发者计划,目的是为小物件装上Windows操作系统2 .ARM推出了专门针对物联网领域的mBed物联网设备平台,包括三个方面:mBedOS、mBed设备系统管理、mBed社区。其中OS在设备端落地、DeviceServer做管理端操纵、社区提供技术支援。3 .谷歌推出了基于安卓开发的针对物联网智能家居平台的操作系统,名为“Brillow新的操作系统属于物联网的底层操作系统,旨在对硬件需求最低化,能够实现端到端的设备连接,以安卓为核心,保留最基本的内核功能,可与任何安卓设备轻松对接。4 .2015年华为网络大会上发布的1.iteOS,是全球最轻量级的开源物联网操作系统,只有IOKB,具有零配置、自发现、自组网、跨平台的功能四、本章关键问题物联网与大数据,物联网操作系统与数据库,物联网大数据处理与应用。第二章大数据处理技术的发展一、学习目的与要求通过本章学习,掌握大数据的基本概念及其剖析过程,理解大数据的若干关键技术,并进行适当的总结,理解大数据技术对整个产业链的调整和重构,对经济转型的推动作用。理解大数据技术为发展物联网等新兴产业和促进传统产业升级提供的基础作用。了解大数据面临的挑战,尤其是其规模效应给数据存储、管理及分析所带来的巨大压力,了解大数据技术的发展趋势。本章要求从三个方面学习大数据处理技术的发展,包括大数据存储和管理技术,大数据计算技术和大数据分析技术。二、课程内容(考试内容)三、考核知识点与考核要求1 .大数据存储和管理技术Sun公司开发了网络文件系统(NetWorkFileSystem,NFS),这就是最初的分布式文件系统。分布式文件系统搭建在传统文件系统之上,它必须允许用户在企业内部网上的任一计算机上访问自己的文件,程序可以像对待本地文件一样存储和访问远程文件。分布式文件系统必须解决的一些基本问题(教材P13页段落中)SAN(StorageAreaNetwork)存储区域网识记:三类面向大数据的数据库系统。2 .并行数据库并行数据库是指那些无共享的体系结构中进行数据操作的数据库系统。这些系统大部分采用了关系数据模型并且支持SQ1.语句查询,但为了能够并行执行SQ1.的查询操作,系统中采用了两个关键技术:关系表的水平划分和SQ1.查询的分区执行。+3 .NoSQ1.数据管理系统传统关系数据库发展已有四十多年的历史,出现了很多的成熟应用和应用广泛的的关系数据库管理系统,如OraCIe(甲骨文)、MSSQ1.SerVer和MySQ1.等NoSQ1.是NotOnlySQ1.的缩写,NoSQ1.数据存储和管理系统是指那些非关系型的、分布式的、不保证遵循ACn)原则的数据存储系统,并分为key-value存储、文档数据库和图数据库这三类。4 .NeWSQ1.数据管理系统NewSQ1.是对各种新的可扩展/高性能数据库的简称,这类数据库不仅具有NoSQ1.对海量数据的存储管理能力,还保持了传统数据库支持ACID和SQ1.等特性。领会:面向大数据的文件系统,面向大数据的数据库系统的基本思想和应用。Sun公司开发了网络文件系统(NetWorkFileSystem,NFS)-*SAN(StorageAreaNetwork)存储区域网-Google文件系统(GFS)-雅虎工程师根据GOogIe公开论文开发的HDFS-加州大学SantaCruz分校的SageWeil设计的Ceph2.大数据计算技术识记:大数据的两类处理模式;流处理计算模式的概念和两种典型的处理方式。大数据的应用类型有很多,主要的处理模式可分为两种:批处理计算模式和流处理计算模式。批处理是先存储后处理,流处理是直接处理流处理的计算模式将要处理的数据作为流数据来对待,当新数据到来时立刻处理并返回需要的结果。流数据具有持续到达、规模大且速度快等特点。流处理计算模式有两种典型的处理方式。一种是真正的流处理方式,其计算是针对一条新的纪录进行一次,如Storm,其响应时间可以达到毫秒级。另一种是“微批处理”方式,是将流数据分为很多小的片段,针对每个片段进行一次处理,如SparkStreaming,响应时间难以达到毫秒级领会:批量数据的3个特征。1 .数据体量巨大。数据量级别从TB跃升到PB级别及以上,数据是以静态的形式存储在硬盘中,很少进行更新,存储时间长,可以重复利用。2 .数据精确度高。批量数据往往是从应用中沉淀下来的数据,因此精度比较高,是企业的一部分宝贵财富。3 .数据价值密度低。以视频批1:数据为例,在连续不断的监控过程中,有用的数据可能仅仅只有一两秒。因此合理利用算法才能从批量数据中抽取有价值的数据。简单应用:MapReduce编程模型,理解其技术优势和局限性MapReduce编程模型:批处理计算模式主要采用MapReduce编程模型。MapReduce编程模型可以很容易的将多个通用批处理文件和操作在大规模集群上并行化并具有自动化的故障转移功能。技术优势:1 .采用无共享大规模集群系统,集群系统具有良好的性价比和可伸缩性2 .模型简单、易于理解、易于使用在处理大规模«曲时可以将很多的繁琐细节隐藏起来(如自动并行化、负载均衡和灾备管理)极大地简化了程序员的开发工作。3 .在海量数据环境、IB要保证可伸缩性的前提下,通过使用合适的查询优化和索引技术,MapReduce仍能够提供很好的数据处理性能。MapReduce的局限性知识点在教材P20页【交互式数据处理的代表系统Spark系统、Dremel系统;流式数据处理的典型应用Storm系统、Samza系统、SparkStreaming系统;大数据实时处理的框架:1.anlbda架构。】1.ambda架构是有Strom的作者提出的一个实时大数据处理框架(其它看教材吧P20P24)(不做重点)4 .大数据分析技术识记:针对不同数据类型,所采用的大数据分析技术;文本分析技术中的信息提取主题建模、摘要、分类、聚类、问答系统和观点挖掘技术。信息提取技术是指从文本中自动提取具有特定类型的结构化数据1 .主题建模建立在文件包含多个主题的情况。主题是一个基于概率分布的词语,主题模型对文档而言是一个通用的模型,许多主题模型被用于分析文档内容和词语含义。2 .文本摘要技术从单个或多个输入的文本文档中产生一个缩减的摘要,分为提取式摘要和1«括式摘要两种提取式摘要从原始文档中选择重要的语句或段落并将它们连接在一起,而概括式摘要则需要理解原文并基于语言学方法以较少的语句复述。3 .文本分类技术用于识别文档主题,并将之归类到预先定义的主题或主题集合中。机遇图表示和图挖掘的技术在近年来的得到了关注。4 .文本聚类技术用于将类似的文档聚合,和文本分类不同的是,文本聚类不是按照预先定义的主题将文档归类的。5 .问答系统主要用于如何为给定问题找到最佳答案,涉及问题分析、源检索、答案提取和答案表示等技术。领会:大数据分析技术的必要性1 .大数据查询和分析的实用性和实效性对于人们能否及时获得决策信息非常重要。2 .新的大数据分析和查询工具可以使业务人员也能轻松上手实现自助自主分析即时获取商业洞察传统结构化数据分析;文本数据分析;多媒体数据分析;社交网络数据分析;物联网传感数据分析1 .传统结构化数据分析:在传统工业、电子商务、政务及科学研究领域所产生的大量的结构化数据2 .文本数据分析:文本数据包括电子邮件、文档、网页和社交媒体内容。文本数据分析是指从无结构的文本中提取有用信息或知识的过程3 .多媒体数据分析:多媒体数据分析是指从图像、语音等多媒体数据中提取知识。4 .社交网络分析:社交网络包含大量的联系数据和内容数据,其中联系数据通常用一个图拓扑表表示实体之间的联系,内容数据则包含文本、图像和其他多媒体数据社交网络中的联系数据是一类典型的“图数据”四、本章关键问题面向大数据的数据库系统、批处理计算模式、大数据实时处理的架构1.ambda架构、大数据分析技术。第2篇技术解析篇第三章物联网大数据技术体系一、学习目的与要求本章包括物联网中的大数据挑战和技术体系。通过本章学习,对物联网中产生的感知数据发展有较为深入的理解,了解从工业企业自动化生产线及设备上的运行数据,以及随着工业4.0推进而带来的数据爆炸,感知数据呈现儿何级数增长的数量对物联网大数据的获取、传输、存储、分析、挖掘及应用面临的各种挑战。理解互联网大数据和物联网大数据的异同,掌握物联网大数据的特征5HY。了解物联网大数据应用面临的技术需求及价值目标,及在此基础上进一步提出的面向物联网大数据进行处理分析的技术体系。掌握感知数据的概念,掌握物联网应用中的两种数据即结构化数据和半结构化数据。掌握物联网中感知数据处理的三个层次,感知数据的采集与传输、感知数据管理与实时计算、物联网平台与大数据中心。二、课程内容(考试内容)三、考核知识点与考核要求1 .物联网中的大数据挑战识记:互联网大数据的特征5Vo大量化Volume非结构数据的超大规模和增长,总数据的8090%,比结构化数据增长快10倍到50倍,是传统数据仓库的10倍到50倍。价值密度低Value大量的不相关信息,数据规模大但价值不高。数据类型繁多Variety大数据的异构和多样化,很多不同的形式(文本、音频、图片、视频、模拟信号),无模式或者模式不明显,不连贯的语法或句义处理速度快Velocity数据增长速度快,处理速度也快,时效性要求高,这是大数据区分于传统数据挖掘的显著特征。真实性Veracity大数据中的内容是与真实世界中的发生息息相关的,研究大数据就是从庞大的网络数据中提取出能够解释和预测现实事件的过程。识记:物联网大数据的特征5HVo数据体量更大High-Volume:物联网的主要特征之一是传感器节点的海量性;同时,物联网节点数据生成频率高并且全时工作,数据流源源不断,会快速积累更大体量的数据。传感器类型多,数据类型更多High-Variety:&&&&&&&&&数据真实性要求更高High-Veracity:物联网是真实物理世界与虚拟信息世界的结合,其对数据的处理及基于此进行的决策将直接影响物理世界,甚至一些反馈信息关乎设备的运行安全及周边环境与生命安全。数据量与数据价值成正比High-Value:积累越多的传感器数据越能发现数据变化的规律;有些情况下,甚至需要非常完整的数据集才能分析出所需的结果所以说数据量与数据价值成正比。数据产生速率更高,处理的及时性要求很高High-Velocity:领会:数据的可视化可视化是大数据分析与应用的重要途径,能够更加直观的展现大数据的完整视图,并充分挖掘大数据的价值。大数据是大容量、高速度并且数据之间差异很大的数据集,因此需要新的处理方法来优化决策的流程。可视化方法可以通过表格、图标、图像等直观的表示数据。领会:工业大数据分析技术所需解决的“3B”问题&&&&感觉没用不想记&&&&&&D性(Beloi-Surface):洞爰数幅特征背后的意义2)碎片化(BroHo%避免数据的断续.保证连续且时态一直想的数据集.3)低质性OM<MHty)提岛数祗烧量,清足低容铸件(2)避免数据的断续,保证连续且时态一致性的数据集领会:物联网大数据的管理与处理分析需要解决的问题与挑战1.如何构建分布的、多层次数据处理技术是首先要面对的问题2 .如何满足和保证物联网数据处理的实时性3 .如何构建物联网服务平台及建立物联网大数据中心领会:感知数据管理与实时计算。2.技术体系识记:感知数据采集与传输所实现的功能主要实现传感播、智能硬件、工厂及设备的数据采集,并对数据进行必要的转换、过滤等预处理,之后实时上传到数据管理层或大数据中心;这些功能一般通过物联网网关实现(会出填空?)物联网网关的分类1 .工业型网关:主要用于工厂或工业现场的数据采集、协议转换及数据采集上传,要求具有较高的数据吞吐能力。2 .传感型网关:主要用于广域监测监控领域部署传感器网络,大部分情况下用于采集低频传感数据,但是需要针对特殊的高频传感器本地处理能力3 .混合型网关:在工业现场需要采集生产线或设备数据,同时需要补充部分传感器。物联网网关需要具备的能力。(具体详解为P39-P41页)物联网网关主要用于实现传感器网络与通信网络,以及不同类型传感网络、智能设备之间的双向协议转换。为了实现协议转换及跨网通信,物联网网关需要具备广泛的接入能力、可管理能力、协议转换能力以及数据质量标识能力。领会:感知数据处理的三层体系结构。物联网中感知数据的处理分为三个层次,包括数据的采集与传输、感知数据管理与实时计算、物联网平台与大数据中心。简单应用:物联网大数据处理平台的部署;物联网平台。大纲没有的内容:无线传感器网络与Zigbee无线传感器网络(tirelessSensorNetwork)是物联网接入的另一种主要系统,是一种分布式传感网络,它的末梢是可以感知和检查外部世界的传感器,WSN中的传感器采用无线方式通信由大量的静止或移动的传感器以自组织和多跳的方式构成的无线网络常用的Zigbee协议是基于802.15.4之上重点制定网络层、安全层、应用层之外的标准规2014年11月Zigbee联盟将其无线标准统一成名为ZigbeelO的单一标准。四、本章关键问题互联网大数据与物联网大数据的特征、异同点(5V和5HV),感知数据采集与传输,物联网平台与大数据中心各自的作用。从技术上来说,云计算为物联网产生的海量数据提供存储和分析处理业务,是物联网发展的基石。物联网平台是基于云计算的服务平台而大数据是支撑并提升服务的关键。第四章感知数据特性与模型一、学习目的与要求通过本章学习,理解感知数据的特性,掌握感知数据的表示,理解感知数据模型。掌握感知数据库的定义,能够对感知数据库与传统数据库及NoSQ1.的异同进行简要的分析,掌握感知数据库系统与传统的流数据处理系统共同点和差异之处。二、课程内容(考试内容)三、考核知识点与考核要求1.感知数据的特性分析识记:常用的感知数据类型,感知数据的主要特征。从应用角度划分主要有七种类型1 .标识数据:物体或对象的唯一ID用于分辨不同的对象2 .状态数据:感知数据中最普遍最基础的数据类型(设备的启动或者停止)3 .运行数据或测量数据:(例如电动机的转速)4 .波形数据或图像数据5.位置数据(定位)6.指令数据(重要,由人或系统自动发出)7 .反馈数据感知数据的主要特征:时态属性、位置属性、序列属性、海量属性、实时属性和事件触发(详细看教材P47-P48页)领会:时态属性带来数据时态一致性要求所包括的两个方面1 .绝对一致性:存在于传感器感知的状态环境预期在系统的数据映像是否足够一致。2 .相对一致性:存在于推导计算其它数据所反映的环境状态是否足够接近。事件触发中的两类事件。事件分为外部触发事件和自定义事件;外部触发事件是来自传感器或者设备状态变化而触发的,例如温度的变化或者系统的启动/停止自定义事件分为基于时间的事件和基于条件的事件;基于时间的事件由系统时钟触发报警属于基于条件的的事件,一般采用规则来定义°常用的报警事件有越限报警(高限报警、低限报警)、状态报警(开报警、关报警)及变化率报警(某个传感器参数在很短时间内有很大的变化)3 .感知数据的表示与组织识记:感知对知的属性。领会:会联网数据模型,时态对象数据模型1.简单应用:OPC对象模型。4 .感知数据库的定位识记:感知数据库的定位。感知数据库定位于区域性的传感网络数据、工厂车间以及重要环节的设备或者装备的数据采集、管理与处理,通过系统的多级部署可扩展到整个工厂、行业物联网及在线实时监控服务平台,进一步实现向大数据平台的集成。领会:感知数据库的功能定位,感知数据库的基本特征。(教材P52-P53页)(重点记忆一下)功能定位:1 .全面地采集并存储管理规定区域内的感知数据,构造统一的基础数据环境,一方面满足本地实时计算的需求,另一方面为后端的大数据处理提供最有价值的数据资源。2 .保证感知数据的时态致性,控制数据质量。数据质量包括两个方面:一是数据的时态一致性保证,二是数据本身的质量,如传感器误差等。3 .满足本地事务的实时处理要求,通过实时事务调度处理技术满足本地事务的执行,结合流处理及机器学习算法,满足状态判定、态势分析及预测的需求。4 .提供质量保证的数据同步、数据迁移能力,感知数据库向其他数据库或大数据中心提供高质量的数据集是整个物联网大数据处理的关键环节。感知数据库的基本特征:1 .感知能力:系统提供主动数据采集机制,能够通过单个或一组传感器数据提供用户所需数据的能力。2 .数据的多元特性:类型多样,支持时态、关系、位置、块数据等3 .数据及事务的实时性:具有保证数据时态一致性的能力:从事务处理角度来讲,具有按照事务的实时处理需求进行事务调度及并发控制的能力。内量数据处理规则及件触发机制4 .多级分布式部署:由于物联网本身的广域特性,使得感知数据库系统必须随需而变地进行部署5 .数据的追溯性:系统能够实现对所有感知数据的存储管理,并提供高效的检索分析能力,系统实现上必须采用数据在线压缩、基于时间的索引机制,以及提供高效的数据查询算法与挖掘分析方法等。6 .感知数据库与传统数据库识记:流数据的概念以及应用需求的例子。流数据是指一组数据项的序列,按照固定的序列,以连续、快速、随时间变化的,可能是不可预测和无限的方式到达。应用需求:通信领域的电话记录数据流、各类传感器的数据流、金融领域的证券数据流、卫星传回的图像数据流。领会:关系数据库和感知数据麻的时比,(PS4页表47)感知数据库与实时数据库系统(主要体现在区别方面)实时数据库同感知数据库一样从外部环境获取数据,同时对数据或者事务的处理具有时间特性。感知数据库系统与实时数据库系统的区别在于更加面向互联网应用体系,而在技术实现上是在实时数据库基础上,融合工厂数据库系统及流数据处理系统的延续发展。感知数据库与工厂数据库系统针对工业自动化的过程数据管理需求,工业实时数据库主要提供工厂生产过程中的设备运行状态,以及相关数据采集、存储管理需求。工业上提到的实时数据库系统主要是面向工业过程监控与管理需求的过程数据管理系统。从实时数据库系统采用的数据模型来说,有关系数据模型、层次数据模型、网络数据模型、对象数据模型和混合型数据模型。目前工厂历史数据库大多采用层次化的固定数据结构:感知数据库系统需要具有工厂“历史数据库数据管理能力,但不局限于工厂应用流数据处理系统的需求来源(为什么需要流数据处理系统)主要来自于两个方面:1 .持续自动产生大的细节数据,如:银行和股票交易、网络流量监控、传感器网络等2 .需要以近实时的方式对更所教据流进行复杂分析,如:检测互联网上的极端事件、欺诈、入侵、异常等。感知数据库系统与传统的流数据处理系统共同点和差异处。共同点:1 .数据持续、联机到达2.数据是无限的,数据规模大3.数据需要快速处理以便快速响应差异之处:(不同点)2 对感知数据库系统来说,数据的到达是可预测的,并且必要时可主动采集获得。3 .历史数据的价值与读取次数需求:流数据处理系统中数据流是“只能被读取一次或少数几次的点的有序序列”,甚至只有在数据最初到达时有机会对其进行一次处理,其他时候很难再取到这些数据4 .感知数据库系统具有历史数据的存储需求与挖掘分析需求。四、本章关键问题感知数据的特性分析,物联网数据模型,时态对象数据模型,感知数据库的功能定位和基本特征,感知数据库系统与传统的流数据处理系统共同点和差异之处。第五章感知数据库管理系统一、学习目的与要求基于感知数据的特征需求,本章阐述感知数据库系统的设计、架构及其中的关键技术。通过本章学习,掌握感知数据库系统的设计原则和设计框架。掌握感知数据库的分布部署在系统分级、分区管理的需求,以及在高性能与高可用性上的需求,理解系统高可用性的分布部署模式是整个系统分布部署的基础环节。理解感知数据库所面临的数据多元性及处理需求的特殊性,掌握感知数据库系统设计中多方面的关键技术,从数据采集到数据存储管理,以及数据处理、查询访问的多个方面。在概念掌握之外,要求对各种模型、体系结构、算法等有较多的理解。二、课程内容(考试内容)三、考核知识点与考核要求1.感知数据库的总体设计识记:感知数据库系统的设计需要满足及遵循的原则,网闸设计及其结构。补充概念:耦合性(CoUPIing),也叫耦合度,是对模块间关联程度的度量。耦合的强弱取决于模块间接口的复杂性、调用模块的方式以及通过界面传送数据的多少。模块间的耦合度是指模块之间的依赖关系,包括控制关系、调用关系、数据传递关系。模块间联系越多,其耦合性越强,同时表明其独立性越差(降低耦合性,可以提高其独立性)。软件设计中通常用耦合度和内聚度作为衡量模块独立程度的标准。划分模块的一个准则就是高内聚低耦合。1 .松耦合:由于感知数据的海量数据流以上行数据为主;高频度、周期性的感知数据在线处理任务应该与事件触发的事件处理及用户事务等非周期性任务分开处理、避免高频事务和低频事务的混合调度处理带来的系统抖动问题。2 .组件化:通过系统的解耦和组件化设计,有利于系统的分布式部署,以及充分利用服务器上的多处理器多核的计算能力。3 .消息机制:组件之间更多采用消息机制,提高并发处理能力,避免接口调用导致堵塞,降低系统性能通用的网闸设计一般分为三个基本部分:内网处理单元、外网处理单元、隔离与交换控制单元领会:数据采集协调器提供一个标准的框架及其插件的系统架构,不同协议类似于一个插件,可以动态加入统一的框架中,方便系统扩展数据采集能力。数据组织管理器按照时态对象模型组织数据,其中实时数据由内存数据管理器负责组织管理,历史数据缓存及持久存储由历史数据管理器负责。时态属性的感知数据元组最新的两个版本或者多个版本保存在内存中,所有数据历史版本都进入历史数据管理器,经过一定的处理形成持久存储。内存数据管理器利用主内存的快速存取优势,采用独占写数据权限+共享多用户读数据权限,以及多版本并发控制,最大化数据访问的并发能力,以便快速处理源源不断到达的实时数据流:内存数据管理器在接收数据更新的同时,会调用用户自定义的在线处理过程,完成数据质量及状态的判定。历史数据管理器采用数据缓存、数据块、归档文件三级模式进行数据管理。历史数据管理器利用数据级缓存进行数据压缩打包,并建立索引,形成数据块,存入磁盘。根据数据访问需求及用户设置,长期不用的数据可以转换成归档文件,归档文件一般不提供在线查询服务。实时事务调度中心系统中所有的数据操作都是采用事务模型进行处理,实时事务调度处理中心是个系统的核心,事务的调度算法及并发控制机制是体现系统性能的关键。数据订阅/发布中心由于感知数据处理的实时性需求,数据分发方式不能采用关系数据库等传统系统的查询或轮询方式,必须采用订阅/发布机制确保数据更新能够及时到达系统内部的其他组件或外部应用。数据同步服务器数据同步服务器是支系统进行分布式部署的基础。常用的同步方式包括:镜像同步和聚合同步,其中镜像同步主要应用于跨网络的数据共享应用,最典型的场景是通过网络隔离装置安全隔高网闸实现的单向数据同步服务。安全隔离网闸部署在安全级别不同的两个网络之间,如信任网络和非信任网络。安全隔离网闻的安全性体现在链路层断开,直接处理应用层数据,对应用层数据进行检查和控制,在网络之间处理交换的数据都是应用层的数据。内网处理单元包括内网接口单元和内网数据级缓冲区。接口单元负责与内网网络的连接,对数据进行安全检测后剥离出“纯数据”,做好交换的准备,也完成来自内网对用户身份的确认,确保数据的安全通道:数据缓冲区是存放并调度剥离后的数据,负责与隔离交换单元的数据交换。外网处理单元外网处理单元的功能与内网处理单元一致但是处理的是外网连接。隔离与交换控制单元隔离与交换控制单元主要负费控制交换通道的开启与关闭。对交换通道的控制方式目前有两独技术:摆渡开关与通道控制。摆渡开关是电子转换开关,让数据交换区与内外网在任意时刻不同时连接,实现物理隔离:通道方式是在内外网之间改变通信模式,中断内外网的连接,采用私密的通信手段形成内外网的隔离装置。该单元中有一个数据交换区,作为交换数据的中转。日志管理器,应用接口服务器。主要用来记录数据库中的意大修改、系统运行Fl志、匣包事生旦志、错误信息等。其中运行日志包括数据采集接口运行状态、用户端连接状态、系统运行负荷等内容简单应用:感知数据库的设计框架。2.感知数据库的分布部署体系识记:两种不同标准下的集群分类1.来源于系统的分级、分区管理需求2.来源于系统的高性能高可用性需求,且系统高可用性的分布部署模式也是系统分布部署的基础环节高性能集群(HPC)的目的、应用环境目的:利用一个集群中的多台机器共同完成一个任务,使得任务完成的速度和可靠性都远远高于单机运行的效果,弥补单机性能上的不足。应用环境:天气预报、环境监控等数据量大、计算复杂的环境中。负载均衡集群(1.Pe)概念、目的、应用场合概念:利用一个集群中的多台机器,完成许多并行的小的任务目的:选择负载最小的机器,缩短用户请求的效应时间,提供最好的服务,增加系统的可用性和稳定性。应用:网站中使用较多高可用性集群概念、应用领域,数据库集群的实现方式。概念:利用集群中系统的冗余,最大限度的保证集群中服务的可用性应用领域:系统可靠性要求高的领域数据库集群的实现方式:将计算机集群技术引入到数据库中来实现领会:几种典型数据库集群如Oracle实时应用集群(RAC).IBMDB2,MSCS和镜像等,多层次的系统部署体系,服务分布的部署体系。补充概念,MSCS:Microsoft群集服务的英文缩写,是一种计算机技术。失败转移集群,是一种基于共享磁盘的高可用集群,是操作系统级别的集群。简单应用:双机热备与镜像双机热备是工业数据库系统支持最多并且最常用的集群方式,双机热备是一种主从模式、基于共享磁盘的失败转移集群,是操作系统级别的集群,大部分通过操作系统或者第三方的HA软件来实现不需要数据库系统的特别支持。数据库镜像是非共享磁盘型的高可用解决方案,可以分为完全镜像与部分镜像,一般需要数据库自身的支持,是进行系统多层级部署的基础;部分数据镜像的主要目的是实现数据库的聚合同步,实现系统的分级部署。数据库系统的双机部署模式(P63图5-4)多点集群多点集群是双机系统在技术上的提升,有多台服务器组成一个集群,灵活的进行系统部署,并设置合适的接管策略。常用的方式有一备多、多备多、多机互备。可以充分利用服务器资源,保证系统的高可用性与扩展能力。数据库系统的三级部署体系一级数据库系统:部署在基层单位,感知数据库系统的部署可以根据实际需求采用双机热备、双机互备、双机双工或多点集群等模式。二级数据库系统:可采用多种部署方式,数据来源包括工业现场、一级数据库系统及一定数量的在线整合计算数据,并可支持数据的归档管理:二级数据库系统及一定数据库可以采用镜像方式进行数据同步复制,并且在必要的情况下支持跨网闸的数据传输,保证两级系统之间的网络隔离。三级数据库系统或大数据云平台:数据主要来源于二级教据库及在线的整合计算数据,系统主要是面向管理业务提供实时的统计分析及设备运行分析与预测应用,而非面向监控应用。系统在二级数据库系统的基础上,更加深入地与关系数据库、知识库系统等结合,通过进一步数据整合计或者数据挖掘分析,构建全面完整的企业实时数据仓库和挖掘分析平台感知数据库系统的服务分布部署体系。感知数据库系统不仅需要支持多级部署,还应该支持系统中不同服务的分布部署,感知数据库系统中的服务通常包括基于内存的实时数据服务、历史数据服务、报警与事件服务、数据订阅服务、数据目录服务、实时计算服务等。以上服务通过实时高效的通信机制互联互通分布部署体系包括三个方面:1 .服务的分布式部署系统中每类服务都有多个,每个服务都可单独部署,多个服务也可部署在同一个节点上。通过分布式部署某类服务的多个实例,可提供服务和系统的并行处理能力。(两个关键词:分布和并行)2 .服务间的灵活映射系统中不同服务之间的关系可根据应用需求进行动态组合、拆分和配置:服务间的灵活映射是系统进行多点集群部署的基础。3 .服务的冗余配置系统中重要的服务可冗余配置,包括双机热备、双机互备、多机互备等多种方式,保证整个系统的高可用性。4 .感知数据库中的关键技术识记:插件特点热插拔:可以在不停止服务的情况下,动态加载/移除/更新插件。感知数据库工作原理(结合图文)感知数据库系统露要接受来自不同地点的多个来源的数据流,如何实现数据库流的在线处理,实现数据流与并发的处理程序之间的调度与匹配,是系统需要解决的关键问题。来自系统外部的实时数据流按照优先级进入不同的数据队列,基于目前广泛使用的多CPU多核特点,系统根据需要建立感知事务处理流程池,根据优先级调度执行感知数据对象的在线处理过程,数据更新结果进入基于内存的实时数据管理器:并根据事件定义触发相应的事件,放入事件队列:根据用户的订阅需求,把需要发布的数据放入发布队列。事件驱动系统为了加强大规模的分布式环境中实体之间的通信协作,系统要求更加灵活事务通信模型,以反映应用的动态非耦合特性。基于事件机制的系统结构是建立大规模分布式系统的有效方式,订阅/发布机制是目前广泛使用的基于事件的通信模型。事件驱动框架(EDA)概念是Gartner2003年提出的实时事件处理的软件框架,它定义了一个设计和实现软件系统的方法学,是这个系统中事件可传输与松散IR合的软件组件和服务之间。给予订阅/发布的实时消息通信体系提供的功能1.提供端到端的消息通信能力,支持QOS保证消息发送单次可达:保证每个消息能从发送者到达接收者,且仅被接收一次。2 .提供多种消息缓存机制:使其能够支持各种不同应用或组件的消息存取速度、持久性和可靠性等方面的不同需求。3 .消息的调度管理:队列中的消息可以按照截止期或优先级进行队列,为消息传递提供可预测的、确定的时延。在线压缩技术更加有效的几种情况。1 .系统从智能设备或者生产线甚至智能工厂中批量采集数据,如设备的运行状态的断面数据、在允许时间周期内的批量数据。2 .系统从设备或传感器上高密度的连续采集一组数据,如间歇运行的高频数据采集设备3 .系统采集的音视频数据、图像数据,这些数据可以采用成熟的压缩技术。领会:智能设备及传感器接口技术从设计方面来说,系统需要提供可配置的协议扩展框架,以便兼容众多的工业总线协议及厂商的定制化协议。常见的工业协议包括ModUbUs、Prifibus>BACnet>CAN、1.onworks及0PC、SNP等。通过协议转换将采集的数据转变为内部数据流。感知数据采集协调器的框架和插件模型系统实现“框架±插住T的结构,要求使用“松融合”设计,只有松耦合的组件才可以被做成“插件”.插件的热插拔使得系统有非常好的可扩展性,以及方便系统升级与更新。感知数据采集协调器的数据交互模型感知数据采集协调器把源源不断涌来的数据按照优先级放入不同的数据队列,以便基于内存的实时数据管理器处理。感知数据的流数据处理典型特征感知数据属于典型的流数据。其具有流数据处理的典型特征1.数据触发模式,处理过程始终在线。2 .在数据流动的过程中进行处理与计算。3 .只对一段时间内的数据进行处理,感知数据对象内置的在线处理过程必须能够在确定的时间内完成否则会影响整个系统的性能。流数据在线处理过程针对采集的数据进行的常规处理内容1 .标记时间就:由于系统所采集的数据都具有很强的时间性,因此,所有