华农符少玲管理信息系统.ppt
第 四 章 信息处理技术,有价值的知识,可怕的数据,数据爆炸但知识贫乏,问题,数据库越来越大,是否企业所有数据都存储在数据库中?一般事务型数据库的存储年限是多少?,CRM与数据仓库的关系,数据仓库的作用 客户行为分析 重点客户发现 市场性能评估,思考,为什么需要建设数据仓库,数据库不足够吗?数据仓库是数据库吗?数据仓库有何好处?,问题,网站中使用因特网访问企业内部数据库有哪些企业?其工作机理是什么?使用因特网访问企业内部数据库的优点有哪些?,问题,凡客中的客户行为分析是采用什么工具来进行处理数据而得的结果?唯品会呢?新浪呢?,要求掌握:,数据仓库与数据库的关系数据仓库优势联机分析处理和数据挖掘区别,第一节 数据的组织与管理,一、数据管理方法(一)数据的层次结构 按照四个层次分:字符:是计算机中表示数据的基本单元。字段(属性):是字符的集合,表示一个有意义的数据单位。记录:是多个相互关联的字段组成的集合,用来描述某一个管理对象或业务活动的内容。文件和数据库文件:是按特定目的和格式组织的相关记录的集合。数据库:是逻辑上相关的文件的集合。,数据的层次性,职工文件,部门文件,工资文件,(二)实体和属性,实体:客观存在的人、物体、地点或事务的一般类别属性:是实体的特性,二.数据管理技术的发展,数据管理技术是对数据进行分类、组织、编码、存储和维护的技术。它的发展大致可分为如下四个阶段:1.人工管理阶段(20世纪50年代中期以前)数据不能长期保存在计算机中。没有软件系统对数据进行管理。数据大量冗余,且不能共享。,应用程序1,应用程序1,应用程序1,数据组2,数据组1,数据1,数据2,人工管理下数据与应用程序的联系,2.文件系统阶段(出现于20世纪50年代后期到60年代中期),数据可以由操作系统管理的文件形式长期保存在计算机中。操作系统的文件管理系统提供了对数据的输入和输出操作接口,即提供数据存取方法。一个应用 程序可以使用多个文件,一个文件可被多个应用程序使用,数据可以共享。数据仍然是面向应用的,文件之间彼此孤立,不能反映数据之间的联系,因而仍存在数据大量冗余和不一致性。,应用程序1,应用程序2,文件系统,文件1,文件2,文件系统中应用程序与数据的联系,3.数据库系统阶段,大约从20世纪60年代后期开始,这一阶段的特点:采用一定的数据模型来组织数据,数据不在面向应用,而是面向系统。应用程序独立于数据,实现了数据的独立性。数据的冗余度明显减少,从而减少了数据的不一致性。为用户的数据操作提供了方便的用户接口,实现了数据共享。在数据库中,对数据进行统一的管理和控制。,应用程序1,应用程序1,数据库管理系统,数据库,数据库管理阶段,4.高级数据库技术阶段,大约从20世纪80年代后期开始,其特点为:分布式数据库。由一组物理上分布在计算机网络的不同结点上数据,既面向本地的局部应用,又参与涉及多个结点的全局应用。面向对象的数据库。共享缩小了数据库和应用程序间的差距,降低了应用程序的开发费用,同时也减少了系统出现问题的可能性。,二.数据库的定义和特点,定义 数据库(DataBase,简称DB)是存放在计算机存储设备中的以一种合理的方法组织起来的,与公司或组织的业务活动和组织结构相对应的各种相关数据的集合,该集合中的数据可以为公司或组织的各级经过授权的人员或应用程序以不同的权限所共享。,1.数据库的特点,以一定的数据模型来组织数据,数据尽可能不重复。以最优方式为某个特定组织的多种应用程序或用户服务。其数据结构独立于使用它的应用程序。对数据的定义、操纵和控制,由数据库管理系统统一进行管理和控制。,2.数据库的分类,按照数据库的数据结构模型来分类:采用层次模型的数据库称为层次数据库采用网状模型的数据库称为网状型数据库采用关系模型的数据库称为关系型数据库采用面向对象模型的数据库称为面向对象数据库,三.数据模型,数据模型能比较真实地模拟现实世界,比较容易理解,同时也便计算机实现。按照应用的不同,数据模型可分为两类或两个层次。1.概念数据模型 只描述信息的特性和强调语义,而不涉及信息在计算机中的表示。最常用的是实体联系模型(E-R模型)。2.结构数据模型 直接描述数据库中数据的逻辑结构,通常用来定义和操作数据中的数据,最常用的有:层次模型、网状模型、关系模型和面向对象模型。,层次模型(Hierarchical Model),曾在20世纪70年代商业领域中广泛应用。层次模型的数据结构是一种树型结构,如图a点。特征:有且只有一个结点没有父结点,该结点为根结点;根结点以 外的其他结点有且只有一个父结点。,客户代号,公司名称,城市,电话,订单代号,订购日期,运货单,产品代号,产品名称,单价,订单代号,产品日期,数量,客户,订单,产品订单,订单明细,a,b,网状模型(Network Model),曾在20世纪70年代和80年代得到广泛的应用。用网状结构表示实体类型及实体之间联系的数据模型称为网状模型。网状模型许可一个以上的结点可以没有父结点,一个子结点可以有多个父结点。如上图中的b点。网状模型和层次模型称为非关系模型。在非关系模型中,实体是用记录来实现的,记录之间的联系是用指针来实现的。,用表结构来表示实体类型以及实体间联系的模型为关系模型。特点:1.关系模型概念单一,数据结构简单,实体与实体间的联系是用关系(二维表)表示的。2.关系模型是数学化的模型,可把表格看成一个集合,数据操作是集合的操作。3.关系数据库语言是非过程化的。4.关系模型以关系代数为基础,形式化基础强。5.有功能强大的关系数据库语言SQL的支持。,关系模型(Relation Model),订单关系模型表,面向对象模型(Object-Oriented Model),面向对象的数据模型不仅能处理简单的数据类型,还可处理包括图形、图像、声音、动画等多种音频、视频信息。面向对象的数据模型中,最重要的概念是对象(Object)和类(Class)。,问题,目前关系数据库有哪些可用?,Oracle、Sysbase、Informax、DB2、FoxPro、Access,第二节 数据仓库,CRM与数据仓库的关系,数据仓库的作用 客户行为分析 重点客户发现 市场性能评估,问题,什么是数据仓库?数据仓库有何特点?构建数据仓库有何好处?是不是所有企业都需要建立数据仓库?,一、定义及其特点数据仓库是面向主题的、集成的、不可更新的、随时间变化的数据集合,用以支持企业或组织的决策的分析过程。数据仓库的结构如图所示:,ERP数据库,CRM数据库,OLTP交易数据库,数据精简清洗添加格式转换数据整合数据导入,数据仓库数据库管理系统,OLTP分析数据库,数据集市,数据集市,数据仓库元数据(Metadata),数据仓库管理平台,查询报告引擎,OLAP数据访问,数据挖掘工具,ETL(Extrat Transformation,Load),企业处理数据方式,以联机事务处理形式处理信息以联机分析处理形式处理信息,并利用信息进行决策,以联机事务处理形式处理信息,增加更改产品单价更改顾客收入水平扩大顾客的信誉范围,以联机分析处理形式处理信息,上个月有多少产品的销售额超过100000美元?如果库存以10%速度下降,那么新的库存担负的成本是多少?顾客能变相接受高价位产品吗?,分析型数据仓库与交易型数据库的区别,问题,用户在使用数据仓库时,发现某一衬衣3月份销售额15万元是不对的,应该为12.5万元,该用户可以直接在数据仓库上修改吗?,特点:,数据仓库是面向主题的 主题是一个抽象的概念,从逻辑意义来说,主题对应了企业或组织中某一个宏观分析领域所涉及的分析对象(如销售)。,DB,DB,零售系统,批发系统,销售主题系统,OLTP系统,2.数据仓库是集成的各种数据源中的数据经过提取、转换集成,最后被转载到数据仓库中。3.数据仓库是不可更新的4.数据仓库是随时间变化的,用户,用户,读,OLTP系统,读,数据仓库,写,OLTP系统与数据仓库的区别,建立数据仓库的好处,Owen/Minor 公司,是一个有着30亿美元资产的外科供应公司,他把关键的生产数据存储在其大型计算机的各种层次数据库上和比较老的非数据库文件上。“所有这些数据库都是相互独立的。”为了把数据放在一起,创建一个多维视图,公司决定使用Oracle数据库建立一个数据仓库。公司安装了一个易于使用的查询工具,是商业目标系统分析员的商业目标系统,它提供给用户一个访问数据库的界面。另外,他们购买了从老式生产系统取出数据,并且转换数据,把转换后的数据载入Oracle数据库的软件。,在Aqua-Chem的管理层想要使用老式数据来执行多纬财务分析,而不想替换他们的老式财务系统,该财务系统是在计算机联合公司的CA-Datacom数据库管理系统上运行的。该公司信息主管解释说:“我们喜欢老系统的安全性、功能性和可靠性。”他开始转向联机分析处理和商业智能工具。公司使用微软的结构查询语言系统(SQL Server)数据库管理系统开发了一个财务数据仓库。生产、销售和其它数据被取出、转换和传送到SQL Server数据库。管理人员使用来自于Cognos公司的联机分析处理软件工具查看、分析,甚至处理这些数据,同时老式大型计算机系统仍然继续进行根本的事务处理。雇员通过公司的内部网可以容易地存取数据。,问题,为何构建数据仓库?,数据仓库优势,不用替换和废弃旧系统决策制定者获取信息更加容易,不影响基础的业务系统,问题,是不是所有企业都需要构建数据仓库?,并非所有企业都有使用数据仓库的需求。如果轻而易举就能从企业业务数据库中获取所需信息,可以选择用OLAP工具,帮助企业管理者从各个维度审视和查询关系数据库中的信息。,问题,当数据仓库过大、太集中且难以使用时,可以优先考虑构建什么?,二.数据集市,定义 数据集市是企业或组织为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据,亦称为部门数据库或主题数据。数据集市的数据来源 通常数据集市可由两种途径来创建。1.直接从OLTP系统中将数据捕获到需要使用该数据的数据集市中。2.将OLTP系统中的数据捕获到中央数据仓库中,再将数据仓库中的数据填充到数据集市中。如下图所示。,市场部,财务部,销售部,数据集市,数据仓库,数据集市,三、联机分析处理(OLAP),问题:1月份,头盔在什么地区销售最好?1月份,哪个国家的头盔销售在该畅销地区处于领先地位?在领先的国家中,哪个城市的头盔收入最高?能否从报表中发现商机?,按地区划分的头盔销售数据,按地区和国家划分的头盔销售数据,按地区、国家和城市划分的头盔销售数据,山地车和头盔销售的比较,可选的OLAP工具,Information Advantage 公司的Axsys软件Prodea 公司中的Beacon软件斯坦福技术公司的Metacnbe软件,四、数据库与因特网,互联网与超媒体数据库将企业内部数据库连接至因特网,将企业内部数据库连接至因特网工作机理,使用者在其客户端的个人计算机上使用浏览器,通过因特网访问企业的网站在企业网站上,启动在线应用服务,并向数据库查询数据。在客户机/服务器环境中,数据库管理系统通常会放在一台特定的计算机中,成为数据库服务器。,数据库管理系统接受来自于应用服务器的SQL查询指令并提供所需要的数据。应用服务将来自于企业内部数据库的信息通过因特网以网页的形式传送给使用者。,问题,数据库系统可以回应用户所使用的超文本语言请求吗?数据库系统如何回应用户所使用的超文本语言请求吗?,工作原理,应用服务器相当于语言翻译官,属于中间件。一般应用服务器接受来自用户HTML编写的指令,把HTML指令翻译成SQL,数据库系统才可解读用户的请求,然后又通过应用服务器再把SQL翻译成HTML语言,这样用户就可读数据。,应用服务器有软件程序,介于浏览器端的计算机与公司后端商业数据库之间,可以处理所有的应用操作,提供与组织后端系统或数据库的链接。处理这些操作的软件可能是定制软件或通用网关接口脚本。,使用因特网访问企业内部数据库优点,因特网浏览软件容易使用 因特网接口不需要对内部数据库做修改,企业可以利用在旧系统的投资。,第三节 数据挖掘,定义 数据挖掘(Data Mining,简称DM)就是从超大型数据库(VLDB)或数据仓库中搜索有用的商业信息的过程。数据挖掘技术具有如下的性能:自动预测趋势和行为 数据挖掘可以在大型数据库中自动发现预言性信息。自动发现以前未知模式 数据挖掘工具可以识别以前隐藏的模式。,数据挖掘的产生,数据爆炸但知识贫乏 支持数据挖掘技术的基础,有价值的知识,可怕的数据,数据爆炸但知识贫乏,数据挖掘的出现,数据爆炸,知识贫乏,苦恼:淹没在数据中;不能制定合适的决策!,数据,知识,决策,数据挖掘的定义,技术上的定义及含义 数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。商业角度的定义 数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。数据挖掘与传统分析方法的区别 数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识,数据挖掘的功能,自动预测趋势和行为 关联分析对象分类 聚类分析概念描述 偏差检测,关联分析,人们购买爆米花后,有65%的人同时也会购买可乐。,对象分类,如信用卡或电话公司为例,担心失去固定客户。通过分类,可以总结退卡或退出电话网客户的共同特征,然后预测哪些人有这样的迹象并找出对策挽留这些客户,聚类分析,对购买了汽车保险的客户,标识那些有较高平均赔偿成本的客户特征,数据挖掘功能预测,数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问题,数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户,其它可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体。,数据挖掘功能关联分析,数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。关联是某种事物发生时其他事物会发生的这样一种联系。例如:每天购买啤酒的人也有可能购买香烟,比重有多大,可以通过关联的支持度和可信度来描述。时序关联是一种纵向的联系。例如:今天银行调整利率,明天股市的变化。,数据挖掘功能分类,按照分析对象的属性、特征,建立不同的组类来描述事物。例如:银行部门根据以前的数据将客户分成了不同的类别,现在就可以根据这些来区分新申请贷款的客户,以采取相应的贷款方案。,数据挖掘功能聚类,数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。聚类技术在划分对象时不仅考虑对象之间的距离,还要求划分出的类具有某种内涵描述,从而避免了传统技术的某些片面性。,数据挖掘功能概念描述,概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。,数据挖掘功能偏差检测,数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。偏差检测对分析对象的少数的、极端的特例的描述,揭示内在的原因。例如:在银行的100万笔交易中有500例的欺诈行为,银行为了稳健经营,就要发现这500例的内在因素,减小以后经营的风险。,数挖掘技术,人工神经网络 决策树 覆盖正例排斥反例方法 粗集(Rough Set)方法 遗传算法 公式发现 统计分析方法 模糊论方法 可视化技术,决策树图,聚类分析,聚类如同通常所说的“物以类聚”,是把一组个体按照相似性归成若干类别。它的目的是使属于同一类别的个体之间的距离尽可能的小,而不同类别上的个体间的距离尽可能的大。它反映同类事物共同性质的特征型知识和不同事物之间的差异性质的特征型知识。通过聚类,数据库中的记录可被划分为一系列有意义的子集。聚类增强了人们对客观现实的认识,是进行概念描述和偏差分析的先决条件。,簇(Cluster):一个数据对象的集合在同一个类中,对象之间具有相似性;不同类的对象之间是相异的。聚类分析把一个给定的数据对象集合分成不同的簇;聚类是一种无监督分类法:没有预先指定的类别;典型的应用作为一个独立的分析工具,用于了解数据的分布;作为其它算法的一个数据预处理步骤;,聚类分析应用,市场销售:帮助市场人员发现客户中的不同群体,然后用这些知识来开展一个目标明确的市场计划;土地使用:在一个陆地观察数据库中标识那些土地使用相似的地区;保险:对购买了汽车保险的客户,标识那些有较高平均赔偿成本的客户;城市规划:根据类型、价格、地理位置等来划分不同类型的住宅;地震研究:根据地质断层的特点把已观察到的地震中心分成不同的类;,数据挖掘应用,零售业银行业航空公司广告,案例:,北工大各部门基本上都有各自的管理信息系统,很多系统之间需要进行数据交换,例如:财务处需要从人事处获取人事信息;教务系统要为学生系统和毕分办系统提供学生基本信息;教务系统还要为人事系统提供教师授课信息,同时还要从人事系统获取教职工的基本信息;另外,人事系统与科研系统、研究生系统之间都存在双向的数据交换等。但由于各个子系统分立,各自采用了不同的数据库系统,采用了不同的应用开发技术。各子系统具有各自的用户管理和授权机制,之间缺乏甚至没有数据共享关系,管理层无法获得一个整体的数据视图,从而也就无法进行数据的全面分析和利用。除此之外,各部门的管理信息系统中所存储的数据之间还存在一些逻辑上的不一致,例如:同样一个人,在财务处的信息管理系统中的性别是用字符存储,而在人事处的信息管理系统中却是用数字存储的,这样就造成了数据逻辑上的不同存储,需要制定一个规范使其达到一定的一致性。另外现在学校的信息管理还不能提供诸如决策支持等数据仓库所能提供的支持,就连简单的综合查询也不能全面提供,若要进行一次涉及各个部门的综合查询,可能要到各个部门进行相应的个别查询,才能最后得到综合查询的结果。这些或多或少地影响了学校的整体规划,成为了学校进一步发展的障碍。,问题:,北工大管理信息系统现状、存在问题?你的解决方案?,存在问题,数据存放在不同的数据库中,查询和分析不容易上下数据不一致,解决方案,将不同来源的数据整合到一个综合的数据库中,存储和整理数据,方便查询和分析。建立数据标准,价值,提升决策降低成本,作业,搜索“聚龙米”网络营销推广状况设计罗定市稻香园发展有限公司“聚龙米”网络可追溯查询系统方案,