《电子政务中的数据挖掘技术.ppt》由会员分享,可在线阅读,更多相关《电子政务中的数据挖掘技术.ppt(31页珍藏版)》请在三一办公上搜索。
1、第九章 电子政务中的数据挖掘技术,一、数据仓库二、数据挖掘技术三、电子政务中的数据挖掘本章问题,一、数据仓库的概念和特点,数据仓库概念始于本世纪80年代中期,首次出现是在号称“数据仓库之父”William H.Inmon的建立数据仓库一书中。(一)数据仓库与传统数据库的区别 1、数据仓库的关键技术 数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它决不是所谓的“大型数据库”。数据仓库并没有严格的数学理论基础,也没有成熟的基本模式,且更偏向于工程,具有强烈的工程性。因此,在技术上人们习惯于从工作过程等方面来分析,其关键技术表现等三个基本方面。(1)数据的抽
2、取 数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入到数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等方面。数据仓库中的数据并不要求与联机事务处理系统保持实时同步,因此数据抽取可以定时进行,但多个抽取操作执行的时间、相互的顺序、成败对数据仓库中信息的有效性则至关重要。,返 回 下一页,(2)存储和管理储,数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有 别于传统数据库,同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则需
3、要从数据仓库的技术特点着手分析。(3)数据的表现 数据表现实际上相当于数据仓库的门面,其性能主要集中在多维分析、数理统计和数据挖掘方面。而多维分析又是数据仓库的重要表现形式,近几年来由于互联网的发展,使得多维分析领域的工具和产品更加注重提供基于Web前端联机分析界面,而不仅仅是在网上发布数据。2、传统数据库和数据仓库的区别主要表现为(1)面向主题 传统数据库主要是为应用程序进行数据处理,未必按照同一主题存储数据;数据仓库侧重于数据分析工作,是按照主题存储的。这一点,类似于传统农贸市场与超市的区别市场里面,白菜、萝卜、香菜会在一个摊位上,如果它们是一个小贩卖的;而超市里,白菜、萝卜、香菜则各自一
4、块。也就是说,市场里的菜(数据)是按照小贩(应用程序)归堆(存储)的,超市里面则是按照菜的类型(同主题)归堆的。,上一页 下一页,(2)与时间相关,数据库保存信息的时候,并不强调一定有时间信息。数据仓库则不同,出于决策的需要,数据仓库中的数据都要标明时间属性。决策中,时间属性很重要。同样都是累计购买过九车产品的顾客,一位是最近三个月购买九车,一位是最近一年从未买过,这对于决策者意义是不同的。(3)不可修改 数据仓库中的数据并不是最新的,而是来源于其它数据源。数据仓库反映的是历史信息,并不是很多数据库处理的那种日常事务数据(有的数据库例如电信计费数据库甚至处理实时信息)。因此,数据仓库中的数据是
5、极少或根本不修改的;当然,向数据仓库添加数据是允许的。数据仓库的出现,并不是要取代数据库。目前,大部分数据仓库还是用关系数据库管理系统来管理的。可以说,数据库、数据仓库相辅相成、各有千秋。(二)数据仓库的定义和特点 1、定义 数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。,上一页 下一页,2、特点,根据数据仓库概念的含义,数据仓库拥有以下四个特点:(1)面向主题。操作型数据库的数据组织面向事务处理任务,而数据
6、仓库中的数据是按照一定的主题域进行组织。主题是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。(2)集成的。面向事务处理的操作型数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。(3)相对稳定的。操作型数据库中的数据通常实时更新。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,一般有大量的查询操作,但修改和删除操作很少,通
7、常只需要定期的加载、刷新。(4)反映历史变化。操作型数据库主要关心当前某一个时间段内的数据。而数据仓库中的数据通常包含历史信息,系统记录了从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对发展历程和未来趋势做出定量分析和预测。,上一页 下一页,(三)数据仓库的结构,1、数据仓库的基本体系结构 数据仓库的体系结构分为数据获取层、数据存储层、数据挖掘层等多个部分。(1)数据获取层 数据获取层把决策主题所需要的数据(当前的、历史的),从各种相关的业务数据库或数据文件等外部数据源中抽取出来,进行各种必要的清洗、整合和转换处理,再将这些数据集成存储到仓库中。数据获取层
8、在数据仓库的整体系统应用中占有非常重要的地位。(2)数据存储层 数据存储层以一定的组织结构存储各种主题数据。数据仓库包括多个主题,一个主题的数据通常存储在一个数据库中,包括该主题的一些综合性表,如主题中选择的事实表、维表,还有为数据挖掘生成的中间表等。(3)数据挖掘层 数据挖掘层集成各种数据挖掘的算法,包含具有很强功能的数据挖掘工具,可以提供灵活有效的任务模型、组织形式,以支持各项决策的数据挖掘任务。数据挖掘是数据仓库应用的关键。,上一页 下一页,2、数据仓库的基本体系结构中的几个基本组成部分,(1)数据源:指为数据仓库提供最底层数据的运作数据库系统及外部数据。(2)监视器:负责感知数据源发生
9、的变化,并按数据仓库的需求提取数据。(3)集成器:将从运作数据库中提取的数据经过转换、计算、综合等操作,集成到数据仓库中。(4)数据仓库:存贮已经按企业级视图转换的数据,供分析处理用。根据不同的分析要求,数据按不同的综合程度存储。数据仓库中还应存储元数据,其中记录了数据的结构和数据仓库的任何变化,以支持数据仓库的开发和使用。(5)客户应用:供用户对数据仓库中的数据进行访问查询,并以直观的方表示分析结果的工具。在实施智能化决策时,一般分两个步骤:第一步实现数据仓库和多维分析,构造智能决策的基础,实现分析应用;第二步实现数据挖掘,再发挥智能化决策的特色。数据挖掘是数据利用价值的再发现,它突破了传统
10、意义上的数据查询,是在更大的尺度上、更深的层次中对数据提高利用的价值,是数据仓库应用的关键。,上一页 下一页,数据仓库的基本体系结构,上一页 下一页,(四)数据仓库的功能,1、数据获取 2、数据储存和管理 3、信息访问(五)数据仓库建设的重点 数据仓库性能指标评估包括以下几个方面:(1)管理大数据量数据的能力;(2)进行灵活数据存取的能力;(3)根据数据模型重组数据的能力;(4)数据发送和接收能力;(5)周期性成批装载数据的能力;(6)可设定完成时间的作业管理能力。等等。这些内容,很多都与数据清理、预加工等处理流程有密切关系,因为这些流程是数据仓库“原料”问题的保障。只有进入仓库的原料质量有所
11、保障,仓库才能更好地发挥作用。因此,成功建设数据仓库,一定要特别重视数据抽取、数据冲突以及数据集成等方面的工作。,上一页 下一页,1、重视集成、转换程序开发,数据仓库是一个独立的数据环境,它需要通过抽取过程将数据导入。的过程,包括:数据清理、预加工工作,包括删除对决策应用没有意义的数据段、转换到统一的数据名称、计算统计和衍生数据、给缺值数据赋缺省值以及把不同的数据定义方式统一等内容。数据清理、预加工所需的集成、转换程序用于从操作性信息系统、数据库中移植数据给数据仓库,还包括数据仓库运行起来之后的定时数据补充。2、解决数据冲突 要确定可能存在的各种语法和语义上的冲突,在导入数据的时候,要对突数据
12、进行转换。这些冲突可能包括:格式冲突:同一种数据类型可能有不同的表示方法和语义差异,这时需要定义两种模型之间的变换函数。命名冲突:即数据源中数据的某些标识符可能是目的模型中的保留字,这时就需要重新命名。结构冲突:如果两种数据库系统之间的数据定义模型不同,那么需要重新定义实体属性和联系,以防止属性或联系信息的丢失。,上一页 下一页,3、引入新的访问控制机制,在进行数据转换后,一方面数据源中所有需要载入的信息都转换到数据仓库中,另一方面这种转换又不能包含冗余的关联信息。需要进一步研究的问题是:如果数据转换的同时进行数据定义模式转换,就可能引起同一数据集合在异构数据库系统中存在多个副本。因此需要引入
13、新的访问控制机制,对于数据仓库提供全局的访问控制、并发机制和安全控制。4、确定数据抽取周期以及数据总量 数据仓库中的数据,一般不要求与联机事务处理系统保持实时同步,因此数据抽取可以定时进行。但多个抽取操作执行的时间、相互的顺序、成败对数据仓库中信息的有效性至关重要。在规划数据仓库项目明确企业需求的时候,就要特别注意与业务人员协商好间隔多久抽取一次新数据以及保留多久的历史数据。不同类型的数据,抽取周期也不同。例如证券登记公司按照法律规定,要保存20年的过户历史数据;西方大型零售业企业的数据仓库里一般保存最新23年来自集团各个商店的原始销售数据和库存数据;世界上从事航空运输业历史最悠久的公司之一澳
14、大利亚QANTAS航空公司建成数据仓库时原始数据量不到100GB,不到五年的时间即扩展到1500GB。因此,企业应该在自身系统性能、可扩张性许可的范畴内抽取数据,切忌“贪大。,上一页 下一页,(六)数据仓库的应用,1、证券 证券公司利用客户行为分析系统将所有客户的操作记录进行归类和整理,并结合行情走势、上市公司资料、宏观微观经济数据等。在掌握大量数据的情况下,对客户的行为和市场各因素的关联、客户的操作习惯、盈亏情况、公司的利润分布等进行统计和分析,从而在获得以往一直想获得但却无法获取的关于客户在本公司的行为、盈亏、习惯等关键信息后,就有能力为客户提供针对其个人习惯、投资组合的投资建议,从而真正
15、作到对客户的贴心服务。2、银行 如何防范银行的经营风险、实现科学管理以及进行决策,成为当今金融研究的一个重要课题。利用数据仓库的强大功能,银行可以建立企业客户群、个人客户群的数据库,并对企业的结构、经营、财务、市场竞争等多个数据源进行统一的组织,形成一个一体化的存储结构,为决策分析奠定基础。通过先进的信息加工、分析、处理软件,加上银行的经营决策、信贷营销人员的个人经验,对每一个投资方向、每一笔贷款作出科学的判断,可以有效控制投资、信贷风险。,上一页 下一页,3、税务,通过应用数据仓库技术,对税收部门的内部和外部数据进行综合分析处理,可以解决三个方面的问题:一是查出应税未报者和瞒税漏税者,并对其
16、进行跟踪;二是对不同行业、产品和市场中纳税人的行为特性进行描述,找出普遍规律,谋求因势利导的税务策略;三是对不同行业、产品和市场应收税款进行预测,制定最有效的征收计划。数据仓库技术之所以能够查出漏税者,其基本思想是通过对大量数据资料的分析来掌握各行各业、各种产品和各类市场的从业人员以及企业的纳税能力,并与其实际纳税金额进行对比,从而查出可能的偷漏税者。澳大利亚政府税务部门将数据仓库技术用于支持税收业务,系统经过3年的运行,投入回报率达到115。4、保险 随着商业保险公司业务系统日趋完善,数据交换和处理中心的建立,如何满足保险行业日益增长的各种查询、统计、报表以及分析的需求,如何提高防范和化解经
17、营风险的能力,如何有效利用这些数据来实现经营目标,预测保险业的发展趋势,甚至如何利用这些数据来设计保险企业的发展宏图以在激烈的竞争中赢得先机,是保险决策支持系统需要解决的问题,也是目前保险企业在信息应用案例上的首要难题。,上一页 返 回,二、数据挖掘技术,(一)数据挖掘技术的定义及其含义 1、数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。与数据挖掘相近的同义词有数据融合、数据分析和决策支持等。2、数据挖掘的内容 数据挖掘定义包括好几层含义:数据源必须是真实的、大量的、含噪声
18、的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。从广义上理解,数据、信息也是知识的表现形式,但是人们更把概念、规则、模式、规律和约束等看作知识。数据看作是形成知识的源泉,好像从矿石中采矿或淘金一样。原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。因此,数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。,返 回 下一页,3、数
19、据挖掘从本质上看是一种新的信息处理技术,数据挖掘的主要特点是对数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助决策的关键性数据,其实是一类深层次的数据分析处理方法。因此,数据挖掘可以描述为:按既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。(二)数据挖掘与传统分析方法的区别 数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是:数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先未知,有效和可实用三个特征。先前未知的信息是指该信息是预先未曾预料到的,既数据
20、挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。例如:一家连锁店通过数据挖掘发现了小孩尿布和啤酒之间有着惊人的联系。,上一页 下一页,(三)数据挖掘和数据仓库,大部分情况下,数据挖掘都要先把数据从数据仓库中拿到数据挖掘库或数据集市中。数据挖掘库可能是数据仓库的一个逻辑上的子集,而不一定非得是物理上单独的数据库。因此,为了数据挖掘不必非得建立一个数据仓库,数据仓库不是必需的。建立一个巨大的数据仓库,把各个不同源的数据统一在一起,解决所有的数据冲突问题,然后把所有的数据导到一个数据仓库内,是一项巨大的工程,可能要用几年的时间花上百万
21、的钱才能完成。所以,如果数据仓库的计算资源已经很紧张,那最好还是建立一个单独的数据挖掘库。如果只是为了数据挖掘,可以把一个或几个事务数据库导入到一个只读的数据库中,就把它当作数据集市,然后在其上面进行数据挖掘。,上一页 下一页,数据挖掘库从数据仓库中得出,数据挖掘库从事务数据库中得出,上一页 下一页,(四)数据挖掘流程,关于网络数据挖掘技术,目前众说纷纭,但基本上可以将网络数据挖掘分为四个步骤:1、确定业务对象:虽然网络数据挖掘的最后结果是不可预测的,但对要探索的问题应有所预见,不能盲目地为了数据挖掘而数据挖掘。清晰地定义出业务问题,认清数据挖掘的目的是网络数据挖掘的重要一步。2、数据准备:网
22、络数据挖掘的数据来自两个方面:一方面是客户的背景信息,主要来源于客户登记表;而另外一部分数据主要来自浏览者的点击流(Click-stream),主要用这部分数据考察客户的行为表现。由于客户的背景信息涉及个人隐私,因此客户不愿意把个人信息如实填写在登记表上,这给数据分析和挖掘带来困难。在这种情况下,不得不从浏览者的表现数据中推测客户的背景信息,进而再加以利用。数据准备首先检索所需的网络文档,发现资源;然后进行数据预处理,从发现的网络资源中自动挑选和预处理得到专门的信息。3、网络数据挖掘:从单个的Web站点以及多个站点之间的网络资源中发现普遍的模式。4、结果分析:对挖掘出的结果,即普遍模式进行确认
23、或者解释。,上一页 下一页,数据挖掘过程,上一页 下一页,(五)数据挖掘技术的功能,数据挖掘通过预测未来趋势及行为,做出前摄的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识,主要有以下五类功能。1、自动预测趋势和行为 数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问题,数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户,其它可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体。2、关联分析 数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存
24、在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。,上一页 下一页,3、聚类,数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。80年代初,Mchalski提出了概念聚类技术牞其要点是,在划分对象时不仅考虑对象之间的距离,还要求划分出的类具有某种内涵描述,从而避免了传统技术的某些片面性。4、概念描述 概念描述就是对某类对象的内涵进行描
25、述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。5、偏差检测 数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。,上一页 下一页,(六)数据挖掘技术的价值,数据挖掘技术存在广泛的使用价值。1、客户分析 随着“以客户为中心”的经营理念的
26、不断深入人心,分析客户、了解客户并引导客户的需求已成为政府和企业经营的重要课题。通过对积累的交易数据进行分析,可以按各种客户指针(如自然属性、收入贡献、交易额、价值度等)对客户分类,然后确定不同类型客户的行为模式,以便采取相应的行销措施,促政府获得人民的支持、企业盈利。2、优化配置资源 节约成本是政府和企业共同关心的问题。通过分析历史数据,可以发现资源消耗的关键点和主要活动的投入产出比例,从而为资源优化配置提供决策依据。3、异常事件的确定 在许多领域中,异常事件具有显著的价值,如客户流失、银行的信用卡欺诈、电信中移动话费拖欠以及医学中特殊病情的征兆等。通过数据挖掘分析,可以迅速准确地甄别这些异
27、常事件。4、企业分析模型的管理 在使用数据挖掘系统时,可以对模型进行调优和定制。,上一页 下一页,(七)数据挖掘技术,常用的数据挖掘技术主要有以下几种:1、OLAP(联机分析处理)OLAP是最普遍的数据挖掘工具与技术。与数据仓库查询相比,OLAP以多维方式汇总数据,使我们可以迅速获得用于进一步分析的重要信息。OLAP能够将数据仓库转化为更有用的信息。OLAP的一大主要特征是对数据看法的多维性,这源自对数据进行多维度分析的商业需求。例如,根据产品,区域,渠道和时间轴来分析销售数据,OLAP工具能够利用一个数据仓库的子集进行向下挖掘,分段,切割和提炼数据。OLAP 应用软件会跨越组织内多个功能单位
28、。销售部门利用OLAP工具进行销售分析与预测,财政部门利用OLAP实现诸如预算,财政绩效分析与金融建模等功能。营销部门利用OLAP进行客户分析,市场调查分析,销售预测和市场/客户分段。许多制造业OLAP应用软件还具有包括产品规划和缺陷分析等功能。2、描述性分析 这取决于观察事件为什么会发生,然后找出一个模式或者相似性并以此得出一种趋势。描述性分析可以多种方式进行。,上一页 下一页,3、聚类,这中方法涉及到对记录中某些重要的特征进行识别,然后将它们归入一个个簇。每个簇都是一个子段,子段与子段之间有着不同的关键特性。信用卡公司常常使用这种技术为他们的产品进行潜在客户定位,依据是如潜在客户消费值等主
29、要特性。类似的,还有很多其他的技术,比如顺序联想分析法(它以时间的发生次序为本事件提供模式)或者是交易篮子分析法(这种方法认为同一时间被购买的产品具有相关性)。4、预测模型 透视客户的行为、需求和渴望,从而建立一个模式是任何部门之需。运用预测模型,就可以对各种营销活动产生的反响进行预测。例如,基于对历史客户数据的复杂计算,度量其客户的信用价值。预测模型能够确定识别到的因素中哪些具有高度相关性,然后度量各要素之间的相关度。预测模型得出的成果是一个分数,能够用来预测客户某些行为发生的可能性大小。对于预测模型来说,有许多工具可供选择,如神经网络图和决策树。,上一页 下一页,5、遗传算法,基于进化理论
30、,并采用遗传结合、遗传变异、以及自然选择等设计方法的优化技术。6、近邻算法 将数据集合中每一个记录进行分类的方法。7、规则推导 从统计意义上对数据中的“如果,那么”规则进行寻找和推导。上述的所有工具与技术都能通过更好地了解客户的需求,并获得有用的客户行为透视,使管理和服务极大地增值。这些技术并不完善,但是当它们成为一个大型决策支持流程的一部分时,就能通过提供有用的透视增加决策的价值。目前,这些技术已经被直接集成到许多大型的标准的数据仓库和联机分析系统中去了。世界上比较有影响的典型数据挖掘系统有:SAS公司的Enterprise Miner;IBM公司的Intelligent Miner;SGI
31、公司的SetMiner;SPSS公司的Clementine;Sybase公司的Warehouse Studio;RuleQuest Research公司的See5;以及CoverStory、EXPLORA、Knowledge Discovery Workbench、DBMiner、Quest等。,上一页 返 回,三、电子政务中的数据挖掘,(一)电子政务需要数据挖掘 而电子政务中的数据挖掘技术是基于网络的,即所谓的网络数据挖掘,它除了处理传统数据库中的数值型的结构化数据外,处理更多的是文本、图形、图像、WWW信息资源等半结构、非结构的数据。1、实时有效信息的需求 政府部门要充分发挥政府的职能,进
32、行有效地监控和管理,同时为了增强民众和政府之间沟通的时效性,及时掌握有效的信息。2、降低成本、减少财政支出的需求 电子政务系统的建设带来的直接的经济效益,就是打破了各级政府之间文件传递的繁琐性,用最快捷的电子方式在政府上下级之间传递信息,这不仅降低了政府办公用品及相关开销,而且无形中也减少了大量的额外开支。3、分析和决策的需求 现有的数据库系统虽然可以高效地实现数据的录入、查询和部分统计等功能,但是无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。因此,政务系统迫切需要拥有一个智能化的辅助决策支持系统。,返 回 下一页,(二)网络数据挖掘离不开专业人员,由于网络数据挖掘的若
33、干工作需要人工完成,并且数据挖掘过程是分步实现的,因此不同步骤的工作需要具有不同专长的人员,大体可以将他们分为三类:1、业务分析人员 精通业务,能够解释业务对象,并根据各业务对象确定出用于数据定义和挖掘算法的业务需求。2、数据分析人员 精通数据分析技术,并较熟练地掌握统计学方法,能够把业务需求转化为数据挖掘的各步操作,并为每步操作选择合适的技术。3、数据管理人员 精通数据管理技术,能从数据库、数据仓库和各种网络资源中检索、收集适于挖掘的数据。由此可见,数据挖掘是一个多种专家合作的过程,也是一个在资金上和技术上高投入,同时获得高回报的过程。,上一页 下一页,(三)网络数据挖掘形式,根据不同的网络
34、数据挖掘对象,人们将网络数据挖掘分为网络内容挖掘(Web content mining)、网络结构挖掘(Web structure mining)以及网络用法挖掘(Web usage mining)。1、网络内容挖掘 网络内容挖掘就是一个从网络信息内容中发现有用信息的过程。由于网络信息内容有很多是多媒体数据,因此网络内容挖掘也将是一种多媒体数据挖掘形式。2、网络结构挖掘 网络结构挖掘就是挖掘Web潜在的链接结构模式。这种模式可以用于网页归类,并且由此可以获得有关不同网页间相似度及关联度的信息。网络结构挖掘有助于用户找到相关主题的权威站点。3、网络用法挖掘 网络内容挖掘和网络结构挖掘的挖掘对象是
35、网上的原始数据,而网络用法挖掘面对的则是在用户和网络交互的过程中抽取出来的第二手数据,包括网络服务器访问记录、代理服务器日志记录、浏览器日志记录、用户简介、注册信息、用户对话或交易信息、用户提问方式等。通过网络用法挖掘,可以了解用户的网络行为数据所具有的意义。,上一页 下一页,(四)在电子政务中应用网络数据挖掘,电子政务位于世界各国积极倡导的“信息高速公路”五个领域(电子政务、电子商务、远程教育、远程医疗、电子娱乐)之首,说明政府信息化是社会信息化的基础。电子政务包括政府的信息服务、电子贸易、电子化政府、政府部门重构、群众参与政府五个方面的内容。将网络数据挖掘技术引入电子政务中,可以大大提高政
36、府信息化水平,促进整个社会的信息化。具体体现在以下几个方面:1、政府的电子贸易 在服务器以及浏览器端日志记录的数据中隐藏着模式信息,运用网络用法挖掘技术可以自动发现系统的访问模式和用户的行为模式,从而进行预测分析。例如,通过评价用户对某一信息资源浏览所花费的时间,可以判断出用户对何种资源感兴趣;应用聚类分析来识别用户的访问动机和趋势等。这项技术已经有效地运用在政府电子贸易中。2、网站设计 通过对网站内容的挖掘,主要是对文本内容的挖掘,可以有效地组织网站信息,如采用自动归类技术实现网站信息的层次性组织;同时可以结合对用户访问日志记录信息的挖掘,把握用户的兴趣,从而有助于开展网站信息推送服务以及个
37、人信息的定制服务,吸引更多的用户。,上一页 下一页,3、搜索引擎,网络数据挖掘是目前网络信息检索发展的一个关键。如通过对网页内容挖掘,可以实现对网页的聚类、分类,实现网络信息的分类浏览与检索;通过对用户所使用的提问式的历史记录的分析,可以有效地进行提问扩展,提高用户的检索效果;另外,运用网络内容挖掘技术改进关键词加权算法,提高网络信息的标引准确度,从而改善检索效果。4、决策支持 为政府重大政策出台提供决策支持。如,通过对网络各种经济资源的挖掘,确定未来经济的走势,从而制定出相应的宏观经济调控政策。从世界范围来看,电子政务并未真正得以实现。英国虽然在这一方面全球领先,但也仅有60%的政府机构的互连网服务网站已开通或正在建设。随着电子政务和网络用户对高品质、个性化的信息需求的不断扩大,将对网络数据挖掘技术提出更高的要求,推动这一技术不断地发展与完善,更好地为电子政务服务,从而提高全球的信息化水平。,上一页 返 回,本章问题,1、什么是数据仓库2、数据仓库的基本特征和功能3、什么是数据挖掘4、数据挖掘的功能5、电子政务为什么需要数据挖掘6、数据挖掘的流程7、数据挖掘的形式,返 回,
链接地址:https://www.31ppt.com/p-6003671.html