《数据仓库与数据挖掘》课程实验指导书.doc
《《数据仓库与数据挖掘》课程实验指导书.doc》由会员分享,可在线阅读,更多相关《《数据仓库与数据挖掘》课程实验指导书.doc(35页珍藏版)》请在三一办公上搜索。
1、潘怡 编著数据仓库与数据挖掘课程实验指导书长 沙 学 院 计 算 机 科 学 与 技 术 系2009年9月前 言本书是数据仓库与数据挖掘课程及数据分析与挖掘的实验指导书。全书分为三个部分,第一部分为实验内容对每个实验的实验目的、实验类型、实验学时、实验原理及知识点、实验环境(硬件环境、软件环境)和实验内容及步骤进行简单介绍,第二部分为实验指导对每个实验的实验方法,实验步骤及补充的实验知识进行详细介绍,第三部分为实验报告。本实践课程主要介绍数据仓库的工作机理及其构建过程,。要求学生熟练使用数据库管理系统MS SQL Server,掌握典型的数据仓库系统及其开发工具的使用,理解数据挖掘的工作原理与
2、流程,掌握典型数据挖掘技术及其工具的使用方法,熟悉SQL SERVER BI DEV集成挖掘环境。要求学生实验前认真准备,实验后提供实验报告,给出详细设计方法以及设计依据。实验报告的格式应采用统一封面,统一的实验报告纸。封面应包括:课程名称、实验序号、名称、专业、班级、姓名、同组实验者、实验时间。实验报告内容应包括:实验名称、目的、内容、实验步骤、实验记录、数据处理(或原理论证、或实验现象描述、或结构说明等)。目 录第一部分 实验内容实验1:实践SQL Server数据多维分析环境实验2:实践关联规则挖掘方法实验3:实践决策树挖掘方法实验4:实践聚类挖掘方法实验5:实践神经网络挖掘方法第二部分
3、 实验指导实验1:实践SQL Server数据多维分析环境实验2:实践关联规则挖掘方法实验3:实践决策树挖掘方法实验4:实践聚类挖掘方法实验5:实践神经网络挖掘方法第三部分 实验报告第一部分实验内容实验1:实践SQL Server数据多维分析环境一实验目的学习和掌握Sql Server 2005 Analysis Services 工具集,包括如何在 BI Development Studio 的 Analysis Services 项目中定义数据源、数据源视图、维度、属性、层次结构和多维数据集,如何查看多维数据集和维度,理解并掌握OLAP分析的基本过程与方法。二实验类型 验证型三实验学时 4
4、学时四实验原理及知识点1SQL Server 服务 2服务器注册3系统数据源连接4数据源视图处理5多维数据集6事实表和维度表;7星型架构模型;8元数据结构。五实验环境1硬件设备要求:PC及其联网环境;2软件设备要求:操作系统Windows, SQL Server 2005, SQL Server 2005 BI DEV STUDIO 。六实验内容及步骤I. 建立Sql Server 2005 数据挖掘实验环境1 启动SQL Server 服务,打开BI开发环境2 注册服务器3 建立系统数据源连接4 建立数据库和数据源视图5 浏览多维数据集数据6 编辑多维数据集数据II. 实践多维数据集分析 假
5、设一连锁超市的用户需求如下,从无到有设计一个数据仓库的基本架构,要求能够满足以下查询:1 查询公司在2005年的总销售金额2 查询公司在2005年第一季度的销售金额3 查询公司在2005年上半年的销售金额4 查询某供应商s1于2005年提供产品p1的金额总量5 查询某供应商s1于2005年提供某产品p1的金额总量6 查询某门市店d1于2005年共销售某一种商品p1的总金额7 查询公司在2005年度共销售多少金额类别为c1的商品p1的总金额根据要求:1 建事实表和维度表2 设计星型架构模型3 分析元数据结构。七思考与练习1什么是SQL Sever 2005 BI DEV STUDIO?它包含几个
6、主要部分?2如何注册服务器?3如何设计数据源视图?4如何建立多维数据集?5什么是事实表和维度表?6什么是星型架构?7什么是元数据?实验2:实践关联规则挖掘方法一实验目的学习和掌握使用Sql Server 2005进行关联规则数据挖掘,了解并掌握挖掘结构、挖掘模型的基本概念,能够使用数据挖掘向导创建数据挖掘结构和模型,掌握数据挖掘设计器的使用方法,掌握模型查看器方法,能够使用挖掘准确性图表,了解模型的提升图,能够创建数据挖掘报告。二实验类型 设计型三实验学时 4学时四实验原理及知识点1SQL Server 挖掘结构2SQL Server 挖掘模型3事实表4嵌套表5键6输入列7可预测列8挖掘参数五
7、实验环境1硬件设备要求:PC及其联网环境;2软件设备要求:操作系统Windows, SQL Server 2005, SQL Server 2005 BI DEV STUDIO 。六实验内容及步骤1 数据准备选定待分析数据库或多维数据集,对所需数据进行必要地提取、清洗和校验,为挖掘工作做好数据准备。2 创建数据源3 创建数据源视图4 创建挖掘结构5 创建挖掘模型6 使用模型查看器查看挖掘模型7 使用挖掘准确性图表查看模型8 使用挖掘模型预测窗口9 创建数据挖掘报告实验3:实践决策树挖掘方法一实验目的学习和掌握使用Sql Server 2005进行决策树挖掘,选择合适的数据进行决策树分析,并尝试
8、给出合理解释(例如,使用案例数据库建立给客户分群的决策树挖掘模型,或者判断学生升学意向)。在实验过程中了解并掌握挖掘模型的参数意义及设置方法,能够使用数据挖掘向导创建数据挖掘结构和模型,要求使用柱状图等方式展现最终挖掘结果。二实验类型 设计型三实验学时 4学时四实验原理及知识点1Hunt算法2. 最佳划分的度量方法3. 信息熵增益五实验环境1硬件设备要求:PC及其联网环境;2软件设备要求:操作系统Windows, SQL Server 2005, SQL Server 2005 BI DEV STUDIO 。六实验内容及步骤1数据准备选定待分析数据库或多维数据集,对所需数据进行必要地提取、清洗
9、和校验,为挖掘工作做好数据准备。2创建数据源3创建数据源视图4创建挖掘结构5创建挖掘模型6使用模型查看器查看挖掘模型7使用挖掘准确性图表查看模型8使用挖掘模型预测窗口9创建数据挖掘报告实验4:实践聚类挖掘方法一实验目的学习和掌握使用Sql Server 2005进行聚类挖掘,选择合适的数据进行聚类分析,并尝试给出合理解释在实验过程中了解并掌握挖掘模型的参数意义及设置方法,能够使用数据挖掘向导创建数据挖掘结构和模型,要求能够掌握模型察看方法。二实验类型 设计型三实验学时 4学时四实验原理及知识点1K-mean算法五实验环境1硬件设备要求:PC及其联网环境;2软件设备要求:操作系统Windows,
10、 SQL Server 2005, SQL Server 2005 BI DEV STUDIO 。六实验内容及步骤1数据准备选定待分析数据库或多维数据集,对所需数据进行必要地提取、清洗和校验,为挖掘工作做好数据准备。2创建数据源3创建数据源视图4创建挖掘结构5创建挖掘模型6使用模型查看器查看挖掘模型7使用挖掘准确性图表查看模型8使用挖掘模型预测窗口9创建数据挖掘报告实验5:实践神经网络挖掘方法一实验目的学习和掌握使用Sql Server 2005进行神经网络数据挖掘,了解并掌握挖掘结构、挖掘模型的基本概念,能够使用数据挖掘向导创建数据挖掘结构和模型,掌握数据挖掘设计器的使用方法,掌握模型查看器
11、方法,能够使用挖掘准确性图表,了解模型的提升图,能够创建数据挖掘报告。二实验类型 设计型三实验学时 4学时四实验原理及知识点1神经网络的拓扑2神经网络的组合和激活3神经网络的反向传播、误差函数4神经网络的处理五实验环境1硬件设备要求:PC及其联网环境;2软件设备要求:操作系统Windows, SQL Server 2005, SQL Server 2005 BI DEV STUDIO 。六实验内容及步骤1数据准备选定待分析数据库或多维数据集,对所需数据进行必要地提取、清洗和校验,为挖掘工作做好数据准备。2创建数据源3创建数据源视图4创建挖掘结构5创建挖掘模型6使用模型查看器查看挖掘模型7使用挖
12、掘准确性图表查看模型8使用挖掘模型预测窗口9创建数据挖掘报告第二部分实验指导实验1:实践SQL Server数据多维分析环境I. 建立Sql Server 2005 数据挖掘实验环境一SQL SEVER 2005 安装1)SQL Server 2005的一般部署步骤当你第一次把SQLServer2005的CD或者DVD光盘放到Server里的时候,你会看到一个引导窗口(图A),上面是产品介绍和运行须知。图ASQLServer2005的引导页面。要注意的是,即使你是用单张DVD进行安装,这个页面顶部的文字显示的还是“光盘12(Disc 1 of 2)”。要开始安装,就要选择“安装(Install
13、)”标题下的“Server组件、工具、在线工具书和示例(Server components, tools, Books Online, and samples)”选项。弹出的第一个画面是产品的最终用户许可证协议。你需要勾选“我接受协议条款和条件(I accept the licensing terms and conditions)”,点击“下一步(Next)”按钮继续。我在这里就不列出许可证页面了。你对此可能已经很熟悉了。下一个画面(图B)显示的是安装程序要提前安装的一些程序。.NET框架2.0是这里的关键。如果你决定在同一台Server上安装SQLServer2005以及其他应用程序,那就
14、要确保它们都能够使用这个框架。点击“安装(Install)”按钮来安装这些项目。当这些项目安装完毕后,你可以点击“下一步”按钮。图B当所有需要预先安装的程序都安装到你的系统里之后,SQLServer2005的安装向导就会启动。安装向导完成的第一项任务是扫描你的系统,以确保它满足SQLServer2005的最低要求。在下面的图C里,你会看到系统检测提示有两个方面存在问题。第一个是硬件的最低要求。它之所以出现是因为我是用虚拟机来安装SQLServer2005的,而虚拟机分配到的内存只有384兆,这个问题很容易解决。第二个是要求具有Internet信息服务功能(IIS Feature Require
15、ment),这个有点严重。SQLServer2005的一些服务,例如报告服务(Reporting Services)要求使用IIS。所以,继续安装之前,我要退出SQLServer2005的安装过程,再在Server上安装IIS。之后,才能继续进行安装。图C系统检测会检查出一些存在的问题,这样你可以在安装之前就解决它们,从而避免一些可能发生的错误。安装的下一步(图D)就相当简单了。填好你的名字、公司名和产品密钥。点击“下一步”继续。图D在这一画面里,你需要选希望与SQLServer2005一起安装的组件。如果这是你的第一台Server,那么就要选上SQLServer数据库服务(SQL Serve
16、r Database Services)选项。为了保证完整性,我安装了所有的服务,但是本文不会讨论故障转移集群。如果你想要选择更加详细的选项,或者更改默认的安装路径(C:Program FilesMicrosoft SQL Server),点击“高级(Advanced)”按钮,然后会弹出一个更加常见的功能选择窗口。下面的图E向你显示的是“组件选择(Component Selection)”画面。在图F里,显示的是“高级(Advanced)”画面。在窗口里,点击“下一步(Next)”继续安装。图E QLServer2005的主要组件选择画面。图F SQLServer2005引入了SQLServe
17、r命名实例(named instance)的概念。你可以选择升级已有的命名实例(图G),你也可以选择在安装SQLServer2005时默认的实例。在本文的例子里,我使用的“默认(Default)”选项。图G 择你的实例。正如以往,SQLServer服务需要使用特定的验证信息登录到系统。你可以选择让所有的SQL服务都共享相同的验证信息,或者你可以为每个服务都提供自己的登录验证信息,我建议在进行更大范围安装时使用后面这种方式。但是,在本文里,我让所有的服务都共享一个帐号,并使用内置的“本地系统(Local System)”帐号。 这个画面还让你选择在安装完成之后启动哪些服务。你可以在图H的屏幕截图
18、中看到安装程序默认选择的服务是哪些。图H为每项SQL服务选择服务帐号在安装的下一个画面(图I)里,系统会问你是否想要使用混合模式的Windows身份验证(Mixed Mode Authentication),这种模式让你可以使用SQLServer帐号。除非你有充足的理由不使用,否则最好使用Windows身份验证模式。用户帐号的维护更简单,这是你公司潜在安全漏洞较少的一个地方。如果你需要使用混合模式,就要向安装程序提供你希望系统管理员(sa)帐号使用的密码。图I选择你的身份验证模式。排序规则是不同的字符集和排序顺序的组,SQLServer正是通过它们才能够用于不同的区域和语言。SQLServer
19、2005安装程序让你可以选择“SQL排序规则(SQL Collations)”,这样你就可以向后兼容先前版本的SQLServer。但是,如果你要安装“分析服务(Analysis Services)”,SQL的排序规则就不能用于这项服务。微软建议你使用Windows排序规则而不用SQL排序规则,除非你需要解决向后兼容性的问题。Windows排序规则为你提供了同时用于Unicode和非Unicode文本的连续字符串比较功能。在本文的安装示例里,我将用到用于SQL和分析服务的Latin1_general排序规则指示项(图J)和排序顺序。图J“安装进度(Setup Progress)”窗口让你能够了解
20、安装程序安装各个组件到哪一步了。图O二、其他实验步骤及方法:参考教材第8章相关内容。II. 实践多维数据集分析参考教材第3章及第8章相关内容。实验2:实践关联规则挖掘方法1挖掘结构和挖掘模型的基本概念挖掘结构和挖掘模型均是SQL Server Analysis Services的主要数据挖掘对象。挖掘结构定义了挖掘的域,挖掘模型则对应于挖掘结构中挖掘算法的应用。一个挖掘结构包括数据和内容类型,与数据源捆绑,挖掘模型包含一个定一号参数的算法,以及从挖掘结构得到的列清单。一个挖掘结构可以对应多个挖掘模型。2 Microsoft 关联算法基本原理关联模型基于包含各事例的标识符及各事例所包含项的标识符
21、的数据集生成。事例中的一组项称为“项集”。关联模型由事例中一系列项集和说明这些项如何分组的规则组成。算法标识的规则可用于根据客户购物车中已有的项来预测客户将来可能购买的产品。以下关系图显示了项集中的一系列规则。正如该关系图中所示,Microsoft 关联算法可能会在数据集中找到许多规则。该算法使用两个参数(support 和 probability)来说明项集以及该算法生成的规则。例如,如果 X 和 Y 表示购物车中可能有的两个项,则 support 参数是数据集中包含 X 和 Y 这两项组合的事例的数目。通过将 support 参数与用户定义的 MINIMUM_SUPPORT 和 MAXIM
22、UM_SUPPORT 参数结合使用,该算法可控制生成的项集数。probability 参数也称为“置信度”,表示数据集中既包含 X 也包含 Y 的一部分事例。通过将 probability 参数与 MINIMUM_PROBABILITY 参数结合使用,该算法可控制生成的规则数。 Microsoft 关联算法遍历数据集以查找同时出现在某个事例中的项。然后,该算法将最少出现了由 MINIMUM_SUPPORT 参数指定的最少事例数次数的关联项分为项集。例如,项集可以为“Mountain 200=Existing, Sport 100=Existing”,并且支持的数目可以为 710,那么该算法将根
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库与数据挖掘 数据仓库 数据 挖掘 课程 实验 指导书
链接地址:https://www.31ppt.com/p-2396083.html