《数据仓库实验报告.docx》由会员分享,可在线阅读,更多相关《数据仓库实验报告.docx(50页珍藏版)》请在三一办公上搜索。
1、实验报告院、系计算机学院年级专业计算机科学与技术姓名学号课程名称数据仓库与数据挖掘成绩指导教师同组实验者实验日期实 验 名 称实验一基于SQLServer2005示例数据库的多维数据模型一. 实验目的通过本实验的学习,使学生掌握在SQL Server 2005示例数据仓库环境下建立多维数据模型过程的知识,训练其把教材上的内容应用到实际中的技能,为今后继续数据挖掘技术的学习奠定基础。二. 实验内容在SQL Server 2005示例数据仓库环境下建立多维数据模型。针对Adventure Works Cycle公司的销售分析需求,从Adventure WorksDW示例数据库中导出数据,建立并部署
2、“销售分析”多维数据集,进而从多角度对Adventure Works Cycle公司的销售状况作分析研究。三. 实验步骤1. 创建一个新的数据仓库分析项目打开Visual Studio 2005分析项目,选择Analysis Serveices项目,并将项目名称更改为“销售分析示例”2. 定义数据源在“数据源”文件夹上右击,在弹出的快捷菜单上选择“新建数据源”命令。启动新建数据源向导,单机新建按钮。出现”连接管理器“对话框,在“提供程序”下下拉列表框中确保已选中服务账户,并命名数据源为”销售分析数据源”。3. 定义数据源视图选择“数据源视图” 文件夹,新建一个数据原视图。数据源选择上一步新建的
3、“销售分析数据源”。在“可用对象”列表框中,选择下列表(同时按下Ctrl键可选择多个表)。4. 定义多维数据集右键单击“多维数据集”,从弹出的快捷菜单中选择“新建多维数据集”命令;已选中“使用数据源生成多维数据集”选项和“自动生成”选项;在“时间维度表”下拉列表中选择“时间”别名。下一步设置时间维,将时间属性名称映射到已指定为“时间”维度和维度表中的相应列。选择事实表的度量值(去掉不是度量值的列),可以对度量值重新命名。设置和校验维度的属性及层次结构和属性,在“查看新建维度”页上,通过展开树控制件显示该方向导检测到的三个维度的层次结构和属性,查看其中每个维度的维度层次结构(可根据需要去掉部分为
4、度属性)。在“完成向导”页上,将此多维数据集的名称改为“销售分析多维数据集”单击“完成”按钮,便完成了多维数据集的定义,此时仍可以对维度或度量等名称做更改,以便最终用户理解与使用。在维度设计器的“维度结构”选项卡上,可以添加,删除和编辑层次结构,级别和属性。5. 部署“销售分析示例”项目若要查看刚才建立的的销售分析多维数据集中的数据,必须将其所在的项目部署到分析服务的指定实例,然后可以处理多维数据集及其维度。1) 部署配置在解决方案资源管理器中,右键单击根结点“销售分析实例”项目,从弹出的快捷菜单中选择“属性”命令。在弹出的对话框中更改“数据库”对应值为Analysis Services。2)
5、 部署项目在解决方案资源管理器中,右键单击“销售分析实例”项目,从弹出的快捷菜单中选择“部署”命令,或者在菜单栏上选择“生成”菜单,单击“部署销售分析实例”。若服务器么有安装Analysis Services或没有启动数据库服务器,将报错“无法建立连接”,进而部署失败。查看“输出”窗口和“部署进度-销售分析实例”窗口的内容,验证是否已生成,部署完成多维数据集,没有出现错误,且在右下角显示“部署成功完成”即表示部署成功。6. 浏览已部署的多维数据集部署完成后,就可以浏览多维数据集的实例数据了。浏览“销售分析实例”多维数据集及每个维度,已确定为了改进此多维数据集的功能而需要执行的更改。在解决方案中
6、单击“客户”维度,然后选择”浏览器“选择卡。在这里,可以从各个角度浏览客户结构,现在有关客户级别的信息只显示客户的电子邮件地址,而不显示客户的姓名,需要通过后面的更改显示客户姓名,按省州分类浏览客户。单击在解决方案的“多维数据集” 目录下的子项“销售分析图.cube”,切换到”浏览器”选项卡上,内容区分三个窗口:左边窗口显示事实表和维度表的元数据信息,右上窗口维度筛选器,右下窗口为报表数据显示窗口。浏览多维数据集的操作方法:从元数据窗口拖动有关内容到右边显示区或筛选器中即可形成一个初步的报表,虽然还很粗糙,特别是显示格式等有待在后续的操作中改进。展示数据的操作步骤如下:1) 将事实表中的“销售
7、额”度量值拖到数据显示区的“将合计或详细信息字段拖至此处”区域2) 将客户维度表的“英语国家/地区区域名”属性层次结构拖到数据显示区的“将行字段拖至此处“区域。3) 将产品维度表的“产品系列”拖到数据显示区的“将列字段拖至此处”区域;或者右键单击“产品系列”,从弹出的快捷菜单中选择“添加到列区域”命令。4) 将“订单日期”维度的“季度”拖到数据显示区的“将筛选器字段拖至此处”区域,并单击“季度”下拉框,不选第四季度。5) 右键单击“订单日期”维度的“年度”属性层次结构中的2002成员,然后单击“添加到子多维数据集区域”。再单击“筛选表达式”先单元格的下拉框,复选2003和2004年度即将选择2
8、002/2003和2004这三年数据做报表。7. 提高多维数据集的可用性和易用性1) 修改度量值的有关属性。2) 修改维度的层次结构和有关属性。3) 增加维度属性。4) 将命名计算列表作为弧度的成员名称。5) 重新部署并查看修改。6) 灵活快速地导出各类统计表。四. 实验结果五. 实验总结本次实验使用SQL Server 2005建立多维数据模型,使我对建立多维数据模型与数据的导出过程有了简单的认识。此外,数据仓库的创建与设计过程需要先配置环境,然后建立多维数据模型。数据仓库系统建立的过程:收集与分析业务需求、建立数据仓库的概念和逻辑模型、对数据仓库做物理设计、定义数据源、选择数据仓库技术与平
9、台、数据的ETL处理、选择数据分析与数据展示软件、数据仓库的更新设计等。数据仓库应用系统的开发包括两个部分:一是数据仓库数据库的开发与设计,用于存放数据仓库的数据;二是数据分析应用系统的开发。实 验 名 称实验二 SQL Server 2005中的关联规则应用一实验目的通过本实验的学习,使学生掌握在SQL Server 2005示例数据仓库环境下关联规则的应用的知识,训练其把教材上的内容应用到实际中的技能,为今后继续关联规则知识的学习奠定基础。二实验内容在SQL Server 2005示例数据仓库环境下关联规则的应用。在SQL Server 2005中,可以利用Analysis Serverc
10、es进行关联规则的挖掘。以系统提供的Adventure Works DW数据库为例说明如何发现关联规则。三 实验步骤和结果1. 创建Analysis Services项目打开Business Intelligence Development Studio,选择“文件”-“新建”命令,新建一个Analysis Services项目。在“名称”文件框中将新的项目命名为Adventure Works,单击“确定”按钮。2. 创建数据源在右侧解决方案资源管理器中,右键单击“数据源”项,从弹出的快捷菜单中选择“新建数据源”命令。系统将打开数据源向导。单击“新建”按钮,向Adventure Works数据
11、库添加链接。系统将打开“链接管理器”对话框。在“链接管理器”对话框的“提供程序”下拉列表中选择“本机OLE DBMicrosoft OLE DB Provider for SQL Server”选项,在“服务器名”下拉列表中选择承载AdventureWorksDW的服务器,在“选择或输入一个数据库名”下拉列表中选择AdventureWorksDW选项,再单击“确定”按钮。单击“下一步”按钮进入“模拟信息”页,选择“默认值”。此后都采取默认值,新的数据源AdventureWorksDW将显示在解决方案资源管理器的“数据源”文件夹中。3. 创建数据源视图在解决方案资源管理器中,右键单击“数据源视图
12、”,从弹出的快捷菜单中选择“新建数据源视图”命令。系统将打开数据源视图向导。在“选择数据源”页的“关系数据库”下,默认选中子啊上一步中粗昂间的AdventureWorksDW数据源。单击“下一步”按钮,在“选择表和视图”页上选择下列各表,然后单击右键头键,将dbo.vAssocSeqLineItems视图和dbo.vAssocSeqOrders视图包括在线数据源视图中,单击“下一步”按钮。在“完成向导”页上,默认情况下,系统将数据源视图命名为AdventureWorksDW。单击“完成”按钮。系统将打开数据源视图设计器,显示AdventureWorksDW数据源视图。在数据源视图设计器的数据源
13、视图窗格中,选择vAssocSeqLineItems表的OrderNunber列。将该列拖到vAssocSeqOrders表中,并将其放到OrderNumber列上。vAssocSeqOrders和vAssocSeqLineItems表之间便存在新的多对一关系。4. 创建关联挖掘结构在解决方案资源管理器中,右键单击“挖掘结构”,从弹出的快捷菜单中选择“新建挖掘结构”命令,在“选择定义方法”页上,确保已选中“从现有关系数据库或数据仓库”选项,再单击“下一步”按钮。在“选择数据挖掘技术”页的“您要使用何种数据挖掘技术?”列表框中选择“Microsoft关联规则”选项,再单击“下一步”按钮。“选择数
14、据源”页随即显示。默认情况下,“可用数据源视图”下的AdventureWorksDW为选中状态。单击“下一步”按钮,在“指定表类型”页上选择vAssocSeqOrder表右边的“示例”复选框,选中vAssocSeqLineItems表右边的“嵌套”复选框。关联模型必须包含一个键列、多个输入队列以及一个可预测列。输入队列必须为离散列。关联模型的输入数据通常包含在两个表中。单击“下一步”按钮,在“指定定型数据”页上依次清除CustomerKey右边的“键”复选框和LineNumber右边的“键”和“输入”复选框。选中Model列右边的“键”和“可预测”复选框。然后系统也将自动选中“输入”复选框。单
15、击“下一步”按钮,在“指定列的内容和数据类型”页上单击“下一步”按钮。在“完成向导”页的“挖掘结构名称”输入Assocoation,再单击“完成”按钮。系统将打开数据挖掘设计器,显示刚刚创建的Association挖掘结构。5. 设置关联规则挖掘的参数首先打开数据挖掘设计器的“挖掘模型”选项卡,右键单击设计器网格中的“关联”列,从弹出的快捷菜单中选择“设置算法参数”命令。系统将打开“算法参数”对话框,在“算法参数”对话框的值列出设置以下参数。MINIMUM_SUPPORT=0.01MINIMUM_PROBABILITY=0.1然后单击“确定”按钮。MINIMUM_SUPPORT指定在该算法生成
16、规则之前必须包含项集的事例的最小数目。将该值设置为小于1,将指定最小事例数最为事例总计的百分比;将该值设置为大于1的整数,将指定最小事例数作为必须包含项集的事例的绝对数。默认值为0.03.MINIMUM_PROBABILITY指定规则为True的最小概率。6. 建立关联规则挖掘模型由于已经定义了“关联”挖掘模型的结构和参数,可以对该模型进行处理。选择“挖掘模型”菜单的“处理挖掘结构和所有模型”选项,系统将打开“处理挖掘结构-Association对话框。单击“运行”按钮,系统将打开“处理进度”对话框,以显示有关模型处理的信息。7. 查看挖掘结果处理完成之后,“选择挖掘模型查看器”,第一个页面是
17、挖掘到的频繁集。或者打开第二个页面,查看挖掘出来的规则。四 实验总结通过本次实验,对数据仓库中关联规则的应用以及如何发现关联规则有了简单的了解,通过使用Analysis Services服务进行关联规则模型的建立和处理,以可视化的方式查看模型结果对关联规则有了根本的了解。关联规则可以反映一个事物与其他事物之间的相互依存性和关联性,如果两个或多个事物之间存在一定的关联关系,其中一个事物就能通过其他事物预测到。实 验 名 称实验三 SQL Server 2005中决策树的应用一 实验目的通过本实验的学习,使学生掌握在SQL Server 2005示例数据仓库环境下决策树的应用的知识,训练其把教材上
18、的内容应用到实际中的技能,为今后继续决策树挖掘技术知识的学习奠定基础。二 实验内容在SQL Server 2005示例数据仓库环境下决策树的应用。使用SQL Server 2005中的决策树方法,构造决策树所使用的数据集是SQL Server 2005中的Adventure WorksDW数据库中的vTargetMail数据集。三 实验步骤和结果1. 创建Analysis Services项目2. 创建数据源上述两个步骤与实验二的步骤(1)(2)相同。3. 创建数据源视图在解决方案资源管理器中,右键单击“数据源视图”,从弹出的快捷菜单中选择“新建数据源视图”命令,系统将打开数据源视图向导。在“
19、欢迎使用数据源视图向导”页上,单击“下一步”按钮。在“选择数据源”页中再次单击“下一步”按钮。在“选择表和视图”页上,选择dbo.vTargetMail视图,然后右击,将他包括在新数据源视图中。单击“下一步”按钮,在随后出现的“完成向导”页上,默认情况下,系统将数据源视图命名为AdventureWorksDW,单击“完成”按钮,数据源视图创建成功。4. 创建决策树挖掘结构在解决方案资源管理器中,右键单击“挖掘结构”页上,从弹出的快捷菜单中选择“新建挖掘结构”命令,系统将打开数据挖掘向导。在“欢迎使用挖掘向导”页上,确认已选中“从现有关系数据库或数据仓库” ,再单击“下一步”按钮。在“选择数据挖
20、掘技术”页的“您要使用何种数据挖掘技术?”下拉列表中选择“Microsoft决策树”选项。单击“下一步”按钮,请注意在随后出现的“选择数据源视图”页上,已默认选中AdventureWorksDW。单击“选择数据源视图”页的“下一步”按钮,在“指定表类型”页上,选中vTargetMail表右边“事例”列中的复选框。在“数据挖掘向导”页上单击“下一步”,出现“指定定型数据”,确保已选中CustomerKey列右边键列中的复选框,选择类别属性BikeBuyer列右边的“输入”和“可预测”复选框,并且从属性列表中选择16个描述属性,选中相应的“输入”复选框。在“数据挖掘向导”页上单击“下一步”按钮,在
21、随后的“指定列的内容和数据类型”页上,单击“下一步”按钮,出现“完成向导”页,在“挖掘结构名称”文本框中输入DecisionTree,在“挖掘模型名称”文本框中输入DecisionTree,之后单击“完成”按钮。由此决策挖掘结构创建完成,系统将打开挖掘结构设计器,显示AdventureWorksDW挖掘结构设视图。5. 设置决策树挖掘结构的相关参数在“挖掘模型”选项卡上单击鼠标右键,从弹出的快捷菜单中选择“设置算法参数”命令,系统将打开“算法参数”对话框。SCORE_METHOD:指定选择分支属性的度量标准。本例中将他的取值改为1,表示使用信息增益作为度量标准。6. 建立决策树挖掘模型选择“挖
22、掘模型查看器”选项卡,程序问是否建立部署项目,选择“是”,在接下来的“处理挖掘模型”页上,单击“运行”按钮,出现“处理进度”窗口。处理进度完成之后,单击“关闭”按钮,建模完成。7. 查看挖掘结果再次选择“挖掘模型查看器”选项卡,由vTargetMail数据集生成的决策树。四 实验总结本次实验使用SQL Server2005中的决策树方法,进一步的了解数据库AnalysisServices的功能,对它的使用方法有了更深入的了解,能做一些基本的操作。通过应用数据库AnalysisServices的一些功能,能够分析一些数据之间的联系,有利于做出判断与决策。实 验 名 称实验四 SQL Server
23、 2005中的k-menas应用一 实验目的通过本实验的学习,使学生掌握在SQL Server 2005示例数据仓库环境下k-menas应用的知识,训练其把教材上的内容应用到实际中的技能,为今后继续k-menas知识的学习奠定基础。二 实验内容使用SQL Server 2005中的k-means聚类方法,使用的数据集时SQL Server 2005中的Adventure Works DW数据中的vtargetMail数据集。该数据集包含32个属性,其中31描述个位描述属性,1个位类别属性。由于聚类方法使用的数据集不包含类别属性,所以不选择类别属性BikeBuyer。实现k-means应用。三
24、实验步骤和结果1. 创建Analysis Services项目2. 创建数据源3. 创建数据源视图上述三个步骤与实验三的(1)(2)(3)相同。4. 创建k-means挖掘结构在解决方案资源管理器中,右键单击“挖掘结构”,在弹出的快捷菜单中选择“新建挖掘结构”命令,系统将打开数据挖掘向导。在“欢迎使用数据挖掘向导”页上,单击“下一步”按钮。在“选择定义方法”页上,确认已选中“从现有关系数据库或数据仓库”,再单击“下一步”按钮。在“选择数据挖掘技术”页的“您要使用何种数据挖掘技术?”下拉列表中选择“Microsoft聚类分析”选项。单击“下一步”按钮,在随后出现的“选择数据源视图”页上,请注意已
25、默认选中AdventureWorksDW。单击“选择数据源视图”页的“下一步”按钮,在“指定表类型”页上,选中vtargetMailyou 表右边“事例”列中的复选框,单击“下一步”按钮。随后出现“指定定型数据”页,确保已选中CustomerKey列右边“键”列中的复选框,并且从属性列表中选择16个描述属性,并且选择相应的“输入”复选框,然后单击“下一步”按钮,在“指定列的内容和数据类型”页上,单击“下一步”按钮,出现“完成向导”页中的“挖掘结构名称”文本框中输入Cluster,“挖掘模型名称”文本框中输入Cluster,之后单击“完成”按钮,由此k-means挖掘结构创建完成。系统将打开挖掘
26、结构设计器,显示AdventureWorksDW挖掘结构视图。5. 设置k-means挖掘结构的相关参数在“挖掘模型”选项卡上单击右键,从弹出的快捷菜单中选择“设置算法参数”命令,系统将打开“算法参数”对话框。在“值”列表中,为要更改的算法设置新的值,如果未在“值”列表中输入值,AnalysisServices将使用默认参数值。CLUSTER_COUNT:指定算法所要建立的聚类的近似数目。本例置6CLUSTERING_METHOD:指定使用哪种使用方法。本例置4,表示k-means6. 建立k-means挖掘模型选择“挖掘模型查看器”选项卡,程序问是否建立部署项目,选择“是”。在接下来的“处理
27、挖掘模型”页上,单击“运行”按钮,出现“处理进度”页。处理进度完成后,单击“完毕”按钮,建模完成。7. 查看挖掘结果再次选择“挖掘模型查看器”选项卡,由vTargetMail数据集得到的k-means聚类结果。四 实验总结本次实验使用SQL Server 2005中的Analysis Service服务进行k-means算法模型的建立和处理并且可视化的方式查看结果,本次实验使我对k-means的算法加深了认识与了解。能做到简单的应用。k-means聚类算法是将各个聚类子集内的所有数样本的均值作为该聚类的代表点,算法的主要思想是通过迭代过程把数据集划分为不同的类别,使得评价聚类的性能的准则函数达
28、到最优从而使生成的每个聚类内紧凑。实 验 名 称实验五 SQLServer 2005中贝叶斯网络应用一 实验目的通过本实验的学习,使学生掌握在SQL Server 2005示例数据仓库环境下贝叶斯网络应用的知识,训练其把教材上的内容应用到实际中的技能,为今后继续贝叶斯网络知识的学习奠定基础。二 实验内容使用SQL Server 2005中的贝叶斯网络解决一个简单的预测的诊断问题。三 实验步骤和结果1. 在SQL Server2005中创建一个新的数据库(创建的过程全部取默认值),把新建立的数据库命名为BayesDatabase.2. 在数据库BayesDatabase中创建一个具有4个列的新的
29、数据表Table_2.各列的数据类型和性质。3. 打开数据表Table_2,向数据表中输入数据。4. 创建新的商业智能项目BayesProject5. 在BayesA中的数据连接,连接到数据库BayesDatabase。6. 建立BayesA中的数据源视图,在建立视图的过程中选择数据库中的表格Table_2.7. 创建挖掘结构。首先要在项目的解决方案资源管理器中的“数据结构”标签上单击鼠标右键,在弹出的快捷菜单中选择“新建挖掘结构”命令。选择“从现有关系数据库或数据仓库”建立挖掘结构,并选择Microsoft Nave Bayes挖掘模型。除了键列mark外,其他各列都是可输入和可预测的。这是
30、因为贝叶斯网络不但可以进行预测,也可以进行诊断。诊断的逻辑推理是从结果到原因,也可以认为是另一种形式的预测。在后面的过程中选择默认操作,便得到了一个贝叶斯网络。系统通过Table_2中数据的关系得到的连接关系。从图中可以看出,A和B是互联的,B和C是互联的。这是所具有概率关系的链接。如果只允许概率强度大的链接出现,可以向下调整出现的滑条,一些链接关系会被删除。8. 预测和诊断。首先选择“挖掘模型预测”选项卡,进入预测的界面。然后选择Table_2为事例表,随后单击工具条上的“单独查询”按钮,得到输入界面。要做的预测为:已知B发生在区间0,1,A的信息不详,预测C发生那个值的可能性最大。根据题目
31、要求,把各个值输入。为了预测C,把“挖掘模型”列表中的变量C拖动至其下面第一行的最左面位置。最后单击“切换到查询结果视图”,得到预测结果。从上面的预测结果可知,但B在区间0,1范围内时,预测C的值时10.也就是C取10的值得概率最大。下面将进行诊断工作:已知A的取值在区间10,11,诊断B的取值。我们先输入各个变量的值然后拖动B到被预测的位置。在输入数据完成并选择了预测变量之后,单击“切换到查询结果视图”,得到诊断结果。前面已经进行了贝叶斯网络的预测工作和诊断工作。现在进行预测和诊断综合的工作:已知C的取值区间0.1,求A得取值。在输入数据完成并选择了预测变量之后,单击“切换到查询结果视图”,
32、得到预测和诊断的结果。对上面的预测和诊断综合操作,系统是按照这样的顺序处理的:首先从C的发生区间诊断出原因节点B在各个区间的发生概率,然后根据B结点在各个区间的发生概率预测A的取值,A最有可能的取值是10.四 实验总结通过本次实验对贝叶斯网络有了更深入的了解,贝叶斯网络是一个白匣子,各个结点之间的影响程度和条件概率关系都可以显示地看到,并且意义明确,因此其更适合那些影响因素少而且关系明确的情况,但贝叶斯网络使用者更多地了解领域,以增加网络的可理解性和预测、诊断的准确性。通过使用SQLService2005的朴素贝叶斯网络功能使用能够做预测、诊断然后查看各个变量对被预测和被诊断的各个值得影响力。
33、实 验 名 称实验六 SQLServer 2005中神经网络的应用一 实验目的通过本实验的学习,使学生掌握在SQL Server 2005示例数据仓库环境下神经网络应用的知识,训练其把教材上的内容应用到实际中的技能,为今后继续神经网络知识的学习奠定基础。二 实验内容利用SQL Server 2005中的Data Analysis的数据挖掘功能,进行神经网络的训练和预测。注:使用的数据集是表9.1中列出的数据。为了应用Data Analysis的神经网络的预测功能,首先把数据导入到SQL Server 2005的某个数据库的数据表中。三 实验步骤和结果1. 数据准备首先要把数据导入到SQLSer
34、ver2005的某个数据的数据表中。在计算机的开始菜单中打开SQLServer2005的SQL Server Management Studio。右键单击树形图中的“数据库”标签,在弹出的快捷菜单中选择“新建数据库”命令。系统会弹出一个“新建数据库”窗口,在窗口的“数据库名称”文本框中填写数据库的名称,这里输入NeuralDatabase。单击“确定”按钮,新建数据库NeuralDatabase就会出现在树形结构中。单击NeuralDatabase左边的“+”号,其下的结点会扩展开来。在其中的“表”上单击右键,弹出的快捷菜单中选择“新建表”命令,就会出现一个输入列信息的子窗格。如下图所示。要创
35、建的数据表共有5列,与表9.1中的各个列相对应。要特别注意各个列的类型。退出列编辑子窗口接受默认的数据表名称Table_1,然后在树形结构中找到dbo.Table_1并右击,在弹出的快捷菜单中选择“打开表”命令,将在界面右边出现数据输入的子窗口。把表9.1中数据的钱8行输入到表dbo.Table_1中如下图。至此,测试数据被输入到了特定的数据库中。2. 创建数据库项目在开始菜单中选择SQL Server Business Intelligence Development Studio命令,出现起始页。选择菜单中的“文件”-“新建”-“项目”命令,出现新建项目子窗口。其中的项目类型选择“商业智能
36、项目”,模板选择“Analysis Service项目”,项目名称填写NeuralProject,单击“确定”进入下一步。3. 创建数据源连接新页面的右上角是解决方案资源管理器。右键单击“数据源”选项,从弹出的快捷菜单中选择“新建数据源”命令,在出现的窗口中单击“下一步”按钮,在窗口“如何定义连接”中,单击“新建”按钮就会出现“连接管理器”窗口。在“连接管理器”窗口中选择“提供程序”下拉列表框中选择Microsoft OLE DBProvider for SQL Server选项,服务器选择你机器上的实例,在“选择或输入一个数据库名”下拉列表框中选择NeuralDatabase选项,也就是存放
37、测试数据的数据库。选择完成后单击“确定”按钮,进入下一个界面。这时,界面中的“数据连接”列表就会出现并选中“数据库引擎实例.NeuralDatabase”,单击下一步按钮,进入模拟信息窗口,在四个选项中选择“默认值”,并单击“下一步”按钮,然后单击“完成”按钮,就完成了数据连接工作。新建的数据连接就会出现在解决方案资源管理器的“数据源”结点下。4. 创建数据源视图右键单击解决方案资源管理器的“数据源视图”项,在弹出的快捷菜单中选择“新建数据源视图”命令,单击“下一步”按钮,再单击“下一步”按钮数据库NeuralDatabase下的数据表Table_1就会出现在左边的“可用现象”列表框中。然后单
38、击“下一步”按钮,并更改数据源视图的名称为NeuralView,单击“完成”按钮,就完成了数据源视图的创建。5. 创建挖掘结构(关键的一步)在解决方案资源管理器中右键单击“挖掘结构”项,从弹出的快捷菜单中选择“新建挖掘结构”命令,在新出现的页中单击“下一步”按钮。此时,出现的窗口让你选择从什么数据中定义挖掘结构,选择“从现有关系数据库或数据仓库”,然后单击“下一步”按钮。6. 创建挖掘模型在弹出的新窗口“选择挖掘技术”中,在“您要使用何种挖掘技术?”下拉列表中选择“Microsoft神经网络”选项单击“下一步”按钮。在弹出的“选择数据源视图”窗口中选择前面建立的数据源视图NeuralView,
39、并单击“下一步”按钮。新出现的窗口要求你给出数据表Table_1的类型,因此本节只有一个数据表,因此选择它的“事例”类型,而非“嵌套”类型,并单击“下一步”按钮。弹出的新窗口要求你对Table_1中的各个列指定类型:键类型、输入类型、可预测类型。把Table_1中的mark列入键类型,x1、x2、x3规定为输入类型,y规定为可预测类型。这些规定符合Table_1表的意义:mark列是序号,用x1,x2,x3三个列预测y的值。选择之后的情形如下图。单击“下一步”按钮,再选则“默认值”按钮,单击“完成”按钮,就完成了挖掘模型的创建。7. 使用挖掘模型查看器查看挖掘模型选择“挖掘模型查看器”选项卡,
40、会弹出一个小窗口,提问“服务器内容似乎已过时。是否先生成和部署项目?”单击“是”按钮,系统将花费一点时间进行部署和生成。部署成功后,就会弹出另外的一个小窗口,提问“必选先处理Table_1挖掘模型才能浏览其内容。处理模型可能要花费一些时间,具体将取决于数据量,是否继续?”,单击“是”按钮,并在弹出的窗口中单击“运行”按钮,处理成功后在两个窗口中分别单击“关闭”按钮,就会得到数据分析表。在数据分析表中黑色的条块表示输入变量在某个范围内取值对输入变量将处在哪个区间的影响程度。如果把鼠标置于某个条块上,还将出现一些值,表示输入变量取某个区间的值时,输出变量处于某个区间的概率。8. 使用挖掘模型预测窗
41、口单击“挖掘模型预测”,单击“选择事例表”按钮,在选择导航中选择事例表为Table_1单击工具栏上的“单独查询”按钮(挖掘模型窗口上面左边第三个图标按钮,鼠标放在其上时会出现“单独查询提示”)出现新的界面,在数据的最后一行分别输入到变量x1,x2,x3后面的空白中,然后把挖掘模型下的Y项拖动至最下面一行的最左边的位置。然后单击工具栏上的“切换到查询结果”按钮,会出现新的界面。9. 建数据挖掘报告从预测结果中得知,Y的预测值时69.81,它虽然与实际值55.24有一定的差距,但比使用多元线性回归得到的结果286.64好得多。事实上,如果已知数据不是8条,而是超过200条,那么使用神经网络预测该问题的结果会相当精确,而多元线性回归不会有大的进步。造成这种结果得原因是神经网络模型能逼近任意高阶非线性的映射,而多元线性回归只能找到一阶的规律。四 实验总结本次实验利用SQL Service2005中的DataAnalysis的数据挖掘功能进行神将网络的训练和测试,熟悉了神经网络的原理,掌握了对它的应用。神经网络有大量的应用,它可以学习高度非线性的系统,并且用学习得到的参数和系统进行系统的输入到输出的预测,缺点是需要很长的学习时间,才能训练出网络中的参数,一次有限制了它的应用,至此它仅适用于时间允许的应用场合。50第50页,共50页教务处制
链接地址:https://www.31ppt.com/p-1668983.html