欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > DOC文档下载  

    大数据仓库与大数据挖掘实验报告材料.doc

    • 资源ID:1119458       资源大小:1.33MB        全文页数:23页
    • 资源格式: DOC        下载积分:10金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要10金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    大数据仓库与大数据挖掘实验报告材料.doc

    word一、上机目的与容目的:1理解数据挖掘的根本概念与其过程;2理解数据挖掘与数据仓库、OLAP之间的关系3理解根本的数据挖掘技术与方法的工作原理与过程,掌握数据挖掘相关工具的使用。容:将创建一个数据挖掘模型以训练销售数据,并使用“Microsoft 决策树算法在客户群中找出购置自行车模式。请将要挖掘的维度事例维度设置为客户,再将客户的属性设置为数据挖掘算法识别模式时要使用的信息。然后算法将使用决策树从中确定模式。下一步需要训练模型,以便能够浏览树视图并从中读取模式。市场部将根据这些模式选择潜在的客户发送自行车促销信息。要求:利用实验室和指导教师提供的实验软件,认真完成规定的实验容,真实地记录实验中遇到的各种问题和解决的方法与过程,并根据实验案例绘出模型与操作过程。实验完成后,应根据实验情况写出实验报告。二、实验原理与根本技术路线图方框原理图或程序流程图关联分析:关联分析是从数据库中发现知识的一类重要方法。时序模式:通过时间序列搜索出重复发生概率较高的模式。分类:分类是在聚类的根底上对已确定的类找出该类别的概念描述,代表了这类数据的整体信息,既该类的涵描述,一般用规如此或决策树模式表示。三、所用仪器、材料设备名称、型号、规格等或使用软件1台PC与Microsoft SQL Server套件四、实验方法、步骤或:程序代码或操作过程与实验过程原始记录( 测试数据、图表、计算等)创建 Analysis Services 项目1. 打开 Business Intelligence Development Studio。2. 在“文件菜单上,指向“新建,然后选择“项目。3. 确保已选中“模板窗格中的“Analysis Services 项目。4. 在“名称框中,将新项目命名为 AdventureWorks。5. 单击“确定。 更改存储数据挖掘对象的实例1. 在 Business Intelligence Development Studio 的“项目菜单中,选择“属性。2. 在“属性页窗格的左侧,单击“部署。3. 在“目标选项局部,验证数据库名称是否为 localhost。如果使用的是其他实例,请键入该实例的名称。单击“确定。创建数据源1. 在解决方案资源管理器中,右键单击“数据源文件夹,然后选择“新建数据源。系统将打开数据源向导。2. 在“欢迎使用数据源向导页面中,单击“下一步按钮。3. 在“选择如何定义连接页上,单击“新建向 Adventure Works 数据库中添加连接。系统将打开“连接收理器对话框。4. 在“连接收理器的“提供程序列表中,选择“本机 OLE DBMicrosoft OLE DB Provider for SQL Server。5. 在“服务器名称列表中,键入或选择承载 AdventureWorksDW 的服务器的名称。6. 在“登录到服务器组中,选择身份验证方法,并输入凭据。7. 在“选择或输入数据库名称列表中,选择 AdventureWorksDW,再单击“确定按钮。8. 单击“下一步按钮进入向导的下一页。9. 在“模拟信息页中,选择“使用服务,再单击“下一步。10. 请注意,在“完成向导页中,数据源名称默认为 Adventure Works DW。11. 单击“完成。新的数据源 Adventure Works DW 将显示在解决方案资源管理器的“数据源文件夹中。创建数据源视图1. 在解决方案资源管理器中,右键单击“数据源视图,选择“新建数据源视图。系统将打开数据源视图向导。2. 在“欢迎使用数据源视图向导页上,单击“下一步。3. 在“选择数据源页的“关系数据源下,系统将默认选中您在上一个任务中创建的 Adventure Works DW 数据源。 单击“下一步。 假如要创建新数据源,请单击“新建数据源,启动数据源向导。4. 在“选择表和视图页上,选择如下各表,然后单击右箭头键,将这些表包括在新数据源视图中:·····5. 单击“下一步。6. 在“完成向导页上,默认情况下,系统将数据源视图命名为 Adventure Works DW。 单击“完成。系统将打开数据源视图设计器,显示 Adventure Works DW 数据源视图。创建用于目标方案的挖掘结构1. 在解决方案资源管理器中,右键单击“挖掘结构并选择“新建挖掘结构启动数据挖掘向导。2. 在“欢迎使用数据挖掘向导页上,单击“下一步。3. 在“选择定义方法页上,确保已选中“从现有关系数据库或数据仓库,再单击“下一步。4. 在“创建数据挖掘结构页的“您要使用何种数据挖掘技术?下,选择“Microsoft 决策树。5. 单击“下一步。6. 在“选择数据源视图页上,请注意已默认选中 Adventure Works DW。在数据源视图中,单击“浏览查看各表,然后单击“关闭返回该向导。7. 单击“下一步。8. 在“指定表类型页上,选中 vTargetMail 表旁边“事例列中的复选框,再单击“下一步。9. 在“指定定型数据页上,确保已选中 CustomerKey 列旁边 Key 列中的复选框。如果数据源视图中的源表表示一个键,如此数据挖掘向导将自动选择该列作为模型的键。10. 选中 BikeBuyer 列旁边的“输入和“可预测。11. 单击“建议打开“提供相关列建议对话框。只要选中至少一个可预测属性,即可启用“建议按钮。“提供相关列建议对话框将列出与可预测列关联最密切的列,并按照与可预测属性的相互关系对属性进展排序。值大于 0.05 的列将被自动选中,以包括在模型中。12. 阅读建议,然后单击“取消忽略建议并保存向导设置的原始值。13. 选中以下各列旁边的“输入复选框:· Age· muteDistance· EnglishEducation· EnglishOccupation· FirstName· Gender· GeographyKey· HouseOwnerFlag· LastName· MaritalStatus· NumberCarsOwned· NumberChildrenAtHome· Region· TotalChildren· YearlyIne14. 单击“下一步。15. 在“指定列的容和数据类型页上,单击“检测以运行对数值数据进展取样并确定数值列是否包含连续或离散值的算法。例如,某列可包含薪金信息,用以作为连续的实际薪金值,也可包含整数,用以表示离散的编码薪金围例如 1 = < $25,000;2 = 从 $25,000 到 $50,000。16. 单击“检测后,请查看“容类型和“数据类型列中的各项;如有必要,请进展更改,以确保设置与下表所示一致。通常,向导会检测数值,并分配相应的数值数据类型;但有些情况下,您可能想要将数值作为文本处理。例如,GeographyKey 应作为文本处理,因为对此标识符进展数学运算是不对的。列 容类型 数据类型 AgeContinuousLongBikeBuyerDiscreteLongmuteDistanceDiscreteTextCustomerKeyKeyLongEnglishEducationDiscreteTextEnglishOccupationDiscreteTextFirstNameDiscreteTextGenderDiscreteTextGeographyKeyDiscreteTextHouseOwnerFlagDiscreteTextLastNameDiscreteTextMaritalStatusDiscreteTextNumberCarsOwnedDiscreteLongNumberChildrenAtHomeDiscreteLongRegionDiscreteTextTotalChildrenDiscreteLongYearlyIneContinuousDouble17. 单击“下一步。18. 在“将数据拆分为定型集和测试集页上,对于“测试数据百分比,请保存默认值 30。19. 对于“测试数据集中的最大事例数,请键入 1000。单击“下一步。20. 在“完成向导页上的“挖掘结构名称中,键入 Targeted Mailing。21. 在“挖掘模型名称中,键入 TM_Decision_Tree。22. 选中“允许钻取复选框。23. 单击“完成。测试挖掘模型的准确性映射输入列如果使用外部数据测试挖掘模型,如此必须确保挖掘结构中的列与输入数据中的列匹配。为此,可以使用“指定列映射对话框。如果直接映射列名,如此数据挖掘设计器将自动创建关系。假如要删除两列之间的映射,请选择将“挖掘结构表中的列到“选择输入表表中的列的行,再按 Delete 键。还可以通过单击“选择输入表中的列并将其拖到“挖掘结构中相应的列来手动创建映射。将输入列映射到挖掘结构1. 在数据挖掘设计器中的“挖掘准确性图表选项卡的“输入选择选项卡中,选择选项“指定其他数据集。2. 单击“指定其他数据集选项右侧的 () 按钮。此时将打开“指定列映射对话框。如果您要测试的结构未显示在“挖掘结构窗格中,请单击“选择结构并选择目标。3. 在“选择输入表框中,单击“选择事例表。系统将打开“选择表对话框。在此对话框中选择包含表或需要使用的表的数据源视图,然后选择该表。用于确定模型准确性的数据必须包含可以映射到可预测列的列。为了实现本教程的教学目标,您需要对用于处理模型的输入列使用一样的数据并对数据应用筛选器。但是,理想情况下,您将使用用于处理该模型的数据中保存的测试数据集。在“选择输入选择选项卡上选择选项“使用挖掘结构测试事例,将选择该数据作为输入。4. 在“数据源列表中,确保已选中 Adventure Works DW。5. 在“表/视图名称列表中,选择 vTargetMail,再单击“确定。挖掘结构中的列会自动映射到输入表中具有一样名称的列。筛选输入行如果选择“指定其他数据集选项,如此可以通过使用显示事例表列和嵌套表列的一组对话框生成筛选条件。可以从运算符、类型值的列表中进展选择,并连接条件与逻辑运算符,以创建限制测试所用事例的复杂条件。对测试数据应用筛选器1. 在数据挖掘设计器中的“挖掘准确性图表选项卡的“输入选择选项卡上,单击“打开筛选器编辑器。2. 此时将打开“vTargetMail 数据集筛选器对话框。在此网格,输入转换为将应用于源表的 WHERE 子句的条件,以限制用于测试的事例。3. 在“挖掘结构列下,单击网格顶部的行。选择 vTargetMail。4. 单击“值单元。此时将打开“筛选器对话框,该对话框可帮助您对 vTargetMail 表设置条件。5. 在第一行中,单击“挖掘结构列下的网格,然后从列的列表中选择 Age。6. 单击 Age 旁边的“运算符框,并选择 >大于运算符。7. 在同一行单击“值框,并键入 20。8. 单击“表达式窗格以刷新该表达式,并验证它是否正确。单击“确定。9. 再次单击“确定,关闭“筛选数据集对话框。“输入选择选项卡中的“筛选表达式窗格会显示刚刚创建的筛选表达式 vTargetMail: (Age > 20)。当制作提升图时,模型将仅使用其年龄大于 20 的客户进展测试。显示模型的提升1. 在“选择要在提升图中显示的可预测的挖掘模型列下,确保已在每个模型的“可预测的列名列表中选中 Bike Buyer。2. 在“预测值列中,选择 1。对于具有一样可预测列的每个模型,将自动填充一样的值。显示模型的准确性1. 在“选择要在提升图中显示的可预测的挖掘模型列下,确保已在每个模型的“可预测的列名列表中选中 Bike Buyer。2. 将“预测值列保存为空。查看提升图假如要查看提升图,请切换到“挖掘准确性图表的“提升图选项卡。当您单击该选项卡时,便会对服务器和数据库的挖掘结构和输入表或测试数据运行预测查询。预测结果随后会与的实际值进展比拟,并将绘制在图上。有关如何使用该图的详细信息,请参阅提升图Analysis Services - 数据挖掘。创建查询创建预测查询的第一步是选择挖掘模型和输入表。选择模型和输入表1. 在数据挖掘设计器“挖掘模型预测选项卡的“挖掘模型框中,单击“选择模型。系统将打开“选择挖掘模型对话框。2. 在整个树中导航到“目标结构,展开该结构并选择 TM_Decision_Tree,再单击“确定。3. 在“选择输入表框中,单击“选择事例表。系统将打开“选择表对话框。4. 在“数据源中,选择 Adventure Works DW。5. 在“表/视图名称中,选择 ProspectiveBuyer 表,再单击“确定。选择输入表之后,预测查询生成器便会根据各列的名称在挖掘模型和输入表之间创建默认映射。生成预测查询1. 在“挖掘模型预测选项卡上的网格的“源列中,单击第一个空行中的单元格,然后选择 ProspectiveBuyer。2. 在 ProspectiveBuyer 行的“字段列中,选择 ProspectAlternateKey。这会将唯一标识符添加到预测查询中,以便标识谁可能购置自行车,以与谁不可能购置自行车。3. 在“源列中,单击下一个空行,然后选择 TM_Decision_Tree。4. 在 TM_Decision_Tree 行的“字段列中,选择 Bike Buyer。这将会输出 Microsoft 决策树模型中作为预测目标的列。5. 在“源列下,单击下一个空行,然后选择“预测函数。6. 在“预测函数行的“字段列中,选择 PredictProbability。预测函数提供有关模型如何进展预测的信息。PredictProbability 函数提供有关正确预测的概率信息。您可以在“条件/参数列中指定预测函数的参数。7. 在 PredictProbability 行的“条件/参数列中,键入 TM_Decision_Tree.Bike Buyer。这将指定 PredictProbability 函数的目标列。有关函数的详细信息,请参阅数据挖掘扩展插件 (DMX) 函数参考。“挖掘模型预测选项卡的工具栏中的第一个工具是“切换到查询设计视图/切换到查询结果视图按钮。通过单击此按钮上的下箭头,可在所创建的查询的视图之间切换。使用“查询视图可以查看预测查询生成器创建的 DMX 代码。使用“结果视图可以运行查询并查看结果。使用“设计视图可以向查询中添加新预测函数。注意:如果在“查询视图中手动更改查询的文本,如此切换回“设计视图时,不会保存修改后的查询。查看结果通过单击“切换到查询设计视图/切换到查询结果视图按钮即工具栏上的第一个按钮旁边的箭头并选择“结果,可以运行查询。六、实验结果、分析和结论误差分析与数据处理、成果总结等。其中,绘制曲线图时必须用计算纸或程序运行结果、改良、收获使用 Microsoft SQL Server Analysis Services 可以很方便地创建复杂的数据挖掘解决方案。Analysis Services 工具可帮助我们设计、创建和管理来自数据仓库的多维数据集和数据挖掘模型,还可管理对 OLAP 数据和数据挖掘数据的客户端访问。通过实验理解了数据挖掘的根本概念与其过程与数据挖掘与数据仓库、OLAP之间的关系。对根本的数据挖掘技术与方法的工作原理与过程,掌握数据挖掘相关工具的使用有了初步的了解。注:教师必须按照上述各项容严格要求,认真批改和评定学生成绩。23 / 23

    注意事项

    本文(大数据仓库与大数据挖掘实验报告材料.doc)为本站会员(李司机)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开