新编数据分析及DPS数据处理系统课件.ppt

资源ID：2121731 资源大小：5.32MB 全文页数：129页
资源格式： PPT 下载积分：16金币

快捷下载

会员登录下载

三方登录下载：

下载资源需要16金币

邮箱/手机：
温馨提示：	用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）
支付方式：
验证码：	换一换

加入VIP免费专享

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

新编数据分析及DPS数据处理系统课件.ppt

1,数据分析及DPS数据处理系统,2,主要参考资料,试验应用统计：设计、创新和发现，第2版，George E.P.Box等著，张润楚等译，机械工业出版社，2019试验的设计与分析：王万中主编，高等教育出版设，2019.试验设计与分析及参数优化，吴建福(美)等著(张润楚等译)，中国统计出版社，2019,DPS数据处理系统-实验设计、统计分析及数据挖掘,第2版，唐启义著，科学出版社，2019,3,实验设计优化与DPS,4,DPS开发背景上世纪80年代以来，很多单位都着手编写统计分析程序，但随着时间的推移，绝大多数程序由于算法落后、数据格式规范性差、输出格式零乱、缺乏完整性而被淘汰。目前，国外大型统计软件，如SAS、SPSS等占优势。这从短期效应来看，引进国外软件，有利国内科研对数据处理需求。但从长期看，特别是从知识产权来讲，依赖于国外软件需要昂贵的费用支持。如在SAS平台上开发的程序，由于摆脱不了SAS的环境，难在国内推广应用。因此，研制、推广适合国内需要的统计软件，是势在必行的事；我们通过近20多年的努力，开发成功了功能完整的DPS数据处理系统，其功能已接近、SPSS的水平。,5,1988年开始，历时10年，2019年推出DOS版本第1版，同时出版配套专著第1版(4000册)；2019年完成Window版(第2版)，2019年和2019年分别出版配套专著3000册；2019年再次出版配套专著3500册（165万字)；目前软件版本12.01版。,DPS数据处理系统开发历程,6,出版教材：唐启义DPS数据处理系统实验设计、统计分析及数据挖掘第2版，科学出版社，2019年。唐启义冯明光DPS数据处理系统实验设计、统计分析及数据挖掘科学出版社，2019年。唐启义冯明光实用统计分析及其DPS数据处理系统科学出版社，2019年。唐启义冯明光实用统计分析及其计算机处理平台中国农业出版社，2019年。,7,DPS数据处理系统实验设计、统计分析及数据挖掘,8,DPS用户界面与数据接口,9,10,DPS功能特色,实验设计：均匀设计混料实验设计统计分析：动态聚类分析因子分析模型统计检验与评价,11,DPS的应用,用户数已超过10000；遍及国内各个省市，包括港、台，各个行业和领域；美国宾州大学林共进博士的实验室用于工业实验设计（大样本实验设计）；成为赴国外攻读博士、或访问学者的工具。,12,DPS使用(类似Excel电子标的操作),13,数据统计分析基本步骤,(1)将数据输入到DPS的电子表格里。数据一般是一行为一个记录(样本)，一列一个指标（变量）。(2)用鼠标选中待分析的数据。(3)进入菜单选择相应的统计功能项。(4)系统对选中的数据进行分析，并将分析结果返回到另一电子表格。,14,15,16,某县植保站，调查4个水稻品种上稻纵卷叶螟卷叶率(%),结果列于下表。,17,数据转换：如数值相差几个数量级，可用对数转换;如许多小区值为0，则可用平方根转换;如指标是百分数,且大部分数值大于70或小于30，可用反正弦平方根转换。,一般用Tukey法和LSD法。但注意：目前国内目前的农药实验要求Duncan 法。,18,19,学会思考,在您目前从事或涉及到的研究领域，在实验设计或进行数据分析时，您最有可能碰到哪些统计学方面的问题？在试验设计与数据处理分析中，您有可能用到工具软件（如DPS）中的哪些功能、或数据分析方法来解决您的问题，以及使用这些方法时的注意事项。,20,实验设计与统计分析,21,22,1 实验设计,实验设计特点实验设计基本原则实验设计基本内容和步骤常用实验设计方法,23,1、实验设计Experiment Design的特点,试验研究和调查研究主要区别：对研究对象是否进行干预。试验研究特点：根据研究目的(或假设)主动加以干预措施，观察结果，回答研究假设所提出的问题。,24,实验研究(例子)新农药防治某作物害虫的效果,首先假设该农药可以杀死害虫。在田间划分几个随机区组，区组内随机设置小区，必要时各个小区接入害虫卵块。将农药配制成不同的浓度，再加一个空白(清水)对照。在害虫防治适期施药、处理。处理(施药)后24小时、72小时、，调查各个小区的虫量(观察指标)，并对数据进行方差分析，看各处理间有无显著差异，进而得出该农药是否具有对该害虫防治效果的结论。从该例中可以看出研究者施加了干预措施，即施用不同浓度的农药。再经过观察总结，验证提出的假设是否正确。,25,2、实验设计基本原则,随机对照重复目的是为有效控制非处理因素,26,2.1 随机化原则,目的：研究者在实验设计时，并不完全知道实验过程中的许多非实验因素，随机误差干扰在所难免，因此有必要采用随机化的办法抵消这些干扰因素的影响。随机化原则包括两方面随机分配：把实验处理对象随机分到各个区组内，以增强可比性(区组内小区随机设置)。随机抽样：总体中的每一个观察单位都有同等的机会被选入到样本中来(如实验结果的调查)。,27,2.2 对照原则,设置对照小区，除实验处理不同外，实验过程中的实验条件和辅助措施都应相同，以便比较所研究对象存在的真实差异。抵消害虫、病害自身消长趋势的影响抵消实验环境的其它因素的干扰,28,常见的对照,空白对照(如农药药效实验中用清水处理，重金属元素检测的空白处理)标准对照(如农药药效实验中的标准农药品种),29,例子:复配农药防治一代二化螟的单因素随机区组设计,单因素随机区组设计,30,2.3 重复的原则,是指各处理组及对照组的重复要有一定数量。重复数太少的话，很可能把某些偶然现象当作客观规律。重复数太多的？人力物力浪费。在保证实验结果具有一定可靠性的条件下，确定合适的重复(区组)数量。,31,3 实验设计的基本内容和步骤,建立研究假设（提出要解决的问题）明确研究范围（受试对象）确立处理因素（处理因素）明确观察指标（实验效应）控制误差和偏倚(区组设计),32,3.1 建立研究假设,科研选题：研究的题目要有科学性和新颖性、社会效益和经济效益、最后要考虑可行性。,33,3.2 明确研究范围,实验中的三个基本要素为：处理因素、实验效应和受试对象。明确研究范围即：受试对象所组成的研究总体规定本次研究的总体范围如研究病虫为害对作物产量影响，首先确定作物产量的考察标准以及计量方法，然后根据研究需要，选定实验田块安排实验，确定实验处理因素(不同的害虫密度梯度设置)，使得实验效果清晰、明了。,34,实验设计的基本要素,例如：用某种杀虫剂防治作物害虫，观察其虫口数量下降情况。基本要素：处理因素（杀虫剂）受试对象（作物害虫）实验效应（虫口数量下降）,35,3.3 确定处理因素,处理因素是根据研究目的而施加的特定实验措施(如农药药效实验种的不同农药浓度)。为了增强可比性，实验通常设立对照，如空白或者标准。对照也是一种处理措施。,36,3.4 明确观察指标,实验中的实验效应主要指处理因素作用于实验对象的反应，这种效应将通过实验中观察指标显示出来。选用的指标应该是：客观性强（易观察，可量可测，操作性强）灵敏度高（对各个处理的反应要灵敏）精确性强（要反应研究对象的实质，不受或少受其它因素的影响）,37,3.5 控制误差和偏倚,误差（error）：测量值与真值之差 1，5，9=5(真正均值5)偏倚（bias）：在实验中由于某些非实验因素的干扰所形成的系统误差 4，5，9=6(真正均值5),38,完全随机实验随机区组设计裂区实验设计正交设计二次正交回归组合设计均匀实验设计,4 常用实验设计方法,39,40,4.1 完全随机实验,概念：首先将受试对象随机分配到实验(处理)组和对照组，通过比较分析回答研究假设。统计方法成组设计的两样本均数比较(t检验)，相应的秩和检验(非参数检验)成组设计的多个样本均数比较(方差分析),相应的秩和检验(非参数Kruskal Wallis检验)两样本率(卡方检验)或多样本率比较(Logistic 回归),41,完全随机设计的随机分配方法,使用随机数字表DPS生成：如3个处理，5次重复，共15个实验处理(样品)的实验：,42,分配结果,43,实验结果分析：方差分析假定该实验是甲组是对照，乙组和丙组是不同微量元素处理的盆栽实验，实验指标是植株鲜重，问不同处理的植株鲜重是否不同？,44,完全随机设计实验结果方差分析数据格式,在菜单下执行“实验统计”-“完全随机设计”下面的“单因素实验统计分析”。,45,数据转换：如数值相差几个数量级，可用对数转换;如许多小区值为0，则可用平方根转换;如指标是百分数,且大部分数值大于70或小于30，可用反正弦平方根转换。,一般用Tukey法和LSD法。国内目前的农药实验要求Duncan 法。,46,47,数据描述：均值和标准差是必须的，处理样本数也要说明。方差分析：F值、自由度和P值；如P0.05则差异显著，如P0.01则差异极显著。多重比较：均值后面跟有相同字母的就没差异。,48,正确理解差异显著或极显著的统计意义,差异显著或差异极显著不应该误解为相差很大或非常大,也不能认为在专业上一定就有重要或很重要的价值.“显著”或“极显著”是指不同处理没有差异的可能性小于5%或1%，即认为它们有实质性差异的可能性是95%或99%。有些试验结果虽然差别大，但由于试验误差大，也许还不能得出“差异显著”的结论；而有些试验结果间的差异虽小，但由于试验误差小，反而可能推断为“差异显著”。,49,两个栽培试验，不同处理A、B、C间的成活率，谁的差异大？,实验,实验,A：空白对照；B：标准对照；C：新技术处理,50,实验1的方差分析表,51,实验2的方差分析表,52,两实验各处理均值比较,53,4.2 随机区组设计,概念：将研究对象按性质相同或相近者组成b 个区组（局部控制），每个区组中的k 个处理随机分配。优点利用区组，进一步控制偏倚，减少实验的偏差；但实验结果中若有数据缺失，统计分析较麻烦(目前可用一般线性模型解决)。,54,例用区组设计方法将20个实验对象，接受甲、乙、丙、丁4个处理。,将20个实验对象分成5个区组，即l一4号为第1区组，58号为第2区组，余类推，接受四种处理方式。,55,20名实验对象分配的配伍组和处理组,56,统计方法:定量资料：配对t检验、随机区组方差分析其它情形：Wilcoxon配对检验，Friedman非参数检验。,57,随机区组设计实现,确定处理因素，田间划分区组DPS生成实验方案：如5个处理，设置4个区组，共20个实验处理的实验。执行实验设计菜单下的“单因素随机区组设计”,58,随机区组设计实验处理结果(对号入座填入表格)得到数据方差分析格式,在菜单下执行“实验统计”-“随机区组设计”下面的“单因素实验统计分析”。,59,数据转换：如数值相差几个数量级，可用对数转换;如许多小区值为0，则可用平方根转换;如指标是百分数,且大部分数值大于70或小于30，可用反正弦平方根转换。,一般用Tukey法和LSD法。但注意：目前国内目前的农药实验要求Duncan 法。,60,结果描述及数据分析与完全随机实验设计相同，就当是区组间那一行不存在,61,基数的调整？,原始观察值：协方差分析相对防治效果,62,实验中缺掉12个处理小区怎么办？,一般线性模型在方差分析中的应用。,63,实际例子,64,执行“实验统计”-“一般线性模型GLM”分析,在“可供分析变异来源”列表框中先选“B”,点击”,再选“A”,点击”,将这两项加入到右边。并选I型平方和分解。多重比较方法，这里选”Duncan”法，然后点击”OK”即可输出结果。,65,66,4.3 两因素随机区组设计,问题提出：不同农药或某农药不同浓度，在不同时期或不同施药技术情况下对病虫的防治效果。一般情况:两因素随机区组设计。特殊情况:植保农药实验，加上施药时期、施药技术等因子后，含有“伪因子”情形，需用一般线性模型分析,67,伪因子,农药不同种类、不同浓度处理，一般要设空白作为对照。空白和其它因子组合，如和施药时期、施药技术的组合，实际上还是“空白”，没有不同（伪因子）。因此“伪因子”的多因子农药实验中经常遇到。农业中的多因素农药、施肥等实验，只要有空白作为对照，就有这种现象存在。,68,例如进行不同农药不同浓度、在不同时期防治二化螟药效实验。其空白对照和不同施药时期的搭配就是“伪因子”,69,某实验处理得到作物产量结果如下：,这样的数据不能直接进行两因素随机区组设计的方差分析,70,含伪因子实验结果统计分析,71,实验结果解释(1：方差分析表),72,实验结果解释(2：多重比较),73,4.4 多因子实验,完全随机设计、随机区组设计（析因设计）裂区设计均匀设计正交设计正交回归组合设计正交设计及正交回归组合设计是应用最广泛的多因子实验设计。,74,一般多因素试验设计(析因设计)当处理因素较多时：处理组合呈指数增长5个因素,5个水平,3个区组有多少处理组合？55=3025次x3=9075正交试验设计：从所有的试验组合中，选择在试验因子空间相互正交的一些点来进行试验。需要的实验次数是水平数的平方,更多因素的实验设计：为什么一般用正交实验设计？,75,4.4.1 正交设计,当实验涉及的因素在三个或三个以上，且因素间可能存在交互作用时，可用正交设计。正交实验中各因素的水平数可以相等，也可以不相等。它利用一套规格化的正交表，将各实验因素、各水平之间的组合均匀搭配，合理安排，可以用较少的、有代表性的处理组合数，提供充分有用的信息，还可以找出较优组合，用以指导实践。,76,正交实验举例分析(p269-274)花菜留种正交试验的因子与水平表,77,研究目的,为了解决花菜留种问题，进一步提高花菜种子的产量和质量，科技人员考察了浇水、施肥、病害防治和移入温室时间对花果留种的影响，进行了这4个因素各因素两水平的正交试验。,78,L8（27）正交表 8：实验次数；2：各因素的水平数 7：最多安排的实验因素及其效应数（包括误差项）,79,有重复的两水平正交实验,上例属于无重复的两水平正交实验如果想增大误差自由度以提高检测诸因子作用的能力，或者想研究各因子间的所有交互作用，就可采用重复实验的方法，假定把每一个实验都重复三次，结果如下。,80,有重复的两水平正交实验,81,正交实验数据统计分析：初步分析：比一比，看一看统计分析：方差分析，及多重比较有重复和没有重复的统计分析。,82,无重复时统计分析(要有空白列),83,84,各个因子各水平均值,85,86,87,有重复时统计分析,88,根据重复的设计类型确定,89,4.4.2 定量数学模型二次正交回归设计,正交试验结果分析考虑因子间的交互作用。根据一般正交试验结果可建立回归模型，如 Y=290-106x1+93x2+31x3+6x4线性回归模型能优化吗：求最大、最小值优化需要二次曲线方程,90,二次多项式回归方程，可以优化，如y=68.5-15X1-40X2+0.0X1*X1+0.0X2*X2+15X1*X2但是一般实验设计得到的自变量，其二次项，互作项之间不一定正交。在没有计算机软件的情况下，计算工作量也大。,91,要建立二次多项式优化，因子之间又要正交：正交回归组合设计使得试验因素的整个设计矩阵，包括二次项、互作项都相互正交。,92,93,二次.正交.旋转.组合.设计二次：模型优化；正交：各个因子正交；消除因子间互作的影响；旋转：各个因子点到中心的距离相等；组合：加上适当的中心试验点(0,0,0,0)个数，适当整个设计矩阵满足要求。根据中心点数不同(当然为保持正交性，相应的臂长也不同)，有：二次正交旋转组合设计二次通用组合设计二次正交回归组合设计 Center composite designs(CCD),94,零水平,星号臂长,实验设计零水平必须大于臂长正的星号臂值水平须“过量”,变化区间,95,试验设计首先确定因子和各个处理因子的零水平、变化区间。如有一个4因子的试验，第一个因子是播种期，零水平3月31日，变化区间5天；第二个因子是播种量，零水平40公斤，变化区间5公斤；第三因子是移栽期叶龄，零水平6叶，变化区间1叶；第四因子是氮肥用量，零水平20公斤，变化区间5公斤。其试验设计可按下图方式编辑，并定义成数据。,96,97,98,实验结果统计分析,左边方实验设计表，右边一列放各个处理相应的产量，然后用鼠标选中。最后进入主菜单，选择“试验统计”中的“实验优化分析”下面的“二次多项式回归”。系统出现如下界面。,99,100,输出结果,、各个因素(试验处理水平)编码的平均值和标准差,以及相关系数矩阵；、二次多项式回归模型；、回归模型的F检验值及显著水平p，一般显著水平小于等于0.05时即可对该模型进一步分析，如果F太小，回归方程不显著，则不适合建立二次多项式回归模型来分析试验结果；,101,模型统计检验,102,、各个因子项的回归系数、标准回归系数、t检验值及显著水平p；、回归模型的复相关系数R剩余标准差和调整后的相关系数，一般来说，调整后的相关系数越大越好；、各个处理的观测值、拟合值和拟合误差，以及Durbin-Watson(DW)统计量。DW统计量只当分析样本按某一顺序(如处理先后)存放时才有意义，该值要在2的附近为好；,103,、其他因子为零时单因子和两因子互作效应分析，可在DPS系统作图功能的支持下，分别作x-y曲线图和等高线图；、其他因子为零水平时，各个因素的灵敏度分析，给出了系数灵敏度、导数、平均效应y/x和目标函数y，根据这些数据，可以进行边际分析；,104,应用典型方程，我们可以得到如下信息：一是稳定点处是否是拟合模型的极大值、极小值或者是鞍点：当典型方程的各个系数为负时，稳定点为模型的极大值；当典型方程的各个系数为正时，稳定点为模型的极小值；当典型方程的各个系数有正有负时，稳定点为鞍点。这一点很重要，这时因为我们在寻优建模时，往往根据专业背景，指定模型寻优方向。这种寻优方向可能和拟合模型本身的最优解不一致，或部分因子不一致。不一致时，采用数值寻优算法得到的最优点有可能位于实验因子取值的边界上。,105,106,同时，根据典型方程，判断各个因素在稳定点附近的变化大小。系数越大，变化越快，该点的稳定性就较差，这是在应用中需要注意的。最后，如果通过数值优化分析和典型分析得到的最优值一致，那么模型可以认为是较好的，如果不一致，在模型应用时，需要进行更深入的分析，探明原因，且模型结果谨慎应用。,107,多因子实验优化中的区组设计,多因子优化设计试验，一般试验次数较多。试验次数增加会带来量方面的问题：一是试验时间延长。有的实验处理是依时间顺序一个接一个地进行的。由于时间延而产生的对实验结果的影响叫做时间漂移，这一影响很可能增加试验误差。这种情况在工业试验中较为普遍。另一种情况是试验区增大。在农林生物的田间试验中，因处理因子多、实验区加大、这样难以在同质的条件下进行试验，而需要进行小区控制、实行区组设计。,108,DPS提供的区组设计功能,区组设计应用与多因子优化试验是有必要的。但遗憾的是，我们以往的试验优化分析工具，都没有提供可处理区组设计功能。这里，我们增加了处理含有若干区组的二次正交回归组合(中心复合)设计试验数据分析建模功能，该功能模块在“试验统计”“试验优化分析”“区组设计二次多项式回归”里面。,109,区组设计统计分析数据格式,二次正交回归组合设计或其他多因子试验，如果在实施时划分了B个区组，在试验结果的数据分析时，数据的第一列放区组的顺序编号(1，2，.,B)，其它列则和其它多因素实验设计一样，放各个处理因子的编码值或各个因子试验实施的水平值，最右边放试验观察指标结果值。,110,区组设计优化分析,111,5.回归分析,回归(regression)建立一个描述应变量依自变量变化而变化的直线方程，并要求各点与该直线纵向距离的平方和为最小。直线回归是回归分析中最基本、最简单的一种，直线回归方程是Y=a+bX 中，a、b 是决定直线的两个系数，,112,5.1 直线回归分析(p625),根据试验数据、或调查资料，建立定量的回归方程，并对回归方程进行统计检验的过程。最小二乘法建立线性回归方程。在DPS里，建立回归方程：一行一个样本一列一个变量因变量放在最右边。建立回归方程，样本个数要大于总变量个数。,113,、典型分析，求一阶偏导数方程、拟合方程的典型形式，稳定点分析；、在试验条件的约束之下，进行模型优化，得到最高产量时各个因素组合。最后，如果在分析时按系统的提示，输入了目标指标的价格，以及各个处理因素的价格，系统将会给出最大经济效益时的产量和产值。,114,典型分析,对回归模型进行比较深入、直观地分析；典型分析(又称典范分析，典则分析，Canonical analysis)提供了较为理想的分析技巧。,115,116,117,回归分析结果解释,回归方程能否成立，看F值，显著水平(0.5)，50%。决定系数是相关系数的平方，相关系数要大于0.7。决定系数说明了：建立线性回归方程的这些变量，这些变量建立起来的回归方程，可以解释因变量变化（波动）的比例。各个变量的作用(影响)：看标准系数，标准系数才具有可比性。因子作用是否显著，看回归系数的显著水平。0.05才显著。不显著的因子可考虑剔除。但并不是一大于0.05就剔除。原因是自变量之间的相互作用是非常复杂的。如多重共线性。,118,5.2 逐步回归(p636),在DPS中，逐步回归分析数据格式和线性回归相同：一行一个样本，一列一个变量，因变量放在最右边。,119,逐步回归：调整R值达到最大,下一页,120,121,分析结果,122,5.3 非线性回归模型(p798),一行为一个样本,一列为一个变量。在数据块中，第一列为X1，第二列为X2，.。若数据块中有p列数据，那么数据块的最后一列为Xp。,123,用户操作界面,124,输出结果,125,某地油菜菌核病发病率增长过程。,126,127,128,谢谢！,129,谢谢！,

注意事项

本文（新编数据分析及DPS数据处理系统课件.ppt）为本站会员（牧羊曲112）主动上传，三一办公仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三一办公（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。

新编 数据分析及DPS数据处理系统 课件.ppt

新编 数据分析及DPS数据处理系统 课件.ppt

新编数据分析及DPS数据处理系统课件.ppt

新编数据分析及DPS数据处理系统课件.ppt