水文统计原理.ppt
第二章 水文统计原理,Bridge and Culvert Hydrology,第二章 水文统计原理,桥梁的设计流量、设计水位与设计流速:跨越河流、沟渠的桥梁和涵洞,其桥位、桥孔长度、桥面高程和墩台冲刷深度必须要满足设计洪水的要求,安全顺畅的通过设计洪水,因此需要对河流和海域进行长期观测,通过分析和处理这些原始的水文资料,确定桥涵使用期限内,河流中可能发生的一定概率的洪水的洪峰流量及相应的水位和流速,分别称为桥梁的设计流量、设计水位和设计流速。分析这些水文资料的数学工具就是数理统计知识。,本章主要内容,第一节 水文现象的特性和分析方法,1 周期性 就是许多水文现象具有的周期循环变化的性质。水文现象有以年或者年际(若干年)为周期变化的规律。,2 地区性地区性是表示水文现象随地区而异,即每个地区都有各自的特殊性。南方同北方水文现象差异很大。这主要是由于地区差异,影响水文现象的气候和下垫面条件不同。相互邻近的流域,气候和下垫面条件往往有一定的相似性,水文现象,在一定程度上就具有相似性。因此,水文现象有一定的地区分布规律性。如湿润地区河流的径流年内分配较为均匀,而干旱地区的就很不均匀。3 不重复性(偶然性或随机性)影响水文现象的因素很多,而且各种因素相互之间关系错综复杂,虽然水文现象总体上具有一定的周期性变化,但是无论什么时候都不可能完全重复出现,称为水文现象的不重复性。,第一节 水文现象的特性和分析方法,第一节 水文现象的特性和分析方法,水文现象的主要研究方法:1)成因分析法 研究水文现象的物理成因以及同其他自然现象有关因素(如气候因素、自然地理因素)之间的相互关系,建立计算关系式。如新安江模型,陕北模型等。,第一节 水文现象的特性和分析方法,2)地区归纳法及其使用条件 利用区域性规律确定水文参数寻求水文现象、水文因素的区域性分布规律。建立地区性水文因素计算公式、图表或等值线图。供生产使用。,3)数理统计法由于水文现象具有的不重复性,根据概率论,对系统的实测水文资料进行统计分析,寻求水文现象、水文因素之间的统计规律,实现估计未来水文现象可能发生的结果。通过统计分析以探求水文现象偶然性规律。这种方法,是由于水文现象的客观性质(偶然性和随机性)决定的。,在水文计算中,主要是解决三方面的问题:确定各种水文特征值的数量大小;确定该特征值在时间上的分配过程;确定特征值的地区分布。,第一节 水文现象的特性和分析方法,水文学的研究途径说明由于水文现象复杂,观测资料不多以及用现行水文计算方法解决数量大小、地区分布和时间分配这三个问题,理论还很不完善。因此在实际工作中,常把数理统计法和成因分析这两种途径结合起来。并尽可能通过各种途径,采用多种方法来进行计算,以求得成果的合理可靠。,水文计算中必须遵循的一般原则有以下三点:深入调查研究,掌握充实可靠的资料;采用比较合理的计算方法;对计算成果进行严密审查。,一、随机事件 事件:随机试验的结果。事件分为三类及举例:1)必然事件:在一定能够的条件组合下,必然会发生的事情。2)不可能事件:在一定的条件组合下,一定不可能发生的事情。3)随机事件:在一定的条件组合下,可能发生也可能不发生的事件。水文现象,既有必然性的一面,又有偶然性的一面。水文现象中年最大流量的出现是必然事件,但出现的具体时间和大小,则为随机事件。由于水文现象具有不重复性特点,所以各种水文要素的具体数量的出现,都是偶然性的,属于随机事件。统计规律:随机事件也具有一定的规律性,这种规律只能利用大量同类的随机事件统计而得,称为统计规律。它也是由事件的客观本质造成的。数理统计法:研究随机事件客观规律性的方法之一就是数理统计法利用大量同类随机事件统计数据推求随机事件所遵循的客观规律。,第二节 几率和频率,二、随机变量随机变量:在多次试验中,随机事件出现的种种结果,都以实数值来表示,这些数值就称为随机变量。对于水文现象而言,指某种水文特征值,如某地区流域出口的年径流量和洪峰流量等。水文统计法:就是利用流量、降雨量、潮水位、波浪高度等实测水文资料(实测数量)作为随机变量,通过统计分析,推求水文现象的客观规律(统计规律)。连续型随机变量:在某个区间内可以任意取值的随机变量,如水位、流量;离散型随机变量:如投掷硬币的正反面。属性型随机变量:如生男生女。系列:随机变量组成的一列数值,称为系列(有限系列、无限系列。),第二节 几率和频率,第二节 几率和频率,三、几率和频率 几率(概率):表示随机事件出现可能性大小的数值称为该随机事件的几率(或概率)。简单随机事件的几率:,P(A)一定条件下,随机事件A的几率;n 试验结果的总数;m随机事件A出现的总数。,P(A)=1,则表明试验结果全部出现事件A,则事件A为必然事件;P(A)=0,则表明每次试验结果都不出现事件A,则事件A成为不可能事件;0P(A)1,则表明A为随机事件。,概率可分为事先概率和经验概率两类:事先概率:如某事件的概率能够事先计算出来,则称此事件的概率为事先概 率,如投掷硬币“出现正面”的概率即属此类,亦称为理论概率。经验概率:另外还有一些事件,我们无法事先知道其出现的可能情况,它们的概率只能通过多次试验求出的概率来估计,这种概率称为经验概率。水文现象中水文特征值(如洪峰、流量、水位等)在数量上的出现机会,即属经验概率的范围。,频率:在一系列重复的独立试验中,某一事件出现的次数与试验总次数的比值,称为该事件的频率。,1)试验次数较少时,频率具有偶然性;试验次数愈多,频率愈接近几率。2)几率是随机事件在客观上出现的可能程度。是事件固有的性质。是常数,为理论值。3)频率是利用有限的试验结果推算得到的,为经验值。,第二节 几率和频率,四、总体和样本总体:随机变量的全部系列。样本:从总体中抽出的一部分随机变量系列。样本容量:样本中所含随机变量的项数。抽样:从总体中抽取样本。用样本的分析结果推求总体规律的方法。抽样误差:根据样本推算的规律性,不是总体的客观真实情况,存在着一定的误差。这种由抽样而引起的误差,数理统计法中称为“抽样误差”。,水文事件只能利用一定的样本计算其频率,作为经验几率,推求事情的变化规律,预测未来可能出现的情况,满足工程需要。,第二节 几率和频率,年最大值法:就是从水文站历年流量观测资料中,每年选取一个洪水 成因相同的最大洪峰流量,n年的观测资料中,可以选出n个流量值,组成一个n项容量的随机样本。也称为“年最大流量法”。水文统计法:就是利用已有的实测水文资料(数据)组成有限的随机变量系列,作为无限总体中的一个随机样本,以样本的规律推断总体的规律,来解决实际工程中的水文计算问题。,第二节 几率和频率,第三节 频率分布,一、频率密度和累积频率随机变量的频率分布:随机变量系列中,每个变量都对应着一定的出现几率,系列中的变量对应着的一定几率分布规律,即为随机变量的频率分布。它反映了随机变量系列的统计规律。,水文资料是连续随机变量,可以在最大和最小值的区间取一切值。但实际观测次数有限,无法得到区间内所有取值。对于实测水文资料,一般以等区间分组,并按由大到小的递减次序排列,然后进行统计计算。为了便于分析流量出现的规律性,采用相对数字表示其出现次数,以各组出现次数与总次数之比表示各组所在区间流量值出现的可能程度(即频率);累积频率是各组累积出现次数与总次数的比值,表示等于和大于该组所在区间的流量值出现的可能程度,都以百分数计。,水文资料是连续随机变量,可以在最大和最小值的区间取一切值。但实际观测次数有限,无法得到区间内所有取值。对于实测水文资料,一般以等区间分组,并按由大到小的递减次序排列,然后进行统计计算。为了便于分析流量出现的规律性,采用相对数字表示其出现次数,以各组出现次数与总次数之比表示各组所在区间流量值出现的可能程度(即频率);累积频率是各组累积出现次数与总次数的比值,表示等于和大于该组所在区间的流量值出现的可能程度,都以百分数计。,一、频率密度和累积频率随机变量的频率分布:随机变量系列中,每个变量都对应着一定的出现几率,系列中的变量对应着的一定几率分布规律,即为随机变量的频率分布。它反映了随机变量系列的统计规律。,第三节 频率分布,第三节 频率分布,频率密度直方图:数理统计中,为了便于分析,常以数据系列(流量或者雨量等)等为横坐标,频率密度为纵坐标,绘出频率密度直方图。频率密度直方图表示各组随机变量频率的平均分布,而且图中各矩形面积表示各组间距的频率。频率密度曲线:若流量资料的年数趋于无穷大,组距趋于无穷小,则形成虚线所示的频率密度曲线。若令其纵坐标为:当,则 为密度曲线的函数,称为密度函数。,绝大多数的水文资料系列,都具有特别大和特别小流量出现次数少,接近均值流量次数多的规律性。,第三节 频率分布,累积频率分布:若以流量为纵坐标,累积频率为横坐标,则可绘出流量与累积频率关系的累积频率分布(图中实线)。频率分布曲线:若流量实测次数趋于无穷大,组距趋于无穷小,则可画出如虚线所示的频率分布曲线(简称分布曲线),第三节 频率分布,在水文计算中,一般采用频率分布曲线来说明水文特征值的统计规律,它表示的是大于某一量值的变量出现的几率。,分布曲线与密度曲线的关系频率分布曲线可以由密度函数积分而得。即某变量X对应的密度曲线左侧下围面积P就是x所对应的累积频率。,第三节 频率分布,二、累积频率和重现期累积频率(P):水文统计中,等于或大于某一流量值出现的次数(即累积出现次数)与总次数的比值,称为该流量的累积频率。一般用百分数表示,有时也用分数表示。,桥梁水文计算时,洪水、潮汐等水文现象的样本取值,采用的抽样方法为年最大值法,因而表示的频率为年频率。,重现期(T):表示该变量大约平均在多少年内出现一次(单位:年),水文统计法就是利用频率曲线的内插或外延,推测已有系列年限以内或者超出已有系列年限之外的洪水出现机会,求出它们的洪水频率。水文统计计算的过程,主要是确定接近于水文现象总体的频率曲线(即分布曲线)。,第三节 频率分布,三、设计洪水频率桥涵及其附属工程尺寸取决于设计流量的大小。设计标准根据经济条件和工程的安全要求预先拟定,一般由国家统一制定。我国新规范公路工程技术标准中桥涵设计洪水频率见下表。,第三节 频率分布,新规范关于设计洪水频率的另外两条规定:(1)二级公路的特大桥以及三级、四级公路的大桥,在水势猛急、河床易千冲刷的情况下,可提高一级设计洪水频率验算基础冲刷深度。(2)沿河纵向高架桥和桥头引道的设计洪水频率应符合本标准中路基设计洪水频率的规定。,第三节 频率分布,第四节 经验频率曲线,经验频率曲线:根据作为水文统计样本的实测水文资料系列,计算各项随机变量的经验频率,点绘经验频率与其对应的随机变量大小的曲线,称为该样本的经验频率曲线。,在水文计算中,一般采用累积频率曲线(简称频率曲线)来说明水文特征值的统计规律。也就是说,通过这条曲线来表达水文特征值与其对应的累积频率的关系,以便确定某指定频率P的水文特征值。水文统计法中的频率曲线分为两类:(1)由实测资料绘制的频率曲线称为经验频率曲线。(2)具有一定数学形式的频率曲线,通常被称为“理论”频率曲线。,一、经验频率曲线的计算 1)简单公式,2)维泊尔公式(均值公式、数学期望公式),3)切哥达也夫公式(中值公式),4)海森公式,式中:p为频率;m为系列按照递减次序排列时,各随机变量的顺序号;n为随机变量的总项数,即水文资料观测的总年数。,我国水文统计中一般采用维泊尔公式计算经验频率。,第四节 经验频率曲线,经验频率曲线的绘制步骤:1)收集水文资料,组成随机变量系列。2)将变量系列从大到小递减顺序排列。此时系列中变量的顺序号m,不仅表示变量大小的先后顺序,还表示等于和大于该变量的累积出现次数。3)按照维泊尔公式列表计算各变量对应的累积频率。4)以变量为纵坐标、频率为横坐标,在经验频率曲线上绘制经验频率点。5)依据经验点群的变化趋势,描绘成一条圆滑的曲线,即为所求的经验频率曲线。,第四节 经验频率曲线,第四节 经验频率曲线,三、经验频率曲线的外延 超出实测点范围以外的频率,需要将曲线外延。为了避免徒手顺势外延的主观随意性,一般:1)采用一定规格的几率格纸。这种格纸的种类很多,使正态分布的频率曲线在其上呈一条直线的海森几率格纸,可以使得手动延长的频率曲线部分误差比普通坐标纸相对减少。2)借助某种数学公式的频率曲线作为外延的工具,这种具有一定数学公式的频率曲线,通常被称为“理论频率曲线”。,第四节 经验频率曲线,第五节 统计参数,研究分布的数值特征(统计参数)的重要意义在于:需要用一些数值特征来表示一个已知的概率分布。对于一个未知分布,可以通过数值特征来估计它的分布。在水文计算中,通常只通过样本系列的统计参数来推求总体的规律。,统计参数:随机变量系列(如水文站年最大流量观测值系列,验潮站潮汐水位观测值系列等)的频率分布特征和频率分布曲线形状,能够用该系列的几个数值特征值来确定。系列的数值特征值常称为该系列的统计参数。,水文系列常用的统计参数:反映系列中随机变量数值大小特征:均值(也可用中值或众值);反映各,随机变量的离均程度:方差 或变差系数Cv;反映各随机变量对均值的对称性:偏差系数Cs。,一、均值、中值、众值1.均值均值:是系列中随机变量的算术平均数,以 表示;均值的计算:离散变量的均值计算:出现次数相同时:出现次数不同时:若其中各变量的出现次数都不相同,x1出现f1次,x2出现f2次,xn出现fn次,且f1+f2+fn=n,由于各变量对平均数的影响不同,则均值应为系列中随机变量的加权平均值:,第五节 统计参数,2)连续型随机变量均值对于连续型随机变量系列,均值则为:模比系数:各个变量与均值的比值,以K表示。对于任一变量xi,有:,且,对于年最大流量系列,其均值为多年平均洪峰流量,以 表示。若以Qi表示系列中任一年最大流量值,以n表示流量观测的总年数,则:,第五节 统计参数,第五节 统计参数,均值的意义:1)理论和实践都证明,当实测的资料系列较长时,均值趋于稳定。因此,由较长系列实测资料推求的均值,可近似地代替总体的均值。但均值易受极端项的影响。2)均值反映了系列在数值上的大小。3)均值表示系列的平均情况,它表明系列总水平的高低,可供系列之间比较用。例如,兰州多年平均降水量为330mm,北京为650mm,而峨眉则达1585mm,说明兰州的降水少于北京,更小于峨眉。各地年降水量或其它水文特征值都可以用均值反映出来。所以,均值不但是反映分布的一个重要参数,而且是水文现象的一个重要特征值。4)是系列的分布中心,即几率分布中心处的变量。密度曲线中,其垂线是曲线下方面积的重心轴。,中值的意义:1)系列大于中值和小于中值的随机变量出现几率相同;2)是系列中的中间项,比中值大的和比中值小的变量恰好各占一半。密度曲线中,其垂线是曲线下方面积的平分线。反映系列中间项和密度曲线的位置。,2.中值(中位数)中值:系列中的随机变量为等权时,按大小递减顺序排列,位置居于正中间的那个变量,称为中值,以 表示。当系列中变量的项数为偶数时,则中值等于中间两项变量的平均数。连续型随机变量中值:系列中大于中值的和小于中值的随机变量、几率相同,各为50%。,第五节 统计参数,3.众值众值:系列中出现次数最多的那个变量。对于连续型随机变量众值:密度函数f(x)为极大时的x值。,众值的意义:1)系列中几率最大的变量;2)密度曲线中,是曲线峰顶处的横坐标值。反映系列中最大几率项和密度曲线的位置。,4.均值、中值、众值的位置关系,均值、中值、众值的位置决定曲线分布的偏态:正偏态、负偏态、正态,第五节 统计参数,第五节 统计参数,二、均方差 和变差系数均方差和变差系数都是代表系列离均分布情况的参数,表明系列分布对均值是比较分散还是比较集中,反映频率分布对均值的离散程度。离均差:系列中各变量xi对均值的差值、等,称为离均差,表示变量间变化幅度的大小。均方差:离均差平方的平均数的平方根,称为均方差:,对于总体:,对于样本:用样本代表总体求均方差时乘以修正系数:,均方差值小,则变量间的变化幅度小,分布集中,均值的代表性强,均方差值大,则变量间的变化幅度大,分布分散。例如,有甲、乙两个系列:甲:150,125,100,75,50 乙:120,110,100,90,80,第五节 统计参数,甲系列的离散程度比乙系列大。,变差系数(离差系数):对于水平不同的两个系列,由于均值的影响,均方差就不足表明他们的离散程度大小,在数理统计中,通常采用相对值来反映系列的相对离散程度,作为系列间的衡量标准,称为变差系数或离差系数,用Cv表示:,第五节 统计参数,若引入模比系数Ki,则:,Cv值较小,表示系列的离散程度较小,即变量间的变化幅度较小,频率分布比较集中;Cv较大,表示系列离散程度越大,频率分布比较分散。,第五节 统计参数,三、偏差系数偏差系数:偏差系数也是代表系列分布情况的参数,表明系列分布对均值是对称的还是不对称的,反映频率分布对均值的偏斜程度,以Cs表示:,利用样本计算时:,引入模比系数:,,系列中变量对称于均值,为正态分布;,系列中大于均值的变量出现机会少,为正偏态;,系列中大于均值的变量出现机会多,为负偏态;水文系列中的偏差系数:水文现象一般都属于正偏(cso)。即出现大于均值的特征值次数少但离差值大,而出现小于均值的特征值次数多但离差值小。水文量值一般小于均值出现机会多,平均值对于的p总是小于50。利用文中公式由样本估计总体cs值时,必须有百年以上资料,才能获得较为满意的结果。实际上,水文资料很少有百年以上资料的,因此,在实际水文计算中,一般不用此式计算cs值,而是根据经验或者地区性变化规律直接选定,或保持Cs为Cv的倍数关系。,第五节 统计参数,第五节 统计参数,四 统计参数同密度曲线及频率曲线的关系1、统计参数同密度曲线的关系,均值:反映密度曲线的位置变化情况,其它值不变时,曲线位置随均值的变化沿x轴左右移动。变差系数:反映密度曲线的高矮变化情况。其它值不变时,曲线位置随变差系数的变小而变得高而瘦。变差系数为0时,密度曲线为一垂线。偏差系数:反映密度曲线的偏斜程度。其它值不变时,曲线位置随偏差系数的变小而向x轴正向偏斜。偏差系数为0时,密度曲线为正态。,2、统计参数同频率曲线的关系均值:反映频率曲线的位置高低情况。其它值不变时,曲线位置随均值的变大而整体抬高。变差系数:反映频率曲线的陡坦程度。其它值不变时,曲线位置随变差系数的变大而变陡,头部上抬,尾部降低。变差系数为0时,频率曲线平行于x轴。,第五节 统计参数,2、统计参数同频率曲线的关系偏差系数:反映频率曲线的曲率大小。其它值不变时,曲线位置随偏差系数的变大而曲率变大,头部上抬变陡、尾部上抬变平缓。变差系数为0时,频率曲线为直线。,第五节 统计参数,理论频率曲线:为减少经验频率曲线外延的任意性,人们试图从数理统计理论中的某些曲线线形(对应相应的数学方程式)中,选择比较符合水文现象规律者来表示所需的经验曲线,使曲线的绘制与外延具有一定的数学依据,这种用一定数学方程式表示的频率曲线,称为理论频率曲线。在我国的水文计算中,使用得最广泛的为皮尔逊型曲线;近来,有人推荐使用耿贝尔曲线。所谓“理论频率曲线”,绝非从成因上为推求水文特征值找到了理论的依据,而仅是为了配合经验频率点外延频率曲线提供的一种数学模型。,第六节 理论频率曲线,当以众值为坐标原点时,它的密度曲线方程式为:ym众值处的纵坐标值,即曲线的最大纵坐标值;a曲线左端起点到众值点的距离;b均值点到众值点的距离,称为偏差半径。,一 皮尔逊型曲线的频率密度函数英国生物统计学家皮尔逊(K.Pearson)在分析大量资料的基础上,为随机现象提供了十三种曲线,其中第型曲线与水文现象相符合。其密度曲线是一条一端有限一端无限的不对称单峰曲线。,第六节 理论频率曲线,第六节 理论频率曲线,其中:,原点在实际零点时皮尔逊型曲线的密度函数为:,第六节 理论频率曲线,曲线左端起点到系列零点的距离,曲线的参数,;为 函数。,参数换算:,二、皮尔逊型曲线应用水文统计所需要的是频率曲线及相应的函数,并用以推求指定的变量或某一变量的频率。对皮尔逊型曲线的密度函数进行一定的积分,可以得到我们需要的频率曲线纵坐标对应的 的计算公式,即频率曲线的分布函数:,第六节 理论频率曲线,式中:频率为P的随机变量 离均系数,可查表获得。模比系数,可根据 值查表获得。,(2-6-9),对于年最大流量系列,式2-6-9可写为:,第六节 理论频率曲线,式中:频率为P的洪峰流量;平均流量。,根据已知的三个统计参数就可利用以上公式推求任一频率的变量值,并能绘出理论频率曲线。,第六节 理论频率曲线,皮尔逊型曲线的应用步骤:在进行频率计算时,由样本估计出的Cs,查值表得出不同 P 的p值,然后利用估计出的E(x)、Cv 值,求出与各种P相应的xp值,从而可绘出频率曲线。,第六节 理论频率曲线,【例】已知某地年平均雨量E(X)1000mm、CV 0.5、CS1.0,求p1%的设计年雨量。,由CS1.0,p1%查得 P3.02,皮尔逊型曲线推求理论频率曲线的步骤:1)搜集年最大流量资料样本,组成变量系列;2)将变量按从大到小顺序排列;3)计算系列的三大统计参数:4)按照皮尔逊计算公式列表计算各指定频率的流量;5)将列表计算结果中的频率为横坐标,流量为纵坐标,在海森几率格纸上绘出各点,并按照点群变化趋势连接成光滑曲线,即为所求的皮尔逊型理论频率曲线;,第六节 理论频率曲线,三、抽样误差 水文统计的误差来源:一:水文资料的观测、整编和计算过程中形成的误差;二:抽样误差:由于水文现象是无限总体,而我们所掌握的只是其中一个有限的样本(认为是从总体中随机抽样取得的),这样的样本并不能完全代表总体。而我们进行水文计算,就是通过样本计算得到的参数去估计总体,必然存在着误差。这样用样本估计总体、也就是由抽样所引起的误差即为抽样误差。,第六节 理论频率曲线,抽样误差也是随机变量,且呈正态分布,正态曲线的密度函数为:置信区间和置信水平分析表明:,第六节 理论频率曲线,这意味着,如果我们随机地抽取一个样本,以此样本的均值作为总体均值的估计值,则p落在总体均值左右一个均方误范围内的概率为68.3%,而落在总体均值左右三倍均方误范围内的概率为99.7。通常称 为一般误差范围,称 为最大误差范围。,定义误差为E,则存在:抽样误差可以用均方误 表示,也可以用相对均方误 表示,其计算公式为:,第六节 理论频率曲线,表明抽样误差出现在 范围内的频率为50%,出现在 范围内的频率为99.3%。,统计参数的相对均方误:,第六节 理论频率曲线,利用样本推算总体的统计参数,都存在一定的抽样误差,尤其 的误差特别大,而且系列容量对误差的影响很大。在水文统计法中,根据目前水文观测的实际情况,和 尚可用公式计算,但要求实际水文资料具有足够长的观测年限,且代表性好,数据可靠,否则会产生很大的误差,至于,不宜直接利用公式计算,通常采用适线法选定。,四、耿贝尔()频率分布曲线耿贝尔频率分布曲线又称极值型分布曲线,美国等西方国家广泛应用于洪水水文频率分析计算,近年来我国学者研究表明,“耿贝尔曲线矩法解与皮尔逊型曲线适线法解结果相近,计算简单又无任意性,桥梁水文分析中可广泛应用。特别是对于海洋潮汐最高、最低设计潮水位的频率分析更为合理,已普遍应用。耿贝尔采用的原始分布G(x)分布为指数型分布,其近似值为:大于和等于某一随机变量 的累积频率为,累积频率函数为给定频率P的随机变量 为:,第六节 理论频率曲线,第六节 理论频率曲线,适线法:根据估计的频率分布曲线和样本经验点据分布配合最佳来优选 参数的方法。实质是通过样本的经验分布去探求总体的分布。适线法的主要步骤A.对样本做经验点距;B.进行参数估计,求均值、变差系数和偏态系数;C.选定理论频率曲线的线型;D.做理论频率曲线于经验点距同一坐标纸上;根据拟定的、Cv和Cs,查表计算Xp 值。以Xp为纵坐标,P为横坐标,即可得到频率曲线。E.察看两曲线的拟合效果,如不理想,则调整参数,通常以调整后两参数为主;F.两曲线拟合理想后,可用理论频率曲线求解设计变量。,相关性:自然界中有许多现象并非各自独立,其相互间往往存在着一定的联系。例如,气温与蒸发、降雨与径流、水位与流量、上下游水位(或流量)等都是有联系的。相关分析的主要应用:这种现象之间的联系在解决水文分析问题中经常被用到。这是由于在水文分析中,常常遇到某一种现象的资料很少,一但与其有关的另一种现象的资料项数却很多,我们就可以通过这两种现象之间的关系,利用长系列资料展延(或内插)短系列资料。这种关系的推求在数理统计中是用相关计算这个工具。相关:变量之间近似的或平均的关系称为相关;相关分析:研究相关关系的方法,称为相关分析。,第七节 相关分析,变量之间的关系:完全相关、零相关、统计相关。完全相关:变量之间的关系非常密切,相互成严格的函数关系;零相关:变量相互独立,互不影响,彼此之间没有关系;,第七节 相关分析,直线,曲线,点据散乱,互不影响,统计相关:变量不是相互独立互不影响的,彼此之间的关系也不是非常密切,介于完全相关和零相关之间,称为统计相关。在水文现象中,变量之间的关系多属于统计相关。简单相关:两个变量之间的相关;分为直线相关和曲线相关,见下图;复相关:多个变量之间的相关。,第七节 相关分析,直线相关,曲线相关,一、直线相关的回归方程直线相关:就是两个变量之间的相关,可以近似地配成一条直线。这条直线的方程式就称为两变量的回归方程式。相关图解法:是把两个变量的对应观测资料点绘在一张图上,得到若干个相关点,再通过点群中心目估一条相关线,该相关线视点群的趋势可能是直线也可能是曲线,它代表了点群趋势的平均情况,有了这条相关线,就可以利用长系列资料延长另一短系列资料。图解法缺乏选配回归线的依据,任意性较大,工程设计不宜使用。解析法:建立两变量之间的回归方程式,作为绘制回归线的依据,可以避免目估的随意性。,第七节 相关分析,解析法:以xi,yi表示两系列中随机变量的对应值,n表示其对应值的个数,在坐标纸上,按各对应值绘出相应点据,并通过点群绘出一条直线:直线方程为:由图中可以看出,各个点据与直线在垂直方向有离差,而在水平方向却相等,所以:,第七节 相关分析,式中:x、y直线的坐标;a、b待定参数,a为截距,b为斜率;,我们希望直线为真实测点群的最佳配合线或能代表其平均情况,可用最小二乘法,即使实测点和相关线间误差平方和为最小:则需令:联立求得:,第七节 相关分析,则可得y依x的回归方程:同理可得x依y的回归方程:,第七节 相关分析,二、相关系数在数理统计中,一般采用相关系数R来描述和判别两变量之间的相关程度;相关程度即回归线与点距之间的密切程度,对直线亦即直线与点距之间关系的密切程度。由,令,则,由此可见A、B总是正值,且。称R为相关系数:,第七节 相关分析,相关系数的性质:(1)若,则各点距与回归线的离差为0,表明所有点都位于回归线上,两变量之间存在直线函数关系,为完全相关,此时,A=B,R2=1,R=1或 R=-1.(2)的值越大,各点距与回归线的离差越大,表明点距越散乱,两变量之间的相关程度越差;若 的值达到最大,则可认为两变量之间不存在直线相关,为零相关,此时,B值趋近于0,R2值也趋近于0,同样R值也趋近于0.(3)若 的值介于上述二者之间,则R2的值介于0和1之间,表明两变量之间存在统计相关关系,统计相关程度随R值大小而异。,r0为零相关;r1或r-1为完全相关;00时为正相关,r0时为负相关。,第七节 相关分析,将A、B带入公式 得:,式中,Kxi为x系列的模比系数,Kyi为y系列的模比系数。,相关分析的前提:1)两变量自然现象之间存在客观联系,具有可参照性;2)两变量具有较为密切的相关性。,第七节 相关分析,三、回归方程和回归系数的其他形式 和;两系列随机变量的均方差分别为 和:回归线的斜率b,又称回归系数:Y依x的回归方程为:,第七节 相关分析,四、相关分析的误差直线相关,实有点距并不是完全位于一条直线上,而是分散于直线的两侧,直线与实有点距之间,即依据直线所得y值与实际变量yi值之间存在一定的误差,就是回归线的误差,按正态分布考虑,其误差可用均方误S表示,则y依x回归线的均方误为(2-7-13);利用样本推算时为(2-7-14):,(2-7-13),(2-7-14),第七节 相关分析,根据正态分布置信区间和置信水平的分析,实测值在回归线上下两侧各一个 范围内的几率为68.3%;实测值在回归线上下两侧各3 范围内的几率为99.7%。误差范围也可用机误E来表示,即实测值在回归线两侧各一个E范围内的几率为50%;实测值在回归线两侧各4E范围内的几率为99.3%.,第七节 相关分析,五、容许相关系数的最小值相关系数R表示两个随机变量系列相关的密切程度,R的最小值多大,才能应用于两个系列间的插补和延长呢?我国桥梁水文分析中,通常认为R的绝对值大于0.8,就可使用相关分析进行资料数据的插补和延长。应用数理统计的统计检验方法来检验相关系数的可靠性更为合理。根据t检验,制成不同信度下所需相关系数最小值表,可根据两系列中相应随机变量的个数和信度,在表中查得容许相关系数的最小值。若两系列间的相关系数大于此最小值,则认为两系列相关是密切的。,第七节 相关分析,六、相关分析在水文计算中的应用相关分析,可利用较长系列的实测资料,对短系列观测资料进行插补或延长,从而提高水文统计的精度。年最大流量、水位、降雨量等系列之间变量的统计相关,以直线相关居多,一般可采用简单的直线相关分析。两测站间观测资料的插补和延长及相互推算,如采用相关分析的方法,首先应检查系列间是否有客观联系,并判断是否存在直线相关,及相关程度;同时,两系列对应观测资料不宜过少(十对以上为宜),且数据变化幅度大一些为好,插补和延长的年限不宜超过已有对应资料的实测年限,外延部分最好不要超过实测范围的30%-50%。,第七节 相关分析,第七节 相关分析,利用相关分析对短系列资料插补延长步骤:1)用图解法初步判断两变量之间是否存在直线相关。2)列表计算两系列中的统计参数:均值,模比系数等。3)计算相关系数r及4Er。并判别两变量之间是否存在较为密切的直线相关。r 0.8,且 才 能进行相关计算。4)计算,得出回归方程式;5)按照回归方程式对短系列资料延长或插补计算。举例:上下游水文站的插补,相关系数的误差用机误的四倍表示:一般认为:当 时,两变量之间才存在直线相关,第七节 相关分析,当两变量不是线性相关时:1.先判断两变量的相关线型,并分别用指数相关或对数相关,将非线性相关关系转化为线性相关关系;2.遵循线性相关分析的步骤,建立相关方程。,