水文统计基本原理与方法.ppt
水文统计基本原理与方法 3-1 水文统计基本概念 3-2 统计参数与抽样误差 3-3 经验频率曲线与理论频率曲线 3-4 水文频率计算方法 3-5 相关分析,Chapter 3 Basic Principles and Methods of Hydrological Statistics,3-1 水文统计基本概念,3.1.1 水文统计 3.1.2 事件与随机变量 3.1.3 总体、个体与样本 3.1.4 概率与频率 3.1.5 随机变量概率分布 3.1.6 累积频率与重现期,3.1.1 水文统计,水文统计意义:水文现象具有必然性、偶然性(随机性);利用概率论和数理统计的理论和方法,研究和分析水文的随机现象(已经观测到的水文现象),找出水文现象的统计规律性;以此为基础,对水文现象未来可能的长期变化做出概率意义下的定量预估,以满足工程规划、设计、施工以及运营期间的需要。,3.1.2 事件与随机变量,3.1.2 事件与随机变量,事件(Events):是指在一定组合条件下,在实验结果中所有可能出现或可能不出现的事情。,必然事件不可能事件随机事件,随机事件:在一定组合条件下,可能发生也可能不发生的事情,随机变量(Random variables):,随机变量(Random variables):随机事件的数量化表征,3.1.3 总体与样本,3.1.3 总体与样本(collectivity and sample):,水文特征值系列的总体是无限的。样本是总体的一部分,样本的特征在一定程度上反映 出总体的特征。,概率与频率,3.1.4 概率与频率(Probability and frequency),(1)概率(机率):随机事件在客观上可能出现的机会 基本性质:0P(A)1(2)频率:在具体重复试验中,随机事件A出现的次数与试验总次数之比值,概率和频率的关系,(3)概率与频率关系:,频率是经验值,概率是经验值;可以通过实测样本的频率分析来推论事件总体概率特性;样本容量越大,结果越准确;对于水文现象,只能采用有限的多年实测水文资料组成样本系列,推求频率作为概率的近似值。,随机变量的概率分布,随机变量与其概率一一对应的关系,称为随机变量的概率分布规律,简称概率分布。,3.1.5 随机变量概率分布,(3-3),对于连续性随机变量,实际工程更关注:,水专业图-工程例,【例题3-1】已知某站62年实测年降水量资料(下表)。,题的图,将左式进行积分,频率密度直方图,f(x)频率密度曲线,P(Xxi)累积频率曲线,累积频率直方图,(3-4),水文学中的概率分布,概率密度函数,概率分布函数,水文统计中常用的概率分布 正态分布概率密度函数为:,正态分布密度曲线特征:,特点:1)单峰;2)以均值为对称轴;3)曲线两端趋于,且以x轴为渐近线。,3.1.6 累积频率与重现期,频率特性,3.1.6 累积频率与重现期(1)累积频率(Accumulated frequency):等量或超量值的累积频数(m)与总观测次数(n)之比。,(3-6),有:,频率 累积频率,累积频率特性:,累计频率分类:,重现期,?,(2)重现期(Reoccurrence period):指某随机变量的取值在长时期内平均多少年出现 一次(多少年一遇)。,表示方法,重现期则是平均若干年出现一次,而不是固定的周期。,重现期表示方法:实测水文系列由最大值组成时,设计频率标准50%,或:,(3-8),设计频率标准50%,重现期分类,实测水文系列由最小值组成时,设计频率标准50%,或:,(3-8),重现期分类:,设计频率标准,3.1.7 设计频率标准(Design standard of frequency)以工程的规模、工程的重要性以及工程失事后果作为制定设计标准的依据。,路桥的,设计频率标准示例,总体思路,本节水文频率计算的基本思路:,Hydrological Statistics,资料要求,【例题3-1】已知湘江某站1947-1976年实测年降水量资料(见下表)。,3-2 统计参数与抽样误差,3-2 统计参数与抽样误差(Statistical parameters&Sampling error)3.2.1.统计参数 能说明随机变量统计规律的某些特征数值,称为统计参数,或特征参数,有时称为分布参数。,特征参数,1.,2.,3.,无偏估计,均值,无偏估计量:有偏估计量:,对于有偏估计量,大量样本平均的结果都不等于总体的相应参数,需要进行修正,以得到对总体的无偏估计值公式。,(1)均值(数学期望),算数平均值 加权平均值,1.位置特征参数,均值图示,均值表示系列的分布中心,代表随机变量系列的平均水平。,3-11,我国多年平均年降水量分布图(单位:mm),Y图,湖北省部分地区多年平均年径流深等值线图(mm),众值,(2)众值(众数),概率密度曲线峰值在x坐标上相应的位置值。,(3)中值(中位数),对于连续随机变量,把概率密度曲线下的面积分为两个相等部分所对应的 x 值为中值。即中值是该系列频率 P=50%时的 x 值,有 x50%.,示意图,均方差,2.离散程度特征参数,(1)均方差,描述概率分布离散趋势的特征参数。随机变量分布越分散,均方差越大;分布越集中,均方差越小。限于比较均值相同的系列。,总体的 样本的,变差系数,(2)变差系数Cv比较两个不同均值系列的离散程度时,采用均方差与均值之比值,用于衡量系列相对离散程度。对于总体 对于样本:引入模比系数对于总体 对于样本,变差系数图,湖北省部分地区年径流量变差系数Cv等值线图,Cv的曲线形状影响,Cv越大,频率密度曲线矮而宽,系列数值相对 分布越分散。Cv越小,频率密度曲线瘦而高,系列数值相对 分布越集中。,偏态系数,3.对称程度特征参数,偏态系数,反映密度曲线的对称特征,即衡量系列在均值的两侧分布对称或不对称(偏态)程度的系数。,(3-16),总体:,样本:,(3-17),Cs影响形状图,当Cs0,密度曲线峰顶在均值的左边,叫做左偏或正偏。当Cs0。,图总结,统计参数物理意义;统计参数对频率密度曲线形状的影响。,复习:矩的概念,矩 随机变量 x 对原点离差的 k 次幂的数学期望 E(xk),称为随机 变量 x 的 k 阶原点矩。随机变量 x 对中心分布 E(x)离差的 k 次幂的数学期望 E x E(x)k,则称为随机变量 x 的 k 阶中心矩。,统计参数:均值 称为一阶原点矩;变差系数 Cv 称为二阶中心矩;偏态系数 Cs 称为三阶中心矩;各统计参数的计算公式亦称为矩法公式。,抽样误差,3.2.2 抽样误差(Sampling error),1 抽样误差 2 抽样误差分布 3 抽样误差计算公式,公式,1.抽样误差:由随机抽样而引起的误差。,误差分布图,均方误差标准误差以均值为例:,(3-14),误差计算公式,2.抽样误差分布:服从正态分布,绝对误差:,相对误差公式,(3-18),3.抽样误差计算公式随机变量服从皮尔逊III型分布,相对误差:,Xp误差公式,(3-19),参数误 差 n,Cv,以 Cs=2Cv 为例:,样本统计参数的标准误差(%),Cs 与 Cv 经验关系,Cs 与 Cv 经验关系,设计暴雨量 Cs=3.5 Cv设计最大流量 Cv 0.5,Cs=(23)Cv设计年径流量及年降水量 Cs=2Cv,偏态系数依据上述关系式给定初始值。,3-3 经验(累积)频率曲线和理论频率曲线(Empirical and Theoretical curves of cumulative frequency)3.3.1 经验频率及其计算公式 1.经验(累积)频率 累积频率 2.经验频率计算公式,经验频率计算公式,1)定义式:P=m/n(%)2)海森公式:,3)中值公式:,4)维泊尔(Weibull)公式:,P为大于等于xi的经验频率;m为水文变量从大到小排列的序号;n为样本的容量,即观测资料的总项数。,3.3.2 经验频率曲线,1、曲线绘制步骤:据实测水文系列资料,不论年序,数值从大到小 排列,统计m,确定n;计算(查表)P=m/(n+1)(%);以实测值x为纵坐标,P(%)为横坐标,点绘,连线;若资料充分,可据设计频率标准P,在该 曲线上求出设计值xp。,曲线图,经验频率计算:a.查表;b.用Excel 计算;c.自编程计算。,3.3.2 经验频率曲线,1、曲线绘制步骤:据实测水文系列资料,不论年序,数值从大到小 排列,统计m,确定n;计算(查表)P=m/(n+1)(%);以实测值x为纵坐标,P(%)为横坐标,点绘,连线;若资料充分,可据设计频率标准P,在该 曲线上求出设计值xp。,例题,经验频率计算:a.查表;b.用Excel 计算;c.自编程计算。,3.3.2 经验频率曲线,某水文站年最大流量实测值,表整理,频率值计算表,m,经验频率计算,延长,普通坐标,x1%=?,x99%=?,100%,成倒S形,上下两端变化较大,若求(1%、99%)设计水位,要徒手延长频率曲线,增大误差,延长方法,2.经验频率曲线的延长,P363,机率格纸,纵坐标等分,表示随机变量,理论线,P364图,横坐标中间密,两边疏不均匀分格,表示频率,将曲线两端的频率的间隔拉大,使曲线平缓,可目估曲线两端变化趋势,运用理论频率曲线对经验频率曲线延长,f(x)频率密度曲线的数学模型:,End,1 皮尔逊III型曲线的数学方程式 2 理论频率曲线 3 统计参数对理论频率曲线形状的影响,3.3.3 理论(累积)频率曲线,1.皮尔逊III型曲线的方程式,f(x)表达式,特点:曲线单峰,只有一个众数、曲线是一条一端有限、另一端无限且以横轴为渐近线的不对称曲线。,(3-18),皮尔逊III型曲线参数与统计参数的关系:,(3-19),皮尔逊III型曲线参数与统计参数的关系:,于是:,2 理论曲线,2.理论频率曲线,推公式,2.理论频率曲线,令:,(3-29),称为离均系数,附录,得:,(3-30),对积分变量(离均系数)还原,有:,P365,理论曲线纵横标,Cs,绘制曲线步骤,绘制理论频率曲线步骤:已知Cs,查附录B,得 P=0.01,0.1,1,99.9%p=,已知、Cv值,代入(或);以Qp(或 Kp)为纵坐标,以P(%)为横坐标,绘出一条与三个统计参数相符的理论曲线;在曲线上求出设计频率对应的设计值。,例题,解:1)绘制理论频率曲线,【例题】已知某河洪峰流量实测系列均值 偏态系数,变差系数。求理论频率曲线和百年一遇的设计洪峰流量值。,328m3/s 曲线计算表,2)Q1%=?,参数对曲线影响,pCvpKp=1+CvpQp=Kp,理论频率曲线计算表,P(%)项目,Excell/反回上页,Cs=2.4,3.3.4 统计参数对频率曲线形状的影响,均值:随着均值的增大,概率密度曲线成比例地向右移动,曲线的形状随之发生改变。,理论频率曲线,参数Cv,变差系数:Cv越大,系列数值离散程度加大,累计频率曲线越陡。,理论频率曲线,参数Cs,偏态系数:,当Cs0,累积频率曲线为向下凹曲线。当Cs0,概率分布曲线为向上凸曲线。当Cs=0,概率分布曲线为一直线。,3-4 水文频率计算方法,3-4 水文频率计算方法(The methods of calculating frequency on hydrology),3.4.1.统计参数初估方法,3.4.1.统计参数初估方法 1 矩法 2 经验关系法 3 三点法 4 权函数法 5 概率权重矩法,矩法,1.矩法 依据实测系列计算三个统计参数:,经验法,2.经验关系法,设计暴雨量 Cs=3.5 Cv设计最大流量 Cv 0.5,Cs=(23)Cv设计年径流量及年降水量 Cs=2Cv,三点法,Cs初值:,3.三点法 目估一条与经验频率点据呈最佳的配合线(理论线)线上选定三点,则有:,(3-22),三点的取法:15099%或 35097%或 55095%或 105090%,参数计算公式,(3-34),(3-35),(3-33),=S 偏度系数,S 表,附录C P-III曲线三点法 S 与 Cs 关系表P=5 50 95%,P368,求参步骤,三点法估求参数步骤:据(3-35)式左端计算得S值,且已知P1,P2,P3,查 附录C,求得参数Cs;据Cs查附录B,得p1、p2,代入(3-33)、(3-34)式,求得。,适线法,3.4.2 适线法 以经验频率点数据为基础,给它选配一条拟合最佳的频率曲线理论曲线,以此来确定合适的统计参数,将其作为总体参数估计值。1 目估适线法 2 优化适线法,1,1.目估适线法,步骤 表格,实际计算水文频率时,通过制表完成上述的步骤。,经验频率及统计参数计算表,理论线 表,理论频率曲线计算表,例题,【例题3.3目估适线法】求:最大洪峰流量Q1%=?Q1%=31114 m3/s(经验法初估参数)Q1%=30450 m3/s(三点法初估参数),计算表题 P66,经验法,优化法,3-5 相关分析(Analyses of statistical relationship),3.5.1 概 述(1)相关分析(2)相关分析在水文频率分析中的意义3.5.2 线性简相关(1)图解法(2)相关分析法(3)相关分析的误差(4)相关分析中的要点3.5.3 直线回归的扩充,相关分析:研究两个或两个以上随机变量之间的相关关系。,复 相 关简 相 关,曲线相关直线相关,负 相 关正 相 关,相关分析意义,1.概 述,(2)相关分析在水文频率分析中的意义 相关分析的任务是寻求随机变量之间的统计 关系,以延展和插补实测水文系列,提高样本的代 表性和设计成果的可靠性。例如:流量与降水量 蒸发量与温度,2。线性简相关,图解法,0,x,y,一元回归方程,(1)图解法:,y=a x+b,当点据分布趋势明显,可采用目估作图的方法绘出一条相关直线,让该条直线通过点群中间及()点,在图上量得直线的斜率为b,纵轴上的截距为a,0,x,y,(x),(2)相关分析法 1)直线回归方程(Linear Regression Equation),a、b表达式,y=ax+b 最小二乘法,若点据分布较分散,可采用先关分析法确定相关线的方程,即确定参数a、b。,若选择一条最佳配合线,其离差 平方和应最小,这种以利差平方和达到最小的条件来选择参数a、b的方法称为最小二乘法。,(3-29),推倒 a 与关系式,(3-30),a 回归系数(回归线的斜率),回归方程式,(3-31),回归线在 y 轴的截距:,b=,式中:相 关 系 数 定量表示两种变量之间的密切程度。,相关系数,将公式(3-30)、(3-31)代入 y=ax+b,有:,(3-32),0,x,y,(3)相关分析的误差 回归方程的误差 标准误差均方误(Sy):,(3-33),图示回归方程误差,(3-34),或:,n-2称为自由度。回归线的误差一般服从正态分布。,相关系数误差,(3-35),相关系数的误差 标准误差均方误(sr):,注意要点,同期观测资料不能太少,一般要求n12,以减少抽样 误差和提高成果的可靠性;要求相关系数 0.8,且Sy(10%15%);,回归分析中,长系列为自变量,短系列为倚变量,建立 回归方程,插补、延长短系列;外延回归线至无实测点控制部分时,要注意考证。误差分析。,(4)相关分析的要点:,分析论证变量之间在物理成因上确实存在联系;,例题,【例题】某站年降雨量与年径流量相关计算,n=22,相关分析内容,公式计算,直线回归扩充,直线回归的扩充,1)幂函数一般形式有:y=axb 2)指数函数一般形式有:y=aebx,线性复相关,3.5.4.线性复相关 设多元线性回归方程有:,式中a0,a1,a2,am 为m+1个待定的系数。设在 t 时刻,有:,t=1,2,n,Y=XA,依据最小二乘法原理,得:,若(XTX)是非奇异矩阵,解向量A就是唯一的。,矩阵:Y=X A,例题,矛盾/普通意义,【例题】某地区径流量、降雨量和湿度饱和差资料,设:,(t=1,2,13),Y=X A,矩阵:,XTX,=,所求回归方程为:y=119.51+0.4x174.45x2,(XT X)=,End,即为非奇异矩阵,