稀疏总体抽样方法讲.ppt
稀疏资源调查抽样设计和估计,森林资源抽样技术,性质:抽样调查是获取统计资料的重要手段,在社会、经济、科研等领域有着广泛的应用。抽样技术是统计学研究中的一个重要分支。主要介绍抽样技术的基本理论,是统计学专业的一门专业必修课。内容:介绍一些基本的概率抽样方法,包括简单随机抽样、分层抽样、整群抽样、多阶抽样、等距抽样及不等概率抽样等,着重讨论其中统计推断、抽样设计的理论。对非抽样误差、调查实务(例如问卷设计、调查报告撰写等)作简要介绍。要求:了解抽样技术的统计理论;掌握六种基本抽样方法的原理、统计推断方法及抽样设计技术,并能举一反三,灵活应用;对抽样调查的实际应用、调查实务有所了解。,稀疏总体调查,稀疏总体调查包括:生物多样性的调查、森林中病虫害发生分布的调查、林下非木质资源(non-timber)调查、森林中的倒木和珍贵濒危树种分布的调查、林外的群立木、簇立木或林外的散生木的调查等等空间分布特点:稀疏(rare)、群团状(cluster)、散生状(spread)和条状(strip)等自然分布,抽样方法比较,传统抽样方法(如简单随机抽样、分层抽样和系统抽样等等):调查总体观察值总和均值前要确定样地单元总数 不依赖于抽样总体分布,即选择概率函数是非零的或者是常数,与总体单元内观察值的大小无关以郁闭的森林资源的林地为主要调查目标对稀疏总体的估计是有偏估计传统抽样方法没有考虑稀疏总体明显存在的空间分布差异,缺乏针对性,将必然导致调查成本大幅攀升和/或估计结果出现显著偏差,抽样方法比较,针对稀疏、簇生和聚集分布总体的抽样方法(如线截法、带抽样、样线法、适应性群团抽样等)较传统的抽样方法有更多的优点:在相同抽样工作量情况下估计量方差将会更小,获得更多的信息量,抽样估计是无偏的抽样设计灵活能够提高具有稀少且群聚特征总体的抽样效率,弥补了传统抽样方法失效、最终样本中观测目标信息几乎为零的缺点在森林资源调查目标由传统的林木资源调查向森林多资源调查方向转变和发展 的形势下,研究针对稀疏总体的抽样方法是很有意义的,这里主要介绍近年来研究应用较多的三种方法:线截法(Line intersect sampling)带抽样(strip sampling)样线法(Line transect sampling)适应性群团方法(Adaptive cluster sampling),一、线截法,线截抽样(Line intersect sampling,简称LIS),由Canfield提出并在1960s得到发展应用适用于稀疏总体,抽样调查,伐倒木和薪才总量估计公路长度关于生物多样性的调查(如倒木数量的估计),线截法估计方法,设某区域内一条线,则与该线相交的所有目标入样,每棵树的概率取决于入样线长度L和树的有效长度,如果将树看成一条线,则可直接根据其与抽样线所成的夹角 计算,,线截法估计方法,树i的有效长度的平均值为 每单元面积A的目标变量总数,依据Horwitz-Thompson estimator估计为:(1)式中:,(数量/面积A),线截法估计方法,则每平方米总量的估计值为:(2)式中:L为线(m个)的总长度(米)、li为树i的长度(米)、yi是第i单元目标变(如蓄积、质量、长度)、m为观测单元数量。,(数量/平方米),线截法估计方法,若森林蓄积用Hubers公式定义为,式中di是第i棵树的直径(cm),则前面公式(2)可改为;若要估计倒木长度,利用(2)即可,若估计其它值如每公顷倒木数量,则还需测得树的长度。LIS估计量的方差可由线间方差算得:式中n为线数、为线j的每公顷总蓄积、为研究区域的每公顷蓄积、Lj为线j长度。,()2/,(立方米/公顷),二、带抽样,带抽样(strip sampling)可以看成样地面积很大的样地抽样调查,根据计算,最简单情况是将研究区域分成N个非交叠样带,从中随机抽选n个样带。样带可以间隔一定距离抽选,也可以重叠(部分)抽选。特点及适用情况:带抽样经常用于稀疏总体调查相对于点抽样,既然该法相对于普通样地调查典型地覆盖了大面积区域,则意味着用于活立木调查时工作量很大由于某方位两带状样地自相关性很大,该法对于活立木调查效果很低。虽然稀少总体的观测值分离很远,但自相关性并不成问题,当包含稀少总体时可用带抽样方法。,样带布设,将调查总体面积分成N条非重叠的样带,用简单随机方法随机抽取n条样带。也可以用一定的宽度确定样带,这样可能有重叠。测量带内的目标,带抽样估计,总体蓄积(或其他目标变量):式中Vi为第i条样带的总蓄积、Ai是第i条样带的面积、AT为总面积,如果目标为平均每公顷蓄积,那么可估计比率尽可为:,平均值(m3/hm2),带抽样估计,比率的方差为:式中:为样带平均面积、N为调查区域样带总数、n为抽取的样带。总蓄积估计值方差:,()/(),,三、样线法,样线法(Line transect sampling,简称LTS)是以观测目标所在的样线为基础的,样线可以是在地面设桩,或者是在图像上和其他方式。调查人员可以徒步或乘车和空中飞行。这种方法主要用于估计野生动植物总体密度。设目标随机分布在区域内,设观察目标i的概率取决于距线的距离,如距离越长观测概率越小。样线调查方法的内容一般都要包括样线布设、数量调查和密度计算,样线法样线布设,样地布设随机布设系统布设估计方法窄带法目视修正法参数法非参数法,核函数估计富利叶级数法,样线抽样估计方法,窄带法(Narrow-Strip method):密度为单位面积的个体数目,即条带内动物数量除以条带面积(1)式中,D为野生动物种群密度;y0为条带内探测到的野生动物数量;L为样线总长度;w0为单侧样线宽度(米)。窄带法是最为常用的传统方法,简单易行,但是单侧样线w0宽度需要根据生境和野生动物的特点以及调查人员的实际观察能力进行经验估计。,(数量/m2),(一)窄带法,例:样线长L100米,有18个目标(如鸟和病虫害树木等)分别在距离样线0,0,1,3,7,11,11,12,15,15,18,19,21,23,28,33,34,44米。如何使用(1)式估计目标值密度(株/每公顷)。首先画以10米间隔的目标探测直方图;找到以直方图显著变化的距离所对应的目标探测数量,就为带宽w0的值。密度值为:,图1,即30个/公顷,(一)窄带法,特点:计算简单,但并不完全满意因为所有观察目标没有被用到估计;带宽w的确定有点强制性;探测目标率是随着样带宽度逐渐减少。,目视修正法(Smooth-by-eye method):为了使窄带法的直方图接近概率密度函数f,首先选择间隔宽度,然后用下面表达式确定一定距离x的直方图高 特点:引入探测密度函数概念;因为间隔宽和目视探测密度的选择带有主观,所以不同人估计的结果不同。建立在相同概念,后面的参数方法能够克服这些不足。,(二)目视修正法,(二)目视修正法,根据上面图1柱状图,第一个10米间段探测到5个目标,即5/(1810)=0.028;第二个10米间段探测到7个目标,值为7/(1810)=0.039;同样地后三个间段值分别为0.017、0.011和0.006,据此画出直方图,如图2由概率密度表达式,种群密度可以表达为,图2,(数量/m2),(三)参数法,由上面两种方法,得知关键是对f(0)和带宽w的估计,假设它们之间的关系为:,由上式知道其中之一,则可估计f(0)或w。假如n个被观察到的调查对象的垂直距离x1,x2,xn 满足相互独立性。这些从样线到调查对象的垂直距离x被给出时,我们把调查对象被观测到的条件概率定义为探测函数g(x),g(x)是x的单调减少函数,当调查对象在样线上时,概率是1(g(0)=1)。被发现的调查对象的距离x的概率密度函数f(x)可以通过探测函数g(x)和带宽w来表示:f(x)=g(x)/w 为了估计f(x),使用最大似然估计方法估计探测函数的未知参数,就可得到f(0)或w的估计值为 或。,(三)参数法,广泛应用的探测函数为指数函数形式,即g(x)=exp(-x/w)。最大似然估计为,即探测目标距离的平均值。拟合的指数曲线为图2曲线依据上面的例子可以计算探测函数为指数形式的密度估计为:,=18/2(16.39)(100)=0.0055=55(数量/公顷),(三)参数法,探测函数为指数曲线的估计特点:1、简单容易估计 2、对种群总体估计不理想(曲线可看出)所以人们一般选择“肩形”探测曲线加以修正。如果假设探测函数为半正态函数g(x)=exp(-3.14x2/4w2),参数w的最大似然估计为:以上面为例计算结果为:=25.61,则 拟合的半正态函数曲线见图3。,图3,=18/2(25.61)(100)=0.0035=35(数量/公顷),(四)非参数法,为了避免参数函数未知的探测函数的曲线形状,可以使用非参数函数估计方法,也就是直接估计概率密度函数f(0)。有两种方法估计f(0):1、核函数方法估计(Kernel method)2、富利叶级数方法(Fourier series method),1 核函数方法,式中:h是带宽,xj是第j个观察目标值,K是核函数(这里假设为对称核函数)从式中可以知道关键是估计h,Silverman(1986)给出了h的计算公式:式中a=min(s,Q/1.34),s为x抽样样本目标观察值距样线的距离的标准差,Q是所有调查目标距离沿样线距离的中位值。依据上面案例,中位值为15,计算的s12.56,得到a=min(12.56,15/1.34=11.19)则窗宽h=0.9(11.19)(18)(-1/5)=5.65,核函数f(0)的估计为:调查目标的密度:,2 富利叶级数法,富利叶级数方法估计f(0)式中:Ak是参数,f(0)为当垂直距离为0时发现目标个体的概率的密度函数;k依次取1、2、3、4、5等自然数;M为k的上限临界值,一般7;w*为单侧样线宽度或最大垂直距离,本例计算时考虑最大值为异常点,所以取次之为w*,y为探测到的个体数目。,2 富利叶级数法,富利叶级数法的基本思想是根据个体距样线的垂直距离的观测值,以Fourier级数模拟发现概率的密度函数或发现函数,通过后者来计算种群密度。而且,富利叶级数法具有严格的函数拟合有效性的检验()。在计算过程中,k依次取1、2、3、4等自然数,计算f(0)直至。富利叶级数法对很多实际观测值均有很好的拟合,已被广泛运用的方法之一。,三、样线法,样线法总体密度:方差:式中li是第i样线的长度、R是样线数、L是样线总长度。,()2)/,样线法,该法常常用于估计野生动物总体密度数量和病虫害林木密度数量。该法在调查的实际运用中需要满足下列的前提条件:在线概率为一,即线上的目标无遗漏;观测前后目标无移动,即每个动植物都观测到了,并且只观测一次;正确地观测距离和角度;观测是独立进行的。测量距离是到线的垂直距离,如果不能直接测量,可根据目标到观察点的距离和视角(横断线和观察线之间的角度)计算。应该承认,在野外调查时,完全符合上述几个条件是比较困难的。但经验丰富的调查人员可以通过预查、复查等各种有效方法尽可能地减少调查结果的误差。,样线法各种估计法比较,如果能够得到条带内调查目标个体数量,窄带法是最为常用的传统方法,它简单易行,但是样线宽度需要根据生境和调查目标的特点以及调查人员的实际观察能力进行经验估计目视修正法与窄带法相比,它引入了探测密度函数,克服了观察目标没有完全被用来估计的缺点参数方法克服了目视修正法由于间隔宽和目视探测密度的选择带有主观所引起的不同人估计的结果不同的不足非参数法避免了参数法未知的探测函数的曲线形状,非参数法可直接估计概率密度函数选用参数法和非参数法的条件:1)能够得到条带内调查目标个体数量;2)还能够获得目标个体距样线的垂直距离,四、适应性群团抽样方法(adaptive cluster sampling),美国学者Thompson(1990)第一次提出了适应性群团抽样理论和技术,目前在美国、德国少数国家开始研究和应用。但还有许多理论和技术问题有待研究。,建立试验样地的方法,黑龙江省,系统适应群团样地设计,带状适应群团样地设计,简单随机适应群团样地设计,样地形状设计,1、定义群团取样(Cluster sampling):是一种二水平取样,即首先随机选取样点,在每一样点取一些样方(而不是一个样方)。自适应群团取样(Adaptive cluster sampling或ACS):是一种二水平取样,但是在每一样点取满足事先规定条件(或标准)的一些相邻样方。,2.自适应群团抽样的几个概念群团(Cluster):包含有满足条件c的样方(单元)和边缘样方(单元)邻域或邻近(Neighborhood):一阶邻域(The first-order neighborhood):包括本单元和四个相邻的单元 二阶邻域(The second-order neighborhood):包含一阶邻域和东西南北的单元,网络(Network):群团中满足条件C的样方和不满足条件c的最初样方。注意与群团概念不同。边缘单元(Edge unit):不满足条件C且在邻域内的单元临界值(Critical value):当样方总体值yi=C,在最初样点上增加样方;否则,不增加包含概率(Inclusion probability):理解为网络Ai所包含单元的概率(不能从抽样数据中计算,实际计算中用偏边缘包含概率(PIP)代替)。非常重要的参数,是计算Horvitz-Thompson估计值的主要参数,计算式为:,N-总的取样单元数,xk-在网络Ak中总的单元数,n1-最初取样点数,选择概率(Selective probability):是计算Hansen-Hurwitz估计值的主要参数,案例,(1)SRS,2)ACS,?,=1/3(2+54+38)=31.3,ACS方法均值和方差估计方法,目前ACS有三种方法计算平均值和方差Hansen-Hurwitz Estimator(HH)基于网络内均值wi,不考虑边缘单元,(2)Horvitz-Thompson Estimator(HT)yk*为第k个网络内观察值和k为最初抽样入样第k个网络的包含概率jk表示最初抽样单元在第j个网络和第k个网络同时入样的包含概率 不考虑边缘单元是因为边缘单元不确定,(3)Rao-Blackwell Esimator(RB),Ten networks sampledNetwork totals(yk*)Nine 0s and one network with an 11Intersection probabilities(k)For network with 1 unit,k=0.025For network with 10 units,k=0.226Joint intersection probabilities(jk)For 2 small networks,jk=0.00056For small and large networks,jk=0.00515,计算案例,密度估计:,方差估计:,A,B群团多和小CV:1.345,群团少和大CV:1.344,C群团少和小CV:348%,效率比较结果,适应性群团能提高探测稀疏物种的能力,3、估计方法研究(1),Thompson(1990)首先提出修正的Hansen-Hurwitz和Horvitz-Thompson两个无偏估计量,并给出了详细的算法。同时,Thompson(1990)提出了Rao-Blackwell理论的Hansen-Hurwitz和Horvitz-Thompson估计量,但是没有给出算法,是因为计算复杂。Salehi(1999)导出了容易计算的Rao-Blackwell理论的Hansen-Hurwitz和Horvitz-Thompson估计量的算法,并用实例说明了两个估计量算法的详细计算过程。,Brown and Manley(1998)为了减少ACS抽样的最终样本数量,提出了限制性的ACS抽样,使用Hansen-Hurwitz和Horvitz-Thompson估计量估计,估计是有偏的Salehi and Seber(2002)认为B&M(1998)的估计有偏,基于Murthy(1957)估计方法,他们提出限制性ACS抽样的无偏估计,并用实例说明了两个估计量算法的详细计算过程。为了避免选择过多且不能提高估计精度的边缘单元,Salehi and Smith(2005)提出二阶段序贯适应性群团抽样及估计方法,3、估计方法研究(2),4、适应性群团抽样设计,最初抽样设计方法、标准值、邻域形式和估计方法以及样地调查成本等因素的不同组合将会导致大量不同的适应性群团抽样设计(特别是标准值大小)最终抽样样本量的随机性或不确定性.因为最终抽样样本量的随机性或不确定性使得人们在调查前无法确定最终抽样样本量以及抽样调查的成本 主要几种限制适应性群团抽样最终样本量的抽样设计,Adjust the condition or neighborhood Woodby(1998)Adjust the condition that determines when to adaptively sample.That is for Condition=yi c,make the condition more restrictive(i.e.,make c a bigger number)so that adaptive sampling is triggered less often.,如何控制最终样本量(1),A(yi0)B(yi1),限制最终抽样样本量方法,叫停规则(如何确定标准值C)C大,网络包含的单元数(network)减少以致减少边界单元,对于比较稀疏和低密度的总体,ACS的效率减少。C小,网络包含的单元数(network)增加以致增加边界单元数,对于比较稀疏和低密度的总体,ACS的效率增加,但是可能无限制的继续抽样,抽样成本也将增加。,O 是最初抽样单元邻域为一次4单元S1,S2和S3为1,2和3阶叫停灰色单元为边缘单元,叫停规则适应性群团抽样示意图,一次4单元和一次2单元叫停群团抽样图,对于交叉型的样方(cross pattern),S=3的叫停规则有24个自适应群团样方 对于线性型的样方(linear pattern),S=4的叫停规则最大有8个自适应群团样方,叫停规则的特点 自适应群团抽样设计的理论基础发生改变,可能导致不完全的网络(例如网络重叠);发生与总体格局不一致的变化。相反,不使用叫停规则能在一定临界值条件下使网络完全分离,从而形成唯一的总体分化。这种分化(partition)是 HH和HT无偏估计的理论基础,因此如果使用叫停规则可能导致偏的估计。,限制性的适应群团抽样(Brown 1994),(1)确定最终样本数量n(2)按照序列形式选择最初抽样单元(3)当最初抽样单元和按照标准值所增加的单元等于或大于(1)所确定的样本数量n就停止估计方法采用修正的HH和HT,发现有偏。然后用Bootstrap方法估计有偏量,用于调整HH和HT的有偏估计,标准条件 0,邻域形式:一阶4单元,最初抽样方法:SRS,n1=10,当样本容量 15 停止,最后结果:最终样本量15,但只有n1=5,限制性群团抽样过程示意图,二阶段适应群团抽样(Salehi 1997),总体单元N200分成m=8个一级单元样方(PSUs)用不放回SRS方法抽取4个PSUs(如图中1,2,3,8)在4个PSUs中的每个中用不放回SRS方法抽取3个二级单元样方(图中O)最后按照一次4单元邻域和标准值(y0)增加样方单元,可以分成重叠(横跨2个二级单元)和不重叠估计,但不重叠效率更高,调整的二阶段适应性群团抽样(Muttlak 2002),总体N200用不放回SRS抽取12个样方单元(x)在最大的网络中随机抽取3个样方单元,其余11个小网络计数导出了无偏估计公式,逆的适应群团抽样(Inverse ACS)(Christman 2001)限制性ACS在稀少分布的总体抽样可能不能产生足够量的或大量的样本量(1)抽样前规定最初抽样单元n1中非零观察值的样本数量k2(2)如果最初抽样单元数量n1中不满足k2,则增加最初抽样单元数量,直至满足条件k停止导出了总体均值的估计公式,但是方差估计比较复杂,限制性逆的适应性群团抽样(Constrain Inverse ACS)(Rocco 2003)与IACS设计基本相似,不同是对2个非零观察值的处理方法(1)保留满足最后一个非零观察值的最终抽样样本量(2)拒绝满足最后一个非零观察值的最终抽样样本量,次序统计量和叫停规则的联合抽样设计(Su 2003)对抽样总体很难预先确定临界值,而临界值的大小直接影响最终抽样数量,因此为了获得抽样精度和抽样效率,Su et al(2003)在抽样设计中提出了偏差小的次序统计量(order statistics)方法来确定临界值。一般经常采用次序统计量方法来确定临界值,所以临界值大小随序列而确定,即临界值为Cy(n1-r),与最初ACS抽样技术事先确定的临界值不同。最初样本量为n1,抽样设计案例:单元数10个,y值给定,总体 283,平均数28.3,方差860.4556 随机抽取n1=3个单元(红色表示),最大是y(1)=99,取 标 准值为Cy(n1r)35,加y(1)相邻的单元,y55值大于y(2)35,y=55相邻处加y=12,因为y=12没有超过y(2)35,则停止,二阶段序贯适应性群团抽样(Two-stage Sequential Sampling)(Salehi et al.2005)为了避免选择过多且不能提高估计精度的边缘单元,总体单元N200标准值10提出了估计方法这种设计比传统的适应性群团抽样设计效率更高,二阶段序贯抽样(Salehi and Smith 2005 JABES),将总体分成8个一级单元(PSU);在总体中SRS抽取4个PSU;在每个PSU抽取2个最初单元;满足标准值C10,则在PSU中随机抽取4个附加单元(additional units);没有边缘单元,讨论(1)ACS适于群团和稀少分布的总体(2)当调查稀少群团分布总体,ACS可能更有效(3)ACS抽样效率取决于空间分布,最终抽样样本量是随机性的(4)对于聚集分布种的调查,ACS可以提高观察量(5)ACS抽样技术是一个很活跃和具有挑战性的研究领域,调查内容和样地设计(1)调查内容:非木质资源的分布、产量和成熟期(2)抽样调查方法(基本设计和抽样设计)基本设计抽样单元的位置主观确定,随机抽样样本单元大小(plot size)样本单元形状(plot shape)方形、长方形、圆形、条形和线形,样本数量(plot number)抽样设计抽样单元布置简单随机抽样,系统抽样,分层抽样,二阶段抽样,带状抽样,线样抽样,点抽样(无样地抽样),3P抽样,群团抽样,适应性群团抽样(3)估计方法不同抽样设计有不同的估计方法,系统线样抽样(取线样部分或全部),Thank you!,