描述统计的原理与应用教学课件PPT量化研究与统计分析.ppt
第八章 描述統計,1/31,第八章描述統計的原理與應用,Data Graphing,第八章 描述統計,2/31,課程目標,介紹描述統計的原理瞭解集中量數的特性與各量數瞭解變異量數的特性與各量數瞭解相對量數的特性與各量數瞭解標準分數的特性與各量數熟習描述統計的SPSS運作,第八章 描述統計,3/31,描述統計,描述統計的定義一套用以整理、描述、解釋資料的系統方法與統計技術數據從初始狀態(raw data)成為可被理解的統計量數(statistic)的一套操作程序透過統計量數來描述大量資料,並作為彼此溝通的共同符號語言,第一節,第八章 描述統計,4/31,集中量數,集中量數(measures of central location)用以描述一組數據或一個分配集中點的統計量數一個能夠描述數據的共同落點的指標。常用的集中量數有平均數、中位數及眾數,第一節,第八章 描述統計,5/31,平均數,平均數(mean;以M表示)取某一變項的所有數值的總和除以觀察值個數所得到的值因為是將數據直接以數學算式來計算平均值,又稱為算術平均數(arithmetic mean)。母體資料得出的平均數需以希臘字表示,第一節,第八章 描述統計,6/31,中位數,中位數(median;或以Mdn表示)又稱為中數、百分等級為50的百分位數(P50)或第二四分位數(Q2;second quartile)。將某一個變項的數據依大至小或由小至大排列,取位居最中間、或能夠均勻對分全體觀察值的分數在中位數之上與之下,各有50%的觀察值。,50、55、60、60、60、65、66、70、90,50、55、60、60、60、65、66、70、90、95,62.5,第一節,第八章 描述統計,7/31,眾數,眾數(mode;或以Mo表示)一組分數中,出現次數最多的一個分數一組數據中最典型(typical)的數值或次數分配最高點所對應的分數是各集中量數當中,最容易辨認的量數一個分配有兩個分數具有相同的最高次數,此時即出現了雙眾數,稱為雙峰分配(bimodal distribution),50、55、60、60、60、65、66、70、90,第一節,第八章 描述統計,8/31,集中量數的特性與優缺點比較,第一節,第八章 描述統計,9/31,三種集中量數與分配形狀的關係,第一節,第八章 描述統計,10/31,變異量數,變異量數(measures of variation)或離散量數用來描述觀察值在某一個變項上的分數分散情形的統計量描述統計中,集中量數必須搭配變異量數,才能反應一組數據的分佈特徵常用的變異量數包括全距、四分差、變異數及標準差,第二節,第八章 描述統計,11/31,全距,全距(range)一組分數中最大值(Xmax)與最小值(Xmin)之差是一群分數變異情形最粗略的指標全距容易計算,適用性高,可以應用在名義變項與順序變項,來求出變項當中類別的多寡。缺點是不精確也不穩定,無法反應一個分配的每個數值的狀態。,第二節,第八章 描述統計,12/31,四分差,四分差(semi-interquartile range;QR)是一組數據當中的第三四分位數(區隔高分端的前25%的分數,簡稱Q3)與第一四分位數(區隔低分端的後25%的分數,簡稱Q1)距離的一半中間百分之五十的樣本分數差距的二分之一,第二節,第八章 描述統計,13/31,離均差與平方和,離均差一組數據中,各分數與平均數的距離,通常以小寫的x來表示當離均差為正值時,表示分數落在平均數的右方離均差為負值時,表示分數落在平均數的左方平均數是每一個分數加總後的平均值,為一組分數的重心位置離均差平方和(sum of squares;SS)SS的概念可以類比為面積的概念,表示分數與平均數變異的面積和,deviation score=x=(X-),第二節,第八章 描述統計,14/31,變異數與標準差,變異數平均化的離均差平方和 標準差變異數的開方,以表示。標準差或變異數越大者,表示該分配的變異情形較大。,第二節,第八章 描述統計,15/31,變異數的不偏估計數,標準差與變異數的不偏估計數的主要差別在於分母項為N-1而非原來的N N-1稱為自由度(degree of freedom;df),表示一組分數當中,可以自由變動的分數的個數。在離均差的計算上,自由度為樣本數減1,表示在N個觀察值中,只有N-1個數字可以自由運用於離均差的計算。,第二節,第八章 描述統計,16/31,變異量數的特性與優缺點比較,第二節,第八章 描述統計,17/31,偏態(Skewness),描述一個變項的對稱性(symmetry)的量數稱為偏態係數 不對稱的資料稱為偏態資料,依其方向可分為負偏(negatively skewed)(或左偏,即左側具有偏離值)、正偏(positively skewed)(或右偏,即右側具有偏離值)與對稱(symmetrical)三種情形,第三節,第八章 描述統計,18/31,地板與天花板效應,地板效應(floor effect)指數據多數集中在偏低的一端,但在高分端則有極端值,分數不容易突破低分端,但會往高分端延伸,彷彿有一個地板(或真的存在一個低分限制條件)阻擋了數據往低分移動。由於地板阻隔作用,地板效應常伴隨正偏態現象。天花板效應(ceiling effect)則與負偏態有關,是指數據多數集中在偏高的一端,但在低分端則有極端值,分數不容易突破高分端,彷彿有一個天花板(或真的存在一個高分限制條件)阻擋了數據往高分移動。,第三節,第八章 描述統計,19/31,峰度(Kurtosis),是指一個次數分配集中部份的陡峭程度。兩個分配都是對稱的單峰鐘型曲線時,並不一定具有一樣的平坦或陡峭形態(峰度)。一個對稱的鐘型分配,變項的數值會集中於眾數所在位置,如果集中於眾數附近的分數多,分散於兩側的分數少,將形成高狹峰(leptokurtic)的分配當集中於眾數附近的分數較少,兩側分數多,則形成低闊峰(platykurtic)。在常態分配時的理想峰度稱為常態峰(mesokurtic)。,第三節,第八章 描述統計,20/31,偏態與峰度係數的特性,偏態與峰度係數是一種標準分數的概念,因此不受分配變異程度的影響而可相互比較 偏態與峰度係數具有標準分數的特性,因此均以0為常態值,也就是說,當偏態與峰度係數為0或接近0之時,次數分配可以說是一個對稱、不偏的常態峰分配 偏態與峰度係數在正負0.5到1之間是為偏態或特殊峰度,超過正負1的偏態與特殊峰度情況即屬嚴重。嚴重的偏態與峰度會影響統計分析的運用。,第三節,第八章 描述統計,21/31,偏態與峰度係數的統計考驗,檢定原理求出偏態與峰度係數係數可利用Z考驗來判定統計顯著性Z值絕對值大於1.96時(設定為.05),即可推論S係數或K係數顯著不等於0,也就是變項呈現非常態,常態化假設遭到違反。,第三節,第八章 描述統計,22/31,相對量數,數據的解讀:絕對意義:由數值大小反應相對意義:需從相對比較,甚至於進行變項數據的標準化,才能對於數據的意義進行正確解讀。相對量數或相對地位量數(measures of relative position)描述個別觀察值在團體中所在相對位置的統計量 將某特定觀察值在樣本中所處的位置,以其他分數進行參照,計算出觀察值在該變項上分數的團體地位(位置)常用的相對量數包括百分等級,百分位數,標準分數,第四節,第八章 描述統計,23/31,百分等級與百分位數,百分等級(percentile rank;PR)係指觀察值在變項上的分數在團體中所在的等級在一百個人中,該分數可以排在第幾個等級。例如PR50代表某一個分數在團體中可以勝過50的人,他的分數也恰好是中位數。百分位數(percentile point;Pp)係指在樣本中位居某一個等級的觀察值之分數若想在一百個人的樣本中贏過多少百分之多少的人,則他的分數必須得到多少分例如中位數為60分時,表示有50的人比60分還低,此時我們可以說第50百分位數為60分,以P50=60表示之。兩者的數學關係百分等級是將原始分數轉化為等級(百分比)百分位數則是由某一等級來推算原始分數,第四節,第八章 描述統計,24/31,百分等級與百分位數的計算,樣本數少時將資料依序排列,算出累積百分比,即可對應出每一分數的百分等級亦可從百分等級推算出各特定百分位數樣本數大時百分等級的計算必須以分組資料的方式來整理資料百分等級的換算,必須以公式來計算之,第四節,第八章 描述統計,25/31,標準分數,標準分數(standard scores)利用線性轉換的原理,將一組數據轉換成不具有實質的單位與集中性的標準化分數。不同的標準分數,其共通點是利用一個線性方程式y=bx+a進行集中點的平移與重新單位化,使得不同量尺與不同變項的測量數據具有相同的單位與相同的集中點,因此得以相互比較。常用的標準分數Z分數T分數(T=10Z+50)SAT考試(Scholastic Assessment Test)(SAT=100Z+500)比西測驗IQ分數(平均數為100,標準差為16的標準分數)(IQ=16Z+100),魏氏智力測驗為15Z+100,第五節,第八章 描述統計,26/31,Z分數,定義指原始分數減去其平均數,再除以標準差後所得到的新分數表示該原始分數是落在平均數以上或以下幾個標準差的位置上 Z分數的特性任何一組數據經過Z公式轉換後,均具有平均數為0,標準差為1的特性Z分數可以作分配內與跨分配的比較。Z分數僅是將原始分數進行線性轉換,並未改變各分數的相對關係與距離,因此Z分數轉換並不會改變分配的形狀。,以母體資料為基礎時,以樣本資料為基礎時,第五節,第八章 描述統計,27/31,常態分配,常態分配(normal distribution)指一個隨機變項的觀察值,呈現對稱的鐘形曲線分配由德國數學家Gauss(Karl F.Gauss;1777-1855)所提出,因此又稱為高斯分配(Gaussian distribution)。,第五節,第八章 描述統計,28/31,常態分配的特性,常態曲線並沒有兩端點極限值當x=時,函數值f(x)達到最高點當x趨近無限大時,函數值f(x)則趨近為0機率分配常態曲線內的機率變化呈現數學規則分配內絕大多數的機率(99.7%)落於正負3個標準差之內一般來說,常態化的分配全距約為6個標準差反曲點(inflection points)距離平均數負一個標準差位置上,切線斜率由漸增轉為漸減在距離平均數正一個標準差位置上,切線斜率由漸減轉為漸增,第五節,第八章 描述統計,29/31,標準化常態分配與其應用,標準化常態分配(standard normal distribution)某一變項的觀察值呈現常態分配,經轉換後的Z分數所形成的分配稱之常態分配的變數X已經不是原始分數,而是Z分數 Z分數是距離平均數幾個標準差的量數,不同的Z值,即代表距離平均值多少個標準差,透過機率對照表,可以很快的查出Z值與機率間的關係 在常態分配中68.26%的觀察值落在Z值1個標準差)的區間內95.44%的觀察值會落在Z值2個標準差的區間內99.74的觀察值會落在Z=3個標準差的區間內,第五節,第八章 描述統計,30/31,T分數,定義將Z分數以下列線性轉換公式轉換成平均數50,標準差10的T分數T分數可改善z分數的缺點Z值多介於3之間,計算時多半帶有一至二位的小數點,加上低於平均數的Z分數帶有負號,實際使用上較為不便,T50+10Z,第五節,第八章 描述統計,31/31,Time for rest,Chapter 8 is done here.See you later!,