【教学课件】第十三章简单线性回归分析.ppt
第十三章簡單線性迴歸分析-1,Simple Linear Regression-1,學習目標,1.簡單線性迴歸模型的描述2.最小平方法的觀念與應用3.簡單迴歸模型參數之估計4.反應變數(y)的估計及預測5.電腦使用及報表的解讀,模型的應用,1.探討兩個現象(變數)之間的線性關係2.以數學函數之形式或者另外加上機率分配觀念來表示該模型3.可延伸於探討兩種以上變數之間的關連4.常見形式數學確定模型(deterministic models)機率模型(probabilistic models),確定模型Deterministic Models,1.兩個變數之間有確定關係之假設2.無任何預測上的誤差3.例如:NT$=30.7(匯率)*US$或y=rx,A touch down is a touch!,1英吋=2.54公分1英鎊=0.45359公斤65 mpg=104.61 km/hr,機率模型Probabilistic Models,1.真實生活中極大部分之現象無法以確定模型解釋(同樣30坪房子會有不同售價)2.將可以直接觀測到的兩個變數之間關係中分成兩部份確定部份30坪房屋平均售價隨機誤差部份真正和平均售價差額2.例如:銷售額 10*廣告花費+隨機誤差Y=10X+e隨機誤差代表,除了廣告花費以外,所有尚未納入模型的相關因素(例如商店地點、店面規模),各種類的機率模型,機率模型,迴歸模型,相關模型,其他模型,各種類相關的機率模型,Positive Linear Relationship,Negative Linear Relationship,Relationship NOT Linear,No Relationship,簡單迴歸模型 Simple Regression Models,1.能夠建立兩個變數之間的關係2.使用線性函數方式表達f(x)=y=b+m x+y代表一個反應變數(response variable銷售額)即是被預測的因應變數(dependent)x代表一個獨立變數(independent variables)3.該模型常被使用來估計或預測反應變數,簡單迴歸模型應用 Simple Regression Models,1.身高與體重的關係房屋售價與房屋大小(坪數)的關係銷售額與呈列架位的關係微積分與統計學成績之間的關聯公務員薪資與年資間的關係汽車重量與耗油量間的關連,簡單迴歸模型應用資料,見檔案 資料一.XLS,簡單迴歸模型應用繪圖1,簡單迴歸模型應用繪圖2,簡單迴歸模型使用時的步驟,1.事先決定反應變數與獨立變數間的模式2.估計模式的參數3.模式中誤差項的機率分配之描述估計誤差項的變異情形4.評估模式5.利用模式做估計或預測工作,F,建立所使用的模型,1.定義模型中所包含的兩個變數獨立變數(可自主變動不受其他因素的影響而改變其值)反應變數(受到獨立變數的影響而改變其值者)2.根據變數間的關係建立假設之方程式預期的影響(諸如:正或負相關,係數為何)函數形式(線性linear或非線性non-linear),使用模型的確定,1.根據自然的道理與原則2.使用數學的定理或理論3.根據過去研究所得一般人的常識根據經驗或直覺,想一想何種模型較為合適呢?,常見的各類迴歸模型,迴歸模型,簡單迴歸,複迴歸,線性,線性,非線性,非線性,單一解釋變數,兩個以上解釋變數,簡單線性關係方程式Linear Equations,斜率,截距,線性關係範例1,每增加5個單位時,增加3個單位,線性方程式:Y=3+3/5 x,線性關係範例1圖形,線性方程式:Y=3+3/5 x,每增加5個單位時,增加3個單位,線性關係範例練習1,當=20時,3+3/5*20=3+12=15,線性方程式:Y=3+3/5 x,15,Y,X,i,i,i,=,+,+,b,b,e,0,1,簡單線性迴歸模型,1.獨立變數和反應變數之間為線性關係,因變數(Dependent response variable),自變數(Independent,explanatory variable),斜率參數slope,截距參數 Y-intercept,隨機誤差Random error,簡單迴歸模型下的母體與樣本,假設母體關係:未知為參數,母體Population,隨機取樣Random Sample,J$,J$,L$,J$,K$,J$,K$,簡單線性迴歸模型,觀察值,觀察值,ei=隨機誤差 Random error,未取到的觀察值,ei=觀察到的誤差,觀察值,簡單線性迴歸模型取樣後結果Sample Linear Regression Model,迴歸模型的母數與表達,(continued),bo與b1為模型的母數(參數、Parameter),(有些課本表為bo)與,(有些課本表為b1),則為相對應的估計(統計),為 bo之估計,為 b1之估計,迴歸模型使用時的步驟Regression Modeling Steps,1.事先決定反應變數與獨立變數間的模式2.估計模式的參數3.模式中誤差項的機率分配之描述估計誤差項的變異情形4.評估模式5.利用模式做估計或預測工作,F,迴歸範例解說,假設某成對資料(,)如右表所示:,0,20,40,60,0,20,40,60,X,Y,散布圖 Scatter Plot,1.將所有的樣本點數對(Xi,Yi)繪於圖上2.可看出兩者間的關連及模型的趨勢及適切性,動動腦想一想,如何繪出一條直線使所有的點都很靠近此條直線呢?又如何決定你所繪出的線相對來看是最好的呢?,動動腦想一想,如下所繪出的直線使所有的點都很靠近此條直線。你覺得如何呢?是否還可以有更好的線呢?,動動腦想一想,如下所繪出的直線使所有的點都很靠近此條直線。你又覺得如何呢?是否還可以有更好的線呢?,動動腦想一想,如下所繪出的直線使所有的點都很靠近此條直線。你又覺得如何呢?是否還可以有更好的線呢?,動動腦想一想,如下所繪出的直線使所有的點都很靠近此條直線。你又覺得如何呢?是否還可以有更好的線呢?,動動腦想一想,如下所繪出的直線使所有的點都很靠近此條直線。你又覺得如何呢?是否還可以有更好的線呢?,動動腦想一想,讓你來動動手做做看,找出最佳的直線,並試著決定你所繪出的線是否相對來看是最好的呢?,各種預估直線的比較1,各種預估直線的比較2,使用電腦來作實驗,打開書後光碟找到檔案:ContentVisual Explorations選取:VisualExplorationsSimple Linear Regression調整斜率、調整截距找到最佳的誤差平方和並比較解答。,最小平方法的圖形表達Least Squares Method Graphically,e,2,Y,X,e,1,e,3,e,4,LS即為使得,最小,最小平方法Least Squares Method,1.最適切 表示觀察值與預估值間的差異為最小但是差異有正有負會互相抵消因此選擇誤差的平方和作為依據較佳2.最小平方法即為使得誤差平方和(SSE)為最小,最小平方法的求解過程1,如何使得變異量平方最小呢?,可以使用偏微分,分別讓方程式對,及,取偏微分,並使結果為0,最小平方法的求解過程2,取偏微分,並使結果為0,簡化後得到:,讓方程式對,最小平方法的求解過程3,取偏微分,並使結果為0,簡化後得到:,讓方程式對,最小平方法的求解過程4,求解聯立方程式並解得,上第一方程式乘以,並代入下第二個方程式消去,並簡化得到:,及,方程式各係數的求解,方程式斜率的估計,方程式截距的估計,預估方程式,註:必在迴歸線上,計算係數常用的表Computation Table,計算係數常用的公式,註:必在迴歸線上,Excel計算係數之步驟,再接下來計算SSx SSy Ssxy,計算出 5組總和:,Sx,Sy,Sxy,Sx2,Sy2,先計算,再計算,打開檔案,Excel計算係數實例,打開檔案:資料二,計算SSx=1835.714,SSy=3400,SSxy=1850,5組總和:,Sx=185,Sy=210,Sxy=7400,Sx2=6725,Sy2=9700,先計算,再計算,=1850/1835.714=1.008,=210/7-1.008*185/7=3.366,參數的估計範例,你是銘傳熊寶寶的行銷分析人員根據過去所花廣告費用與實際銷售量間的關係如下:廣告費(千元)用銷售量(千個)1121324254廣告費用與銷售量間的關係為何?,銷售量對廣告費的散布圖Scattergram Sales vs.Advertising,銷售量,廣告花費,參數估算用總結表,Excel計算係數實例,打開檔案:銷售與廣告,SSx=55-15*15/5=10,SSy=26-10*10/5=6,SSxy=37-15*10/5=7,5組總和:,Sx=15,Sy=10,Sxy=37,Sx2=55,Sy2=26,先計算,再計算,=7/10=0.7,=10/5-0.7*15/5=-0.1,參數的估計與求解,所得到迴歸係數的解釋Coefficient Interpretation Solution,1.斜率Slope(b1)每增加一單位(千元)的廣告費(X)使得期望銷售量(E(Y)增加0.7(千個)2.截距Y-Intercept(b0)如未有任何的廣告費用(X=0)則銷售量(Y)預期有-.10(千個)如此說法很難說服行銷經理如無廣告仍應有些許的銷售量,Parameter Estimates Parameter Standard T for H0:Variable DF Estimate Error Param=0 Prob|T|INTERCEP 1-0.1000 0.6350-0.157 0.8849ADVERT 1 0.7000 0.1914 3.656 0.0354,電腦所得到參數的結果Computer Output,參數的估計範例,你是農業經濟專家,欲了解鄉村間實際生產與相關因素間的關連情形,而得到下列的資料:使用肥料(lb.)生產量(lb.)43.0 65.5106.5129.0請說明使用肥料與生產量間的關連為何?,生產量與肥料使用間的散布圖Scattergram Crop Yield vs.Fertilizer,生產量(lb.),肥料使用(lb.),估計參數使用的總結表,Excel計算係數實例,打開檔案:產量與肥料,SSx=詳見試算表,SSy=詳見試算表,SSxy=詳見試算表,5組總和:,詳見試算表,先計算,再計算,詳見試算表,詳見試算表,參數的估計與求解,所得到迴歸係數的解釋Coefficient Interpretation Solution,1.斜率Slope(b1)每增加1 lb的肥料量(X)將使得生產量(Y)提升.65 磅(lb).2.截距Y-Intercept(b0)當並無使用任何肥料(X)時期望的平均生產量0.8磅(lb).,簡單迴歸範例3,You want to examine the linear dependency of the annual sales of produce stores on their size in square footage.Sample data for seven stores were obtained.Find the equation of the straight line that fits the data best.,Annual Store Square Sales Feet($1000)1 1,726 3,681 2 1,542 3,395 3 2,816 6,653 4 5,555 9,543 5 1,292 3,318 6 2,208 5,563 7 1,313 3,760,迴歸範例3-散佈圖,Excel Output,迴歸範例3-迴歸方程式,From Excel Printout:,迴歸範例3-散佈圖含迴歸直線,Yi=1636.415+1.487Xi,迴歸範例3-範例解說,所得到的預估斜率1.487表示,當每增加1個單位時,平均會隨之增加 1.487個單位。,模型告訴我們,每當店面增大1平方英尺,則每年平均期望銷售業績將隨著增加約1487美元。The model estimates that for each increase of one square foot in the size of the store,the expected annual sales are predicted to increase by$1487.,使用PHStat解範例4題目,某大型連鎖超商業務部經理,想了解商品呈列架位數與銷售額間的影響關聯。於是隨機抽取了連鎖店中架位數相當的12家店。並記錄了此12家店中寵物食物部門實際所佔架位數以及每週平均銷售額。資料如檔案Petfood所示:,使用PHStat解範例4,繪出與散布圖估計迴歸直線之截距與斜率解說其意義若有一家店的架位數為10的話,請估計其業績sales將第12家店之業績sales改為2.6重新作1-4部份,並比較結果,使用PHStat解範例4,In excel,use PHStat|regression|simple linear regression EXCEL spreadsheet of regression sales on Petfood(496頁,習題13.3),使用PHStat解範例5題目,某大型連鎖店物流部經理,想了解包裹運送業績與擁有顧客數間的關聯。以作為營業額估計的依據,於是隨機抽取了連鎖物流店中的20家店。並記錄了此20家店的顧客人數以及每週銷售額。資料如檔案Package所示:,使用PHStat解範例5,繪出與散布圖估計迴歸直線之截距與斜率解說其意義若有一家店的顧客數為600請估計該店的平均業績。若有第19家店的顧客數為14.77的話,請重估計其業績sales,並比較1-4部份的結果,使用PHStat解範例5,In excel,use PHStat|regression|simple linear regression EXCEL spreadsheet of regression sales on Petfood(496頁,習題13.4),今日課程複習,1.簡單線性迴歸模型的描述2.最小平方法的觀念與應用3.簡單迴歸模型參數之估計,測驗與解答1,The least squares method minimizes which of the following?a)SSRb)SSEc)SSTd)All of the above,單選題:,ANSWER:b,測驗與解答2,The Y-intercept(b0)represents thea)predicted value of Y when X=0.b)change in Y per unit change in X.c)predicted value of Y.d)variation around the line of regression.,單選題:,ANSWER:a,測驗與解答3,The slope(b1)representsa)predicted value of Y when X=0.b)the average change in Y per unit change in X.c)the predicted value of Y.d)variation around the line of regression.,單選題:,ANSWER:b,測驗與解答4,In performing a regression analysis involving two numerical variables,we are assuminga)the variances of X and Y are equal.b)the variation around the line of regression is the same for each X value.c)that X and Y are independent.d)all of the above.,單選題:,ANSWER:b,測驗與解答5,The residuals representa)the difference between the actual Y values and the mean of Y.b)the difference between the actual Y values and the predicted Y values.c)the square root of the slope.d)the predicted value of Y for the average X value.,單選題:,ANSWER:b,測驗與解答6,Which of the following assumptions concerning the probability distribution of the random error term is stated incorrectly?a)The distribution is normal.b)The mean of the distribution is 0.c)The variance of the distribution increases as X increases.d)The errors are independent.,單選題:,ANSWER:c,綜合測驗與解答,TABLE 16-3The director of cooperative education at a state college wants to examine the effect of cooperative education job experience on marketability in the work place.She takes a random sample of four students.For these four,she finds out how many times each had a cooperative education job and how many job offers they received upon graduation.These data are presented in the table below.,綜合測驗與解答1,Referring to Table 16-3,set up a scatter diagram.,ANSWER,綜合測驗與解答2,the least squares estimate of the slope is _.the least squares estimate of the Y-intercept is _.the prediction for the number of job offers for a person with 2 Coop jobs is _.the total sum of squares(SST)is _.,填充題:,ANSWER:2.50,ANSWER:1.00,ANSWER:6.00,ANSWER:13.00,