資源簡介 第八章 知識點清單目錄第八章 成對數(shù)據(jù)的統(tǒng)計分析8. 1 成對數(shù)據(jù)的相關(guān)關(guān)系8. 2 一元線性回歸模型及其應(yīng)用8. 3 分類變量與列聯(lián)表第八章 成對數(shù)據(jù)的統(tǒng)計分析8. 1 成對數(shù)據(jù)的相關(guān)關(guān)系一、變量的相關(guān)關(guān)系1. 相關(guān)關(guān)系:兩個變量有關(guān)系,但又沒有確切到可由其中的一個去精確地決定另一個的程度,這種關(guān)系稱為相關(guān)關(guān)系.2. 散點圖:將成對樣本數(shù)據(jù)用直角坐標(biāo)系中的點表示出來,由這些點組成的統(tǒng)計圖就叫做散點圖.3. 正相關(guān)與負(fù)相關(guān):從整體上看,當(dāng)一個變量的值增加時,另一個變量的相應(yīng)值也呈現(xiàn)增加的趨勢,就稱這兩個變量正相關(guān);當(dāng)一個變量的值增加時,另一個變量的相應(yīng)值呈現(xiàn)減小的趨勢,就稱這兩個變量負(fù)相關(guān).4. 線性相關(guān):一般地,如果兩個變量的取值呈現(xiàn)正相關(guān)或負(fù)相關(guān),而且散點落在一條直線附近,就稱這兩個變量線性相關(guān).5. 非線性相關(guān):一般地,如果兩個變量具有相關(guān)性,但不是線性相關(guān),就稱這兩個變量非線性相關(guān)或曲線相關(guān).二、樣本相關(guān)系數(shù)1. 樣本相關(guān)系數(shù):r= ,r為變量x和變量y的樣本相關(guān)系數(shù),有時也稱樣本線性相關(guān)系數(shù).2. 樣本相關(guān)系數(shù)r的特征(1)r∈[-1,1].(2)當(dāng)r>0時,稱成對樣本數(shù)據(jù)正相關(guān);當(dāng)r<0時,稱成對樣本數(shù)據(jù)負(fù)相關(guān).(3)當(dāng)|r|越接近1時,成對樣本數(shù)據(jù)的線性相關(guān)程度越強;當(dāng)|r|越接近0時,成對樣本數(shù)據(jù)的線性相關(guān)程度越弱.2. 樣本相關(guān)系數(shù)r是一個描述成對樣本數(shù)據(jù)的數(shù)字特征,它的正負(fù)性可以反映成對樣本數(shù)據(jù)的變化特征.三、兩個變量相關(guān)性的判斷1. 利用散點圖判斷兩個變量的相關(guān)性(1)作兩個變量的散點圖,可觀察它們的相關(guān)性.(2)若散點從左至右呈上升趨勢,則這兩個變量正相關(guān);若散點從左至右呈下降趨勢,則這兩個變量負(fù)相關(guān);若散點毫無規(guī)律,則這兩個變量無相關(guān)關(guān)系;若散點大致分布在一條直線附近,則這兩個變量線性相關(guān),否則沒有線性相關(guān)關(guān)系.2. 利用樣本相關(guān)系數(shù)判斷兩個變量相關(guān)性的強弱樣本相關(guān)系數(shù)r是從數(shù)值上來判斷變量間的線性相關(guān)程度的量,是定量分析法.|r|刻畫了樣本點集中于某條直線的程度.|r|越接近1,散點圖中的樣本點分布越接近一條直線,兩個變量的線性相關(guān)程度越強.8. 2 一元線性回歸模型及其應(yīng)用一、一元線性回歸模型1. 把式子稱為Y關(guān)于x的一元線性回歸模型. 其中,Y稱為因變量或響應(yīng)變量, x稱為自變量或解釋變量;a和b為模型的未知參數(shù),a稱為截距參數(shù),b稱為斜率參數(shù);e是Y與bx+a之間的隨機誤差. 如果e=0,那么Y與x之間的關(guān)系就可用一元線性函數(shù)模型來描述.二、經(jīng)驗回歸方程與最小二乘法1. 設(shè)滿足一元線性回歸模型的兩個變量的n對樣本數(shù)據(jù)為(xi,yi)(i=1,2,…,n),通常用各散點到直線y=bx+a的豎直距離的平方之和Q= 來刻畫各樣本觀測數(shù)據(jù)與該直線的“整體接近程度”.(1)當(dāng)a,b的取值為 時,Q達(dá)到最小.(2)將=x+稱為Y關(guān)于x的經(jīng)驗回歸方程,也稱經(jīng)驗回歸函數(shù)或經(jīng)驗回歸公式,其圖形稱為經(jīng)驗回歸直線. 這種求經(jīng)驗回歸方程的方法叫做最小二乘法,求得的, 叫做b,a的最小二乘估計.三、殘差分析1. 對于響應(yīng)變量Y,通過觀測得到的數(shù)據(jù)稱為觀測值,通過經(jīng)驗回歸方程得到的稱為預(yù)測值,觀測值減去預(yù)測值稱為殘差. 殘差是隨機誤差的估計結(jié)果,通過對殘差的分析可以判斷模型刻畫數(shù)據(jù)的效果,以及判斷原始數(shù)據(jù)中是否存在可疑數(shù)據(jù)等,這方面工作稱為殘差分析.四、回歸模型擬合效果的檢驗1. 刻畫回歸效果的方式(1)殘差圖法作圖時以殘差為縱坐標(biāo),橫坐標(biāo)可以選為樣本編號,或身高數(shù)據(jù),或體重估計值等,這樣作出的圖形稱為殘差圖. 在殘差圖中,殘差點比較均勻地落在以橫軸為對稱軸的水平的帶狀區(qū)域中,說明選用的模型比較合適,這樣的帶狀區(qū)域的寬度越窄,說明模型擬合精度越高.(2)殘差平方和法:殘差平方和為 (yi-)2,殘差平方和越小,模型擬合效果越好.(3)決定系數(shù)R2法:R2=1-.R2越大,殘差平方和越小,即模型的擬合效果越好;R2越小,殘差平方和越大,即模型的擬合效果越差.五、經(jīng)驗回歸方程的求解與應(yīng)用1. 利用經(jīng)驗回歸方程可以對總體進行預(yù)測和估計,經(jīng)驗回歸方程將部分觀測值所反應(yīng)的規(guī)律進行延伸,從而成為我們對有線性相關(guān)關(guān)系的兩個變量進行分析和控制、依據(jù)自變量的取值估計和預(yù)報因變量值的基礎(chǔ)和依據(jù). 解決此類問題的步驟:(1)畫出成對樣本數(shù)據(jù)的散點圖;(2)按照求經(jīng)驗回歸方程的步驟和公式,寫出經(jīng)驗回歸方程;(3)利用經(jīng)驗回歸方程進行分析,分析過程中注意函數(shù)思想的應(yīng)用.六、非線性回歸分析1. 研究兩個變量的關(guān)系時,依據(jù)樣本畫出散點圖,從整體上看,如果樣本點沒有分布在某個帶狀區(qū)域內(nèi),就稱這兩個變量之間不具有線性相關(guān)關(guān)系. 當(dāng)兩個變量不具有線性相關(guān)關(guān)系時,依據(jù)樣本點的分布選擇合適的曲線方程來擬合數(shù)據(jù),可通過變量代換,利用一元線性回歸模型建立兩個變量間的非線性經(jīng)驗回歸方程.2. 常見的非線性經(jīng)驗回歸方程的轉(zhuǎn)換方式如表所示:曲線方程 曲線(曲線的一部分) 變換公式 變換后的線性函數(shù)y=axb c=ln a,v=ln x, u=ln y u=c+bvy=aebx c=ln a,u=ln y u=c+bxy=a c=ln a,v=, u=ln y u=c+bvy=a+bln x v=ln x y=a+bv3. 建立非線性回歸模型的基本步驟(1)確定研究對象,明確涉及的變量;(2)畫出確定好的變量間的散點圖,觀察它們之間的關(guān)系(是否存在非線性關(guān)系);(3)由經(jīng)驗確定非線性經(jīng)驗回歸方程的類型(如我們觀察到數(shù)據(jù)有非線性關(guān)系,一般選用反比例函數(shù)型、指數(shù)函數(shù)型、對數(shù)函數(shù)型模型等);(4)通過換元,將非線性回歸模型轉(zhuǎn)化為一元線性回歸模型;(5)按照公式計算經(jīng)驗回歸方程中的參數(shù),得到經(jīng)驗回歸方程;(6)消去新元,得到非線性經(jīng)驗回歸方程.8. 3 分類變量與列聯(lián)表一、分類變量與列聯(lián)表1. 分類變量:為了表述方便,我們經(jīng)常會使用一種特殊的隨機變量,以區(qū)別不同的現(xiàn)象或性質(zhì),這類隨機變量稱為分類變量. 分類變量的取值可以用實數(shù)表示.2. 2× 2列聯(lián)表假設(shè)兩個分類變量X和Y,它們的可能取值分別為{x1,x2}和{y1,y2},其2×2列聯(lián)表為X Y 合計y1 y2x1 a b a+bx2 c d c+d合計 a+c b+d a+b+c+d 2×2列聯(lián)表給出了成對分類變量數(shù)據(jù)的交叉分類頻數(shù).3. 兩個分類變量之間關(guān)聯(lián)關(guān)系的定性分析方法(1)頻率分析法:通過對樣本的每個分類變量的不同類別事件發(fā)生的頻率大小進行比較來分析分類變量之間是否有關(guān)聯(lián)關(guān)系. 通常通過列聯(lián)表列出兩個分類變量的頻數(shù)表來進行分析.(2)圖形分析法:與表格相比,圖形更能直觀地反映兩個分類變量間是否互相影響,常用等高堆積條形圖展示列聯(lián)表中數(shù)據(jù)的頻率特征.二、獨立性檢驗1. 假定通過簡單隨機抽樣得到了X和Y的抽樣數(shù)據(jù)列聯(lián)表,如表所示.X Y 合計Y=0 Y=1X=0 a B a+bX=1 c d c+d合計 a+c b+d n=a+b+c+d 則χ2=.2. 利用χ2的取值推斷分類變量X和Y是否獨立的方法稱為χ2獨立性檢驗,讀作“卡方獨立性檢驗”,簡稱獨立性檢驗.3. χ2獨立性檢驗中5個常用的小概率值和相應(yīng)的臨界值如下表所示.α 0. 1 0. 05 0. 01 0. 005 0. 001xα 2. 706 3. 841 6. 635 7. 879 10. 828獨立性檢驗的實質(zhì)是檢驗兩個分類變量是否相關(guān)及相關(guān)的程度有多大,其應(yīng)用過程如下: 根據(jù)觀測數(shù)據(jù)計算出χ2的值,其值越大,說明“X與Y有關(guān)系”成立的可能性越大,在假設(shè)X與Y沒有關(guān)系的前提下,可以通過查閱臨界值表得到P(χ2≥xα),從而得到兩變量相關(guān)的程度.三、由χ2進行獨立性檢驗1. 應(yīng)用獨立性檢驗解決實際問題大致應(yīng)包括以下幾個主要環(huán)節(jié):(1)提出零假設(shè)H0:分類變量X和Y相互獨立,并給出在問題中的解釋;(2)根據(jù)抽樣數(shù)據(jù)整理出2×2列聯(lián)表,計算χ2的值,并與臨界值xα比較;(3)根據(jù)檢驗規(guī)則得出推斷結(jié)論;(4)在X和Y不獨立的情況下,根據(jù)需要,通過比較相應(yīng)的頻率,分析X和Y間的影響規(guī)律.【注】上述幾個環(huán)節(jié)的內(nèi)容可以根據(jù)不同情況進行調(diào)整. 例如,在有些時候,分類變量的抽樣數(shù)據(jù)列聯(lián)表是問題中給定的.四、獨立性檢驗與統(tǒng)計、概率的綜合應(yīng)用1. 通過頻率分布直方圖的統(tǒng)計功能完善2×2列聯(lián)表,從而對事件進行獨立性檢驗,準(zhǔn)確讀取頻率分布直方圖中的數(shù)據(jù),進行分組統(tǒng)計是解題的關(guān)鍵. 解決獨立性檢驗的問題要注意明確兩類主體,明確研究的兩類問題,再就是準(zhǔn)確列出2×2列聯(lián)表,準(zhǔn)確計算χ2. 在寫出2×2列聯(lián)表中a,b,c,d的值時,注意一定要按順序. 展開更多...... 收起↑ 資源預(yù)覽 縮略圖、資源來源于二一教育資源庫