資源簡介 (共111張PPT)第八章<<<第1課時一元線性回歸模型及其參數的最小二乘估計1.了解最小二乘原理,掌握一元線性回歸模型參數的最小二乘估計方法,建立一元線性回歸模型進行預測.2.了解隨機誤差、殘差、殘差圖的概念.3.會通過殘差分析一元線性回歸模型的擬合效果.學習目標通過前面的學習我們已經知道,根據成對樣本數據的散點圖和樣本相關系數,可以推斷兩個變量是否存在相關關系、是正相關還是負相關,以及線性相關程度的強弱等,那么當兩個變量線性相關時,我們如何利用成對樣本數據建立統計模型進行預測?導 語一、一元線性回歸模型二、最小二乘法和經驗回歸方程課時對點練三、線性回歸分析隨堂演練內容索引一一元線性回歸模型生活經驗告訴我們,兒子的身高與父親的身高具有正相關的關系,為了進一步研究兩者之間的關系,有人調查了某所高校14名男大學生的身高及其父親的身高,得到的數據如表所示:我們畫出散點圖(課本105頁圖8.2-1)并通過計算得到樣本相關系數r≈0.886.編號 1 2 3 4 5 6 7父親身高/cm 174 170 173 169 182 172 180兒子身高/cm 176 176 170 170 185 176 178編號 8 9 10 11 12 13 14父親身高/cm 172 168 166 182 173 164 180兒子身高/cm 174 170 168 178 172 165 182由樣本相關系數可以得到什么結論?問題1提示 通過樣本相關系數可知兒子的身高與父親的身高正線性相關,且相關程度較高.這兩個變量之間的關系可以用函數模型來刻畫嗎?問題2提示 不能.因為這兩個變量之間不是函數關系,也就不能用函數模型刻畫.一元線性回歸模型:我們稱為Y關于x的________________模型,其中,Y稱為 或 ,x稱為 或;a和b為模型的未知參數,a稱為 參數,b稱為 參數;e是Y與bx+a之間的 .一元線性回歸因變量響應變量自變量解釋變量截距斜率隨機誤差 判斷下列變量間哪些能用函數模型刻畫,哪些能用回歸模型刻畫?(1)某公司的銷售收入和廣告支出;(2)某城市寫字樓的出租率和每平方米月租金;(3)航空公司的顧客投訴次數和航班正點率;(4)某地區的人均消費水平和人均國內生產總值(GDP);(5)學生期末考試成績和考前用于復習的時間;(6)一輛汽車在某段路程中的行駛速度和行駛時間;(7)正方形的面積與周長.例 1(1)(2)(3)(4)(5)回歸模型,(6)(7)函數模型.在函數關系中,變量X對應的是變量Y的確定值,而在相關關系中,變量X對應的是變量Y的概率分布.換句話說,相關關系是隨機變量之間或隨機變量與非隨機變量之間的一種數量依存關系,對于這種關系,通常運用統計方法進行研究.通過對相關關系的研究又可以總結規律,從而指導人們的生活與生活實踐.反思感悟若某地財政收入x與支出y滿足一元線性回歸模型y=bx+a+e(單位:億元), 其中b=0.7,a=3,|e|≤0.5,如果今年該地區財政收入為10億元,年支出預計不會超過A.9億元 B.9.5億元C.10億元 D.10.5億元√跟蹤訓練 1因為財政收入x與支出y滿足一元線性回歸模型y=bx+a+e,其中b=0.7,a=3,所以y=0.7x+3+e.當x=10時,得y=0.7×10+3+e=10+e,又|e|≤0.5,即-0.5≤e≤0.5,所以9.5≤y≤10.5,所以年支出預計不會超過10.5億元.二最小二乘法和經驗回歸方程提示 使表示成對樣本數據的這些散點在整體上與一條適當的直線盡可能地接近.在一元線性回歸模型中,表達式Y=bx+a+e刻畫的是變量Y與x之間的線性相關關系,其中參數a和b未知,確定參數a和b的原則是什么?問題3最小二乘法:我們將=x+稱為Y關于x的 ,也稱經驗回歸函數或經驗回歸公式,其圖形稱為經驗回歸直線.這種求經驗回歸方程的方法叫做 ,求得的,叫做b,a的 ,經驗回歸方程其中==,=-.最小二乘法最小二乘估計經驗回歸直線=x+必過點(,).注 意 點<<< (1)某單位為了了解辦公樓用電量y(度)與氣溫x(℃)之間的關系,隨機統計了四個工作日的用電量與當天平均氣溫,并制作了對照表:例 2氣溫x(℃) 18 13 10 -1用電量y(度) 24 34 38 64由表中數據得到經驗回歸方程=-2x+,則當氣溫為-3 ℃時,預測用電量為A.68度 B.66度 C.28度 D.12度√由表中數據可知==10,==40,所以經驗回歸直線=-2x+過點(10,40),即40=-2×10+,得=60,則經驗回歸方程為=-2x+60,當x=-3時,=-2×(-3)+60=66.氣溫x(℃) 18 13 10 -1用電量y(度) 24 34 38 64(2)某商場為了迎接暑期旅游旺季,確定暑期營銷策略,進行了投入促銷費用x和商場實際銷售額y的試驗,得到如下四組數據.①畫出上述數據的散點圖,并據此判斷兩個變量是否具有較強的線性相關關系;投入促銷費用x(萬元) 2 3 5 6商場實際銷售額y(萬元) 100 200 300 400散點圖如圖所示.從散點圖上可以看出兩個變量具有較好的線性相關關系.②求出x,y之間的經驗回歸方程=x+;投入促銷費用x(萬元) 2 3 5 6商場實際銷售額y(萬元) 100 200 300 400參考公式:=,=-.因為==4,==250,xiyi=2×100+3×200+5×300+6×400=4 700,=22+32+52+62=74,所以===70,=-=250-70×4=-30.故所求的經驗回歸方程為=70x-30.投入促銷費用x(萬元) 2 3 5 6商場實際銷售額y(萬元) 100 200 300 400③若該商場計劃實際銷售額不低于600萬元,則至少要投入多少萬元的促銷費用?投入促銷費用x(萬元) 2 3 5 6商場實際銷售額y(萬元) 100 200 300 400由題意得70x-30≥600,即x≥=9,所以若該商場計劃實際銷售額不低于600萬元,則至少要投入9萬元的促銷費用.投入促銷費用x(萬元) 2 3 5 6商場實際銷售額y(萬元) 100 200 300 400反思感悟(1)算:計算,,, xiyi.(2)代:代入公式計算,的值.(3)寫:寫出經驗回歸方程.求經驗回歸方程的步驟 (1)若根據變量x與y的對應關系(如表),求得y關于x的經驗回歸方程為=6.5x+17.5,則表中m的值為跟蹤訓練 2x 2 4 5 6 8y 30 40 m 50 70A.60 B.55 C.50 D.45√由表中數據,得=×(2+4+5+6+8)=5,=×(30+40+m+50+70)=38+,因為經驗回歸直線=6.5x+17.5過點,所以38+=6.5×5+17.5,解得m=60.x 2 4 5 6 8y 30 40 m 50 70(2)重樓,中藥名,具有清熱解毒、消腫止痛、涼肝定驚之功效,具有極高的藥用價值.近年來,隨著重樓的藥用潛力被不斷開發,野生重樓資源已經滿足不了市場的需求,巨大的經濟價值提升了家種重樓的熱度,某機構統計了近幾年某地家種重樓年產量y(單位:噸),統計數據如表所示.年份 2016 2017 2018 2019 2020 2021 2022年份代碼x 1 2 3 4 5 6 7年產量y/噸 130 180 320 390 460 550 630年份 2016 2017 2018 2019 2020 2021 2022年份代碼x 1 2 3 4 5 6 7年產量y/噸 130 180 320 390 460 550 630①根據表中的統計數據,求出y關于x的經驗回歸方程;附:經驗回歸方程=x+中斜率和截距的最小二乘估計公式分別為==,=-.由表格數據,得==4,==380,xiyi=1×130+2×180+3×320+4×390+5×460+6×550+7×630=13 020,年份 2016 2017 2018 2019 2020 2021 2022年份代碼x 1 2 3 4 5 6 7年產量y/噸 130 180 320 390 460 550 630=1+4+9+16+25+36+49=140,則===85,所以=-=380-85×4=40,所以y關于x的經驗回歸方程為=85x+40.年份 2016 2017 2018 2019 2020 2021 2022年份代碼x 1 2 3 4 5 6 7年產量y/噸 130 180 320 390 460 550 630年份 2016 2017 2018 2019 2020 2021 2022年份代碼x 1 2 3 4 5 6 7年產量y/噸 130 180 320 390 460 550 630②根據①中所求方程預測2025年該地家種重樓的年產量.由題可知,2025年的年份代碼為10,即x=10,將x=10代入經驗回歸方程,得=85×10+40=890,所以預測2025年該地家種重樓的年產量為890噸.年份 2016 2017 2018 2019 2020 2021 2022年份代碼x 1 2 3 4 5 6 7年產量y/噸 130 180 320 390 460 550 630三線性回歸分析提示 殘差圖、殘差平方和、決定系數.如果給出了兩個模型,那么如何比較這兩個模型的擬合效果?問題41.殘差:對于響應變量Y,通過觀測得到的數據稱為 ,通過經驗回歸方程得到的稱為 , 減去 稱為殘差.2.殘差分析: 是隨機誤差的估計結果,通過對 的分析可以判斷模型刻畫數據的效果,以及判斷原始數據中是否存在可疑數據等,這方面工作稱為 .觀測值預測值觀測值預測值所得的差殘差殘差殘差分析3.殘差平方和法4.決定系數R2法小可以用R2=1-來比較兩個模型的擬合效果,R2越 ,模型的擬合效果越 ,R2越 ,模型的擬合效果越 .殘差平方和(yi-)2越 ,模型的擬合效果越好.大好小差 (1)(多選)對變量y和x的一組成對樣本數據(x1,y1),(x2,y2),…,(xn,yn)進行回歸分析,建立回歸模型,則A.殘差平方和越大,模型的擬合效果越好B.在做線性回歸分析時,殘差圖中殘差點分布的帶狀區域的寬度越窄表示回歸效果越好C.用決定系數R2來刻畫回歸效果,R2越小,說明模型的擬合效果越好D.若y和x的樣本相關系數r=-0.95,則y和x之間具有很強的負線性相關關系例 3√√因為殘差平方和越小,模型的擬合效果越好,故A錯誤;在做線性回歸分析時,殘差圖中殘差點分布的帶狀區域的寬度越窄表示回歸效果越好,故B正確;因為決定系數R2越接近1,說明模型的擬合效果越好,故C錯誤;由樣本相關系數為負且接近-1,可知y和x之間具有很強的負線性相關關系,故D正確.(2)假定小麥基本苗數x與成熟期有效穗y之間存在線性相關關系,今測得5組數據如下表:x 15.0 25.8 30.0 36.6 44.4y 39.4 42.9 42.9 43.1 49.2并由最小二乘法計算得經驗回歸方程為=0.29x+34.7.①計算各組殘差,并計算殘差平方和;參考數據:(yi-)2=50.18.由=xi+,可以算得=yi-分別為=0.35,=0.718,=-0.5,=-2.214,=1.624,x 15.0 25.8 30.0 36.6 44.4y 39.4 42.9 42.9 43.1 49.2殘差平方和為≈8.43.x 15.0 25.8 30.0 36.6 44.4y 39.4 42.9 42.9 43.1 49.2②求R2.參考數據:(yi-)2=50.18.(yi-)2=50.18,故R2≈1-≈0.832.x 15.0 25.8 30.0 36.6 44.4y 39.4 42.9 42.9 43.1 49.2反思感悟(1)殘差圖法:殘差點比較均勻地落在水平帶狀區域內說明選用的模型比較合適.刻畫回歸效果的三種方法(2)殘差平方和法:殘差平方和(yi-)2越小,模型的擬合效果越好.(3)決定系數R2法:R2=1-越接近1,表明模型的擬合效果越好. 已知某種商品的價格x(單位:元)與需求量y(單位:件)之間的關系有如下一組數據:跟蹤訓練 3x 14 16 18 20 22y 12 10 7 5 3求y關于x的經驗回歸方程,并借助殘差平方和及R2說明回歸模型擬合效果的好壞.參考公式及數據:=,=-,=1 660, xiyi=620.=×(14+16+18+20+22)=18,=×(12+10+7+5+3)=7.4,所以===-1.15,=7.4+1.15×18=28.1,所以所求經驗回歸方程是=-1.15x+28.1.列出殘差表為所以 (yi-)2=0.3, (yi-)2=53.2,R2=1-≈0.994,所以回歸模型的擬合效果很好.i- 0 0.3 -0.4 -0.1 0.2yi- 4.6 2.6 -0.4 -2.4 -4.41.知識清單:(1)一元線性回歸模型.(2)最小二乘法、經驗回歸方程的求法.(3)線性回歸分析:殘差圖法、殘差平方和法和R2法.2.方法歸納:數形結合、轉化化歸.3.常見誤區:混淆殘差圖法、殘差平方和法和R2法的概念,導致刻畫回歸效果出錯.隨堂演練四12341.根據如下樣本數據,得到經驗回歸方程為=x+,則x 4 5 6 7 8 9y 5.0 3.5 0.5 1.5 -1.0 -2.0A.>0,>0 B.>0,<0C.<0,>0 D.<0,<0√1234根據表中數據可知,隨著x的增加y減小,故y與x是負相關,故經驗回歸直線的斜率為負,故<0;再結合散點圖以及直線的性質,根據x=4,5,6,7時y均為正可知經驗回歸直線與y軸的截距為正,故>0.x 4 5 6 7 8 9y 5.0 3.5 0.5 1.5 -1.0 -2.02.(多選)已知變量y與x具有線性相關關系,統計得到6組數據如下表:1234x 2 4 7 10 15 22y 8.1 9.4 12 14.4 18.5 24若y關于x的經驗回歸方程為=0.8x+,則A.變量y與x之間正相關B.=14.4C.=6.8D.當x=12時,y的估計值為15.6√√1234由y關于x的經驗回歸方程=0.8x+,可知變量y與x之間正相關,故A正確;由表中數據可知==10,==14.4,故B正確;又經驗回歸直線過點(,),將其代入=0.8x+可得=14.4-0.8×10=6.4,故C錯誤;1234因此,y關于x的經驗回歸方程為=0.8x+6.4,將x=12代入可得,=0.8×12+6.4=16,即當x=12時,y的估計值為16,故D錯誤.3.某車間為了提高工作效率,需要測試加工零件所花費的時間,為此進行了5次試驗,這5次試驗的數據列(個數x,加工時間y)為:(10,62),(20,a),(30,75),(40,81),(50,89).若用最小二乘法求得其經驗回歸方程為=0.67x+54.9,則a的值為 . 1234681234根據題意可得,=×=30,=×=61.4+.又經驗回歸直線經過點(),故可得61.4+=0.67×30+54.9,解得a=68.4.下表是某飲料專賣店一天賣出奶茶的杯數y與當天氣溫x(單位:°C)的對比表,已知由表中數據計算得到y關于x的經驗回歸方程為=x+27,則相應于點(10,20)的殘差為 . 1234氣溫x/°C 5 10 15 20 25杯數y 26 20 16 14 14-11234==15,==18,代入經驗回歸方程=x+27得18=15+27,解得=-0.6,則經驗回歸方程為=-0.6x+27.所以相應于點(10,20)的殘差為20-(-0.6×10+27)=-1.課時對點練五1.對變量x,y進行回歸分析時,依據得到的4個不同的回歸模型畫出殘差圖,則下列模型擬合精度最高的是12345678910111213141516基礎鞏固√12345678910111213141516用殘差圖判斷模型的擬合效果,殘差點比較均勻地分布在以取值為0的橫軸為對稱軸的水平帶狀區域內,說明這樣的模型比較合適,帶狀區域的寬度越窄,說明模型的擬合精度越高.2.近年來,我國無人機產業發展迅猛,在全球具有領先優勢,已經成為“中國制造”一張靚麗的新名片,其中民用無人機市場也異?;鸨N售量逐年上升.現某無人機專賣店統計了5月份前5天無人機的實際銷量,結果如表所示.12345678910111213141516日期編號x 1 2 3 4 5銷量y/部 9 a 17 b 27經分析知,y與x有較強的線性相關關系,且求得經驗回歸方程為=4.5x+3.7,則a+b的值為A.28 B.30 C.33 D.35√12345678910111213141516依題意=×(1+2+3+4+5)=3,=×(9+a+17+b+27)=,又經驗回歸直線=4.5x+3.7過點(,),所以=4.5×3+3.7,解得a+b=33.3.為了研究某班學生的聽力成績x(單位:分)與筆試成績y(單位:分)的關系,從該班隨機抽取20名學生,根據散點圖發現x與y之間有線性關系,12345678910111213141516設其經驗回歸方程為=x+,已知xi=400, yi=1 580,=-1,若該班某學生的聽力成績為26,據此估計其筆試成績約為A.99 B.101 C.103 D.105√12345678910111213141516由xi=400,得==20;由yi=1 580,得==79,故點(20,79)在經驗回歸直線上,即79=20-1,得=4,即=4x-1,當x=26時,代入計算得=103.123456789101112131415164.已知兩個線性相關變量x與y的統計數據如表:x 3 4 5 6y 2.5 3 4 m其經驗回歸方程是=0.7x+,據此計算,樣本(4,3)處的殘差為-0.15,則表中m的值為A.4 B.4.5 C.5 D.5.5√12345678910111213141516由題意,樣本(4,3)處的殘差為-0.15,所以3.15=0.7×4+,所以=0.35,由經驗回歸直線=0.7x+0.35過點(,),且=×(3+4+5+6)=4.5,可得=0.7×4.5+0.35=3.5,由=×(2.5+3+4+m)=3.5,解得m=4.5.5.(多選)已知某產品的單價x(單位:元)以及銷量y(單位:件)情況統計如表所示,由表中數據求得經驗回歸方程=-4x+,則下列說法正確的是12345678910111213141516單價x(元) 4 5 6 7 8 9銷量y(件) 90 84 83 80 75 68A.銷量的平均數為80件B.根據經驗回歸方程可以測得,單價每上升1元,銷量就平均減少4件C.=26D.根據經驗回歸方程可以預測,當單價為10元時,銷量為66件√√√12345678910111213141516==6.5,==80,故A正確;將(6.5,80)代入經驗回歸方程得=106,故經驗回歸方程為=-4x+106,由于經驗回歸方程的斜率為-4,故B正確,C錯誤;根據經驗回歸方程可以預測,當單價為10元時,銷量為-40+106= 66(件),故D正確.123456789101112131415166.(多選)某市物價部門對5家商場的某商品一天的銷售量及其價格進行調查,5家商場的售價x(元)和銷售量y(件)之間的一組數據如表所示:價格x 9 9.5 10 10.5 11銷售量y 11 10 8 6 5由公式計算得到y與x的經驗回歸方程是=-3.2x+,樣本相關系數的絕對值|r|≈0.992,則下列說法正確的有A.變量x,y負相關且線性相關程度較強B.=40C.當x=8.5時,y的預測值為12.8D.相應于點(10.5,6)的殘差為0.4√√√12345678910111213141516對A,由表可知y隨x增大而減小,可認為變量x,y負相關,且由樣本相關系數的絕對值|r|≈0.992可知線性相關程度較強,故A正確;對B,=×(9+9.5+10+10.5+11)=10,=×(11+10+8+6+5)=8,故經驗回歸直線恒過定點(10,8),故8=-3.2×10+,即=40,故B正確;價格x 9 9.5 10 10.5 11銷售量y 11 10 8 6 512345678910111213141516對C,當x=8.5時,=-3.2×8.5+40=12.8,故C正確;對D,相應于點(10.5,6)的殘差=6-(-3.2×10.5+40)=-0.4,故D不正確.價格x 9 9.5 10 10.5 11銷售量y 11 10 8 6 5123456789101112131415167.如圖是一組數據(x,y)的散點圖,經最小二乘估計公式計算,y與x之間的經驗回歸方程為=0.83x+,則= .0.9412345678910111213141516因為==2,==2.6,所以2.6=0.83×2+,所以=0.94.123456789101112131415168.已知一系列樣本點(xi,yi)(i=1,2,3,…,n)的經驗回歸方程為=2x+,若樣本點(r,1)與(1,s)的殘差相同,則 .(填s與r的關系式) s=-2r+3樣本點(r,1)的殘差為1-(2r+),樣本點(1,s)的殘差為s-(2+),依題意1-(2r+)=s-(2+),故s=-2r+3.9.從某居民區隨機抽取10個家庭,獲得第i個家庭的月收入xi(單位:千元)與月儲蓄yi(單位:千元)的數據資料,算得xi=80,yi=20,xiyi=184,=720.(1)求家庭的月儲蓄y對月收入x的經驗回歸方程=x+;12345678910111213141516附:經驗回歸方程=x+中,=,=-.12345678910111213141516由題意知n=10,=xi==8,=yi==2,又-10=720-10×82=80,xiyi-10=184-10×8×2=24,12345678910111213141516則==0.3,=-=2-0.3×8=-0.4,故所求經驗回歸方程為=0.3x-0.4.(2)判斷變量x與y之間是正相關還是負相關;12345678910111213141516由于變量y的值隨x值的增加而增加(=0.3>0),故x與y之間是正相關.(3)若該居民區某家庭月收入為7千元,預測該家庭的月儲蓄.12345678910111213141516將x=7代入經驗回歸方程可以預測該家庭的月儲蓄為=0.3×7-0.4=1.7(千元).1234567891011121314151610.耐鹽堿水稻俗稱“海水稻”,是一種可以長在灘涂和鹽堿地的水稻.海水稻的灌溉是將海水稀釋后進行灌溉.某試驗基地為了研究海水濃度x(‰)對畝產量y(噸)的影響,通過在試驗田的種植實驗,測得了某種海水稻的畝產量與海水濃度的數據如表.繪制散點圖發現,可用一元線性回歸模型擬合畝產量y與海水濃度x之間的相關關系,用最小二乘法計算得y與x之間的經驗回歸方程為=x+0.88.海水濃度xi(‰) 3 4 5 6 7畝產量yi(噸) 0.62 0.58 0.49 0.4 0.31殘差 12345678910111213141516(1)求,并估計當澆灌海水濃度為8‰時該品種的畝產量;經計算=5,=0.48,由0.48=5+0.88,可得=-0.08,當x=8時,=-0.08×8+0.88=0.24(噸),所以當澆灌海水濃度為8‰時,該品種的畝產量約為0.24噸.附:殘差公式=yi-,決定系數R2=1-.12345678910111213141516(2)①完成上述殘差表;海水濃度xi(‰) 3 4 5 6 7畝產量yi(噸) 0.62 0.58 0.49 0.4 0.31殘差 12345678910111213141516由(1)知=-0.08x+0.88,從而有海水濃度xi(‰) 3 4 5 6 7畝產量yi(噸) 0.62 0.58 0.49 0.4 0.31殘差 -0.02 0.02 0.01 0 -0.0112345678910111213141516②統計學中常用決定系數R2來刻畫回歸效果,R2越大,模型擬合效果越好,如假設R2=0.8,就說明響應變量y的差異有80%是由解釋變量x引起的.請計算決定系數R2(精確到0.01),并指出畝產量的變化多大程度上是由海水濃度引起的?海水濃度xi(‰) 3 4 5 6 7畝產量yi(噸) 0.62 0.58 0.49 0.4 0.31殘差 12345678910111213141516R2=1-=1-=≈0.98,所以畝產量的變化有98%是由海水濃度引起的.11.如圖5個樣本數據,去掉D(3,10)后,下列說法錯誤的是A.樣本相關系數r變大B.決定系數R2變大C.殘差平方和變大D.解釋變量x與響應變量y的相關程度變強12345678910111213141516√綜合運用12345678910111213141516由散點圖知,去掉離群點D后,x與y的線性相關程度變強,且為正相關,所以樣本相關系數r的值變大,故A正確;決定系數R2的值變大,殘差平方和變小,故B正確,C錯誤;解釋變量x與響應變量y的相關程度變強,故D正確.12.某工廠節能降耗技術改造后,在生產某產品過程中記錄的產量x(噸)與相應的生產能耗y(噸)的幾組對應數據如表,發現表中有個數據看不清,已知經驗回歸方程為=6.5x+6,下列說法正確的是A.看不清的數據★的值為33B.經驗回歸方程中6.5的含義是產量每增加1噸,相應的生產能耗實際增加6.5噸C.據此模型預測產量為8噸時,相應的生產能耗為50.9噸D.經驗回歸直線=6.5x+6恰好經過點(4,★)12345678910111213141516√x 2 3 4 5 6y 19 25 ★ 40 4412345678910111213141516對于A,因為==4,將=4代入=6.5x+6,故=6.5×4+6=32,所以★=32×5-(19+25+40+44)=32,故A錯誤;對于B,經驗回歸方程中6.5的含義是產量每增加1噸,相應的生產能耗平均增加6.5噸,故B錯誤;12345678910111213141516對于C,當x=8時,=6.5×8+6=58(噸),故C錯誤;對于D,因為=4,=32,故=6.5x+6必經過點(4,32),故D正確.13.已知x與y之間的幾組數據如表:假設根據上表數據所得經驗回歸方程為=x+.若某同學根據上表中的前兩組數據(1,0)和(2,2)求得的經驗回歸方程為='x+',則以下結論正確的是A.>',>' B.>',<'C.<',>' D.<',<'12345678910111213141516√x 1 2 3 4 5 6y 0 2 1 3 3 412345678910111213141516==,==,x 1 2 3 4 5 6y 0 2 1 3 3 4==,=-=-,'==2>,'=-2<.1234567891011121314151614.為了研究高三(1)班女生的身高x(單位:cm)與體重y(單位:kg)的關系,從該班隨機抽取10名女生,根據測量數據的散點圖可以看出y與x之間具有線性相關關系,設其經驗回歸方程為=x+.已知xi=1 600, yi=460,=0.85.若該班某女生的身高為170 cm,則估計其體重為_____ kg. 54.512345678910111213141516=xi=160,=yi=46,故46=0.85×160+,解得=-90,故經驗回歸方程為=0.85x-90,則當x=170時,=0.85×170-90=54.5(kg).15.(多選)小明在家獨自用下表分析高三前5次月考中數學的班級排名y與考試次數x的相關性時,忘記了第二次和第四次月考排名,但小明記得平均排名=6,于是分別用m=6和m=8得到了兩個經驗回歸方程:=x+,=x+,對應的樣本相關系數分別為r1,r2,排名y對應的方差分別為,,則下列結論正確的是12345678910111213141516拓廣探究x 1 2 3 4 5y 10 m 6 n 2A.r1√√12345678910111213141516當m=6時,==3,==6,解得n=6,則 (xi-)(yi-)=(1-3)×(10-6)+(2-3)×(6-6)+(3-3)×(6-6)+(4-3)×(6-6)+(5-3)×(2-6)=-16,=(1-3)2+(2-3)2+(3-3)2+(4-3)2+(5-3)2=10,=(10-6)2+(6-6)2+(6-6)2+(6-6)2+(2-6)2=32,12345678910111213141516所以===-,得=-=,r1==≈-0.89,==×32=;12345678910111213141516同理,當m=8時,=-2,=12,r2=-1,=8,所以r1>r2,<,>,<.1234567891011121314151616.航班正點率是指航空旅客運輸部門在執行運輸計劃時,航班實際出發時間與計劃出發時間較為一致的航班數量與全部航班數量的比率.人們常用航班正點率來衡量一個航空公司的運行效率和服務質量.現隨機抽取10家航空公司,對其近一年的航班正點率和顧客投訴次數進行調查,得到數據如表所示:航空公司編號 1 2 3 4 5 6 7 8 9 10航班正點率xi/% 82 77 77 76 74 73 71 70 91 69顧客投訴次數yi/次 21 58 79 68 74 93 72 122 18 12512345678910111213141516(1)①證明:樣本相關系數r=;航空公司編號 1 2 3 4 5 6 7 8 9 10航班正點率xi/% 82 77 77 76 74 73 71 70 91 69顧客投訴次數yi/次 21 58 79 68 74 93 72 122 18 12512345678910111213141516參考數據:xiyi≈53 620,≈58 150,≈64 810,xi=760,yi=730,×≈71.參考公式:樣本相關系數r=.12345678910111213141516(xi-)(yi-)=(xiyi-xi-yi+)=xiyi-xi-yi+=xiyi-xi-yi+=xiyi-(n)-(n)+n=xiyi-n,12345678910111213141516在上式中分別用xi,替代yi,=-n,同理,也有=-n,故樣本相關系數r=.12345678910111213141516②根據以上數據計算樣本相關系數(結果保留2位小數),并由此推斷顧客投訴次數與航班正點率之間的線性相關程度(若0.8≤|r|≤1,則認為線性相關程度很強;若0.3≤|r|<0.8,則認為線性相關程度一般;若|r|<0.3,則認為線性相關程度很弱);12345678910111213141516參考數據:xiyi≈53 620,≈58 150,≈64 810,xi=760,yi=730,×≈71.參考公式:樣本相關系數r=.12345678910111213141516可知=xi=76,=yi=73.∴xiyi-10≈53 620-10×76×73=-1 860,-10≈58 150-10×762=390,-10≈64 810-10×732=11 520,12345678910111213141516∴r=≈=≈-≈-0.87,故顧客投訴次數與航班正點率之間的線性相關程度很強.12345678910111213141516(2)用一元線性回歸模型對上表中的樣本數據進行擬合,得到顧客投訴次數關于航班正點率的經驗回歸方程為=-5x+.現有一家航空公司擬通過加強內部管理來減少由于公司自身原因引起的航班延誤次數,并希望一年內收到的顧客投訴不超過73次,試估計該公司的航班正點率至少應達到多少?12345678910111213141516=5+=5×76+73=453,令=-5x+453≤73,得x≥76.即該公司的航班正點率至少應達到76%.第1課時 一元線性回歸模型及其參數的最小二乘估計[學習目標] 1.了解最小二乘原理,掌握一元線性回歸模型參數的最小二乘估計方法,建立一元線性回歸模型進行預測.2.了解隨機誤差、殘差、殘差圖的概念.3.會通過殘差分析一元線性回歸模型的擬合效果.一、一元線性回歸模型生活經驗告訴我們,兒子的身高與父親的身高具有正相關的關系,為了進一步研究兩者之間的關系,有人調查了某所高校14名男大學生的身高及其父親的身高,得到的數據如表所示:編號 1 2 3 4 5 6 7父親身高/cm 174 170 173 169 182 172 180兒子身高/cm 176 176 170 170 185 176 178編號 8 9 10 11 12 13 14父親身高/cm 172 168 166 182 173 164 180兒子身高/cm 174 170 168 178 172 165 182我們畫出散點圖(課本105頁圖8.2-1)并通過計算得到樣本相關系數r≈0.886.問題1 由樣本相關系數可以得到什么結論?問題2 這兩個變量之間的關系可以用函數模型來刻畫嗎?知識梳理一元線性回歸模型:我們稱為Y關于x的 模型,其中,Y稱為 或 ,x稱為 或 ??;a和b為模型的未知參數,a稱為 參數,b稱為 參數;e是Y與bx+a之間的 . 例1 判斷下列變量間哪些能用函數模型刻畫,哪些能用回歸模型刻畫?(1)某公司的銷售收入和廣告支出;(2)某城市寫字樓的出租率和每平方米月租金;(3)航空公司的顧客投訴次數和航班正點率;(4)某地區的人均消費水平和人均國內生產總值(GDP);(5)學生期末考試成績和考前用于復習的時間;(6)一輛汽車在某段路程中的行駛速度和行駛時間;(7)正方形的面積與周長.反思感悟 在函數關系中,變量X對應的是變量Y的確定值,而在相關關系中,變量X對應的是變量Y的概率分布.換句話說,相關關系是隨機變量之間或隨機變量與非隨機變量之間的一種數量依存關系,對于這種關系,通常運用統計方法進行研究.通過對相關關系的研究又可以總結規律,從而指導人們的生活與生活實踐.跟蹤訓練1 若某地財政收入x與支出y滿足一元線性回歸模型y=bx+a+e(單位:億元),其中b=0.7,a=3,|e|≤0.5,如果今年該地區財政收入為10億元,年支出預計不會超過 ( )A.9億元 B.9.5億元C.10億元 D.10.5億元二、最小二乘法和經驗回歸方程問題3 在一元線性回歸模型中,表達式Y=bx+a+e刻畫的是變量Y與x之間的線性相關關系,其中參數a和b未知,確定參數a和b的原則是什么?知識梳理最小二乘法:我們將=x+稱為Y關于x的 ,也稱經驗回歸函數或經驗回歸公式,其圖形稱為經驗回歸直線.這種求經驗回歸方程的方法叫做 ,求得的,叫做b,a的 , 其中==,=-.例2 (1)某單位為了了解辦公樓用電量y(度)與氣溫x(℃)之間的關系,隨機統計了四個工作日的用電量與當天平均氣溫,并制作了對照表:氣溫x(℃) 18 13 10 -1用電量y(度) 24 34 38 64由表中數據得到經驗回歸方程=-2x+,則當氣溫為-3 ℃時,預測用電量為 ( )A.68度 B.66度 C.28度 D.12度(2)某商場為了迎接暑期旅游旺季,確定暑期營銷策略,進行了投入促銷費用x和商場實際銷售額y的試驗,得到如下四組數據.投入促銷 費用x(萬元) 2 3 5 6商場實際銷 售額y(萬元) 100 200 300 400①畫出上述數據的散點圖,并據此判斷兩個變量是否具有較強的線性相關關系;②求出x,y之間的經驗回歸方程=x+;③若該商場計劃實際銷售額不低于600萬元,則至少要投入多少萬元的促銷費用?參考公式:=,=-.反思感悟 求經驗回歸方程的步驟(1)算:計算,,, xiyi.(2)代:代入公式計算,的值.(3)寫:寫出經驗回歸方程.跟蹤訓練2 (1)若根據變量x與y的對應關系(如表),求得y關于x的經驗回歸方程為=6.5x+17.5,則表中m的值為 ( )x 2 4 5 6 8y 30 40 m 50 70A.60 B.55 C.50 D.45(2)重樓,中藥名,具有清熱解毒、消腫止痛、涼肝定驚之功效,具有極高的藥用價值.近年來,隨著重樓的藥用潛力被不斷開發,野生重樓資源已經滿足不了市場的需求,巨大的經濟價值提升了家種重樓的熱度,某機構統計了近幾年某地家種重樓年產量y(單位:噸),統計數據如表所示.年份 2016 2017 2018 2019 2020 2021 2022年份代碼x 1 2 3 4 5 6 7年產量y/噸 130 180 320 390 460 550 630①根據表中的統計數據,求出y關于x的經驗回歸方程;②根據①中所求方程預測2025年該地家種重樓的年產量.附:經驗回歸方程=x+中斜率和截距的最小二乘估計公式分別為==,=-.三、線性回歸分析問題4 如果給出了兩個模型,那么如何比較這兩個模型的擬合效果?知識梳理1.殘差:對于響應變量Y,通過觀測得到的數據稱為 ,通過經驗回歸方程得到的稱為 , 減去 所得的差稱為殘差. 2.殘差分析: 是隨機誤差的估計結果,通過對 的分析可以判斷模型刻畫數據的效果,以及判斷原始數據中是否存在可疑數據等,這方面工作稱為 . 3.殘差平方和法殘差平方和(yi-)2越 ,模型的擬合效果越好. 4.決定系數R2法可以用R2=1-來比較兩個模型的擬合效果,R2越 ,模型的擬合效果越 ,R2越 ,模型的擬合效果越 . 例3 (1)(多選)對變量y和x的一組成對樣本數據(x1,y1),(x2,y2),…,(xn,yn)進行回歸分析,建立回歸模型,則 ( )A.殘差平方和越大,模型的擬合效果越好B.在做線性回歸分析時,殘差圖中殘差點分布的帶狀區域的寬度越窄表示回歸效果越好C.用決定系數R2來刻畫回歸效果,R2越小,說明模型的擬合效果越好D.若y和x的樣本相關系數r=-0.95,則y和x之間具有很強的負線性相關關系(2)假定小麥基本苗數x與成熟期有效穗y之間存在線性相關關系,今測得5組數據如下表:x 15.0 25.8 30.0 36.6 44.4y 39.4 42.9 42.9 43.1 49.2并由最小二乘法計算得經驗回歸方程為=0.29x+34.7.①計算各組殘差,并計算殘差平方和;②求R2.參考數據:(yi-)2=50.18.反思感悟 刻畫回歸效果的三種方法(1)殘差圖法:殘差點比較均勻地落在水平帶狀區域內說明選用的模型比較合適.(2)殘差平方和法:殘差平方和(yi-)2越小,模型的擬合效果越好.(3)決定系數R2法:R2=1-越接近1,表明模型的擬合效果越好.跟蹤訓練3 已知某種商品的價格x(單位:元)與需求量y(單位:件)之間的關系有如下一組數據:x 14 16 18 20 22y 12 10 7 5 3求y關于x的經驗回歸方程,并借助殘差平方和及R2說明回歸模型擬合效果的好壞.參考公式及數據:=,=-,=1 660, xiyi=620.1.知識清單:(1)一元線性回歸模型.(2)最小二乘法、經驗回歸方程的求法.(3)線性回歸分析:殘差圖法、殘差平方和法和R2法.2.方法歸納:數形結合、轉化化歸.3.常見誤區:混淆殘差圖法、殘差平方和法和R2法的概念,導致刻畫回歸效果出錯.1.根據如下樣本數據,得到經驗回歸方程為=x+,則 ( )x 4 5 6 7 8 9y 5.0 3.5 0.5 1.5 -1.0 -2.0A.>0,>0 B.>0,<0C.<0,>0 D.<0,<02.(多選)已知變量y與x具有線性相關關系,統計得到6組數據如下表:x 2 4 7 10 15 22y 8.1 9.4 12 14.4 18.5 24若y關于x的經驗回歸方程為=0.8x+,則 ( )A.變量y與x之間正相關B.=14.4C.=6.8D.當x=12時,y的估計值為15.63.某車間為了提高工作效率,需要測試加工零件所花費的時間,為此進行了5次試驗,這5次試驗的數據列(個數x,加工時間y)為:(10,62),(20,a),(30,75),(40,81),(50,89).若用最小二乘法求得其經驗回歸方程為=0.67x+54.9,則a的值為 . 4.下表是某飲料專賣店一天賣出奶茶的杯數y與當天氣溫x(單位:°C)的對比表,已知由表中數據計算得到y關于x的經驗回歸方程為=x+27,則相應于點(10,20)的殘差為 . 氣溫x/°C 5 10 15 20 25杯數y 26 20 16 14 14答案精析問題1 通過樣本相關系數可知兒子的身高與父親的身高正線性相關,且相關程度較高.問題2 不能.因為這兩個變量之間不是函數關系,也就不能用函數模型刻畫.知識梳理一元線性回歸 因變量 響應變量 自變量 解釋變量 截距 斜率 隨機誤差例1 解 (1)(2)(3)(4)(5)回歸模型,(6)(7)函數模型.跟蹤訓練1 D?。垡驗樨斦杖離與支出y滿足一元線性回歸模型y=bx+a+e,其中b=0.7,a=3,所以y=0.7x+3+e.當x=10時,得y=0.7×10+3+e=10+e,又|e|≤0.5,即-0.5≤e≤0.5,所以9.5≤y≤10.5,所以年支出預計不會超過10.5億元.]問題3 使表示成對樣本數據的這些散點在整體上與一條適當的直線盡可能地接近.知識梳理經驗回歸方程 最小二乘法 最小二乘估計例2 (1)B [由表中數據可知==10,==40,所以經驗回歸直線=-2x+過點(10,40),即40=-2×10+,得=60,則經驗回歸方程為=-2x+60,當x=-3時,=-2×(-3)+60=66.](2)解 ①散點圖如圖所示.從散點圖上可以看出兩個變量具有較好的線性相關關系.②因為==4,==250,xiyi=2×100+3×200+5×300+6×400=4 700,=22+32+52+62=74,所以===70,=-=250-70×4=-30.故所求的經驗回歸方程為=70x-30.③由題意得70x-30≥600,即x≥=9,所以若該商場計劃實際銷售額不低于600萬元,則至少要投入9萬元的促銷費用.跟蹤訓練2 (1)A?。塾杀碇袛祿?,得=×(2+4+5+6+8)=5,=×(30+40+m+50+70)=38+,因為經驗回歸直線=6.5x+17.5過點,所以38+=6.5×5+17.5,解得m=60.](2)解 ①由表格數據,得==4,==380,xiyi=1×130+2×180+3×320+4×390+5×460+6×550+7×630=13 020,=1+4+9+16+25+36+49=140,則===85,所以=-=380-85×4=40,所以y關于x的經驗回歸方程為=85x+40.②由題可知,2025年的年份代碼為10,即x=10,將x=10代入經驗回歸方程,得=85×10+40=890,所以預測2025年該地家種重樓的年產量為890噸.問題4 殘差圖、殘差平方和、決定系數.知識梳理1.觀測值 預測值 觀測值 預測值2.殘差 殘差 殘差分析3.小4.大 好 小 差例3 (1)BD?。垡驗闅埐钇椒胶驮叫?,模型的擬合效果越好,故A錯誤;在做線性回歸分析時,殘差圖中殘差點分布的帶狀區域的寬度越窄表示回歸效果越好,故B正確;因為決定系數R2越接近1,說明模型的擬合效果越好,故C錯誤;由樣本相關系數為負且接近-1,可知y和x之間具有很強的負線性相關關系,故D正確.](2)解?、儆?xi+,可以算得=yi-分別為=0.35,=0.718,=-0.5,=-2.214,=1.624,殘差平方和為≈8.43.② (yi-)2=50.18,故R2≈1-≈0.832.跟蹤訓練3 解 =×(14+16+18+20+22)=18,=×(12+10+7+5+3)=7.4,所以===-1.15,=7.4+1.15×18=28.1,所以所求經驗回歸方程是=-1.15x+28.1.列出殘差表為i- 0 0.3 -0.4 -0.1 0.2yi- 4.6 2.6 -0.4 -2.4 -4.4所以 (yi-)2=0.3, (yi-)2=53.2,R2=1-≈0.994,所以回歸模型的擬合效果很好.隨堂演練1.B [根據表中數據可知,隨著x的增加y減小,故y與x是負相關,故經驗回歸直線的斜率為負,故<0;再結合散點圖以及直線的性質,根據x=4,5,6,7時y均為正可知經驗回歸直線與y軸的截距為正,故>0.]2.AB [由y關于x的經驗回歸方程=0.8x+,可知變量y與x之間正相關,故A正確;由表中數據可知==10,==14.4,故B正確;又經驗回歸直線過點(,),將其代入=0.8x+可得=14.4-0.8×10=6.4,故C錯誤;因此,y關于x的經驗回歸方程為=0.8x+6.4,將x=12代入可得,=0.8×12+6.4=16,即當x=12時,y的估計值為16,故D錯誤.]3.68解析 根據題意可得,=×=30,=×=61.4+.又經驗回歸直線經過點(,),故可得61.4+=0.67×30+54.9,解得a=68.4.-1解析 ==15,==18,代入經驗回歸方程=x+27得18=15+27,解得=-0.6,則經驗回歸方程為=-0.6x+27.所以相應于點(10,20)的殘差為20-(-0.6×10+27)=-1. 展開更多...... 收起↑ 資源列表 §8.2 第1課時 一元線性回歸模型及其參數的最小二乘估計(導學案,含答案).docx 第八章 §8.2 第1課時 一元線性回歸模型及其參數的最小二乘估計.pptx 縮略圖、資源來源于二一教育資源庫