資源簡介 第02講 成對數據的統計分析目錄01 考情透視·目標導航 202 知識導圖·思維引航 303 考點突破·題型探究 4知識點1:變量間的相關關系 4知識點2:線性回歸 5知識點3:非線性回歸 6知識點4:獨立性檢驗 7解題方法總結 9題型一:變量間的相關關系 10題型二:一元線性回歸模型 12題型三:非線性回歸 14題型四:列聯表與獨立性檢驗 19題型五:誤差分析 2204真題練習·命題洞見 2405課本典例·高考素材 2606易錯分析·答題模板 28易錯點:對回歸直線的性質理解不深刻 28答題模板:獨立性檢驗 29考點要求 考題統計 考情分析(1)變量的相關關系 (2)樣本相關系數 (3)一元線性回歸模型 (4)列聯表與獨立性檢驗 2024年甲卷(理)第17題,12分 2023年上海卷第14題,4分 2023年天津卷第7題,5分 2023年甲卷(文)第19題,12分 2022年I卷第20題,12分 從近五年的全國卷的考查情況來看,本節是高考的熱點,主要以解答題形式出現,經常與概率綜合出題,一般難度為中等.也可能以選擇題、填空題形式出現,難度不大.主要以應用題的方式出現,多與經濟、生活實際相聯系,需要在復雜的題目描述中找出數量關系,建立數學模型,并且運用數學模型解決實際問題.復習目標: (1)了解樣本相關系數的統計含義. (2)理解一元線性回歸模型和2×2列聯表,會運用這些方法解決簡單的實際問題. (3)會利用統計軟件進行數據分析.知識點1:變量間的相關關系1、變量之間的相關關系當自變量取值一定時,因變量的取值帶有一定的隨機性,則這兩個變量之間的關系叫相關關系.由于相關關系的不確定性,在尋找變量之間相關關系的過程中,統計發揮著非常重要的作用.我們可以通過收集大量的數據,在對數據進行統計分析的基礎上,發現其中的規律,對它們的關系作出判斷.注意:相關關系與函數關系是不同的,相關關系是一種非確定的關系,函數關系是一種確定的關系,而且函數關系是一種因果關系,但相關關系不一定是因果關系,也可能是伴隨關系.2、散點圖將樣本中的個數據點描在平面直角坐標系中,所得圖形叫做散點圖.根據散點圖中點的分布可以直觀地判斷兩個變量之間的關系.(1)如果散點圖中的點散布在從左下角到右上角的區域內,對于兩個變量的這種相關關系,我們將它稱為正相關,如圖(1)所示;(2)如果散點圖中的點散布在從左上角到右下角的區域內,對于兩個變量的這種相關關系,我們將它稱為負相關,如圖(2)所示.3、相關系數若相應于變量的取值,變量的觀測值為,則變量與的相關系數,通常用來衡量與之間的線性關系的強弱,的范圍為.(1)當時,表示兩個變量正相關;當時,表示兩個變量負相關.(2)越接近,表示兩個變量的線性相關性越強;越接近,表示兩個變量間幾乎不存在線性相關關系.當時,所有數據點都在一條直線上.(3)通常當時,認為兩個變量具有很強的線性相關關系.【診斷自測】如圖,為某組數據的散點圖,由最小二乘法計算得到回歸直線的方程為,相關系數為,決定系數為.若經過殘差分析后去掉點P,剩余的點重新計算得到回歸直線的方程為,相關系數為,決定系數為.則下列結論一定正確的是( )A. B. C. D.,知識點2:線性回歸1、線性回歸線性回歸是研究不具備確定的函數關系的兩個變量之間的關系(相關關系)的方法.對于一組具有線性相關關系的數據(x1,y1),(x2,y2),…,(xn,yn),其回歸方程的求法為其中,,,(,)稱為樣本點的中心.2、殘差分析對于預報變量,通過觀測得到的數據稱為觀測值,通過回歸方程得到的稱為預測值,觀測值減去預測值等于殘差,稱為相應于點的殘差,即有.殘差是隨機誤差的估計結果,通過對殘差的分析可以判斷模型刻畫數據的效果以及判斷原始數據中是否存在可疑數據等,這方面工作稱為殘差分析.(1)殘差圖通過殘差分析,殘差點比較均勻地落在水平的帶狀區域中,說明選用的模型比較合適,其中這樣的帶狀區域的寬度越窄,說明模型擬合精確度越高;反之,不合適.(2)通過殘差平方和分析,如果殘差平方和越小,則說明選用的模型的擬合效果越好;反之,不合適.(3)相關指數用相關指數來刻畫回歸的效果,其計算公式是:.越接近于,說明殘差的平方和越小,也表示回歸的效果越好.【診斷自測】將某保護區分為面積大小相近的多個區域,用簡單隨機抽樣的方法抽取其中6個區域,統計這些區域內的某種水源指標和某植物分布的數量,得到樣本,且其相關系數,記關于的線性回歸方程為.經計算可知:,則 .參考公式:.知識點3:非線性回歸解答非線性擬合問題,要先根據散點圖選擇合適的函數類型,設出回歸方程,通過換元將陌生的非線性回歸方程化歸轉化為我們熟悉的線性回歸方程.求出樣本數據換元后的值,然后根據線性回歸方程的計算方法計算變換后的線性回歸方程系數,還原后即可求出非線性回歸方程,再利用回歸方程進行預報預測,注意計算要細心,避免計算錯誤.1、建立非線性回歸模型的基本步驟:(1)確定研究對象,明確哪個是解釋變量,哪個是預報變量;(2)畫出確定好的解釋變量和預報變量的散點圖,觀察它們之間的關系(是否存在非線性關系);(3)由經驗確定非線性回歸方程的類型(如我們觀察到數據呈非線性關系,一般選用反比例函數、二次函數、指數函數、對數函數、冪函數模型等);(4)通過換元,將非線性回歸方程模型轉化為線性回歸方程模型;(5)按照公式計算線性回歸方程中的參數(如最小二乘法),得到線性回歸方程;(6)消去新元,得到非線性回歸方程;(7)得出結果后分析殘差圖是否有異常.若存在異常,則檢查數據是否有誤,或模型是否合適等.【診斷自測】某人新房剛裝修完,為了監測房屋內空氣質量的情況,每天在固定的時間測一次甲醛濃度(單位:mg/m3),連續測量了10天,所得數據繪制成散點圖如下:用表示第天測得的甲醛濃度,令,經計算得,,.(1)由散點圖可知,與可用指數型回歸模型進行擬合,請利用所給條件求出回歸方程;(系數精確到0.01)(2)已知房屋內空氣中的甲醛濃度的安全范圍是低于0.08 mg/m3,則根據(1)中所得回歸模型,該新房裝修完第幾天開始達到此標準?(參考數據:)附:,.知識點4:獨立性檢驗1、分類變量和列聯表(1)分類變量:變量的不同“值”表示個體所屬的不同類別,像這樣的變量稱為分類變量.(2)列聯表:①定義:列出的兩個分類變量的頻數表稱為列聯表.②2×2列聯表.一般地,假設有兩個分類變量X和Y,它們的取值分別為{,}和{,},其樣本頻數列聯表(稱為2×2列聯表)為總計總計從列表中,依據與的值可直觀得出結論:兩個變量是否有關系.2、等高條形圖(1)等高條形圖和表格相比,更能直觀地反映出兩個分類變量間是否相互影響,常用等高條形圖表示列聯表數據的頻率特征.(2)觀察等高條形圖發現與相差很大,就判斷兩個分類變量之間有關系.3、獨立性檢驗計算隨機變量利用的取值推斷分類變量X和Y是否獨立的方法稱為χ2獨立性檢驗.0.10 0.05 0.010 0.005 0.0012.706 3.841 6.635 7.879 10.828【診斷自測】近年中國新能源汽車進入高速發展時期.專家預測2024年中國汽車總銷售量將超過3100萬輛,繼續領跑全球.為了了解廣大消費者購買新能源汽車意向與年齡是否具有相關性,某汽車APP采用問卷調查形式對400名消費者進行調查,數據顯示這400人中中老年人共有150人,且愿意購買新能源車的人數是愿意購買燃油車的2倍;青年中愿意購買新能源車的人數是愿意購買燃油車的4倍.年齡段 購車意向 合計愿意購買新能源車 愿意購買燃油車青年中老年合計(1)完善2×2列聯表,請根據小概率值的獨立性檢驗,分析消費者對新能源車和燃油車的意向購買與年齡是否有關;(2)采用分層隨機抽樣從愿意購買新能源車的消費者中抽取9人,再從這9人中隨機抽取4人,求這4人中青年人數的期望.附:,.0.05 0.01 0.0013.841 6.635 10.828解題方法總結常見的非線性回歸模型(1)指數函數型(且,)兩邊取自然對數,,即,令,原方程變為,然后按線性回歸模型求出,.(2)對數函數型令,原方程變為,然后按線性回歸模型求出,.(3)冪函數型兩邊取常用對數,,即,令,原方程變為,然后按線性回歸模型求出,.(4)二次函數型令,原方程變為,然后按線性回歸模型求出,.(5)反比例函數型型令,原方程變為,然后按線性回歸模型求出,.題型一:變量間的相關關系【典例1-1】已知5個成對數據的散點圖如下,若去掉點,則下列說法正確的是( )A.變量x與變量y呈正相關 B.變量x與變量y的相關性變強C.殘差平方和變大 D.樣本相關系數r變大【典例1-2】已知表示變量x與y之間的相關系數,表示變量u與v之間的相關系數,且,,則( )A.變量x與y之間呈正相關關系,且x與y之間的相關性強于u與v之間的相關性B.變量x與y之間呈負相關關系,且x與y之間的相關性強于u與v之間的相關性C.變量u與v之間呈負相關關系,且x與y之間的相關性弱于u與v之間的相關性D.變量u與v之間呈正相關關系,且x與y之間的相關性弱于u與v之間的相關性【方法技巧】判定兩個變量相關性的方法(1)畫散點圖:點的分布從左下角到右上角,兩個變量正相關;點的分布從左上角到右下角,兩個變量負相關.(2)樣本相關系數:當r>0時,正相關;當r<0時,負相關;|r|越接近于1,相關性越強.(3)經驗回歸方程:當時,正相關;當時,負相關.【變式1-1】某校學生科研興趣小組為了解1~12歲兒童的體質健康情況,隨機調查了20名兒童的相關數據,分別制作了肺活量、視力、肢體柔韌度、BMI指數和身高之間的散點圖,則與身高之間具有正相關關系的是( )A.肺活量 B.視力 C.肢體柔韌度 D.BMI指數【變式1-2】對變量x,y由觀測數據得散點圖1;對變量u,v由觀測數據得散點圖2.表示變量x,y之間的線性相關系數,表示變量u,v之間的線性相關系數,則下列說法正確的是( )A.變量x與y呈現正相關,且 B.變量x與y呈現負相關,且C.變量u與v呈現正相關,且 D.變量u與v呈現負相關,且【變式1-3】(2024·江西南昌·三模)如圖對兩組數據,和,分別進行回歸分析,得到散點圖如圖,并求得線性回歸方程分別是和,并對變量,進行線性相關檢驗,得到相關系數,對變量,進行線性相關檢驗,得到相關系數,則下列判斷正確的是( )A. B. C. D.【變式1-4】(2024·遼寧葫蘆島·一模)已知變量與的回歸直線方程為,變量與負相關,則( )A.與負相關,與負相關 B.與正相關,與正相關C.與負相關,與正相關 D.與正相關,與負相關題型二:一元線性回歸模型【典例2-1】(2024·四川成都·模擬預測)已知關于x的一組數據:x 1 m 3 4 5y 0.5 0.6 n 1.3 1.4根據表中數據得到的線性回歸直線方程為,則的值 .【典例2-2】(2024·四川綿陽·三模)根據統計, 某蔬菜基地西紅柿畝產量的增加量 (百千克)與某種液體肥料每畝的使用量(千克)之間 的對應數據的散點圖如圖所示. (1)從散點圖可以看出, 可用線性回歸方程擬合 與的關系, 請計算樣本相關系數并判斷它們的相關程度;(2)求 關于的線性回歸方程, 并預測液體肥料每畝的使用量為 12 千克時西紅柿畝產量的增加量.附: .【方法技巧】求經驗回歸方程的步驟【變式2-1】某中醫藥企業根據市場調研與模擬,得到研發投入(億元)與產品收益(億元)的數據統計如下:研發投入(億元) 1 2 3 4 5產品收益(億元) 3 7 9 10 11(1)計算,的相關系數,并判斷是否可以認為研發投入與產品收益具有較高的線性相關程度?(若,則線性相關程度一般;若,則線性相關程度較高)(2)求出關于的線性回歸方程,并預測若想收益超過20(億元),則需研發投入至少多少億元?(結果保留一位小數)參考公式:回歸直線的斜率和截距的最小二乘法估計公式,相關系數的公式分別為,,.參考數據:,,.【變式2-2】(2024·河南周口·模擬預測)直播帶貨是扶貧助農的一種新模式,這種模式是利用主流媒體的公信力,聚合銷售主播的力量助力打通農產品產銷鏈條,切實助力農民增收.我國南方某蜜桔種植縣通過網絡平臺直播銷售蜜桔,其中每箱蜜桔重5千克,單價為40元/箱,已知最近5天單日直播總時長x(即所有主播的直播時長之和,單位:小時)與蜜桔的單目銷售量y(單位:百箱)之間的統計數據如下表:直播總時長x 8 9 11 12 15單日銷售量y 67 63 80 80 85可用線性回歸模型擬合y與x之間的關系.(1)試求變量y與x的線性回歸方程;(2)若每位主播每天直播的時間不超過4小時,要使每天直播帶貨銷售蜜桔的總金額超過60萬元,則至少要請幾位主播進行直播?(3)直播帶貨大大提升銷量的同時,也增加了壞果賠付的成本.該蜜桔平均每箱按80個計算,若客戶在收到貨時有壞果,則每個壞果要賠付1元.現有甲、乙兩款包裝箱,若采用甲款包裝箱,成本為元/箱,且每箱壞果的個數X服從;若采用乙款包裝箱,成本為元/箱,且每箱壞果的個數Y服從.請運用概率統計的相關知識分析,選擇哪款包裝箱獲得的利潤更大?附:,,,.【變式2-3】(2024·全國·模擬預測)氮氧化物是一種常見的大氣污染物,它是由氮和氧兩種元素組成的化合物,有多種不同的形式.下圖為我國2014年至2022年氮氧化物排放量(單位:萬噸)的折線圖,其中,年份代碼1~9分別對應年份2014~2022.計算得,,.(1)是否可用線性回歸模型擬合與的關系?請用折線圖和相關系數加以說明;(2)是否可用題中數據擬合得到的線性回歸模型預測2023年和2033年的氮氧化物排放量?請說明理由.附:相關系數,.題型三:非線性回歸【典例3-1】(多選題)(2024·湖北武漢·二模)在對具有相關關系的兩個變量進行回歸分析時,若兩個變量不呈線性相關關系,可以建立含兩個待定參數的非線性模型,并引入中間變量將其轉化為線性關系,再利用最小二乘法進行線性回歸分析.下列選項為四個同學根據自己所得數據的散點圖建立的非線性模型,且散點圖的樣本點均位于第一象限,則其中可以根據上述方法進行回歸分析的模型有( )A. B.C. D.【典例3-2】已知變量和之間的關系可以用模型來擬合.設,若根據樣本數據計算可得,且與的線性回歸方程為,則 .(參考數據:)【方法技巧】換元法變成一元線性回歸模型【變式3-1】紅蜘蛛是柚子的主要害蟲之一,能對柚子樹造成嚴重傷害,每只紅蜘蛛的平均產卵數(個)和平均溫度有關,現收集了以往某地的7組數據,得到下面的散點圖及一些統計量的值.參考數據17713 714 27 81.3(1)根據散點圖判斷,與(其中為自然對數的底數)哪一個更適合作為平均產卵數(個)關于平均溫度()的回歸方程類型?(給出判斷即可,不必說明理由)(2)由(1)的判斷結果及表中數據,求出關于的回歸方程.(計算結果精確到0.1)附:回歸方程中【變式3-2】設某幼苗從觀察之日起,第天的高度為,測得的一些數據如下表所示:第天 1 4 9 16 25 36 49高度 0 4 7 9 11 12 13作出這組數據的散點圖發現:與(天)之間近似滿足頭系式,其中,均為大于0的常數.(1)試借助一元線性回歸模型,根據所給數據,用最小二乘法對,作出估計,并求出關于的經驗回歸方程;(2)在作出的這組數據的散點圖中,甲同學隨機圈取了其中的4個點,記這4個點中幼苗的高度大于的點的個數為,其中為表格中所給的幼苗高度的平均數,試求隨機變量的分布列和數學期望.附:對于一組數據,,…,,其回歸直線方程的斜率和截距的最小二乘估計分別為,.【變式3-3】紅鈴蟲(Pectinophora gossypiella)是棉花的主要害蟲之一,其產卵數與溫度有關.現收集到一只紅鈴蟲的產卵數(個)和溫度()的8組觀測數據,制成圖1所示的散點圖.現用兩種模型①,②分別進行擬合,由此得到相應的回歸方程并進行殘差分析,進一步得到圖2所示的殘差圖.根據收集到的數據,計算得到如下值:25 2.9 646 168 422688 50.4 70308表中;;;(1)根據殘差圖,比較模型①、②的擬合效果,哪種模型比較合適?(2)根據(1)中所選擇的模型,求出關于的回歸方程.附:對于一組數據,其回歸直線的斜率和截距的最小二乘估計分別為,,【變式3-4】(2024·福建南平·模擬預測)某大型商場的所有飲料自動售賣機在一天中某種飲料的銷售量(單位:瓶)與天氣溫度(單位:)有很強的相關關系,為能及時給飲料自動售賣機添加該種飲料,該商場對天氣溫度和飲料的銷售量進行了數據收集,得到下面的表格:10 15 20 25 30 35 404 16 64 256 2048 4096 8192經分析,可以用作為關于的經驗回歸方程.(1)根據表中數據,求關于的經驗回歸方程(結果保留兩位小數);(2)若飲料自動售賣機在一天中不需添加飲料的記1分,需添加飲料的記2分,每臺飲料自動售賣機在一天中需添加飲料的概率均為,在商場的所有飲料自動售賣機中隨機抽取3臺,記總得分為隨機變量,求的分布列與數學期望.參考公式及數據:對于一組數據,經驗回歸方程的斜率和截距的最小二乘估計公式分別為【變式3-5】在國家積極推動美麗鄉村建設的政策背景下,各地根據當地生態資源打造了眾多特色紛呈的鄉村旅游勝地.某人意圖將自己位于鄉村旅游勝地的房子改造成民宿用于出租,在旅游淡季隨機選取100天,對當地已有的六間不同價位的民宿進行跟蹤,統計其出租率,設民宿租金為(單位:元/日),得到如圖的數據散點圖.(1)若用“出租率”近似估計旅游淡季民宿每天租出去的概率,求租金為388元的那間民宿在淡季內的3天中至少有2天閑置的概率.(2)(i)根據散點圖判斷,與哪個更適合此模型(給出判斷即可,不必說明理由)?根據判斷結果求經驗回歸方程.(ii)若該地一年中旅游淡季約為280天,在此期間無論民宿是否出租,每天都要付出的固定成本,若民宿出租,則每天需要再付出的日常支出成本.試用(i)中模型進行分析,旅游淡季民宿租金定為多少元時,該民宿在這280天的收益達到最大.附:記,,,,,,,,,,.【變式3-6】(2024·全國·模擬預測)近三年的新冠肺炎疫情對我們的生活產生了很大的影響,當然也影響著我們的旅游習慣,鄉村游、近郊游、周邊游熱鬧了許多,甚至出現“微度假”的概念.在國家有條不紊的防疫政策下,旅游又重新回到了老百姓的日常生活中.某鄉村抓住機遇,依托良好的生態環境、厚重的民族文化,開展鄉村旅游.通過文旅度假項目考察,該村推出了多款套票文旅產品,得到消費者的積極回應.該村推出了六條鄉村旅游經典線路,對應六款不同價位的旅游套票,相應的價格x與購買人數y的數據如下表.旅游線路 奇山秀水游 古村落游 慢生活游 親子游 采摘游 舌尖之旅套票型號 A B C D E F價格x/元 39 49 58 67 77 86經數據分析、描點繪圖,發現價格x與購買人數y近似滿足關系式,即,對上述數據進行初步處理,其中,,,2,…,6.附:①可能用到的數據:,,,.②對于一組數據,,…,,其回歸直線的斜率和截距的最小二乘估計值分別為,.(1)根據所給數據,求關于x的回歸方程.(2)按照相關部門的指標測定,當套票價格時,該套票受消費者的歡迎程度更高,可以被認定為“熱門套票”.現有三位游客,每人從以上六款套票中購買一款旅游,購買任意一款的可能性相等.若三人買的套票各不相同,記三人中購買“熱門套票”的人數為X,求隨機變量X的分布列和期望.題型四:列聯表與獨立性檢驗【典例4-1】觀察下圖的等高條形圖,其中最有把握認為兩個分類變量,之間沒有關系的是( )A. B. C. D. 【典例4-2】(2024·上海金山·二模)為了考察某種藥物預防疾病的效果,進行動物試驗,得到如下圖所示列聯表:藥物 疾病 合計未患病 患病服用 50未服用 50合計 80 20 100取顯著性水平,若本次考察結果支持“藥物對疾病預防有顯著效果”,則()的最小值為 .(參考公式:;參考值:)【方法技巧】獨立性檢驗的一般步驟(1)根據樣本數據制成2×2列聯表.(2)根據公式計算.(3)比較與臨界值的大小關系,作統計推斷.【變式4-1】(2024·四川成都·模擬預測)在學校食堂就餐成為了很多學生的就餐選擇.學校為了解學生食堂就餐情況,在校內隨機抽取了100名學生,其中男生和女生人數之比為,現將一周內在食堂就餐超過8次的學生認定為“喜歡食堂就餐”,不超過8次的學生認定為“不喜歡食堂就餐”.“喜歡食堂就餐”的人數比“不喜歡食堂就餐”人數多20人,“不喜歡食堂就餐”的男生只有10人.男生 女生 合計喜歡食堂就餐不喜歡食堂就餐 10合計 100(1)將上面的列聯表補充完整,并依據小概率值的獨立性檢驗,分析學生喜歡食堂就餐是否與性別有關:(2)用頻率估計概率,從該校學生中隨機抽取10名,記其中“喜歡食堂就餐”的人數為X.事件“”的概率為,求隨機變量X的期望和方差.參考公式:,其中.a 0.1 0.05 0.01 0.005 0.0012.706 3.841 6.635 7.879 10.828【變式4-2】(2024·高三·河南焦作·開學考試)交通強國,鐵路先行,每年我國鐵路部門都會根據運輸需求進行鐵路調圖,一鐵路線l上有自東向西依次編號為1,2,…,21的21個車站.(1)為調查乘客對調圖的滿意度,在編號為10和11兩個站點多次乘坐列車P的旅客中,隨機抽取100名旅客,得出數據(不完整)如下表所示:車站編號 滿意 不滿意 合計10 28 4011 3合計 85完善表格數據并計算分析:依據小概率值的獨立性檢驗,在這兩個車站中,能否認為旅客滿意程度與車站編號有關聯?(2)根據以往調圖經驗,列車P在編號為8至14的終到站每次調圖時有的概率改為當前終到站的西側一站,有的概率改為當前終到站的東側一站,每次調圖之間相互獨立.已知原定終到站編號為11的列車P經歷了3次調圖,第3次調圖后的終到站編號記為X,求X的分布列及均值.附:,其中.0.1 0.01 0.0012.706 6.635 10.828【變式4-3】2024年7月26日,第33屆夏季奧林匹克運動會在法國巴黎正式開幕.人們在觀看奧運比賽的同時,開始投入健身的行列.某興趣小組為了解成都市不同年齡段的市民每周鍛煉時長情況,隨機從抽取200人進行調查,得到如下列聯表:年齡 周平均鍛煉時長 合計周平均鍛煉時間少于4小時 周平均鍛煉時間不少于4小時50歲以下 40 60 10050歲以上(含50) 25 75 100合計 65 135 200(1)試根據的獨立性檢驗,分析周平均鍛煉時長是否與年齡有關?精確到0.001;(2)現從50歲以下的樣本中按周平均鍛煉時間是否少于4小時,用分層隨機抽樣法抽取5人做進一步訪談,再從這5人中隨機抽取3人填寫調查問卷.記抽取3人中周平均鍛煉時間不少于4小時的人數為,求的分布列和數學期望.0.1 0.05 0.01 0.005 0.0012.706 3.841 6.635 7.879 10.828參考公式及數據:,其中.【變式4-4】為研究“眼睛近視是否與長時間看電子產品有關”的問題,對某班同學的近視情況和看電子產品的時間進行了統計,得到如下的列聯表:近視情況 每天看電子產品的時間 合計超過一小時 一小時內近視 10人 5人 15人不近視 10人 25人 35人合計 20人 30人 50人附表:0.1 0.05 0.01 0.005 0.0012.706 3.841 6.635 7.879 10.828.(1)根據小概率值的獨立性檢驗,判斷眼睛近視是否與長時間看電子產品有關;(2)在該班近視的同學中隨機抽取3人,則至少有兩人每天看電子產品超過一小時的概率是多少?(3)以頻率估計概率,在該班所在學校隨機抽取2人,記其中近視的人數為X,每天看電子產品超過一小時的人數為Y,求的值.題型五:誤差分析【典例5-1】設滿足一元線性回歸模型的兩個變量的對樣本數據為,下列統計量中不能刻畫數據與直線的“整體接近程度”的是( )A. B. C. D.【典例5-2】對于數據組,如果由線性回歸方程得到的自變量的估計值是,那么將稱為樣本點處的殘差.某商場為了給一種新商品進行合理定價,將該商品按事先擬定的價格進行試銷,得到下表所示數據.若某商品銷量y(單位:件)與單價x(單位:元)之間的線性回歸方程為,且樣本點處的殘差為2,則( )單價x/元 8.2 8.4 8.6 8.8銷量y/件 84 82 78 mA.66 B.68 C.70 D.72【方法技巧】線性回歸誤差分析是評估模型預測結果與實際值之間差異的過程。誤差主要分為偏差和方差兩部分:偏差衡量了模型預測結果的平均準確性,反映了模型本身的擬合能力;方差則反映了模型在不同訓練集上的穩定性。在線性回歸模型中,通過調整模型復雜度、特征選擇、數據預處理等方式,可以有效降低偏差和方差,從而提升模型的預測性能。誤差分析有助于理解模型的表現,指導模型的改進方向。【變式5-1】(2024·江西萍鄉·三模)現收集到變量的六組觀測數據為:,用最小二乘法計算得其回歸直線為,相關系數為;經過殘差分析后發現為離群點(對應殘差絕對值過大的點),剔除后,用剩下的五組數據計算得其回歸直線為,相關系數為.則下列結論不正確的是( )A. B.C. D.去掉離群點后,殘差平方和變小【變式5-2】2024年全國田徑冠軍賽暨全國田徑大獎賽總決賽于6月30日在山東省日照市落幕.四川田徑隊的吳艷妮以12秒74分的成績打破了100米女子跨欄的亞洲紀錄,并奪得了2024年全國田徑冠軍賽女子100米跨欄決賽的冠軍,通過跑道側面的高清軌道攝像機記錄了該運動員時間(單位:)與位移(單位:)之間的關系,得到如下表數據:2.8 2.9 3 3.1 3.224 25 29 32 34畫出散點圖觀察可得與之間近似為線性相關關系.(1)求出關于的線性回歸方程;(2)記,其中為觀測值,為預測值,為對應的殘差,求前3項殘差的和.參考數據:,參考公式:.【變式5-3】某公司為了解年研發資金(單位:億元)對年產值(單位:億元)的影響,對公司近8年的年研發資金和年產值(,)的數據對比分析中,選用了兩個回歸模型,并利用最小二乘法求得相應的關于的經驗回歸方程:①;②.(1)求的值;(2)已知①中的殘差平方和,②中的殘差平方和,請根據決定系數選擇擬合效果更好的經驗回歸方程,并利用該經驗回歸方程預測年研發資金為20億元時的年產值.參考數據:,,,.參考公式;刻畫回歸模型擬合效果的決定系數.【變式5-4】(2024·四川德陽·三模)某公司為了確定下季度的前期廣告投入計劃,收集并整理了近6個月廣告投入量x(單位:萬元)和收益y(單位:萬元)的數據如表(其中有些數據污損不清):月份 1 2 3 4 5 6廣告投入量 2 7 8 10收益 20 30 34 37他們分別用兩種模型①,②進行擬合,得到相應的回歸方程并進行殘差分析,得到如圖所示的殘差圖及一些統計量的值.7 30 1470 370(1)根據殘差圖,比較模型①,②的擬合效果,應選擇哪個模型 (2)殘差絕對值大于2 的數據被認為是異常數據,需要剔除.(i)剔除異常數據后,求出(1)中所選模型的回歸方程;(ii)若廣告投入量x=19,則(1)中所選模型收益的預報值是多少萬元 (精確到0.01)附:對于一組數據 其回歸直線 的斜率和截距的最小二乘估計分別為: .1.(2024年上海秋季高考數學真題)已知氣候溫度和海水表層溫度相關,且相關系數為正數,對此描述正確的是( )A.氣候溫度高,海水表層溫度就高B.氣候溫度高,海水表層溫度就低C.隨著氣候溫度由低到高,海水表層溫度呈上升趨勢D.隨著氣候溫度由低到高,海水表層溫度呈下降趨勢2.(2023年天津高考數學真題)鳶是鷹科的一種鳥,《詩經·大雅·旱麓》曰:“鳶飛戾天,魚躍余淵”. 鳶尾花因花瓣形如鳶尾而得名,寓意鵬程萬里、前途無量.通過隨機抽樣,收集了若干朵某品種鳶尾花的花萼長度和花瓣長度(單位:cm),繪制散點圖如圖所示,計算得樣本相關系數為,利用最小二乘法求得相應的經驗回歸方程為,根據以上信息,如下判斷正確的為( )A.花瓣長度和花萼長度不存在相關關系B.花瓣長度和花萼長度負相關C.花萼長度為7cm的該品種鳶尾花的花瓣長度的平均值為D.若從樣本中抽取一部分,則這部分的相關系數一定是3.(2024年天津高考數學真題)下列圖中,線性相關性系數最大的是( )A. B.C. D.4.(2020年全國統一高考數學試卷(文科)(新課標Ⅰ))某校一個課外學習小組為研究某作物種子的發芽率y和溫度x(單位:°C)的關系,在20個不同的溫度條件下進行種子發芽實驗,由實驗數據得到下面的散點圖:由此散點圖,在10°C至40°C之間,下面四個回歸方程類型中最適宜作為發芽率y和溫度x的回歸方程類型的是( )A. B.C. D.1.某地區的環境條件適合天鵝棲息繁衍.有人發現了一個有趣的現象,該地區有5個村莊,其中3個村莊附近棲息的天鵝較多,嬰兒出生率也較高;2個村莊附近棲息的天鵝較少,嬰兒的出生率也較低.有人認為嬰兒出生率和天鵝數之間存在相關關系,并得出一個結論:天鵝能夠帶來孩子,你同意這個結論嗎?為什么?2.對于變量Y和變量x的成對樣本觀測數據,用一元線性回歸模型得到經驗回歸模型,對應的殘差如下圖所示,模型誤差( )A.滿足一元線性回歸模型的所有假設B.不滿足一元線性回歸模型的的假設C.不滿足一元線性回歸模型的假設D.不滿足一元線性回歸模型的和的假設3.根據分類變量與的觀測數據,計算得到.依據的獨立性檢驗,結論為( ).A.變量與不獨立B.變量與不獨立,這個結論犯錯誤的概率不超過C.變量與獨立D.變量與獨立,這個結論犯錯誤的概率不超過4.如果散點圖中所有的散點都落在一條斜率為非0的直線上,請回答下列問題:(1)解釋變量和響應變量的關系是什么?(2)是多少?5.一個車間為了規定工時定額,需要確定加工零件所花費的時間,為此進行了10次試驗,收集數據如下表所示.零件數x個 10 20 30 40 50 60 70 80 90 100加工時間ymin 62 68 75 81 89 95 102 108 115 122(1)畫出散點圖;(2)建立加工時間關于零件數的一元線性回歸模型(精確到0.001);(3)關于加工零件的個數與加工時間,你能得出什么結論?6.單位:人學校 數學成績 合計不優秀 優秀甲校乙校合計對列聯表中的數據,依據的獨立性檢驗,我們已經知道獨立性檢驗的結論是學校和成績無關.如果表中所有數據都擴大為原來的倍,在相同的檢驗標準下,再用獨立性檢驗推斷學校和數學成績之間的關聯性,結論還一樣嗎?請你試著解釋其中的原因.附:臨界值表:7.調查某醫院一段時間內嬰兒出生的時間和性別的關聯性,得到如下的列聯表:單位:人性別 出生時間 合計晚上 白天女 24 31 55男 8 26 34合計 32 57 89依據的獨立性檢驗,能否認為性別與出生時間有關聯?解釋所得結論的實際含義.8.為考查某種藥物預防疾病的效果,進行動物試驗,得到如下列聯表:單位:只藥物 疾病 合計未患病 患病未服用 75 66 141服用 112 47 159合計 187 113 300依據的獨立性檢驗,能否認為藥物有效呢?如何解釋得到的結論?第一步:提出零假設與相互獨立,并給出在問題中的解釋.第二步:根據抽樣數據整理出列聯表,計算的值,并與臨界值比較.第三步:根據檢驗規則得出結論.【經典例題1】下表是某屆某校本科志愿報名時,對其中304名學生進入高校時是否了解所學專業的調查表:了解所學專業 不了解所學專業 合計男生 63 117 180女生 42 82 124合計 105 199 304根據表中數據,下列說法正確的是 .(填序號)①性別與了解所學專業有關;②性別與了解所學專業無關;③女生比男生更了解所學專業.【經典例題2】某學校高三年級有學生1000人,經調查,其中750人經常參加體育鍛煉(稱為A類同學),另外250人不經常參加體育鍛煉(稱為B類同學).現用按比例分配的分層抽樣方法(按A類 B類分兩層)從該年級的學生中共抽查100人,如果以身高達到作為達標的標準,對抽取的100人,得到以下列聯表(單位:人):身高達標 身高不達標 總計經常參加體育鍛煉 40不經常參加體育鍛煉 15總計 100(1)完成上表;(2)依據的獨立性檢驗,能否認為經常參加體育鍛煉與身高達標有關系?注:.附表:0.10 0.05 0.025 0.010 0.005 0.0012.706 3.841 5.024 6.635 7.879 10.82821世紀教育網(www.21cnjy.com)第02講 成對數據的統計分析目錄01 考情透視·目標導航 202 知識導圖·思維引航 303 考點突破·題型探究 4知識點1:變量間的相關關系 4知識點2:線性回歸 5知識點3:非線性回歸 7知識點4:獨立性檢驗 8解題方法總結 11題型一:變量間的相關關系 12題型二:一元線性回歸模型 15題型三:非線性回歸 20題型四:列聯表與獨立性檢驗 28題型五:誤差分析 3404真題練習·命題洞見 3905課本典例·高考素材 4106易錯分析·答題模板 46易錯點:對回歸直線的性質理解不深刻 46答題模板:獨立性檢驗 47考點要求 考題統計 考情分析(1)變量的相關關系 (2)樣本相關系數 (3)一元線性回歸模型 (4)列聯表與獨立性檢驗 2024年甲卷(理)第17題,12分 2023年上海卷第14題,4分 2023年天津卷第7題,5分 2023年甲卷(文)第19題,12分 2022年I卷第20題,12分 從近五年的全國卷的考查情況來看,本節是高考的熱點,主要以解答題形式出現,經常與概率綜合出題,一般難度為中等.也可能以選擇題、填空題形式出現,難度不大.主要以應用題的方式出現,多與經濟、生活實際相聯系,需要在復雜的題目描述中找出數量關系,建立數學模型,并且運用數學模型解決實際問題.復習目標: (1)了解樣本相關系數的統計含義. (2)理解一元線性回歸模型和2×2列聯表,會運用這些方法解決簡單的實際問題. (3)會利用統計軟件進行數據分析.知識點1:變量間的相關關系1、變量之間的相關關系當自變量取值一定時,因變量的取值帶有一定的隨機性,則這兩個變量之間的關系叫相關關系.由于相關關系的不確定性,在尋找變量之間相關關系的過程中,統計發揮著非常重要的作用.我們可以通過收集大量的數據,在對數據進行統計分析的基礎上,發現其中的規律,對它們的關系作出判斷.注意:相關關系與函數關系是不同的,相關關系是一種非確定的關系,函數關系是一種確定的關系,而且函數關系是一種因果關系,但相關關系不一定是因果關系,也可能是伴隨關系.2、散點圖將樣本中的個數據點描在平面直角坐標系中,所得圖形叫做散點圖.根據散點圖中點的分布可以直觀地判斷兩個變量之間的關系.(1)如果散點圖中的點散布在從左下角到右上角的區域內,對于兩個變量的這種相關關系,我們將它稱為正相關,如圖(1)所示;(2)如果散點圖中的點散布在從左上角到右下角的區域內,對于兩個變量的這種相關關系,我們將它稱為負相關,如圖(2)所示.3、相關系數若相應于變量的取值,變量的觀測值為,則變量與的相關系數,通常用來衡量與之間的線性關系的強弱,的范圍為.(1)當時,表示兩個變量正相關;當時,表示兩個變量負相關.(2)越接近,表示兩個變量的線性相關性越強;越接近,表示兩個變量間幾乎不存在線性相關關系.當時,所有數據點都在一條直線上.(3)通常當時,認為兩個變量具有很強的線性相關關系.【診斷自測】如圖,為某組數據的散點圖,由最小二乘法計算得到回歸直線的方程為,相關系數為,決定系數為.若經過殘差分析后去掉點P,剩余的點重新計算得到回歸直線的方程為,相關系數為,決定系數為.則下列結論一定正確的是( )A. B. C. D.,【答案】C【解析】共8個點且離群點P的橫坐標較小而縱坐標相對過大,去掉離群點后回歸方程的斜率更大,故C正確去掉離群點后相關性更強,擬合效果也更好,且還是正相關,故D錯誤有,,故AB錯誤.故選:C.知識點2:線性回歸1、線性回歸線性回歸是研究不具備確定的函數關系的兩個變量之間的關系(相關關系)的方法.對于一組具有線性相關關系的數據(x1,y1),(x2,y2),…,(xn,yn),其回歸方程的求法為其中,,,(,)稱為樣本點的中心.2、殘差分析對于預報變量,通過觀測得到的數據稱為觀測值,通過回歸方程得到的稱為預測值,觀測值減去預測值等于殘差,稱為相應于點的殘差,即有.殘差是隨機誤差的估計結果,通過對殘差的分析可以判斷模型刻畫數據的效果以及判斷原始數據中是否存在可疑數據等,這方面工作稱為殘差分析.(1)殘差圖通過殘差分析,殘差點比較均勻地落在水平的帶狀區域中,說明選用的模型比較合適,其中這樣的帶狀區域的寬度越窄,說明模型擬合精確度越高;反之,不合適.(2)通過殘差平方和分析,如果殘差平方和越小,則說明選用的模型的擬合效果越好;反之,不合適.(3)相關指數用相關指數來刻畫回歸的效果,其計算公式是:.越接近于,說明殘差的平方和越小,也表示回歸的效果越好.【診斷自測】將某保護區分為面積大小相近的多個區域,用簡單隨機抽樣的方法抽取其中6個區域,統計這些區域內的某種水源指標和某植物分布的數量,得到樣本,且其相關系數,記關于的線性回歸方程為.經計算可知:,則 .參考公式:.【答案】/1.875【解析】因為,所以,由,解得,所以.故答案為:知識點3:非線性回歸解答非線性擬合問題,要先根據散點圖選擇合適的函數類型,設出回歸方程,通過換元將陌生的非線性回歸方程化歸轉化為我們熟悉的線性回歸方程.求出樣本數據換元后的值,然后根據線性回歸方程的計算方法計算變換后的線性回歸方程系數,還原后即可求出非線性回歸方程,再利用回歸方程進行預報預測,注意計算要細心,避免計算錯誤.1、建立非線性回歸模型的基本步驟:(1)確定研究對象,明確哪個是解釋變量,哪個是預報變量;(2)畫出確定好的解釋變量和預報變量的散點圖,觀察它們之間的關系(是否存在非線性關系);(3)由經驗確定非線性回歸方程的類型(如我們觀察到數據呈非線性關系,一般選用反比例函數、二次函數、指數函數、對數函數、冪函數模型等);(4)通過換元,將非線性回歸方程模型轉化為線性回歸方程模型;(5)按照公式計算線性回歸方程中的參數(如最小二乘法),得到線性回歸方程;(6)消去新元,得到非線性回歸方程;(7)得出結果后分析殘差圖是否有異常.若存在異常,則檢查數據是否有誤,或模型是否合適等.【診斷自測】某人新房剛裝修完,為了監測房屋內空氣質量的情況,每天在固定的時間測一次甲醛濃度(單位:mg/m3),連續測量了10天,所得數據繪制成散點圖如下:用表示第天測得的甲醛濃度,令,經計算得,,.(1)由散點圖可知,與可用指數型回歸模型進行擬合,請利用所給條件求出回歸方程;(系數精確到0.01)(2)已知房屋內空氣中的甲醛濃度的安全范圍是低于0.08 mg/m3,則根據(1)中所得回歸模型,該新房裝修完第幾天開始達到此標準?(參考數據:)附:,.【解析】(1)令,而,,則,,因此,即,所以所求回歸方程為.(2)由(1)知:,即,解得,所以,即在新房裝修完第35天開始達到此標準.知識點4:獨立性檢驗1、分類變量和列聯表(1)分類變量:變量的不同“值”表示個體所屬的不同類別,像這樣的變量稱為分類變量.(2)列聯表:①定義:列出的兩個分類變量的頻數表稱為列聯表.②2×2列聯表.一般地,假設有兩個分類變量X和Y,它們的取值分別為{,}和{,},其樣本頻數列聯表(稱為2×2列聯表)為總計總計從列表中,依據與的值可直觀得出結論:兩個變量是否有關系.2、等高條形圖(1)等高條形圖和表格相比,更能直觀地反映出兩個分類變量間是否相互影響,常用等高條形圖表示列聯表數據的頻率特征.(2)觀察等高條形圖發現與相差很大,就判斷兩個分類變量之間有關系.3、獨立性檢驗計算隨機變量利用的取值推斷分類變量X和Y是否獨立的方法稱為χ2獨立性檢驗.0.10 0.05 0.010 0.005 0.0012.706 3.841 6.635 7.879 10.828【診斷自測】近年中國新能源汽車進入高速發展時期.專家預測2024年中國汽車總銷售量將超過3100萬輛,繼續領跑全球.為了了解廣大消費者購買新能源汽車意向與年齡是否具有相關性,某汽車APP采用問卷調查形式對400名消費者進行調查,數據顯示這400人中中老年人共有150人,且愿意購買新能源車的人數是愿意購買燃油車的2倍;青年中愿意購買新能源車的人數是愿意購買燃油車的4倍.年齡段 購車意向 合計愿意購買新能源車 愿意購買燃油車青年中老年合計(1)完善2×2列聯表,請根據小概率值的獨立性檢驗,分析消費者對新能源車和燃油車的意向購買與年齡是否有關;(2)采用分層隨機抽樣從愿意購買新能源車的消費者中抽取9人,再從這9人中隨機抽取4人,求這4人中青年人數的期望.附:,.0.05 0.01 0.0013.841 6.635 10.828【解析】(1)中老年共有150人,且愿意購買新能源車的人數是愿意購買燃油車的2倍,所以愿意購買新能源車的中老年人數為100人,愿意購買燃油車的中老年人數為50人,青年共有250人,愿意購買新能源車是愿意購買燃油車的4倍,所以青年中愿意購買新能源車為200人,愿意購買燃油車為50人,得到如下2×2列聯表: 年齡段 購車意向 合計愿意購買新能源車 愿意購買燃油車青年 200 50 250中老年 100 50 150合計 300 100 400零假設:消費者購買新能源車和燃油車的意向與年齡無關,,根據小概率值的獨立性檢驗,我們推斷不成立,即認為消費者購買新能源車和燃油車的意向與年齡有關.(2)愿意購買新能源車的共有300人,青年人與中老年人的比例為2:1,所以分層隨機抽樣抽取的9人中6人是青年人,3人是中老年人,記這4人中,青年的人數為,則的可能取值為1,2,3,4,, ,,,所以的分布列如下:1 2 3 4,所以這4人中青年人數的期望為.解題方法總結常見的非線性回歸模型(1)指數函數型(且,)兩邊取自然對數,,即,令,原方程變為,然后按線性回歸模型求出,.(2)對數函數型令,原方程變為,然后按線性回歸模型求出,.(3)冪函數型兩邊取常用對數,,即,令,原方程變為,然后按線性回歸模型求出,.(4)二次函數型令,原方程變為,然后按線性回歸模型求出,.(5)反比例函數型型令,原方程變為,然后按線性回歸模型求出,.題型一:變量間的相關關系【典例1-1】已知5個成對數據的散點圖如下,若去掉點,則下列說法正確的是( )A.變量x與變量y呈正相關 B.變量x與變量y的相關性變強C.殘差平方和變大 D.樣本相關系數r變大【答案】B【解析】由散點圖可知,去掉點后,與的線性相關加強,且為負相關,所以B正確,A錯誤;由于與的線性相關加強,所以殘差平方和變小,所以C錯誤,由于與的線性相關加強,且為負相關,所以相關系數的絕對值變大,而相關系數為負的,所以樣本相關系數r變小,所以D錯誤.故選:B.【典例1-2】已知表示變量x與y之間的相關系數,表示變量u與v之間的相關系數,且,,則( )A.變量x與y之間呈正相關關系,且x與y之間的相關性強于u與v之間的相關性B.變量x與y之間呈負相關關系,且x與y之間的相關性強于u與v之間的相關性C.變量u與v之間呈負相關關系,且x與y之間的相關性弱于u與v之間的相關性D.變量u與v之間呈正相關關系,且x與y之間的相關性弱于u與v之間的相關性【答案】C【解析】因為線性相關系數,,所以變量x與y之間呈正相關關系,變量u與v之間呈負相關關系.因為|r|越接近1,兩個變量的線性相關程度越高,所以x與y之間的相關性弱于u與v之間的相關性.故選:C.【方法技巧】判定兩個變量相關性的方法(1)畫散點圖:點的分布從左下角到右上角,兩個變量正相關;點的分布從左上角到右下角,兩個變量負相關.(2)樣本相關系數:當r>0時,正相關;當r<0時,負相關;|r|越接近于1,相關性越強.(3)經驗回歸方程:當時,正相關;當時,負相關.【變式1-1】某校學生科研興趣小組為了解1~12歲兒童的體質健康情況,隨機調查了20名兒童的相關數據,分別制作了肺活量、視力、肢體柔韌度、BMI指數和身高之間的散點圖,則與身高之間具有正相關關系的是( )A.肺活量 B.視力 C.肢體柔韌度 D.BMI指數【答案】A【解析】對于A,兒童的身高越高,其肺活量越大,肺活量與身高具有正相關關系,A正確;對于B,兒童的視力隨身高的增大先增大,后減小,視力與身高不具有正相關關系,B錯誤;對于C,肢體柔韌度隨身高增大而減小,肢體柔韌度與身高不具有正相關關系,C錯誤;對于D,BMI指數與身高的相關性很弱,不具有正相關關系,D錯誤.故選:A【變式1-2】對變量x,y由觀測數據得散點圖1;對變量u,v由觀測數據得散點圖2.表示變量x,y之間的線性相關系數,表示變量u,v之間的線性相關系數,則下列說法正確的是( )A.變量x與y呈現正相關,且 B.變量x與y呈現負相關,且C.變量u與v呈現正相關,且 D.變量u與v呈現負相關,且【答案】A【解析】觀察散點圖,得變量x與y呈現正相關,變量u與v呈現負相關,BC錯誤;圖1中各點比圖2中各點更加集中,相關性更好,因此,A正確,D錯誤.故選:A【變式1-3】(2024·江西南昌·三模)如圖對兩組數據,和,分別進行回歸分析,得到散點圖如圖,并求得線性回歸方程分別是和,并對變量,進行線性相關檢驗,得到相關系數,對變量,進行線性相關檢驗,得到相關系數,則下列判斷正確的是( )A. B. C. D.【答案】D【解析】由散點圖可知,與負相關,與正相關,則,,故A、B錯誤;且圖形中點比更加集中在一條直線附近,則,又,,得.故C錯誤,D正確.故選:D.【變式1-4】(2024·遼寧葫蘆島·一模)已知變量與的回歸直線方程為,變量與負相關,則( )A.與負相關,與負相關 B.與正相關,與正相關C.與負相關,與正相關 D.與正相關,與負相關【答案】D【解析】根據回歸方程可知變量與正相關,又變量與負相關,由正相關、負相關的定義可知,與負相關.故選:D題型二:一元線性回歸模型【典例2-1】(2024·四川成都·模擬預測)已知關于x的一組數據:x 1 m 3 4 5y 0.5 0.6 n 1.3 1.4根據表中數據得到的線性回歸直線方程為,則的值 .【答案】0.64【解析】,,又題意得在上,故,故.故答案為:0.64【典例2-2】(2024·四川綿陽·三模)根據統計, 某蔬菜基地西紅柿畝產量的增加量 (百千克)與某種液體肥料每畝的使用量(千克)之間 的對應數據的散點圖如圖所示. (1)從散點圖可以看出, 可用線性回歸方程擬合 與的關系, 請計算樣本相關系數并判斷它們的相關程度;(2)求 關于的線性回歸方程, 并預測液體肥料每畝的使用量為 12 千克時西紅柿畝產量的增加量.附: .【解析】(1)由題知: 所以所以 所以 與 程正線性相關, 且相關程度很強.(2)因為 ,所以 關于 的線性回歸方程為 ,當 時, .所以預測液體肥料每畝的使用量為 12 千克時西紅柿畝產量的增加量為 9.9 百千克.【方法技巧】求經驗回歸方程的步驟【變式2-1】某中醫藥企業根據市場調研與模擬,得到研發投入(億元)與產品收益(億元)的數據統計如下:研發投入(億元) 1 2 3 4 5產品收益(億元) 3 7 9 10 11(1)計算,的相關系數,并判斷是否可以認為研發投入與產品收益具有較高的線性相關程度?(若,則線性相關程度一般;若,則線性相關程度較高)(2)求出關于的線性回歸方程,并預測若想收益超過20(億元),則需研發投入至少多少億元?(結果保留一位小數)參考公式:回歸直線的斜率和截距的最小二乘法估計公式,相關系數的公式分別為,,.參考數據:,,.【解析】(1)由表中數據可知,,,,,,則,故相關程度較高;(2),,則,,故,令,解得,故研發投入至少9.3億元.【變式2-2】(2024·河南周口·模擬預測)直播帶貨是扶貧助農的一種新模式,這種模式是利用主流媒體的公信力,聚合銷售主播的力量助力打通農產品產銷鏈條,切實助力農民增收.我國南方某蜜桔種植縣通過網絡平臺直播銷售蜜桔,其中每箱蜜桔重5千克,單價為40元/箱,已知最近5天單日直播總時長x(即所有主播的直播時長之和,單位:小時)與蜜桔的單目銷售量y(單位:百箱)之間的統計數據如下表:直播總時長x 8 9 11 12 15單日銷售量y 67 63 80 80 85可用線性回歸模型擬合y與x之間的關系.(1)試求變量y與x的線性回歸方程;(2)若每位主播每天直播的時間不超過4小時,要使每天直播帶貨銷售蜜桔的總金額超過60萬元,則至少要請幾位主播進行直播?(3)直播帶貨大大提升銷量的同時,也增加了壞果賠付的成本.該蜜桔平均每箱按80個計算,若客戶在收到貨時有壞果,則每個壞果要賠付1元.現有甲、乙兩款包裝箱,若采用甲款包裝箱,成本為元/箱,且每箱壞果的個數X服從;若采用乙款包裝箱,成本為元/箱,且每箱壞果的個數Y服從.請運用概率統計的相關知識分析,選擇哪款包裝箱獲得的利潤更大?附:,,,.【解析】(1)由題意得,,又,,所以,所以,所以經驗回歸方程為.(2)根據題意得:,解得,又,所以至少要請位主播進行直播;(3)對于乙款包裝箱,由,所以.設采用甲款包裝箱每箱獲得的利潤的數學期望為,則,設采用乙款包裝箱每箱獲得的利潤的數學期望為則,令,解得.因為,所以令解得,令解得.綜上所述,當時,采用兩款包裝箱獲得的利潤一樣;當時,采用甲款包裝箱獲得的利潤更大;當時,采用乙款包裝箱獲得的利潤更大.【變式2-3】(2024·全國·模擬預測)氮氧化物是一種常見的大氣污染物,它是由氮和氧兩種元素組成的化合物,有多種不同的形式.下圖為我國2014年至2022年氮氧化物排放量(單位:萬噸)的折線圖,其中,年份代碼1~9分別對應年份2014~2022.計算得,,.(1)是否可用線性回歸模型擬合與的關系?請用折線圖和相關系數加以說明;(2)是否可用題中數據擬合得到的線性回歸模型預測2023年和2033年的氮氧化物排放量?請說明理由.附:相關系數,.【解析】(1)從折線圖看,各點近似落在一條直線附近,因而可以用線性回歸模型擬合與的關系.因為,所以該組數據的相關系數.,因而可以用線性回歸模型擬合與的關系.(2)可以用回歸模型預測2023年的氮氧化物排放量,但不可以預測2033年的氮氧化物排放量,理由如下:①2023年與題設數據的年份較接近,因而可以認為,短期內氮氧化物的排放量將延續(1)中的線性趨勢,故可以用(1)中的回歸模型進行預測;②2033年與題設數據的年份相距過遠,而影響氮氧化物排放量的因素有很多,這些因素在短期內可能保持,但從長期角度看很有可能會變化,因而用(1)中的回歸模型預測是不準確的.題型三:非線性回歸【典例3-1】(多選題)(2024·湖北武漢·二模)在對具有相關關系的兩個變量進行回歸分析時,若兩個變量不呈線性相關關系,可以建立含兩個待定參數的非線性模型,并引入中間變量將其轉化為線性關系,再利用最小二乘法進行線性回歸分析.下列選項為四個同學根據自己所得數據的散點圖建立的非線性模型,且散點圖的樣本點均位于第一象限,則其中可以根據上述方法進行回歸分析的模型有( )A. B.C. D.【答案】ABC【解析】對于選項A :,令 則;對于選項B:令;對于選項 C:即 令 則;對于選項D: 令則此時斜率為 ,與最小二乘法不符.故選:ABC【典例3-2】已知變量和之間的關系可以用模型來擬合.設,若根據樣本數據計算可得,且與的線性回歸方程為,則 .(參考數據:)【答案】0.3【解析】由題意知,解得,所以,由,得,所以,則.故答案為:0.3【方法技巧】換元法變成一元線性回歸模型【變式3-1】紅蜘蛛是柚子的主要害蟲之一,能對柚子樹造成嚴重傷害,每只紅蜘蛛的平均產卵數(個)和平均溫度有關,現收集了以往某地的7組數據,得到下面的散點圖及一些統計量的值.參考數據17713 714 27 81.3(1)根據散點圖判斷,與(其中為自然對數的底數)哪一個更適合作為平均產卵數(個)關于平均溫度()的回歸方程類型?(給出判斷即可,不必說明理由)(2)由(1)的判斷結果及表中數據,求出關于的回歸方程.(計算結果精確到0.1)附:回歸方程中【解析】(1)由散點圖可以判斷,隨溫度升高,產卵數增長速度變快,符合指數函數模型的增長,所以更適宜作為平均產卵數關于平均溫度的回歸方程類型.(2)將兩邊同時取自然對數,可得,由題中的數據可得,,所以,則,所以關于的線性回歸方程為,故關于的回歸方程為【變式3-2】設某幼苗從觀察之日起,第天的高度為,測得的一些數據如下表所示:第天 1 4 9 16 25 36 49高度 0 4 7 9 11 12 13作出這組數據的散點圖發現:與(天)之間近似滿足頭系式,其中,均為大于0的常數.(1)試借助一元線性回歸模型,根據所給數據,用最小二乘法對,作出估計,并求出關于的經驗回歸方程;(2)在作出的這組數據的散點圖中,甲同學隨機圈取了其中的4個點,記這4個點中幼苗的高度大于的點的個數為,其中為表格中所給的幼苗高度的平均數,試求隨機變量的分布列和數學期望.附:對于一組數據,,…,,其回歸直線方程的斜率和截距的最小二乘估計分別為,.【解析】(1)令,則,根據已知數據表得到如下表:xy則,,可得,,通過上表計算可得:,因為回歸直線過點,則,所以y關于的回歸方程.(2)由題意可知:7天中幼苗高度大于的有4天,小于等于8的有3天,從散點圖中任取4個點,即從這7天中任取4天,所以這4個點中幼苗的高度大于的點的個數的取值為1,2,3,4,則有:;;;;所以隨機變量的分布列為:1 2 3 4隨機變量的期望值.【變式3-3】紅鈴蟲(Pectinophora gossypiella)是棉花的主要害蟲之一,其產卵數與溫度有關.現收集到一只紅鈴蟲的產卵數(個)和溫度()的8組觀測數據,制成圖1所示的散點圖.現用兩種模型①,②分別進行擬合,由此得到相應的回歸方程并進行殘差分析,進一步得到圖2所示的殘差圖.根據收集到的數據,計算得到如下值:25 2.9 646 168 422688 50.4 70308表中;;;(1)根據殘差圖,比較模型①、②的擬合效果,哪種模型比較合適?(2)根據(1)中所選擇的模型,求出關于的回歸方程.附:對于一組數據,其回歸直線的斜率和截距的最小二乘估計分別為,,【解析】(1)模型①更合適.模型①殘差點比較均勻地落在水平的帶狀區域中,且帶狀區域的寬度比模型②帶狀寬度窄,所以模型①的擬合精度更高,回歸方程的預報精度相應就會越高,故選模型①比較合適.(2)令與溫度x可以用線性回歸方程來擬合,則.,則關于的線性回歸方程為,即,產卵數y關于溫度x的回歸方程為.【變式3-4】(2024·福建南平·模擬預測)某大型商場的所有飲料自動售賣機在一天中某種飲料的銷售量(單位:瓶)與天氣溫度(單位:)有很強的相關關系,為能及時給飲料自動售賣機添加該種飲料,該商場對天氣溫度和飲料的銷售量進行了數據收集,得到下面的表格:10 15 20 25 30 35 404 16 64 256 2048 4096 8192經分析,可以用作為關于的經驗回歸方程.(1)根據表中數據,求關于的經驗回歸方程(結果保留兩位小數);(2)若飲料自動售賣機在一天中不需添加飲料的記1分,需添加飲料的記2分,每臺飲料自動售賣機在一天中需添加飲料的概率均為,在商場的所有飲料自動售賣機中隨機抽取3臺,記總得分為隨機變量,求的分布列與數學期望.參考公式及數據:對于一組數據,經驗回歸方程的斜率和截距的最小二乘估計公式分別為【解析】(1)設,由,可得,因為,,,所以,由表中的數據可得,則,所以,則,可得,所以關于的經驗回歸方程為.(2)由題意,隨機變量的可能取值為,可得,,,,所以變量的分布列為3 4 5 6P所以,期望為【變式3-5】在國家積極推動美麗鄉村建設的政策背景下,各地根據當地生態資源打造了眾多特色紛呈的鄉村旅游勝地.某人意圖將自己位于鄉村旅游勝地的房子改造成民宿用于出租,在旅游淡季隨機選取100天,對當地已有的六間不同價位的民宿進行跟蹤,統計其出租率,設民宿租金為(單位:元/日),得到如圖的數據散點圖.(1)若用“出租率”近似估計旅游淡季民宿每天租出去的概率,求租金為388元的那間民宿在淡季內的3天中至少有2天閑置的概率.(2)(i)根據散點圖判斷,與哪個更適合此模型(給出判斷即可,不必說明理由)?根據判斷結果求經驗回歸方程.(ii)若該地一年中旅游淡季約為280天,在此期間無論民宿是否出租,每天都要付出的固定成本,若民宿出租,則每天需要再付出的日常支出成本.試用(i)中模型進行分析,旅游淡季民宿租金定為多少元時,該民宿在這280天的收益達到最大.附:記,,,,,,,,,,.【解析】(1)因為每天的出租率為0.2,所以每天閑置的概率為,所以3天中至少有2天閑置的概率.(2)(i)根據散點圖的分布情況,各散點連線更貼近的圖象,故的擬合效果更好.依題意,,,所以,所以,所以經驗回歸方程為.(ii)設旅游淡季民宿租金為,則淡季該民宿的出租率,所以該民宿在這280天的收益為:,所以.令,得,所以,且當時,,時,,所以在上單調遞增,在上單調遞減,所以當時,取得最大值.所以旅游淡季民宿租金定為181元時,該民宿在這280天的收益達到最大.【變式3-6】(2024·全國·模擬預測)近三年的新冠肺炎疫情對我們的生活產生了很大的影響,當然也影響著我們的旅游習慣,鄉村游、近郊游、周邊游熱鬧了許多,甚至出現“微度假”的概念.在國家有條不紊的防疫政策下,旅游又重新回到了老百姓的日常生活中.某鄉村抓住機遇,依托良好的生態環境、厚重的民族文化,開展鄉村旅游.通過文旅度假項目考察,該村推出了多款套票文旅產品,得到消費者的積極回應.該村推出了六條鄉村旅游經典線路,對應六款不同價位的旅游套票,相應的價格x與購買人數y的數據如下表.旅游線路 奇山秀水游 古村落游 慢生活游 親子游 采摘游 舌尖之旅套票型號 A B C D E F價格x/元 39 49 58 67 77 86經數據分析、描點繪圖,發現價格x與購買人數y近似滿足關系式,即,對上述數據進行初步處理,其中,,,2,…,6.附:①可能用到的數據:,,,.②對于一組數據,,…,,其回歸直線的斜率和截距的最小二乘估計值分別為,.(1)根據所給數據,求關于x的回歸方程.(2)按照相關部門的指標測定,當套票價格時,該套票受消費者的歡迎程度更高,可以被認定為“熱門套票”.現有三位游客,每人從以上六款套票中購買一款旅游,購買任意一款的可能性相等.若三人買的套票各不相同,記三人中購買“熱門套票”的人數為X,求隨機變量X的分布列和期望.【解析】(1)散點集中在一條直線附近,設回歸直線方程為,,,則,,所以回歸直線方程為.因為,,所以,則,,所以.綜上,y關于x的回歸方程為.(2)由題意知B,C,D,E為“熱門套票”,則三人中購買“熱門套票”的人數X服從超幾何分布,X的可能取值為1,2,3,且,,.X的分布列如下.X 1 2 3P.題型四:列聯表與獨立性檢驗【典例4-1】觀察下圖的等高條形圖,其中最有把握認為兩個分類變量,之間沒有關系的是( )A. B. C. D. 【答案】B【解析】根據題意,在等高的條形圖中,當,所占比例相差越大時,越有把握認為兩個分類變量,之間有關系,由選項可得:B選項中,,所占比例相差無幾,所以最有把握認為兩個分類變量,之間沒有關系,故選:B【典例4-2】(2024·上海金山·二模)為了考察某種藥物預防疾病的效果,進行動物試驗,得到如下圖所示列聯表:藥物 疾病 合計未患病 患病服用 50未服用 50合計 80 20 100取顯著性水平,若本次考察結果支持“藥物對疾病預防有顯著效果”,則()的最小值為 .(參考公式:;參考值:)【答案】【解析】由題意可知,則,解得或,而,故m的最小值為44.故答案為:44.【方法技巧】獨立性檢驗的一般步驟(1)根據樣本數據制成2×2列聯表.(2)根據公式計算.(3)比較與臨界值的大小關系,作統計推斷.【變式4-1】(2024·四川成都·模擬預測)在學校食堂就餐成為了很多學生的就餐選擇.學校為了解學生食堂就餐情況,在校內隨機抽取了100名學生,其中男生和女生人數之比為,現將一周內在食堂就餐超過8次的學生認定為“喜歡食堂就餐”,不超過8次的學生認定為“不喜歡食堂就餐”.“喜歡食堂就餐”的人數比“不喜歡食堂就餐”人數多20人,“不喜歡食堂就餐”的男生只有10人.男生 女生 合計喜歡食堂就餐不喜歡食堂就餐 10合計 100(1)將上面的列聯表補充完整,并依據小概率值的獨立性檢驗,分析學生喜歡食堂就餐是否與性別有關:(2)用頻率估計概率,從該校學生中隨機抽取10名,記其中“喜歡食堂就餐”的人數為X.事件“”的概率為,求隨機變量X的期望和方差.參考公式:,其中.a 0.1 0.05 0.01 0.005 0.0012.706 3.841 6.635 7.879 10.828【解析】(1)列聯表見圖,男生 女生 合計喜歡食堂就餐 40 20 60不喜歡食堂就餐 10 30 40合計 50 50 100零假設:假設食堂就餐與性別無關,由列聯表可得,根據小概率的獨立性檢驗推斷不成立,即可以得到學生喜歡食堂就餐與性別有關,此推斷犯錯誤的概率不超過.(2)由題意可知,抽取的10名學生,喜歡飯堂就餐的學生人數服從二項分布,且喜歡飯堂就餐的頻率為,則,故其期望,方差.【變式4-2】(2024·高三·河南焦作·開學考試)交通強國,鐵路先行,每年我國鐵路部門都會根據運輸需求進行鐵路調圖,一鐵路線l上有自東向西依次編號為1,2,…,21的21個車站.(1)為調查乘客對調圖的滿意度,在編號為10和11兩個站點多次乘坐列車P的旅客中,隨機抽取100名旅客,得出數據(不完整)如下表所示:車站編號 滿意 不滿意 合計10 28 4011 3合計 85完善表格數據并計算分析:依據小概率值的獨立性檢驗,在這兩個車站中,能否認為旅客滿意程度與車站編號有關聯?(2)根據以往調圖經驗,列車P在編號為8至14的終到站每次調圖時有的概率改為當前終到站的西側一站,有的概率改為當前終到站的東側一站,每次調圖之間相互獨立.已知原定終到站編號為11的列車P經歷了3次調圖,第3次調圖后的終到站編號記為X,求X的分布列及均值.附:,其中.0.1 0.01 0.0012.706 6.635 10.828【解析】(1)補充列聯表如下:車站編號 滿意 不滿意 合計10 28 12 4011 57 3 60合計 85 15 100零假設為:旅客滿意程度與車站編號無關,則,所以根據小概率值的獨立性檢驗,推斷不成立,即認為旅客滿意程度與車站編號有關聯.(2)由題X的可能取值為,則; ;; ,所以X的分布列為X 8 10 12 14P所以.【變式4-3】2024年7月26日,第33屆夏季奧林匹克運動會在法國巴黎正式開幕.人們在觀看奧運比賽的同時,開始投入健身的行列.某興趣小組為了解成都市不同年齡段的市民每周鍛煉時長情況,隨機從抽取200人進行調查,得到如下列聯表:年齡 周平均鍛煉時長 合計周平均鍛煉時間少于4小時 周平均鍛煉時間不少于4小時50歲以下 40 60 10050歲以上(含50) 25 75 100合計 65 135 200(1)試根據的獨立性檢驗,分析周平均鍛煉時長是否與年齡有關?精確到0.001;(2)現從50歲以下的樣本中按周平均鍛煉時間是否少于4小時,用分層隨機抽樣法抽取5人做進一步訪談,再從這5人中隨機抽取3人填寫調查問卷.記抽取3人中周平均鍛煉時間不少于4小時的人數為,求的分布列和數學期望.0.1 0.05 0.01 0.005 0.0012.706 3.841 6.635 7.879 10.828參考公式及數據:,其中.【解析】(1)零假設:周平均鍛煉時長與年齡無關聯.由列聯表中的數據,可得,.根據小概率值的獨立性檢驗,我們推斷不成立,即認為周平均鍛煉時長與年齡有關聯,此推斷犯錯誤的概率不大于.所以50歲以下和50歲以上(含50)周平均鍛煉時長有差異.(2)抽取的5人中,周平均鍛煉時長少于4小時的有人,不少于4小時的有人,所以所有可能的取值為,所以,,,所以隨機變量的分布列為:1 2 3隨機變量的數學期望【變式4-4】為研究“眼睛近視是否與長時間看電子產品有關”的問題,對某班同學的近視情況和看電子產品的時間進行了統計,得到如下的列聯表:近視情況 每天看電子產品的時間 合計超過一小時 一小時內近視 10人 5人 15人不近視 10人 25人 35人合計 20人 30人 50人附表:0.1 0.05 0.01 0.005 0.0012.706 3.841 6.635 7.879 10.828.(1)根據小概率值的獨立性檢驗,判斷眼睛近視是否與長時間看電子產品有關;(2)在該班近視的同學中隨機抽取3人,則至少有兩人每天看電子產品超過一小時的概率是多少?(3)以頻率估計概率,在該班所在學校隨機抽取2人,記其中近視的人數為X,每天看電子產品超過一小時的人數為Y,求的值.【解析】(1)零假設為:學生患近視與長時間使用電子產品無關.計算可得,,根據小概率值的獨立性檢驗,我們推斷不成立,即認為患近視與長時間使用電子產品的習慣有關.(2)每天看電子產品超過一小時的人數為,則,所以在該班近視的同學中隨機抽取3人,則至少有兩人每天看電子產品超過一小時的概率是.(3)依題意,,,事件包含兩種情況:①其中一人每天看電子產品超過一小時且近視,另一人既不近視,每天看電子產品也沒超過一小時;②其中一人每天看電子產品超過一小時且不近視,另一人近視且每天看電子產品沒超過一小時,于是,所以.題型五:誤差分析【典例5-1】設滿足一元線性回歸模型的兩個變量的對樣本數據為,下列統計量中不能刻畫數據與直線的“整體接近程度”的是( )A. B. C. D.【答案】D【解析】統計量和可以刻畫數據點與直線的豎直距離,進而可以刻畫數據與直線的“整體接近程度”,AC選項不符合題意.統計量可以刻畫數據點與直線的距離,也可以刻畫數據與直線的“整體接近程度”,B選項不符合題意.統計量的計算會出現直線兩側的數據點在代數上正負抵消的情況,因此不能刻畫數據與直線的“整體接近程度”,D選項符合題意.故選:D.【典例5-2】對于數據組,如果由線性回歸方程得到的自變量的估計值是,那么將稱為樣本點處的殘差.某商場為了給一種新商品進行合理定價,將該商品按事先擬定的價格進行試銷,得到下表所示數據.若某商品銷量y(單位:件)與單價x(單位:元)之間的線性回歸方程為,且樣本點處的殘差為2,則( )單價x/元 8.2 8.4 8.6 8.8銷量y/件 84 82 78 mA.66 B.68 C.70 D.72【答案】B【解析】由條件知當時,,代入,解得,于是,又,所以,即,解得.故選:B.【方法技巧】線性回歸誤差分析是評估模型預測結果與實際值之間差異的過程。誤差主要分為偏差和方差兩部分:偏差衡量了模型預測結果的平均準確性,反映了模型本身的擬合能力;方差則反映了模型在不同訓練集上的穩定性。在線性回歸模型中,通過調整模型復雜度、特征選擇、數據預處理等方式,可以有效降低偏差和方差,從而提升模型的預測性能。誤差分析有助于理解模型的表現,指導模型的改進方向。【變式5-1】(2024·江西萍鄉·三模)現收集到變量的六組觀測數據為:,用最小二乘法計算得其回歸直線為,相關系數為;經過殘差分析后發現為離群點(對應殘差絕對值過大的點),剔除后,用剩下的五組數據計算得其回歸直線為,相關系數為.則下列結論不正確的是( )A. B.C. D.去掉離群點后,殘差平方和變小【答案】B【解析】由數據得:,,則,剔除離群點后:,,則,A. ,故正確;B. ,故錯誤;C. 剔除離群點后,相關程度越大,所以相關系數,故正確;D.剔除離群點后,相關程度越大,所以殘差平方和變小,故正確.故選:B.【變式5-2】2024年全國田徑冠軍賽暨全國田徑大獎賽總決賽于6月30日在山東省日照市落幕.四川田徑隊的吳艷妮以12秒74分的成績打破了100米女子跨欄的亞洲紀錄,并奪得了2024年全國田徑冠軍賽女子100米跨欄決賽的冠軍,通過跑道側面的高清軌道攝像機記錄了該運動員時間(單位:)與位移(單位:)之間的關系,得到如下表數據:2.8 2.9 3 3.1 3.224 25 29 32 34畫出散點圖觀察可得與之間近似為線性相關關系.(1)求出關于的線性回歸方程;(2)記,其中為觀測值,為預測值,為對應的殘差,求前3項殘差的和.參考數據:,參考公式:.【解析】(1)依題意可得所以關于的線性回歸方程為.(2)根據(1)得到;;,所以.【變式5-3】某公司為了解年研發資金(單位:億元)對年產值(單位:億元)的影響,對公司近8年的年研發資金和年產值(,)的數據對比分析中,選用了兩個回歸模型,并利用最小二乘法求得相應的關于的經驗回歸方程:①;②.(1)求的值;(2)已知①中的殘差平方和,②中的殘差平方和,請根據決定系數選擇擬合效果更好的經驗回歸方程,并利用該經驗回歸方程預測年研發資金為20億元時的年產值.參考數據:,,,.參考公式;刻畫回歸模型擬合效果的決定系數.【解析】(1)根據題意,,,所以樣本中心點為,代入經驗回歸方程,得,解得.所以的值為.(2)設經驗回歸方程①的決定系數為,由,則,設經驗回歸方程②的決定系數為,由,則,因為,所以經驗回歸方程②的擬合效果更好;當時,,所以年研發資金為20億元時的年產值約為億元.【變式5-4】(2024·四川德陽·三模)某公司為了確定下季度的前期廣告投入計劃,收集并整理了近6個月廣告投入量x(單位:萬元)和收益y(單位:萬元)的數據如表(其中有些數據污損不清):月份 1 2 3 4 5 6廣告投入量 2 7 8 10收益 20 30 34 37他們分別用兩種模型①,②進行擬合,得到相應的回歸方程并進行殘差分析,得到如圖所示的殘差圖及一些統計量的值.7 30 1470 370(1)根據殘差圖,比較模型①,②的擬合效果,應選擇哪個模型 (2)殘差絕對值大于2 的數據被認為是異常數據,需要剔除.(i)剔除異常數據后,求出(1)中所選模型的回歸方程;(ii)若廣告投入量x=19,則(1)中所選模型收益的預報值是多少萬元 (精確到0.01)附:對于一組數據 其回歸直線 的斜率和截距的最小二乘估計分別為: .【解析】(1)由于模型①殘差波動小,應該選擇模型①.(2)(i)剔除異常數據,即3月份的數據,剩下數據的平均數為,,,,,,,所以所選模型的回歸方程為.(ii)若廣告投入量,則該模型收益的預報值是(萬元).1.(2024年上海秋季高考數學真題)已知氣候溫度和海水表層溫度相關,且相關系數為正數,對此描述正確的是( )A.氣候溫度高,海水表層溫度就高B.氣候溫度高,海水表層溫度就低C.隨著氣候溫度由低到高,海水表層溫度呈上升趨勢D.隨著氣候溫度由低到高,海水表層溫度呈下降趨勢【答案】C【解析】對于AB,當氣候溫度高,海水表層溫度變高變低不確定,故AB錯誤.對于CD,因為相關系數為正,故隨著氣候溫度由低到高時,海水表層溫度呈上升趨勢,故C正確,D錯誤.故選:C.2.(2023年天津高考數學真題)鳶是鷹科的一種鳥,《詩經·大雅·旱麓》曰:“鳶飛戾天,魚躍余淵”. 鳶尾花因花瓣形如鳶尾而得名,寓意鵬程萬里、前途無量.通過隨機抽樣,收集了若干朵某品種鳶尾花的花萼長度和花瓣長度(單位:cm),繪制散點圖如圖所示,計算得樣本相關系數為,利用最小二乘法求得相應的經驗回歸方程為,根據以上信息,如下判斷正確的為( )A.花瓣長度和花萼長度不存在相關關系B.花瓣長度和花萼長度負相關C.花萼長度為7cm的該品種鳶尾花的花瓣長度的平均值為D.若從樣本中抽取一部分,則這部分的相關系數一定是【答案】C【解析】根據散點的集中程度可知,花瓣長度和花萼長度有相關性,A選項錯誤散點的分布是從左下到右上,從而花瓣長度和花萼長度呈現正相關性,B選項錯誤,把代入可得,C選項正確;由于是全部數據的相關系數,取出來一部分數據,相關性可能變強,可能變弱,即取出的數據的相關系數不一定是,D選項錯誤故選:C3.(2024年天津高考數學真題)下列圖中,線性相關性系數最大的是( )A. B.C. D.【答案】A【解析】觀察4幅圖可知,A圖散點分布比較集中,且大體接近某一條直線,線性回歸模型擬合效果比較好,呈現明顯的正相關,值相比于其他3圖更接近1.故選:A4.(2020年全國統一高考數學試卷(文科)(新課標Ⅰ))某校一個課外學習小組為研究某作物種子的發芽率y和溫度x(單位:°C)的關系,在20個不同的溫度條件下進行種子發芽實驗,由實驗數據得到下面的散點圖:由此散點圖,在10°C至40°C之間,下面四個回歸方程類型中最適宜作為發芽率y和溫度x的回歸方程類型的是( )A. B.C. D.【答案】D【解析】由散點圖分布可知,散點圖分布在一個對數函數的圖象附近,因此,最適合作為發芽率和溫度的回歸方程類型的是.故選:D.1.某地區的環境條件適合天鵝棲息繁衍.有人發現了一個有趣的現象,該地區有5個村莊,其中3個村莊附近棲息的天鵝較多,嬰兒出生率也較高;2個村莊附近棲息的天鵝較少,嬰兒的出生率也較低.有人認為嬰兒出生率和天鵝數之間存在相關關系,并得出一個結論:天鵝能夠帶來孩子,你同意這個結論嗎?為什么?【解析】某個地區的環境條件適合天鵝棲息繁衍,與這個地區的環境條件有很大的關系,適合天鵝棲息的地區天鵝棲息就較多,不適合天鵝棲息的地區天鵝棲息就較少,嬰兒出生率與生理遺傳有關,當然也受地區環境的影響,但是兩者并不存在必然的相關關系,“天鵝能夠帶來孩子”這個結論是錯誤的.2.對于變量Y和變量x的成對樣本觀測數據,用一元線性回歸模型得到經驗回歸模型,對應的殘差如下圖所示,模型誤差( )A.滿足一元線性回歸模型的所有假設B.不滿足一元線性回歸模型的的假設C.不滿足一元線性回歸模型的假設D.不滿足一元線性回歸模型的和的假設【答案】C【解析】用一元線性回歸模型得到經驗回歸模型,根據對應的殘差圖,殘差的均值可能成立,但明顯殘差的軸上方的數據更分散,不滿足一元線性回歸模型,正確的只有C.故選:C.3.根據分類變量與的觀測數據,計算得到.依據的獨立性檢驗,結論為( ).A.變量與不獨立B.變量與不獨立,這個結論犯錯誤的概率不超過C.變量與獨立D.變量與獨立,這個結論犯錯誤的概率不超過【答案】C【解析】由表可知當時,,因為,所以分類變量與相互獨立,因為,所以分類變量與相互獨立,這個結論犯錯誤的概率不超過,故選:C4.如果散點圖中所有的散點都落在一條斜率為非0的直線上,請回答下列問題:(1)解釋變量和響應變量的關系是什么?(2)是多少?【解析】(1)因為散點圖中所有的散點都落在一條斜率為非0的直線上,所以解釋變量和響應變量的關系是線性函數關系.(2)由(1)知:5.一個車間為了規定工時定額,需要確定加工零件所花費的時間,為此進行了10次試驗,收集數據如下表所示.零件數x個 10 20 30 40 50 60 70 80 90 100加工時間ymin 62 68 75 81 89 95 102 108 115 122(1)畫出散點圖;(2)建立加工時間關于零件數的一元線性回歸模型(精確到0.001);(3)關于加工零件的個數與加工時間,你能得出什么結論?【解析】(1)畫出散點圖如下圖所示:(2),,,所以.(3)根據回歸直線方程可知:每多加工個零件,需要增加分鐘加工時間.6.單位:人學校 數學成績 合計不優秀 優秀甲校乙校合計對列聯表中的數據,依據的獨立性檢驗,我們已經知道獨立性檢驗的結論是學校和成績無關.如果表中所有數據都擴大為原來的倍,在相同的檢驗標準下,再用獨立性檢驗推斷學校和數學成績之間的關聯性,結論還一樣嗎?請你試著解釋其中的原因.附:臨界值表:【解析】數據擴大倍的列聯表為:學校 數學成績 合計不優秀 優秀甲校乙校合計假設學校與數學成績無關,由列聯表數據得,根據小概率值的獨立性檢驗,我們推斷假設不成立,即認為學校與數學成績有關,又因為甲校成績優秀和不優秀的概率分別為,,乙校成績優秀和不優秀的概率分別為,,又因為,所以,從甲校、乙校各抽取一個學生,甲校學生數學成績優秀的概率比乙校學生優秀的概率大.所以,結論不一樣,不一樣的原因在于樣本容量,當樣本容量越大時,用樣本估計總體的準確性會越高.7.調查某醫院一段時間內嬰兒出生的時間和性別的關聯性,得到如下的列聯表:單位:人性別 出生時間 合計晚上 白天女 24 31 55男 8 26 34合計 32 57 89依據的獨立性檢驗,能否認為性別與出生時間有關聯?解釋所得結論的實際含義.【解析】由題意得的觀測值為:,∴在犯錯的概率不超過0.1的前提下可以認為性別與出生時間有關聯.8.為考查某種藥物預防疾病的效果,進行動物試驗,得到如下列聯表:單位:只藥物 疾病 合計未患病 患病未服用 75 66 141服用 112 47 159合計 187 113 300依據的獨立性檢驗,能否認為藥物有效呢?如何解釋得到的結論?【解析】由列聯表可得,,在犯錯誤的概率不超過的前提下認為藥物有效.解釋:由于,所以表示有小于的可能性證明這兩個事件無關,也就是在犯錯誤的概率不超過的前提下認為藥物有效易錯點:對回歸直線的性質理解不深刻易錯分析: 對回歸直線的性質理解不到位,容易出錯.【易錯題1】為了考查兩個變量x和y之間的線性相關性,甲、乙兩位同學各自獨立地做10次和15次驗,并且利用線性回歸方程,求得回歸直線分別為和.已知兩個人在試驗中發現對變x的觀測數據的平均值都是s,對變量y的觀測數據的平均值都為t,那么下列說法正確的( )A.與相交于點(s,t)B.與相交,交點不一定是(s,t)C.與必關于點(s,t)對稱D.與必定重合【答案】A【解析】根據線性回歸方程l1和l2都過樣本中心點(s,t),∴與相交于點,A說法正確.故選A.【易錯題2】(多選題)對于變量和變量,經過隨機抽樣獲得成對樣本數據,,2,3,…,10,且,樣本數據對應的散點大致分布在一條直線附近.利用最小二乘法求得經驗回歸方程:,分析發現樣本數據對應的散點遠離經驗回歸直線,將其剔除后得到新的經驗回歸直線,則( )A.變量與變量具有正相關關系B.剔除后,變量與變量的樣本相關系數變小C.新的經驗回歸直線經過點D.若新的經驗回歸直線經過點,則其方程為【答案】AD【解析】依題意,經驗回歸方程:,因此相關變量x,y具有正相關關系,A正確;由剔除的是偏離直線較大的異常點,得剔除該點后,新樣本數據的線性相關程度變強,即樣本相關系數的絕對值變大,B錯誤;【解析】,所以性別是否與了解所學專業無關.故答案為:②【經典例題2】某學校高三年級有學生1000人,經調查,其中750人經常參加體育鍛煉(稱為A類同學),另外250人不經常參加體育鍛煉(稱為B類同學).現用按比例分配的分層抽樣方法(按A類 B類分兩層)從該年級的學生中共抽查100人,如果以身高達到作為達標的標準,對抽取的100人,得到以下列聯表(單位:人):身高達標 身高不達標 總計經常參加體育鍛煉 40不經常參加體育鍛煉 15總計 100(1)完成上表;(2)依據的獨立性檢驗,能否認為經常參加體育鍛煉與身高達標有關系?注:.附表:0.10 0.05 0.025 0.010 0.005 0.0012.706 3.841 5.024 6.635 7.879 10.828【解析】(1)填寫列聯表(單位:人)如下:身高達標 身高不達標 總計經常參加體育鍛煉 40 35 75不經常參加體育鍛煉 10 15 25總計 50 50 100(2)零假設為:經常參加體育鍛煉與身高達標無關聯.由列聯表中的數據,.根據的獨立性檢驗,沒有充分證據證明不成立,即認為經常參加體育鍛煉與身高達標無關聯.21世紀教育網(www.21cnjy.com) 展開更多...... 收起↑ 資源列表 2025年新高考數學一輪復習第9章第02講成對數據的統計分析(五大題型)(講義)(學生版).docx 2025年新高考數學一輪復習第9章第02講成對數據的統計分析(五大題型)(講義)(教師版).docx 縮略圖、資源來源于二一教育資源庫