資源簡介 (共17張PPT)回歸分析123回歸分析的基本概念回歸分析的參數(shù)計算編程舉例說明備用:深度學(xué)習(xí):人工智能 展望與挑戰(zhàn)未來的深度學(xué)習(xí)在現(xiàn)實生活中,往往需要分析若干變量之間的關(guān)系,如碳排放量與氣候變暖之間的關(guān)系、某商品的廣告投人量與銷售量之間的關(guān)系等,這種分析不同變量之間存在關(guān)系的研究叫回歸分析,刻畫不同變量之間關(guān)系的模型稱為回歸模型。一旦確定了回歸模型,就可以進(jìn)行預(yù)測等分析工作,如從碳排放量預(yù)測氣候變化程度、從廣告投人量預(yù)測商品銷售量等。回歸分析二氧化碳濃度在逐年緩慢增加,→二氧化碳濃度=a*年份+b設(shè)時間年份為x、二氧化碳濃度為y,即y=ax+b。利用表中8組數(shù)據(jù)可確定模型中參數(shù)a和b的值,一旦求解出a和b的值,輸入任意的時間年份(甚至是1970年之前的時間年份),該模型可估算出該時間年份所對應(yīng)的二氧化碳濃度值。這種建立變量之間關(guān)聯(lián)關(guān)系,且利用這種關(guān)聯(lián)關(guān)系進(jìn)行預(yù)測分析的方法叫回歸分析。2.5.1回歸分析的概念監(jiān)督學(xué)習(xí): 利用一組已知類別的樣本調(diào)整分類器的參數(shù),使其達(dá)到所要求性能的過程。無監(jiān)督學(xué)習(xí): 根據(jù)類別未知(沒有被標(biāo)記)的訓(xùn)練樣本解決模式識別中的各種問題的過程。“監(jiān)督學(xué)習(xí)”與“無監(jiān)督學(xué)習(xí)”區(qū)別在回歸分析中,刻畫數(shù)學(xué)關(guān)系的模型包含了一些未知參數(shù)(如y=ax+b中的參數(shù)a和b )這些參數(shù)需要從已有數(shù)據(jù)中計算得到。那么如何預(yù)設(shè)一個合理的模型 又如何對模型中的未知參數(shù)進(jìn)行計算呢 說明:為了簡化問題,往往假設(shè)模型是符合線性分布最簡單的線性回歸模型就是一元線性回歸模型,只包含一個自變量x和一個因變量y,并且假定自變量和因變量之間存在如y=ax+b的線性關(guān)系。一元線性回歸分析實際上就是尋找“ax+b”形成的一條直線,使得這條直線盡可能靠近或穿過這8組(x,y)數(shù)據(jù),即能夠以最小的誤差來擬合這8組(x,y)數(shù)據(jù)。如何計算參數(shù)a和b使誤差最小化?如何表示誤差 2.5.2回歸分析中參數(shù)計算一旦給定了參數(shù)a和b,通過計算ax+b得到的值記為=ax+b,接著計算y和之間差的絕對值|-y|,將這個差的絕對值作為對應(yīng)的真實值(即y)和模型預(yù)測值(即)之間的誤差,這個誤差通常稱為“殘差”。為了計算方便,在實際中一般使用(-y)2而不是|-y|引作為“殘差”。這樣對于給定的n組(x,y)數(shù)據(jù),可用不同的a和b來刻畫這n組數(shù)據(jù)所隱含的y=ax+b關(guān)系。對于這些不同的參數(shù),最佳回歸模型是最小化殘差平方和的均值,即要求n組(x,y)數(shù)據(jù)得到的殘差平均值最小。從殘差的定義可看出,殘差平均值最小只與參數(shù)a和b有關(guān),最優(yōu)解即使得殘差最小所對應(yīng)的a和b的值。2.5.2回歸分析中參數(shù)計算可通過最小二乘法(leastsquare)來求解使得殘差最小的a和b。8組(x,y)樣本數(shù)據(jù)點記為(x1,y1),(x2,y2),(x8,y8),時間年份變量x的平均值記為,因變量y的平均值記為,那么a和b值的計算公式如下:預(yù)測莫納羅亞山地區(qū)二氧化碳濃度的一元線性回歸模型為:二氧化碳濃度=1.5344x時間年份-2698.9,即y=1.5344x-2698.9。2.5.2回歸分析中參數(shù)計算最小二乘法是一種機器學(xué)習(xí)的優(yōu)化技術(shù),其將殘差平方之和最小化作為目標(biāo),找到最優(yōu)模型來擬合已知的觀測數(shù)據(jù),使得模型所預(yù)測的數(shù)據(jù)與實際數(shù)據(jù)之間誤差的平方和最小,一般有線性最小二乘法和非線性最小二乘法兩種方法。用線性最小二乘法來解決線性回歸模型存在封閉形式(closed-formsolution)唯一解,這個解得到的回歸模型使得所有觀測數(shù)據(jù)都在一條直線上或直線附近。非線性最小二乘法需要用數(shù)值方法來求解,比如隨機梯度下降或者牛頓法等。拓展鏈接——最小二乘法梯度下降:是迭代法的一種,可以用于求解最小二乘問題(線性和非線性都可以)。在求解機器學(xué)習(xí)算法的模型參數(shù),即無約束優(yōu)化問題時,梯度下降(Gradient Descent)是最常采用的方法之一,另一種常用的方法是最小二乘法。在機器學(xué)習(xí)中,基于基本的梯度下降法發(fā)展了兩種梯度下降方法,分別為隨機梯度下降法和批量梯度下降法。二氧化碳濃度的一元線性回歸模型 y=1.5344x-2698.9對莫納羅亞山地區(qū)1970年之前和2005年之后的二氧化碳濃度進(jìn)行估算:2.5.2回歸分析——實例分析進(jìn)一步探究地球氣溫變化與二氧化碳濃度之間的關(guān)系二氧化碳濃度和溫度之間有怎樣的一元線性關(guān)系呢 2.5.2回歸分析——實例分析【演示python程序】任務(wù)1:使用matplotlib工具包將當(dāng)前二氧化碳濃度和溫度數(shù)據(jù)繪制散點圖2.5.2回歸分析——實例分析任務(wù)2:根據(jù)最小二乘法計算公式,使用當(dāng)前給定的數(shù)據(jù)來計算參數(shù)a和b。在散點圖代碼之前添加一段計算參數(shù)的代碼,繪制擬合直線。2.5.2回歸分析——實例分析由圖可以看出,計算所得直線是符合數(shù)據(jù)點變化趨勢的。這說明了最小二乘法在一元線性回歸中的有效性。攝氏溫度(°C)和華氏溫度(°F)是兩種計量溫度的標(biāo)準(zhǔn)。表2.5.4給出了兩種溫度之間的若干關(guān)系,如攝氏溫度0°C等于華氏溫度32°F。判斷攝氏溫度和華氏溫度之間是否符合線性關(guān)系。如符合,請通過回歸分析計算出攝氏溫度和華氏溫度之間的線性回歸方程。2.5.2回歸分析——課后練習(xí)本課小結(jié) 展開更多...... 收起↑ 資源預(yù)覽 縮略圖、資源來源于二一教育資源庫