資源簡介 第二十四講? 數據的分析 學習目標 1.了解數據分析的基本方法; 2.學會選用恰當工具處理數據。 學習內容 數據分析就是在一大批雜亂無章的數據中,運用數字化工具和技術,探索數據內在的結構和規律,構建數學模型,并進行可視化表達,通過驗證將模型轉化為知識,為診斷過去、預測未來發揮作用。數據分析一般包括特征探索、關聯分析、聚類與分類、建立模型和模型評價等。 特征探索 數據特征探索的主要任務是對數據進行預處理,發現和處理缺失值、異常數據,繪制直方圖,觀察分析數據的分布特征,求最大值、最小值、極差等描述性統計量。 關聯分析 關聯分析就是分析并發現存在于大量數據之間的關聯性或相關性,從而描述一個事物中某些屬性同時出現的規律和模式。關聯分析的基本算法如下: (1)掃描歷史數據,并對每項數據進行頻率次數統計。 (2)構建候選項集C1,并計算其支持度,即數據出現頻率次數與總數的比。 (3)對候選項集的支持度進行篩選,篩選的數據項支持度應當不小于最小支持度,從而形成頻繁項集L1。 (4)對頻繁項集L2進行連接生成候選項集C2,重復上述步驟,最終形成頻繁K項集或者最大頻繁項集。? 聚類分析 聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標準,聚類分析能夠從樣本數據出發,自動進行分類。聚類分析的算法有很多,其中K-平均(K- Means)算法是一種經典的自下而上的聚類分析方法。K-平均算法的基本思想就是在空間N個點中,初始選擇K個點作為中心聚類點,然后將N個點分別與K個點計算距離,選擇自己最近的點作為自己的中心點,再不斷更新中心聚集點,以達到“物以類聚,人以群分”的效果。 聚類分析的基本算法如下: (1)從數據點集合中隨機選擇K個點作為初始的聚集中心,每個中心點代表著每個聚集中心的平均值。 (2)對其余的每個數據點,依次判斷其與K個中心點的距離,距離最近的表明它屬于這項聚類。 (3)重新計算新的聚簇集合的平均值即中心點。整個過程不斷迭代計算,直到達到預先設定的迭代次數或中心點不再頻繁波動。 數據分類 數據分類是數據分析處理中最基本的方法。數據分類通常的做法是,基于樣本數據先訓練構建分類函數或者分類模型(也稱為分類器),該分類器具有將待分類數據項映射到某一特點類別的功能。數據分類和回歸分析都可用于預測,預測是指從基于樣本數據記錄,根據分類準則自動給出對未知數據的推廣描述,從而實現對未知數據進行預測。 貝葉斯分類技術在眾多分類技術中占有重要地位,也屬于統計學分類的范疇,是一種非規則的分類方法。貝葉斯分類技術通過對已分類的樣本子集進行訓練,學習歸納出分類函數(對離散變量的預測稱作分類,對連續變量的分類稱為回歸),利用訓練得到的分類器實現對未分類數據的分類。 展開更多...... 收起↑ 資源預覽 縮略圖、資源來源于二一教育資源庫