中文字幕精品无码一区二区,成全视频在线播放观看方法,大伊人青草狠狠久久,亚洲一区影音先锋色资源

5.3 數據的分析 學案

資源下載
  1. 二一教育資源

5.3 數據的分析 學案

資源簡介

第二十四講? 數據的分析
學習目標
1.了解數據分析的基本方法;
2.學會選用恰當工具處理數據。
學習內容
數據分析就是在一大批雜亂無章的數據中,運用數字化工具和技術,探索數據內在的結構和規律,構建數學模型,并進行可視化表達,通過驗證將模型轉化為知識,為診斷過去、預測未來發揮作用。數據分析一般包括特征探索、關聯分析、聚類與分類、建立模型和模型評價等。
特征探索
數據特征探索的主要任務是對數據進行預處理,發現和處理缺失值、異常數據,繪制直方圖,觀察分析數據的分布特征,求最大值、最小值、極差等描述性統計量。
關聯分析
關聯分析就是分析并發現存在于大量數據之間的關聯性或相關性,從而描述一個事物中某些屬性同時出現的規律和模式。關聯分析的基本算法如下:
(1)掃描歷史數據,并對每項數據進行頻率次數統計。
(2)構建候選項集C1,并計算其支持度,即數據出現頻率次數與總數的比。
(3)對候選項集的支持度進行篩選,篩選的數據項支持度應當不小于最小支持度,從而形成頻繁項集L1。
(4)對頻繁項集L2進行連接生成候選項集C2,重復上述步驟,最終形成頻繁K項集或者最大頻繁項集。?
聚類分析
聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標準,聚類分析能夠從樣本數據出發,自動進行分類。聚類分析的算法有很多,其中K-平均(K- Means)算法是一種經典的自下而上的聚類分析方法。K-平均算法的基本思想就是在空間N個點中,初始選擇K個點作為中心聚類點,然后將N個點分別與K個點計算距離,選擇自己最近的點作為自己的中心點,再不斷更新中心聚集點,以達到“物以類聚,人以群分”的效果。
聚類分析的基本算法如下:
(1)從數據點集合中隨機選擇K個點作為初始的聚集中心,每個中心點代表著每個聚集中心的平均值。
(2)對其余的每個數據點,依次判斷其與K個中心點的距離,距離最近的表明它屬于這項聚類。
(3)重新計算新的聚簇集合的平均值即中心點。整個過程不斷迭代計算,直到達到預先設定的迭代次數或中心點不再頻繁波動。
數據分類
數據分類是數據分析處理中最基本的方法。數據分類通常的做法是,基于樣本數據先訓練構建分類函數或者分類模型(也稱為分類器),該分類器具有將待分類數據項映射到某一特點類別的功能。數據分類和回歸分析都可用于預測,預測是指從基于樣本數據記錄,根據分類準則自動給出對未知數據的推廣描述,從而實現對未知數據進行預測。
貝葉斯分類技術在眾多分類技術中占有重要地位,也屬于統計學分類的范疇,是一種非規則的分類方法。貝葉斯分類技術通過對已分類的樣本子集進行訓練,學習歸納出分類函數(對離散變量的預測稱作分類,對連續變量的分類稱為回歸),利用訓練得到的分類器實現對未分類數據的分類。

展開更多......

收起↑

資源預覽

<pre id="tfb94"><li id="tfb94"></li></pre>

<bdo id="tfb94"><rt id="tfb94"></rt></bdo>
  • <menu id="tfb94"><dl id="tfb94"></dl></menu><i id="tfb94"><acronym id="tfb94"><sub id="tfb94"></sub></acronym></i>

    1. 主站蜘蛛池模板: 福贡县| 岑巩县| 忻城县| 黄平县| 阿拉善右旗| 遵义市| 西畴县| 铜梁县| 赤峰市| 连平县| 绥棱县| 富顺县| 翁牛特旗| 龙里县| 札达县| 临西县| 缙云县| 潼南县| 肥东县| 隆回县| 郁南县| 柘城县| 岳阳市| 静安区| 郑州市| 安新县| 沅陵县| 兴城市| 嘉义县| 凌云县| 阿城市| 高密市| 香港 | 田东县| 龙游县| 富源县| 峨边| 梧州市| 巴马| 贺兰县| 图木舒克市|