資源簡介 (共13張PPT)第四章、第五章關鍵知識點辨析數據整理數據問題 處理方法數據缺失 忽略含有缺省值的實例或屬性(簡單)采用平均值、中間值或概率統計值來填充(優)數據重復 在進一步審核的基礎上進行合并或刪除處理異常數據 不符合一般規律的數據對象,可能為噪聲或重要數據對象邏輯錯誤 通過檢測字段中各屬性有效數據值的范圍來判斷格式不一 數據轉換成適合后續分析和挖掘的統一形式引用A1——相對引用(默認):公式所在單元格的位置改變,引用也隨之改變。$A$1——絕對引用:公式所在單元格的位置改變,引用保持不變。混合引用:公式所在單元格的位置改變,絕對引用部分不變,相對引用部分隨之改變,如$A1(僅鎖定列號), A$1(僅鎖定行號) 。“$”在誰前面,誰被鎖定。常見錯誤類型錯誤類型 錯誤名稱 錯誤原因#DIV/0! 除零錯誤 除數為0#REF! 引用錯誤 刪除一個在公式中被引用的單元格#VALUE 數據類型錯誤 如一個文本型加一個數值型#NAME 函數名錯誤 如SUM拼成了SAM###### 不是錯誤,是單元格列寬不夠造成的大數據處理分類大數據處理靜態數據流數據圖數據★靜態數據:在處理時已收集完成、在計算式不會發生改變的數據★流數據:是指不間斷地、持續地到達的實時數據,隨著時間的流逝,流數據的價值也隨之降低,通過實時分析計算可以得到更有價值的分析的結果★圖數據:以社交網絡、道路交通等數據為例的眾多以圖為數據呈現形式的數據,或者轉化為圖之后再進行分析靜態數據——批處理Hadoop是一個運行于計算機集群上的分布式系統基礎架構,適用于靜態數據的批處理計算。Spark是一種與hadoop相似的,應用較廣的開源分布式計算架構。Spark啟用了內存存儲中間結果,運行速度比hadoop快。不間斷地、持續地到達的實時數據。流數據的價值會隨著時間 的流逝而降低。對采集的數據實時分析和計算并反饋實時結果。經處理系統處理完成的數據流直接丟棄或存儲用戶可以實時查詢最新數據分析結果,數據不斷更新,實時推薦給用戶流計算應用:廣告推送、個性化推薦、實時交通流計算軟件:Storm、Streams、S4、Puma流數據——流計算現實世界中以圖形式展現的數據。如社交網絡、道路交通等。圖處理軟件:Pregel、GraphX圖數據——圖計算文本數據處理的主要目的是從大規模的文本數據中提取出符合需求的、感興趣的和隱藏的信息。文本數據源分詞特征提取數據分析結果呈現非結構化數據:各類的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像、音頻、視頻無結構的文本結構化:行數據,二維表結構,遵循數據格式與長度規范結構化、便于計算機處理中文分詞分詞是將連續的字序列按照一定的規范重新組合成詞序列的過程。1、基于詞典的分詞方法_jieba根據設定好的詞典進行分詞2、基于統計的分詞方法依據上下文中相鄰字出現的頻率統計3、基于規則的分詞方法模擬人的思維,根據資料和規則進行學習分詞。(尚在探索)一般采用詞典法和統計法兩者結合知識要點1人工智能的本質1.人工智能的概念人工智能是指以機器(計算機)為載體,模仿、延伸和擴展人類智能,其與人類或其他動物所呈現的生物智能有著重要區別。知識要點1人工智能的本質2.人工智能的主要方法知識要點1人工智能的本質3.人工智能的發展(1)從計算到智能測試1950年,圖靈針對“智能測試”問題提出了測試機器是否具有智能的一種方法,即著 的“圖靈測試”。(2)人工智能登上歷史舞臺1956年,“人工智能達特茅斯夏季研討會”在美國達特茅斯學院召開,標志著人工智能作為一門新興學科正式誕生。(3)以符號主義表達與推理為代表的人工智能符號主義人工智能方法認為學習或者其他的智能特征原則上都可以被精確地描述。(4)數據驅動的人工智能方法深度學習能夠讓計算機從數據本身進行知識學習(5)問題引導下的人工智能學習方法問題引導下的試錯學習 展開更多...... 收起↑ 資源預覽 縮略圖、資源來源于二一教育資源庫