資源簡介 專題04 數(shù)據(jù)處理與應用【學習目標】理解數(shù)據(jù)處理的重要性:使學生能夠理解數(shù)據(jù)在現(xiàn)代信息社會中的應用價值,以及準確處理數(shù)據(jù)對于數(shù)據(jù)分析結果的影響。掌握基本的數(shù)據(jù)整理技巧:教授學生如何識別和處理數(shù)據(jù)缺失、重復、異常、邏輯錯誤和格式不一致等問題,確保數(shù)據(jù)的質量和可用性。熟悉常用數(shù)據(jù)處理工具:介紹Excel等常用數(shù)據(jù)處理軟件的基本操作,包括公式的應用、單元格引用、算術及文本運算符的使用,以及函數(shù)的應用等。【思維導圖】【知識梳理】知識點一:數(shù)據(jù)整理1.常見的數(shù)據(jù)問題及其處理方法:(1)數(shù)據(jù)缺失:數(shù)據(jù)集中普遍存在的問題,一般可能是數(shù)據(jù)丟失或數(shù)據(jù)本身不完整處理方法:忽略或采用平均值、中間值或概率統(tǒng)計值填充。(2)數(shù)據(jù)重復:在多數(shù)據(jù)源合并時經(jīng)常出現(xiàn),導致資源冗余和浪費。處理方法:進一步審核的基礎上進行合并或刪除。(3)異常數(shù)據(jù):數(shù)據(jù)集中的某些數(shù)據(jù)不符合一般規(guī)律,例:健康系統(tǒng)顯示體溫到達50攝氏度。處理方法:這些有可能是要去掉的噪聲,也有可能是含有重要信息的數(shù)據(jù)對象。(4)邏輯錯誤:屬性與實際不符,違背業(yè)務規(guī)則或邏輯,例:某人的生日為13月40日處理方法:對應的字段需要設置取值范圍判斷。(5)格式不一致:多出現(xiàn)在數(shù)據(jù)來源多樣的系統(tǒng)中處理方法:將不同格式的數(shù)據(jù)轉換成統(tǒng)一格式后再進行處理。2.常用的數(shù)據(jù)處理和統(tǒng)計分析工具有Excel、 SPSS、SAS、 MATLAB等軟件,也可以通過R、Python、Java等計算機語言編程進行數(shù)據(jù)處理。3.常見的圖表類型有:柱形圖、折線圖、餅圖、雷達圖、散點圖、氣泡圖等。知識點二:大數(shù)據(jù)處理1.大數(shù)據(jù)處理的基本思想:“分治思想”,即將一個復雜的問題拆分成兩個或多個相同或相似的子問題,找到求這幾個問題的解法之后,再找出合適的方法把它們組合成求整個問題的解法。2.大數(shù)據(jù)處理的數(shù)據(jù)類型:(1)靜態(tài)數(shù)據(jù):在處理時已經(jīng)收集完成、在計算時不會發(fā)生改變的數(shù)據(jù)處理方法:批處理(2)流數(shù)據(jù):不間斷地、持續(xù)地到達的實時數(shù)據(jù)。流數(shù)據(jù)的價值會隨著時間的流逝降低。處理方法:流計算或實時分析計算(3)圖數(shù)據(jù):現(xiàn)實世界中以圖形式展現(xiàn)的數(shù)據(jù)。如社交網(wǎng)絡、道路交通等處理方法:圖計算3.批處理Hadoop是一個可運行于大規(guī)模計算機集群上的分布式系統(tǒng)基礎架構,適用于靜態(tài)數(shù)據(jù)的批量計算。Hadoop計算平臺主要包括Common公共庫、分布式文件系統(tǒng)HDFS、分布式數(shù)據(jù)庫HBase、分布式并行計算模型MapReduce等多個模塊。(1)分布式文件系統(tǒng)(HDFS):將大規(guī)模海量數(shù)據(jù)以文件的形式、用多個副本保存在不同的存A儲節(jié)點中,并用分布式系統(tǒng)管理。HDFS是一個高度容錯性的文件系統(tǒng),云盤、網(wǎng)盤的底層一般采用HDFS實現(xiàn)。(2)分布式數(shù)據(jù)庫(HBase): HBase建立在HDFS提供的底層存儲基礎上,采用基于列的存儲方式,主要存儲韭結構化和半結構化的數(shù)據(jù),具有良好的橫向擴展能力。(3)分布式并行計算模型(MapReduce): MapReduce是一種分布式并行編程模型,能夠進行大規(guī)模的并行計算。其核心處理思想是將任務分解并分發(fā)到多個節(jié)點上進行并行處理,最后匯總輸出。4.流計算流計算主要用于處理流數(shù)據(jù),如大型購物網(wǎng)絡的廣告推薦、社交網(wǎng)絡的個性化推薦等。處理流數(shù)據(jù)的軟件主要有Twitter Storm, Heron, Yahoo!S4等。Storm和S4是目前較為流行的開源分布式實時計算系統(tǒng)。5.圖計算現(xiàn)實世界中的很多數(shù)據(jù)以圖的形式呈現(xiàn),或者是需要轉換為圖后才能分析。目前圖處理的軟件主要分為兩類:圖數(shù)據(jù)庫和并行圖處理系統(tǒng)。知識點三:編程處理數(shù)據(jù)利用pandas模塊處理數(shù)據(jù)利用matplotlib模塊繪圖利用pathon分析數(shù)據(jù)實踐知識點四:編程處理數(shù)據(jù)1.文本數(shù)據(jù)處理主要應用在搜索引擎、情報分析、自動摘要、自動校對、論文查重、文本分類、垃圾郵件過濾、機器翻譯、自動應答等方面。2.典型的文本處理過程主要包括分詞、特征提取、數(shù)據(jù)分析、結果呈現(xiàn)等。3.中文分詞方法(1)基于詞典的分詞方法:用詞典中的詞語進行比對。案例: Python中的jieba庫(2)基于統(tǒng)計的分詞方法:根據(jù)上下文相鄰字出現(xiàn)的頻率統(tǒng)計。(3)基于規(guī)則的分詞方法:根據(jù)現(xiàn)有資料和規(guī)律學習實現(xiàn)分詞。4.特征提取方法(1)根據(jù)專家知識挑選有價值的特征。(約等于人工分析)(2)用數(shù)學建模的方法構造評估函數(shù)自動選取特征。(目前大多采用)5.結果呈現(xiàn)方式:(1)標簽云:用文字大小形式表現(xiàn)詞語的重要性(2)文本情感分析:根據(jù)分析顆粒度可以分為詞語級、語句級、整篇文章級三類。知識點五:數(shù)據(jù)可視化1,數(shù)據(jù)可視化是將數(shù)據(jù)以圖形、圖像等形式表示、直接呈現(xiàn)數(shù)據(jù)中蘊含信息的處理過程。2,可視化的作用:快速觀察與追蹤數(shù)據(jù)、實時分析數(shù)據(jù)、增強數(shù)據(jù)的解釋力和吸引力等。3.可視化的基本方法(1)有關時間趨勢的可視化:展示隨時間的推移而變化的數(shù)據(jù),可采用柱形圖、折線圖等。(2)有關比例的可視化:展示各部分的大小及其占總體比例關系的數(shù)據(jù),可以采用餅圖、環(huán)形圖(也稱面包圈圖)等。(3)有關關系的可視化:探究具有關聯(lián)性數(shù)據(jù)的分布關系,可以使用散點圖、氣泡圖等。(4)有關差異的可視化:包含多種變量的對象與同類之間的差異和聯(lián)系,可以采用雷達圖。(5)有關空間關系的可視化:地理數(shù)據(jù)或者基于地理數(shù)據(jù)的分析結果可以運用不同顏色或圖表直接在地圖上進行展示。知識點六:大數(shù)據(jù)的典型應用1.大數(shù)據(jù)應用領域:隨著大數(shù)據(jù)在各行業(yè)的應用,數(shù)據(jù)成為核心資產(chǎn)。目前,大數(shù)據(jù)廣泛應用于著金融、交通、環(huán)境、醫(yī)療、能源、農(nóng)業(yè)等領域,極大地促進了各行業(yè)的發(fā)展。2.大數(shù)據(jù)在電子商務方面的應用;精準營銷基于用戶購買行為挖掘用戶偏好;倉儲管理實現(xiàn)商品自動補貨;供應鏈管理實現(xiàn)最優(yōu)配送路徑;智能網(wǎng)站分析用戶后向用戶智能推薦商品。【題型精講】例1在數(shù)據(jù)處理與應用中,數(shù)據(jù)整理的目的是什么?A. 提高數(shù)據(jù)存儲量B. 檢測和修正錯漏的數(shù)據(jù)、整合數(shù)據(jù)資源、規(guī)整數(shù)據(jù)格式、提高數(shù)據(jù)質量C. 加快數(shù)據(jù)處理速度D. 擴大數(shù)據(jù)來源【答案】B【講解】數(shù)據(jù)整理的目的是為了確保數(shù)據(jù)的準確性和可用性,具體包括以下幾點:檢測和修正錯漏的數(shù)據(jù):在數(shù)據(jù)收集過程中,可能會出現(xiàn)輸入錯誤、遺漏或其他形式的誤差,數(shù)據(jù)整理有助于發(fā)現(xiàn)并修正這些錯誤,提高數(shù)據(jù)的準確性。整合數(shù)據(jù)資源:當數(shù)據(jù)來自不同的來源時,數(shù)據(jù)整理可以幫助合并這些數(shù)據(jù),確保數(shù)據(jù)的一致性和完整性,便于后續(xù)分析。規(guī)整數(shù)據(jù)格式:不同來源的數(shù)據(jù)可能有不同的格式,數(shù)據(jù)整理可以將這些數(shù)據(jù)轉換為統(tǒng)一的格式,便于處理和分析。提高數(shù)據(jù)質量:通過上述步驟,數(shù)據(jù)整理最終可以提高數(shù)據(jù)的整體質量,為后續(xù)的數(shù)據(jù)分析和決策提供堅實的基礎。例2在Excel軟件中,如何進行數(shù)據(jù)的計算?A. 使用文本連接運算符"&"B. 使用算術運算符如^、*、/等C. 使用函數(shù)如SUM、AVERAGE等D. 所有以上都包括【答案】D【講解】在Excel軟件中進行數(shù)據(jù)計算,可以使用多種方法,包括但不限于:使用算術運算符:Excel支持使用常見的算術運算符進行基本的數(shù)學運算,如加(+)、減(-)、乘(*)、除(/)以及乘方(^)等。使用函數(shù):Excel提供了大量的內(nèi)置函數(shù),如SUM用于求和、AVERAGE用于計算平均值、MIN和MAX用于查找最小值和最大值等,這些函數(shù)可以進行更復雜的數(shù)學和統(tǒng)計計算。使用文本連接運算符"&":雖然主要用于文本處理,但"&"運算符也可以用來組合文本字符串,有時在處理包含數(shù)字的文本數(shù)據(jù)時會用到。【強化訓練】1.大數(shù)據(jù)處理的分治思想主要解決什么問題?A. 數(shù)據(jù)存儲空間不足B. 網(wǎng)絡傳輸帶寬瓶頸C. 計算資源分配不均D. 機器故障和網(wǎng)絡故障風險2.在智能交通系統(tǒng)中,哪個子系統(tǒng)負責實時向交通參與者提供道路交通等信息?A. 交通信息服務系統(tǒng)B. 交通管理系統(tǒng)C. 電子收費系統(tǒng)D. 公共交通系統(tǒng)3.Python編程在數(shù)據(jù)處理中的應用示例是什么?A. wordcount ={"word": "word", "frequency": "1"}B. for word in open(filename, 'r').read(): wordcount[word]+=1C. wordcount[word]=1000M+wordcount[word]D. wordcount = {}; wordcount[word] += filename[word]4.Tableau工具主要用于什么類型的可視化分析?A. 實時數(shù)據(jù)分析B. 靜態(tài)數(shù)據(jù)批處理計算C. 流數(shù)據(jù)實時計算D. A和C都包括5.文檔內(nèi)容,下列哪項不是數(shù)據(jù)可視化的作用?A. 快捷觀察與追蹤數(shù)據(jù)動態(tài)變化過程B. 根據(jù)已知指標預測另一指標的變化趨勢C. 根據(jù)用戶年齡推薦最適合的運動項目D. 根據(jù)用戶購買行為進行個性化商品推薦6.根據(jù)文檔內(nèi)容,哪種圖表類型適合展示時間序列數(shù)據(jù)的趨勢變化?A. 餅圖B. 散點圖C. 柱形圖或折線圖D. 氣泡圖7.根據(jù)文檔內(nèi)容,以下哪個不屬于大數(shù)據(jù)處理的基本方法?A. 根據(jù)字段和記錄進行重復數(shù)據(jù)的檢測和處理B. 根據(jù)已有屬性集構造新屬性的轉換C. 根據(jù)用戶喜好推薦商品列表的生成算法設計D. 根據(jù)業(yè)務規(guī)則進行邏輯錯誤的檢測和修正。參考答案D【詳解】在處理大數(shù)據(jù)時,采用分治思想主要是因為數(shù)據(jù)量巨大,簡單的表格處理軟件無法滿足需求。這種思想將一個復雜的問題分成兩個或更多個相同或相似的子問題,找到求這幾個子問題的解法后,再組合成整個問題的解法。如果這些子問題還難以解決,可以繼續(xù)分解為更小的子問題,直至可以直接求出解。這樣能夠有效應對機器故障、網(wǎng)絡故障的風險。2.A【詳解】智能交通系統(tǒng)中的交通信息服務系統(tǒng)建立在完善的信息采集、處理和傳輸系統(tǒng)上。它通過安裝在道路、車輛上的傳感器和傳輸設備,實時向交通參與者提供道路交通狀況、公共交通信息、換乘信息等出行相關信息,并能根據(jù)車輛目的地、行駛習慣、路面情況推薦行駛路線。3.B【詳解】在Python中進行數(shù)據(jù)處理的一個典型應用是統(tǒng)計文本文件中每個單詞出現(xiàn)的頻率。上述代碼示例展示了如何打開一個文本文件(假設名為filename),逐行讀取內(nèi)容,并使用字典結構wordcount來累加每個單詞的計數(shù)。這是處理大量文本數(shù)據(jù)的基礎操作之一。4.D【詳解】Tableau是一款強大的數(shù)據(jù)可視化工具,適用于多種數(shù)據(jù)分析場景。它不僅可以用于實時數(shù)據(jù)分析,幫助用戶快速了解當前的數(shù)據(jù)動態(tài)變化過程,還可以用于靜態(tài)數(shù)據(jù)的批處理計算,對歷史數(shù)據(jù)進行分析。Tableau支持豐富的圖表類型,如柱形圖、折線圖、餅圖等,適用于展示時間序列數(shù)據(jù)的趨勢變化。5.C【詳解】雖然基于用戶的年齡推薦適合的運動項目是一種常見的個性化服務,但它并不是數(shù)據(jù)可視化的主要作用之一。數(shù)據(jù)可視化的核心作用包括快捷觀察與追蹤數(shù)據(jù)的動態(tài)變化過程、根據(jù)已知指標預測另一指標的變化趨勢以及根據(jù)用戶購買行為進行個性化商品推薦等。6.C【詳解】時間序列數(shù)據(jù)通常用來描述隨時間變化的趨勢,因此柱形圖或折線圖是展示這類數(shù)據(jù)的理想選擇。柱形圖通過柱子的高度直觀展示不同時間段的數(shù)據(jù)值大小;而折線圖則通過連接各點形成的線條顯示數(shù)據(jù)隨時間變化的走向和趨勢。C【詳解】雖然根據(jù)用戶喜好推薦商品列表的生成算法設計是一個常見的應用,但它并不屬于大數(shù)據(jù)處理的基本方法。大數(shù)據(jù)處理的基本方法包括根據(jù)字段和記錄進行重復數(shù)據(jù)的檢測和處理、根據(jù)已有屬性集構造新屬性的轉換以及根據(jù)業(yè)務規(guī)則進行邏輯錯誤的檢測和修正等。 展開更多...... 收起↑ 資源預覽 縮略圖、資源來源于二一教育資源庫