資源簡介 (共19張PPT)5.3數據的分析數據分析就是在一大批雜亂無章的數據中, 運用數字化工具和技術,探索數據內在的結構和規律,構建數學模型,并進行可視化表達,通過驗證將模型轉化為知識,為診斷過去、預測未來發揮作用。數據分析一般包括特征探索、關聯分析、聚類與分類、建立模型和模型評價等。特征探索是對數據進行預處理,發現和處理缺失值、異常數據,繪制直方圖,觀察分析數據的分布特征,求最大值、最小值、極差等描述性統計量。關聯分析是分析并發現存在于大量數據之間的關聯性或相關性,從而描述一個事物中某些屬性同時出現的規律和模式。聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標準,聚類分析能夠從樣本數據出發,根據描述對象相互間的相似度自動進行分類。聚類類似于分類,但與分類的目的不同,是針對數據的相似性和差異性將一組數據分為幾個類別。屬于同一類別的數據間的相似性很大,但不同類別之間數據的相似性很小,跨類的數據關聯性很低。應用:商業:聚類分析被用來發現不同的客戶群,并且通過購買模式刻畫不同的客戶群的特征。聚類分析是細分市場的有效工具,同時也可用于研究消費者行為,尋找新的潛在市場、選擇實驗的市場,并作為多元分析的預處理;電子商務:聚類分析在電子商務中網站建設數據挖掘中也是很重要的一個方面,通過分組聚類出具有相似瀏覽行為的客戶,并分析客戶的共同特征,可以更好的幫助電子商務的用戶了解自己的客戶,向客戶提供更合適的服務。數據分類是數據分析處理中最基本的方法。貝葉斯分類技術是一種常用的、非規則的分類方法。5.4數據的可視化表達數據可視化表達的方式在大數據時代,復雜繁多且不同類型的數據大量涌來,往往超出了人們的處理能力,人類的大腦也難以從堆積如山的數據中快速發現核心問題,而數據可視化可以把枯燥乏味的海量數據以豐富的視覺效果呈現數據所反映的本質問題,有效提升數據分析的效率。大數據可視化是指以圖形、圖像、地圖、動畫等生動、易于理解的方式展示數據和詮釋數據之間的關系、趨勢與規律等,以便更好地理解數據。大數據可視化可以讓人們快速抓住要點信息,讓關鍵的數據點從人們的眼睛快速通往、心靈深處。從常用和實用的維度,大數據可視化的呈現類型主要分為探索和解釋兩種不同的類型。探索類型可以幫助人們發現數據背后的價值,而解釋類型則把數據簡單明了地解釋給人們。按照處理數據類型的不同,可視化呈現的主要方式如下表所示。體驗制作詞云https://www.weiciyun.com/二、數據可視化表達的工具數據可視化呈現的形式千變萬化,實現的工具眾多。Python嵌入了大量數據可視化的工具,專業的數據可視化工具模塊包括Seaborn和Bokeh等。SeabornSeaborn主要關注統計模型的可視化。例如,直方圖既可以總結數據,描繪總體分布。Bokeh可實現交互式可視化。Bokeh的重點在其交互性 ,且是通過瀏覽器以數據驅動文檔的風格呈現。練習題:下列關于大數據的特征,說法正確的是(D )。A.數據價值密度高 B.數據類型少C.數據基本無變化 D.數據體量巨大數據特征探索的主要任務是對數據進行預處理,以下不屬于該過程的是(D )。A.數據清洗 B.異常數據處理C.數據缺失處理 D.數據分類處理練習題:3.海軍軍官通過對前人航海日志的分析,繪制了新的航海路線圖,標明了大風與洋流可能發生的地點。這體現了大數據分析理念中的(B )在數據基礎上傾向于全體數據而不是抽樣數據在分析方法上更注重相關分析而不是因果分析在分析效果上更追究效率而不是絕對精確在數據規模上強調相對數據而不是絕對數據4.大數據時代已經在悄悄地改變我們的日常生活,也使人們日常生活更為便捷,如移動支付、網絡約車出行、網絡購物、網絡預約掛號等。以下不屬于大數據分析的是(D )。特征探索 B.關聯分析 C.聚類與分類 D.線性分析5.電子警察采用拍照的方式來約束車輛的行為,其拍照的過程屬于(B )。A.數據分析 B.數據采集 C.數據分類 D.數據可視化表達6.超市曾經研究銷售數據,發現買商品A的人比購買商品B的概率很大,這種屬于數據的(A )。A.聚類分析 B.關聯分析 C.分類分析 D.回歸分析8.下列可以用于分析數據趨勢的是( B )A.餅圖 B.折線圖C.動態熱力圖 D.詞云圖7.從互聯網產生大數據的角度來看,大數據具有的特征是( A) .“4V" 特征:大量( Volume)、多樣( Variety)、低價值密度( Value)、高速( Velocity)樣本漸趨于總體,精確讓位于模糊,相關性重于因果C分布式存儲,分布式并行計算D.沒有特征end 展開更多...... 收起↑ 資源預覽 縮略圖、資源來源于二一教育資源庫