資源簡介 (共53張PPT)第五章 數據處理和可視化表達多樣化的數據都是什么呢?地理位置信息網絡日志你從哪個網頁跳轉來?你點擊了哪些商品?商品頁面上停留的時間?評價關注程度顏色偏好品牌偏好數據的概念數據是現實世界客觀事物的符號記錄,是信息的載體,是計算機加工的對象,如圖像、視頻、音頻、文本(文字、數值、字符)等。計算機科學中的數據數據是對所有輸入計算機并被計算機識別、存儲和處理的符號的總稱,是聯系現實世界和計算機世界的途徑。數據的概念數據是現實世界客觀事物的符號記錄,是信息的載體,是計算機加工的對象,如圖像、視頻、音頻、文本(文字、數值、字符)等。數據的基本特征(1)二進制。在計算機中,數據以二進制的形式存儲、加工。(2)語義性。語義是將數據符號解釋為客觀世界的事物。(3)分散性。數據是分散的記錄,分別記錄不同客觀事物的運動狀態。120某個小朋友的身高是120cm衣服的價格是120元(4)多樣性和感知性。數據記錄的形式是多樣的、可看的、可聽的、可感知的,如圖形、圖像、視頻、音頻、文字等。汽車在高速路上的行駛速度為120km/h二進制:由0,1兩個數碼來表示數據。練一練(P8 1):(單選題)1、下列選項中不屬于數據的是 ( )A、進入商場時用額溫槍測量的體溫B、教室里電子時鐘顯示的時間C、春游時手機里拍攝的風景照片D、記錄旅行日記的筆記本D大數據是指無法在可承受的時間范圍內用常規軟件工具進行高效捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。一、認識大數據二、大數據的特征多樣化:即數據類型繁多都是什么呢?地理位置信息網絡日志你從哪個網頁跳轉來?你點擊了哪些商品?商品頁面上停留的時間?評價關注程度顏色偏好品牌偏好價值密度低比如視頻,在連續不間斷存儲的監控視頻中,有用的數據可能只有一兩秒。變化速度快二、大數據的特征二、大數據的特征三、大數據對日常生活的影響方便支付方便出行方便購物與產品推介三、大數據對日常生活的影響P64 例1、例2、例3、例4P67 1、2P69 16-21【二、數據的采集】(一)數據采集的方法與工具1.系統日志采集法在信息系統中,系統日志是記錄系統硬件、軟件和系統問題的信息文件。系統日志包括操作系統日志、應用日志和安全日志。系統日志采集數據的方法通常是在目標主機上安裝一個小程序,將目標主機的文本、應用程序、數據庫等日志信息有選擇地定向推送到日志服務器進行存儲、監控和管理。 【二、數據的采集】(一)數據采集的方法與工具2.網絡數據采集法:網絡數據采集:指通過網絡爬蟲或網站公開API(Application Programming Interface, 應用程序接口)等方式從網站上獲取數據信息。網絡爬蟲的過程工作過程:(1)從一個或若干初始網頁的URL(Uniform Resource Locator,統一資源定位符)開始,獲得初始網頁上的URL。(2)在抓取網頁的過程中,不斷從當前頁面上抽取新的URL放入隊列, 直到滿足系統的一定停止條件。采集類型:支持圖片、音頻、視頻等文件或附件的采集,附件與正文可以自動關聯。【二、數據的采集】(一)數據采集的方法與工具3.其他數據采集法。應用領域:企業生產經營或科學研究等保密性要求較高的數據。使用方法:與企業或研究機構合作,使用特定系統接口等相關方式收集數據例如:科學研究的數據是通過科學實驗的各種傳感器采集,并傳輸到數據庫管理系統中的。【二、數據的采集】(一)數據采集的方法對比采集方法 數據來源 采集工具 應用范圍(舉例)系統日志采集法1.信息系統日志數據2.信息系統系統數據系統導出1.導出上網行為管理系統日志2.導出上網行為管理系統客戶數據網絡數據采集法1.網站存儲的數據2.網站公開API(應用程序接口)傳輸的數據1.爬蟲程序2.系統導出3.接口程序1.爬取淘寶網站數據2.從淘寶網店鋪后臺導出數據3.獲取微信企業號公開接口數據其它數據采集法傳感器系統接口傳感器采集數據傳輸到數據庫管理系統【二、數據的采集】拓展:Python網絡數據采集程序使用的擴展庫1.NumPy(NumericalPython)是構建科學計算最基礎的軟件庫;2.SciPy是一個工程和科學軟件庫,包含線性代數、優化、集成和統計的模塊;3.Pandas是一個Python包,旨在通過標記(labeled)和關系(relational)數據進行工作;4.Matplotlib是Python的一個2D繪圖庫。Python網絡數據采集程序使用擴展庫時導入模塊的方法:import modulefrom module import name【二、數據的采集】(二)數據的存儲1.本地存儲:把數據存在本地內部。(硬盤、磁帶、服務器…)2.云存儲:把數據放在第三方公共或者私有的“云端”存儲。(百度網盤、騰訊微盤)【二、數據的采集】(三)數據的保護1.數據安全保護技術:殺毒軟件、防火墻、拷貝、備份、復制、鏡像、持續備份,加密…。2.數據的隱私保護(1)隱私泄露的途徑(2)技術手段:(3)提高自身意識(4)進行道德和法律約束數據收集時:精度處理數據共享時:訪問控制數據發布時:人工干擾數據分析時:匿名處理【二、數據的采集】(四)數據安全保護技術的使用特點數據安全保護技術 適用場合 備份介質 備份距離 管理拷貝/FTP 簡單小數據量備份,個人不定期的文件保護等。 磁盤。 近。 手動執行,占用人力資源。 備份 有歸檔需求的用戶等。 磁帶機、磁帶庫、磁盤。 近,以本地備份為主。 備份軟件對使用者要求較高,需要掌握數據庫、文件系統等綜合知識。復制技術 企業等。 磁盤。 遠近皆可。 設定策略后無須人工干預,復制與恢復的過程都很簡單。 鏡像技術 企業等。 磁盤。 近,帶寬和距離影響延遲時間和性能,因此多以本地為主 簡單。持續備份 企業等。 磁盤。 遠近皆可。 連續備份,可以實現過去任意一個時間點的數據恢復。P68 15P69 23、33如何對數據DATA數據分析處理的對象運用的工具分析的方法分析的目的初級工具:Excel高級工具:SPSS、SAS編程工具R語言、Python、Java語言等一大批雜亂無章的數據運用數字化工具和技術探索數據內在的結構和規律構建數學模型進行可視化表達,通過驗證將模型轉化為知識為診斷過去、預測未來發揮作用DATA ANALYSIS關聯分析特征探索聚類分析數據分類數據分析的常用方法特征探索的主要任務是對數據進行預處理,發現和處理缺失值、異常數據,繪制直方圖,觀察分析數據的分布特征,求最大值、最小值、極差等描述性統計量。(如果價格為0的,修改為64)x=0data["price"][(data["price"]==0)]=Nonefor i in data.columns:for j in range(len(data)):if(data[i].isnull())[j]:data[i][j]="64"x+=1print(x)商品標題鏈接價格評論數觀察并運行程序[1]數據清洗,發現缺失值總結特征分析的作用【程序演示】(橫軸:價格,縱軸:評論數)data2=data.Tprice=data2.values[2]comt=data2.values[3]plt.xlabel('price') #顯示X坐標標簽plt.ylabel('comt') #顯示Y坐標標簽pyl.plot(price,comt,"o")pyl.show()數據分布不均勻觀察并運行程序[2]異常值處理:找到異常值、畫散點圖【程序演示】x=0for i in range(0,line):for j in range(0, col):if(da[i][3]>65):#評論數大于65continueelif(da[i][2]>100):#價格大于100continueelse:if(x==0):newda=da[i]else:newda=npy.row_stack((newda,da[i]))x+=1da2=newda.Tprice=da2[2]comt=da2[3]plt.xlabel('price') #顯示X坐標標簽plt.ylabel('comt') #顯示Y坐標標簽pyl.plot(price,comt,"o")pyl.show()數據均勻分布缺失數據和異常數據處理完畢[3]處理異常數據,評論數大于65,價格大于100都處理掉,再重新繪制散點圖觀察并運行程序【程序演示】關聯分析是分析并發現存在于大量數據之間的關聯性或相關性,從而描述一個事物中某些屬性同時出現的規律和模式。流水號 交易的商品001 可樂,雞蛋,漢堡002 可樂,尿布,啤酒003 可樂,尿布,啤酒,漢堡004 尿布,啤酒以下是某超市的交易記錄,請分組討論如何提高超市商品的銷量?典型例子:購物籃分析頻率次數統計:可樂、尿布、啤酒支持度(兩個商品同時被購買發生的概率):最大頻繁項集:{尿布,啤酒}可樂:3/12雞蛋:1/12漢堡:2/12尿布:3/12啤酒:3/12{可樂,尿布}:2/4{可樂,啤酒}:2/4{尿布,啤酒}:3/4聚類分析是一種探索性的分析,在分類的過程中,不必事先給出一個分類的標準,從樣本數據出發,自動進行分類K-平均算法是一種經典的自下而上的聚類分析方法試把下圖分成幾組觀看K-平均聚類分析微課,試總結其步驟觀看微課總結分類步驟聚類分析是一種探索性的分析,在分類的過程中,不必事先給出一個分類的標準,從樣本數據出發,自動進行分類。K-平均算法:是一種經典的自下而上的聚類分析方法。K-平均算法的基本思想:在空間N個點中,初始選擇K個點作為中心聚點,然后將N個點分別與K個點計算距離,選擇自己最近的點作為自己的中心點,再不斷更新中心聚焦點,以達到”物以類聚,人以群分”的效果。數據分類是數據分析處理中最基本的方法。數據分類通常的做法是,基于樣本數據先訓練構建分類函數或者分類模型(分類器),該分類器具有將待分類數據項映射到某一特點類別的功能,實現對未分類的數據分類。數據分類和回歸分析都可用于預測,預測是指從基于樣本數據記錄,根據分類準則自動給出對未知數據的推廣描述,從而實現對未知數據進行預測。P116 問題:貝葉斯方法96495643923618377221748728546133游戲記憶兩組數據純數字按從大到小以柱形圖呈現第一組第二組可視化表達結論:數字可視化表達可以提高數字的記憶效率!【四、數據的可視化表達】數據可視化表達是指以圖形、圖像、地圖、動畫等生動、易于理解的方式展示數據和詮釋數據之間的關系、趨勢與規律等,以便更好地理解數據。優點:把枯燥乏味的海量數據以豐富的視覺效果呈現數據所反映的本質問題,有效提升數據分析的效率。【四、數據的可視化表達】(一)定義【四、數據的可視化表達】(一)數據可視化表達的方法1.概念:用圖形、圖像、地圖、動畫等生動、易于理解的方式展現數據和詮釋數據之間的關系、趨勢與規律等,以便更好地理解數據。2.優點:快速抓住要點信息有效提升數據分析的效率。生動形象的呈現方式便于理解數據。3.分類(1)探索類:幫助人們發現數據背后的價值(2)解釋類:簡單明了地呈現數據2.數據分析類型及對應的可視化呈現【四、數據的可視化表達】(二)數據可視化表達的工具1.Seaborn:2.Bokeh:能實現交互式可視化獨立于Matplotlib能通過瀏覽器呈現文檔的風格Seaborn直方圖程序及結果Bokeh示例程序及結果主要關注統計模型的可視化基于且高度依賴于Matplotlib【選擇題】1.從互聯網產生的大數據角度看,其最顯著特征是( )A.數據價值密度低 B.數據類型繁多C.數據規模大 D.數據處理速度快2. 從互聯網產生大數據的角度,大數據具有的特征( )A.4V特征:大量(Volume)、多樣(Variety)、低價值密度(Value)、高速(Velocity)B.樣本漸趨于總體,精確讓位于模糊,相關性重于因果C.分布式存儲,分布式并行計算 D.沒有特征3.某超市曾經研究銷售數據,發現購買方便面的顧客購買火腿腸、鹵蛋等商品的概率很大,進而調整商品擺放位置。這種數據分析方法是( )A.聚類分析 B.分類分析 C.關聯分析 D.回歸分析CCA【選擇題】4.小智通過網絡問卷收集同學們課外閱讀時間的百分比分布情況,下列可以用于分析調查數據的是( )A.餅圖 B.折線圖 C .動態熱力圖 D.詞云圖5.下列關于大數據的特征,說法正確的是( )。A.數據價值密度高 B.數據類型少C.數據基本無變化 D.數據體量巨大6.網絡數據采集法,主要通過網絡爬蟲或網站公開API的方式獲取,網絡爬蟲從網頁 的( )開始獲取。A.URL B. WWW C. HTML D. XML7.電子警察采用拍照的方式來約束車輛的行為,其拍照的過程屬于( )A.數據分析 B.數據采集 C.數據分類 D.數據可視化表達ADAB【判斷題】8.利用Python采集網絡數據時,導入擴展庫的關鍵字是import。( )9.從互聯網產生大數據的角度來看,大數據具有的特征是“4V”特征:大量、多樣、高價值密度、低速。( )10.網絡數據采集法主要通過網絡爬蟲或網站公開API的方式獲取網絡爬蟲,從網頁的URL開始獲取。( )11.數據采集的基本方法包括系統日志采集、網絡數據采集等方法。( )ABAA【判斷題】12.數據特征探索的主要任務是對數據進行預處理,發現和處理缺失值、異常數據,繪制直方圖,觀察分析數據的分布特征。( )13.K-平均算法屬于聚類分析方法。( )14.可以用于分析數據趨勢的可視化呈現類型包括折線圖、分組柱形圖、堆疊柱形圖和柱線混合圖等。( )15.Seaborn基于且高度依賴于Matplotlib,可實現交互式可視化。( )AAAB【知識體系】 展開更多...... 收起↑ 資源預覽 縮略圖、資源來源于二一教育資源庫