資源簡介 (共14張PPT)(1)了解大數(shù)據(jù)基礎(chǔ)知識(shí);(2)了解大數(shù)據(jù)采集與分析方法。專題七 初識(shí)大數(shù)據(jù)考綱要求一.大數(shù)據(jù)基礎(chǔ)知識(shí)1.大數(shù)據(jù)的概念 大數(shù)據(jù)(big data)是指無法在可承受的時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、 管理和處理的數(shù)據(jù)集合。大數(shù)據(jù)體量巨大,從TB級(jí)別,躍升到PB級(jí)別,1PB=1024TB,今后甚至用到EB(1EB=1024PB),ZB(1ZB=1024EB)等更大的單位。大數(shù)據(jù)已成為國家基礎(chǔ)性戰(zhàn)略資源,大數(shù)據(jù)正日益對(duì)全球生產(chǎn)、流通、分配、消費(fèi)活動(dòng),乃至經(jīng)濟(jì)運(yùn)行機(jī)制、社會(huì)生活方式和國家治理產(chǎn)生重要影響。2.大數(shù)據(jù)的應(yīng)用 大數(shù)據(jù)的意義在于,人們從龐雜的數(shù)據(jù)中挖掘出有價(jià)值的數(shù)據(jù),并運(yùn)用于科研、管理、農(nóng)業(yè)、金融、醫(yī)療和教育等各個(gè)社會(huì)領(lǐng)域,為生活、生產(chǎn)和社會(huì)發(fā)展服務(wù)。當(dāng)前,大數(shù)據(jù)的應(yīng)用非常廣泛,如金融領(lǐng)域,銀行可以根據(jù)用戶的年齡、資產(chǎn)規(guī)模、理財(cái)偏好等,對(duì)用戶群進(jìn)行精準(zhǔn)定位,分析出潛在的金融服務(wù)需求;如電商領(lǐng)域,淘寶、京東等電商平臺(tái)利用大數(shù)據(jù)技術(shù),對(duì)用戶信息進(jìn)行分析,從而為用戶推送用戶感興趣的產(chǎn)品,以刺激消費(fèi);智慧城市建設(shè)方面,通過大數(shù)據(jù),政府部門得以感知社會(huì)的發(fā)展變化需求,從而更加科學(xué)化、精準(zhǔn)化、合理化的為市民提供相應(yīng)的公共服務(wù)以及資源配置;如交通領(lǐng)域,通過大數(shù)據(jù)時(shí)時(shí)了解道路車流量和交通狀況,有助于交通部門提高對(duì)道路交通的把控能力,防止和緩解交通擁堵,提供更加人性化的服務(wù);如教育領(lǐng)域,通過大數(shù)據(jù)進(jìn)行學(xué)習(xí)分析,能夠?yàn)槊课粚W(xué)生創(chuàng)設(shè)一個(gè)量身定做的個(gè)性化課程,為學(xué)生的多年學(xué)習(xí)提供一個(gè)富有挑戰(zhàn)性而非逐漸厭倦的學(xué)習(xí)計(jì)劃等等。一.大數(shù)據(jù)基礎(chǔ)知識(shí)3.大數(shù)據(jù)的特點(diǎn) 大數(shù)據(jù)通常具有 5V 特征,也就是 Volume(數(shù)據(jù)量)、Variety(多樣性)、Velocity(速度)、Value(價(jià)值)、Veracity(真實(shí)性),此外還具有可變性、復(fù)雜性等特征。(1)數(shù)據(jù)量巨大。大數(shù)據(jù)的體量很大,且數(shù)據(jù)集合的規(guī)模還在不斷擴(kuò)大。隨著信息技術(shù)的大規(guī)模普及和應(yīng)用,教育、商業(yè)、工業(yè)、科學(xué)研究、醫(yī)療等各行各業(yè)所產(chǎn)生的數(shù)據(jù)量都呈現(xiàn)出指數(shù)增長的趨勢(shì)。(2)多樣性。大數(shù)據(jù)來自多種數(shù)據(jù)源,數(shù)據(jù)類型繁多和格式非常豐富,如網(wǎng)絡(luò)日志、視頻、圖片、音頻等。隨著智能設(shè)備、社交網(wǎng)絡(luò)等的流行,機(jī)器和傳感器數(shù)據(jù)(如設(shè)備日志、地理位置信息)、社交數(shù)據(jù)(如網(wǎng)站用戶行為記錄數(shù)據(jù))、電商數(shù)據(jù)(商品數(shù)據(jù)、交易記錄、消費(fèi)記錄)等各種新類型數(shù)據(jù)越來越多。(3)處理速度快。由于數(shù)據(jù)量增長速度快,大數(shù)據(jù)處理速度也必須快,且時(shí)效性要求高。大數(shù)據(jù)往往以數(shù)據(jù)流的形式動(dòng)態(tài)地、快速地產(chǎn)生,需要在一定的時(shí)間限度下得到及時(shí)處理。(4)價(jià)值密度低。大數(shù)據(jù)的價(jià)值密度是比較低的。在數(shù)據(jù)量呈指數(shù)增長的同時(shí),隱藏在海量數(shù)據(jù)里的有用信息卻并沒有以相應(yīng)比例增長,這使人們獲取有用信息的難度加大。以監(jiān)控視頻為例,在長時(shí)間連續(xù)不間斷的監(jiān)控過程中,有用的數(shù)據(jù)可能僅僅占一兩秒時(shí)間。大數(shù)據(jù)技術(shù)就是要從價(jià)值密度低的海量數(shù)據(jù)中快速挖掘出有價(jià)值的信息。(5)真實(shí)性。大數(shù)據(jù)的真實(shí)性主要包括數(shù)據(jù)的可信性、真?zhèn)涡浴碓春托抛u(yù)、有效性等。二.大數(shù)據(jù)采集與分析方法要從海量的數(shù)據(jù)中發(fā)現(xiàn)和創(chuàng)造價(jià)值,取決于大數(shù)據(jù)分析與數(shù)據(jù)挖掘的能力。隨著計(jì)算機(jī)運(yùn)算能力、數(shù)據(jù)采集與存儲(chǔ)技術(shù)的持續(xù)改進(jìn),大數(shù)據(jù)分析與數(shù)據(jù)挖掘能力得到迅猛發(fā)展,使得先前未知或應(yīng)用價(jià)值不明確的信息被發(fā)現(xiàn)和利用。大數(shù)據(jù)處理流程主要是指從海量數(shù)據(jù)中獲取需要的信息并進(jìn)行加工分析得到有用的知識(shí)的過程。大數(shù)據(jù)處理通常在大數(shù)據(jù)平臺(tái)上進(jìn)行,大數(shù)據(jù)處理流程一般包括四大步驟:數(shù)據(jù)采集與預(yù)處理、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)挖掘及數(shù)據(jù)呈現(xiàn)。1.大數(shù)據(jù)采集 大數(shù)據(jù)的采集是指利用多個(gè)數(shù)據(jù)庫來接收發(fā)自客戶端,如網(wǎng)站、App或者傳感器(攝像機(jī)、雷達(dá)、衛(wèi)星)發(fā)出的數(shù)據(jù),并且用戶可以通過這些數(shù)據(jù)庫來進(jìn)行簡單的查詢和處理工作。比如,電商會(huì)使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫MySQL和Access等來存儲(chǔ)每一筆事務(wù)數(shù)據(jù)。在大數(shù)據(jù)的采集過程中,其主要特點(diǎn)和挑戰(zhàn)是并發(fā)數(shù)高,因?yàn)橥瑫r(shí)有可能會(huì)有成千上萬的用戶進(jìn)行訪問和操作,比如火車票售票網(wǎng)站和淘寶網(wǎng),它們并發(fā)的訪問量在峰值時(shí)達(dá)到上百萬,所以需要在采集端部署大量數(shù)據(jù)庫才能支撐。并且如何在這些數(shù)據(jù)庫之間進(jìn)行負(fù)載均衡和分片的確是需要深入的思考和設(shè)計(jì)。二.大數(shù)據(jù)采集與分析方法2.大數(shù)據(jù)分析 大數(shù)據(jù)分析是指對(duì)大規(guī)模的數(shù)據(jù)進(jìn)行分析,常用的數(shù)據(jù)分析方法有:統(tǒng)計(jì)分析、數(shù)據(jù)挖掘、描述性分析、預(yù)測(cè)性分析、指導(dǎo)性分析和診斷性分析等。面對(duì)海量的數(shù)據(jù),為了搜索、處理、分析、歸納和總結(jié)其深層次的規(guī)律,大數(shù)據(jù)分析應(yīng)運(yùn)而生。它的應(yīng)用日益豐富,例如實(shí)時(shí)公交系統(tǒng)根據(jù)用戶當(dāng)前位置,迅速定位最近的公交站點(diǎn),查找系統(tǒng)中公交車輛的位置數(shù)據(jù),選出經(jīng)過該站點(diǎn)所有線路車輛的即將到站信息,使用戶可以直觀地在手機(jī)上查看車輛實(shí)時(shí)位置。用戶和車輛的位置信息通過衛(wèi)星定位系統(tǒng)、Wi-Fi熱點(diǎn)和基站的位置確定。 因?yàn)榇髷?shù)據(jù)的量大到不能再用使用常規(guī)的方法進(jìn)行存儲(chǔ)和處理,所以大數(shù)據(jù)分析與普通的數(shù)據(jù)分析也有所區(qū)別。大數(shù)據(jù)分析的一般流程如圖4-7-1所示。大數(shù)據(jù)分析帶來價(jià)值的同時(shí),也在隱私保護(hù)、安全問題等方面帶來危機(jī)。因此,合理、健康地使用大數(shù)據(jù),遵循“數(shù)據(jù)道德”是我們必備品質(zhì)。二.大數(shù)據(jù)采集與分析方法課后練習(xí)1.要對(duì)校運(yùn)會(huì)各參賽隊(duì)的積分制表并進(jìn)行積分統(tǒng)計(jì)和排序,可以使用( )。A.WPS Office表格 B.PhotoshopC.Powerpoint 2010 D.Flash2.用WPS Office 2019之表格創(chuàng)建的工作簿文件的文件格式是( )。A.dps B.et C.pptx D.wps3.以下不屬于WPS Office 2019之表格的基本功能的是 ( )。 A.?dāng)?shù)據(jù)處理 B.?dāng)?shù)據(jù)統(tǒng)計(jì) C.文稿編輯 D.?dāng)?shù)據(jù)分析4.單元格地址“D3”表示該單元格位于工作表中的( )。A.第3行第D列 B.第D行第3列 C.第D行第D列 D.第3行第3列5.單元格地址C2:D4包含的單元格數(shù)目是 ( )。A.8 B.2 C.4 D.66.某工作表中有出生年月,姓名,單價(jià)字段,其中單價(jià)字段的數(shù)據(jù)類型應(yīng)定義為( )。A.文本 B.備注 C.貨幣 D.日期型7.某單元格的內(nèi)容都變成###,產(chǎn)生的因?yàn)槭牵? )。A.行高不夠 B.列寬不夠 C.?dāng)?shù)據(jù)損壞 D.類型不匹配8.欲在單元格D3中輸入公式C2×20,正確的輸入法是( )。A.C2*20 B.“= C2*20 ” C.=C2*20 D.=C2×20課后練習(xí)9.將D1單元格的公式=B1+C1復(fù)制到D2單元格,將得到公式( )。A.=B1+C1 B.=B2+C2 C.=C1+D1 D.=C1+C210.函數(shù)=Average (A3:A5)的作用是( )。A.求A3和A5兩個(gè)單元格的平均值B.求A3、A4和A5三個(gè)單元格的和C.求A3和A5兩個(gè)單元格的和D.求A3、A4和A5三個(gè)單元格的平均值11.求單元格區(qū)域C1:D4的最大值的函數(shù)是( )。A.=SUM(C1:D4) B.=MIN(C1:D4)C.=COUNT(C1:D4) D.=MAX(C1:D4)12.在校運(yùn)會(huì)報(bào)名表中,欲顯示“女生”中參賽“鉛球”的記錄,可以通過( )。A.篩選 B.排序 C.查詢 D.選擇13.要快速找出成績表中成績最好的前20名學(xué)生,合理的方法是( )。A.進(jìn)行分類匯總 B.只能一條一條看C.對(duì)成績表進(jìn)行排序 D.要求成績輸入人員嚴(yán)格按高低分錄入14.在學(xué)生成績表中,欲按高分到低分顯示數(shù)據(jù),可以通過( )。A.分類匯總 B.升序排序 C.降序排序 D.自動(dòng)篩選課后練習(xí)16.某市統(tǒng)計(jì)部門要制作圖表分析教育、醫(yī)療、基建等各項(xiàng)支出分別占GDP的份額,應(yīng)該選擇的圖表類型是( )。A.餅圖 B.折線圖 C.條形圖 D.散點(diǎn)圖17.制作圖表的數(shù)據(jù)源發(fā)生變化時(shí),則相應(yīng)的圖表( )。A.手動(dòng)跟隨變化 B.自動(dòng)跟隨變化C.不會(huì)跟隨變化 D.不受任何影響18. 大數(shù)據(jù)起源于( )。A.電信 B.互聯(lián)網(wǎng) C.金融 D.電子表格19. 大數(shù)據(jù)的特點(diǎn)不包括( )。A.?dāng)?shù)據(jù)規(guī)模大 B.?dāng)?shù)據(jù)類型多C.?dāng)?shù)據(jù)價(jià)值密度高 D.?dāng)?shù)據(jù)處理速度快20. 以下不屬于大數(shù)據(jù)應(yīng)用的是( )。A.基于淘寶購物記錄分析用戶的購買習(xí)慣B.基于學(xué)校的圖書管理系統(tǒng)分析每類圖書借閱量C.基于美團(tuán)的消費(fèi)記錄分析各地居民飲食口味D.基于傳感器感知的海量數(shù)據(jù)分析自然災(zāi)害的危害程度21.以下數(shù)據(jù)可以稱為大數(shù)據(jù)的是( )。A.10000KB的數(shù)據(jù)量 B.1000MB的數(shù)據(jù)量C.100GB的數(shù)據(jù)量 D.100PB的數(shù)據(jù)量課后練習(xí)22.以下關(guān)于大數(shù)據(jù)的說法中,不正確的是( )。A.大數(shù)據(jù)的處理離不開云計(jì)算B.從網(wǎng)絡(luò)上搜索得到的數(shù)據(jù)都可以稱為大數(shù)據(jù)C.大數(shù)據(jù)在電商、電信、金融等各行業(yè)都有巨大的社會(huì)價(jià)值和產(chǎn)業(yè)空間D.大數(shù)據(jù)是指無法在可承受的時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合23.通過互聯(lián)網(wǎng)采集大數(shù)據(jù)一般是利用( )。A.人工 B.下載工具 C.電子郵件 D.網(wǎng)絡(luò)機(jī)器人程序24.通過分析,從大量數(shù)據(jù)中尋找規(guī)律,又被稱為數(shù)據(jù)庫知識(shí)發(fā)現(xiàn),這種技術(shù)稱為( )。A.?dāng)?shù)據(jù)挖掘 B.?dāng)?shù)據(jù)統(tǒng)計(jì) C.對(duì)比分析 D.?dāng)?shù)據(jù)調(diào)查25.大數(shù)據(jù)分析方法包括( )。①數(shù)據(jù)統(tǒng)計(jì) ②診斷性分析 ③預(yù)測(cè)性分析 ④數(shù)據(jù)挖掘A.①③ B.①②③ C.②③④ D.①②③④參考答案題號(hào) 答案 題號(hào) 答案 題號(hào) 答案 題號(hào) 答案 題號(hào) 答案1 A 2 B 3 C 4 A 5 D6 C 7 B 8 C 9 B 10 D11 D 12 A 13 C 14 C 15 B16 A 17 B 18 B 19 C 20 B21 D 22 B 23 D 24 A 25 D綜合實(shí)踐假定你是風(fēng)光公司的管理人員,請(qǐng)你根據(jù)以下任務(wù)要求,完成對(duì)“wps\數(shù)據(jù)處理\風(fēng)光公司職工管理.et”文件中“職工信息表”“職工獎(jiǎng)金表”“職工工資表”“職工考核表”的處理。【任務(wù)一】 完成對(duì)“職工信息表”的編輯和美化1.將A1:I1單元格合并后居中,字體設(shè)為黑體,字號(hào)為18;2.將A1單元格字體顏色設(shè)為紅色,單元格背景填充顏色為“深灰綠,著色3,淺色40%;3.按格式完成對(duì)單元格區(qū)域B4:B15中工號(hào)的自動(dòng)填充;4.將“姓名”列與“工齡”列兩列內(nèi)容對(duì)調(diào);5.將表格第1行至15行的行高設(shè)為20磅,A列至I列的列寬設(shè)為10字符;6.給A2:I15單元格區(qū)域添加雙實(shí)線外邊框,顏色為紅色,細(xì)單實(shí)線內(nèi)邊框,顏色為藍(lán)色;7.利用條件格式下的“突出顯示單元格規(guī)則”,將單元格區(qū)域H3:H15中包含“本科”的數(shù)據(jù)設(shè)為“綠填充色深綠色文本”;8.將單元格區(qū)域I3:I15的條件格式設(shè)置為“項(xiàng)目選取規(guī)則”中“高于平均值”的“淺紅填充色深紅色文本”;9.將單元格區(qū)域A2:I15套用表格樣式的“表樣式淺色13”,勾選“表包含標(biāo)題”;10.完成操作并保存。綜合實(shí)踐【任務(wù)二】完成對(duì)“職工獎(jiǎng)金表”的數(shù)據(jù)計(jì)算和處理1.在第1行的前面插入一行,并輸入標(biāo)題“四季度職工獎(jiǎng)金統(tǒng)計(jì)”;2.分別用函數(shù)計(jì)算每個(gè)人四個(gè)季度獎(jiǎng)金的總獎(jiǎng)金,結(jié)果存放在G3:G15;3.分別用函數(shù)計(jì)算1至4季度的平均獎(jiǎng)金,結(jié)果存放在C16:F16單元格,并設(shè)置為數(shù)值型,保留1位小數(shù);4.分別用函數(shù)計(jì)算1至4季度的最大獎(jiǎng)金,結(jié)果存放在C17:F17單元格; 5.對(duì)數(shù)據(jù)區(qū)域A2:G15,按主關(guān)鍵字“部門”升序,次關(guān)鍵字“總獎(jiǎng)金”降序的方式排序;6.給G3:G15單元格區(qū)域設(shè)置條件格式為“數(shù)據(jù)條”,“漸變填充”組中的“紅色數(shù)據(jù)條”;7.利用自動(dòng)篩選方法,選出部門為“生產(chǎn)部”,總獎(jiǎng)金大于2500的記錄;8.完成操作并保存。【任務(wù)三】完成對(duì)“職工工資表”的數(shù)據(jù)匯總和分析1.計(jì)算每個(gè)職工的應(yīng)發(fā)工資(應(yīng)發(fā)工資=基本工資+生活補(bǔ)貼+崗位津貼);2.計(jì)算每個(gè)職工的個(gè)人所得稅(人所得稅=應(yīng)發(fā)工資×20%);3.計(jì)算每個(gè)職工的應(yīng)扣款(應(yīng)扣款=水費(fèi)+電費(fèi)+個(gè)人所得稅);4.計(jì)算每個(gè)職工的實(shí)發(fā)工資(實(shí)發(fā)工資=應(yīng)發(fā)工資-應(yīng)扣款);5.對(duì)數(shù)據(jù)區(qū)域A2:L15,按主關(guān)鍵字“部門”降序排序;綜合實(shí)踐6.對(duì)數(shù)據(jù)表分類匯總,分類字段為“部門”,匯總項(xiàng)為“實(shí)發(fā)工資”,匯總方式為求和;7.對(duì)分類匯總后的數(shù)據(jù)表,選擇“部門”和“實(shí)發(fā)工資”列(即單元格區(qū)域C2:C19和L2:L19)做一個(gè)“二維餅圖”下的“餅圖”,圖表標(biāo)題為“各部門實(shí)發(fā)工資比例圖”,套用“布局2”;8.完成操作并保存。【任務(wù)四】完成對(duì)“職工考核表”的數(shù)據(jù)計(jì)算和處理(標(biāo)有“*”的題目供參加一級(jí)考試的同學(xué)參考)1.計(jì)算每個(gè)人的累計(jì)積分,累計(jì)積分等于四個(gè)季度積分的和;2.計(jì)算每個(gè)人的年度考核獎(jiǎng)(年度考核獎(jiǎng)=5×累計(jì)積分);*3.使用RANK()函數(shù)對(duì)每個(gè)人的累計(jì)積分按降序次序排名,結(jié)果存放在K3:K15單元格區(qū)域;*4.使用IF()函數(shù)求每個(gè)人的考核等級(jí),若累計(jì)積分大于350,考核等級(jí)為“優(yōu)秀”,否則為“合格”;*5.使用COUNTIF()函數(shù)求考核等級(jí)為“優(yōu)秀”的人數(shù),結(jié)果存放在單元格M3;*6.對(duì)數(shù)據(jù)區(qū)域A2:L15,篩選出“上海”分公司,“財(cái)務(wù)部”,年度考核獎(jiǎng)大于1700的記錄,條件區(qū)域設(shè)在A16:C17,篩選結(jié)果存放在A18:L21單元格區(qū)域;7.完成操作并保存。 展開更多...... 收起↑ 資源預(yù)覽 縮略圖、資源來源于二一教育資源庫