資源簡介 課時2 大數據處理的基本思想與架構課時目標1.了解大數據處理架構和基本思路。2.了解靜態數據、流數據和圖數據三者的區別。1.處理大數據時一般采用分治思想,就是把一個復雜的問題分成兩個或更多相同或相似的子問題。分治思想的實現過程2.大數據處理類型有靜態數據、流數據和圖數據三大類。3.Hadoop是一個可運行于大規模計算機集群上的分布式系統基礎架構,適用于靜態數據的批處理計算。靜態數據指在處理時已收集完成,在計算時不會發生改變的數據,一般采用批處理方式。4.分布式文件系統(簡稱HDFS)主要功能是將大規模海量數據以文件的形式,用多個副本保存在不同的存儲節點中,并用分布式系統進行管理。HDFS是一個高度容錯性的系統,適合部署在廉價的機器上。云盤、網盤的底層一般采用HDFS實現。5.分布式的列式數據庫(HBase)采用基于列的存儲形式,建立在HDFS提供的底層存儲基礎上,主要用來存儲非結構化數據和半結構化數據,具有良好的橫向擴展能力,可管理PB級的大數據。6.流數據是指不間斷地、持續地到達的實時數據,隨著時間的流逝,流數據的價值也隨著降低。7.實時處理系統處理大量的流數據,處理流數據的計算平臺有Storm、Heron、IBM InfoSphere、Streams等。8.Twitter公司的大數據處理系統Summingbird實現了批處理和實時流計算在一個平臺架構下的整合(Hadoop+Storm)。重難點剖析1.處理大數據的分治思想分治就是把一個復雜的問題分成兩個或更多相同或相似的子問題,找到求這幾個子問題的解法后,再找出合適的方法把它們組合成求整個問題的解法。如果這些子問題還難以解決,可以再把它們分成幾個更小的子問題,以此類推,直至可以直接求出解為止。2.三種處理數據的系統及相應的平臺(1)批處理計算Hadoop是一個可運行于大規模計算機集群上的分布式系統基礎架構,適用于靜態數據的批處理計算。Spark屬于較廣的開源分布式計算架構,Spark啟用了內存存儲中間結果,運行速度比Hadoop快很多。(2)實時處理系統實時處理系統主要用于處理流數據,比如大型購物網站的廣告推薦、社交網絡的個性化推薦等,流數據的計算平臺有Storm、Heron、IBM InfoSphere、Stream等等。(3)圖計算圖數據的特點是節點之間的關系錯綜復雜,且節點之間可能有多條回路。目前通用的圖處理軟件主要包括兩類:一類是圖數據庫,如Neo4j、InfiniteGraph、OrientDB等;另一類是并行圖處理系統,如Google Pregel、Apache Giraph、卡內基梅隆大學的GraphLab、運行于Spark平臺的GraphX等。(4)實時處理與批處理的整合開發者在同一個平臺既可以做批處理,也可以做實時流計算,還可以進行兩種模式的混合使用。平臺的整合降低了批處理與流處理之間的切換,有利于減少系統的開銷,降低使用成本。例1 n個志愿來自10個不同的城市,每個城市按每個志愿參加志愿活動降序排列。小明把n個志愿按城市分成10個集合,在每個集合進行排序,該算法主要采用的思想是 ( )A.順序查找法 B.枚舉法C.分治算法 D.解析法答案 C解析 把一個大問題,分成若干個小問題,稱為分治算法。變式訓練1 把n個數據按序排序,若要查找一個數是否在這些數據中,把這些數分成前后兩部分,與中間的數據進行對比,如果該數據在前半部分,則繼續按前面的思想進行分別查找,該算法主要采用的思想是 ( )A.順序查找法 B.枚舉法C.分治算法 D.解析法答案 C解析 采用同樣的方法,在不同的區域中進行查找,屬于分治的算法思想。例2 通過下列方式獲取數據,數據類型屬于靜態數據的是 ( )A.各個監控不斷向監控中心發送的數據B.同一時間內收到10萬移動設備的位置信息C.服務器的近10天內的IP訪問數據日志D.大型購物網站的廣告推薦答案 C解析 靜態數據和流數據的區別在于數據是以前就有的,還是即時產生的數據。變式訓練2 下列關于大數據中的流數據的描述,正確的是 ( )A.數據必須采集完成后再進行處理B.數據價值不會隨著時間的流逝降低C.Hadoop是專業的流數據處理平臺D.實時分析流數據可以得到更有價值的結果答案 D解析 在處理時已經采集完成的數據是靜態數據,流數據是不間斷地、持續地到達的實時數據,但隨著時間變化,其價值會發生改變。Hadoop屬于批量數據處理平臺。例3 下列關于分布式文件系統,說法錯誤的是 ( )A.是一個高度容錯性的系統B.適合于靜態數據的存儲,但不適合于流數據的存儲C.Hadoop系統中,采用基于列的存儲方式進行存儲D.大規模海量數據以文件的形式,用多個副本保存在不同的存儲節點中答案 B解析 大數據往往用分布式文件系統為底層文件格式,即可以是實時信息,也可以是靜態數據。變式訓練3 云盤的底層一般采用文件格式是 ( )A.HDFS B.Ext4C.FAT32 D.NTFS答案 A解析 云盤采用流數據存儲數據,因此采用分布式存儲系統格式。例4 下列有關大數據中統計和處理說法正確的是 ( )A.批處理的結果不能用于實時處理系統中B.圖處理軟件主要包括圖數據庫和并行圖處理系統C.同一個平臺既要么做批處理,要么做實時流計算,不能兩者兼之D.對于社交網絡的個性化數據推薦,往往可以在批處理平臺中進行計算答案 B解析 目前通用的圖處理軟件主要包括兩類:一類是圖數據庫,如Neo4j、Infinite Graph、OrientDB等;另一類是并行圖處理系統,如Google Pregel、Apache Giraph、卡內基梅隆大學的GraphLab、運行于Spark平臺的GraphX等。變式訓練4 下列有關Hadoop計算平臺的說法中,不正確的是 ( )A.Hadoop計算平臺是一個可運行于大規模計算機集群上的分布式系統基礎架構B.Hadoop計算平臺適用于對靜態數據進行處理C.Hadoop計算平臺主要包括Common公共庫、HDFS、HBase、MapReduce等模塊D.Hadoop計算平臺也適用于對流數據的實時處理答案 D解析 本題主要考查的是Hadoop計算平臺。Hadoop計算平臺適用于對靜態數據進行處理,而對流數據的實時處理明顯性能不足,因此答案為D。 1.大數據處理的基本思想是 ( )A.排序 B.枚舉C.分治 D.遞歸答案 C解析 處理大數據時,一般采用分治思想。分治思想就是把一個復雜的問題分成兩個或更多的相同或相似的子問題,再把子問題分成更小的子問題……,直到最后子問題可以簡單地直接求解,原問題的解即子問題的解再合并,因此答案為C。2.下列有關大數據按照類型劃分的處理方式的描述,正確的是 ( )A.流數據采用批處理計算B.靜態數據采用流計算C.社交網絡的數據一般采用圖計算D.圖數據采用批量計算答案 C解析 大數據處理按照類型可劃分為對靜態數據的批處理計算、對流數據的流計算和對圖結構數據的圖計算,社交網絡、道路交通等數據一般采用圖計算模式進行處理,因此,答案為C。3.下列不屬于Hadoop計算平臺組成部分的是 ( )A.Common公共庫B.分布式文件系統NTFSC.分布式數據庫HBaseD.分布式并行計算模型MapReduce答案 B解析 Hadoop計算平臺主要包括Common公共庫、分布式文件系統HDFS、分布式數據庫HBase、分布式并行計算模型MapReduce等多個模塊。NTFS是Windows的文件系統,因此答案為B。 一、基礎鞏固1.某國要選舉國家領導人,該國家分為多個地區,把每個選區的選票結果進行匯總,該算法主要體現的思想是 ( )A.順序查找法 B.枚舉法C.分治算法 D.解析法答案 C解析 把一個大問題,分成若干個小問題,稱為分治算法。2.某省在填報志愿時,由于報名人數較多,在各地市報名并把數據匯總在一起,該算法主要體現的思想是 ( )A.順序查找法 B.枚舉法C.分治算法 D.解析法答案 C解析 把一個大問題,分成若干個小問題,稱為分治算法。根據題目的描述可知,該算法主要體現的思想是分治算法,因此,答案為C。3.下列關于Hadoop平臺的說法正確的是 ( )A.該平臺只能處理結構化數據B.處理信息必須通過可視化體現處理的結論C.該平臺中每臺計算機都在處理相同的數據D.該平臺可以節省大型和復雜問題的處理時間答案 D解析 該平臺可以處理結構化、非結構化和半結構化的數據,分析的結果可以通過可視化來體現,也可以是單純的數據信息。該平臺采用分布式文件格式,不同的計算機往往處理不同的數據,其目的是為了節省計算時間。4.下列應用中涉及靜態數據處理的是 ( )A.統計上個月的交易量排行榜B.實時更新導航線路C.在線統計某個商品的點贊率D.不斷更新的電力數據答案 A解析 靜態數據往往是已經存在的不會改變的數據,上個月的交易量排行榜屬于靜態數據,因此,答案為A。5.下列應用中涉及流數據處理的是 ( )A.統計店鋪的月交易量B.用戶搜索某關鍵詞同時得到的推薦信息C.上個月的地鐵客流數據D.用戶一個月的煤氣費賬單答案 B解析 流數據往往是即時的,實時的數據。ACD都屬于靜態數據,用戶搜索某關鍵詞同時得到的推薦信息,屬于流數據,因此,答案為B。6.目前,網盤的底層一般采用的文件系統是 ( )A.HDFS B.Ext4C.FAT32 D.NTFS答案 A解析 網盤采用流數據存儲數據,因此采用分布式存儲系統格式,而HDFS是分布式文件系統,因此,答案為A。7.下列關于分布式數據庫HBase的理解,錯誤的是 ( )A.HBase是谷歌BigTable數據庫的開源實現B.底層存儲采用建立在HDFS基礎上C.采用基于行的存儲方式,可管理PB級的大數據D.可以用于存儲結構化、非結構化數據和半結構化數據答案 C解析 數據庫HBase是基于列的存儲方式,因此,錯誤的是C。二、能力提升8.下列有關分治思想的描述,正確的是 ( )A.將復雜的問題分解成兩個或多個相同或相似的小問題,然后分別對小問題進行求解B.運用分治思想,可以提高數據的處理速度C.運用分治思想,最終結果的正確性得不到保障D.運用分治思想,系統的容錯性得不到保障答案 B解析 分治思想是指把最初的問題分解成若干個相同或相似的子問題,然后,在逐個解決各個子問題的基礎上得到原始問題的解。由于分解出的每個子問題總是比最初的問題簡單,因此,分治思想能夠降低原始問題的難度,能提高解決問題的效率。運用分治思想,最終結果的正確性和系統的容錯性均能得到保障。因此,答案為B。9.下列屬于圖并行處理軟件的是 ( )A.Infinite Graph B.Neo4jC.OrientDB D.Google Pregel答案 D解析 Google Pregel屬于圖處理系統。10.要構建一個電子商務平臺,需實時向用戶推送相關產品信息,推薦該平臺底層采用的文件系統和數據處理平臺是 ( )A.HDFS Google PregelB.Ext4 HeronC.HDFS StormD.HDFS Hadoop答案 C解析 大數據處理平臺往往采用HDFS文件系統,實時向用戶推送相關產品信息需采用流數據平臺。11.實時處理與批處理整合的優勢有 ( )①減少了系統開銷②不利于降低使用成本③可以在同一個平臺做批處理計算和流計算④縮短了批處理計算和流計算之間的切換延時A.①②③ B.①②④C.①③④ D.②③④答案 C解析 一個平臺架構下的整合Hadoop和Storm,開發者在同一個平臺既可以做批處理,也可以做實時流計算,還可以進行兩種模式的混合使用。平臺的整合降低了批處理與流處理之間的切換,有利于減少系統的開銷,降低使用成本。12.(多選)關于大數據處理,下列說法正確的是 ( )A.大數據必須采集完成后才能處理B.大數據包括對靜態數據的批處理、對流數據的實時計算和對圖結構數據的圖計算C.大數據只能處理結構化數據不能處理非結構化的數據D.數據的可視化可以增強數據的解釋力與吸引力答案 BD解析 本題考查大數據技術概念和特征。A選項大數據可以邊采集邊處理。C選項大數據可以處理結構化,半結構化和非結構化的數據。13.下列有關大數據的說法,錯誤的是 ( )A.分治的思想就是處理大數據的基本思路B.Hadoop、Spark適用于靜態數據的批處理計算C.圖計算是指對大規模圖片類型數據進行處理的計算方式D.電商平臺的“猜你喜歡”功能運用了大數據技術答案 C解析 本題考查大數據技術概念和特征。C選項圖計算是專門針對圖結構數據的處理。14.上海浦東機場采集了過去兩年中每個時刻的旅客到達量和陸路交通情況的數據,開發出一個智能出租車調度系統,從而使旅客在機場等候出租車的時間大幅縮短。下列關于該事例說法正確的是 ( )A.人們在機場候車的行為產生了數據B.機場主要是通過人工方式采集數據的C.機場在過去兩年采集到的數據屬于流數據D.大數據處理只需要分析最近一個月的抽樣數據答案 A解析 本題考查大數據的概念。機場數據主要是通過機器采集。流數據是指不間斷地、持續地到達的實時數據。大數據收集和分析的數據量非常大,不僅僅是最近一個月的抽樣數據。15.下列說法正確的是 ( )A.文本數據處理時可以通過特征提取提高文本處理的速度和效率B.學生選課系統中存放的大量數據屬于大數據C.大數據要求所有處理的數據都是精確的D.領域人工智能指智能系統從一個領域快速跨越到另外一個領域答案 A16.FlightAware平臺可以為用戶提供實時航班數據、機場信息、天氣圖、飛行計劃、導航圖、航空新聞和照片。該平臺提供的數據為 ( )A.靜態數據 B.流數據C.圖數據 D.結構化數據答案 B17.下列關于大數據的描述中,不正確的是 ( )A.處理大數據時,一般采用分治思想B.某學校的高考報名數據屬于大數據C.大數據的速度快不僅指數據產生的速度快,還指數據處理的速度快D.Hadoop是一個可運行于大規模計算機集群上的分布式系統基礎架構答案 B解析 本題考查大數據技術概念和特征。B選項學生報名的數據有限,不屬于大數據。18.下列有關大數據及其處理的說法,錯誤的是 ( )A.大數據的四個特征:數據規模大、速度快、數據類型多、價值密度低B.對大數據進行處理時,必須保證每個數據都準確無誤C.批處理計算適合處理靜態數據D.流計算適合處理實時更新的數據答案 B解析 本題考查大數據的相關知識。B選項對于數據不再追求精確性,而是能夠接受數據的混雜性。(共42張PPT)課時2 大數據處理的基本思想與架構第四章 數據處理與應用1.了解大數據處理架構和基本思路。2.了解靜態數據、流數據和圖數據三者的區別。目 錄CONTENTS知識梳理01例題精析02隨堂檢測03鞏固與提升04知識梳理11.處理大數據時一般采用______思想,就是把一個復雜的問題分成兩個或更多____________的子問題。分治相同或相似分治思想的實現過程2.大數據處理類型有__________、________和________三大類。3.Hadoop是一個可運行于大規模計算機集群上的____________基礎架構,適用于__________的批處理計算。靜態數據指在處理時已收集完成,在計算時不會發生改變的數據,一般采用________方式。4.分布式文件系統(簡稱HDFS)主要功能是將大規模海量數據以文件的形式,用多個副本保存在不同的存儲節點中,并用____________進行管理。HDFS是一個高度________的系統,適合部署在廉價的機器上。云盤、網盤的底層一般采用__________實現。靜態數據流數據圖數據分布式系統靜態數據批處理分布式系統容錯性HDFS5.分布式的列式數據庫(HBase)采用基于____的存儲形式,建立在HDFS提供的底層存儲基礎上,主要用來存儲非結構化數據和__________數據,具有良好的橫向擴展能力,可管理PB級的大數據。6.流數據是指不間斷地、持續地到達的實時數據,隨著時間的流逝,流數據的價值也隨著______。7.實時處理系統處理大量的流數據,處理流數據的計算平臺有____________、Heron、IBM InfoSphere、Streams等。8.Twitter公司的大數據處理系統Summingbird實現了____________________在一個平臺架構下的整合(Hadoop+Storm)。列半結構化降低Storm批處理和實時流計算重難點剖析1.處理大數據的分治思想分治就是把一個復雜的問題分成兩個或更多相同或相似的子問題,找到求這幾個子問題的解法后,再找出合適的方法把它們組合成求整個問題的解法。如果這些子問題還難以解決,可以再把它們分成幾個更小的子問題,以此類推,直至可以直接求出解為止。2.三種處理數據的系統及相應的平臺(1)批處理計算Hadoop是一個可運行于大規模計算機集群上的分布式系統基礎架構,適用于靜態數據的批處理計算。Spark屬于較廣的開源分布式計算架構,Spark啟用了內存存儲中間結果,運行速度比Hadoop快很多。(2)實時處理系統實時處理系統主要用于處理流數據,比如大型購物網站的廣告推薦、社交網絡的個性化推薦等,流數據的計算平臺有Storm、Heron、IBM InfoSphere、Stream等等。(3)圖計算圖數據的特點是節點之間的關系錯綜復雜,且節點之間可能有多條回路。目前通用的圖處理軟件主要包括兩類:一類是圖數據庫,如Neo4j、InfiniteGraph、OrientDB等;另一類是并行圖處理系統,如Google Pregel、Apache Giraph、卡內基梅隆大學的GraphLab、運行于Spark平臺的GraphX等。(4)實時處理與批處理的整合開發者在同一個平臺既可以做批處理,也可以做實時流計算,還可以進行兩種模式的混合使用。平臺的整合降低了批處理與流處理之間的切換,有利于減少系統的開銷,降低使用成本。例題精析2例1 n個志愿來自10個不同的城市,每個城市按每個志愿參加志愿活動降序排列。小明把n個志愿按城市分成10個集合,在每個集合進行排序,該算法主要采用的思想是 ( )A.順序查找法 B.枚舉法 C.分治算法 D.解析法C解析 把一個大問題,分成若干個小問題,稱為分治算法。變式訓練1 把n個數據按序排序,若要查找一個數是否在這些數據中,把這些數分成前后兩部分,與中間的數據進行對比,如果該數據在前半部分,則繼續按前面的思想進行分別查找,該算法主要采用的思想是 ( )A.順序查找法 B.枚舉法C.分治算法 D.解析法解析 采用同樣的方法,在不同的區域中進行查找,屬于分治的算法思想。C例2 通過下列方式獲取數據,數據類型屬于靜態數據的是 ( )A.各個監控不斷向監控中心發送的數據B.同一時間內收到10萬移動設備的位置信息C.服務器的近10天內的IP訪問數據日志D.大型購物網站的廣告推薦解析 靜態數據和流數據的區別在于數據是以前就有的,還是即時產生的數據。C變式訓練2 下列關于大數據中的流數據的描述,正確的是 ( )A.數據必須采集完成后再進行處理B.數據價值不會隨著時間的流逝降低C.Hadoop是專業的流數據處理平臺D.實時分析流數據可以得到更有價值的結果解析 在處理時已經采集完成的數據是靜態數據,流數據是不間斷地、持續地到達的實時數據,但隨著時間變化,其價值會發生改變。Hadoop屬于批量數據處理平臺。DA.是一個高度容錯性的系統B.適合于靜態數據的存儲,但不適合于流數據的存儲C.Hadoop系統中,采用基于列的存儲方式進行存儲D.大規模海量數據以文件的形式,用多個副本保存在不同的存儲節點中解析 大數據往往用分布式文件系統為底層文件格式,即可以是實時信息,也可以是靜態數據。B變式訓練3 云盤的底層一般采用文件格式是 ( )A.HDFS B.Ext4C.FAT32 D.NTFS解析 云盤采用流數據存儲數據,因此采用分布式存儲系統格式。A例4 下列有關大數據中統計和處理說法正確的是 ( )A.批處理的結果不能用于實時處理系統中B.圖處理軟件主要包括圖數據庫和并行圖處理系統C.同一個平臺既要么做批處理,要么做實時流計算,不能兩者兼之D.對于社交網絡的個性化數據推薦,往往可以在批處理平臺中進行計算解析 目前通用的圖處理軟件主要包括兩類:一類是圖數據庫,如Neo4j、Infinite Graph、OrientDB等;另一類是并行圖處理系統,如Google Pregel、Apache Giraph、卡內基梅隆大學的GraphLab、運行于Spark平臺的GraphX等。BA.Hadoop計算平臺是一個可運行于大規模計算機集群上的分布式系統基礎架構B.Hadoop計算平臺適用于對靜態數據進行處理C.Hadoop計算平臺主要包括Common公共庫、HDFS、HBase、MapReduce等模塊D.Hadoop計算平臺也適用于對流數據的實時處理解析 本題主要考查的是Hadoop計算平臺。Hadoop計算平臺適用于對靜態數據進行處理,而對流數據的實時處理明顯性能不足,因此答案為D。D隨堂檢測31.大數據處理的基本思想是 ( )A.排序 B.枚舉C.分治 D.遞歸C解析 處理大數據時,一般采用分治思想。分治思想就是把一個復雜的問題分成兩個或更多的相同或相似的子問題,再把子問題分成更小的子問題……,直到最后子問題可以簡單地直接求解,原問題的解即子問題的解再合并,因此答案為C。2.下列有關大數據按照類型劃分的處理方式的描述,正確的是 ( )A.流數據采用批處理計算B.靜態數據采用流計算C.社交網絡的數據一般采用圖計算D.圖數據采用批量計算C解析 大數據處理按照類型可劃分為對靜態數據的批處理計算、對流數據的流計算和對圖結構數據的圖計算,社交網絡、道路交通等數據一般采用圖計算模式進行處理,因此,答案為C。A.Common公共庫B.分布式文件系統NTFSC.分布式數據庫HBaseD.分布式并行計算模型MapReduceB解析 Hadoop計算平臺主要包括Common公共庫、分布式文件系統HDFS、分布式數據庫HBase、分布式并行計算模型MapReduce等多個模塊。NTFS是Windows的文件系統,因此答案為B。4鞏固與提升基礎鞏固能力提升1.某國要選舉國家領導人,該國家分為多個地區,把每個選區的選票結果進行匯總,該算法主要體現的思想是 ( )A.順序查找法 B.枚舉法C.分治算法 D.解析法C解析 把一個大問題,分成若干個小問題,稱為分治算法。2.某省在填報志愿時,由于報名人數較多,在各地市報名并把數據匯總在一起,該算法主要體現的思想是 ( )A.順序查找法 B.枚舉法C.分治算法 D.解析法C解析 把一個大問題,分成若干個小問題,稱為分治算法。根據題目的描述可知,該算法主要體現的思想是分治算法,因此,答案為C。3.下列關于Hadoop平臺的說法正確的是 ( )A.該平臺只能處理結構化數據B.處理信息必須通過可視化體現處理的結論C.該平臺中每臺計算機都在處理相同的數據D.該平臺可以節省大型和復雜問題的處理時間D解析 該平臺可以處理結構化、非結構化和半結構化的數據,分析的結果可以通過可視化來體現,也可以是單純的數據信息。該平臺采用分布式文件格式,不同的計算機往往處理不同的數據,其目的是為了節省計算時間。4.下列應用中涉及靜態數據處理的是 ( )A.統計上個月的交易量排行榜B.實時更新導航線路C.在線統計某個商品的點贊率D.不斷更新的電力數據A解析 靜態數據往往是已經存在的不會改變的數據,上個月的交易量排行榜屬于靜態數據,因此,答案為A。5.下列應用中涉及流數據處理的是 ( )A.統計店鋪的月交易量B.用戶搜索某關鍵詞同時得到的推薦信息C.上個月的地鐵客流數據D.用戶一個月的煤氣費賬單B解析 流數據往往是即時的,實時的數據。ACD都屬于靜態數據,用戶搜索某關鍵詞同時得到的推薦信息,屬于流數據,因此,答案為B。6.目前,網盤的底層一般采用的文件系統是 ( )A.HDFS B.Ext4C.FAT32 D.NTFSA解析 網盤采用流數據存儲數據,因此采用分布式存儲系統格式,而HDFS是分布式文件系統,因此,答案為A。A.HBase是谷歌BigTable數據庫的開源實現B.底層存儲采用建立在HDFS基礎上C.采用基于行的存儲方式,可管理PB級的大數據D.可以用于存儲結構化、非結構化數據和半結構化數據C解析 數據庫HBase是基于列的存儲方式,因此,錯誤的是C。8.下列有關分治思想的描述,正確的是 ( )A.將復雜的問題分解成兩個或多個相同或相似的小問題,然后分別對小問題進行求解B.運用分治思想,可以提高數據的處理速度C.運用分治思想,最終結果的正確性得不到保障D.運用分治思想,系統的容錯性得不到保障B解析 分治思想是指把最初的問題分解成若干個相同或相似的子問題,然后,在逐個解決各個子問題的基礎上得到原始問題的解。由于分解出的每個子問題總是比最初的問題簡單,因此,分治思想能夠降低原始問題的難度,能提高解決問題的效率。運用分治思想,最終結果的正確性和系統的容錯性均能得到保障。因此,答案為B。9.下列屬于圖并行處理軟件的是 ( )A.Infinite Graph B.Neo4jC.OrientDB D.Google PregelD解析 Google Pregel屬于圖處理系統。10.要構建一個電子商務平臺,需實時向用戶推送相關產品信息,推薦該平臺底層采用的文件系統和數據處理平臺是 ( )A.HDFS Google PregelB.Ext4 HeronC.HDFS StormD.HDFS HadoopC解析 大數據處理平臺往往采用HDFS文件系統,實時向用戶推送相關產品信息需采用流數據平臺。11.實時處理與批處理整合的優勢有 ( )①減少了系統開銷②不利于降低使用成本③可以在同一個平臺做批處理計算和流計算④縮短了批處理計算和流計算之間的切換延時A.①②③ B.①②④C.①③④ D.②③④C解析 一個平臺架構下的整合Hadoop和Storm,開發者在同一個平臺既可以做批處理,也可以做實時流計算,還可以進行兩種模式的混合使用。平臺的整合降低了批處理與流處理之間的切換,有利于減少系統的開銷,降低使用成本。12.(多選)關于大數據處理,下列說法正確的是 ( )A.大數據必須采集完成后才能處理B.大數據包括對靜態數據的批處理、對流數據的實時計算和對圖結構數據的圖計算C.大數據只能處理結構化數據不能處理非結構化的數據D.數據的可視化可以增強數據的解釋力與吸引力BD解析 本題考查大數據技術概念和特征。A選項大數據可以邊采集邊處理。C選項大數據可以處理結構化,半結構化和非結構化的數據。CA.分治的思想就是處理大數據的基本思路B.Hadoop、Spark適用于靜態數據的批處理計算C.圖計算是指對大規模圖片類型數據進行處理的計算方式D.電商平臺的“猜你喜歡”功能運用了大數據技術解析 本題考查大數據技術概念和特征。C選項圖計算是專門針對圖結構數據的處理。14.上海浦東機場采集了過去兩年中每個時刻的旅客到達量和陸路交通情況的數據,開發出一個智能出租車調度系統,從而使旅客在機場等候出租車的時間大幅縮短。下列關于該事例說法正確的是 ( )A.人們在機場候車的行為產生了數據B.機場主要是通過人工方式采集數據的C.機場在過去兩年采集到的數據屬于流數據D.大數據處理只需要分析最近一個月的抽樣數據A解析 本題考查大數據的概念。機場數據主要是通過機器采集。流數據是指不間斷地、持續地到達的實時數據。大數據收集和分析的數據量非常大,不僅僅是最近一個月的抽樣數據。15.下列說法正確的是 ( )A.文本數據處理時可以通過特征提取提高文本處理的速度和效率B.學生選課系統中存放的大量數據屬于大數據C.大數據要求所有處理的數據都是精確的D.領域人工智能指智能系統從一個領域快速跨越到另外一個領域A16.FlightAware平臺可以為用戶提供實時航班數據、機場信息、天氣圖、飛行計劃、導航圖、航空新聞和照片。該平臺提供的數據為 ( )A.靜態數據 B.流數據C.圖數據 D.結構化數據BA.處理大數據時,一般采用分治思想B.某學校的高考報名數據屬于大數據C.大數據的速度快不僅指數據產生的速度快,還指數據處理的速度快D.Hadoop是一個可運行于大規模計算機集群上的分布式系統基礎架構B解析 本題考查大數據技術概念和特征。B選項學生報名的數據有限,不屬于大數據。BA.大數據的四個特征:數據規模大、速度快、數據類型多、價值密度低B.對大數據進行處理時,必須保證每個數據都準確無誤C.批處理計算適合處理靜態數據D.流計算適合處理實時更新的數據解析 本題考查大數據的相關知識。B選項對于數據不再追求精確性,而是能夠接受數據的混雜性。課時2 大數據處理的基本思想與架構課時目標1.了解大數據處理架構和基本思路。2.了解靜態數據、流數據和圖數據三者的區別。1.處理大數據時一般采用________思想,就是把一個復雜的問題分成兩個或更多______________的子問題。分治思想的實現過程2.大數據處理類型有____________、________和________三大類。3.Hadoop是一個可運行于大規模計算機集群上的____________基礎架構,適用于____________的批處理計算。靜態數據指在處理時已收集完成,在計算時不會發生改變的數據,一般采用________方式。4.分布式文件系統(簡稱HDFS)主要功能是將大規模海量數據以文件的形式,用多個副本保存在不同的存儲節點中,并用________________進行管理。HDFS是一個高度________的系統,適合部署在廉價的機器上。云盤、網盤的底層一般采用________實現。5.分布式的列式數據庫(HBase)采用基于________的存儲形式,建立在HDFS提供的底層存儲基礎上,主要用來存儲____________數據和____________數據,具有良好的橫向擴展能力,可管理PB級的大數據。6.流數據是指不間斷地、持續地到達的實時數據,隨著時間的流逝,流數據的價值也隨著________。7.實時處理系統處理大量的________,處理流數據的計算平臺有________、Heron、IBM InfoSphere、Streams等。8.Twitter公司的大數據處理系統Summingbird實現了________________________在一個平臺架構下的整合(Hadoop+Storm)。1.處理大數據的分治思想分治就是把一個復雜的問題分成兩個或更多相同或相似的子問題,找到求這幾個子問題的解法后,再找出合適的方法把它們組合成求整個問題的解法。如果這些子問題還難以解決,可以再把它們分成幾個更小的子問題,以此類推,直至可以直接求出解為止。2.三種處理數據的系統及相應的平臺(1)批處理計算Hadoop是一個可運行于大規模計算機集群上的分布式系統基礎架構,適用于靜態數據的批處理計算。Spark屬于較廣的開源分布式計算架構,Spark啟用了內存存儲中間結果,運行速度比Hadoop快很多。(2)實時處理系統實時處理系統主要用于處理流數據,比如大型購物網站的廣告推薦、社交網絡的個性化推薦等,流數據的計算平臺有Storm、Heron、IBM InfoSphere、Stream等等。(3)圖計算圖數據的特點是節點之間的關系錯綜復雜,且節點之間可能有多條回路。目前通用的圖處理軟件主要包括兩類:一類是圖數據庫,如Neo4j、InfiniteGraph、OrientDB等;另一類是并行圖處理系統,如Google Pregel、Apache Giraph、卡內基梅隆大學的GraphLab、運行于Spark平臺的GraphX等。(4)實時處理與批處理的整合開發者在同一個平臺既可以做批處理,也可以做實時流計算,還可以進行兩種模式的混合使用。平臺的整合降低了批處理與流處理之間的切換,有利于減少系統的開銷,降低使用成本。例1 n個志愿來自10個不同的城市,每個城市按每個志愿參加志愿活動降序排列。小明把n個志愿按城市分成10個集合,在每個集合進行排序,該算法主要采用的思想是( )A.順序查找法 B.枚舉法C.分治算法 D.解析法聽課筆記: 變式訓練1 把n個數據按序排序,若要查找一個數是否在這些數據中,把這些數分成前后兩部分,與中間的數據進行對比,如果該數據在前半部分,則繼續按前面的思想進行分別查找,該算法主要采用的思想是( )A.順序查找法 B.枚舉法C.分治算法 D.解析法例2 通過下列方式獲取數據,數據類型屬于靜態數據的是( )A.各個監控不斷向監控中心發送的數據B.同一時間內收到10萬移動設備的位置信息C.服務器的近10天內的IP訪問數據日志D.大型購物網站的廣告推薦聽課筆記: 變式訓練2 下列關于大數據中的流數據的描述,正確的是( )A.數據必須采集完成后再進行處理B.數據價值不會隨著時間的流逝降低C.Hadoop是專業的流數據處理平臺D.實時分析流數據可以得到更有價值的結果例3 下列關于分布式文件系統,說法錯誤的是( )A.是一個高度容錯性的系統B.適合于靜態數據的存儲,但不適合于流數據的存儲C.Hadoop系統中,采用基于列的存儲方式進行存儲D.大規模海量數據以文件的形式,用多個副本保存在不同的存儲節點中聽課筆記: 變式訓練3 云盤的底層一般采用文件格式是( )A.HDFS B.Ext4C.FAT32 D.NTFS例4 下列有關大數據中統計和處理說法正確的是( )A.批處理的結果不能用于實時處理系統中B.圖處理軟件主要包括圖數據庫和并行圖處理系統C.同一個平臺既要么做批處理,要么做實時流計算,不能兩者兼之D.對于社交網絡的個性化數據推薦,往往可以在批處理平臺中進行計算聽課筆記: 變式訓練4 下列有關Hadoop計算平臺的說法中,不正確的是( )A.Hadoop計算平臺是一個可運行于大規模計算機集群上的分布式系統基礎架構B.Hadoop計算平臺適用于對靜態數據進行處理C.Hadoop計算平臺主要包括Common公共庫、HDFS、HBase、MapReduce等模塊D.Hadoop計算平臺也適用于對流數據的實時處理1.大數據處理的基本思想是( )A.排序 B.枚舉C.分治 D.遞歸2.下列有關大數據按照類型劃分的處理方式的描述,正確的是( )A.流數據采用批處理計算B.靜態數據采用流計算C.社交網絡的數據一般采用圖計算D.圖數據采用批量計算3.下列不屬于Hadoop計算平臺組成部分的是( )A.Common公共庫B.分布式文件系統NTFSC.分布式數據庫HBaseD.分布式并行計算模型MapReduce 展開更多...... 收起↑ 資源列表 課時2 大數據處理的基本思想與架構 學案 浙教版(2019)必修1.doc 課時2 大數據處理的基本思想與架構 教案 浙教版(2019)必修1.doc 課時2 大數據處理的基本思想與架構 課件(共42張ppt)浙教版(2019)必修1.pptx 縮略圖、資源來源于二一教育資源庫