中文字幕精品无码一区二区,成全视频在线播放观看方法,大伊人青草狠狠久久,亚洲一区影音先锋色资源

第四章 課時2 大數據處理的基本思想與架構 教案 浙教版(2019)必修1(課件 學案 教案三份打包)

資源下載
  1. 二一教育資源

第四章 課時2 大數據處理的基本思想與架構 教案 浙教版(2019)必修1(課件 學案 教案三份打包)

資源簡介

課時2 大數據處理的基本思想與架構
課時目標
1.了解大數據處理架構和基本思路。2.了解靜態數據、流數據和圖數據三者的區別。
1.處理大數據時一般采用分治思想,就是把一個復雜的問題分成兩個或更多相同或相似的子問題。
分治思想的實現過程
2.大數據處理類型有靜態數據、流數據和圖數據三大類。
3.Hadoop是一個可運行于大規模計算機集群上的分布式系統基礎架構,適用于靜態數據的批處理計算。靜態數據指在處理時已收集完成,在計算時不會發生改變的數據,一般采用批處理方式。
4.分布式文件系統(簡稱HDFS)主要功能是將大規模海量數據以文件的形式,用多個副本保存在不同的存儲節點中,并用分布式系統進行管理。HDFS是一個高度容錯性的系統,適合部署在廉價的機器上。云盤、網盤的底層一般采用HDFS實現。
5.分布式的列式數據庫(HBase)采用基于列的存儲形式,建立在HDFS提供的底層存儲基礎上,主要用來存儲非結構化數據和半結構化數據,具有良好的橫向擴展能力,可管理PB級的大數據。
6.流數據是指不間斷地、持續地到達的實時數據,隨著時間的流逝,流數據的價值也隨著降低。
7.實時處理系統處理大量的流數據,處理流數據的計算平臺有Storm、Heron、IBM InfoSphere、Streams等。
8.Twitter公司的大數據處理系統Summingbird實現了批處理和實時流計算在一個平臺架構下的整合(Hadoop+Storm)。
重難點剖析
1.處理大數據的分治思想
分治就是把一個復雜的問題分成兩個或更多相同或相似的子問題,找到求這幾個子問題的解法后,再找出合適的方法把它們組合成求整個問題的解法。如果這些子問題還難以解決,可以再把它們分成幾個更小的子問題,以此類推,直至可以直接求出解為止。
2.三種處理數據的系統及相應的平臺
(1)批處理計算
Hadoop是一個可運行于大規模計算機集群上的分布式系統基礎架構,適用于靜態數據的批處理計算。Spark屬于較廣的開源分布式計算架構,Spark啟用了內存存儲中間結果,運行速度比Hadoop快很多。
(2)實時處理系統
實時處理系統主要用于處理流數據,比如大型購物網站的廣告推薦、社交網絡的個性化推薦等,流數據的計算平臺有Storm、Heron、IBM InfoSphere、Stream等等。
(3)圖計算
圖數據的特點是節點之間的關系錯綜復雜,且節點之間可能有多條回路。目前通用的圖處理軟件主要包括兩類:一類是圖數據庫,如Neo4j、InfiniteGraph、OrientDB等;另一類是并行圖處理系統,如Google Pregel、Apache Giraph、卡內基梅隆大學的GraphLab、運行于Spark平臺的GraphX等。
(4)實時處理與批處理的整合
開發者在同一個平臺既可以做批處理,也可以做實時流計算,還可以進行兩種模式的混合使用。平臺的整合降低了批處理與流處理之間的切換,有利于減少系統的開銷,降低使用成本。
例1 n個志愿來自10個不同的城市,每個城市按每個志愿參加志愿活動降序排列。小明把n個志愿按城市分成10個集合,在每個集合進行排序,該算法主要采用的思想是 (  )
A.順序查找法 B.枚舉法
C.分治算法 D.解析法
答案 C
解析 把一個大問題,分成若干個小問題,稱為分治算法。
變式訓練1 把n個數據按序排序,若要查找一個數是否在這些數據中,把這些數分成前后兩部分,與中間的數據進行對比,如果該數據在前半部分,則繼續按前面的思想進行分別查找,該算法主要采用的思想是 (  )
A.順序查找法 B.枚舉法
C.分治算法 D.解析法
答案 C
解析 采用同樣的方法,在不同的區域中進行查找,屬于分治的算法思想。
例2 通過下列方式獲取數據,數據類型屬于靜態數據的是 (  )
A.各個監控不斷向監控中心發送的數據
B.同一時間內收到10萬移動設備的位置信息
C.服務器的近10天內的IP訪問數據日志
D.大型購物網站的廣告推薦
答案 C
解析 靜態數據和流數據的區別在于數據是以前就有的,還是即時產生的數據。
變式訓練2 下列關于大數據中的流數據的描述,正確的是 (  )
A.數據必須采集完成后再進行處理
B.數據價值不會隨著時間的流逝降低
C.Hadoop是專業的流數據處理平臺
D.實時分析流數據可以得到更有價值的結果
答案 D
解析 在處理時已經采集完成的數據是靜態數據,流數據是不間斷地、持續地到達的實時數據,但隨著時間變化,其價值會發生改變。Hadoop屬于批量數據處理
平臺。
例3 下列關于分布式文件系統,說法錯誤的是 (  )
A.是一個高度容錯性的系統
B.適合于靜態數據的存儲,但不適合于流數據的存儲
C.Hadoop系統中,采用基于列的存儲方式進行存儲
D.大規模海量數據以文件的形式,用多個副本保存在不同的存儲節點中
答案 B
解析 大數據往往用分布式文件系統為底層文件格式,即可以是實時信息,也可以是靜態數據。
變式訓練3 云盤的底層一般采用文件格式是 ( )
A.HDFS B.Ext4
C.FAT32 D.NTFS
答案 A
解析 云盤采用流數據存儲數據,因此采用分布式存儲系統格式。
例4 下列有關大數據中統計和處理說法正確的是 (  )
A.批處理的結果不能用于實時處理系統中
B.圖處理軟件主要包括圖數據庫和并行圖處理系統
C.同一個平臺既要么做批處理,要么做實時流計算,不能兩者兼之
D.對于社交網絡的個性化數據推薦,往往可以在批處理平臺中進行計算
答案 B
解析 目前通用的圖處理軟件主要包括兩類:一類是圖數據庫,如Neo4j、Infinite Graph、OrientDB等;另一類是并行圖處理系統,如Google Pregel、Apache Giraph、卡內基梅隆大學的GraphLab、運行于Spark平臺的GraphX等。
變式訓練4 下列有關Hadoop計算平臺的說法中,不正確的是 (  )
A.Hadoop計算平臺是一個可運行于大規模計算機集群上的分布式系統基礎架構
B.Hadoop計算平臺適用于對靜態數據進行處理
C.Hadoop計算平臺主要包括Common公共庫、HDFS、HBase、MapReduce等
模塊
D.Hadoop計算平臺也適用于對流數據的實時處理
答案 D
解析 本題主要考查的是Hadoop計算平臺。Hadoop計算平臺適用于對靜態數據進行處理,而對流數據的實時處理明顯性能不足,因此答案為D。
                
1.大數據處理的基本思想是 (  )
A.排序 B.枚舉
C.分治 D.遞歸
答案 C
解析 處理大數據時,一般采用分治思想。分治思想就是把一個復雜的問題分成兩個或更多的相同或相似的子問題,再把子問題分成更小的子問題……,直到最后子問題可以簡單地直接求解,原問題的解即子問題的解再合并,因此答案為C。
2.下列有關大數據按照類型劃分的處理方式的描述,正確的是 (  )
A.流數據采用批處理計算
B.靜態數據采用流計算
C.社交網絡的數據一般采用圖計算
D.圖數據采用批量計算
答案 C
解析 大數據處理按照類型可劃分為對靜態數據的批處理計算、對流數據的流計算和對圖結構數據的圖計算,社交網絡、道路交通等數據一般采用圖計算模式進行處理,因此,答案為C。
3.下列不屬于Hadoop計算平臺組成部分的是 (  )
A.Common公共庫
B.分布式文件系統NTFS
C.分布式數據庫HBase
D.分布式并行計算模型MapReduce
答案 B
解析 Hadoop計算平臺主要包括Common公共庫、分布式文件系統HDFS、分布式數據庫HBase、分布式并行計算模型MapReduce等多個模塊。NTFS是Windows的文件系統,因此答案為B。
                
一、基礎鞏固
1.某國要選舉國家領導人,該國家分為多個地區,把每個選區的選票結果進行匯總,該算法主要體現的思想是 (  )
A.順序查找法 B.枚舉法
C.分治算法 D.解析法
答案 C
解析 把一個大問題,分成若干個小問題,稱為分治算法。
2.某省在填報志愿時,由于報名人數較多,在各地市報名并把數據匯總在一起,該算法主要體現的思想是 (  )
A.順序查找法 B.枚舉法
C.分治算法 D.解析法
答案 C
解析 把一個大問題,分成若干個小問題,稱為分治算法。根據題目的描述可知,該算法主要體現的思想是分治算法,因此,答案為C。
3.下列關于Hadoop平臺的說法正確的是 (  )
A.該平臺只能處理結構化數據
B.處理信息必須通過可視化體現處理的結論
C.該平臺中每臺計算機都在處理相同的數據
D.該平臺可以節省大型和復雜問題的處理時間
答案 D
解析 該平臺可以處理結構化、非結構化和半結構化的數據,分析的結果可以通過可視化來體現,也可以是單純的數據信息。該平臺采用分布式文件格式,不同的計算機往往處理不同的數據,其目的是為了節省計算時間。
4.下列應用中涉及靜態數據處理的是 (  )
A.統計上個月的交易量排行榜
B.實時更新導航線路
C.在線統計某個商品的點贊率
D.不斷更新的電力數據
答案 A
解析 靜態數據往往是已經存在的不會改變的數據,上個月的交易量排行榜屬于靜態數據,因此,答案為A。
5.下列應用中涉及流數據處理的是 (  )
A.統計店鋪的月交易量
B.用戶搜索某關鍵詞同時得到的推薦信息
C.上個月的地鐵客流數據
D.用戶一個月的煤氣費賬單
答案 B
解析 流數據往往是即時的,實時的數據。ACD都屬于靜態數據,用戶搜索某關鍵詞同時得到的推薦信息,屬于流數據,因此,答案為B。
6.目前,網盤的底層一般采用的文件系統是 (  )
A.HDFS B.Ext4
C.FAT32 D.NTFS
答案 A
解析 網盤采用流數據存儲數據,因此采用分布式存儲系統格式,而HDFS是分布式文件系統,因此,答案為A。
7.下列關于分布式數據庫HBase的理解,錯誤的是 ( )
A.HBase是谷歌BigTable數據庫的開源實現
B.底層存儲采用建立在HDFS基礎上
C.采用基于行的存儲方式,可管理PB級的大數據
D.可以用于存儲結構化、非結構化數據和半結構化數據
答案 C
解析 數據庫HBase是基于列的存儲方式,因此,錯誤的是C。
二、能力提升
8.下列有關分治思想的描述,正確的是 (  )
A.將復雜的問題分解成兩個或多個相同或相似的小問題,然后分別對小問題進行求解
B.運用分治思想,可以提高數據的處理速度
C.運用分治思想,最終結果的正確性得不到保障
D.運用分治思想,系統的容錯性得不到保障
答案 B
解析 分治思想是指把最初的問題分解成若干個相同或相似的子問題,然后,在逐個解決各個子問題的基礎上得到原始問題的解。由于分解出的每個子問題總是比最初的問題簡單,因此,分治思想能夠降低原始問題的難度,能提高解決問題的效率。運用分治思想,最終結果的正確性和系統的容錯性均能得到保障。因此,答案為B。
9.下列屬于圖并行處理軟件的是 (  )
A.Infinite Graph B.Neo4j
C.OrientDB D.Google Pregel
答案 D
解析 Google Pregel屬于圖處理系統。
10.要構建一個電子商務平臺,需實時向用戶推送相關產品信息,推薦該平臺底層采用的文件系統和數據處理平臺是 (  )
A.HDFS Google Pregel
B.Ext4 Heron
C.HDFS Storm
D.HDFS Hadoop
答案 C
解析 大數據處理平臺往往采用HDFS文件系統,實時向用戶推送相關產品信息需采用流數據平臺。
11.實時處理與批處理整合的優勢有 (  )
①減少了系統開銷
②不利于降低使用成本
③可以在同一個平臺做批處理計算和流計算
④縮短了批處理計算和流計算之間的切換延時
A.①②③ B.①②④
C.①③④ D.②③④
答案 C
解析 一個平臺架構下的整合Hadoop和Storm,開發者在同一個平臺既可以做批處理,也可以做實時流計算,還可以進行兩種模式的混合使用。平臺的整合降低了批處理與流處理之間的切換,有利于減少系統的開銷,降低使用成本。
12.(多選)關于大數據處理,下列說法正確的是 (  )
A.大數據必須采集完成后才能處理
B.大數據包括對靜態數據的批處理、對流數據的實時計算和對圖結構數據的圖計算
C.大數據只能處理結構化數據不能處理非結構化的數據
D.數據的可視化可以增強數據的解釋力與吸引力
答案 BD
解析 本題考查大數據技術概念和特征。A選項大數據可以邊采集邊處理。C選項大數據可以處理結構化,半結構化和非結構化的數據。
13.下列有關大數據的說法,錯誤的是 (  )
A.分治的思想就是處理大數據的基本思路
B.Hadoop、Spark適用于靜態數據的批處理計算
C.圖計算是指對大規模圖片類型數據進行處理的計算方式
D.電商平臺的“猜你喜歡”功能運用了大數據技術
答案 C
解析 本題考查大數據技術概念和特征。C選項圖計算是專門針對圖結構數據的處理。
14.上海浦東機場采集了過去兩年中每個時刻的旅客到達量和陸路交通情況的數據,開發出一個智能出租車調度系統,從而使旅客在機場等候出租車的時間大幅縮短。下列關于該事例說法正確的是 (  )
A.人們在機場候車的行為產生了數據
B.機場主要是通過人工方式采集數據的
C.機場在過去兩年采集到的數據屬于流數據
D.大數據處理只需要分析最近一個月的抽樣數據
答案 A
解析 本題考查大數據的概念。機場數據主要是通過機器采集。流數據是指不間斷地、持續地到達的實時數據。大數據收集和分析的數據量非常大,不僅僅是最近一個月的抽樣數據。
15.下列說法正確的是 (  )
A.文本數據處理時可以通過特征提取提高文本處理的速度和效率
B.學生選課系統中存放的大量數據屬于大數據
C.大數據要求所有處理的數據都是精確的
D.領域人工智能指智能系統從一個領域快速跨越到另外一個領域
答案 A
16.FlightAware平臺可以為用戶提供實時航班數據、機場信息、天氣圖、飛行計劃、導航圖、航空新聞和照片。該平臺提供的數據為 (  )
A.靜態數據 B.流數據
C.圖數據 D.結構化數據
答案 B
17.下列關于大數據的描述中,不正確的是 (  )
A.處理大數據時,一般采用分治思想
B.某學校的高考報名數據屬于大數據
C.大數據的速度快不僅指數據產生的速度快,還指數據處理的速度快
D.Hadoop是一個可運行于大規模計算機集群上的分布式系統基礎架構
答案 B
解析 本題考查大數據技術概念和特征。B選項學生報名的數據有限,不屬于大數據。
18.下列有關大數據及其處理的說法,錯誤的是 (  )
A.大數據的四個特征:數據規模大、速度快、數據類型多、價值密度低
B.對大數據進行處理時,必須保證每個數據都準確無誤
C.批處理計算適合處理靜態數據
D.流計算適合處理實時更新的數據
答案 B
解析 本題考查大數據的相關知識。B選項對于數據不再追求精確性,而是能夠接受數據的混雜性。(共42張PPT)
課時2 大數據處理的基本思想與架構
第四章 數據處理與應用
1.了解大數據處理架構和基本思路。
2.了解靜態數據、流數據和圖數據三者的區別。
目 錄
CONTENTS
知識梳理
01
例題精析
02
隨堂檢測
03
鞏固與提升
04
知識梳理
1
1.處理大數據時一般采用______思想,就是把一個復雜的問題分成兩個或更多____________的子問題。
分治
相同或相似
分治思想的實現過程
2.大數據處理類型有__________、________和________三大類。
3.Hadoop是一個可運行于大規模計算機集群上的____________基礎架構,適用于__________的批處理計算。靜態數據指在處理時已收集完成,在計算時不會發生改變的數據,一般采用________方式。
4.分布式文件系統(簡稱HDFS)主要功能是將大規模海量數據以文件的形式,用多個副本保存在不同的存儲節點中,并用____________進行管理。HDFS是一個高度________的系統,適合部署在廉價的機器上。云盤、網盤的底層一般采用__________實現。
靜態數據
流數據
圖數據
分布式系統
靜態數據
批處理
分布式系統
容錯性
HDFS
5.分布式的列式數據庫(HBase)采用基于____的存儲形式,建立在HDFS提供的底層存儲基礎上,主要用來存儲非結構化數據和__________數據,具有良好的橫向擴展能力,可管理PB級的大數據。
6.流數據是指不間斷地、持續地到達的實時數據,隨著時間的流逝,流數據的價值也隨著______。
7.實時處理系統處理大量的流數據,處理流數據的計算平臺有____________、Heron、IBM InfoSphere、Streams等。
8.Twitter公司的大數據處理系統Summingbird實現了____________________在一個平臺架構下的整合(Hadoop+Storm)。

半結構化
降低
Storm
批處理和實時流計算
重難點剖析
1.處理大數據的分治思想
分治就是把一個復雜的問題分成兩個或更多相同或相似的子問題,找到求這幾個子問題的解法后,再找出合適的方法把它們組合成求整個問題的解法。如果這些子問題還難以解決,可以再把它們分成幾個更小的子問題,以此類推,直至可以直接求出解為止。
2.三種處理數據的系統及相應的平臺
(1)批處理計算
Hadoop是一個可運行于大規模計算機集群上的分布式系統基礎架構,適用于靜態數據的批處理計算。Spark屬于較廣的開源分布式計算架構,Spark啟用了內存存儲中間結果,運行速度比Hadoop快很多。
(2)實時處理系統
實時處理系統主要用于處理流數據,比如大型購物網站的廣告推薦、社交網絡的個性化推薦等,流數據的計算平臺有Storm、Heron、IBM InfoSphere、Stream等等。
(3)圖計算
圖數據的特點是節點之間的關系錯綜復雜,且節點之間可能有多條回路。目前通用的圖處理軟件主要包括兩類:一類是圖數據庫,如Neo4j、InfiniteGraph、OrientDB等;另一類是并行圖處理系統,如Google Pregel、Apache Giraph、卡內基梅隆大學的GraphLab、運行于Spark平臺的GraphX等。
(4)實時處理與批處理的整合
開發者在同一個平臺既可以做批處理,也可以做實時流計算,還可以進行兩種模式的混合使用。平臺的整合降低了批處理與流處理之間的切換,有利于減少系統的開銷,降低使用成本。
例題精析
2
例1 n個志愿來自10個不同的城市,每個城市按每個志愿參加志愿活動降序排列。小明把n個志愿按城市分成10個集合,在每個集合進行排序,該算法主要采用的思想是 (  )
A.順序查找法 B.枚舉法 C.分治算法 D.解析法
C
解析 把一個大問題,分成若干個小問題,稱為分治算法。
變式訓練1 把n個數據按序排序,若要查找一個數是否在這些數據中,把這些數分成前后兩部分,與中間的數據進行對比,如果該數據在前半部分,則繼續按前面的思想進行分別查找,該算法主要采用的思想是 (  )
A.順序查找法 B.枚舉法
C.分治算法 D.解析法
解析 采用同樣的方法,在不同的區域中進行查找,屬于分治的算法思想。
C
例2 通過下列方式獲取數據,數據類型屬于靜態數據的是 (  )
A.各個監控不斷向監控中心發送的數據
B.同一時間內收到10萬移動設備的位置信息
C.服務器的近10天內的IP訪問數據日志
D.大型購物網站的廣告推薦
解析 靜態數據和流數據的區別在于數據是以前就有的,還是即時產生的數據。
C
變式訓練2 下列關于大數據中的流數據的描述,正確的是 (  )
A.數據必須采集完成后再進行處理
B.數據價值不會隨著時間的流逝降低
C.Hadoop是專業的流數據處理平臺
D.實時分析流數據可以得到更有價值的結果
解析 在處理時已經采集完成的數據是靜態數據,流數據是不間斷地、持續地到達的實時數據,但隨著時間變化,其價值會發生改變。Hadoop屬于批量數據處理平臺。
D
A.是一個高度容錯性的系統
B.適合于靜態數據的存儲,但不適合于流數據的存儲
C.Hadoop系統中,采用基于列的存儲方式進行存儲
D.大規模海量數據以文件的形式,用多個副本保存在不同的存儲節點中
解析 大數據往往用分布式文件系統為底層文件格式,即可以是實時信息,也可以是靜態數據。
B
變式訓練3 云盤的底層一般采用文件格式是 (  )
A.HDFS B.Ext4
C.FAT32 D.NTFS
解析 云盤采用流數據存儲數據,因此采用分布式存儲系統格式。
A
例4 下列有關大數據中統計和處理說法正確的是 (  )
A.批處理的結果不能用于實時處理系統中
B.圖處理軟件主要包括圖數據庫和并行圖處理系統
C.同一個平臺既要么做批處理,要么做實時流計算,不能兩者兼之
D.對于社交網絡的個性化數據推薦,往往可以在批處理平臺中進行計算
解析 目前通用的圖處理軟件主要包括兩類:一類是圖數據庫,如Neo4j、Infinite Graph、OrientDB等;另一類是并行圖處理系統,如Google Pregel、Apache Giraph、卡內基梅隆大學的GraphLab、運行于Spark平臺的GraphX等。
B
A.Hadoop計算平臺是一個可運行于大規模計算機集群上的分布式系統基礎架構
B.Hadoop計算平臺適用于對靜態數據進行處理
C.Hadoop計算平臺主要包括Common公共庫、HDFS、HBase、MapReduce等模塊
D.Hadoop計算平臺也適用于對流數據的實時處理
解析 本題主要考查的是Hadoop計算平臺。Hadoop計算平臺適用于對靜態數據進行處理,而對流數據的實時處理明顯性能不足,因此答案為D。
D
隨堂檢測
3
1.大數據處理的基本思想是 (  )
A.排序 B.枚舉
C.分治 D.遞歸
C
解析 處理大數據時,一般采用分治思想。分治思想就是把一個復雜的問題分成兩個或更多的相同或相似的子問題,再把子問題分成更小的子問題……,直到最后子問題可以簡單地直接求解,原問題的解即子問題的解再合并,因此答案為C。
2.下列有關大數據按照類型劃分的處理方式的描述,正確的是 (  )
A.流數據采用批處理計算
B.靜態數據采用流計算
C.社交網絡的數據一般采用圖計算
D.圖數據采用批量計算
C
解析 大數據處理按照類型可劃分為對靜態數據的批處理計算、對流數據的流計算和對圖結構數據的圖計算,社交網絡、道路交通等數據一般采用圖計算模式進行處理,因此,答案為C。
A.Common公共庫
B.分布式文件系統NTFS
C.分布式數據庫HBase
D.分布式并行計算模型MapReduce
B
解析 Hadoop計算平臺主要包括Common公共庫、分布式文件系統HDFS、分布式數據庫HBase、分布式并行計算模型MapReduce等多個模塊。NTFS是Windows的文件系統,因此答案為B。
4
鞏固與提升
基礎鞏固
能力提升
1.某國要選舉國家領導人,該國家分為多個地區,把每個選區的選票結果進行匯總,該算法主要體現的思想是 (  )
A.順序查找法 B.枚舉法
C.分治算法 D.解析法
C
解析 把一個大問題,分成若干個小問題,稱為分治算法。
2.某省在填報志愿時,由于報名人數較多,在各地市報名并把數據匯總在一起,該算法主要體現的思想是 (  )
A.順序查找法 B.枚舉法
C.分治算法 D.解析法
C
解析 把一個大問題,分成若干個小問題,稱為分治算法。根據題目的描述可知,該算法主要體現的思想是分治算法,因此,答案為C。
3.下列關于Hadoop平臺的說法正確的是 (  )
A.該平臺只能處理結構化數據
B.處理信息必須通過可視化體現處理的結論
C.該平臺中每臺計算機都在處理相同的數據
D.該平臺可以節省大型和復雜問題的處理時間
D
解析 該平臺可以處理結構化、非結構化和半結構化的數據,分析的結果可以通過可視化來體現,也可以是單純的數據信息。該平臺采用分布式文件格式,不同的計算機往往處理不同的數據,其目的是為了節省計算時間。
4.下列應用中涉及靜態數據處理的是 (  )
A.統計上個月的交易量排行榜
B.實時更新導航線路
C.在線統計某個商品的點贊率
D.不斷更新的電力數據
A
解析 靜態數據往往是已經存在的不會改變的數據,上個月的交易量排行榜屬于靜態數據,因此,答案為A。
5.下列應用中涉及流數據處理的是 (  )
A.統計店鋪的月交易量
B.用戶搜索某關鍵詞同時得到的推薦信息
C.上個月的地鐵客流數據
D.用戶一個月的煤氣費賬單
B
解析 流數據往往是即時的,實時的數據。ACD都屬于靜態數據,用戶搜索某關鍵詞同時得到的推薦信息,屬于流數據,因此,答案為B。
6.目前,網盤的底層一般采用的文件系統是 (  )
A.HDFS B.Ext4
C.FAT32 D.NTFS
A
解析 網盤采用流數據存儲數據,因此采用分布式存儲系統格式,而HDFS是分布式文件系統,因此,答案為A。
A.HBase是谷歌BigTable數據庫的開源實現
B.底層存儲采用建立在HDFS基礎上
C.采用基于行的存儲方式,可管理PB級的大數據
D.可以用于存儲結構化、非結構化數據和半結構化數據
C
解析 數據庫HBase是基于列的存儲方式,因此,錯誤的是C。
8.下列有關分治思想的描述,正確的是 (  )
A.將復雜的問題分解成兩個或多個相同或相似的小問題,然后分別對小問題進行求解
B.運用分治思想,可以提高數據的處理速度
C.運用分治思想,最終結果的正確性得不到保障
D.運用分治思想,系統的容錯性得不到保障
B
解析 分治思想是指把最初的問題分解成若干個相同或相似的子問題,然后,在逐個解決各個子問題的基礎上得到原始問題的解。由于分解出的每個子問題總是比最初的問題簡單,因此,分治思想能夠降低原始問題的難度,能提高解決問題的效率。運用分治思想,最終結果的正確性和系統的容錯性均能得到保障。因此,答案為B。
9.下列屬于圖并行處理軟件的是 (  )
A.Infinite Graph B.Neo4j
C.OrientDB D.Google Pregel
D
解析 Google Pregel屬于圖處理系統。
10.要構建一個電子商務平臺,需實時向用戶推送相關產品信息,推薦該平臺底層采用的文件系統和數據處理平臺是 (  )
A.HDFS Google Pregel
B.Ext4 Heron
C.HDFS Storm
D.HDFS Hadoop
C
解析 大數據處理平臺往往采用HDFS文件系統,實時向用戶推送相關產品信息需采用流數據平臺。
11.實時處理與批處理整合的優勢有 (  )
①減少了系統開銷
②不利于降低使用成本
③可以在同一個平臺做批處理計算和流計算
④縮短了批處理計算和流計算之間的切換延時
A.①②③ B.①②④
C.①③④ D.②③④
C
解析 一個平臺架構下的整合Hadoop和Storm,開發者在同一個平臺既可以做批處理,也可以做實時流計算,還可以進行兩種模式的混合使用。平臺的整合降低了批處理與流處理之間的切換,有利于減少系統的開銷,降低使用成本。
12.(多選)關于大數據處理,下列說法正確的是 (  )
A.大數據必須采集完成后才能處理
B.大數據包括對靜態數據的批處理、對流數據的實時計算和對圖結構數據的圖計算
C.大數據只能處理結構化數據不能處理非結構化的數據
D.數據的可視化可以增強數據的解釋力與吸引力
BD
解析 本題考查大數據技術概念和特征。A選項大數據可以邊采集邊處理。C選項大數據可以處理結構化,半結構化和非結構化的數據。
C
A.分治的思想就是處理大數據的基本思路
B.Hadoop、Spark適用于靜態數據的批處理計算
C.圖計算是指對大規模圖片類型數據進行處理的計算方式
D.電商平臺的“猜你喜歡”功能運用了大數據技術
解析 本題考查大數據技術概念和特征。C選項圖計算是專門針對圖結構數據的處理。
14.上海浦東機場采集了過去兩年中每個時刻的旅客到達量和陸路交通情況的數據,開發出一個智能出租車調度系統,從而使旅客在機場等候出租車的時間大幅縮短。下列關于該事例說法正確的是 (  )
A.人們在機場候車的行為產生了數據
B.機場主要是通過人工方式采集數據的
C.機場在過去兩年采集到的數據屬于流數據
D.大數據處理只需要分析最近一個月的抽樣數據
A
解析 本題考查大數據的概念。機場數據主要是通過機器采集。流數據是指不間斷地、持續地到達的實時數據。大數據收集和分析的數據量非常大,不僅僅是最近一個月的抽樣數據。
15.下列說法正確的是 (  )
A.文本數據處理時可以通過特征提取提高文本處理的速度和效率
B.學生選課系統中存放的大量數據屬于大數據
C.大數據要求所有處理的數據都是精確的
D.領域人工智能指智能系統從一個領域快速跨越到另外一個領域
A
16.FlightAware平臺可以為用戶提供實時航班數據、機場信息、天氣圖、飛行計劃、導航圖、航空新聞和照片。該平臺提供的數據為 (  )
A.靜態數據 B.流數據
C.圖數據 D.結構化數據
B
A.處理大數據時,一般采用分治思想
B.某學校的高考報名數據屬于大數據
C.大數據的速度快不僅指數據產生的速度快,還指數據處理的速度快
D.Hadoop是一個可運行于大規模計算機集群上的分布式系統基礎架構
B
解析 本題考查大數據技術概念和特征。B選項學生報名的數據有限,不屬于大數據。
B
A.大數據的四個特征:數據規模大、速度快、數據類型多、價值密度低
B.對大數據進行處理時,必須保證每個數據都準確無誤
C.批處理計算適合處理靜態數據
D.流計算適合處理實時更新的數據
解析 本題考查大數據的相關知識。B選項對于數據不再追求精確性,而是能夠接受數據的混雜性。課時2 大數據處理的基本思想與架構
課時目標
1.了解大數據處理架構和基本思路。2.了解靜態數據、流數據和圖數據三者的
區別。
1.處理大數據時一般采用________思想,就是把一個復雜的問題分成兩個或更多______________的子問題。
分治思想的實現過程
2.大數據處理類型有____________、________和________三大類。
3.Hadoop是一個可運行于大規模計算機集群上的____________基礎架構,適用于____________的批處理計算。靜態數據指在處理時已收集完成,在計算時不會發生改變的數據,一般采用________方式。
4.分布式文件系統(簡稱HDFS)主要功能是將大規模海量數據以文件的形式,用多個副本保存在不同的存儲節點中,并用________________進行管理。HDFS是一個高度________的系統,適合部署在廉價的機器上。云盤、網盤的底層一般采用________實現。
5.分布式的列式數據庫(HBase)采用基于________的存儲形式,建立在HDFS提供的底層存儲基礎上,主要用來存儲____________數據和____________數據,具有良好的橫向擴展能力,可管理PB級的大數據。
6.流數據是指不間斷地、持續地到達的實時數據,隨著時間的流逝,流數據的價值也隨著________。
7.實時處理系統處理大量的________,處理流數據的計算平臺有________、Heron、IBM InfoSphere、Streams等。
8.Twitter公司的大數據處理系統Summingbird實現了________________________在一個平臺架構下的整合(Hadoop+Storm)。
1.處理大數據的分治思想
分治就是把一個復雜的問題分成兩個或更多相同或相似的子問題,找到求這幾個子問題的解法后,再找出合適的方法把它們組合成求整個問題的解法。如果這些子問題還難以解決,可以再把它們分成幾個更小的子問題,以此類推,直至可以直接求出解為止。
2.三種處理數據的系統及相應的平臺
(1)批處理計算
Hadoop是一個可運行于大規模計算機集群上的分布式系統基礎架構,適用于靜態數據的批處理計算。Spark屬于較廣的開源分布式計算架構,Spark啟用了內存存儲中間結果,運行速度比Hadoop快很多。
(2)實時處理系統
實時處理系統主要用于處理流數據,比如大型購物網站的廣告推薦、社交網絡的個性化推薦等,流數據的計算平臺有Storm、Heron、IBM InfoSphere、Stream等等。
(3)圖計算
圖數據的特點是節點之間的關系錯綜復雜,且節點之間可能有多條回路。目前通用的圖處理軟件主要包括兩類:一類是圖數據庫,如Neo4j、InfiniteGraph、OrientDB等;另一類是并行圖處理系統,如Google Pregel、Apache Giraph、卡內基梅隆大學的GraphLab、運行于Spark平臺的GraphX等。
(4)實時處理與批處理的整合
開發者在同一個平臺既可以做批處理,也可以做實時流計算,還可以進行兩種模式的混合使用。平臺的整合降低了批處理與流處理之間的切換,有利于減少系統的開銷,降低使用成本。
例1 n個志愿來自10個不同的城市,每個城市按每個志愿參加志愿活動降序排列。小明把n個志愿按城市分成10個集合,在每個集合進行排序,該算法主要采用的思想是(  )
A.順序查找法 B.枚舉法
C.分治算法 D.解析法
聽課筆記:                                    
                                    
                                    
                                    
變式訓練1 把n個數據按序排序,若要查找一個數是否在這些數據中,把這些數分成前后兩部分,與中間的數據進行對比,如果該數據在前半部分,則繼續按前面的思想進行分別查找,該算法主要采用的思想是(  )
A.順序查找法 B.枚舉法
C.分治算法 D.解析法
例2 通過下列方式獲取數據,數據類型屬于靜態數據的是(  )
A.各個監控不斷向監控中心發送的數據
B.同一時間內收到10萬移動設備的位置信息
C.服務器的近10天內的IP訪問數據日志
D.大型購物網站的廣告推薦
聽課筆記:                                    
                                    
                                    
                                    
變式訓練2 下列關于大數據中的流數據的描述,正確的是(  )
A.數據必須采集完成后再進行處理
B.數據價值不會隨著時間的流逝降低
C.Hadoop是專業的流數據處理平臺
D.實時分析流數據可以得到更有價值的結果
例3 下列關于分布式文件系統,說法錯誤的是(  )
A.是一個高度容錯性的系統
B.適合于靜態數據的存儲,但不適合于流數據的存儲
C.Hadoop系統中,采用基于列的存儲方式進行存儲
D.大規模海量數據以文件的形式,用多個副本保存在不同的存儲節點中
聽課筆記:                                    
                                    
                                    
                                    
變式訓練3 云盤的底層一般采用文件格式是(  )
A.HDFS B.Ext4
C.FAT32 D.NTFS
例4 下列有關大數據中統計和處理說法正確的是(  )
A.批處理的結果不能用于實時處理系統中
B.圖處理軟件主要包括圖數據庫和并行圖處理系統
C.同一個平臺既要么做批處理,要么做實時流計算,不能兩者兼之
D.對于社交網絡的個性化數據推薦,往往可以在批處理平臺中進行計算
聽課筆記:                                    
                                    
                                    
                                    
變式訓練4 下列有關Hadoop計算平臺的說法中,不正確的是(  )
A.Hadoop計算平臺是一個可運行于大規模計算機集群上的分布式系統基礎架構
B.Hadoop計算平臺適用于對靜態數據進行處理
C.Hadoop計算平臺主要包括Common公共庫、HDFS、HBase、MapReduce等
模塊
D.Hadoop計算平臺也適用于對流數據的實時處理
1.大數據處理的基本思想是(  )
A.排序 B.枚舉
C.分治 D.遞歸
2.下列有關大數據按照類型劃分的處理方式的描述,正確的是(  )
A.流數據采用批處理計算
B.靜態數據采用流計算
C.社交網絡的數據一般采用圖計算
D.圖數據采用批量計算
3.下列不屬于Hadoop計算平臺組成部分的是(  )
A.Common公共庫
B.分布式文件系統NTFS
C.分布式數據庫HBase
D.分布式并行計算模型MapReduce

展開更多......

收起↑

資源列表

<pre id="tfb94"><li id="tfb94"></li></pre>

<bdo id="tfb94"><rt id="tfb94"></rt></bdo>
  • <menu id="tfb94"><dl id="tfb94"></dl></menu><i id="tfb94"><acronym id="tfb94"><sub id="tfb94"></sub></acronym></i>

    1. 主站蜘蛛池模板: 霞浦县| 龙州县| 灵石县| 台东市| 绥芬河市| 旬邑县| 民勤县| 施秉县| 江孜县| 大竹县| 永康市| 张家口市| 都兰县| 黄梅县| 图木舒克市| 东至县| 淅川县| 永川市| 吉木萨尔县| 新余市| 新宁县| 象州县| 海口市| 邻水| 新邵县| 南康市| 桐庐县| 浦东新区| 深泽县| 盐池县| 伊川县| 顺平县| 越西县| 寿阳县| 卫辉市| 墨竹工卡县| 穆棱市| 满洲里市| 内黄县| 金华市| 普兰店市|