資源簡介 (共29張PPT)第四章 數據處理與應用驗收卷(四) 數據處理與應用(考試時間40分鐘;滿分50分)一、選擇題(本大題共8小題,每小題2分,共16分,在每小題給出的四個選項中,只有一個符合題目要求,多選、少選、不選均不得分)1.下列關于大數據處理的說法,正確的是( )A.對動態數據無法進行可視化表示B.在中文文本分析中采用短語或段落作為表示文本的特征項C.大數據數據類型多,無法分析全體數據,只能分析抽樣數據D.Hadoop面向大規模的批量處理,適用于處理靜態數據,不適用于流數據DB2.某大型購物網站收集了用戶瀏覽網站的數據用于廣告個性化實時推薦,下列處理方式中合理的是 ( )A.應當使用統計分析軟件進行數據分析B.應當選用針對流數據的實時計算C.應當選用針對圖結構數據的圖計算D.應當選用針對靜態數據的批處理計算解析 本題考查大數據的相關知識。用戶瀏覽網站的數據,屬于流數據,是時時刻刻在變化的,故某大型購物網站收集了用戶瀏覽網站的數據用于廣告個性化實時推薦時,應當選用針對流數據的實時計算。AA. print(df.groupby ("性別",as_index=False).mean()) 成績性別女 93.5男 95.0B. print(df[df["成績"]>97]) 姓名 性別 成績2 小溫 女 984 小杭 男 99C. print(df.sort_values("成績")) 姓名 性別 成績1 小浙 男 893 小華 女 890 小嘉 男 972 小溫 女 984 小杭 男 99D. print(df.drop(2)) 姓名 性別 成績0 小嘉 男 971 小浙 男 893 小華 女 894 小杭 男 99D4.數據文件“data.csv”中包含“A”“B”“C”3列1000行數據,下列Python程序段用于實現對象df1中數據按“B”列降序排序,程序中劃線處應填寫的語句是 ( )import pandas as pddf=pd.read_csv('data.csv') A.df1=df.sort_values('B')B.df=df1.sort_values('B')C.df1=df.sort_values('B',ascending=True)D.df1=df.sort_values('B',ascending=False)解析 本題考查Pandas數據結構,采用sort_values方法對參數中列進行排序,ascending省略或為True為升序。D5.數據文件“data.csv”中儲存了浙江省各地蘋果的零售價格數據,數據包含“日期”“地區”“品名”“價格”等6列200000行,處理該文件中數據的Python程序段如下︰import pandas as pddf=pd.read_csv('data.csv')df1=df.groupby('地區').價格.mean()關于該程序段,下列說法正確的是( )A.DataFrame對象df中僅存儲了文件“data.csv”中的“價格”列數據B.對象df1中數據以“地區”為主要關鍵字﹑“價格”為次要關鍵字排序C.讀取文件“data.csv”中的數據,計算全部“價格”數據的平均值D.讀取文件“data.csv”中的數據,計算各地區“價格”數據的平均值解析 本題考查Pandas數據結構。A選項對象df存儲了數據表中所有信息,因此包含"日期"等信息。B選項對象df1并沒有進行排序,而是按地區進行分組,并統計各個地區的平均價格。D6.下列關于中文分詞方法的描述中,屬于基于統計的分詞方法的是 ( )A.讓計算機模擬人的理解方式,根據大量的資料和規則進行學習,然后進行分詞B.在分析句子時,與詞典上的詞語進行對比,詞典中出現的就劃分為詞C.依據詞語與詞語之間的分隔符號進行分詞D.依據上下文中相鄰字出現的頻率統計,同時出現的次數越高組成一個詞的概率就越高解析 基于統計的分詞方法是依據上下文中相鄰字出現的頻率統計,同時出現的次數越高越可能組成一個詞,因此答案為D。BA.標簽云是文本可視化的一種方式B.數據可視化只能將數據以靜態圖形圖像等形式表示C.數據可視化能直觀的呈現數據,容易發現數據中蘊含的信息D.數據可視化增強了數據的解釋力與吸引力解析 數據可視化是將數據以圖形圖像等形式表示,可以是以靜態圖形圖像呈現,也可以具有交互性的動態形式呈現,因此,錯誤的是B。BA.大數據價值密度低,“提純”大數據可以讓其發揮更大的價值B.高速公路中實時產生的車流量數據屬于靜態數據C.詞頻統計是文本數據處理中特征提取的一種方法D.經過處理后的大數據,利用可視化技術,有助于快捷觀察與追蹤數據解析 高速公路中實時產生的車流量數據是不間斷地、持續到達的,屬于流數據。二、非選擇題(本大題共4小題,共34分)9.小明設計了一手環,實現對體溫的連續監控,4名志愿者的體溫檢測情況(部分數據隱藏,數據保存在“data.xls”中)如圖所示:(1)小明需對圖所示的數據進行整理,下列說法正確的是 。(多選,填字母) A.數據整理就是要刪除不正確的數據B.E81單元格的數據存在數據異常C.“班級”列數據格式不一致,應將數據進行格式轉換D.第4行和第5行存在數據重復,應刪除其中一行E.第4行和第5行存在數據重復,應將數據合并(注:全部選對的得2 分,選對但不全的得1 分,不選或有選錯的得0 分)(2)對第4和第5行數據處理后,用Python對表格數據進行處理,程序代碼如下所示,請在劃線處填入正確的語句。import pandas as pdimport matplotlib.pyplot as pltdf=pd.read_excel('data.xls')df=① #刪除“班級”列數據后處理 for i in range(len(df)): #將體溫列不正常的數據去除 if ② >42: #一般人體體溫不超過42度 df=df.drop(i)df1=df.groupby(③ ,as_index=False) #統計每個人這段時間的平均體溫df1=round(df1.體溫.mean(),2)#并保留兩位小數print(df1)答案 (1)BCE (2)①df.drop('班級',axis=1) ②df.at[i,'體溫'] ③'姓名'10.某學校為規范引導學生合理消費,統計各班的一卡通消費數據。小張收集了2022學年第二學期第6周食堂消費數據保存在文件“student06.xlsx”中,部分界面如圖a所示。他利用Python程序從消費數據中找出全校單次消費金額最高的記錄,并統計學校各班級數據,最后以圖表的形式呈現小賣部消費前五的班級如圖b所示。實現上述功能的Python程序如下,請在劃線處填入合適的代碼。import pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei']df=pd.read_excel("student06.xlsx")#找出全校單次消費金額最高的記錄max_xf=0for i in df.index: if ① : max_xf=df.at[i,"消費金額"] max_bj_name=df.at[i,"班級"] max_stu_name=df.at[i,"姓名"]print(max_bj_name,"的同學",② ,"單次消費最高。") #以圖表的形式呈現小賣部消費前五的班級,如圖 b 所示。df1=df[③ ] #篩選出小賣部的數據 df1=df1.groupby("班級",as_index=True).sum()df1=df1.sort_values(④ ).head(5) x=⑤ y=df1.消費金額plt.bar(x,y)plt.title("第 6 周小賣部消費前五的班級")plt.show()答案 ①df.at[i,"消費金額"]>max_xf或df.at[i,"消費金額"]>=max_xf ②max_stu_name③df["消費類型"]=="小賣部"或df.消費類型=="小賣部"④"消費金額",ascending=False ⑤df1.index11.小林收集了2000年-2022年浙江省的GDP數據,并存儲于“info.csv”文件,部分數據如圖a所示。為統計分析近20多年來浙江省的經濟情況,編寫Python程序。請回答下列問題。(1)定義js函數,功能為:計算每年GDP的同比增長率(=(本年度GDP-上一年GDP)/上一年GDP*100)。函數代碼如下,請在劃線處填入合適的代碼。def js(df): for i in range(1,len(df)): m= df.at[i,'RATE'] =round(m/df['GDP'][i-1]*100,2) return df(2)統計2000年-2022年期間浙江省GDP增長率在8%及以上的最長持續時間(若有多個長度相同的最大值,輸出最新的時間段),并繪制線形圖,部分Python程序如下,請在劃線處填入合適的代碼。import pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei']df=pd.read_csv('info.csv',encoding='gbk')df=js(df)t=8k=maxk=pos=0for i in range(len(df)): if ① : k+=1 else: if k>=maxk: maxk=k ② k=0 df2=df[pos:pos+maxk]x=③ y=df2['RATE']plt.plot(x,y) #繪制線形圖#設置繪圖參數,顯示如圖b所示線形圖,代碼略(3)由圖b可知,GDP增長率最高的年份是 年。 答案 (1)①df.at[i,'GDP']-df.at[i-1,'GDP'] (2)① df.at[i,'RATE']>=t ②pos = i – k③df2['YEAR'] (3)200312.某校區舉行優秀學員的評比。教務處統計了本校區的相關數據并存儲于“cj.xlsx”文件中,學生數據按照班級先后次序存儲,如 1 班之后是 2 班學生數據。文件部分內容如圖 a 所示。為分析本次評比的結果情況,編寫 Python 程序。請回答下列問題:(1)讀取“cj.xlsx”文件,為每個學生補充班級名稱(1 班到 4 班),班級人數存儲在列表 num 中。請在劃線①②③處填入合適的代碼。import pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['KaiTi','SimHei']num=[29,31,30,32] #存儲 4 個班級的人數df=pd.read_excel("① ") k=0② for i in df.index: if i==end: ③ end+=num[k] df.at[i,"班級"]=str(k+1)+ "班"(2)優秀學員的評比規則為:學業分數不低于 80 分,德育等級為 A。統計每個班級優秀學員人數,并繪制圖表顯示,如圖 b 所示,部分 Python 程序如下。請在劃線處填入合適的代碼。dfs=df[df["學業分數"]>=80]dfs=① dfg=dfg=dfg.rename(columns={"學業分數":"人數"})#將"學業分數"重命名為"人數"plt.bar(dfg["班級"],② ) plt.title("班級優秀人員對比圖")plt.xlabel("班級")plt.ylabel("人數");plt.show() (3)加框處應填入的代碼是 。(單選,填字母) A.dfs.groupby("班級",as_index=False).學業分數.count()B.dfs.groupby("班級",as_index=False).學業分數.sum()C.dfs.groupby("班級",as_index=True).學業分數.count()D.dfs.groupby("班級",as_index=True).學業分數.sum()答案 (1)①cj.xlsx ②end=num[0] 或 end=num[k] ③k=k+1 (2)① dfs[dfs["德育等級"]=="A"] 或 dfs[dfs.德育等級=="A"] ②dfg["人數"]或 dfg.人數 (3)A驗收卷(四) 數據處理與應用(考試時間40分鐘;滿分50分)一、選擇題(本大題共8小題,每小題2分,共16分,在每小題給出的四個選項中,只有一個符合題目要求,多選、少選、不選均不得分)1.下列關于大數據處理的說法,正確的是 ( )A.對動態數據無法進行可視化表示B.在中文文本分析中采用短語或段落作為表示文本的特征項C.大數據數據類型多,無法分析全體數據,只能分析抽樣數據D.Hadoop面向大規模的批量處理,適用于處理靜態數據,不適用于流數據答案 D2.某大型購物網站收集了用戶瀏覽網站的數據用于廣告個性化實時推薦,下列處理方式中合理的是 ( )A.應當使用統計分析軟件進行數據分析B.應當選用針對流數據的實時計算C.應當選用針對圖結構數據的圖計算D.應當選用針對靜態數據的批處理計算答案 B解析 本題考查大數據的相關知識。用戶瀏覽網站的數據,屬于流數據,是時時刻刻在變化的,故某大型購物網站收集了用戶瀏覽網站的數據用于廣告個性化實時推薦時,應當選用針對流數據的實時計算。3.有如下 Python 程序段:import pandas as pddata=[["小嘉","男",97],["小浙","男",89],["小溫","女",98],["小華","女",89],["小杭","男",99]]df=pd.DataFrame(data,columns=["姓名","性別","成績"])下列選項左側語句與右側輸出結果不一致的是 ( )A. print(df.groupby("性別",as_index=False).mean()) 成績性別女 93.5男 95.0B. print(df[df["成績"]>97]) 姓名 性別 成績2 小溫 女 984 小杭 男 99C. print(df.sort_values("成績")) 姓名 性別 成績1 小浙 男 893 小華 女 890 小嘉 男 972 小溫 女 984 小杭 男 99D. print(df.drop(2)) 姓名 性別 成績0 小嘉 男 971 小浙 男 893 小華 女 894 小杭 男 99答案 A4.數據文件“data.csv”中包含“A”“B”“C”3列1000行數據,下列Python程序段用于實現對象df1中數據按“B”列降序排序,程序中劃線處應填寫的語句是 ( )import pandas as pddf=pd.read_csv('data.csv') A.df1=df.sort_values('B')B.df=df1.sort_values('B')C.df1=df.sort_values('B',ascending=True)D.df1=df.sort_values('B',ascending=False)答案 D解析 本題考查Pandas數據結構,采用sort_values方法對參數中列進行排序,ascending省略或為True為升序。5.數據文件“data.csv”中儲存了浙江省各地蘋果的零售價格數據,數據包含“日期”“地區”“品名”“價格”等6列200000行,處理該文件中數據的Python程序段如下︰import pandas as pddf=pd.read_csv('data.csv')df1=df.groupby('地區').價格.mean()關于該程序段,下列說法正確的是 ( )A.DataFrame對象df中僅存儲了文件“data.csv”中的“價格”列數據B.對象df1中數據以“地區”為主要關鍵字﹑“價格”為次要關鍵字排序C.讀取文件“data.csv”中的數據,計算全部“價格”數據的平均值D.讀取文件“data.csv”中的數據,計算各地區“價格”數據的平均值答案 D解析 本題考查Pandas數據結構。A選項對象df存儲了數據表中所有信息,因此包含"日期"等信息。B選項對象df1并沒有進行排序,而是按地區進行分組,并統計各個地區的平均價格。6.下列關于中文分詞方法的描述中,屬于基于統計的分詞方法的是 ( )A.讓計算機模擬人的理解方式,根據大量的資料和規則進行學習,然后進行分詞B.在分析句子時,與詞典上的詞語進行對比,詞典中出現的就劃分為詞C.依據詞語與詞語之間的分隔符號進行分詞D.依據上下文中相鄰字出現的頻率統計,同時出現的次數越高組成一個詞的概率就越高答案 D解析 基于統計的分詞方法是依據上下文中相鄰字出現的頻率統計,同時出現的次數越高越可能組成一個詞,因此答案為D。7.下列關于數據可視化的描述中,錯誤的是 ( )A.標簽云是文本可視化的一種方式B.數據可視化只能將數據以靜態圖形圖像等形式表示C.數據可視化能直觀的呈現數據,容易發現數據中蘊含的信息D.數據可視化增強了數據的解釋力與吸引力答案 B解析 數據可視化是將數據以圖形圖像等形式表示,可以是以靜態圖形圖像呈現,也可以具有交互性的動態形式呈現,因此,錯誤的是B。8.下列關于大數據與大數據處理的說法,不正確的是 ( )A.大數據價值密度低,“提純”大數據可以讓其發揮更大的價值B.高速公路中實時產生的車流量數據屬于靜態數據C.詞頻統計是文本數據處理中特征提取的一種方法D.經過處理后的大數據,利用可視化技術,有助于快捷觀察與追蹤數據答案 B解析 高速公路中實時產生的車流量數據是不間斷地、持續到達的,屬于流數據。二、非選擇題(本大題共4小題,共34分)9.小明設計了一手環,實現對體溫的連續監控,4名志愿者的體溫檢測情況(部分數據隱藏,數據保存在“data.xls”中)如圖所示:(1)小明需對圖所示的數據進行整理,下列說法正確的是 。(多選,填字母) A.數據整理就是要刪除不正確的數據B.E81單元格的數據存在數據異常C.“班級”列數據格式不一致,應將數據進行格式轉換D.第4行和第5行存在數據重復,應刪除其中一行E.第4行和第5行存在數據重復,應將數據合并(注:全部選對的得2 分,選對但不全的得1 分,不選或有選錯的得0 分)(2)對第4和第5行數據處理后,用Python對表格數據進行處理,程序代碼如下所示,請在劃線處填入正確的語句。import pandas as pdimport matplotlib.pyplot as pltdf=pd.read_excel('data.xls')df=① #刪除“班級”列數據后處理 for i in range(len(df)): #將體溫列不正常的數據去除 if ② >42: #一般人體體溫不超過42度 df=df.drop(i)df1=df.groupby(③ ,as_index=False) #統計每個人這段時間的平均體溫df1=round(df1.體溫.mean(),2)#并保留兩位小數print(df1)答案 (1)BCE (2)①df.drop('班級',axis=1) ②df.at[i,'體溫'] ③'姓名'10.某學校為規范引導學生合理消費,統計各班的一卡通消費數據。小張收集了2022學年第二學期第6周食堂消費數據保存在文件“student06.xlsx”中,部分界面如圖a所示。他利用Python程序從消費數據中找出全校單次消費金額最高的記錄,并統計學校各班級數據,最后以圖表的形式呈現小賣部消費前五的班級如圖b所示。實現上述功能的Python程序如下,請在劃線處填入合適的代碼。import pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei']df=pd.read_excel("student06.xlsx")#找出全校單次消費金額最高的記錄max_xf=0for i in df.index: if ① : max_xf=df.at[i,"消費金額"] max_bj_name=df.at[i,"班級"] max_stu_name=df.at[i,"姓名"]print(max_bj_name,"的同學",② ,"單次消費最高。") #以圖表的形式呈現小賣部消費前五的班級,如圖 b 所示。df1=df[③ ] #篩選出小賣部的數據 df1=df1.groupby("班級",as_index=True).sum()df1=df1.sort_values(④ ).head(5) x=⑤ y=df1.消費金額plt.bar(x,y)plt.title("第 6 周小賣部消費前五的班級")plt.show()答案 ①df.at[i,"消費金額"]>max_xf或df.at[i,"消費金額"]>=max_xf ②max_stu_name③df["消費類型"]=="小賣部"或df.消費類型=="小賣部"④"消費金額",ascending=False ⑤df1.index11.小林收集了2000年-2022年浙江省的GDP數據,并存儲于“info.csv”文件,部分數據如圖a所示。為統計分析近20多年來浙江省的經濟情況,編寫Python程序。請回答下列問題。(1)定義js函數,功能為:計算每年GDP的同比增長率(=(本年度GDP-上一年GDP)/上一年GDP*100)。函數代碼如下,請在劃線處填入合適的代碼。def js(df): for i in range(1,len(df)): m= df.at[i,'RATE'] =round(m/df['GDP'][i-1]*100,2) return df(2)統計2000年-2022年期間浙江省GDP增長率在8%及以上的最長持續時間(若有多個長度相同的最大值,輸出最新的時間段),并繪制線形圖,部分Python程序如下,請在劃線處填入合適的代碼。import pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei']df=pd.read_csv('info.csv',encoding='gbk')df=js(df)t=8k=maxk=pos=0for i in range(len(df)): if ① : k+=1 else: if k>=maxk: maxk=k ② k=0 df2=df[pos:pos+maxk]x=③ y=df2['RATE']plt.plot(x,y) #繪制線形圖#設置繪圖參數,顯示如圖b所示線形圖,代碼略(3)由圖b可知,GDP增長率最高的年份是 年。 答案 (1)①df.at[i,'GDP']-df.at[i-1,'GDP'] (2)① df.at[i,'RATE']>=t ②pos = i – k③df2['YEAR'] (3)200312.某校區舉行優秀學員的評比。教務處統計了本校區的相關數據并存儲于“cj.xlsx”文件中,學生數據按照班級先后次序存儲,如 1 班之后是 2 班學生數據。文件部分內容如圖 a 所示。為分析本次評比的結果情況,編寫 Python 程序。請回答下列問題:(1)讀取“cj.xlsx”文件,為每個學生補充班級名稱(1 班到 4 班),班級人數存儲在列表 num 中。請在劃線①②③處填入合適的代碼。import pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['KaiTi','SimHei']num=[29,31,30,32] #存儲 4 個班級的人數df=pd.read_excel("① ") k=0② for i in df.index: if i==end: ③ end+=num[k] df.at[i,"班級"]=str(k+1)+ "班"(2)優秀學員的評比規則為:學業分數不低于 80 分,德育等級為 A。統計每個班級優秀學員人數,并繪制圖表顯示,如圖 b 所示,部分 Python 程序如下。請在劃線處填入合適的代碼。dfs=df[df["學業分數"]>=80]dfs=① dfg=dfg=dfg.rename(columns={"學業分數":"人數"})#將"學業分數"重命名為"人數"plt.bar(dfg["班級"],② ) plt.title("班級優秀人員對比圖")plt.xlabel("班級")plt.ylabel("人數");plt.show()(3)加框處應填入的代碼是 。(單選,填字母) A.dfs.groupby("班級",as_index=False).學業分數.count()B.dfs.groupby("班級",as_index=False).學業分數.sum()C.dfs.groupby("班級",as_index=True).學業分數.count()D.dfs.groupby("班級",as_index=True).學業分數.sum()答案 (1)①cj.xlsx ②end=num[0] 或 end=num[k] ③k=k+1 (2)① dfs[dfs["德育等級"]=="A"] 或 dfs[dfs.德育等級=="A"] ②dfg["人數"]或 dfg.人數 (3)A驗收卷(四) 數據處理與應用(考試時間40分鐘;滿分50分)一、選擇題(本大題共8小題,每小題2分,共16分,在每小題給出的四個選項中,只有一個符合題目要求,多選、少選、不選均不得分)1.下列關于大數據處理的說法,正確的是 ( )A.對動態數據無法進行可視化表示B.在中文文本分析中采用短語或段落作為表示文本的特征項C.大數據數據類型多,無法分析全體數據,只能分析抽樣數據D.Hadoop面向大規模的批量處理,適用于處理靜態數據,不適用于流數據2.某大型購物網站收集了用戶瀏覽網站的數據用于廣告個性化實時推薦,下列處理方式中合理的是 ( )A.應當使用統計分析軟件進行數據分析B.應當選用針對流數據的實時計算C.應當選用針對圖結構數據的圖計算D.應當選用針對靜態數據的批處理計算3.有如下 Python 程序段:import pandas as pddata=[["小嘉","男",97],["小浙","男",89],["小溫","女",98],["小華","女",89],["小杭","男",99]]df=pd.DataFrame(data,columns=["姓名","性別","成績"])下列選項左側語句與右側輸出結果不一致的是 ( )A. print(df.groupby("性別",as_index=False).mean()) 成績性別女 93.5男 95.0B. print(df[df["成績"]>97]) 姓名 性別 成績2 小溫 女 984 小杭 男 99C. print(df.sort_values("成績")) 姓名 性別 成績1 小浙 男 893 小華 女 890 小嘉 男 972 小溫 女 984 小杭 男 99D. print(df.drop(2)) 姓名 性別 成績0 小嘉 男 971 小浙 男 893 小華 女 894 小杭 男 994.數據文件“data.csv”中包含“A”“B”“C”3列1000行數據,下列Python程序段用于實現對象df1中數據按“B”列降序排序,程序中劃線處應填寫的語句是( )import pandas as pddf=pd.read_csv('data.csv') A.df1=df.sort_values('B')B.df=df1.sort_values('B')C.df1=df.sort_values('B',ascending=True)D.df1=df.sort_values('B',ascending=False)5.數據文件“data.csv”中儲存了浙江省各地蘋果的零售價格數據,數據包含“日期”“地區”“品名”“價格”等6列200000行,處理該文件中數據的Python程序段如下︰import pandas as pddf=pd.read_csv('data.csv')df1=df.groupby('地區').價格.mean()關于該程序段,下列說法正確的是 ( )A.DataFrame對象df中僅存儲了文件“data.csv”中的“價格”列數據B.對象df1中數據以“地區”為主要關鍵字﹑“價格”為次要關鍵字排序C.讀取文件“data.csv”中的數據,計算全部“價格”數據的平均值D.讀取文件“data.csv”中的數據,計算各地區“價格”數據的平均值6.下列關于中文分詞方法的描述中,屬于基于統計的分詞方法的是( )A.讓計算機模擬人的理解方式,根據大量的資料和規則進行學習,然后進行分詞B.在分析句子時,與詞典上的詞語進行對比,詞典中出現的就劃分為詞C.依據詞語與詞語之間的分隔符號進行分詞D.依據上下文中相鄰字出現的頻率統計,同時出現的次數越高組成一個詞的概率就越高7.下列關于數據可視化的描述中,錯誤的是 ( )A.標簽云是文本可視化的一種方式B.數據可視化只能將數據以靜態圖形圖像等形式表示C.數據可視化能直觀的呈現數據,容易發現數據中蘊含的信息D.數據可視化增強了數據的解釋力與吸引力8.下列關于大數據與大數據處理的說法,不正確的是( )A.大數據價值密度低,“提純”大數據可以讓其發揮更大的價值B.高速公路中實時產生的車流量數據屬于靜態數據C.詞頻統計是文本數據處理中特征提取的一種方法D.經過處理后的大數據,利用可視化技術,有助于快捷觀察與追蹤數據二、非選擇題(本大題共4小題,共34分)9.小明設計了一手環,實現對體溫的連續監控,4名志愿者的體溫檢測情況(部分數據隱藏,數據保存在“data.xls”中)如圖所示:(1)小明需對圖所示的數據進行整理,下列說法正確的是 。(多選,填字母) A.數據整理就是要刪除不正確的數據B.E81單元格的數據存在數據異常C.“班級”列數據格式不一致,應將數據進行格式轉換D.第4行和第5行存在數據重復,應刪除其中一行E.第4行和第5行存在數據重復,應將數據合并(注:全部選對的得2 分,選對但不全的得1 分,不選或有選錯的得0 分)(2)對第4和第5行數據處理后,用Python對表格數據進行處理,程序代碼如下所示,請在劃線處填入正確的語句。import pandas as pdimport matplotlib.pyplot as pltdf=pd.read_excel('data.xls')df=① #刪除“班級”列數據后處理 for i in range(len(df)): #將體溫列不正常的數據去除 if ② >42: #一般人體體溫不超過42度 df=df.drop(i)df1=df.groupby(③ ,as_index=False) #統計每個人這段時間的平均體溫df1=round(df1.體溫.mean(),2)#并保留兩位小數print(df1)10.某學校為規范引導學生合理消費,統計各班的一卡通消費數據。小張收集了2022學年第二學期第6周食堂消費數據保存在文件“student06.xlsx”中,部分界面如圖a所示。他利用Python程序從消費數據中找出全校單次消費金額最高的記錄,并統計學校各班級數據,最后以圖表的形式呈現小賣部消費前五的班級如圖b所示。實現上述功能的Python程序如下,請在劃線處填入合適的代碼。import pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei']df=pd.read_excel("student06.xlsx")#找出全校單次消費金額最高的記錄max_xf=0for i in df.index: if ① : max_xf=df.at[i,"消費金額"] max_bj_name=df.at[i,"班級"] max_stu_name=df.at[i,"姓名"]print(max_bj_name,"的同學",② ,"單次消費最高。") #以圖表的形式呈現小賣部消費前五的班級,如圖 b 所示。df1=df[③ ] #篩選出小賣部的數據 df1=df1.groupby("班級",as_index=True).sum()df1=df1.sort_values(④ ).head(5) x=⑤ y=df1.消費金額plt.bar(x,y)plt.title("第 6 周小賣部消費前五的班級")plt.show()11.小林收集了2000年-2022年浙江省的GDP數據,并存儲于“info.csv”文件,部分數據如圖a所示。為統計分析近20多年來浙江省的經濟情況,編寫Python程序。請回答下列問題。(1)定義js函數,功能為:計算每年GDP的同比增長率(=(本年度GDP-上一年GDP)/上一年GDP*100)。函數代碼如下,請在劃線處填入合適的代碼。def js(df): for i in range(1,len(df)): m= df.at[i,'RATE'] =round(m/df['GDP'][i-1]*100,2) return df(2)統計2000年-2022年期間浙江省GDP增長率在8%及以上的最長持續時間(若有多個長度相同的最大值,輸出最新的時間段),并繪制線形圖,部分Python程序如下,請在劃線處填入合適的代碼。import pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei']df=pd.read_csv('info.csv',encoding='gbk')df=js(df)t=8k=maxk=pos=0for i in range(len(df)): if ① : k+=1 else: if k>=maxk: maxk=k ② k=0 df2=df[pos:pos+maxk]x=③ y=df2['RATE']plt.plot(x,y) #繪制線形圖#設置繪圖參數,顯示如圖b所示線形圖,代碼略(3)由圖b可知,GDP增長率最高的年份是 年。 12.某校區舉行優秀學員的評比。教務處統計了本校區的相關數據并存儲于“cj.xlsx”文件中,學生數據按照班級先后次序存儲,如 1 班之后是 2 班學生數據。文件部分內容如圖 a 所示。為分析本次評比的結果情況,編寫 Python 程序。請回答下列問題:(1)讀取“cj.xlsx”文件,為每個學生補充班級名稱(1 班到 4 班),班級人數存儲在列表 num 中。請在劃線①②③處填入合適的代碼。import pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['KaiTi','SimHei']num=[29,31,30,32] #存儲 4 個班級的人數df=pd.read_excel("① ") k=0② for i in df.index: if i==end: ③ end+=num[k] df.at[i,"班級"]=str(k+1)+ "班"(2)優秀學員的評比規則為:學業分數不低于 80 分,德育等級為 A。統計每個班級優秀學員人數,并繪制圖表顯示,如圖 b 所示,部分 Python 程序如下,請在劃線處填入合適的代碼。dfs=df[df["學業分數"]>=80]dfs=① dfg= dfg=dfg.rename(columns={"學業分數":"人數"})#將"學業分數"重命名為"人數"plt.bar(dfg["班級"],② ) plt.title("班級優秀人員對比圖")plt.xlabel("班級")plt.ylabel("人數");plt.show()(3)加框處應填入的代碼是 。(單選,填字母) A.dfs.groupby("班級",as_index=False).學業分數.count()B.dfs.groupby("班級",as_index=False).學業分數.sum()C.dfs.groupby("班級",as_index=True).學業分數.count()D.dfs.groupby("班級",as_index=True).學業分數.sum() 展開更多...... 收起↑ 資源列表 驗收卷(四) 數據處理與應用 課件(共29張ppt)浙教版(2019)必修1.pptx 驗收卷(四) 數據處理與應用(含答案)浙教版(2019)必修1.doc 驗收卷(四) 數據處理與應用(學生版)浙教版(2019)必修1.doc 縮略圖、資源來源于二一教育資源庫