中文字幕精品无码一区二区,成全视频在线播放观看方法,大伊人青草狠狠久久,亚洲一区影音先锋色资源

第四章 驗收卷(四) 數據處理與應用 浙教版(2019)必修1(課件 練習三份打包)

資源下載
  1. 二一教育資源

第四章 驗收卷(四) 數據處理與應用 浙教版(2019)必修1(課件 練習三份打包)

資源簡介

(共29張PPT)
第四章 數據處理與應用
驗收卷(四) 數據處理與應用
(考試時間40分鐘;滿分50分)
一、選擇題(本大題共8小題,每小題2分,共16分,在每小題給出的四個選項中,只有一個符合題目要求,多選、少選、不選均不得分)
1.下列關于大數據處理的說法,正確的是(  )
A.對動態數據無法進行可視化表示
B.在中文文本分析中采用短語或段落作為表示文本的特征項
C.大數據數據類型多,無法分析全體數據,只能分析抽樣數據
D.Hadoop面向大規模的批量處理,適用于處理靜態數據,不適用于流數據
D
B
2.某大型購物網站收集了用戶瀏覽網站的數據用于廣告個性化實時推薦,下列處理方式中合理的是 (  )
A.應當使用統計分析軟件進行數據分析
B.應當選用針對流數據的實時計算
C.應當選用針對圖結構數據的圖計算
D.應當選用針對靜態數據的批處理計算
解析 本題考查大數據的相關知識。用戶瀏覽網站的數據,屬于流數據,是時時刻刻在變化的,故某大型購物網站收集了用戶瀏覽網站的數據用于廣告個性化實時推薦時,應當選用針對流數據的實時計算。
A
A. print(df.groupby ("性別",as_index=False).mean()) 成績
性別
女 93.5
男 95.0
B. print(df[df["成績"]>97])  姓名 性別 成績
2 小溫  女  98
4 小杭  男  99
C. print(df.sort_values("成績"))  姓名 性別 成績
1 小浙  男  89
3 小華  女  89
0 小嘉  男  97
2 小溫  女  98
4 小杭  男  99
D. print(df.drop(2))  姓名 性別 成績
0 小嘉  男  97
1 小浙  男  89
3 小華  女  89
4 小杭  男  99
D
4.數據文件“data.csv”中包含“A”“B”“C”3列1000行數據,下列Python程序段用于實現對象df1中數據按“B”列降序排序,程序中劃線處應填寫的語句是 (  )
import pandas as pd
df=pd.read_csv('data.csv')
   
A.df1=df.sort_values('B')
B.df=df1.sort_values('B')
C.df1=df.sort_values('B',ascending=True)
D.df1=df.sort_values('B',ascending=False)
解析 本題考查Pandas數據結構,采用sort_values方法對參數中列進行排序,ascending省略或為True為升序。
D
5.數據文件“data.csv”中儲存了浙江省各地蘋果的零售價格數據,數據包含“日期”“地區”“品名”“價格”等6列200000行,處理該文件中數據的Python程序段如下︰
import pandas as pd
df=pd.read_csv('data.csv')
df1=df.groupby('地區').價格.mean()
關于該程序段,下列說法正確的是(  )
A.DataFrame對象df中僅存儲了文件“data.csv”中的“價格”列數據
B.對象df1中數據以“地區”為主要關鍵字﹑“價格”為次要關鍵字排序
C.讀取文件“data.csv”中的數據,計算全部“價格”數據的平均值
D.讀取文件“data.csv”中的數據,計算各地區“價格”數據的平均值
解析 本題考查Pandas數據結構。A選項對象df存儲了數據表中所有信息,因此包含"日期"等信息。B選項對象df1并沒有進行排序,而是按地區進行分組,并統計各個地區的平均價格。
D
6.下列關于中文分詞方法的描述中,屬于基于統計的分詞方法的是 (  )
A.讓計算機模擬人的理解方式,根據大量的資料和規則進行學習,然后進行分詞
B.在分析句子時,與詞典上的詞語進行對比,詞典中出現的就劃分為詞
C.依據詞語與詞語之間的分隔符號進行分詞
D.依據上下文中相鄰字出現的頻率統計,同時出現的次數越高組成一個詞的概率就越高
解析 基于統計的分詞方法是依據上下文中相鄰字出現的頻率統計,同時出現的次數越高越可能組成一個詞,因此答案為D。
B
A.標簽云是文本可視化的一種方式
B.數據可視化只能將數據以靜態圖形圖像等形式表示
C.數據可視化能直觀的呈現數據,容易發現數據中蘊含的信息
D.數據可視化增強了數據的解釋力與吸引力
解析 數據可視化是將數據以圖形圖像等形式表示,可以是以靜態圖形圖像呈現,也可以具有交互性的動態形式呈現,因此,錯誤的是B。
B
A.大數據價值密度低,“提純”大數據可以讓其發揮更大的價值
B.高速公路中實時產生的車流量數據屬于靜態數據
C.詞頻統計是文本數據處理中特征提取的一種方法
D.經過處理后的大數據,利用可視化技術,有助于快捷觀察與追蹤數據
解析 高速公路中實時產生的車流量數據是不間斷地、持續到達的,屬于流數據。
二、非選擇題(本大題共4小題,共34分)
9.小明設計了一手環,實現對體溫的連續監控,4名志愿者的體溫檢測情況(部分數據隱藏,數據保存在“data.xls”中)如圖所示:
(1)小明需對圖所示的數據進行整理,下列說法正確的是    。(多選,填字母)
A.數據整理就是要刪除不正確的數據
B.E81單元格的數據存在數據異常
C.“班級”列數據格式不一致,應將數據進行格式轉換
D.第4行和第5行存在數據重復,應刪除其中一行
E.第4行和第5行存在數據重復,應將數據合并
(注:全部選對的得2 分,選對但不全的得1 分,不選或有選錯的得0 分)
(2)對第4和第5行數據處理后,用Python對表格數據進行處理,程序代碼如下所示,請在劃線處填入正確的語句。
import pandas as pd
import matplotlib.pyplot as plt
df=pd.read_excel('data.xls')
df=①      #刪除“班級”列數據后處理 
for i in range(len(df)): #將體溫列不正常的數據去除
  if ②     >42: #一般人體體溫不超過42度
    df=df.drop(i)
df1=df.groupby(③    ,as_index=False) 
#統計每個人這段時間的平均體溫
df1=round(df1.體溫.mean(),2)#并保留兩位小數
print(df1)
答案 (1)BCE (2)①df.drop('班級',axis=1) 
②df.at[i,'體溫'] ③'姓名'
10.某學校為規范引導學生合理消費,統計各班的一卡通消費數據。小張收集了2022學年第二學期第6周食堂消費數據保存在文件“student06.xlsx”中,部分界面如圖a所示。他利用Python程序從消費數據中找出全校單次消費金額最高的記錄,并統計學校各班級數據,最后以圖表的形式呈現小賣部消費前五的班級如圖b所示。
實現上述功能的Python程序如下,請在劃線處填入合適的代碼。
import pandas as pd
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei']
df=pd.read_excel("student06.xlsx")
#找出全校單次消費金額最高的記錄
max_xf=0
for i in df.index:
  if ①    :
    max_xf=df.at[i,"消費金額"]
    max_bj_name=df.at[i,"班級"]
    max_stu_name=df.at[i,"姓名"]
print(max_bj_name,"的同學",②    ,"單次消費最高。")
#以圖表的形式呈現小賣部消費前五的班級,如圖 b 所示。
df1=df[③    ] #篩選出小賣部的數據
df1=df1.groupby("班級",as_index=True).sum()
df1=df1.sort_values(④    ).head(5)
x=⑤   
y=df1.消費金額
plt.bar(x,y)
plt.title("第 6 周小賣部消費前五的班級")
plt.show()
答案 ①df.at[i,"消費金額"]>max_xf或df.at[i,"消費金額"]>=max_xf ②max_stu_name
③df["消費類型"]=="小賣部"或df.消費類型=="小賣部"
④"消費金額",ascending=False ⑤df1.index
11.小林收集了2000年-2022年浙江省的GDP數據,并存儲于“info.csv”文件,部分數據如圖a所示。
為統計分析近20多年來浙江省的經濟情況,編寫Python程序。請回答下列問題。
(1)定義js函數,功能為:計算每年GDP的同比增長率(=(本年度GDP-上一年GDP)/上一年GDP*100)。函數代碼如下,請在劃線處填入合適的代碼。
def js(df):
  for i in range(1,len(df)):
    m=    
    df.at[i,'RATE'] =round(m/df['GDP'][i-1]*100,2)
  return df
(2)統計2000年-2022年期間浙江省GDP增長率在8%及以上的最長持續時間(若有多個長度相同的最大值,輸出最新的時間段),并繪制線形圖,部分Python程序如下,請在劃線處填入合適的代碼。
import pandas as pd
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei']
df=pd.read_csv('info.csv',encoding='gbk')
df=js(df)
t=8
k=maxk=pos=0
for i in range(len(df)):
  if ①     :
    k+=1
  else:
    if k>=maxk:
      maxk=k
      ②   
     k=0 
df2=df[pos:pos+maxk]
x=③    
y=df2['RATE']
plt.plot(x,y) #繪制線形圖
#設置繪圖參數,顯示如圖b所示線形圖,代碼略
(3)由圖b可知,GDP增長率最高的年份是    年。
答案 (1)①df.at[i,'GDP']-df.at[i-1,'GDP'] 
(2)① df.at[i,'RATE']>=t ②pos = i – k
③df2['YEAR'] (3)2003
12.某校區舉行優秀學員的評比。教務處統計了本校區的相關數據并存儲于“cj.xlsx”文件中,學生數據按照班級先后次序存儲,如 1 班之后是 2 班學生數據。文件部分內容如圖 a 所示。為分析本次評比的結果情況,編寫 Python 程序。請回答下列問題:
(1)讀取“cj.xlsx”文件,為每個學生補充班級名稱(1 班到 4 班),班級人數存儲在列表 num 中。請在劃線①②③處填入合適的代碼。
import pandas as pd
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['KaiTi','SimHei']
num=[29,31,30,32] #存儲 4 個班級的人數
df=pd.read_excel("①    ")
k=0
②   
for i in df.index:
  if i==end:
     ③   
     end+=num[k]
     df.at[i,"班級"]=str(k+1)+ "班"
(2)優秀學員的評比規則為:學業分數不低于 80 分,德育等級為 A。統計每個班級優秀學員人數,并繪制圖表顯示,如圖 b 所示,部分 Python 程序如下。請在劃線處填入合適的代碼。
dfs=df[df["學業分數"]>=80]
dfs=①   
dfg=
dfg=dfg.rename(columns={"學業分數":"人數"})#將"學業分數"重命名為"人數"
plt.bar(dfg["班級"],②     )
plt.title("班級優秀人員對比圖")
plt.xlabel("班級")
plt.ylabel("人數");plt.show()

(3)加框處應填入的代碼是    。(單選,填字母)
A.dfs.groupby("班級",as_index=False).學業分數.count()
B.dfs.groupby("班級",as_index=False).學業分數.sum()
C.dfs.groupby("班級",as_index=True).學業分數.count()
D.dfs.groupby("班級",as_index=True).學業分數.sum()
答案 (1)①cj.xlsx ②end=num[0] 或 end=num[k] ③k=k+1 (2)① dfs[dfs["德育等級"]=="A"] 或 dfs[dfs.德育等級=="A"] 
②dfg["人數"]或 dfg.人數 (3)A驗收卷(四) 數據處理與應用
(考試時間40分鐘;滿分50分)
一、選擇題(本大題共8小題,每小題2分,共16分,在每小題給出的四個選項中,只有一個符合題目要求,多選、少選、不選均不得分)
1.下列關于大數據處理的說法,正確的是 (  )
A.對動態數據無法進行可視化表示
B.在中文文本分析中采用短語或段落作為表示文本的特征項
C.大數據數據類型多,無法分析全體數據,只能分析抽樣數據
D.Hadoop面向大規模的批量處理,適用于處理靜態數據,不適用于流數據
答案 D
2.某大型購物網站收集了用戶瀏覽網站的數據用于廣告個性化實時推薦,下列處理方式中合理的是 (  )
A.應當使用統計分析軟件進行數據分析
B.應當選用針對流數據的實時計算
C.應當選用針對圖結構數據的圖計算
D.應當選用針對靜態數據的批處理計算
答案 B
解析 本題考查大數據的相關知識。用戶瀏覽網站的數據,屬于流數據,是時時刻刻在變化的,故某大型購物網站收集了用戶瀏覽網站的數據用于廣告個性化實時推薦時,應當選用針對流數據的實時計算。
3.有如下 Python 程序段:
import pandas as pd
data=[["小嘉","男",97],["小浙","男",89],["小溫","女",98],["小華","女",89],["小杭","男",99]]
df=pd.DataFrame(data,columns=["姓名","性別","成績"])下列選項左側語句與右側輸出結果不一致的是 (  )
A. print(df.groupby("性別",as_index=False).mean()) 成績性別女 93.5男 95.0
B. print(df[df["成績"]>97])  姓名 性別 成績2 小溫  女  984 小杭  男  99
C. print(df.sort_values("成績"))  姓名 性別 成績1 小浙  男  893 小華  女  890 小嘉  男  972 小溫  女  984 小杭  男  99
D. print(df.drop(2))  姓名 性別 成績0 小嘉  男  971 小浙  男  893 小華  女  894 小杭  男  99
答案 A
4.數據文件“data.csv”中包含“A”“B”“C”3列1000行數據,下列Python程序段用于實現對象df1中數據按“B”列降序排序,程序中劃線處應填寫的語句是 (  )
import pandas as pd
df=pd.read_csv('data.csv')
   
A.df1=df.sort_values('B')
B.df=df1.sort_values('B')
C.df1=df.sort_values('B',ascending=True)
D.df1=df.sort_values('B',ascending=False)
答案 D
解析 本題考查Pandas數據結構,采用sort_values方法對參數中列進行排序,ascending省略或為True為升序。
5.數據文件“data.csv”中儲存了浙江省各地蘋果的零售價格數據,數據包含“日期”“地區”“品名”“價格”等6列200000行,處理該文件中數據的Python程序段如下︰
import pandas as pd
df=pd.read_csv('data.csv')
df1=df.groupby('地區').價格.mean()
關于該程序段,下列說法正確的是 (  )
A.DataFrame對象df中僅存儲了文件“data.csv”中的“價格”列數據
B.對象df1中數據以“地區”為主要關鍵字﹑“價格”為次要關鍵字排序
C.讀取文件“data.csv”中的數據,計算全部“價格”數據的平均值
D.讀取文件“data.csv”中的數據,計算各地區“價格”數據的平均值
答案 D
解析 本題考查Pandas數據結構。A選項對象df存儲了數據表中所有信息,因此包含"日期"等信息。B選項對象df1并沒有進行排序,而是按地區進行分組,并統計各個地區的平均價格。
6.下列關于中文分詞方法的描述中,屬于基于統計的分詞方法的是 (  )
A.讓計算機模擬人的理解方式,根據大量的資料和規則進行學習,然后進行分詞
B.在分析句子時,與詞典上的詞語進行對比,詞典中出現的就劃分為詞
C.依據詞語與詞語之間的分隔符號進行分詞
D.依據上下文中相鄰字出現的頻率統計,同時出現的次數越高組成一個詞的概率就越高
答案 D
解析 基于統計的分詞方法是依據上下文中相鄰字出現的頻率統計,同時出現的次數越高越可能組成一個詞,因此答案為D。
7.下列關于數據可視化的描述中,錯誤的是 (  )
A.標簽云是文本可視化的一種方式
B.數據可視化只能將數據以靜態圖形圖像等形式表示
C.數據可視化能直觀的呈現數據,容易發現數據中蘊含的信息
D.數據可視化增強了數據的解釋力與吸引力
答案 B
解析 數據可視化是將數據以圖形圖像等形式表示,可以是以靜態圖形圖像呈現,也可以具有交互性的動態形式呈現,因此,錯誤的是B。
8.下列關于大數據與大數據處理的說法,不正確的是 (  )
A.大數據價值密度低,“提純”大數據可以讓其發揮更大的價值
B.高速公路中實時產生的車流量數據屬于靜態數據
C.詞頻統計是文本數據處理中特征提取的一種方法
D.經過處理后的大數據,利用可視化技術,有助于快捷觀察與追蹤數據
答案 B
解析 高速公路中實時產生的車流量數據是不間斷地、持續到達的,屬于流數據。
二、非選擇題(本大題共4小題,共34分)
9.小明設計了一手環,實現對體溫的連續監控,4名志愿者的體溫檢測情況(部分數據隱藏,數據保存在“data.xls”中)如圖所示:
(1)小明需對圖所示的數據進行整理,下列說法正確的是    。(多選,填字母)
A.數據整理就是要刪除不正確的數據
B.E81單元格的數據存在數據異常
C.“班級”列數據格式不一致,應將數據進行格式轉換
D.第4行和第5行存在數據重復,應刪除其中一行
E.第4行和第5行存在數據重復,應將數據合并
(注:全部選對的得2 分,選對但不全的得1 分,不選或有選錯的得0 分)
(2)對第4和第5行數據處理后,用Python對表格數據進行處理,程序代碼如下所示,請在劃線處填入正確的語句。
import pandas as pd
import matplotlib.pyplot as plt
df=pd.read_excel('data.xls')
df=①      #刪除“班級”列數據后處理 
for i in range(len(df)): #將體溫列不正常的數據去除
  if ②     >42: #一般人體體溫不超過42度
    df=df.drop(i)
df1=df.groupby(③    ,as_index=False) 
#統計每個人這段時間的平均體溫
df1=round(df1.體溫.mean(),2)#并保留兩位小數
print(df1)
答案 (1)BCE (2)①df.drop('班級',axis=1) 
②df.at[i,'體溫'] ③'姓名'
10.某學校為規范引導學生合理消費,統計各班的一卡通消費數據。小張收集了2022學年第二學期第6周食堂消費數據保存在文件“student06.xlsx”中,部分界面如圖a所示。他利用Python程序從消費數據中找出全校單次消費金額最高的記錄,并統計學校各班級數據,最后以圖表的形式呈現小賣部消費前五的班級如圖b所示。
實現上述功能的Python程序如下,請在劃線處填入合適的代碼。
import pandas as pd
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei']
df=pd.read_excel("student06.xlsx")
#找出全校單次消費金額最高的記錄
max_xf=0
for i in df.index:
  if ①    :
    max_xf=df.at[i,"消費金額"]
    max_bj_name=df.at[i,"班級"]
    max_stu_name=df.at[i,"姓名"]
print(max_bj_name,"的同學",②    ,"單次消費最高。")
#以圖表的形式呈現小賣部消費前五的班級,如圖 b 所示。
df1=df[③    ] #篩選出小賣部的數據
df1=df1.groupby("班級",as_index=True).sum()
df1=df1.sort_values(④    ).head(5)
x=⑤   
y=df1.消費金額
plt.bar(x,y)
plt.title("第 6 周小賣部消費前五的班級")
plt.show()
答案 ①df.at[i,"消費金額"]>max_xf或df.at[i,"消費金額"]>=max_xf ②max_stu_name
③df["消費類型"]=="小賣部"或df.消費類型=="小賣部"
④"消費金額",ascending=False ⑤df1.index
11.小林收集了2000年-2022年浙江省的GDP數據,并存儲于“info.csv”文件,部分數據如圖a所示。
為統計分析近20多年來浙江省的經濟情況,編寫Python程序。請回答下列問題。
(1)定義js函數,功能為:計算每年GDP的同比增長率(=(本年度GDP-上一年GDP)/上一年GDP*100)。函數代碼如下,請在劃線處填入合適的代碼。
def js(df):
  for i in range(1,len(df)):
    m=    
    df.at[i,'RATE'] =round(m/df['GDP'][i-1]*100,2)
  return df
(2)統計2000年-2022年期間浙江省GDP增長率在8%及以上的最長持續時間(若有多個長度相同的最大值,輸出最新的時間段),并繪制線形圖,部分Python程序如下,請在劃線處填入合適的代碼。
import pandas as pd
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei']
df=pd.read_csv('info.csv',encoding='gbk')
df=js(df)
t=8
k=maxk=pos=0
for i in range(len(df)):
  if ①     :
    k+=1
  else:
    if k>=maxk:
      maxk=k
      ②   
     k=0 
df2=df[pos:pos+maxk]
x=③    
y=df2['RATE']
plt.plot(x,y) #繪制線形圖
#設置繪圖參數,顯示如圖b所示線形圖,代碼略
(3)由圖b可知,GDP增長率最高的年份是    年。
答案 (1)①df.at[i,'GDP']-df.at[i-1,'GDP'] (2)① df.at[i,'RATE']>=t ②pos = i – k
③df2['YEAR'] (3)2003
12.某校區舉行優秀學員的評比。教務處統計了本校區的相關數據并存儲于“cj.xlsx”文件中,學生數據按照班級先后次序存儲,如 1 班之后是 2 班學生數據。文件部分內容如圖 a 所示。為分析本次評比的結果情況,編寫 Python 程序。請回答下列問題:
(1)讀取“cj.xlsx”文件,為每個學生補充班級名稱(1 班到 4 班),班級人數存儲在列表 num 中。請在劃線①②③處填入合適的代碼。
import pandas as pd
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['KaiTi','SimHei']
num=[29,31,30,32] #存儲 4 個班級的人數
df=pd.read_excel("①    ")
k=0
②   
for i in df.index:
  if i==end:
     ③   
     end+=num[k]
     df.at[i,"班級"]=str(k+1)+ "班"
(2)優秀學員的評比規則為:學業分數不低于 80 分,德育等級為 A。統計每個班級優秀學員人數,并繪制圖表顯示,如圖 b 所示,部分 Python 程序如下。請在劃線處填入合適的代碼。
dfs=df[df["學業分數"]>=80]
dfs=①   
dfg=
dfg=dfg.rename(columns={"學業分數":"人數"})#將"學業分數"重命名為"人數"
plt.bar(dfg["班級"],②     )
plt.title("班級優秀人員對比圖")
plt.xlabel("班級")
plt.ylabel("人數");plt.show()
(3)加框處應填入的代碼是    。(單選,填字母)
A.dfs.groupby("班級",as_index=False).學業分數.count()
B.dfs.groupby("班級",as_index=False).學業分數.sum()
C.dfs.groupby("班級",as_index=True).學業分數.count()
D.dfs.groupby("班級",as_index=True).學業分數.sum()
答案 (1)①cj.xlsx ②end=num[0] 或 end=num[k] ③k=k+1 (2)① dfs[dfs["德育等級"]=="A"] 或 dfs[dfs.德育等級=="A"] 
②dfg["人數"]或 dfg.人數 (3)A驗收卷(四) 數據處理與應用
(考試時間40分鐘;滿分50分)
一、選擇題(本大題共8小題,每小題2分,共16分,在每小題給出的四個選項中,只有一個符合題目要求,多選、少選、不選均不得分)
1.下列關于大數據處理的說法,正確的是 (  )
A.對動態數據無法進行可視化表示
B.在中文文本分析中采用短語或段落作為表示文本的特征項
C.大數據數據類型多,無法分析全體數據,只能分析抽樣數據
D.Hadoop面向大規模的批量處理,適用于處理靜態數據,不適用于流數據
2.某大型購物網站收集了用戶瀏覽網站的數據用于廣告個性化實時推薦,下列處理方式中合理的是 (  )
A.應當使用統計分析軟件進行數據分析
B.應當選用針對流數據的實時計算
C.應當選用針對圖結構數據的圖計算
D.應當選用針對靜態數據的批處理計算
3.有如下 Python 程序段:
import pandas as pd
data=[["小嘉","男",97],["小浙","男",89],["小溫","女",98],["小華","女",89],["小杭","男",99]]
df=pd.DataFrame(data,columns=["姓名","性別","成績"])下列選項左側語句與右側輸出結果不一致的是 (  )
A. print(df.groupby("性別",as_index=False).mean()) 成績性別女 93.5男 95.0
B. print(df[df["成績"]>97])  姓名 性別 成績2 小溫  女  984 小杭  男  99
C. print(df.sort_values("成績"))  姓名 性別 成績1 小浙  男  893 小華  女  890 小嘉  男  972 小溫  女  984 小杭  男  99
D. print(df.drop(2))  姓名 性別 成績0 小嘉  男  971 小浙  男  893 小華  女  894 小杭  男  99
4.數據文件“data.csv”中包含“A”“B”“C”3列1000行數據,下列Python程序段用于實現對象df1中數據按“B”列降序排序,程序中劃線處應填寫的語句是(  )
import pandas as pd
df=pd.read_csv('data.csv')
   
A.df1=df.sort_values('B')
B.df=df1.sort_values('B')
C.df1=df.sort_values('B',ascending=True)
D.df1=df.sort_values('B',ascending=False)
5.數據文件“data.csv”中儲存了浙江省各地蘋果的零售價格數據,數據包含“日期”“地區”“品名”“價格”等6列200000行,處理該文件中數據的Python程序段如下︰
import pandas as pd
df=pd.read_csv('data.csv')
df1=df.groupby('地區').價格.mean()
關于該程序段,下列說法正確的是 (  )
A.DataFrame對象df中僅存儲了文件“data.csv”中的“價格”列數據
B.對象df1中數據以“地區”為主要關鍵字﹑“價格”為次要關鍵字排序
C.讀取文件“data.csv”中的數據,計算全部“價格”數據的平均值
D.讀取文件“data.csv”中的數據,計算各地區“價格”數據的平均值
6.下列關于中文分詞方法的描述中,屬于基于統計的分詞方法的是(  )
A.讓計算機模擬人的理解方式,根據大量的資料和規則進行學習,然后進行分詞
B.在分析句子時,與詞典上的詞語進行對比,詞典中出現的就劃分為詞
C.依據詞語與詞語之間的分隔符號進行分詞
D.依據上下文中相鄰字出現的頻率統計,同時出現的次數越高組成一個詞的概率就越高
7.下列關于數據可視化的描述中,錯誤的是 (  )
A.標簽云是文本可視化的一種方式
B.數據可視化只能將數據以靜態圖形圖像等形式表示
C.數據可視化能直觀的呈現數據,容易發現數據中蘊含的信息
D.數據可視化增強了數據的解釋力與吸引力
8.下列關于大數據與大數據處理的說法,不正確的是(  )
A.大數據價值密度低,“提純”大數據可以讓其發揮更大的價值
B.高速公路中實時產生的車流量數據屬于靜態數據
C.詞頻統計是文本數據處理中特征提取的一種方法
D.經過處理后的大數據,利用可視化技術,有助于快捷觀察與追蹤數據
二、非選擇題(本大題共4小題,共34分)
9.小明設計了一手環,實現對體溫的連續監控,4名志愿者的體溫檢測情況(部分數據隱藏,數據保存在“data.xls”中)如圖所示:
(1)小明需對圖所示的數據進行整理,下列說法正確的是    。(多選,填字母)
A.數據整理就是要刪除不正確的數據
B.E81單元格的數據存在數據異常
C.“班級”列數據格式不一致,應將數據進行格式轉換
D.第4行和第5行存在數據重復,應刪除其中一行
E.第4行和第5行存在數據重復,應將數據合并
(注:全部選對的得2 分,選對但不全的得1 分,不選或有選錯的得0 分)
(2)對第4和第5行數據處理后,用Python對表格數據進行處理,程序代碼如下所示,請在劃線處填入正確的語句。
import pandas as pd
import matplotlib.pyplot as plt
df=pd.read_excel('data.xls')
df=①      #刪除“班級”列數據后處理 
for i in range(len(df)): #將體溫列不正常的數據去除
  if ②     >42: #一般人體體溫不超過42度
    df=df.drop(i)
df1=df.groupby(③    ,as_index=False) 
#統計每個人這段時間的平均體溫
df1=round(df1.體溫.mean(),2)#并保留兩位小數
print(df1)
10.某學校為規范引導學生合理消費,統計各班的一卡通消費數據。小張收集了2022學年第二學期第6周食堂消費數據保存在文件“student06.xlsx”中,部分界面如圖a所示。他利用Python程序從消費數據中找出全校單次消費金額最高的記錄,并統計學校各班級數據,最后以圖表的形式呈現小賣部消費前五的班級如圖b所示。
實現上述功能的Python程序如下,請在劃線處填入合適的代碼。
import pandas as pd
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei']
df=pd.read_excel("student06.xlsx")
#找出全校單次消費金額最高的記錄
max_xf=0
for i in df.index:
  if ①    :
    max_xf=df.at[i,"消費金額"]
    max_bj_name=df.at[i,"班級"]
    max_stu_name=df.at[i,"姓名"]
print(max_bj_name,"的同學",②    ,"單次消費最高。")
#以圖表的形式呈現小賣部消費前五的班級,如圖 b 所示。
df1=df[③    ] #篩選出小賣部的數據
df1=df1.groupby("班級",as_index=True).sum()
df1=df1.sort_values(④    ).head(5)
x=⑤   
y=df1.消費金額
plt.bar(x,y)
plt.title("第 6 周小賣部消費前五的班級")
plt.show()
11.小林收集了2000年-2022年浙江省的GDP數據,并存儲于“info.csv”文件,部分數據如圖a所示。
為統計分析近20多年來浙江省的經濟情況,編寫Python程序。請回答下列問題。
(1)定義js函數,功能為:計算每年GDP的同比增長率(=(本年度GDP-上一年GDP)/上一年GDP*100)。函數代碼如下,請在劃線處填入合適的代碼。
def js(df):
  for i in range(1,len(df)):
    m=    
    df.at[i,'RATE'] =round(m/df['GDP'][i-1]*100,2)
  return df
(2)統計2000年-2022年期間浙江省GDP增長率在8%及以上的最長持續時間(若有多個長度相同的最大值,輸出最新的時間段),并繪制線形圖,部分Python程序如下,請在劃線處填入合適的代碼。
import pandas as pd
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei']
df=pd.read_csv('info.csv',encoding='gbk')
df=js(df)
t=8
k=maxk=pos=0
for i in range(len(df)):
  if ①     :
    k+=1
  else:
    if k>=maxk:
      maxk=k
      ②   
     k=0 
df2=df[pos:pos+maxk]
x=③    
y=df2['RATE']
plt.plot(x,y) #繪制線形圖
#設置繪圖參數,顯示如圖b所示線形圖,代碼略
(3)由圖b可知,GDP增長率最高的年份是    年。
12.某校區舉行優秀學員的評比。教務處統計了本校區的相關數據并存儲于“cj.xlsx”文件中,學生數據按照班級先后次序存儲,如 1 班之后是 2 班學生數據。文件部分內容如圖 a 所示。為分析本次評比的結果情況,編寫 Python 程序。請回答下列問題:
(1)讀取“cj.xlsx”文件,為每個學生補充班級名稱(1 班到 4 班),班級人數存儲在列表 num 中。請在劃線①②③處填入合適的代碼。
import pandas as pd
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['KaiTi','SimHei']
num=[29,31,30,32] #存儲 4 個班級的人數
df=pd.read_excel("①    ")
k=0
②   
for i in df.index:
  if i==end:
     ③   
     end+=num[k]
     df.at[i,"班級"]=str(k+1)+ "班"
(2)優秀學員的評比規則為:學業分數不低于 80 分,德育等級為 A。統計每個班級優秀學員人數,并繪制圖表顯示,如圖 b 所示,部分 Python 程序如下,請在劃線處填入合適的代碼。
dfs=df[df["學業分數"]>=80]
dfs=①   
dfg=    
dfg=dfg.rename(columns={"學業分數":"人數"})#將"學業分數"重命名為"人數"
plt.bar(dfg["班級"],②     )
plt.title("班級優秀人員對比圖")
plt.xlabel("班級")
plt.ylabel("人數");plt.show()
(3)加框處應填入的代碼是    。(單選,填字母)
A.dfs.groupby("班級",as_index=False).學業分數.count()
B.dfs.groupby("班級",as_index=False).學業分數.sum()
C.dfs.groupby("班級",as_index=True).學業分數.count()
D.dfs.groupby("班級",as_index=True).學業分數.sum()

展開更多......

收起↑

資源列表

<pre id="tfb94"><li id="tfb94"></li></pre>

<bdo id="tfb94"><rt id="tfb94"></rt></bdo>
  • <menu id="tfb94"><dl id="tfb94"></dl></menu><i id="tfb94"><acronym id="tfb94"><sub id="tfb94"></sub></acronym></i>

    1. 主站蜘蛛池模板: 合水县| 新化县| 怀宁县| 瓦房店市| 临西县| 仁怀市| 丹寨县| 来宾市| 辛集市| 平遥县| 峨眉山市| 天柱县| 成武县| 行唐县| 白玉县| 龙海市| 锡林郭勒盟| 调兵山市| 清涧县| 密山市| 闵行区| 东源县| 蓝山县| 武宣县| 望城县| 浏阳市| 汝州市| 余姚市| 科技| 丰原市| 自治县| 荥阳市| 阿尔山市| 新巴尔虎右旗| 平昌县| 吉林省| 镇江市| 霞浦县| 射洪县| 定日县| 临夏市|