中文字幕精品无码一区二区,成全视频在线播放观看方法,大伊人青草狠狠久久,亚洲一区影音先锋色资源

第五章《數據處理和可視化表達》課件(共53張PPT) 2023—2024學年粵教版(2019)高中信息技術必修1

資源下載
  1. 二一教育資源

第五章《數據處理和可視化表達》課件(共53張PPT) 2023—2024學年粵教版(2019)高中信息技術必修1

資源簡介

(共53張PPT)
第五章 數據處理和可視化表達
多樣化的數據
都是什么呢?
地理位置信息
網絡日志
你從哪個網頁跳轉來?
你點擊了哪些商品?
商品頁面上停留的時間?
評價關注程度
顏色偏好
品牌偏好
數據的概念
數據是現實世界客觀事物的符號記錄,是信息的載體,是計算機加工的對象,如圖像、視頻、音頻、文本(文字、數值、字符)等。
計算機科學中的數據
數據是對所有輸入計算機并被計算機識別、存儲和處理的符號的總稱,是聯系現實世界和計算機世界的途徑。
數據的概念
數據是現實世界客觀事物的符號記錄,是信息的載體,是計算機加工的對象,如圖像、視頻、音頻、文本(文字、數值、字符)等。
數據的基本特征
(1)二進制。
在計算機中,數據以二進制的形式存儲、加工。
(2)語義性。
語義是將數據符號解釋為客觀世界的事物。
(3)分散性。
數據是分散的記錄,分別記錄不同客觀事物的運動狀態。
120
某個小朋友的身高是120cm
衣服的價格是120元
(4)多樣性和感知性。
數據記錄的形式是多樣的、可看的、可聽的、可感知的,如圖形、圖像、視頻、音頻、文字等。
汽車在高速路上的行駛速度為120km/h
二進制:由0,1兩個數碼來表示數據。
練一練(P8 1):
(單選題)1、下列選項中不屬于數據的是 ( )
A、進入商場時用額溫槍測量的體溫
B、教室里電子時鐘顯示的時間
C、春游時手機里拍攝的風景照片
D、記錄旅行日記的筆記本
D
大數據是指無法在可承受的時間范圍內用常規軟件工具進行高效捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。
一、認識大數據
二、大數據的特征
多樣化:即數據類型繁多
都是什么呢?
地理位置信息
網絡日志
你從哪個網頁跳轉來?
你點擊了哪些商品?
商品頁面上停留的時間?
評價關注程度
顏色偏好
品牌偏好
價值密度低
比如視頻,在連續不間斷存儲的監控視頻中,有用的數據可能只有一兩秒。
變化速度快
二、大數據的特征
二、大數據的特征
三、大數據對日常生活的影響
方便支付
方便出行
方便購物與產品推介
三、大數據對日常生活的影響
P64 例1、例2、例3、例4
P67 1、2
P69 16-21
【二、數據的采集】
(一)數據采集的方法與工具
1.系統日志采集法
在信息系統中,系統日志是記錄系統硬件、軟件和系統問題的信息文件。系統日志包括操作系統日志、應用日志和安全日志。
系統日志采集數據的方法通常是在目標主機上安裝一個小程序,將目標主機的文本、應用程序、數據庫等日志信息有選擇地定向推送到日志服務器進行存儲、監控和管理。
        
【二、數據的采集】
(一)數據采集的方法與工具
2.網絡數據采集法:
網絡數據采集:指通過網絡爬蟲或網站公開API(Application Programming Interface, 應用程序接口)等方式從網站上獲取數據信息。
網絡爬蟲的過程
工作過程:
(1)從一個或若干初始網頁的URL(Uniform Resource Locator,統一資源定位符)開始,獲得初始網頁上的URL。
(2)在抓取網頁的過程中,不斷從當前頁面上抽取新的URL放入隊列, 直到滿足系統的一定停止條件。
采集類型:支持圖片、音頻、視頻等文件或附件的采集,附件與正文可以自動關聯。
【二、數據的采集】
(一)數據采集的方法與工具
3.其他數據采集法。
應用領域:企業生產經營或科學研究等保密性要求較高的數據。
使用方法:與企業或研究機構合作,使用特定系統接口等相關方式收集數據
例如:科學研究的數據是通過科學實驗的各種傳感器采集,并傳輸到數據庫管理系統中的。
【二、數據的采集】
(一)數據采集的方法對比
采集方法 數據來源 采集工具 應用范圍(舉例)
系統日志采集法
1.信息系統日志數據
2.信息系統系統數據
系統導出
1.導出上網行為管理系統日志
2.導出上網行為管理系統客戶數據
網絡數據采集法
1.網站存儲的數據
2.網站公開API(應用程序接口)傳輸的數據
1.爬蟲程序
2.系統導出
3.接口程序
1.爬取淘寶網站數據
2.從淘寶網店鋪后臺導出數據
3.獲取微信企業號公開接口數據
其它數據采集法
傳感器
系統接口
傳感器采集數據傳輸到數據庫管理系統
【二、數據的采集】
拓展:Python網絡數據采集程序使用的擴展庫
1.NumPy(NumericalPython)
是構建科學計算最基礎的軟件庫;
2.SciPy
是一個工程和科學軟件庫,包含線性代數、優化、集成和統計的模塊;
3.Pandas
是一個Python包,旨在通過標記(labeled)和關系(relational)數據進行工作;
4.Matplotlib
是Python的一個2D繪圖庫。
Python網絡數據采集程序使用擴展庫時導入模塊的方法:
import module
from module import name
【二、數據的采集】
(二)數據的存儲
1.本地存儲:把數據存在本地內部。(硬盤、磁帶、服務器…)
2.云存儲:把數據放在第三方公共或者私有的“云端”存儲。(百度網盤、騰訊微盤)
【二、數據的采集】
(三)數據的保護
1.數據安全保護技術:殺毒軟件、防火墻、拷貝、備份、復制、鏡像、持續備份,加密…。
2.數據的隱私保護
(1)隱私泄露的途徑
(2)技術手段:
(3)提高自身意識
(4)進行道德和法律約束
數據收集時:精度處理
數據共享時:訪問控制
數據發布時:人工干擾
數據分析時:匿名處理
【二、數據的采集】
(四)數據安全保護技術的使用特點
數據安全保護技術 適用場合 備份介質 備份距離 管理
拷貝/FTP 簡單小數據量備份,個人不定期的文件保護等。 磁盤。 近。 手動執行,占用人力資源。
備份 有歸檔需求的用戶等。 磁帶機、磁帶庫、磁盤。 近,以本地備份為主。 備份軟件對使用者要求較高,需要掌握數據庫、文件系統等綜合知識。
復制技術 企業等。 磁盤。 遠近皆可。 設定策略后無須人工干預,復制與恢復的過程都很簡單。
鏡像技術 企業等。 磁盤。 近,帶寬和距離影響延遲時間和性能,因此多以本地為主 簡單。
持續備份 企業等。 磁盤。 遠近皆可。 連續備份,可以實現過去任意一個時間點的數據恢復。
P68 15
P69 23、33
如何對數據
DATA
數據
分析
處理的對象
運用的工具
分析的方法
分析的目的
初級工具:Excel
高級工具:SPSS、SAS
編程工具R語言、Python、Java語言等
一大批雜亂無章的數據
運用數字化工具和技術
探索數據內在的結構和規律構建數學模型
進行可視化表達,通過驗證將模型轉化為知識
為診斷過去、預測未來發揮作用
DATA ANALYSIS
關聯分析
特征探索
聚類分析
數據分類
數據分析的常用方法
特征探索的主要任務是對數據進行預處理,發現和處理缺失值、異常數據,繪制直方圖,觀察分析數據的分布特征,求最大值、最小值、極差等描述性統計量。
(如果價格為0的,修改為64)
x=0
data["price"][(data["price"]==0)]=None
for i in data.columns:
for j in range(len(data)):
if(data[i].isnull())[j]:
data[i][j]="64"
x+=1
print(x)
商品標題
鏈接
價格
評論數
觀察并運行程序
[1]數據清洗,發現缺失值
總結特征分析的作用
【程序演示】
(橫軸:價格,縱軸:評論數)
data2=data.T
price=data2.values[2]
comt=data2.values[3]
plt.xlabel('price') #顯示X坐標標簽
plt.ylabel('comt') #顯示Y坐標標簽
pyl.plot(price,comt,"o")
pyl.show()
數據分布不均勻
觀察并運行程序
[2]異常值處理:找到異常值、畫散點圖
【程序演示】
x=0
for i in range(0,line):
for j in range(0, col):
if(da[i][3]>65):#評論數大于65
continue
elif(da[i][2]>100):#價格大于100
continue
else:
if(x==0):
newda=da[i]
else:
newda=npy.row_stack((newda,da[i]))
x+=1
da2=newda.T
price=da2[2]
comt=da2[3]
plt.xlabel('price') #顯示X坐標標簽
plt.ylabel('comt') #顯示Y坐標標簽
pyl.plot(price,comt,"o")
pyl.show()
數據均勻分布
缺失數據和異常數據處理完畢
[3]處理異常數據,評論數大于65,價格大于100都處理掉,再重新繪制散點圖
觀察并運行程序
【程序演示】
關聯分析是分析并發現存在于大量數據之間的關聯性或相關性,從而描述一個事物中某些屬性同時出現的規律和模式。
流水號 交易的商品
001 可樂,雞蛋,漢堡
002 可樂,尿布,啤酒
003 可樂,尿布,啤酒,漢堡
004 尿布,啤酒
以下是某超市的交易記錄,請分組討論如何提高超市商品的銷量?
典型例子:購物籃分析
頻率次數統計:
可樂、尿布、啤酒
支持度(兩個商品同時被購買發生的概率):
最大頻繁項集:{尿布,啤酒}
可樂:3/12
雞蛋:1/12
漢堡:2/12
尿布:3/12
啤酒:3/12
{可樂,尿布}:2/4
{可樂,啤酒}:2/4
{尿布,啤酒}:3/4
聚類分析是一種探索性的分析,在分類的過程中,不必事先給出一個分類的標準,從樣本數據出發,自動進行分類
K-平均算法是一種經典的自下而上的聚類分析方法
試把下圖分成幾組
觀看K-平均聚類分析微課,試總結其步驟
觀看微課
總結分類步驟
聚類分析
是一種探索性的分析,在分類的過程中,不必事先給出一個分類的標準,從樣本數據出發,自動進行分類。
K-平均算法:是一種經典的自下而上的聚類分析方法。
K-平均算法的基本思想:在空間N個點中,初始選擇K個點作為中心聚點,然后將N個點分別與K個點計算距離,選擇自己最近的點作為自己的中心點,再不斷更新中心聚焦點,以達到”物以類聚,人以群分”的效果。
數據分類是數據分析處理中最基本的方法。數據分類通常的做法是,基于樣本數據先訓練構建分類函數或者分類模型(分類器),該分類器具有將待分類數據項映射到某一特點類別的功能,實現對未分類的數據分類。
數據分類和回歸分析都可用于預測,預測是指從基于樣本數據記錄,根據分類準則自動給出對未知數據的推廣描述,從而實現對未知數據進行預測。
P116 問題:貝葉斯方法
96
49
56
43
92
36
18
37
72
21
74
87
28
54
61
33
游戲記憶兩組數據
純數字
按從大到小以柱形圖呈現
第一組
第二組
可視化表達
結論:數字可視化表達可以提高數字的記憶效率!
【四、數據的可視化表達】
數據可視化表達是指以圖形、圖像、地圖、動畫等生動、易于理解的方式展示數據和詮釋數據之間的關系、趨勢與規律等,以便更好地理解數據。
優點:把枯燥乏味的海量數據以豐富的視覺效果呈現數據所反映的本質問題,有效提升數據分析的效率。
【四、數據的可視化表達】
(一)定義
【四、數據的可視化表達】
(一)數據可視化表達的方法
1.概念:用圖形、圖像、地圖、動畫等生動、易于理解的方式展現數據和詮釋數據之間的關系、趨勢與規律等,以便更好地理解數據。
2.優點:
快速抓住要點信息
有效提升數據分析的效率。
生動形象的呈現方式便于理解數據。
3.分類
(1)探索類:幫助人們發現數據背后的價值
(2)解釋類:簡單明了地呈現數據
2.數據分析類型及對應的可視化呈現
【四、數據的可視化表達】
(二)數據可視化表達的工具
1.Seaborn:
2.Bokeh:
能實現交互式可視化
獨立于Matplotlib
能通過瀏覽器呈現文檔的風格
Seaborn直方圖程序及結果
Bokeh示例程序及結果
主要關注統計模型的可視化
基于且高度依賴于Matplotlib
【選擇題】
1.從互聯網產生的大數據角度看,其最顯著特征是( )
A.數據價值密度低 B.數據類型繁多
C.數據規模大 D.數據處理速度快
2. 從互聯網產生大數據的角度,大數據具有的特征( )
A.4V特征:大量(Volume)、多樣(Variety)、低價值密度(Value)、高速(Velocity)
B.樣本漸趨于總體,精確讓位于模糊,相關性重于因果
C.分布式存儲,分布式并行計算 D.沒有特征
3.某超市曾經研究銷售數據,發現購買方便面的顧客購買火腿腸、鹵蛋等商品的概率很大,進而調整商品擺放位置。這種數據分析方法是( )
A.聚類分析 B.分類分析 C.關聯分析 D.回歸分析
C
C
A
【選擇題】
4.小智通過網絡問卷收集同學們課外閱讀時間的百分比分布情況,下列可以用于分析調查數據的是( )
A.餅圖 B.折線圖 C .動態熱力圖 D.詞云圖
5.下列關于大數據的特征,說法正確的是(   )。
A.數據價值密度高 B.數據類型少
C.數據基本無變化 D.數據體量巨大
6.網絡數據采集法,主要通過網絡爬蟲或網站公開API的方式獲取,網絡爬蟲從網頁 的( )開始獲取。
A.URL B. WWW C. HTML D. XML
7.電子警察采用拍照的方式來約束車輛的行為,其拍照的過程屬于( )
A.數據分析 B.數據采集 C.數據分類 D.數據可視化表達
A
D
A
B
【判斷題】
8.利用Python采集網絡數據時,導入擴展庫的關鍵字是import。( )
9.從互聯網產生大數據的角度來看,大數據具有的特征是“4V”特征:大量、多樣、高價值密度、低速。( )
10.網絡數據采集法主要通過網絡爬蟲或網站公開API的方式獲取網絡爬蟲,從網頁的URL開始獲取。( )
11.數據采集的基本方法包括系統日志采集、網絡數據采集等方法。( )
A
B
A
A
【判斷題】
12.數據特征探索的主要任務是對數據進行預處理,發現和處理缺失值、異常數據,繪制直方圖,觀察分析數據的分布特征。( )
13.K-平均算法屬于聚類分析方法。( )
14.可以用于分析數據趨勢的可視化呈現類型包括折線圖、分組柱形圖、堆疊柱形圖和柱線混合圖等。( )
15.Seaborn基于且高度依賴于Matplotlib,可實現交互式可視化。( )
A
A
A
B
【知識體系】

展開更多......

收起↑

資源預覽

<pre id="tfb94"><li id="tfb94"></li></pre>

<bdo id="tfb94"><rt id="tfb94"></rt></bdo>
  • <menu id="tfb94"><dl id="tfb94"></dl></menu><i id="tfb94"><acronym id="tfb94"><sub id="tfb94"></sub></acronym></i>

    1. 主站蜘蛛池模板: 澄城县| 清河县| 交口县| 喀喇沁旗| 资源县| 台前县| 贵溪市| 东港市| 鄂尔多斯市| 云阳县| 乐清市| 福海县| 星子县| 大悟县| 遂平县| 东源县| 开阳县| 武乡县| 贞丰县| 改则县| 米林县| 中西区| 阳江市| 新兴县| 芮城县| 边坝县| 峡江县| 类乌齐县| 德令哈市| 新晃| 莱芜市| 安新县| 阿城市| 杨浦区| 上杭县| 新丰县| 启东市| 阿城市| 姚安县| 开封县| 常熟市|