中文字幕精品无码一区二区,成全视频在线播放观看方法,大伊人青草狠狠久久,亚洲一区影音先锋色资源

1.3使用網絡爬蟲爬取網頁數據 課件(共14張PPT)+教案 電子工業社版(2022)初中信息科技

資源下載
  1. 二一教育資源

1.3使用網絡爬蟲爬取網頁數據 課件(共14張PPT)+教案 電子工業社版(2022)初中信息科技

資源簡介

1.3使用網頁爬蟲爬取網頁數據教學設計
課題 使用網絡爬蟲爬取網頁數據 單元 第一單元 學科 信息科技 年級 七年級下
教材 分析 本課選自《信息科技》(電子工業版)的第一章第三節的內容,教材由“認識網絡爬蟲”、“編程實現網絡爬蟲”、“熟悉網絡爬蟲的‘君子協議’”三部分內容組成。學生通過對本教材的學習深化網頁的相關知識,具備一定的科學精神和科技倫理,提高創新能力,夯實信息社會責任,發揮信息科技課程的獨特育人價值,為數字強國培養優秀接班人和建設者。
教學 目標 信息意識:具有主動探究問題、解決問題的意識。 2、計算思維:知道網絡中信息編碼、傳輸和呈現的原理。 3、數字化學習與創新:根據任務要求,編寫程序實現網絡爬蟲。。 4、信息社會責任:掌握網絡爬蟲的“君子協議”,遵循網絡社會的道德責任和行為準則。
重點 1、了解網絡爬蟲的概念與工作過程; 2、了解網絡爬蟲爬取數據的實質; 3、了解網絡爬蟲的“君子協議”—Robots協議概念。
難點 1、掌握mpython源程序代碼; 2、掌握網絡爬蟲的“君子協議”規定和注意事項。
教學過程
教學環節 教師活動 學生活動 設計意圖
導入新課 圖文并茂的網頁往往更能吸引人,不妨加入一些我國科技領域重大創新成果的圖片來增強網頁的趣味性與可讀性,但是網絡上的信息數據太龐雜,如何快速獲取這些數據呢? 學生聽教師引導生活中的案例,學生討論,回答提問。 通過問題導入,引起情感共鳴,激發學習興趣。
講授新課 活動1:認識網絡爬蟲 1、什么是網絡爬蟲? 一般情況下,我們是通過在網頁上搜索、復制、粘貼來獲取需要的數據,但是如果需要獲取的數據量特別大,這種方式就顯得費時費力。我們可以通過編制網絡爬蟲程序,來實現對數據的自動化采集。網絡爬蟲是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。 網絡爬蟲的工作原理 當你要去某個網站批量下載文章,如果單純用瀏覽器的話,你得尋找對應文章,一個個點擊下載按鈕。 如果這個過程使用爬蟲來處理,那么爬蟲就會代替我們去服務器請求數據,然后爬蟲幫我們去解析數據,按照我們設定好的規則批量下載文章,存儲到特定文件中。 網絡爬蟲爬取數據的實質 網絡爬蟲爬取就是通過程序模擬瀏覽網頁的行為,將HTML代碼進行分析和過濾,實現對圖片、文本等資源的獲取。 百度并思考:網絡爬蟲在生活中有哪些應用? (1)輿情分析與監測。政府和企業通過爬蟲技術自動采集論壇、博客、新聞媒體等網站的數據,利用數據挖掘方法如詞頻統計、文本情感計算、主題識別等來發掘輿情熱點和跟蹤目標話題。 (2)聚合平臺。網絡爬蟲在聚合平臺上也有廣泛應用,例如返利網、慢慢買等。這些平臺使用爬蟲技術采集電商平臺上的商品信息,并在自己的平臺上展示,幫助用戶比較價格和找到更優惠的選項。 (3)出行類軟件。出行類軟件如飛豬、攜程、去哪兒等使用網絡爬蟲技術來不斷訪問交通出行的官方售票網站,刷新余票信息,以便用戶能夠快速找到并購買。(生活中常見) (4)市場調研和商業分析。網絡爬蟲用于抓取特定網站的數據,例如知乎答案、房產買賣信息、招聘網站的職位信息等,用于市場調研和商業分析。 深入思考:搶票軟件的工作原理是什么? 大家正常情況下的網上購票,大家都需要手工操作登陸賬號、選定乘車的車次和日期等步驟后才能進行購票,往往也是等到這一步完成后票就沒有了。而使用搶票軟件等于就是把賬號交給搶票軟件,購票者提供個人信息,上傳至服務器數據庫。一旦檢測到余票就迅速鎖定,用爬蟲程序代替人的手工,自動地完成這一系列操作。 活動2:編程實現網絡爬蟲 編寫程序前,加載網絡爬蟲程序需要的模塊。 (1)在mPython的Python編程界面中單擊上方的“添加庫”,再單擊“PIP安裝”,打開一個對話框,在對話框中輸入擴展庫名稱“requests” 。單擊“安裝”按鈕,若出現“Successfully installed”,就表示requests模塊安裝好了。 (2)在mPython的Python編程界面中單擊上方的“添加庫”,再單擊“PIP安裝”,打開一個對話框,在對話框中輸入擴展庫名稱“lxml”。單擊“安裝”按鈕,若出現“Successfully installed”,就表示lxml模塊安裝好了。 正式開始編寫程序: 1、啟動mpython,單擊mpython窗口左上角的“硬件編程”選擇python,進入python代碼編程界面。 (1)使用requests模塊和lxml模塊加載網絡爬蟲程序。 (2)用requests模塊的get()方法獲取爬蟲需要“爬”的網頁地址,將網頁文本保存在變量txt中,再將網頁文本解析為HTML文檔。 (3)使用HTML的xpath()方法定位爬蟲的位置,并將“爬”到的內容保存在列表變量title 中。 (4) 輸出爬蟲“爬”到的內容。 2、mpython源程序代碼和運行結果。 3、XPath(XML Path Language)是一種小型查詢語言,用于在XML(可擴展標記語言)文檔中查找信息。 4、獲取網頁中指定位置的XPath路徑地址 (1)使用瀏覽器打開網頁,按F12鍵進入開發者模式,查看網頁源代碼; (2)單擊“選取頁面中的元素”按鈕口,選中要抓取的網頁內容,對應的,開發者窗格中會有一段高亮顯示的代碼; (3)將鼠標指針指向高亮代碼部分,并在其上面右擊; (4)打開快捷菜單,執行“復制”→“復制XPath”命令,就可以把選中內容對應的XPath地址復制到操作系統的剪貼板上。 提問:網絡爬蟲這么厲害,使用時有何注意事項? 活動3:熟悉網絡爬蟲的“君子協議” 合理合法運用網絡爬?。?(1)遵守法律法規:確保你的爬取活動符合當地的法律和網絡使用規定。 (2)尊重網站的Robots協議:這個文件通常包含了關于爬蟲可以訪問哪些頁面的指示。 (3)用戶代理(User-Agent):合理設置用戶代理,模擬真實用戶的行為。 (4)控制訪問頻率:設置適當的延遲時間,避免對網站服務器造成過大負擔。 (5)錯誤處理:正確處理網絡請求錯誤和異常。 (6)數據存儲:高效且合理地存儲爬取的數據。 (7)隱私保護:不爬取或發布個人隱私數據。 (8)動態內容處理:對于 JavaScript 動態生成的內容,需要使用相應的工具和方法。 (9)避免反爬機制:有些網站會采用反爬蟲機制,需要相應的策略來應對。 (10)代碼和數據的維護:定期檢查和更新你的爬蟲代碼,以應對網站結構的變化。 網絡爬蟲的Robots規定:網站管理員在網站域名的根目錄下存放一個Robots.txt文本文件,文件里指定該網站的哪些內容可以爬取,哪些內容不可以爬取。使用網絡爬蟲程序采集網站信息前,要先閱讀該網站的這個文件,根據文件的規則來采集網站的數據。 練一練:使用python編程爬取我國科技領域的重大創新成果,豐富“科技創新 自主可控”網頁內容。 學生聆聽教師的講解,初步了解網絡爬蟲的概念及工作原理。 通過教師的講解,以小組合作的方式,開展探討交流,完成任務。 通過教師的講解,以小組合作的方式,開展探討交流,完成任務。 學生熟悉規則,樹立起信息社會責任意識。 建立理論知識,便于后期實踐。 通過探究網絡爬蟲在生活中的應用,建立知識與生活的聯系。 活動時,注意引導學生在編寫前安裝庫,編寫時靈活變通各變量,編寫后觀察輸出內容。注意個別指導。(共14張PPT)
GENERAL TEACHING
1.3使用網頁爬蟲爬取網頁數據
問題導入
圖文并茂的網頁往往更能吸引人,不妨加入一些我國科技領域重大創新成果的圖片來增強網頁的趣味性與可讀性,但是網絡上的信息數據太龐雜,如何快速獲取這些數據呢?
活動1:認識網絡爬蟲
一般情況下,我們是通過在網頁上搜索、復制、粘貼來獲取需要的數據,但是如果需要獲取的數據量特別大,這種方式就顯得費時費力。我們可以通過編制網絡爬蟲程序,來實現對數據的自動化采集。
網絡爬蟲是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。
活動1:認識網絡爬蟲
當你要去某個網站批量下載文章,如果單純使用瀏覽器的話,你得尋找對應文章,一個個點擊下載按鈕。
如果這個過程使用爬蟲來處理,那么爬蟲就會代替我們去服務器請求數據,然后爬蟲幫我們去解析數據,按照我們設定好的規則批量下載文章,存儲到特定文件中。
活動1:認識網絡爬蟲
網絡爬蟲爬取就是通過程序模擬瀏覽網頁的行為,將HTML代碼進行分析和過濾,實現對圖片、文本等資源的獲取。
思考:網絡爬蟲在生活中的應用
應用領域 具體實施
輿情分析與監測。 政府和企業通過爬蟲技術自動采集新聞媒體等網站的數據,利用數據挖掘方法如詞頻統計、主題識別等來發掘輿情熱點和跟蹤目標話題。
聚合平臺。 平臺使用爬蟲技術采集電商平臺上的商品信息,并在自己的平臺上展示,幫助用戶比較價格和找到更優惠選項。
出行類軟件。 如飛豬、攜程、去哪兒等使用網絡爬蟲技術來不斷訪問交通出行的官方售票網站,刷新余票信息,以便用戶能夠快速找到并購買。
深入思考:搶票軟件的工作原理是什么?
大家正常情況下的網上購票,大家都需要手工操作登陸賬號、選定乘車的車次和日期等步驟后才能進行購票,往往也是等到這一步完成后票就沒有了。而使用搶票軟件等于就是把賬號交給搶票軟件,購票者提供個人信息,上傳至服務器數據庫。一旦檢測到余票就迅速鎖定,用爬蟲程序代替人的手工,自動地完成這一系列操作。
活動2:編程實現網絡爬蟲
加載網絡爬蟲需要的模塊:在mPython的Python編程界面中單擊上方的“添加庫”,再單擊“PIP安裝”,打開一個對話框,在對話框中輸入擴展庫名稱“requests” 。單擊“安裝”按鈕,若出現“Successfully installed”,就表示requests模塊安裝好了。同理加載庫“lxml”。
活動2:編程實現網絡爬蟲
啟動mpython,單擊mpython窗口左上角的“硬件編程”選擇python,進入python代碼編程界面。
活動2:編程實現網絡爬蟲
使用requests模塊和lxml模塊加載網絡爬蟲程序。
用requests模塊的get()方法獲取爬蟲需要“爬”的網頁地址,將網頁文本保存在變量txt中,再將網頁文本解析為HTML文檔。
活動2:編程實現網絡爬蟲
使用HTML的xpath()方法定位爬蟲的位置,并將“爬”到的內容保存在列表變量title 中。
輸出爬蟲“爬”到的內容。
活動2:編程實現網絡爬蟲
獲取網頁中指定位置的XPath路徑地址
(1)使用瀏覽器打開網頁,按F12鍵進入開發者模式,查看網頁源代碼;
(2)單擊“選取頁面中的元素”按鈕口,選中要抓取的網頁內容,對應的,開發者窗格中會有一段高亮顯示的代碼;
(3)將鼠標指針指向高亮代碼部分,并在其上面右擊;
(4)打開快捷菜單,執行“復制”→“復制XPath”命令,就可以把選中內容對應的XPath地址復制到操作系統的剪貼板上。
XPath(XML Path Language)是一種小型查詢語言,用于在XML(可擴展標記語言)文檔中查找信息。
網絡爬蟲這么厲害,使用時有何注意事項?
(1)遵守法律法規:確保你的爬取活動符合當地的法律和網絡使用規定。
(2)尊重網站的Robots協議:這個文件通常包含了關于爬蟲可以訪問哪些頁面的指示。
(3)用戶代理(User-Agent):合理設置用戶代理,模擬真實用戶的行為。
(4)控制訪問頻率:設置適當的延遲時間,避免對網站服務器造成過大負擔。
(5)錯誤處理:正確處理網絡請求錯誤和異常。
(6)數據存儲:高效且合理地存儲爬取的數據。
(7)隱私保護:不爬取或發布個人隱私數據。
(8)動態內容處理:對于 JavaScript 動態生成的內容,需要使用相應的工具和方法。
(9)避免反爬機制:有些網站會采用反爬蟲機制,需要相應的策略來應對。
(10)代碼和數據的維護:定期檢查和更新你的爬蟲代碼,以應對網站結構的變化。
Robots協議
網絡爬蟲的Robots規定:網站管理員在網站域名的根目錄下存放一個Robots.txt文本文件,文件里指定該網站的哪些內容可以爬取,哪些內容不可以爬取。使用網絡爬蟲程序采集網站信息前,要先閱讀該網站的這個文件,根據文件的規則來采集網站的數據。
練一練:使用python編程爬取我國科技領域的重大創新成果,豐富“科技創新 自主可控”網頁內容。

展開更多......

收起↑

資源列表

<pre id="tfb94"><li id="tfb94"></li></pre>

<bdo id="tfb94"><rt id="tfb94"></rt></bdo>
  • <menu id="tfb94"><dl id="tfb94"></dl></menu><i id="tfb94"><acronym id="tfb94"><sub id="tfb94"></sub></acronym></i>

    1. 主站蜘蛛池模板: 明星| 资中县| 淄博市| 涿州市| 纳雍县| 衢州市| 台南县| 砀山县| 阜康市| 岚皋县| 托克逊县| 清徐县| 杨浦区| 依兰县| 阜新市| 乐山市| 资兴市| 兰西县| 湾仔区| 兴城市| 桃园市| 三明市| 吴堡县| 长白| 厦门市| 冷水江市| 周至县| 皮山县| 北票市| 庆元县| 广安市| 宝清县| 汾西县| 平凉市| 深泽县| 南江县| 东海县| 大安市| 龙门县| 揭东县| 青铜峡市|