資源簡介 九年級上冊第三單元我的課外讀物-網絡爬蟲一、教材體系明確任務實現方法爬取網絡信總Python爬蟲提取書籍的名稱同時提取書名和保存信息我的課外讀物法律規定我的課外讀物案例分析處理網絡信息拓展閱讀爬蟲中的法律和滔二、知識點1.分析任務要達到的目標。(用python程序把網頁的信息獲取下來,對信息進行篩選和整理,并且保存下來,再進行簡單的處理,最后得到我們想要的信息。這個過程可以概括為獲取信息、處理信息、保存信息、使用/分析信息等步驟。)2.學會將任務分解成小任務并梳理出方法和步驟。(使用requests模塊獲取信息、使用BeautifulSoup模塊處理信息、保存信息至文件、使用pandas模塊排序)3.學會在Python中使用requests模塊訪問網絡,獲取信息。(編寫代碼、運行代碼、觀察網頁源代碼,找出標簽和關鍵字、定義字符串)4.學會使用BeautifulSoup模塊,對獲取到的信息進行清理。(用BeautifulSoup模塊調用Ixml解析器處理網頁源代碼resTxt,分析出源代碼中的標簽、數據等,并將處理后的結果賦值給變量resStr。.使用BeautifulSoup模塊,提取網頁中書籍的名稱。用class="title"作為關鍵字,通過select函數來取得所有書籍的名稱列表sm)5.了解Html標簽在使用BeautifulSoup模塊時的作用。(使用BeautifulSoup模塊從網頁中獲取到需要的信息,關鍵在于從tml中找到所需信息的“標簽”,通過標簽的值,就可以將需要的信息提取出來)6.學會字符串合并、替換等簡單操作。(使用+號,可以將兩個字符串合并在一起。用+號合并字符串時,兩個字符串之間是沒有間隔的。使用替換命令replace可以將新內容替換原內容)7.掌握在Python中使用open函數保存文件,了解常用編碼方式UTF-8與GBK。(在Python中,我們通常使用open函數來打開、保存、讀取及寫入文件。使用open函數打開文件,要注意打開方式的參數:讀“,”、寫“w”、追加“ā”、讀文件時要求文件已經存在,寫或者追加時,若文件不存在可以自動創建一個新文件。寫入文件時要注意,“w”方式會把原來的內容覆蓋,"a”方式會把新內容加在原文末尾。UTF-8是全球統一的通用編碼,而GBK編碼是中文環境中的一種編碼,并不通用。)8.了解編寫爬蟲程序可能帶來的法律和道德問題。(全國人民代表大會常務委員會在2016年11月7日通過了《中華人民共和國網絡安全法》,2017年6月1日正式實施。法律規定:任何個人和組織不得竊取或者以其他非法方式獲取個人信息,不得非法出售或者非法向他人提供個人信息;爬取數據過程中不應侵犯他人的知識產權。我們在編寫爬蟲程序時,一定要遵守相關道德準則和法律法規。)9.了解并遵守爬蟲道德規范。 展開更多...... 收起↑ 資源預覽 縮略圖、資源來源于二一教育資源庫