資源簡介 (共13張PPT)第17課 Python 的AI 應用人工智能技術簡介人工智能(Artifi cial Intelligence,AI)是讓機器能夠像人類一樣完成智能化任務的技術。1956 年提出,如今發展為計算科學、生物學、心理學、神經科學等眾多學科的一個交叉性的領域。人工智能技術簡介到20 世紀90 年代,人類在和機器下國際象棋的時候首次遭受失敗,人工智能再次走入人們的視線并得到更多的關注,從而逐漸迎來了其春天。自此開始,人工智能科學開始在和人類“斗智”方面取得一項又一項的突破:2011 年,IBM開發的沃森機器人人工智能程序在電視問答節目中戰勝人類。2016 年,AlphaGo戰勝圍棋世界冠軍李世石。2017 年,AlphaGo戰勝中國棋手柯潔。……今天,人工智能技術已經走到我們身邊,融入我們的生活。Python—人工智能的語言Python被人們稱為“膠水語言”,可見其應用范圍和場景之廣。在人工智能領域, Python 編程語言具有如下一些先天的優勢:Python 是開源的,有強大的社區支持,有質量較高而內容豐富的文檔。Python是平臺無關的,在Windows、Linux 和UNIX平臺上都可以使用。這種良好的平臺兼容性,使Python得到了非常普遍的應用。和其他面向對象編程語言相比,Python語法簡單,學習起來更加容易。Python擁有非常豐富的第三方庫。本課選取NLP這個應用方向,通過一個簡單的示例,介紹如何使用Python來實現NLP的中文分詞。jieba 庫jieba就是一個用Python實現的中文分詞模塊,在中文分詞領域頗具知名度,支持簡、繁體中文,其高級用戶還可以加入自定義詞典以提高分詞的準確率。jieba的安裝需要使用pip工具在命令行輸入“pip install jieba”,按下回車鍵后,就可以執行安裝。要確保環境變量Path的之中,添加了“C:\Users\用戶名AppData\Local\Programs\Python\Python37-32\Scripts”,否則會找不到pip命令。分詞jieba庫支持3種分詞模式:精確模式:試圖將語句最精確地切分,不存在冗余數據,適合做文本分析。全模式:將語句中所有可能是詞的詞語都切分出來,速度很快,但是存在冗余數據,不能解決歧義。搜索引擎模式,在精確模式的基礎上,對長詞再次切分,提高召回率,適合用于搜索引擎分詞。可使用jieba.lcut()和jieba.lcut_for_search()方法進行分詞。jieba.lcut()接受 3 個參數:需要分詞的字符串,是否使用全模式(默認值為 False),以及是否使用 HMM 模型(默認值為 True)。jieba.lcut_for_search()接受兩個參數:需要分詞的字符串和是否使用HMM模型。HMM(Hidden Markov Model)模型,又叫作隱馬爾科夫模型,是一種基于概率的統計分析模型。分詞示例:對“江州市長江大橋參加了長江大橋通車儀式”這句話進行分詞。參見程序清單17.1.py對《西游記》進行分詞讀取文件讀取文件的流程是:1.打開文件,得到文件句柄并賦值給一個變量;2.通過句柄對文件進行操作;3.關閉文件。打開文件就要用到open()函數。可以回顧第11課。參見程序清單17.2.py。篩選長度為1 的詞語由于沒有對分詞的結果進行篩選,所以前20個高頻詞語大多是一個字。需要篩選掉長度為1的詞語。參見程序清單17.3.py。去除不需要的詞語輸出的結果中存在著一系列不需要的詞語。人名的詞語對于分析小說劇情和主人公是最有幫助的,還需要進一步優化程序,將不需要的詞語進行過濾。要過濾的詞語放在和程序相同的目錄下的exclude.txt文件中。參見程序清單17.4.py。合并人名輸出的結果中存在同一個人的多個稱呼的詞語。例如,“孫行者”和“孫悟空”,“呆子”和“八戒”等。進一步優化程序,將同一個人名的不同稱呼進行合并。參見程序清單17.5.py。用詞云庫表示詞云是對文本數據中出現頻率較高的“關鍵詞”在視覺上的突出呈現,把關鍵詞的渲染成類似云一樣的彩色圖片。需要安裝wordcloud模塊。還是使用pip工具,在命令行中輸入“pip install wordcloud”,回車后開始安裝。還要pip安裝matplotlib模塊。參見程序清單17.6.py。練習1.請對以下語句進行分詞,并且按照精確模式、全模式和搜索引擎模式輸出結果。盼望著,盼望著,東風來了,春天的腳步近了。一切都像剛睡醒的樣子,欣欣然張開了眼。山朗潤起來了,水漲起來了,太陽的臉紅起來了。2.請對本書配套資源中的文本文件《水滸傳》中的人物進行高頻詞排序,把前20位主要人物的人名及出場次數打印出來,并且用詞云圖表示出來。需要注意以下問題:篩選掉長度為1 的詞語;去除不需要的詞語(這些詞語可以從配套資源“excludes - 水滸傳.txt”獲取);將表示同一個人的不同稱謂合并(例如黑旋風等同于李逵,武二郎和武松都是一個人)。 展開更多...... 收起↑ 資源預覽 縮略圖、資源來源于二一教育資源庫