資源簡介 (共49張PPT)第三單元 第2課語音識別的實現——體驗語音特征提取、訓練識別全過程(清華大學版)六年級上1核心素養目標3新知講解5拓展延伸7板書設計2新知導入4課堂練習6課堂總結課后作業801核心素養目標信息意識計算思維數字化學習與創新信息社會責任理解并尊重同學的隱私,學會安全地收集和處理敏感數據(如語音),避免不當分享。利用語音識別了解人、機器識別語音的過程,學會演示一語音自訓練平臺。學習人類分辨聲音的過程,其可以概括為采集與分頻大腦進行識記、新語音的匹配與識別、輸出結果。能夠了解人識別語音的過程和機器識別語音的過程,了解語音特征提取,訓練語音識別模型,新語音的匹配與識別和輸出結果。02新知導入機器實現智能的過程從某種角度上可以看成是模擬人類智能的過程,要想機器實現語音識別,不妨先從“人如何分辨聲音”來一探究竟。這節課就讓我們依照人聽到并分辨聲音的過程,來理解機器是如何識別聲音的!02新知導入02新知導入思考同學們,請思考一下,你們認為機器是靠什么聽到聲音并能分辨出人們說的是什么話呢 和同學們討論交流一下。02新知導入機器能夠聽到聲音并分辨出人們說的話,主要依賴于以下幾個技術和步驟:麥克風:機器通過麥克風捕捉聲音波。這些麥克風可以將聲波轉換為電信號。信號處理:捕捉到的聲音信號會經過數字信號處理(DSP),包括去噪、增強和特征提取等步驟,以提高聲音的清晰度和可辨識度。02新知導入3. 特征提取:機器會從處理后的信號中提取特征這些特征能夠有效地表示聲音的特性。4. 語音識別算法:使用機器學習和深度學習算法(如神經網絡),機器可以將提取的特征與已知的語言模型進行比對,從而識別出說話的內容。常見的模型包括循環神經網絡(RNN)、長短期記憶網絡(LSTM)和變換器(Transformer)等。02新知導入5. 語言模型:機器還會利用語言模型來理解上下文和語法,從而提高識別的準確性。例如,基于統計的方法或深度學習的方法可以幫助機器預測下一個可能出現的詞。6. 輸出:最后,機器將識別出的文本輸出,可能還會進行進一步的處理,如語義理解或對話生成。02新知導入03新知講解一、人識別語音的過程人類智慧相當復雜,僅靠一種感覺器官往往無法實現,通常需要信息的感知器官、信息的處理中樞等相互配合才能實現智能。人們聽到聲音的過程也是如此。03新知講解耳朵與大腦的協同作用“風聲雨聲讀書聲,聲聲人耳。”當外界有物體發出聲音時,人耳進行聲音的采集,耳蝸會將不同聲音的頻率區分開,轉化為大腦可以理解的神經信號再傳遞到大腦進行分析和存儲,這時人才聽到聲音。當再次聽到類似的聲音時,人就能分辨出來。03新知講解耳朵與大腦的協同作用所以人類的聽覺系統并不僅指耳朵,還包括能夠記住和分辨聲音的大腦等。整體而言,人類分辨聲音的過程可以概括為采集與分頻、大腦進行識記、新語音的匹配與識別、輸出結果,如圖3.2.1所示。03新知講解耳朵與大腦的協同作用圖3.2.1 人類分辨聲音的過程03新知講解課堂活動想一想:人類的聽覺系統哪一部分是不可或缺的?對于聽力缺失的人來說,怎樣才能“聽到”聲音?03課堂練習人類的聽覺系統中,耳朵的結構是不可或缺的,尤其是內耳的耳蝸。耳蝸內的毛細胞負責將聲波轉化為神經信號,并通過聽神經傳遞到大腦,從而使我們能夠感知聲音。對于聽力缺失的人來說,有幾種方法可以幫助他們“聽到”聲音:助聽器:助聽器是一種放大聲音的設備,可以幫助聽力受損的人更好地聽到周圍的聲音。人工耳蝸:對于重度聽力損失的人,人工耳蝸是一種植入式設備,可以直接刺激聽神經,繞過受損的耳蝸,從而使人能夠感知聲音。03課堂練習3. 視覺輔助:一些人可能會使用手語或唇讀等方式來“聽到”聲音的內容,通過視覺信息來理解交流。4. 振動設備:一些設備可以將聲音轉化為振動,通過身體的觸覺感知聲音,例如音樂振動器。這些方法可以幫助聽力缺失的人更好地與外界交流和感知聲音。03新知講解二、機器識別語音的過程類比人類識別語音的過程,可以把機器識別語音的過程概括為語音特征提取、訓練語音識別模型、新語音的匹配與識別、輸出結果,如圖 3.2.2 所示。圖 3.2.2機器識別語音的過程03新知講解當人們說話時,機器會用自身的傳感器采集語音,之后將語音轉化為計算機能夠處理的數據串。人們發出的每個字的語音幾乎都不相同,機器需要將描述每個語音特點的特征參數提取出來,如圖3.2.3 所示。語音特征提取圖3.2.3 機器提取語音特征參數03新知講解機器將每個語音的特征提取出來以后會形成語音數據集。訓練語音識別模型的過程就好比機器將這些語音進行分類記憶的過程,先把有相同特點的語音歸為一類,并將這些相同語音的特征參數總結歸納為一個算法公式即模型,再準備一些相同語音的特征參數輸入模型中不斷優化模型,像這種根據語音特征參數進行訓練的模型稱為聲學模型,將語音識別需要的文字進行訓練的模型稱為語言模型,如圖 3.2.4 所示。訓練語音識別模型03新知講解圖3.2.4 訓練聲學模型和語言模型訓練語音識別模型03新知講解得益于移動互聯網的迅速發展,人工智能使用的大量數據都來自網絡和大型互聯網平臺,它們為人們提供了優良的數據和算法來支持人工智能的應用。訓練語音識別模型03新知講解課堂活動請同學們結合上節課的語音識別體驗活動,說一說網絡對于人工智能的作用,并想一想如果不用互聯網,實現語音識別需要什么樣的條件。03課堂練習網絡對于人工智能的作用非常重要,尤其是在語音識別領域。首先,互聯網提供了大量的數據支持,語音識別系統需要通過海量的語音數據進行訓練,以提高其識別準確率。通過網絡,開發者可以獲取不同口音、語速和環境下的語音樣本,從而使系統更加智能和靈活。其次,互聯網使得實時更新和迭代成為可能。語音識別技術需要不斷學習和適應新的語言習慣和用詞,借助網絡,系統可以快速獲取最新的語言數據和用戶反饋,進行優化和改進。03課堂練習此外,云計算的出現也為語音識別提供了強大的計算能力。許多語音識別服務依賴于云端的強大服務器進行數據處理和分析,這樣可以減輕終端設備的負擔,提高識別效率。如果沒有互聯網,實現語音識別將面臨一些挑戰。首先,需要在本地存儲大量的語音數據和模型,這對存儲空間和計算能力要求較高。其次,缺乏實時更新的能力,系統可能無法適應新的語言變化和用戶需求,導致識別效果下降。此外,語音識別的訓練和優化過程將變得更加復雜,需要更多的時間和資源來進行本地計算和調整。03新知講解有效的語音數據越多,模型優化得就越好,識別的準確率就越高。訓練好聲學模型和語言模型后,就可以使用語音識別技術了。人們發出語音后,機器將收集到的語音特征參數先輸入聲學模型中,匹配得到概率最高的音,再結合語言模型匹配得到概率最高的文本,新語音使用模型識別的過程如圖 3.2.5 所示。新語音的匹配與識別圖3.2.5 新語音使用模型識別的過程03新知講解語音識別最終輸出的結果是文字或指令,它得到的并不是確定的識別結果,而是出現概率最高的字詞或指令,所以在干擾因素小的環境下結合優秀的算法模型,語音識別的準確率會更高。輸出結果圖3.2.5 新語音使用模型識別的過程04課堂練習演示一語音自訓練平臺1.登錄某AI平臺;2.選擇語音自訓練平臺,如圖3.2.6所示;3.播放語音模型訓練的視頻介紹;4.描述語音識別模型訓練的過程。實踐圖3.2.6 某語音自訓練平臺03課堂練習1.登錄某AI平臺;03課堂練習2.選擇語音自訓練平臺,如圖3.2.6所示;03課堂練習3.播放語音模型訓練的視頻介紹;03課堂練習4.描述語音識別模型訓練的過程。答:語音識別模型的訓練過程通常包括以下幾個主要步驟:1. 數據收集:收集大量的語音數據,這些數據可以來自不同的說話者、口音、環境噪聲等,以確保模型的泛化能力。數據通常包括音頻文件和對應的文本轉錄。2. 數據預處理:對音頻數據進行處理,包括去噪、歸一化、分幀等;將音頻信號轉換為特征表示,常用的特征包括梅爾頻率倒譜系數(MFCC)、梅爾譜(Mel-spectrogram)等。03課堂練習3. 數據標注:確保音頻數據的文本轉錄準確無誤,可能需要人工校對。對于某些任務,可能還需要進行音素標注或其他類型的標注。4. 模型選擇:選擇合適的模型架構,常見的有循環神經網絡(RNN)、長短期記憶網絡(LSTM)、卷積神經網絡(CNN)以及近年來流行的變換器(Transformer)模型。03課堂練習5. 模型訓練:使用標注好的數據集對模型進行訓練,通常采用監督學習的方法。訓練過程中,模型會通過反向傳播算法不斷調整參數,以最小化預測結果與真實標簽之間的損失。6. 驗證與調優:在訓練過程中,使用驗證集監控模型的性能,防止過擬合。 根據驗證結果調整超參數,如學習率、批量大小等。03課堂練習7. 測試與評估:使用獨立的測試集評估模型的性能,常用的評估指標包括字錯誤率(WER)、句子錯誤率(SER)等。分析模型在不同條件下的表現,如不同口音、噪聲環境等。8. 部署與優化:將訓練好的模型部署到實際應用中,可能需要進行進一步的優化以提高實時性和準確性。根據用戶反饋和新數據進行持續的模型更新和再訓練。03課堂練習9. 持續學習:隨著新數據的不斷產生,定期更新和再訓練模型,以提高其適應性和準確性。通過以上步驟,可以訓練出一個有效的語音識別模型,能夠在多種環境和條件下進行準確的語音識別。05拓展延伸無聲語音識別技術是不是跟特工一樣,不用聽取語音,通過識別唇形就能辨別說的是什么 你知道嗎 許多科技公司正在爭奪無聲語音識別的專利權,你能猜出是怎么實現的嗎 05拓展延伸無聲語音識別技術在什么樣的場景下需要用到這樣的技術呢 之前的確有過嘗試,但識別率都不高。常見無聲的語音識別技術有兩種,一種是在終端上添加傳感器,通過感知用戶說話時的氣流來判斷用戶說話的內容;另一種通過對面部肌肉信號的采集,來學習人類說話時面部肌肉信號的特征,并通過神經網絡的訓練將面部肌肉信號和文字對應起來。05拓展延伸無聲語音識別技術在聲音無法傳播的地方,或者是在一些特別嘈雜的地方如災害現場、艙外探索、水下作業等會用到。05拓展延伸明天天氣怎么樣 ”“我想聽周杰倫的歌”,諸如這樣的指令每天有幾億次發生,哪怕是牙牙學語的孩子也可以和智能音箱進行流暢的對話。但在50年前,就職于貝爾實驗室的約翰·皮爾斯卻在一封公開信中為語音識別下了“死亡診斷書”:就像是把水轉化為汽油、從海里提取金子、徹底治療癌癥,讓機器識別語音幾乎是不可能實現的事情。彼時距離首個能夠處理合成語音的機器出現已經過去30年的時間,距離發明出能夠聽懂從0到9語音數字的機器也過去了17個年頭。這兩項創造性的發明均出自貝爾實驗室,但語音識別技術的緩慢進展,幾乎消磨掉了所有人的耐心。05拓展延伸在20世紀的大部分時間里,語音識別技術就像一場不知方向的長征,時間刻度被拉長到了10年之久:20世紀60年代,時間規整機制、動態時間規整和音素動態跟蹤三個關鍵技術奠定了語音識別發展的基礎;20世紀70年代,語音識別進入了快速發展的階段,模式識別思想、動態規劃算法、線性預測編碼等開始應用;20紀80年代,語音識別開始從孤立詞識別系統向大詞匯量連續語音識別系統發展,基于GMM-HMM的框架成為語音識別系統的主導框架;05拓展延伸20紀90年代,出現了很多產品化的語音識別系統,比如IBM的Via-vioce系統、微軟的Whisper系統、英國劍橋大學的HTK系統;但在進入21世紀后,語音識別系統的錯誤率依然很高,再次陷到漫長的瓶頸期。直到2006年Hiton提出用深度置信網絡初始化神經網絡,使得訓練深層的神經網絡變得容易,從而掀起了深度學習的浪潮。06單元總結活動日志 班級:XX 姓名:XX任務名稱 語音識別的實現——體驗語音特征提取、訓練識別全過程任務環節 1口 2口 3口 4口(在對應環節畫V)任務完成內容 實現語音識別技術任務完成度 口口口口口口口口口(100%)任務小結 問題與反思:項目做得不完善改進的方法:多練習或者詢問老師和同學訣竅07課堂總結1引入新知內容語音識別的實現——體驗語音特征提取、訓練識別全過程2學習人類分辨聲音的過程3學會演示一語音自訓練平臺4完成課題練習5進行相關知識拓展1234508板書設計語音識別的實現——體驗語音特征提取、訓練識別全過程1.進行新知引入2.學習人類分辨聲音的過程3.學會演示一語音自訓練平臺4.完成課堂練習5.進行知識拓展09課后作業01在本節課完成后,想一想,當你依照人聽到并分辨聲音的過程時,你是如何理解機器是如何識別聲音的?09課后作業02請同學們在小組內討論一下,你在演示一語音自訓練平臺時,有遇到那些困難呢?https://www.21cnjy.com/recruitment/home/fine 展開更多...... 收起↑ 資源列表 【清華大學出版社】《信息科技》六年級上冊第三單元第2課《語音識別的實現——體驗語音特征提取、訓練、識別全過程》.pptx 新知導入.mp4 縮略圖、資源來源于二一教育資源庫