基于混合卷積神經網絡模型的音頻場景分類
發布時間:2025-04-01 04:38
音頻信號包含很多信息內容,通過音頻信號處理技術,人們可以更好感知和理解周圍的環境,因此該技術已經被廣泛應用于監控、助聽器設備和智能終端等領域。音頻標簽數據相比于圖像信息數據采集更簡單,占用內存更小,記錄的音頻標簽很容易表達出信息內容。隨著互聯網技術的快速發展,對于音頻場景分類算法的應用研究越來越多。音頻場景分類是通過對音頻標簽信息進行分析,理解音頻語義特證,從而達到識別和理解周圍環境內容的目的。音頻場景分類的系統設計包括特征提取和分類器模型構建兩部分。采用的特征提取方式主要有梅爾聲譜圖和梅爾頻率倒譜系數。在相同卷積神經網絡結構和模型參數下,分別采用這兩種特征進行提取和分類實驗。實驗結果顯示梅爾頻率倒譜系數可以更好展現不同類別音頻信號本質特征的差異,并且每類音頻場景標簽的精確率結果都比梅爾聲譜圖要高。卷積神經網絡通過對音頻信號的圖像特征進行非線性特征映射,通過有效訓練來提高模型的性能。由于單一的卷積神經網絡分類容易產生過擬合等問題,所以需要對系統神經網絡算法進行優化實驗,主要引進了長短時記憶網絡和極度梯度提升算法。考慮到音頻信號具有時序性,在卷積神經網絡提取抽象特征之后引入了長短時記憶網絡...
【文章頁數】:62 頁
【學位級別】:碩士
【部分圖文】:
本文編號:4038931
【文章頁數】:62 頁
【學位級別】:碩士
【部分圖文】:
圖2.1音頻場景分類基本原理
內蒙古科技大學碩士學位論文-9-2音頻場景分類理論基礎本章2.1節主要介紹了音頻場景分類問題的基本流程,主要對音頻信號進行預處理,預處理之后進行特征提取,提取到的特征由神經網絡模型進行訓練和分類。2.2節介紹了音頻預處理的過程,預處理是對音頻信號進行預加重、分幀和加窗操作。2.3....
圖2.2幀長和幀移
內蒙古科技大學碩士學位論文-11-圖2.2幀長和幀移2.2.3加窗通過分幀將音頻信號分成每一幀信號,每一幀信號兩端將丟失一些信息,音頻信息不再根據時間連續音頻信息內容,分幀的操作越多,越容易丟失音頻信息,不能很好的表達音頻特性,通過引入窗函數與幀信號進行相乘,使分幀之后的幀信號內....
圖2.3梅爾聲譜圖提取過程
內蒙古科技大學碩士學位論文-12-就會降低。對于音頻場景分類加窗函數選取漢明窗,采用漢明窗的函數使頻譜來變得光滑,有利于表達音頻的特性。2.3特征提取音頻場景分類系統模型中,特征提取是重要的一步,決定了能不能準確有效的提取出音頻信號的特性。不同的音頻信號提取的特征要有很大的音頻信....
圖3.1CNN網絡結構
內蒙古科技大學碩士學位論文-19-3基于CNN的音頻場景分類本章3.1節主要介紹基于CNN的基本原理與學習過程,對卷積神經網絡結構進行分析。3.2節主要進行Mel聲譜圖和MFCC特征提取,得到城市音頻數據集的特征圖,在相同卷積神經網絡結構和參數下對這兩種特征提取方式進行對比實驗,....
本文編號:4038931
本文鏈接:http://www.malleg.cn/shoufeilunwen/xixikjs/4038931.html
上一篇:基于智能手機的光學相機通信系統設計與實現
下一篇:沒有了
下一篇:沒有了

