當前位置:吉日网官网 - 傳統故事 - 語音識別文件的壹些常見聲學特征

語音識別文件的壹些常見聲學特征

*線性預測系數LPC:線性預測分析從人類發聲的機理入手,通過對聲道的短管級聯模型的研究,認為系統的傳遞函數符合全極點數字濾波器的形式,從而可以通過前幾次信號的線性組合來估計n次的信號。可以通過使實際語音樣本值和線性預測樣本值之間的均方誤差達到最小LMS來獲得線性預測系數LPC。LPC的計算方法有自相關法(德賓法)、協方差法、格法等。快速有效的計算確保了這壹聲學特征的廣泛使用。類似LPC預測參數模型的聲學特征有線譜對LSP、反射系數等。

倒譜系數CEP:倒譜系數可以利用同態處理方法,對語音信號進行離散傅裏葉變換DFT後取對數,再進行逆變換iDFT得到。對於LPC倒譜(LPCCEP),在獲得濾波器的線性預測系數後,可以通過壹個遞推公式計算出來。實驗表明,倒譜可以提高特征參數的穩定性。

*梅爾倒譜系數MFCC和感知線性預測PLP:與LPC等通過研究人類發聲機理獲得的聲學特征不同,梅爾倒譜系數MFCC和感知線性預測PLP是從人類聽覺系統的研究成果中衍生出來的聲學特征。對人類聽覺機制的研究表明,當兩個頻率相近的音調同時發出時,人只能聽到壹個音調。臨界帶寬是指這樣壹個帶寬邊界,使人的主觀感受突然發生變化。當兩個音調的頻率差小於臨界帶寬時,人們會把兩個音調聽成壹個,這就是所謂的屏蔽效應。Mel標度是測量這壹臨界帶寬的方法之壹。

MFCC的計算首先通過FFT將時域信號變換到頻域,然後將其對數能量譜與按Mel尺度分布的三角形濾波器組進行卷積,最後對每個濾波器的輸出形成的向量進行離散余弦變換(DCT)得到前n個系數。PLP仍然使用Durbin方法來計算LPC參數,但是它也使用DCT方法來計算自相關參數。

  • 上一篇:中國從哪個朝代開始說普通話?
  • 下一篇:誰有關於傳統相聲《報名》的資料
  • copyright 2024吉日网官网