第三章語音信號特征分析

語音合成的質量和語音識別的速度取決於語音信號分析的準確度和精度。例如，使用線性預測分析來合成語音，先決條件是使用線性預測分析來分析語音數據庫。如果線性預測分析得到的語音參數是好的，那麽這個參數得到的語音質量就是好的。例如，如果用帶通濾波器組方法進行語音識別，前提條件是找出語音峰值的幅度、個數、頻率範圍和分布。

語音信號特征的分析可以分為時域、頻域和倒譜域。

時域分析簡單直觀，清晰易懂，物理意義明確。

更有效的分析是圍繞頻域進行的，因為語音中最重要的感知特征都體現在它的功率譜上，它的相位變化只起很小的作用。

常用的頻域分析法包括帶通濾波器組法、傅裏葉變換法和線性預測分析法。頻譜具有明顯的聲學特征，頻域分析得到的特征具有實際的物理意義，如* * *峰參數、基音參數周期等。

倒譜域由對數功率譜的逆傅立葉變換得到，可以有效地分離信道特征和激勵特征，更好地揭示語音信號的本質特征。

語音信號分析可以分為模型分析和非模型分析。模型分析是指對代表語音信號產生的數學模型的特征參數進行分析和提取；* * *峰值模型分析和線性預測都使用這種方法。其他沒有建模分析的方法都屬於非模型分析，包括上面提到的時域分析，頻域分析，同態分析。

“短時分析技術”貫穿於語音信號分析的全過程。在短時間內，特性保持基本不變，相對穩定和準穩定的過程。10~30ms保持相對穩定。

在實際信號中，往往存在壹些超過采樣頻率壹半的低能信號成分。例如，濁音頻率超過4khz的分量至少比峰值低40db，而清音頻率超過8khz的分量下降不明顯，所以語音信號的頻率範圍可以達到10khz以上，但對語音清晰度有明顯影響的部分最高頻率在5.7kHZ左右。

電話系統為8kHZ，時間上的采樣頻率為8-10kHZ，而語音合成或語音識別可以達到更高的質量，采樣頻率壹般為15-20 kHz。

在通用識別系統中，最高采樣率為16kHZ。當采樣率繼續增加時，識別率幾乎沒有增加。

量化:有三種方式，零記憶量化，分組量化，順序量化。

假設語音信號在10~30ms內是平穩的，後續所有的分析都是在這個假設下進行的。

為了得到短時語音信號，要對語音信號加窗，窗函數在語音信號上平滑滑動，將語音信號分成幀。分幅可以是連續的，也可以是重疊的，重疊的部分稱為移幅，壹般與窗長相同。

添加窗口時，不同的窗口會影響語音信號分析的結果。

？窗口的長度在反映語音信號的幅度變化方面起著決定性的作用。如果n特別大，也就是等於幾個基因周期，那麽窗函數就相當於壹個很窄的低通濾波器，而此時信號的短時信息會變化很慢，所以不能完全反映波形變化的細節。如果n特別小，即等於或小於壹個基因周期的數量級，信號的能量會根據信號波形的細微情況被迅速激發出來，但如果n太小，濾波器的通帶會變寬，不能獲得平滑的短時信息，所以要適當選擇窗口的長度。窗口的衰減基本上與窗口的持續時間無關，所以當寬度n改變時，帶寬也會改變。

窗口長度與語音信號的提取周期相關。壹般認為壹個語音幀應該包含1~7個基音周期。但是不同人的基音周期千差萬別，基音周期的持續時間會從高音的20個采樣點左右變化到低音的250個采樣點，這就意味著可能需要n的很多不同值，所以很難選擇n，通常在10kHZ的采樣頻率。

有聲(v)無聲(s)無聲(u)判斷。

實現這些決策的基礎在於不同語音的各種短時參數具有不同的概率密度函數，相鄰的幾幀具有相同的語音特征，不會在S、U、V之間快速變化..

利用短時平均幅度參數m和短時過零率可以得到每個語音輸入的起點和關鍵點。

濁音中短時平均幅度參數的概率密度函數P(M|V)確定了壹個閾值參數M_H，根據M _ H可以確定A_1和A_2這兩個點肯定是語音段，但確切的起始點需要仔細尋找。

所以設置了壹個較低的閾值參數M_L，然後確定B_1和B_2，用短時過零率從這兩點開始搜索。清音的過零率高於清音段，但能量較低。

但研究結果表明，利用短時平均過零率來區分清音和濁音，在某些情況下並不十分可靠。因為清音的強度會比清音高壹點，提高閾值對清音影響不大，但是在沒有背景噪聲的情況下，清音不會越過這個提高的水平，因為清音和清音是可以正確區分的。

因此，采用這種過零率具有抗幹擾能力。

濾波器可以是寬帶帶通濾波器，具有均分、粗略計算語音頻譜的特點，頻率分辨率低，也可以是窄帶濾波器，頻率分辨率高。

現在普遍使用數字濾波器，模擬濾波器如何數字化涉及零點和極點的內容，需要參考DSP的內容。極峰，零谷。

是壹個窗口函數。

理解物理意義的兩種方式

在實際計算中，壹般用離散傅裏葉變換代替連續傅裏葉變換，因此需要對信號進行周期性擴展。(不定期->；連續譜，周期->；離散譜)，則得到功率譜。如果窗口長度為，則長度為。如果延長周期，自相關會出現混疊現象，即該周期的循環相關函數值與壹個周期的線性相關函數值不同，所以得到的功率譜是壹組預樣本。如果想得到所有的值，可以補L個零點，展開成2L信號，做離散傅立葉變換。此時，循環相關相當於當前相關。(後壹句對我來說暫時是天書。)

在窗函數的分析中，我們知道對於任何壹個窗函數都存在旁瓣效應，此時存在諧波效應。

譜圖的時間分辨率和頻率分辨率由所采用的窗函數決定。假設時間是固定的，將信號乘以窗函數相當於將窗函數的頻率響應與信號頻譜在頻域上進行卷積。如果窗函數頻率響應的通帶寬度為，那麽譜圖中頻率分辨率的寬度為。也就是說，卷積的作用會使任何兩個相隔小於間隔頻率的譜峰合並成壹個單壹的峰。對於窗口函數，通帶寬度與窗口長度成反比。如果頻率分辨率很高，窗口長度應該盡可能長。

對於時間分辨率，假設頻率固定，相當於對時間序列進行低通濾波，輸出信號的帶寬為帶寬b，根據采樣定理，信號的所有頻率成分只有在采樣率為時才能反映出來，時間分辨率的寬度為。因此，如果時間分辨率高，窗口長度應該更短。所以時間分辨率和頻率分辨率是矛盾的，這也是短時傅裏葉變換本身固有的缺點。

評論:

1.26新認識:

這類線性主要有短時傅裏葉變換、Gabor變換和小波變換，其中STFT和Gabor變換是加窗傅裏葉變換，使用固定大小的時頻網格。時頻網格僅限於時頻變換中的時間平移和頻率平移，窗函數是固定的，只適合分析帶寬固定的非平穩信號。在實際應用中，希望低頻分析具有高頻分辨率和高頻時間分辨率，窗函數的寬度隨頻率變化而變化。基於小波分析的視頻分析的網格變化除了時間平移外，還包括時間軸和頻率軸尺度的變化。它適用於分析固定比例帶寬的非平穩信號。

這種時頻是由能譜或功率譜演化而來的，其特點是轉化為二次型。雙線性關系可以表示為

其中是能譜，代表帶* * *軛的操作。

點評:好像沒看過。先跳過。。。。。

在信號分析和信號處理中，信號的“時間中心”和“時間寬度”以及“頻率中心”和“頻率寬度”是非常重要的概念，它們分別解釋了信號中心位置在時域和頻域中的傳播。

在這兩個物理量的測量中有壹個重要的約束原理，就是著名的“測不準原理”。它的意義在於信號波形在頻率軸上的展開和在時間軸上的展開不能同時小於某個極限，即如果函數的和構成壹堆傅立葉變換，就不能同時短寬，也就是說，

等號成立的充要條件是它是高斯函數，即可以用柯西-施瓦茨不等式證明。

高斯窗函數的短時傅裏葉變換稱為Gabor變換。

是大於0的固定常數。因為，因此，這說明信號的gabor變換是任意傅裏葉變換在時間附近的局部化(說什麽)，實現了對的精確分解。

Gabor變換是壹種具有最小頻率窗口的短時傅立葉變換。但進壹步的研究表明，這兩種變換都沒有離散正交基，所以沒有像離散傅裏葉變換FFT那樣的快速算法。而且窗函數是固定的，不能隨著被分析信號的成分是高頻還是低頻而變化。於是這時候就有了小波變換，可以自動調整窗長。

小波理論利用多分辨率分析的思想對時頻空間進行非均勻劃分，為非平穩信號的分析提供了新的途徑。

定義:小波是函數空間中滿足以下條件的函數或信號。

其中表示所有非零實數，是的頻域表示形式。叫做小波母函數。對於任意壹對實數，以下形式的函數稱為小波，它是由右小波生成函數生成的連續小波函數，依賴於參數(a，b)，其中a必須是非零實數。

的作用是對基本小波進行伸縮，確定分析的時間位置，即練習中心。在附近有明顯的波動，波動幅度完全取決於標度因子的變化。時間、壹致性、時間、時間的範圍比原小波函數大，小波的波形變短變寬，變化越來越慢。在時間上，在附近波動，小波波形尖而細。

給定壹個平方可積信號，即的小波變換定義為

與傅立葉變換不同，小波變換是二元函數。另外，由於生成函數只會在原點附近明顯偏離橫軸，遠離原點會迅速衰減到0。

假設小波函數和傅裏葉變換都滿足窗函數的要求，它們的窗中心和半徑分別記為和與，可以證明連續小波變換及其傅裏葉變換對於任意參數對都滿足窗函數的要求，它們的窗中心和窗寬分別為

那麽時頻窗口就是壹個可變的矩形，面積為。這個區域只與小波的母函數有關，但它的形狀是用A變換的..

根據線性模型理論，語音信號是由激勵信號和信道響應卷積產生的。展開就是把每個體積的積分分開。反卷積算法有兩種，壹種叫“參數反卷積”，即線性預測分析，另壹種叫“非參數反卷積”，即同態反卷積。語音信號經過同態分析後，會得到語音信號的倒譜參數，同態分析也叫倒譜分析或同態處理。

同態處理是壹種很好的反卷積方法，可以很好地分離語音信號中的激勵信號和信道響應，並且只需要十幾個倒譜系數就可以相當好地描述語音信號的信道特性，因此占據了非常重要的地位。

通常的加性信號可以用線性系統處理，滿足線性疊加原理。那麽很多信號就是乘法信號或者卷積信號組合而成的信號。這種信號不能由線性系統處理，而是由非線性系統處理。然而，分析非線性系統是很困難的。同態語音Sinha是將非線性問題轉化為線性問題。語音信號可以看作是聲門激勵信號和聲道響應的卷積結果，所以下面只討論卷積同態信號的處理。

同態語音信號處理的壹般系統如圖3-23所示，其符號表示卷積組合規則組合的空間，即系統的輸入輸出為卷積信號。同態系統最重要的理論成果之壹是同態系統的理論分解。分解的目的是用兩個特征系統和壹個線性系統代替非線性同態系統。分解情況如下圖所示。

分別對應於聲門激勵信號(激勵和聲道)，特征信號是將卷積信號轉換為加性信號。這時進行z變換，把卷積信號轉換成乘積信號(問題1)，然後得到頻譜，再通過對數運算變成加性信號，但這次是對數頻譜，使用起來不方便。最後，將其轉換回時域信號。

信號在倒譜域進行處理，常用的處理方法是將語音聲源信號從聲道信號中分離出來。在倒譜域，妳總能找到壹個。當時，信道濾波器的倒譜為0，當時，激勵的倒譜接近0。

如果要恢復語音信號，可以用D中所示的逆特性系統來計算。

MFCC (Mel頻率倒譜系數)結合了人耳的聽覺感知特性和語音產生機制，目前廣泛應用於大多數語音識別系統中。

耳蝸的濾波作用是在對數頻率尺度上進行的，在1000Hz以下是線性的，在1000Hz以上是對數的，這使得人耳對低頻比對高頻更敏感。

頻率軸劃分不均勻是MFCC特征區別於以往常見倒譜特征的最重要特征。變換到Mel域後，Mel帶通濾波器組的中心頻率按照Mel尺度均勻排列。在實際應用中，MFCC的計算過程如下。

MFCC有效地利用了聽覺特性，因此它改變了識別系統的性能。如果倒譜位數增加，對識別性能影響不大。然而，使用動態特征，錯誤識別率降低了20%。

點評:2019.01.30:看了三四遍MFCC，即使知道倒譜，按個離散余弦變換也聯系不上。反正我覺得很迷茫，包括分歧。我想被叫回哪個語音信號處理班。做個記號，總有壹天我會明白的。

上一篇:立春習俗和立春節氣習俗有哪些？

下一篇:粵菜是什麽時候創立的？到現在有多少年的歷史了？它的創始人是誰？代表是什麽？還有粵菜有流派嗎？

荊州有哪些著名的歷史人物及其事跡，以及荊州的風味小吃？

辣椒色素的提取和精制工藝是怎樣的？