CTC方法在語音識別中的基本原理是什麽？

在語音模型的前期訓練中，我們需要對每壹幀的訓練數據進行標記，這基本上是用傳統的HMM和GMM來完成的。然後用標註的數據訓練神經模型。端到端的方案是去掉這部分非神經網絡處理階段，直接使用CTC和RNN對語音模型進行訓練，不需要將訓練數據標註到幀中，不需要借助其他(HMM，GMM)對神經網絡模型進行訓練。在傳統的語音識別模型中，在我們訓練語音模型之前，我們經常需要將文本與語音嚴格對齊。有兩點不好:雖然有壹些成熟的開源比對工具供大家使用，但是隨著深度學習的普及，有人會想，能不能讓我們的網絡自己學習比對方法？於是CTC應運而生。想壹想，為什麽CTC不需要語音和文字對齊？因為CTC允許我們的神經網絡隨時預測標簽，只有壹個要求:輸出序列只要正確就ok ~所以我們不需要嚴格對齊文本和語音，CTC輸出的是整個序列標簽，不需要做壹些後期處理操作。下圖顯示了對壹段音頻使用CTC和文本對齊的示例: