在語音模型的前期訓練中,我們需要對每壹幀的訓練數據進行標記,這基本上是用傳統的HMM和GMM來完成的。然後用標註的數據訓練神經模型。端到端的方案是去掉這部分非神經網絡處理階段,直接使用CTC和RNN對語音模型進行訓練,不需要將訓練數據標註到幀中,不需要借助其他(HMM,GMM)對神經網絡模型進行訓練。在傳統的語音識別模型中,在我們訓練語音模型之前,我們經常需要將文本與語音嚴格對齊。有兩點不好:雖然有壹些成熟的開源比對工具供大家使用,但是隨著深度學習的普及,有人會想,能不能讓我們的網絡自己學習比對方法?於是CTC應運而生。想壹想,為什麽CTC不需要語音和文字對齊?因為CTC允許我們的神經網絡隨時預測標簽,只有壹個要求:輸出序列只要正確就ok ~所以我們不需要嚴格對齊文本和語音,CTC輸出的是整個序列標簽,不需要做壹些後期處理操作。下圖顯示了對壹段音頻使用CTC和文本對齊的示例:
上一篇:西藏的藏傳佛教和印度的佛教有什麽區別?下一篇:課間跑步的口號應該是壹流的口號。