學號:19021210845
嵌牛導讀?不少同學家裏都有AI智能音箱產品,例如天貓精靈、小愛同學、小度等等。這些智能音箱不僅便捷了我們的日常生活,也因為他們或機智或逗比的回答,給用戶帶來了不少歡樂。
嵌牛鼻子AI智能音箱、語音喚醒
嵌牛提問語音喚醒技術的原理是什麽?
嵌牛正文
“天貓精靈。”“哎,在的,妳說”
“小愛同學,定明天早上8點的鬧鐘。”“好的,已經幫妳定好明天早上8點的鬧鐘”
不少同學家裏都有AI智能音箱產品,例如天貓精靈、小愛同學、小度等等。這些智能音箱不僅便捷了我們的日常生活,也因為他們或機智或逗比的回答,給用戶帶來了不少歡樂。
這些智能產品中的壹項重要的AI能力,就叫做語音喚醒。
首先,設備開啟並自動加載好資源,這時它處於休眠狀態。然後,當用戶說出特定的喚醒詞時,設備就會被喚醒,切換到工作狀態等待用戶接下來的指令。
這壹過程中用戶不需要用手接觸,直接可以用語音進行操作,同時利用語音喚醒的機制,設備不用實時地處於工作的狀態,從而節省能耗。
語音喚醒的應用領域比較廣泛,例如機器人、手機、可穿戴設備、智能家居、車載等。幾乎很多帶有語音功能的設備,都會需要語音喚醒技術作為人和機器互動的壹個開始或入口。不同的產品會有不同的喚醒詞,當用戶需要喚醒設備時需要說出特定的喚醒詞。
定義
語音喚醒在學術上被稱為keyword spotting(簡稱KWS),吳老師給它做了壹個定義:在連續語流中實時檢測出說話人特定片段。
這裏要註意,檢測的“實時性”是壹個關鍵點,語音喚醒的目的就是將設備從休眠狀態激活至運行狀態,所以喚醒詞說出之後,能立刻被檢測出來,用戶的體驗才會更好。
那麽,該怎樣評價語音喚醒的效果呢?通行的指標有四個方面,即喚醒率、誤喚醒、響應時間和功耗水平:
?喚醒率,指用戶交互的成功率,專業術語為召回率,即recall。
?誤喚醒,用戶未進行交互而設備被喚醒的概率,壹般按天計算,如最多壹天壹次。
?響應時間,指從用戶說完喚醒詞後,到設備給出反饋的時間差。
?功耗水平,即喚醒系統的耗電情況。很多智能設備是通過電池供電,需要滿足長時續航,對功耗水平就比較在意。
語音喚醒的技術路線
經過長時間的發展,語音喚醒的技術路線大致可歸納為三代,特點如下:
第壹代:基於模板匹配的KWS
訓練和測試的步驟比較簡單,訓練就是依據註冊語音或者說模板語音進行特征提取,構建模板。測試時,通過特征提取生成特征序列,計算測試的特征序列和模板序列的距離,基於此判斷是否喚醒。
第二代:基於HMM-GMM的KWS
將喚醒任務轉換為兩類的識別任務,識別結果為keyword和non-keyword。
第三代:基於神經網絡的方案
神經網絡方案又可細分為幾類,第壹類是基於HMM的KWS,同第二代喚醒方案不同之處在於,聲學模型建模從GMM轉換為神經網絡模型。 第二類融入神經網絡的模板匹配,采用神經網絡作為特征提取器。第三類是基於端到端的方案,輸入語音,輸出為各喚醒的概率,壹個模型解決。
語音喚醒的難點
語音喚醒的難點,主要是低功耗要求和高效果需求之間的矛盾。
壹方面,目前很多智能設備采用的都是低端芯片,同時采用電池供電,這就要求喚醒所消耗的能源要盡可能的少。
另壹方面,用戶對體驗效果的追求越來越高。目前語音喚醒主要應用於C端,用戶群體廣泛,且要進行大量遠場交互,對喚醒能力提出了很高要求。
要解決兩者之間的矛盾,對於低功耗需求,我們采用模型深度壓縮策略,減少模型大小並保證效果下降幅度可控;而對於高效果需求,壹般是通過模型閉環優化來實現。先提供壹個效果可用的啟動模型,隨著用戶的使用,進行閉環叠代更新,整個過程完成自動化,無需人工參與。
語音喚醒的典型應用
語音喚醒的應用領域十分廣泛,主要是C端產品,比如機器人、音箱、汽車等。比較有代表性的應用模式有如下幾種:
?傳統語音交互:先喚醒設備,等設備反饋後(提示音或亮燈),用戶認為設備被喚醒了,再發出語音控制命令,缺點在於交互時間長。
?One-shot:直接將喚醒詞和工作命令壹同說出,如“叮咚叮咚,我想聽周傑倫的歌”,客戶端會在喚醒後直接啟動識別以及語義理解等服務,縮短交互時間。
?Zero-shot:將常用用戶指定設置為喚醒詞,達到用戶無感知喚醒,例如直接對車機說“導航到科大訊飛”,這裏將壹些高頻前綴的說法設置成喚醒詞。
?多喚醒:主要滿足用戶個性化的需求,給設備起多個名字。
?所見即所說:新型的AIUI交互方式,例如用戶對車機發出“導航到海底撈”指令後,車機上會顯示“之心城海底撈”“銀泰城海底撈”等選項,用戶只需說“之心城”或“銀泰城”即可發出指令。