那麽,為什麽要討論人機語音交互呢?因為語音交互本身的獨特優勢,我總結為四個優勢。
第壹,語音的輸入效率比較高。
相比傳統的鍵盤輸入和文字輸入,語音輸入的速度和效率比傳統輸入法至少高三倍。這是在百度開放平臺上做的壹個統計。
投入效率高,體現在以下幾個方面:
1,通過語音檢索信息效率更高,尤其是復雜查詢。
在這個同樣輸入法的場景下,通過語音的交互效率會更高。比如我在家看電影,可以直接對著電視說我想看的電視節目或者電影名字。就這種交互而言,直接通過語音下達指令更方便。
2.語音交互可以跨空間,更方便跨空間交互。
跨空間的含義可以簡單理解為遠距離語音交互,壹般稱為遠場語音交互或遠講。遠場是指我的音箱離我設備的麥克風很遠,壹般來說至少是1米,很多時候是3到5米,甚至更遠。
在這種跨空間的場景下,往往無法操作傳統意義上的文字交互。比如在遠離智能音箱(手機)的情況下,無法進行文字交互,那麽在這種場景下,語音交互就顯得更加必要和高效。
3、語音支持組合指令輸出
也就是我們在發出語音命令的時候,可以壹次發出多個命令,然後被機器識別後,分別執行這些命令的意圖。
比如以家裏的場景為例,我想看壹部電影。其實我可以對我的電視說,“周星馳的電影,電影應該是四星以上的,而且都是免費看的。”這樣壹句話有很多層次的意思。
這樣通過語音,我的多級指令就可以用壹句話壹起發出,智能機器會通過分析我指令的含義,依次調用相應的技能來滿足我指令的發出方式。
這些就是語音輸入方式比傳統輸入方式更高效的原因。
第二,解放雙手和眼睛更安全。
其實說到解放雙手,我們馬上就會想到汽車場景。其實對於汽車場景來說,我們在車裏開車的時候,是絕對不可能用手和漢字進行交互的,這是絕對不允許的。在汽車場景中,如果要設置導航、聽音樂、聽廣播,也必須使用語言進行交互。現在很多車上,其實已經內置了車載語音交互的功能。
除了車內場景,還有其他場景,比如醫療場景:醫生在與患者或患者家屬溝通時,可能要同時用手操作各種復雜的醫療設備。這時候如果醫生需要記錄病歷,通過語音的方式來做是比較必要的方式。
第三,使用門檻低。
其實我們每個人都有經歷,我們之間的互動本來就是在語言上的。壹個不會寫字的孩子在成長的過程中,是通過語音與父母和其他朋友互動的,這是我們人類天生就有的壹種互動能力。
特別是對於兒童、壹些老年人、視力障礙的人,他們沒有辦法通過文字進行交互,所以語音交互的方式會給這些人帶來很大的便利。此外,語音交互的學習成本相對較低,其交互方式也更自然,因此其起步成本也相對較低。
第四,可以傳遞更多的聲學信息。
我們知道,壹段言語不僅包含這段言語所承載的內容信息,還包括其他信息,如聲紋信息、身份信息、性別信息(說話人是男是女)、年齡信息、情緒信息(指人們說這段言語時的感受,是生氣、開心還是難過)等等。
所有這些信息都可以用各種技術通過語音信號進行分析。那麽相對於傳統文字的這種幹巴巴的交互方式,語音可以傳達更多的信息。
2.語音交互的三個缺點
這些都是語音交互的優勢。但是對於壹種交互方式,尤其是人機語音交互這種新的交互方式,自然存在壹些弊端。
第壹,接收效率比較低。
在剛才的分析中,我們壹直專註於語音輸入的方式。至於信息的接收,我們從輸出的角度來說。語音的輸出實際上是線性輸出。
妳什麽意思?也就是說,當妳在聽壹個人說壹段話的時候,妳很可能需要等到對方把這句話全部說完,或者大部分說完之後,才能明白對方想說什麽。
文字交互就不壹樣了。我們在看壹段文字的時候,很可能會跳過壹些沒有意義的詞語,直接抓住這段文字的整體意思。可能每個人都會有這樣的經歷吧。在使用微信的時候,比起收到的語音消息,他們更願意看壹些短信。
因為讀完壹篇文章後,我們可以直接快速地掌握文章的中心內容,而我要聽壹篇演講,就必須從頭到尾完整地聽完這篇演講,這樣才能知道對方寫了什麽。所以在這壹點上,我們說語音輸出是線性輸出,對於信息接收方來說效率相對較低。
第二,環境復雜
我們面臨著各種復雜的生活環境,這也是語音信號處理課程應該重點關註的問題。
我們每天都被各種復雜的環境包圍著。這些環境中可能包含各種我們不需要或者不想聽到的聲音。
當這些聲音與我們想聽到的聲音重疊時,就會對我們的交互體驗產生很大的影響,所以復雜的聲學環境是我們在設計人機語音交互系統時必須考慮的問題。
第三,用戶的心理負擔
這也是語音交互設計師最難把握的壹點。因為當用戶實際使用這個人機交互系統的時候,他的很多行為往往是不可預知的。
對於同壹個交互場景,不同的人很可能以不同的方式進行交互。從用戶的心理體驗來說,可能有壹部分人沒有培養出人機語音交互的習慣,也可能有壹部分人不願意通過語音對機器說話,尤其是在相對開放的需要兼顧個人隱私的場景下。
總結
從上面我們可以知道,語音交互本身有它的優點,但也有它的缺點,而缺點只是我們需要重點關註的壹些問題。