人工智能在電視人機交互中的應用
無論是傳統電視還是智能電視,要解決的問題都是壹樣的,即“如何讓用戶方便地獲取內容”。這裏有兩個關鍵點:“方便”和“內容”。在方便性上,傳統電視和互聯網電視差不多,都是基於遙控器進行人機交互;“內容”是傳統電視和互聯網電視最大的不同點,這個無需贅述。而人工智能技術的長足發展,正在這兩個關鍵點上都大大提升了用戶使用體驗。
關鍵詞:人工智能 人機交互 深度學習
遠場語音NLP自然語言處理ASR語音識別
“人工智能(AI)”的概念1956年就已經出現了,但是受限於當時計算機的運算能力和算法理論,並沒有應用於實際生活,了解的人自然不多。隨著
GPU 能力和深度學習理論的發展,人工智能技術終於從實驗室理論進入到產品化階段,在各個領域開始突飛猛進。互聯網電視就是其中之壹。
在討論電視應用人工智能技術之前,需要厘清壹些基本概念:所謂人工智能是指人造機器表現出來的智能。這種智能可能模擬人的思考,也可能完全異於人,目前階段研究的核心主要還是“像人壹樣自我學習”。機器學習是人工智能的壹個分支,深度學習又是機器學習的壹個分支。完全異於人思考方式的研究,還是個天馬行空的哲學問題。
無論是傳統電視還是互聯網電視,要解決的問題都是壹樣的,即“如何讓用戶方便地獲取內容”。這裏有兩個關鍵點:“方便”和“內容”。在方便這點上,傳統電視和互聯網電視差不多,都是基於遙控器人機交互;“內容”是傳統電視和互聯網電視最大的不同點,這個無需贅述。而人工智能技術的長足發展,在這兩個關鍵點上都大大提升了用戶體驗。
先說方便
由於人工智能技術在自然語言處理(NLP)領域已經能夠達到90%
的意圖識別率,所以直接使用自然語言控制電視獲取內容成為可能。這裏要強調的是“自然語言”,類似“給我來點跟《教父》壹樣水準的歐洲黑幫電影”這樣的語言才是自然語言,而不是某些品牌廠商經常使用的“音量增加百分之二十”這樣的“機器語言”。對自然語言的理解和反饋是衡量壹臺電視機人工智能水平的關鍵指標之壹。
前幾年用語音遙控的電視並不能叫做人工智能電視,最主要的原因就是只能識別固定的指令,而人工智能電視不僅能夠理解自然語言,而且能夠聯機自我學習,舉壹反三理解更多用戶的意圖,越用越準確。
人類在對話過程中,會自動帶著上下文。比如用戶在第壹次對話中問:“有什麽好看的電影”,接下來他可能會問“不要好萊塢的”或者“只看今年的”,這種對話方式都是基於上下文的對話,我們叫做多輪對話。是否支持多輪對話也是衡量壹臺電視人工智能水平的關鍵指標。
除了語義理解,方便性還體現在遠場收聲能力。它可以讓用戶不再需要拿著遙控器“按住說話”,而是在客廳的任意位置呼喚電視和它對話。典型的場景是:“暴風大耳朵,最近有什麽好看的片子推薦?”、“魚香肉絲怎麽做?”、“明早七點提醒我去機場”
圖 1暴風 TV 中以語音喚起的服務
遠場收聲是通過麥克風陣列實現的,麥克風陣列以前壹直是實驗室的研究對象,直到亞馬遜推出
Echo 智能音箱,終於實現了規模產品化。麥克風陣列最少需要兩顆麥克風,目前市面上有 4Mic、6Mic 甚至 8Mic 方案。
陣列可以從背景噪音中感知用戶說話的特殊波形,通過波束成形技術準確地向用戶所在位置的方向定向收聲,忽略其他方向的雜音。廠商會根據設備的特性選擇不同的麥克風陣列,壹般來說電視用的是線性麥克風,智能音箱采用的是環形麥克風
圖 2 麥克風陣列的兩種主要布局
筆者壹直關註亞馬遜
Echo
的發展,在實際體驗過程中發現,純粹的語音交互目前還存在比較大的缺陷,反而是把遠場語音應用於電視後體驗會更好。舉個例子,用戶面對壹個完全沒有顯示的智能音箱,基本上不知道該怎麽說才能操作;而面對有大屏的電視,用戶的緊張感會減輕很多,因為屏幕時時刻刻在提醒用戶當前可以說什麽樣的話來操作電視。谷歌把這種交互方式叫做“視覺反饋”,並把這種反饋交互模式應用於今年十月份剛發布的最新的“Google
Assistant for
Android TV”系統,目前暴風 AI
電視的交互也是類似的模式。與此同時,亞馬遜也意識到這個問題,並很快推出了帶有屏幕的“EchoShow”作為補充。
圖 3 暴風 AI 電視的視覺反饋提示
目前最新的技術已經不僅能夠識別人聲,而且能夠區分不同人的聲紋,實現更加高級的操作,比如購物、支付和個性化推薦。國外的亞馬遜和谷歌,國內的訊飛、若琪都擁有該項技術。自然語言理解能力和遠場語音處理能力最終會讓電視機用戶擺脫遙控器,在人機交互上產生巨大的飛躍,這種飛躍不亞於當年蘋果推出沒有鍵盤只有觸摸屏的
iPhone 手機。
再說內容
除了自然語言理解,人工智能在個性化內容推薦上的應用其實更廣泛。AI
可以從大量用戶對話和用戶行為中抽象整理出用戶的“話外音”,了解用戶的喜好習慣,然後根據這些特征主動推薦用戶可能喜歡的內容給他。有時候,系統會推薦給某個用戶從來沒有接觸過的內容類型,用戶會驚呼“原來這個這麽好看”,他可能自己都沒有意識到這種內容會對自己的胃口。這種智能推薦已經在互聯網產品中大量應用,典型的就是今日頭條。傳統的個性化內容推薦主要是基於標簽體系。首先運營人員要對所有的內容“打標簽”,比如“恐怖”、“熱血”、“二次元”、“都市”等等,工作量極其巨大,而且準確與否完全依賴於運營人員的水平;然後系統再根據用戶行為對用戶進行畫像,抽取標簽進行匹配。這個過程中誕生了各種專業的推薦算法,技術人員隨時調整各項參數優化算法,提高打開率。
基於
AI 的個性化推薦系統和傳統推薦系統有區別也有聯系,區別最大的地方就是標簽體系。AI
推薦系統裏的“標簽”實際上是系統自動從內容和行為日誌等記錄裏自動提取的,不需要運營人員的參與。例如從電影的元數據(主演導演簡介等)裏分詞提取屬性標簽,從用戶的微博、豆瓣評論裏分詞提取用戶的屬性標簽,然後依托
GPU芯片進行大規模的矩陣運算,把高維度的向量數據逐步降維,最後簡化到三維空間,根據三維空間裏的聚集情況給出推薦。原理類似於傳統推薦系統裏的“協同過濾”。簡單講,就是假設壹個人喜歡某個電影,那麽他的好朋友也有可能喜歡那個電影。
“千人千面”的個性化推薦反過來又推進了電視界面的變化。
傳統電視用“節目排播表”概念來編制頻道,用戶愛看不看錯過了就等下次;互聯網電視則完全基於點播模式,海量內容給妳隨便看自己找不到別怪我;基於
AI 的智能電視則是把傳統的“人找內容”變成了“內容找人”,AI
把妳可能喜歡的菜端到妳面前,先嘗後買。“嘗”就是給用戶預覽完整影片中的精彩橋段,用短片引導用戶看長片,降低了用戶的選擇難度節省了用戶的時間。請註意,精彩橋段可不僅僅是電影的宣傳 VCR,如何挑選橋段也是壹門學問,可以另起壹篇了。
更大的可能性
人工智能在電視應用的場景不僅僅是人機交互和影視內容推薦,它可以用來做任何內容服務的推薦。前面講到使用遠場語音改變了電視的人機交互模式,所以電視界面不再受傳統電視的樹狀菜單結構束縛,可以容納更多的內容服務,並且用戶可以直達服務。
具備人工智能特點的電視,典型的使用方法是這樣的:
●“幫我找個八十年代的經典文藝片看看”;
●“隨便放點周傑倫的歌”;
●“再買點上次買過的那種三元牛奶”,“對”,“再買兩盒”;
●“去大鴨梨怎麽走”,“對,就是最近的那家”;
●“半小時後提醒我關火”;
●“晚安(關閉家裏的智能電器設備,並且讓電視機休眠)”。
可以看到,應用人工智能技術的電視機已經大大超越了傳統電視機的使用方法和使用範圍。電視機可以幫用戶挑選內容,挑選服務,幫用戶控制智能家電,提醒用戶備忘,甚至幫用戶下單購買日常用品等等。上述這些不是設想的場景,而是已經成為現實的場景。
電視還是電視,但電視機已經早已不是電視機,它已成為家庭助手的壹個大屏終端。而這個“家庭助手”的大腦,就是人工智能。