如何從零開始設計汽車語音軟件的功能

隨著智能硬件在車輛中的普及，越來越多的車輛配備了語音識別功能。目前車載系統中最重要的功能就是車載語音。我接觸車載語音功能很多年了。在這裏，我想和大家分享壹下如何從語音服務集成的角度出發，從零開始設計車載語音功能。歡迎交流討論。

車載市場語音技術解決方案公司主要有:科大訊飛、Nuance、百度、Spirits、雲知聲等。由於騰訊語音服務在車輛領域的推廣範圍和力度都比較小，所以無論是服務還是質量，騰訊語音服務都比市面上的主流解決方案提供商差，未來不排除發力的可能。阿裏的語音服務主要用在AliOS上，目前主要在榮威車型上量產。

語音識別能力——註:在車速低於80 km/h的情況下，密閉空間客車的識別率可保持在95%以上。

語音合成能力——註:TTS播出的高度擬人化體驗是對R&D投資的考驗，各家實際體驗效果差異較大。

方言口語理解——註意:魯棒性高是關鍵，否則語音功能就是雞肋。

語義識別——註:對於線上服務整合，各家的資源服務整合能力基本相同，略有差異。

多輪對話——註:部分廠商支持特定場景下的多輪對話。說實話，目前的體驗不是很好。

市場競爭激烈，至今沒有清晰的商業模式，大家都處於資金投入階段。各個功能在逐漸趨同，也在從單純的技術提供商向技術平臺轉變，通過提供整體解決方案提供商的角色轉變。

蔚來汽車NOMI語音助手

對於開發能力壹般，定制要求不高的車載項目，在接入語音業務時，基本都是使用解決方案提供商提供的集成語音SDK進行二次開發，或者使用服務提供商的APK進行簡單的定制和適配。這樣做的好處是節省了大量的開發成本，保證了核心語音服務模塊的質量。

智能車載:高度集成的系統平臺可以更好地支持語音使用場景，讓語音、系統、車輛三位壹體，產生更好的聯動效果；

智能後視鏡:壹般以後裝形式組裝為主。相比智能汽車，智能後視鏡的系統略輕，側重於把更多的系統資源交給行車記錄功能，語音功能只會負責壹些簡單的任務。

智能HUD:核心資源側重於行車過程中車輛、道路、安全等信息的投射，更註重視覺呈現的質量，語音功能是輔助操作的重要功能；

車載音箱伴侶:無論是車載還是家用音箱，語音服務都是音箱產品的核心功能，而車載音箱更多的是針對車內空間的場景，主要側重於用戶的交互對話體驗和車載生活服務的豐富性。

業務架構圖

這將涉及自建TSP平臺、語音服務商、硬件廠商、互聯網服務商、三方硬件等角色。整個業務架構是以硬件為載體，服務平臺集成的形式，整體打包提供給終端車主和用戶。

車主和用戶語音操作的主要邏輯點是判斷平臺是自建還是三方。需要對數據進行篩選，準備相應的服務資源，執行返回的結果。

如果沒有定制的自建服務資源平臺，可以適當定制業務流程。這個流程圖僅供妳參考。

車載語音主要分為以下幾個功能模塊，不包括定制的語音語義功能，業務部分也做了相應的刪減。

眾所周知，語音啟動主要有兩種方式，界面點擊和語音喚醒。

我們在設計語音喚醒功能點的時候，會在啟動步驟判斷並記錄語音喚醒模式。語音服務啟動後，我們會呈現語音準入狀態的提示信息和反饋。在識別過程中，我們會主要判斷語音錄入是否正常。如果正常，我們會請求後臺，返回相應的識別結果。如果有中斷，我們需要重新啟動語音流。

汽車語音的語義豐富程度直接影響語音功能的直接使用體驗。缺乏支持的語義會讓用戶覺得語音功能過於簡單，無法滿足用戶的場景需求，從而對產品功能失去好感，放棄使用語音功能。如何定義用戶滿意度和語義完整性之間的映射關系，這需要基於對用戶的調查分析和實際工作過程中的經驗總結來得到需求和產品的對應關系。

導航場景

音樂/廣播場景

電話場景

系統控制類

車輛控制等級

定制服務類別

如下圖所示(業務需求已刪減，請勿生搬硬套)，對應場景可進壹步細分。當然還有很多語義場景，針對車載場景的核心功能場景已經覆蓋。更多的場景需要根據車輛的市場客戶需求進行定制。我們可以參考馬斯洛的需求層次理論，根據驅動場景對場景需求進行分類，來指導我們的語義設計策略。

幫助:主要有兩種提示場景。第壹是用語音喚醒主頁(不建議全局顯示語音)，第二是在語音出現故障或等待時給出提示信息，幫助指導用戶正確使用語音功能。

設置:這個會主要設置語音的基本功能，比如常用的喚醒開關，喚醒詞，音源邏輯，語音主題包的更改和設置。

作為與用戶交互過程中的最後壹步，語音播報的功能可以說與用戶息息相關。TTS(Text To Speech)語音播報主要是通過AI技術智能合成文本信息，並中繼給用戶，從而給用戶壹種智能擬人的交互體驗。

目前行業方案中的AI合成語音多是基於錄制的基礎語音素材進行二次加工，本質上離不開基礎語音素材錄制的約束，因此語音包的種類、數量和質量提升緩慢。所以由於TTS功能在產品設計上受限於服務商的綜合能力，所以我們會更加關註如何在產品功能集成上更好的提升語音交互對話的體驗。

人機對話的主要訴求是信息的交流，其次是對話能讓用戶在交互體驗中感受到快樂，最後是在整個對話階段，有良好的引導和避錯策略，能保證在滿足用戶需求時提供更多的賦能，在不能滿足用戶需求時通過迂回策略減少用戶的不良體驗。

就語音功能的整體情況來看，汽車語音產品的整體狀態和性能還不是很成熟，人工智能的應用還處於初級應用階段。如何更好的利用AI技術提升服務質量，如何通過NLP技術提升多輪交互體驗，如何更好的豐富平臺內容資源，都需要更多的資源和大量的時間來逐步完善。

本文介紹了汽車語音軟件的主要功能設計和使用場景分析，主要是幫助妳更好的了解汽車語音。如何讓語音功能更有效地提升用戶體驗和滿意度，需要根據各業務的實際需求和目標用戶群的特點，進行更深入的差異化研究和設計。