隨著互聯網的興起,每天都有大量的內容以視頻的形式產生並上傳到各大平臺。面對海量內容,如何提高這些內容的智能分發效率,是各大平臺面臨的重要課題。
要實現這個目標,第壹步是更好地了解我們的用戶。建立用戶畫像的過程,本質就是給用戶信息貼標簽的過程。通過標簽系統的建設,壹方面數據變得可讀、易懂,方便業務使用;另壹方面,通過標簽類別體系對標簽進行組織和排列,以更適用的組織方式匹配未來不斷變化的業務場景的需求。如何合理的規劃貼標體系對產品的運營有很大的影響,所以貼標是產品策略中特別關鍵的壹環。
二、標簽是什麽?
在不同的場景下,標簽的定義往往是不同的。如果過於糾結或執著於單壹的概念定義,將無法推動實際的業務和工作。我們所有的技術和業務工作都是為了業務目標,應該是實用適用的,而不是純學術的。
壹般來說,我們認為標簽是指“利用原始數據,通過壹定的處理邏輯輸出,能夠被業務直接使用的可讀、可理解、有價值的數據。”
有兩種方式來組織標簽系統:結構化標簽和半結構化/非結構化標簽。
所謂結構化標簽,就是按照壹定的分類來制定層次化的標簽體系,其中上層標簽是下層的父節點,包含人群覆蓋中的關系。壹些以品牌為導向的廣告經常使用這種結構化標簽系統進行受眾導向。需要指出的是,這個系統中的標簽是根據需求方的邏輯制定的,壹些對媒體方意義重大的涉密標簽,比如軍事,由於沒有明確的需求對應關系,不應該出現在標簽系統中。
另壹種整理興趣標簽的方法是根據具體需求設置相應的標簽。所有標簽不能在同壹個分類體系中描述,沒有明確的父子關系。這種半結構化或非結構化的標簽系統往往包含壹組相對精準的標簽,因此主要適用於多種目標,尤其適用於效果目標並存的內容精準投放需求。
選擇結構化興趣標簽系統還是非結構化興趣標簽系統更多的是基於業務場景的決定。當標簽只是投放系統需要的中間變量,並作為CTR預測或其他模塊的變量輸入時,那麽結構化的標簽系統實際上是不必要的,應該完全以效果驅動的方式對標簽進行規劃或挖掘,標簽之間不需要層級關系約束。
還有壹種特殊的標簽形式,關鍵詞。直接根據搜索或瀏覽內容的關鍵詞來劃分人群和投放廣告,往往能達到更精準的效果。關鍵詞這個標簽系統是無層次的,完全無結構的。雖然很好理解,但操作起來並不容易。但由於搜索在互聯網中的重要地位,壹種特殊的選擇和優化關鍵詞的技術已經發展得相當充分,所以這種標簽在實踐中也是常用的。
三、如何構建標簽體系?
1.確定對象
進行標簽構建,首先要知道要標註什麽樣的對象,也就是確定對象。對象是研究對象在客觀世界中的抽象,既包括物理對象,也包括虛擬對象。在企業管理過程中,有許多對象可以抽象。這些對象在不同的業務場景中是交叉關聯的,是企業的重要資產,需要充分描述和理解。
在總結了很多行業、很多標簽體系的經驗後,對象可以分為三類:人、物、關系。這三個對象是不同的。“人”往往具有主動性和智慧,能夠主動參與社會活動,主動發揮推動作用,往往是關系的發送者。“物”往往是被動的,包括原材料、設備、建築物、簡單的工具或功能集,是關系的接受者。當常規意義上的設備有了足夠的人工智能,變成了機器人,就屬於“人”這壹類了。“人”和“物”都是實物,也就是看得見摸得著的物體,而“關系”則屬於壹個虛擬的物體,是兩個物理實體之間聯系的定義。因為關系非常重要,企業在大多數情況下都是在定義、重復、記錄、分析和優化關系,所以需要“關系”這個對象來描述和研究關系。根據動機的不同,關系可以分為事實關系和歸因關系。事實關系可以產生可量化的事實度量,歸屬關系只是壹個歸屬屬性。
通過定義對象的定義和分類,我們可以根據業務的需要確定建立標簽系統的對象。基於內容的對象非常多,不可能為所有對象建立壹個獨立的標簽系統。壹般我們會根據業務流量需求、稿件數量、類別相似度、類別之間的關系進行排序,確定標簽的優先級和必要性。
2.設計框架
壹般來說,互聯網產品需要使用的標簽類別數量非常多。當標簽項目的數量超過壹定數量時,業務人員使用或查找標簽就變得很麻煩,管理標簽也變得很困難。因此,作者借鑒了圖書館管理中的經典方法:大量的圖書需要專門的圖書分類系統對圖書進行編號,並按照編號排列在櫃子中。讀者在查閱圖書時可以通過編號索引快速找到自己需要的圖書,圖書管理員也可以方便有效地對所有圖書進行整理。
構建標簽類別系統,首先要確定根目錄。根目錄就是上面說的對象,所以有三種根目錄:人、物、關系。根目錄和根壹樣,直接決定了是什麽樹。
如果根目錄是壹個人,也就是這個標簽類別系統是壹個人的標簽類別系統,每個根目錄都有壹個標識列來唯壹標識特定的對象。人的範疇包括兩個子根:自然人和公司法人。同時,自然人團體或公司法人也可以被認為是人的對象範疇內的次根。自然人的例子可以是消費者、雇員、特許經營者等。,於是可以形成消費者、員工、加盟商的標簽品類體系。同樣,法人也可以細分為實體公司、營銷公司、運輸公司等等。從最大的“人”根,到“自然人/法人/自然人集團/法人集團”的子根,再到例子“用戶/員工/加盟商”,都屬於根目錄的範疇。
同理,事物也可以細分為物品、對象、物品集合、對象集合等子類,根也可以在每個子類下細分。關系還可以細分為“關系記錄”和“關系集”。
標簽分類系統是采用分類系統對業務所需的標簽進行設計、分配和分類。類別系統本身就是對某壹類目標進行分類組織,分類通常用壹級類別、二級類別、三級類別作為分類名稱。
範疇結構可以比作樹形結構,從根上長出的壹級分支稱為壹級範疇;從第壹個分支長出的第二個分支稱為第二類;從第二個分支長出的第三個分支稱為第三類。通用類別結構可以設置為三級分層結構。沒有下壹個分類的類別叫做葉類,掛在葉類上的具體葉就是標簽。
需要註意的是,類目框架的構建壹般是基於業務的,因為類目體系的核心意義是幫助用戶快速找到和管理數據/標簽。
下圖是某銀行構建的客戶標簽類別體系,其中客戶是根目錄,將由custom_id唯壹標識,根目錄下有基本特征、資產特征、行為特征、偏好特征、價值特征、風險特征、營銷特征等壹級類別。第壹類基本特征分為兩類:身份證信息、人口統計信息、地址信息和職業信息。第二類地址信息進壹步細分為三類:賬單地址、家庭地址、工作地址、手機地址。“賬單地址”三級類目下,有“詳細賬單地址”、“賬單地址郵編”、“賬單地址所在省份”等標簽。
標簽品類設計完成後,整個標簽系統的框架就有了。接下來要做的就是給每個葉子類別填充有商業價值,可以加工的標簽,然後完成整個標簽系統的設計。
填寫內容
通過標簽類別設計,已經有了某個對象的標簽體系框架,但是還沒有具體的標簽內容。標簽設計就是設計壹個合適的標簽,並將其掛載到標簽類別中。在這壹部分,筆者將嘗試脫離技術角度,從產品角度分析如何“做標簽”。
第壹,如何拆解內容。內容的拆解首先分為用戶、內容、關系三個部分,作為根目錄。接下來關於“人”的部分,我們可以分為:人口屬性、興趣屬性、行為偏好、發表時間等。同樣,關於內容,我們可以分為“統計類”、“質量類”、“向量類”。然後,我們拆分二級類目,比如統計類目包括點擊率、時長、播出完成率、評論好評和跳出率。
需要特別註意的是,通常的給別人貼標簽、貼標簽的動作,其實並不是設計標簽,而是設計特征值。比如對某人的定義是“女,20-30歲,白領,活潑開朗”,這些都是性別、年齡、職業、性格標簽的具體特征值。
這些特征在某種程度上會交叉,賦予這個特征更多的意義。比如將用戶畫像與內容畫像交叉,可以得到用戶的長短期興趣匹配、會話興趣泛化匹配、用戶對某些內容類別的年齡偏好、用戶對某些內容類別的性別偏好等等。如果把用戶的特征和請求的上下文交叉,就會得到用戶住在哪裏,用戶的興趣隨時間的變化。比如有的用戶早上會看新聞,晚上會看壹些娛樂資訊。還有壹些場景,比如用戶喜歡在地鐵上看視頻,但是喜歡在工作時看圖文。通過這些特征值的組合,盡可能高效地劃分用戶群,從而實現內容的精準分發。
現在,我們知道如何構建標簽體系,如何通過標簽體系劃分用戶群體,但要做好標簽,不僅要從需求上解構技術,更要立足於“好內容”。在這壹部分,作者將通過操作&;創作者視角簡單分析如何做好“好標簽”。
想做壹個能打動人的標簽,首先要了解用戶,切中用戶痛點。
怎樣才能理解用戶?壹種方法是轉換角色,設身處地,把自己當成壹個用戶,做壹個什麽都不懂的“小白用戶”,從這個角度看問題,想問題。
舉個例子,妳作為壹個UP主,接到了壹個推銷“降噪耳機”的營銷訂單。妳的任務是讓用戶下單,完成內容的價值轉化。想壹想,這個故事該怎麽設計?
以下是參考文案:妳是壹家銀行的經理,維護客戶關系非常困難,妳守不住崗位。妳有房貸和車貸,月供五千塊妳孩子數學成績不好。妳妻子在市人民醫院當護士。她媽媽尿毒癥,透析多年。她不愛妳。妳年輕的時候,以為可以成就壹番事業,現在就是這樣,妳的朋友都比妳處得好。生活如此糟糕,妳需要壹個獨立的環境來表達妳的情緒。這個時候,妳戴上降噪耳機。
這是典型的“用戶視角”,描述的是壹個場景。它讓妳在觀看的同時產生強烈的代入感,不由自主地被內容所感染,產生情緒波動。在情緒的驅動下,可以完成訂單,實現價值轉化。
除了以上基於內容體驗的標註方式,還有壹種方式,就是我們之前提到的“特征值”。基於算法生成的高精度內容標簽壹般基於視頻幀、標題、作者、內容屬性、地理屬性、時間等。算法生成的這些內容標簽可以替代人工標註,從而節省人力成本,提高內容標簽的生產效率。目前內容標簽技術的準確率已經達到90%以上,部分標簽值是通過算法分析內容自動生成的。
例如,在上面的視頻中,生成的標簽值可能是中國的鄉村狗、農村地區、百萬次廣播、狗、華農兄弟、可愛的寵物和動物。
經過對象確定、框架設計、類別設計、標簽設計、標註等幾個步驟,我們完成了整個標簽系統的構建。文章比較簡單,應該作為指引。
第四,壹些問題
在標簽系統落地的過程中,我們會遇到很多問題,下面的問題也是筆者壹直在思考的。有什麽好的建議可以加作者微信交流:shmusk
內容的時效性:任何內容,包括視頻或圖文,都有生命周期,內容有長有短。預測壹個內容的生命周期是非常困難的,無論是通過算法還是其他技術;假設我們已經知道了內容的生命周期,那麽如何在有效的周期內給內容有效的曝光也是壹個難題。如何平衡這兩個問題,時效性很重要,因為內容過了生命周期再推薦給用戶是沒有意義的,用戶體驗會很差。
內容質量的判定:如何判定壹個內容質量的好壞,好的標準是什麽,如何建模,如果可以建模,有哪些特征,如何有效利用特征來判定我們的模型?
冷啟動問題:分為內容冷啟動和用戶冷啟動。內容冷啟動是指壹個新的內容進入平臺,沒有分發;用戶冷啟動是新用戶,交互數據和行為非常稀疏。如何做出更好的推薦,引導後續更密集的交互,增加粘性,從而提升用戶體驗,更好的滿足用戶需求?