用戶畫像的目的是通過分析用戶行為,給每個用戶貼上標簽,以及標簽的權重。
比如:
標簽:代表內容,用戶所屬或有興趣、偏好、需求等。
權重:它代表指數,用戶的興趣和偏好指數,也可能代表用戶的需求,可以簡單理解為可信度和概率。
建立用戶畫像是為了還原用戶信息,所以數據來源於:所有用戶相關的數據。
對於用戶相關數據的分類,引入了壹個重要的分類思想:封閉分類方法。
比如:
所有子類別將構成整個類別空間集。
這種分類方法有助於不斷枚舉和叠代補充缺失的信息維度。不用擔心架構中沒有完全考慮各層的分類,造成維度的遺漏和擴展性的隱患。此外,根據不同的應用場景和業務需求,可以劃分不同的分類方法。
如何根據用戶行為構造模型輸出標簽和權重?
壹個事件模型包括三個要素:時間、地點和人。每壹個用戶行為本質上都是壹個隨機事件,具體可以描述為:什麽用戶,什麽時間,什麽地點,對什麽對象,他做了什麽。
關鍵在於對用戶的識別,而用戶識別的目的就是對用戶進行區分,並定位於單點。
下面列出了互聯網上用戶識別的主要方法,由易到難。根據企業的用戶粘性不同,可以獲取的識別信息也不同。
時間包括兩個重要信息,時間戳+時間長度。時間戳,為了標識用戶行為的時間點,例如1395121950(精確到秒)。時長,以此來標識用戶在壹個頁面上停留的時間。
用戶接觸點。對於每個用戶接觸點。潛在地包含兩層信息:URL+內容。
網站:每個url鏈接(頁面/屏幕)定位壹個互聯網頁面地址或壹個產品的特定頁面。可以是PC上某電商網站的頁面網址,也可以是手機APP上的內容。例如,壹邊是啟動頁面,另壹邊是主題內容頁面。
內容:每個url鏈接(頁面/屏幕)中的內容。可以是某個內容的相關信息:內容平臺、內容類別、標題、描述等等。
對於每個互聯網接觸點,URL決定權重;內容決定標簽。
註意:聯系點可以是網站地址,也可以是某個APP的特定功能界面。比如同樣壹瓶礦泉水,超市賣1元,火車賣3元,景區賣5元。商品的銷售價值不在於成本,而在於銷售地點。標簽都是礦泉水,只是接觸點不同反映的重量不同。這裏的重量可以理解為用戶對礦泉水的不同需求。也就是他們願意付出的價值不壹樣。
其實上面的用戶接觸點已經說明了壹個對象——內容。我之所以在這裏把對象單獨拿出來,是因為它可能是我們自己創造的。比如專題裏的內容肯定是對象,但是如果專題裏沒有內容,那也是對象,我們給這個對象設置的標簽可能就不壹樣了。如果壹個專題裏只有兩個人,壹男壹女,那麽我們可能會給自己創造的這個對象貼上“情侶”的標簽。
用戶行為類型,對於壹個基於內容的APP來說,有以下幾種典型的行為:瀏覽、點贊、評論、收藏等等。
不同的行為類型對於由接觸點的內容生成的標簽信息具有不同的權重。比如收藏權重為5,瀏覽權重為1。
基於以上分析,用戶畫像的數據模型可以概括為以下公式:
用戶ID+時間+行為類型+接觸點(網址+內容)
用戶在何時何地對壹個對象做了什麽?所以會貼上XX的標簽。
用戶標簽的權重可能會隨著時間的增加而衰減,因此將時間定義為衰減因子r,行為類型和網站決定權重,內容決定標簽,進壹步轉化為公式:
標簽權重=衰減因子×行為權重×位置權重
當然,很多時候標簽本身是有分量的。
比如用戶A昨天在探索頻道瀏覽了“2018: XXX電影必看驚悚片之壹”的主題。
我們給這個內容貼上標簽:恐怖0.6,電影0.8。
時間:因為是昨天的行為,假設衰減因子為:r=0.95。
行為類型:瀏覽行為記錄為權重1。
位置:探索頻道中的0.6(相比之下,我創建的主題中的0.9)
那麽用戶偏好標簽為:電影,權重為0.95*0.6 * 1=0.57,即用戶A:恐怖0.57,電影0.57。最後乘以標簽本身的重量。
以上模型權重的選取只是壹個可供參考的例子,具體權重需要根據業務需求進行兩次建模。這裏強調的是如何從整體的角度建立用戶畫像模型,然後逐步細化模型。
根據上面的介紹,我們知道,如果要為壹個平臺做用戶畫像,首先要做的就是根據自己的業務需求進行建模。
確定每個位置和行為的權重,以及創建的對象的權重。
對象(標簽)、位置(權重)、行為(權重)、時間衰減值等。
這裏需要的是壹些標簽算法來提取文章內容,同時需要考慮標簽在內容中的權重。
實踐是檢驗真理的唯壹標準
想知道自己的數據建模是否合理,標註文章內容的算法的正確性如何?
練吧~
我會把用戶畫像記錄成系列,歡迎前輩們多多指導。