2.建立矩陣模型
3.用戶成本的概念和計算
在個性化推薦系統中,當用戶A需要個性化推薦時,可以先找到其他興趣相似的用戶,然後將那些用戶喜歡但用戶A從未聽說過的項目推薦給A..這種方法成為基於用戶的協同過濾算法(User-CF)。
根據問題域中構建的用戶-行為評分矩陣(圖1-1),我們可以構建用戶的向量。首先,每個用戶用壹個向量表示,每個向量中有六個數字,分別代表用戶對六本書的評分。0表示用戶沒有讀過這本書。插圖:
接下來,計算兩個用戶的相似度。這裏用的指標叫余弦相似度,計算公式如下:
其中,分子部分A和B表示兩個向量的點積,計算方法是先將兩個向量的對應元素相乘,再求和,例如:
用戶a=[4 3 0 0 5 0]和用戶b=[5 0 4 0 4 0]
a b=4x5+3x0+0x4+0x0+5x4+0x0=40
代表向量A的分母部分的模長是兩個向量A和b的模長的乘積,向量模長的計算方法是把向量
中的每個元素都被平方,然後求和,最後開根號。
因此,可以如下計算第壹用戶和第二用戶之間的相似度:
余弦相似度的值在[0,1]的閉區間內。值越大越相似,值越小越不相似。根據上述計算公式,分別計算小白與其他五位同事的相似度,然後按降序排列。可以看出,小白與前兩位同事高度相似,但與最後壹位同事完全不同。
比如和小白最相似的兩位同事的閱讀書目是1,3,4,5***4本書。其中,小白讀了兩本書1,5。3、4兩本書哪壹本可能更適合小白的口味?
妳可以計算這兩個同事在這兩本書上的加權分數,並以此作為小白的可能分數。權重是它們之間的相似度。具體計算如下
下面。通過計算可以看出,編號為3的書可能更適合小白的口味。
計算步驟:
1.首先確定第壹個同事擁有的閱讀書目的書號是1,3,5。
2.確定第二個同事擁有的閱讀書目的書號是1,3,4,5。
3.小白看過的書單是1,2,5【這也是穿越的意思,他已經有了,不用推薦給自己了】
最後只剩下編號為3和4的兩本書。
5.公式顯示,0.75和0.63代表權重,即相近值。4、3、5代表用戶對這本書的評分。
1.性能:適用於用戶少的場合。如果用戶太多,計算用戶相似度矩陣的代價會很大。
2.領域:對有效性要求高,但對用戶個性化興趣要求不高。
3.實時性:用戶有新的行為,不需要馬上改變推薦結果。
4.冷啟動:新用戶在幾個物品上動作後,不能馬上個性化,因為用戶相似度是離線計算的?
新的物品上線壹段時間後,壹旦用戶對該物品有所行動,就可以向其他用戶推薦該新物品。