例:那裏有三首歌,最炫民族風,晴天,英雄。阿俊收集了最炫的國風,但說到晴天,英雄總是跳過。B先生,經常單曲最炫民族風,《晴天》就完了,《英雄》就黑了;c君,塗黑了最炫的國風,而晴天和英雄都收藏了;我們都可以看到,A和B口味相近,C和他們差別很大。
那麽問題來了,說A和B差不多。相似度如何,如何量化?我們把三首歌想象成壹個三維空間的三個維度。最耀眼的國風是X軸,晴天是Y軸,英雄是Z軸。對每首歌的喜愛程度就是這個維度裏的坐標。
並量化喜歡程度(例如:單循環=5,分享=4,收藏=3,活躍播放=2,?聽完=1,跳過=-1,停電=-5)。那麽每個人的整體口味就是壹個向量。a君是(3,-1,-1),B君是(5,1,-5),C君是(-5,3,3)。
我們可以用向量夾角的余弦來表示兩個向量之間的相似性。0度角(表示兩者完全相同)的余弦是1,180%角(表示兩者完全相反)的余弦是-1。根據余弦公式,夾角余弦=矢量點積/(矢量長度叉積)=?(x 1x 2+y 1 y2+z 1z 2)/(?跟隨標誌(x1平方+y1平方+z1平方)x?用符號(x2平方+y2平方+z2平方))可以看出,A君和B君的夾角余弦為0.81,A君和C君的夾角余弦為-0.97。