如何評價推薦系統的結果質量

https://www.atatech.org/articles/174568?SPM = ATA . 13261165 . 0 . 0 . 3 db7 edbdyrctr

根據不同的推薦場景，因地制宜選擇合適的評價方法。推薦場景與推薦內容、呈現方式、滿足用戶需求有關。

推薦目的:電影推薦的目的是快速選擇妳想看的電影，需要評分、介紹、海報。用戶停留時間越長，滿意度越低，因為用戶無法選擇；短視頻推薦旨在讓用戶在app內停留足夠長的時間，多樣性和新鮮感更為重要。

推薦電影、短視頻、商品、新聞故事、歌曲、個性化信息流、feed推薦、相關推薦、熱門推薦、眾多推薦場景。

短視頻:用戶粘性、瀏覽時間、曝光度、短視頻制作者生態是關鍵考核因素。

TOP-N推薦:展覽次數有限，結果準確率高。所以前n個推薦結果的CTR(點擊率)是壹個常用指標，計算方法是點擊/曝光。

如果推薦結果有明顯的順序關系，app從上到下的展示需要壹個位置衰減因子，比如NDCG(歸壹化不連續累積增益)MRR(平均遞歸秩)圖(平均平均精度)。

Feed stream:點擊/曝光，即曝光點擊率，常用來衡量推薦質量。PV點擊率(點擊/總PV)和UV點擊率(點擊/總UV)也是feed stream中常用的方法。

電子商務

電商:推薦的核心目的是促成交易。推薦帶來的交易額占總交易額的比例，或者說總交易額占GMV的比例，是最直接的評價指標。

從推薦到激起購物者的興趣再到用戶完成訂單，有壹個很長的操作鏈，所以可以把動作分解，更好的衡量每個環節的效果。比如購物車添加率(推薦引導的購物車數/推薦總曝光數)、商品詳情頁閱讀率(推薦引導的商品詳情頁數/推薦總曝光數)等等。

廣告點擊和曝光:新聞資訊、短視頻、免費小說漫畫閱讀類app，以廣告為主要收入來源，以擴大用戶在app上的停留時間，促進廣告點擊，因此用戶的平均停留時間，推薦引導下的成功閱讀次數等。，作為衡量標準。

離線

線下的數據收集通常很難做到完全詳細和全面(比如很難完整記錄大量用戶的隱性反饋數據，因為性能成本很高)

利用大數據算法競賽，利用靜態測評方法進行計算。

比如在電影和電視劇的推薦中，經常使用用戶-項目-評分矩陣進行離線評價，尤其是在學術界。因為大學和學術界很難接觸真實的線上環境，所以用線下評測來評價算法更方便，這也是學術界的無奈。

在線

可以隨時進行在線評測，缺點是在線環境復雜，會受到其他幹擾因素的影響，不壹定能體現推薦算法的效果；有些指標容易受到攻擊和欺騙，運營活動也會受到幹擾；當流量比過小時，數據抖動較大，abtest的效果不壹定能反映真實效果。

線下評測和線上測試的結果可能截然相反。離線測量結果優秀的算法，上線後可能會石沈大海，看不到任何波瀾。這恰恰證明了選擇正確的評價方法有多麽重要。

如果推薦的內容來自平臺本身，那麽往往只需要專註於平臺關鍵運營指標的最大化和優化，比如達成更多的交易以提高GMV，或者提高讀者留存率，或者提高整個平臺的用戶活躍度。

然而，例如，Tik Tok的內容來自各種發送者，他們依靠平臺推薦來增加曝光率以盈利。所以平臺從自身生態平衡和系統長期健康的角度考慮，應該考慮給長尾UGC或者PGC壹些曝光，避免被頂流占據，同時扶植更多的中小內容創作者，讓生態更加繁榮。這時的評價指標應該包括內容來源的覆蓋率和多樣性。

研究表明，主流推薦算法(如協同過濾)都存在馬太效應，基尼系數用於評價馬太效應的強弱。如果Gini1是從初始用戶行為計算出的物品受歡迎程度的基尼系數，Gini2是從推薦列表計算出的物品受歡迎程度的基尼系數，如果Gini 2 >: Gini1說明推薦算法存在馬太效應。

評價指標壹定不能只盯著點擊率、轉化率等量化指標，因為如果只用這些指標來優化算法，最後的結果就是劣質內容充斥版面，降低整個平臺的格調。

在評價推薦系統時，人們往往會模糊地談到“奇遇”和“新奇”，這往往是在人性思辨方面的探索。

計算這些指標最大的困難是評價指標帶有主觀性，很難直接用線上行為計算。壹般只能通過事後的問卷調查或者用戶對內容的評價、打分、轉發來間接證明。或者以7天或n天的留存率來判斷用戶對整體推薦結果的滿意度。(大觀數據陳)據

基於用戶的整體評價會把推薦算法引向符合大多數人口味的推薦結果，但這背離了千人千面個性化的初衷。我們期待社區裏不同的人通過推薦形成滿意的體驗。少數人的偏好往往淹沒在整體數據中。算法工程師，壹線工作者，往往知道壹個新的推薦算法上線後，整體指標好很多，但妳的領導/客戶可能會來抱怨，他覺得推給他的東西不如以前好。個人和群體往往會有類似的矛盾。壹個推薦算法可能對整體有利，但對另壹群人不利。

最理想的方式是細分人群。比如電商網站中既有對價格敏感的大眾用戶，也有追求品質的高端用戶。在計算指標時，如果分不同的群體來計算，更能體現推薦效果後的具體差異。比如我們期望新用戶快速完成交易並沈澱下來，那麽針對這部分人群的推薦指數、下單率以及第二天或第七天的留存就非常重要。對於高端人群來說，就不壹樣了。更應該重視個體差異和小眾口味。

在同壹個推薦APP或產品中，需要針對不同位置的推薦設置推薦評價指標。在上壹篇文章中提到的不同位置和不同場景中，制定推薦指標的規則可以不同。比如首頁首屏的banner推薦(Top-N推薦)、信息流Feed推薦、內容詳情頁下方的相關推薦(常用的precision-recall或F1-score)都是經過計算的。還有搜索結果——免費頁面、購物車頁面、退出確認頁面等。不同地點壹定要因地制宜選擇合適的評價指標。

每個指標都有其局限性，推薦系統需要平衡很多因素(業務、用戶體驗、技術實現、資金、人力等。).如何平衡好，是壹種哲學。通常可以用幾個因素的加權和作為總體指標。

指標的選擇與主要產品的定位有關。例如，壹個特別強調快速和新鮮內容的應用程序應該更加重視結果的時效性。而壹個強調格調和品位的APP，單次閱讀的時長就更有價值了。強調社群活躍度的平臺，用戶對內容的分享率，互動率在整體指標中更為突出。(大觀數據陳)據

在產品運營的不同階段，不同指標的選擇也應該有所不同。在產品推出初期，可能需要照顧用戶體驗，大力拓展新用戶。當有足夠多的用戶時，他們可能會專註於商業變現(推薦付費視頻，在列表中插入更多廣告等。)，並盡量通過推薦讓產品盡快盈利。如果是電商推薦的，要仔細考慮用戶購買前後的差異，以及標準品和非標準品的差異。購買前可以經常推薦類似的產品，更好的讓用戶比較選擇。當購買動作完成後，尤其是耐用消費品，繼續推薦反而適得其反。

推薦系統的本質是讓每壹個消費者滿意。這些指標只是從不同的角度衡量“滿意”的程度。該摘要下的常見指標包括以下類型:

場景轉化指標:曝光點擊率、PV點擊率、UV點擊率、UV轉化率、購物車率、分享率、收藏率、購買率、人均點擊量、CTR、AUC等。

推薦的內容質量指標:結果多樣性、新穎性、時效性、置信度。信任)等等

內容消費滿意度指數:留存率、停留時長、播出完成率、平均閱讀時長、交易量、參與度、意外收獲等。

同樣的推薦場景，指標不應該太多，因為指標太多不利於最終的優化決策。只要抓住幾個起著每個場景核心作用的推薦指標就可以了。但是不能只有壹個指標，因為太單壹的指標會導致推薦算法的優化誤入歧途。迷信單壹指標表現好不代表產品好，物極必反。雖然過度優化的指標上去了，但用戶體驗往往會降低。

很多推薦評價指標是脆弱的，易受攻擊的，壹些推薦算法如果嚴重依賴各種反饋指標自動優化結果，往往會被惡意利用。所以要靈活運用推薦評價指標，不要完全迷信技術指標。因為指標背後是用戶的人性。把握商業利益和人性的最佳平衡點，是推薦系統開發和推薦效果評估的最高境界。

上一篇:女生單純，思想開放。談談突然明白了，釋然了的女生。

下一篇:守財奴高二語文教案