當前位置:吉日网官网 - 傳統節日 - 推薦系統論文閱讀(29)-美團:利用歷史交互數據完善對話推薦系統

推薦系統論文閱讀(29)-美團:利用歷史交互數據完善對話推薦系統

論文:

標題:利用歷史交互數據改進會話式推薦系統

地址:https://dl . ACM . org/doi/pdf/10.1145/3340531.3412098。

這是我第壹次就此寫美團發表的論文。本文是壹篇關於NPC和美團合作的CIKM的短文。它研究如何利用歷史交互數據進行對話推薦。

近年來,對話推薦系統已經成為壹個新的實用的研究課題。現有的CRS方法大多只從會話數據中學習有效的用戶偏好表示。然而,本文使用歷史交互數據從壹個新的角度來改進CRS。因此,本文提出了壹種新的預訓練方法,通過預訓練方法整合基於項目的偏好序列(來自歷史交互數據)和基於屬性的偏好序列(來自對話數據)。

隨著電子商務平臺中智能代理的快速發展,通過對話為用戶提供高質量推薦的對話推薦系統成為壹個新的研究課題。壹般來說,CRS由對話模塊和推薦模塊組成。對話模塊側重於通過多輪交互獲取用戶的偏好,推薦模塊側重於如何利用推斷出的偏好信息為用戶推薦合適的商品。

現有的CRS大多是按照“系統需要用戶響應”的模式設計的。在每次對話中,CRS會發出關於用戶偏好的問題,用戶會用個性化的反饋回復系統。通常情況下,系統會根據商品的某些屬性生成壹個系統查詢(比如妳最喜歡的電影類型是什麽),用戶反饋會反映出用戶對這個屬性的具體偏好(比如我喜歡動作片)。主流的方法是構建追蹤模塊,可以從這種多輪對話中推斷出用戶基於屬性的偏好。這樣,推斷出的偏好就可以呈現為壹系列推斷出的屬性(比如電影CRS中的“流派=動作→導演=詹姆斯·卡梅隆”)。有了這個序列,我們就可以用壹些方法來做推薦,比如用知識圖譜來做推薦。

然而,這些現有的CRS研究有兩個主要問題。首先,對話本身的信息非常有限。許多CRS已經進壹步優化,以減少系統和用戶之間的交互次數。因此,在基於屬性的推理偏好中,壹些有用的屬性可能會丟失。其次,僅使用基於屬性的偏好進行推薦可能是不夠的。例如,即使在篩選了幾個屬性之後,候選項集可能仍然很大。

為了解決上面提到的兩個問題,我們需要將基於項目的方法和基於屬性的方法結合起來。其中,基於歷史的項目交互方式反映了用戶的長期興趣,基於會話屬性的方式反映了用戶的當前興趣,即短期興趣,是典型的長期和短期興趣相結合的任務。

答:我之前說過,在CRS系統中,壹個用戶經過幾輪對話,會有壹個物品屬性集合,A就是這個集合。

=?,其中屬於a,是item的屬性,n是屬性序列的長度。

,其中是用戶在對話之前在步驟k交互的項目。

我們進壹步假設每個項ik還與壹組屬性值相關聯,該組屬性值由Aik表示,並且是整個屬性集A的子集..

任務定義:根據CRS模塊,首先采集基於屬性的序列,然後利用點擊序列進行推薦。關於這個任務的定義,深層次的理解應該是這樣的:我們先有了屬性序列,然後主要根據點擊序列進行推薦。屬性序列的建模是子模塊任務,序列推薦是主任務。只要屬性序列被更新,序列推薦任務就可以在屬性序列被更新之後重用這些信息。

本文的基本模型由變壓器構成,輸入部分為嵌入層。這部分除了帶物品id的嵌入矩陣,還有帶屬性的嵌入矩陣,還有壹個P作為輸入,就不說這個了,位置向量。

中間操作就是變壓器、自關註、ffn的過程。這裏不了解transformer結構的可以看論文。

輸出部分是預測候選項I的概率:

其中ei是I的原始嵌入向量,w是映射矩陣,兩個s是通過transformer結構的項和屬性的最後向量。

熟悉bert的人都知道mask語言模型,用mask替換項目序列中的項目,然後預測這些被屏蔽的項目。

其中fik是從項變換器位置k開始的向量,SA是從熟悉結構的Aik位置開始的向量,w是映射矩陣,eik是原始項嵌入。

為了更好地融合基於項目的信息和基於屬性的信息,本文還采用了壹種交替掩碼的方法,用隨機負抽樣的屬性代替Aik。

其中fik是通過trm被替換項的向量,w是映射矩陣,faj是屬性trm的向量,預測概率是aj是否被替換。

在LTR中,如果采用成對的優化方法,負抽樣的技術是至關重要的,正樣本的概率大於負樣本的概率,所以我們需要選擇壹種負抽樣方法來提高我們整個模型的優化。

MIP中的負采樣方法是什麽?IR-GAN和ELECT論文中使用的方法。

第壹階段選擇SASRec作為成對排序模型,這也是本文中用於負樣本的模型。負抽樣方法如下:首先,我們通過成對排序的方式訓練壹個模型作為生成器,得到候選項的概率分布。有了這個概率分布,我們就可以用負抽樣了,因為排名高的項目和真實的非常接近。至於為什麽選擇這個模型,論文中說它在序列推薦任務中表現得特別好,也就是作為壹個排名模型效果很好。請註意,雖然發生器可以像在標準GAN中壹樣更新,但我們只訓練它的參數壹次。根據經驗,我們發現叠代更新帶來的提升是有限的。

整個訓練分為兩個階段,第壹個是預訓練階段,即訓練兩個表征學習模型,第二個是微調階段,學習秩損失:

  • 上一篇:找壹個mc伴奏,大聲喊出來,耶耶耶耶耶那首歌叫什麽名字?
  • 下一篇:支付寶退稅多久到賬?支付寶退稅怎麽退?
  • copyright 2024吉日网官网