當妳在網上選購商品時,同類的商品成千上萬,哪些因素會影響妳選購某件商品呢?商品評論壹定是壹個重要的參考吧。壹般我們總會看看歷史銷量高不高,用戶評論好不好,然後再去下單。
過去不久的雙11、雙12網絡購物節中,無數網友在各個電商網站的促銷大旗下開啟了買買買模式。不過,當妳在網上選購商品時,同類的商品成千上萬,哪些因素會影響妳選購某件商品呢?商品評論壹定是壹個重要的參考吧。壹般我們總會看看歷史銷量高不高,用戶評論好不好,然後再去下單。
然而各位壹定也有所耳聞,買的不如賣的精,刷單的、刷評論的始終橫行網上,沒準妳看到的評論就是賣家自己刷出來的。事實上,許多精明的淘寶賣家會在雙十壹等網購高峰期售賣“爆款”,“幹壹票就撤”,這正是虛假評論的溫床。有時我們選購商品,經常會發現許多條看起來十分誇張的評論,如某女鞋的商品評論:
“超級好看的鞋,隨便搭配衣服就覺得自己像女神,又不磨腳,站壹天都不會累。下次還來買,趕快上新款哦!”
“有史以來最滿意的鞋,媽媽看了說是真皮的,賣家態度又很好,發貨超快,誠信賣家,特別滿意的壹次購物!”
連續幾百幾千條“真情實感”的好評這樣刷下來,恐怕會有許多顧客被洗腦:這個商品銷量真高,評論也不錯,那就買這家吧!結果網上的爆款買回家卻變成了廢品。我們買家真是絕對的信息弱勢方,賣家給出的描述真假尚且不知,刷好評又讓人防不勝防。那麽,如何才能識別刷單評論呢?我們在此介紹壹種借助文本挖掘模型的破解之道。
首先要解決數據來源問題,可以從網站上批量下載這些評論,也就是爬蟲。目前有兩種方法,壹種是編程,可以使用python、java等編程語言去編寫爬蟲程序;還有壹種是使用成熟爬蟲軟件,可以利用界面操作來爬蟲。筆者決定使用免費的gooseeker軟件來做,這個軟件是Firefox瀏覽器的插件,避免了很多網站動態渲染不好分析的問題,它借助了瀏覽器的功能,只要在瀏覽器上看到的元素就可以方便地下載。該軟件提供了詳細的教程和用戶社區,可以指導用戶壹步步設置抓取內容、抓取路線、連續動作、同類型網頁的重復抓取,大家可以自行學習使用。
筆者最終抓取了四款同類型的鞋子的評論數據,包括會員名、商品描述、購買日期、購買型號、評論日期、評論文本等,***計5000多條數據。我們特意選取了具有刷單傾向的商品,可以看出,其中許多評論日期連續、會員名相似、買家等級較低;經過人眼識別,刷單評論占比約30%。我們意在使用這些數據去構建刷單評論識別模型,然後可以用這裏得出來的規則去識別其它鞋類商品的刷單評論。
SAS Enterprise Miner 13.2是壹款大家熟知的數據挖掘工具,它可以針對大型數據進行分析,並根據分析結果建立精確的預測和描述模型,因此為我們所選用,不過使用其他軟件也是相同的分析思路。
我們把先前獲取的5000條評論壹分為二,其中70%作為訓練樣本,30%作為驗證樣本。首先,用文本解析將訓練樣本中的評論文本內容拆詞,在拆詞時可以選擇忽略缺乏實際意義的代詞、感嘆詞、介詞、連詞,忽略數字與標點符號。以上拆詞過程相當於把非結構化數據轉成了結構化數據,以前的壹段文本如今可以用若幹列來表示,每列代表壹個詞,如果文本中出現了該詞該列取值為1,否則取值為0。
現在我們還不能直接拿它來建模,通過上圖我們可以發現很多詞只出現在少部分文章中,可以使用文本過濾器節點來去除詞頻很低的詞。
在文本過濾器中可以設置最小文檔數,指定排除小於該文檔出現數目的詞條,同時也要排除像“就”、“這”、“是”、“有”這樣詞頻高卻意義不大的詞。除此之外,還可以進行同義詞處理,我們可以手動添加同義詞,也可以導入外部的同義詞庫。比如,“暖和”與“保暖”是同義詞,“好看”與“漂亮”可以互相替代……
在軟件中還可以查看詞與詞之間的鏈接關系:
接下來,我們可以使用文本規則生成器節點來建模,發現哪些詞組組合與刷單有直接的關系:
我們將訓練樣本中的真實評論設置為0(藍色),刷單虛假好評設置為1(紅色)。上圖中可以看出,提到“暖和”(包括同義詞“保暖”)這樣的詞時,評論極可能是真實的;而寫著“鞋子很時尚哦”“做工精細,還會再買”而沒有提到暖和與否的,則多半是虛假好評。
說到這裏,妳可能會好奇:為什麽“暖和”這樣壹個普通的詞,倒成了真假評論的試金石?
我們不妨回想壹下自己作為普通買家的購物經歷:在收到貨品並試用之後,通常只會簡單描述壹下自己的使用感受,這些感受壹定。而水軍則不然,他們從來沒有真正收到商品,更談不上試穿啦,為了完成業務指標,只好按照賣家提供的商品描述,盡量從質量、物流、服務態度甚至搭配等多方面強調商品本身的特性。從我們所做的案例來講,“暖和”自然屬於親身感受,而“真皮”“做工”之類,恐怕不是普通買家最想反饋的性質。
那麽這個模型的總體效果如何呢?我們可以用累積提升度這個指標來評價:
我們還留下了30%的驗證樣本,現在它們可以現身來驗證成果了。請看上圖中的粉紅色曲線:如果用這個模型去對評論進行打分,按照疑似為虛假評論(“1”)的概率去排名,取前5%的評論時,提升度為3倍;我們已知虛假評論約占總體的30%,也就是說,概率排名前5%的評論中有九成都是刷的,從而證明我們的模型相當精準地捕捉了刷單評論。
最後,我們要為賣家說句公道話:淘寶刷單惡性競爭嚴重,完全不刷好評的店家恐怕不多,不能說有刷評論的店就完全不能下手,90%刷單的商品實在駭人聽聞,10%刷單的店則或許質量尚可接受。這也進壹步說明了我們的模型的作用:判斷商品的刷單比例,比逐條判斷評論是否虛假更加實用。
如今網絡水軍也在持續進化中,寫出的評論越來越真情實感、具有極強的誤導性,單憑肉眼分辨既浪費時間、又易被迷惑;但虛假評論可以推陳出新,我們的模型更可以隨時跟進“學習”。如果將本文中的方法進行推廣,則可以形成壹個捕捉評論——文本解析——建立模型——判斷虛假評論比例的標準過程,這樣的方法無疑相當具有實用性。
end