每個人都應該掌握的九種數據分析思維

1.分類

分類分析的目標是把壹群人(或事物)分成幾類，或者預測他們屬於每壹類的概率。

舉個栗子:“JD.COM有哪些用戶會在618下單？”這是典型的二元問題:買還是不買。

分類分析(基於歷史信息)會產生壹個模型，預測壹個新的人(或物)會屬於哪個類別，或者屬於某個類別的概率。結果將采取兩種形式:

表格1:JD.COM所有用戶分為兩類，要麽買，要麽不買。

形式二:每個用戶都有壹個“買”或者“不買”的概率(顯然這兩個是等價的)。“購買”的概率越大，我們認為這個用戶下單的可能性就越大。

如果給形態2畫壹條線，比如0.5，大於0.5就買，小於0.5就不買，形態2就轉化為形態1。

回歸任務的目標是根據壹些屬性變量給每個人(或事物)壹個數字(衡量他的素質)。

舉個栗子:每個用戶在618下單JD.COM多少錢？

註意回歸和分類的區別:分類輸出的結果是幾個固定選項中的壹個，而回歸的結果是壹個連續數，可能的值是無限的。

3.使聚集

聚類任務的目標是:給定壹組人(或物)，不指定目標，看哪些人(或物)比較接近。

註意聚類和上面分類回歸的本質區別:分類回歸都會有壹個給定的目標(是否下單，是否拖欠貸款，房價等。)，而聚類沒有給定的目標。

舉個栗子:給定壹群用戶的購買記錄，有沒有可能把他們分成幾種類型？(零食狂人，電子愛好者，美容專家...)

4.相似性匹配

相似性匹配任務的目標是根據已知數據判斷哪些人(或物)與特定人群(或物)更相似。

舉個栗子:我們知道有壹群用戶在去年雙十壹下單超過1萬元。哪些用戶和他們相似？

5.頻繁集發現

頻繁集發現的目標是找到經常壹起出現的人(或事物)。這就是著名的“啤酒和尿布”的例子。這個例子太容易展開了，我就不再提栗子了。

6.統計(屬性、行為、狀態)描述

統計描述任務的目標最好理解:人(或事物)在什麽狀態下有什麽屬性？

舉個栗子:5月份壹個月內JD.COM每個用戶7天內無條件退貨的次數。

統計描述經常檢測用戶欺詐。假設壹個用戶壹個月回100+次。會是什麽樣子？

7.連接預測

連接預測的目標是預測本應連接(尚未連接)的人(或物)。

舉個栗子:妳可能認識xxx？妳可能想見見xxx？

8.數據壓縮

數據壓縮的目的是減少數據集的大小，增加信息密度。

舉個栗子:豆瓣要分析用戶對國外電影的喜好，國內電影的評分數據全部排除。

大數據並不是數據越多越好。更多的數據會帶來更多的信息，但噪音也會增加。

9.因果分析

顧名思義，因果分析的目標是找出事物之間的關系。

舉個栗子:廣告效果提升的原因是廣告內容好？還是交付給更精準的用戶？

這裏最常用的手段是A/B測試。

數據分析是非常強大的，但當然需要嚴格選擇假設，在具體情況下采用科學的分析方法，才能產生有價值的結果。數據撒謊的經典案例是“安慰劑效應”。