1.分類
分類分析的目標是把壹群人(或事物)分成幾類,或者預測他們屬於每壹類的概率。
舉個栗子:“JD.COM有哪些用戶會在618下單?”這是典型的二元問題:買還是不買。
分類分析(基於歷史信息)會產生壹個模型,預測壹個新的人(或物)會屬於哪個類別,或者屬於某個類別的概率。結果將采取兩種形式:
表格1:JD.COM所有用戶分為兩類,要麽買,要麽不買。
形式二:每個用戶都有壹個“買”或者“不買”的概率(顯然這兩個是等價的)。“購買”的概率越大,我們認為這個用戶下單的可能性就越大。
如果給形態2畫壹條線,比如0.5,大於0.5就買,小於0.5就不買,形態2就轉化為形態1。
返回
回歸任務的目標是根據壹些屬性變量給每個人(或事物)壹個數字(衡量他的素質)。
舉個栗子:每個用戶在618下單JD.COM多少錢?
註意回歸和分類的區別:分類輸出的結果是幾個固定選項中的壹個,而回歸的結果是壹個連續數,可能的值是無限的。
3.使聚集
聚類任務的目標是:給定壹組人(或物),不指定目標,看哪些人(或物)比較接近。
註意聚類和上面分類回歸的本質區別:分類回歸都會有壹個給定的目標(是否下單,是否拖欠貸款,房價等。),而聚類沒有給定的目標。
舉個栗子:給定壹群用戶的購買記錄,有沒有可能把他們分成幾種類型?(零食狂人,電子愛好者,美容專家...)
4.相似性匹配
相似性匹配任務的目標是根據已知數據判斷哪些人(或物)與特定人群(或物)更相似。
舉個栗子:我們知道有壹群用戶在去年雙十壹下單超過1萬元。哪些用戶和他們相似?
5.頻繁集發現
頻繁集發現的目標是找到經常壹起出現的人(或事物)。這就是著名的“啤酒和尿布”的例子。這個例子太容易展開了,我就不再提栗子了。
6.統計(屬性、行為、狀態)描述
統計描述任務的目標最好理解:人(或事物)在什麽狀態下有什麽屬性?
舉個栗子:5月份壹個月內JD.COM每個用戶7天內無條件退貨的次數。
統計描述經常檢測用戶欺詐。假設壹個用戶壹個月回100+次。會是什麽樣子?
7.連接預測
連接預測的目標是預測本應連接(尚未連接)的人(或物)。
舉個栗子:妳可能認識xxx?妳可能想見見xxx?
8.數據壓縮
數據壓縮的目的是減少數據集的大小,增加信息密度。
舉個栗子:豆瓣要分析用戶對國外電影的喜好,國內電影的評分數據全部排除。
大數據並不是數據越多越好。更多的數據會帶來更多的信息,但噪音也會增加。
9.因果分析
顧名思義,因果分析的目標是找出事物之間的關系。
舉個栗子:廣告效果提升的原因是廣告內容好?還是交付給更精準的用戶?
這裏最常用的手段是A/B測試。
數據分析是非常強大的,但當然需要嚴格選擇假設,在具體情況下采用科學的分析方法,才能產生有價值的結果。數據撒謊的經典案例是“安慰劑效應”。