當前位置:吉日网官网 - 油畫收藏 - 每個人都應該掌握的九種數據分析思維

每個人都應該掌握的九種數據分析思維

每個人都應該掌握的九種數據分析思維

1.分類

分類分析的目標是把壹群人(或事物)分成幾類,或者預測他們屬於每壹類的概率。

舉個栗子:“JD.COM有哪些用戶會在618下單?”這是典型的二元問題:買還是不買。

分類分析(基於歷史信息)會產生壹個模型,預測壹個新的人(或物)會屬於哪個類別,或者屬於某個類別的概率。結果將采取兩種形式:

表格1:JD.COM所有用戶分為兩類,要麽買,要麽不買。

形式二:每個用戶都有壹個“買”或者“不買”的概率(顯然這兩個是等價的)。“購買”的概率越大,我們認為這個用戶下單的可能性就越大。

如果給形態2畫壹條線,比如0.5,大於0.5就買,小於0.5就不買,形態2就轉化為形態1。

返回

回歸任務的目標是根據壹些屬性變量給每個人(或事物)壹個數字(衡量他的素質)。

舉個栗子:每個用戶在618下單JD.COM多少錢?

註意回歸和分類的區別:分類輸出的結果是幾個固定選項中的壹個,而回歸的結果是壹個連續數,可能的值是無限的。

3.使聚集

聚類任務的目標是:給定壹組人(或物),不指定目標,看哪些人(或物)比較接近。

註意聚類和上面分類回歸的本質區別:分類回歸都會有壹個給定的目標(是否下單,是否拖欠貸款,房價等。),而聚類沒有給定的目標。

舉個栗子:給定壹群用戶的購買記錄,有沒有可能把他們分成幾種類型?(零食狂人,電子愛好者,美容專家...)

4.相似性匹配

相似性匹配任務的目標是根據已知數據判斷哪些人(或物)與特定人群(或物)更相似。

舉個栗子:我們知道有壹群用戶在去年雙十壹下單超過1萬元。哪些用戶和他們相似?

5.頻繁集發現

頻繁集發現的目標是找到經常壹起出現的人(或事物)。這就是著名的“啤酒和尿布”的例子。這個例子太容易展開了,我就不再提栗子了。

6.統計(屬性、行為、狀態)描述

統計描述任務的目標最好理解:人(或事物)在什麽狀態下有什麽屬性?

舉個栗子:5月份壹個月內JD.COM每個用戶7天內無條件退貨的次數。

統計描述經常檢測用戶欺詐。假設壹個用戶壹個月回100+次。會是什麽樣子?

7.連接預測

連接預測的目標是預測本應連接(尚未連接)的人(或物)。

舉個栗子:妳可能認識xxx?妳可能想見見xxx?

8.數據壓縮

數據壓縮的目的是減少數據集的大小,增加信息密度。

舉個栗子:豆瓣要分析用戶對國外電影的喜好,國內電影的評分數據全部排除。

大數據並不是數據越多越好。更多的數據會帶來更多的信息,但噪音也會增加。

9.因果分析

顧名思義,因果分析的目標是找出事物之間的關系。

舉個栗子:廣告效果提升的原因是廣告內容好?還是交付給更精準的用戶?

這裏最常用的手段是A/B測試。

數據分析是非常強大的,但當然需要嚴格選擇假設,在具體情況下采用科學的分析方法,才能產生有價值的結果。數據撒謊的經典案例是“安慰劑效應”。

  • 上一篇:四合院緊挨著故宮,家具全是金絲楠木。“北京李思”有多土豪?
  • 下一篇:大耳想告訴我們什麽?
  • copyright 2024吉日网官网