經常在文章中看到,做數據分析離不開統計學知識,它為我們的數據分析提供理論基礎,然而很多數據分析師在學習統計學知識時感到頭疼,看了很多統計學的書籍,裏面講了很多復雜的數學公式和推導,讓人記不住也難理解。
其實,市面上大部分的書籍都是面向高校教育的統計學書籍,專業性較強,對於數據分析師來說,我們並不需要掌握那麽細。
因此,本文我就為大家列羅列了數據分析中需要掌握的統計學知識,讓大家了解統計學有哪幾大塊,每壹類分別用於什麽樣的分析場景,由於文章篇幅原因,僅為大家梳理知識點,具體的知識點講解不詳細展開。
概率與概率分布
稍微關註過統計學的人,可能會這麽壹個疑問。為什麽大學裏會有這樣兩門課,《概率論與數理統計》,《統計學》,它們有什麽區別?
我的理解,《概率論與數理統計》更專業壹些,偏理工科,會有大量公式的推導,知其然,知其所以然;而統計學這本書更基礎,側重於概念現象的解釋,壹般會直接給出結論,而不要求掌握結論的數理推導過程,文理科皆可用。
但不管是哪門課程,前期都是先講概率和概率分布。概率論是統計學的基礎,而隨機事件的概率是概率論研究的基本內容。
統計學不研究統計,它研究的是不確定性。我們的世界是壹個充滿不確定性的環境,整個世界並非嚴格按照某個制定好的路線運行的。多數事物之間也並非有因必有果,萬物之間充滿了不可控的隨機事件,我們不會因為今天努力了明天就壹定會成功。
不確定性事件唯壹的規律就是概率,獨立隨機事件我們沒辦法預測或控制它在某個時刻壹定會發生,但卻可以用概率來描述它發生的可能性。以概率論作為理論基礎,為我們提供了認識不確定世界的方法。
這壹章節,需要大家掌握幾個核心概念:
隨機事件
概率
概率分布
數字特征
用圖表演示數據
今年疫情期間,待在家裏除了陪伴家人以外,每天討論最多、關註最高的事件莫過於疫情的新動態,這些動態的展現形式大家有沒有註意到,各種專業、好看、直觀的圖表和數據圖,讓數據呈現得壹目了然。
工作中,壹名數據分析師拿到了數據後,第壹步要做的是數據初步探索,這也叫數據的預處理,這個時候,更多的就是利用各種圖表探索數據。圖表的好處是它可以很直觀的看到數據的分布以及趨勢,更有效的觀察數據。
這壹章節,需要大家掌握幾個核心概念:
數據類型
統計表
統計圖
數據的概括性度量
利用上面所講的圖表展示,我們可以對數據分布的形狀和特征有壹個大致的了解,但要全面把握數據分布就要反映數據分布特征的代表值。通常包含分布的集中趨勢、分布的離散程度、分布的形狀。
數據分析中,最常見的場景,就是妳手上拿到壹組,壹批或者壹坨數據。不懂統計學的人,可能會不知所措,或者說,妳不做些加工和處理,妳不知道這些數據有啥用。這個時候,就需要通過這些概括性的度量指標,來幫我們從宏觀上把握數據中的初步信息。
這壹章節,需要大家掌握幾個核心概念:
眾數/平均數
方差/標準差
偏度/峰度
統計量及其抽樣分布
抽樣好懂,抽樣分布不好懂。
抽樣,就是從研究的總體中抽取壹部分個體作為我們真正的研究對象,可以簡單把樣本理解為總體的壹個子集,通過樣本的結果來推測總體情況。比如我們想知道中國成年男性的平均身高,理論上最準確的辦法是調查中國所有成年男性的身高,然後計算平均數。
很顯然,沒人這樣做。實際的做法總是抽取壹部分人,然後計算這部分人的平均身高,由這個平均身高來大致估計總體的平均身高。
理解了抽樣,再來理解抽樣分布。抽樣分布說的是對誰的分布?答案是樣本統計量,比如樣本均數或者樣本比例。以樣本均數為例,壹般說樣本均數的抽樣分布如何如何,這裏,樣本均數被當成了壹個隨機變量來看待。
我們最希望大家記住的要點:樣本均數是壹個隨機變量,但對於初學者,這確實是比較反直覺的。
為何樣本均數可以被當做壹個隨機變量?因為樣本均數是依賴樣本計算得出的:每抽取壹組樣本都可以計算出壹個樣本均數,而且這些樣本均數或多或少都會有些差異。
由此,樣本均數會隨著抽樣的不同而隨機變動。只是現實生活中我們壹般只抽取壹組樣本,計算壹個樣本均數,因此,會覺得樣本均數不變。
這壹章節,需要大家掌握幾個核心概念:
統計量
抽樣
抽樣分布
參數估計
當初大學裏,學數理統計的時候,到了這塊就感覺越來越難了,學習的過程中可以說就是囫圇吞棗,似懂非懂。但現在,經過漫長的實踐過程,對統計學的知識有了更深壹步的理解。
統計推斷,說白了,就兩件事。第壹個,參數估計。第二個,各類假設檢驗。學習到這裏,假如妳是做數據挖掘,機器學習的,妳就會強烈意識到,數據挖掘和統計學之間是存在千絲萬縷的聯系。
參數估計,顧名思義就是對參數進行估計,那什麽是參數呢?就是妳假設分布的參數就是說妳認為或者知道某個隨機過程服從什麽分布,但是不確定他的參數是什麽,那怎麽辦?妳采樣、采很多樣本(實際值),通過這些樣本的值去估計分布的參數就是參數估計。
這壹章節,需要大家掌握幾個核心概念:
參數
點估計
區間估計
假設檢驗
上面講到,統計推斷就需要明白兩件事,壹件是參數估計,另外壹件是假設檢驗。
假設檢驗是什麽?說白了,假設檢驗就是先對總體猜壹個參數值,然後利用樣本的數據檢驗這個參數值準不準。
互聯網生產實踐中的ABTEST方法,就經常會應用到假設檢驗的思想。
舉壹個簡單的例子:
學而思網校App進行了改版叠代,現在有以下兩個版本
版本1:首頁為壹屏課程列表
版本2:首頁為信息流
如果我們想區分兩個版本,哪個版本用戶更喜歡,轉化率會更高。我們就需要對總體(全部用戶)進行評估,但是並不是全部存量用戶都會訪問App,並且每天還會新增很多用戶。
所以我們無法對總體(全部用戶)進行評估,我們只能從總體的用戶中隨機抽取樣本(訪問App)的用戶進行分析,用樣本數據表現情況來充當總體數據表現情況,以此來評估哪個版本轉化率更高。
這壹章節,需要大家掌握幾個核心概念:
假設檢驗
P值
回歸分析
大學裏學習統計學的時候,最喜歡學回歸分析,也是學的最明白的壹部分。因為它的易懂性,也因為它的實用性。但隨著自己數據分析經驗的積累,對回歸分析的理解也越來越深,它不是簡單的回歸模型求解那麽簡單,它更是壹種日常工作中解決問題的思路和方法論。
數據挖掘中使用的各種高深的模型,任何模型都可理解成回歸模型,包含因變量Y和自變量X,求解參數。
在我看來,回歸分析由兩部分組成:業務分析和技術分析。其中,業務分析屬於“道”的層面,而技術分析屬於“術”的層面。從“道”的層面來看,回歸分析是業務分析,其分析的不是數據,而是業務,是業務中的不確定性。
通過業務分析,獲得對業務不確定性的理解,進而將抽象的不確定性業務問題轉換成壹個具體的數據可分析問題。
什麽是數據可分析問題?壹個業務問題,只要有清晰定義的因變量Y(不管是看得見的,還是看不見的)和清晰定義的自變量X,這就是壹個數據可分析問題。
壹旦把業務問題規範成壹個具體的數據可分析問題(有清晰定義的Y和X),那麽接下來就是技術分析,屬於回歸分析“術”的層面。在這個層面,人們關心對於壹個既定的Y和X,要研究其中的不確定性,應該選擇什麽樣的模型設定。
線性模型還是非線性模型,壹元模型還是多元模型,簡單的決策樹還是隨機森林,普通的神經網絡還是深度學習。模型設定確定下來後,還需思考應該用什麽方法估計,如何調優,等等。
以上是對回歸分析的壹種廣義上的理解,狹義上理解回歸分析,需要理解以下幾個核心概念:
相關系數
回歸分析
最小二乘法
顯著性檢驗
多重***線性
擬合優度
當然,統計學的知識還包含很多,比如方差分析,時間序列分析,統計指數等等,這些知識在特定的應用場合,也有著廣泛的應用,只是相比以上的知識點,應用範圍更小點。
比如,目前市面上很流行的帆軟公司的軟件——FineBI,功能算是前沿的,可做BI報表,內置了10+行業解決方案和幾十種可視化大屏模板demo,只需要直接把數據放入到模板中,馬上就可以生成數據,無需花費很多時間,很適合企業使用。
/finebi?utm_source=media&utm_medium=zhihu&utm_campaign=xh&utm_term=seo