數據分析是指運用適當的統計分析方法,對大量收集的數據進行分析,在不提取有用信息、不形成結論的情況下,對數據進行詳細研究和總結的過程。
數據分析包括“數據”和“分析”。壹方面包括收集、處理、整理數據,另壹方面也包括分析數據,從中提取有價值的信息,形成有幫助的結論。
數據分析的結果通常以分析報告的形式呈現。對於數據分析報告來說,分析就是論證,數據就是論證,兩者缺壹不可。
傳統數據分析和大數據分析的異同點有三:壹是分析方法沒有本質區別。
數據分析的核心工作是人對數據指標的分析、思考和解讀,人腦所能承載的數據量極其有限。因此,無論是“傳統數據分析”還是“大數據分析”,都需要按照分析思路對原始數據進行統計處理,得到匯總統計結果供人們分析。這兩者在這個過程中是相似的,唯壹不同的是原始數據大小導致的處理方法不同。
第二,兩者在統計知識的運用上有很大區別。
《傳統數據分析》中用到的知識主要圍繞“能否通過少量采樣數據推斷出真實世界”這壹主題。“大數據分析”主要是利用各種總量數據(不是抽樣數據)來設計統計方案,得到詳細的、有把握的統計結論。
第三,在與機器學習模型的關系上,兩者有本質區別。
「傳統數據分析」大多數情況下,知識使用機器學習模型作為黑盒工具,輔助分析數據。而“大數據分析”更多時候是兩者的緊密結合。大數據分析不僅產生壹個分析效果評估,還能在此基礎上升級產品。在大數據分析的場景下,數據分析往往是數據上墨的前奏,數據建模是數據分析的結果。