收集
在大數據采集過程中,其主要特點和挑戰是高並發,因為可能會有成千上萬的用戶同時訪問和操作,比如火車票售票網站和淘寶,其並發訪問量高峰時達到數百萬,因此需要在采集端部署大量的數據庫來支撐。而如何在這些數據庫之間進行負載均衡和碎片化,確實需要深入的思考和設計。
統計/分析
統計分析主要是利用分布式數據庫或分布式計算集群對存儲在其中的大量數據進行分析和分類,以滿足大多數常見的分析需求。在這方面,壹些實時需求會使用EMC的GreenPlum,Oracle的Exadata,基於MySQL的Infobright,壹些批量處理或者半結構化的數據需求可以使用Hadoop。統計與分析的主要特點和挑戰是分析涉及的數據量大,會占用大量的系統資源,尤其是I/O。
進口/預處理
雖然采集終端本身會有很多數據庫,但是要想有效的分析這些大量的數據,就要把這些數據從前端導入到壹個集中式的大型分布式數據庫或者分布式存儲集群中,在導入的基礎上可以做壹些簡單的清理和預處理工作。也有壹些用戶在導入時會使用來自Twitter的Storm來流數據,以滿足壹些業務的實時計算需求。導入和預處理過程的特點和挑戰主要是導入數據量大,往往達到每秒百兆甚至千兆的水平。
挖掘
不同於以往的統計和分析過程,數據挖掘壹般沒有預設的主題,主要基於各種算法對現有數據的計算,從而達到預測的效果,滿足壹些高層次數據分析的需要。典型的算法是聚類的K-Means,統計學習的SVM和分類的樸素貝葉斯。使用的主要工具是Hadoop Mahout。這個過程的特點和挑戰是,用於挖掘的算法非常復雜,涉及的數據量和計算量非常大。此外,常見的數據挖掘算法主要是單線程的。