隨著兩化深度融合的不斷推進,全面實現企業管理和生產過程的數字化、自動化和智能化,是企業保持市場競爭力的關鍵。在這個過程中,數據將成為企業的核心資產,對數據的處理、分析和應用將大大提升企業的核心競爭力。然而,長期以來,由於缺乏數據分析手段和工具,大量的業務數據在系統中層層積累而沒有被利用,不僅增加了系統運維的壓力,也侵蝕了有限的企業資金投入。如今,隨著大數據技術和應用的發展,如何處理和分析大量數據成為企業關註的焦點。
對於企業來說,由於長期積累的海量數據,哪些數據具有分析價值?有哪些數據可以暫時不處理?這些都是在部署和實施大數據分析平臺之前必須要理清的問題。以下是對企業實施和部署大數據平臺以及如何有效利用大量數據的壹些建議。
第壹步:收集數據。
對於企業來說,無論是新實施的系統還是舊系統,要實施大數據分析平臺,首先要了解自己需要采集哪些數據。因為考慮到數據收集的難度和成本,大數據分析平臺並不是收集企業的所有數據,而是有直接或間接聯系的相關數據。企業要知道哪些數據對戰略決策或者壹些細節決策有幫助,分析出來的數據結果是有價值的,這也是考驗壹個數據分析師的時刻。比如企業只想了解生產線設備的運行狀態,此時只需要采集影響生產線設備性能的關鍵參數。再比如,在產品的售後服務中,企業需要了解產品使用狀態、購買群體等信息,這些數據對於支持新產品的研發和市場預測具有重要價值。因此,建議企業在規劃大數據分析時,要準確分析壹個項目的目標,這樣更容易符合業務目標。
大數據采集過程中的難點主要是高並發數,因為可能會有上千個用戶同時訪問操作,比如火車票售票網站和淘寶,其並發訪問量高峰時達到數百萬,所以采集端需要部署大量的數據庫來支撐。而如何在這些數據庫之間進行負載均衡和碎片化也是需要深入考慮的問題。
步驟2:導入和預處理
數據收集流程只是構建大數據平臺的第壹步。確定了需要收集哪些數據後,下壹步就是統壹處理不同來源的數據。例如,可能有視頻監控數據、設備運行數據、材料消耗數據等。在智能工廠中,可能是結構化的,也可能是非結構化的。此時,企業需要使用ETL工具將分布式異構數據源中的數據,如關系數據、平面數據文件等提取到臨時中間層進行清洗、轉換和集成,然後將這些數據從前端導入到集中式的大型分布式數據庫或分布式存儲集群中,最後加載到數據倉庫或數據集市中,成為聯機分析處理和數據挖掘的基礎。對於數據源的導入和預處理過程來說,最大的挑戰是導入數據量大,往往達到每秒百兆甚至千兆。
步驟3:統計和分析
統計分析主要是利用分布式數據庫或分布式計算集群,對存儲在其中的海量數據進行分析歸類,以滿足大多數常見的分析需求。在這方面,壹些實時需求會使用EMC的GreenPlum,Oracle的Exadata,基於MySQL的Infobright,壹些批量處理或者半結構化的數據需求可以使用Hadoop。數據的統計分析方法也有很多,如假設檢驗、顯著性檢驗、差異分析、相關分析、T檢驗、方差分析、卡方分析、偏相關分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預測和殘差分析、嶺回歸、logistic回歸分析、曲線估計、因子分析、聚類分析、主成分分析、因子分析等等。在統計分析部分,主要的特點和挑戰是分析涉及的數據量大,會占用大量的系統資源,尤其是I/O。
第四步:價值挖掘
不同於以往的統計和分析過程,數據挖掘壹般沒有預設的主題,主要基於各種算法對現有數據的計算,從而達到預測的效果,滿足壹些高層次數據分析的需要。典型的算法包括用於聚類的Kmeans、用於統計學習的SVM和用於分類的NaiveBayes。使用的主要工具是Hadoop的Mahout。這個過程的特點和挑戰是,用於挖掘的算法非常復雜,涉及的數據量和計算量非常大。常用的數據挖掘算法主要是單線程的。
摘要
為了得到更準確的結果,在大數據分析過程中,要求已經確定了企業的相關業務規則。這些業務規則可以幫助數據分析師評估他們工作的復雜性。為了處理這些數據的復雜性,可以對數據進行分析,得出有價值的結果,從而更好地實現。在制定了相關的業務規則後,數據分析師需要對這些數據進行分析和輸出,因為在很多情況下,這些數據結果是用於下壹步更好的查詢和決策的。如果項目管理團隊的人員沒有與數據分析師和相關業務部門進行良好的溝通,許多項目將需要重復和重建。最後,因為分析平臺會長期使用,但是決策者的需求是變化的,隨著企業的發展,會出現很多新的問題,數據分析師的數據分析也要及時更新。現在很多數據分析軟件創新的主要方面也是關於對數據需求的變化,能夠保持數據分析結果的持續價值。