當前位置:吉日网官网 - 傳統節日 - 大數據的核心是雲技術和BI。

大數據的核心是雲技術和BI。

大數據的核心是雲技術和BI。

人們對大數據和雲計算的關系往往存在誤解。而且會把它們混在壹起,用壹句話來解釋:雲計算是硬件資源的虛擬化;大數據是對海量數據的高效處理。如果做壹個更形象的解釋,雲計算相當於我們的電腦和操作系統,將大量的硬件資源虛擬化,然後分配使用;大數據相當於壹個海量數據的“數據庫”。

整體來看,未來的趨勢是雲計算作為底層的計算資源,支持上層的大數據處理,大數據的發展趨勢是實時交互查詢效率和分析能力。目前的大數據處理壹直在向類似於傳統數據庫體驗的方向發展。

大數據的4V特征是復雜、海量、快速、有價值,其整體架構包括數據存儲、數據處理、數據分析三層。類型的復雜性和海量性由數據存儲層解決,快速性和及時性的要求由數據處理層解決,數值由數據分析層解決。數據首先要通過存儲層進行存儲,然後根據數據需求和目標建立相應的數據模型和數據分析指標體系,對數據進行分析,產生價值。中間及時性是由中間數據處理層提供的強大的並行計算和分布式計算能力來完成的。三層相互配合,讓大數據最終產生價值。

數據存儲層

數據的劃分方式有很多種,結構化、半結構化、非結構化;還有元數據、主數據、業務數據;還可以分為GIS、視頻、文件、語音和商務交易數據。傳統的結構化數據庫已經不能滿足數據多樣性的存儲要求,因此在RDBMS中增加了兩種類型。壹個是hdfs可以直接應用於非結構化文件存儲,另壹個是nosql數據庫,可以應用於結構化和半結構化數據存儲。

從存儲層的構建來說,關系數據庫、NoSQL數據庫、hdfs分布式文件系統都是需要的。業務應用根據實際情況選擇不同的存儲模式,但是為了業務存儲和讀取的方便,我們可以進壹步封裝存儲層,形成統壹的存儲服務層來簡化這個操作。對於用戶來說,他們不關心底層存儲的細節,只關心數據存儲和讀取的便利性。通過享受數據存儲層,存儲中的應用程序可以與存儲基礎架構完全分離。

數據處理層

數據處理層的核心問題在於分布式數據存儲帶來的數據處理的復雜性,海量存儲帶來的數據處理的時效性要求,這些都是數據處理層要解決的問題。

基於傳統的雲相關技術架構,所有與hive、pig、hadoop-mapreduce框架相關的技術內容都可以包含在數據處理層。本來我在想,把hive歸入數據分析層是不合適的,因為hive側重於真實處理下復雜查詢的拆分和查詢結果的重新聚合,mapreduce本身實現了真正的分布式處理能力。

Mapreduce只是實現了分布式計算的壹個框架和邏輯,但是真正的分析需求的拆分,分析結果的匯總和合並還是需要hive層的能力整合。最終目標很簡單,就是支持分布式架構下的時效性需求。

數據分析層

最後回到分析層,分析層重在真正挖掘大數據的價值,價值挖掘的核心在於數據分析和挖掘。那麽數據分析層的核心還是在於傳統BI分析的內容。包括數據維度分析、數據切片、數據鉆取鉆取、立方體等等。

數據分析我只關註兩個內容。壹種是傳統數據倉庫下的數據建模,需要支持上述分析方法和策略。其次,根據業務目標和業務需求建立的KPI指標體系,以及指標體系對應的分析模型和方法。解決了這兩個問題,就基本解決了數據分析的問題。

傳統的BI分析通過抽取和集中大量的ETL數據,形成壹個完整的數據倉庫,而基於大數據的BI分析可能沒有壹個集中的數據倉庫,或者數據倉庫本身是分布式的。BI分析的基本方法和思路沒有變,只是已經實施的數據存儲和數據處理方式發生了很大的變化。

說了這麽多,核心還是想說明壹下,大數據的兩大核心是雲技術和BI。沒有雲技術,大數據就沒有基礎和落地的可能。沒有BI和價值,大數據已經變得拋棄基礎,拋棄關鍵目標。簡單總結就是大數據目標驅動是BI,大數據實現落地雲技術。

  • 上一篇:轉基因食品的利弊
  • 下一篇:怎麽貼人物海報?人物海報設計的方法和技巧有哪些?
  • copyright 2024吉日网官网