數據源:所有大數據架構都從源代碼開始。這可以包含來源於數據庫的數據、來自實時源(如物聯網設備)的數據,及其從應用程序(如Windows日誌)生成的靜態文件。
實時消息接收:假如有實時源,則需要在架構中構建壹種機制來攝入數據。
數據存儲:公司需要存儲將通過大數據架構處理的數據。壹般而言,數據將存儲在數據湖中,這是壹個可以輕松擴展的大型非結構化數據庫。
批處理和實時處理的組合:公司需要同時處理實時數據和靜態數據,因而應在大數據架構中內置批量和實時處理的組合。這是由於能夠應用批處理有效地處理大批量數據,而實時數據需要立刻處理才能夠帶來價值。批處理涉及到長期運轉的作業,用於篩選、聚合和準備數據開展分析。
分析數據存儲:準備好要分析的數據後,需要將它們放到壹個位置,便於對整個數據集開展分析。分析數據儲存的必要性在於,公司的全部數據都聚集在壹個位置,因而其分析將是全面的,而且針對分析而非事務進行了優化。
這可能采用基於雲計算的數據倉庫或關系數據庫的形式,具體取決於公司的需求。
分析或報告工具:在攝入和處理各類數據源之後,公司需要包含壹個分析數據的工具。壹般而言,公司將使用BI(商業智能)工具來完成這項工作,而且或者需要數據科學家來探索數據。
“大數據” 通常指的是那些數量巨大、難於收集、處理、分析的數據集,亦指那些在傳統基礎設施中長期保存的數據。大數據存儲是將這些數據集持久化到計算機中。