大數據,或稱巨量數據,是指涉及的數據量巨大到無法通過目前主流的軟件工具捕捉、管理、處理和整理,以幫助企業在合理的時間內做出更加積極決策的信息。?
在維克多·邁耶-勛伯格和肯尼斯·庫克耶合著的《大數據時代》中,大數據是指所有的數據都用於分析和處理,而沒有隨機分析(抽樣調查)的捷徑。大數據的5V特征(IBM提出):體量(海量)、速度(高速)、多樣性(多樣性)、價值(低價值密度)、真實性。?
“大數據”的研究機構Gartner給出了這樣的定義。“大數據”是壹種信息資產,需要新的處理模式來擁有更強的決策、洞察和流程優化能力,以適應海量、高增長率和多樣化。
麥肯錫全球研究院給出的定義是:規模遠遠超出傳統數據庫軟件工具在獲取、存儲、管理和分析方面能力的數據集,具有數據規模海量、數據流動迅速、數據類型多樣、價值密度低四大特征。
大數據技術的戰略意義不在於掌握龐大的數據信息,而在於對這些有意義的數據進行專業化處理。換句話說,如果把大數據比作壹個行業,那麽這個行業盈利的關鍵就在於提高數據的“處理能力”,通過“處理”實現數據的“增值”。?
從技術上講,大數據和雲計算的關系就像硬幣的正反面壹樣密不可分。大數據不能由單臺計算機處理,必須采用分布式架構。其特點是對海量數據進行分布式數據挖掘。但它必須依賴雲計算的分布式處理、分布式數據庫、雲存儲和虛擬化技術。?