可靠性高。通過使用冗余數據存儲,即使壹個副本出現故障,其他副本也能保證正常對外服務。效率。Hadoop作為並行分布式計算平臺,采用分布式存儲和分布式處理兩大核心技術,可以高效處理PB級數據。
高可擴展性。Hadoop旨在在廉價的計算機集群上高效穩定地運行,並且可以擴展到數千個計算機節點。高容錯性。采用冗余數據存儲,自動保存多份數據,失敗的任務可以自動重新分配。
成本低。Hadoop使用廉價的計算機集群,成本相對較低。普通用戶也很容易用自己的PC搭建Hadoop運行環境。運行在Linux平臺上。Hadoop是基於Java語言開發的,可以很好的運行在Linux平臺上,支持多種編程語言。
Hadoop大數據處理的意義
Hadoop因其在數據提取、變形和加載(ETL)方面的天然優勢,可以廣泛應用於大數據處理應用。Hadoop的分布式架構使得大數據處理引擎盡可能的靠近存儲,相對適合ETL等批量操作,因為這類操作的批量結果可以直接去存儲。
Hadoop的MapReduce函數實現了打破單個任務,將碎片化的任務(Map)發送到多個節點,然後以單個數據集的形式加載到數據倉庫中。
以上內容參考:百度百科-—Hadoop