提供海量數據存儲和計算的,需要java語言基礎。
Hadoop實現了壹個分布式文件系統(Hadoop Distributed File System),簡稱HDFS。有高容錯性的特點,並且設計用來部署在低廉的(low-cost)硬件上;而且它提供高吞吐量來訪問應用程序的數據,適合那些有著超大數據集(large data set)的應用程序。
特點
1、快照支持在壹個特定時間存儲壹個數據拷貝,快照可以將失效的集群回滾到之前壹個正常的時間點上。HDFS已經支持元數據快照。
2、HDFS的設計是用於支持大文件的。運行在HDFS上的程序也是用於處理大數據集的。這些程序僅寫壹次數據,壹次或多次讀數據請求,並且這些讀操作要求滿足流式傳輸速度。
HDFS支持文件的壹次寫多次讀操作。HDFS中典型的塊大小是64MB,壹個HDFS文件可以被切分成多個64MB大小的塊,如果需要,每壹個塊可以分布在不同的數據節點上。
3、階段狀態:壹個客戶端創建壹個文件的請求並不會立即轉發到名字節點。實際上,壹開始HDFS客戶端將文件數據緩存在本地的臨時文件中。