Hadoop采用Map Reduce分布式計算框架,根據GFS開發HDFS分布式文件系統,根據大表開發HBase數據存儲系統。Hadoop的開源特性使其成為分布式計算系統事實上的國際標準。雅虎、臉書、亞馬遜、百度、阿裏巴巴和中國其他許多互聯網公司都基於Hadoop構建了自己的發行版。
2、火花
Spark在Hadoop的基礎上做了壹些架構上的改進。Spark和Hadoop最大的區別是Hadoop用硬盤存儲數據,Spark用內存存儲數據,所以Spark能提供的比Ha?Doop 100倍運算速度。Spark不能用來處理需要長期保存的數據,因為斷電後內存會丟失數據。
3、風暴
Storm是Twitter推廣的分布式計算系統。基於Hadoop,提供實時操作的特性,可以實時處理大數據流。與Hadoop和Spark不同,Storm不收集和存儲數據。它通過網絡直接實時接收和處理數據,然後通過網絡直接實時返回結果。
4、Samza
Linked In開放的技術Samza是壹個分布式的流處理框架,致力於實時數據處理,很像Twitter的流處理系統Storm。區別是薩姆?Za基於Hadoop,使用Linked In自己的Kafka分布式消息系統。
Samza非常適合實時流數據處理,如數據跟蹤、日誌服務、實時服務等應用。它可以幫助開發者處理高速消息,並具有良好的容錯性。