首先,Hadoop
Hadoop是壹個可以分發大量數據的軟件框架。但是Hadoop是以壹種可靠、高效和可擴展的方式處理的。Hadoop之所以可靠,是因為它假設計算元素和存儲會出現故障,所以它維護工作數據的多個副本,以確保可以為出現故障的節點重新分配處理。Hadoop是高效的,因為它以並行方式工作,從而加快了處理速度。Hadoop也是可擴展的,可以處理PB級的數據。另外,Hadoop依賴於社區服務器,所以成本相對較低,任何人都可以使用。
第二,HPCC
HPCC的縮寫,高性能計算和通信。65438-0993年,美國聯邦科學、工程與技術協調委員會向國會提交了《重大挑戰項目:高性能計算與通信》報告,該報告也被稱為HPCC計劃報告,即美國總統的科學戰略項目。其目的是通過加強研究和開發來解決壹些重要的科學和技術挑戰。HPCC是美國實施信息高速公路的壹個計劃。這項計劃的實施將耗資數百億美元。其主要目標是開發可擴展的計算系統和相關軟件,以支持以太網的傳輸性能,發展千兆位網絡技術,擴大研究和教育機構及網絡連接能力。
第三,風暴
Storm是壹個免費的開源軟件,壹個分布式和容錯的實時計算系統。Storm可以非常可靠地處理巨大的數據流,可以用來處理Hadoop的批量數據。Storm很簡單,支持多種編程語言,使用起來非常有趣。暴風來自Twitter,其他知名應用公司有Groupon、淘寶、支付寶、阿裏巴巴、音樂元素、Admaster等等。
Storm有很多應用領域:實時分析、在線機器學習、不間斷計算、分布式RPC(遠程過程調用協議,通過網絡向遠程計算機程序請求服務)、ETL(提取-轉換-加載的簡稱)等等。Storm的處理速度是驚人的:經過測試,每個節點每秒可以處理654.38+0萬個數據元組。Storm具有可擴展性、容錯性,並且易於設置和操作。
第四,阿帕奇演習
為了幫助企業用戶找到更有效的方法來加速Hadoop數據查詢,Apache Software Foundation最近推出了壹個名為“Drill”的開源項目。Apache Drill實現了Google的Dremel。
據Hadoop制造商MapR Technologies的產品經理Tomer Shiran介紹,“Drill”已經作為Apache孵化器項目運營,並將繼續向全球的軟件工程師推廣。
動詞 (verb的縮寫)快速采礦機
RapidMiner是世界領先的數據挖掘解決方案,在很大程度上采用了先進的技術。它的數據挖掘任務涉及的範圍很廣,包括各種數據藝術,可以簡化數據挖掘過程的設計和評估。
不及物動詞Pentaho BI
Pentaho BI平臺不同於傳統BI產品。它是壹個以流程為中心、面向解決方案的框架。其目的是整合壹系列企業BI產品、開源軟件、API等組件,方便商業智能應用的開發。它的出現使得Jfree、Quartz等壹系列面向商業智能的獨立產品能夠被整合起來,形成壹個復雜完整的商業智能解決方案。