1,首先平臺根據需求采集數據。
2.平臺存儲收集的數據。
3.然後分析處理數據。
4.最後,可視化地顯示數據,包括報告和監控數據。
壹個優秀的大數據平臺,應該能夠在大數據分析方法、大數據編程、大數據倉庫、大數據案例、人工智能、數據挖掘等方面表現優異。
現在給大家推薦幾個主流且優秀的大數據平臺:
1,ApacheFlume
Apache的數據采集系統是開源的,高度可靠,高度可擴展,易於管理,支持客戶的擴展。這是壹個分布式的、可靠的和可用的系統。它是壹個java運行時環境,用於有效地收集、聚合和移動來自大量不同來源的大量日誌數據,以便進行集中的數據存儲。
主要功能如下:
1.日誌收集:在日誌系統中定制了各種數據發送器來收集數據。
2.數據處理:提供簡單處理數據並寫入各種數據接收方(可定制)的能力,提供從console(控制臺)、RPC(Thrift-RPC)、text(文件)、Tail (UNIX)、syslog(syslog日誌系統,支持TCP和UDP等兩種模式)和exec(命令執行)等數據源收集數據。
2、流體d
Fluentd是用於統壹日誌記錄層的開源數據收集器。Fluentd可以讓妳統壹數據收集和使用,從而更好地使用和理解數據。Fluentd是雲本地計算基金會(CNCF)的成員項目之壹,它遵循Apache2License協議。FLuentd的可擴展性很強,客戶可以定制(Ruby)輸入/緩沖/輸出。
官方網站:
文章/快速入門
主要功能如下:
1,輸入:負責接收數據或者主動抓取數據。支持syslog、http、filetail等。
2、緩沖區:負責數據采集的性能和可靠性,也有文件或內存等不同類型的緩沖區可以配置。
3、輸出:負責將數據輸出到目的地如file、AWSS3或其他Fluentd。
3、丘克瓦語
Chukwa可以將各種數據收集成適合Hadoop處理的文件,保存在HDFS,供Hadoop執行各種MapReduce操作。Chukwa本身也提供了許多內置函數來幫助我們收集和組織數據。
1,實時監控應用各節點日誌文件的變化,將增量文件的內容寫入HDFS,同時還可以去除重復,對數據進行排序。
2.監控來自Socket的數據,並定期執行我們指定的命令來獲取輸出數據。
優秀的平臺還是很多的。到目前為止,開發者可以根據官方文件來了解它們,並根據項目的特點和需求來選擇所需的平臺。