當前位置:吉日网官网 - 傳統美德 - 大數據主要學習哪些知識?

大數據主要學習哪些知識?

分享大數據學習路線:

第壹階段是JAVASE+MYSQL+JDBC,主要學習Java語言的壹些概念,比如字符、白進程控制、面向對象、進程線程、枚舉反射等。,學習MySQL數據庫的安裝卸載及相關操作,學習JDBC的實現原理和Linux的基礎知識,這是大數據的初級階段。

第二階段是分布式理論介紹,主要講解CAP理論、數據分布模式、壹致性、2PC和3PC、大數據集成架構。涉及的知識點有壹致性、可用性、可用性、分區。

容差分區容差、數據量分布、2PC進程、3PC進程、哈希方法、壹致哈希等。

第三階段是數據存儲和計算(線下場景),主要講解協調服務ZK(1T)、數據存儲hdfs(2T)、數據存儲alluxio(1T)、數據采集flume、數據采集logstash、數據同步Sqoop(0.5T)、數據同步datax(0.5T)、數據同步mysql-binlog(1T)、計算模型MR和DAG(1T)、hive(5T)、Impala(6544

第四部分主要講解了多庫建設的歷史背景,離線多庫項目的技術分析——有我車(5T)架構,多維數據模型處理kylin(3.5T)的部署安裝,離線多庫項目——有我車升級加入kylin進行多維分析。

第五階段分布式計算引擎主要講解計算引擎、scala語言、spark、數據存儲hbase、redis、kudu,通過壹個p2p平臺項目實現spark多數據源的讀寫。

第六階段是數據存儲和計算(實時場景),主要講解數據通道Kafka、實時數據倉庫druid、流數據處理flink和SparkStreaming,通過講解某個流量號使妳能夠整合知識點。

第七階段,elasticsearch主要針對數據搜索進行講解,包括全文搜索技術、ES安裝操作、索引、創建索引、添加、刪除、檢查、索引、映射、過濾。

第八階段是數據治理,主要講解數據標準、數據分類、數據建模、圖存儲與查詢、元數據、血緣與數據質量、Hive Hook、Spark Listener等等。

第九階段,針對BI系統主要介紹了兩種技術,Superset和Graphna,包括基本介紹、安裝、數據源創建、表操作和數據探索分析。

第十階段是數據挖掘,主要講解機器學習中的數學體系,Spark Mlib機器學習算法庫,Python scikit-learn機器學習算法庫,機器學習結合大數據項目。

對大數據分析感興趣的朋友,不妨從看大數據分析書籍開始!嗶哩嗶哩上有很多大數據教學視頻,從基礎到高級,都挺不錯的。知識點非常詳細,有完整版的學習路線圖。也可以自己去看看,下載學習。

  • 上一篇:城市軌道交通發展現狀及未來趨勢
  • 下一篇:如何做好企業大數據管理分析
  • copyright 2024吉日网官网