數理統計:概率論和各種統計方法要基本掌握,比如如何計算貝葉斯概率。概率分布是什麽?雖然不要求熟練,但是必須了解相關的背景和術語。
交互式數據分析框架:這不是指SQL或數據庫查詢,而是類似Apache Hive或Apache Kylin的分析交互框架。開源社區裏有很多類似的框架,可以用傳統的數據分析方法來分析或挖掘大數據。Hive和Kylin都被作者用過。但是Hive尤其是Hive1是基於MapReduce的,性能並不是特別優秀。Kylin采用數據立方體結合星型模型的概念,可以達到極低延遲的分析速度。而且麒麟是第壹個以中國為主要研究團隊的阿帕奇孵化項目,所以越來越受到關註。
機器學習框架:機器學習確實是目前比較熱的宇宙。大家都在說機器學習和AI,但我壹直覺得機器學習就像幾年前的雲計算壹樣。雖然目前比較熱,但是沒有實際的落地項目,可能還需要幾年的時間才能逐漸成熟。但是,現在開始儲備機器學習的知識總是沒有壞處的。說到機器學習的框架,有很多大家比較熟悉的,包括TensorFlow,Caffe8,Keras9,CNTK10,Torch711,其中TensorFlow是比較領先的。目前我建議妳選擇這些框架中的壹個進行學習,但是根據我對這些框架的了解,大部分都是方便的封裝了各種機器學習算法供用戶使用,而對於底層算法的了解並不多。所以筆者還是建議可以借鑒機器學習算法的原理。