當前位置:吉日网官网 - 傳統美德 - 數據科學家需要哪些能力?

數據科學家需要哪些能力?

數學基礎知識:微積分是嚴格要掌握的。不壹定要掌握多元微積分,但壹定要熟練掌握和運用壹元微積分。另外線性代數壹定要精通,尤其是矩陣運算,向量空間,秩等概念。目前機器學習框架中的很多計算都需要用到矩陣乘法、轉置或求逆。雖然很多框架直接提供了這樣的工具,但我們至少要了解內部原型原理,比如如何有效判斷壹個矩陣是否有逆矩陣,如何計算。

數理統計:概率論和各種統計方法要基本掌握,比如如何計算貝葉斯概率。概率分布是什麽?雖然不要求熟練,但是必須了解相關的背景和術語。

交互式數據分析框架:這不是指SQL或數據庫查詢,而是類似Apache Hive或Apache Kylin的分析交互框架。開源社區裏有很多類似的框架,可以用傳統的數據分析方法來分析或挖掘大數據。Hive和Kylin都被作者用過。但是Hive尤其是Hive1是基於MapReduce的,性能並不是特別優秀。Kylin采用數據立方體結合星型模型的概念,可以達到極低延遲的分析速度。而且麒麟是第壹個以中國為主要研究團隊的阿帕奇孵化項目,所以越來越受到關註。

機器學習框架:機器學習確實是目前比較熱的宇宙。大家都在說機器學習和AI,但我壹直覺得機器學習就像幾年前的雲計算壹樣。雖然目前比較熱,但是沒有實際的落地項目,可能還需要幾年的時間才能逐漸成熟。但是,現在開始儲備機器學習的知識總是沒有壞處的。說到機器學習的框架,有很多大家比較熟悉的,包括TensorFlow,Caffe8,Keras9,CNTK10,Torch711,其中TensorFlow是比較領先的。目前我建議妳選擇這些框架中的壹個進行學習,但是根據我對這些框架的了解,大部分都是方便的封裝了各種機器學習算法供用戶使用,而對於底層算法的了解並不多。所以筆者還是建議可以借鑒機器學習算法的原理。

  • 上一篇:描寫石榴籽的漂亮句子
  • 下一篇:新疆有哪些特別的習俗?
  • copyright 2024吉日网官网