機器學習最基本的做法,是使用算法來解析數據、從中學習,然後對真實世界中的事件做出決策和預測。與傳統的為解決特定任務、硬編碼的軟件程序不同,機器學習是用大量的數據來“訓練”,通過各種算法從數據中學習如何完成任務。
舉個簡單的例子,當我們瀏覽網上商城時,經常會出現商品推薦的信息。這是商城根據妳往期的購物記錄和冗長的收藏清單,識別出這其中哪些是妳真正感興趣,並且願意購買的產品。這樣的決策模型,可以幫助商城為客戶提供建議並鼓勵產品消費。
傳統的機器學習算法包括決策樹、聚類、貝葉斯分類、支持向量機、EM、Adaboost等等。這篇文章將對常用算法做常識性的介紹,沒有代碼,也沒有復雜的理論推導,就是圖解壹下,知道這些算法是什麽,它們是怎麽應用的。
決策樹
根據壹些 feature 進行分類,每個節點提壹個問題,通過判斷,將數據分為兩類,再繼續提問。這些問題是根據已有數據學習出來的,再投入新數據的時候,就可以根據這棵樹上的問題,將數據劃分到合適的葉子上。