簡單,就像做壹些計數工作。
如果條件獨立性假設成立,NB會比判別模型(比如Logistic回歸)收斂得更快,所以妳只需要少量的訓練數據。
如果想做半監督學習,或者想模型簡單,性能好,NB值得壹試。
2.?邏輯回歸
LR有很多方法可以正則化模型。與NB的條件獨立性假設相比,LR不需要考慮樣本是否相關。
如果妳想要壹些概率信息(比如為了更容易的調整分類閾值,得到分類的不確定性,得到置信區間),或者希望在未來有更多數據的時候方便的更新和改進模型,LR是值得使用的。
3.決策樹
DT是非參數的,所以不需要擔心異常值(或離群值)和數據是否線性可分(比如DT可以很容易的處理這種情況:屬於A類的樣本的特征X的值往往很小或很大,而屬於B類的樣本的特征X的值在中間範圍)。
DT的主要缺點是容易過擬合,這也是為什麽提出了隨機森林、RF)(或Boosted Tree)等集成學習算法。
另外,在很多分類問題中,RF往往是最好的,而且速度快,可擴展,不需要像SVM那樣調整很多參數,所以RF是最近非常流行的算法。
4.支持向量機,SVM)
分類精度高對過擬合有很好的理論保證,在面對特征線性不可分的問題時,通過選擇合適的核函數也能表現良好。
SVM在高維文本分類中非常受歡迎。我覺得RF因為內存需求大,參數調整繁瑣,已經開始威脅到它的地位了。