數據挖掘中使用的分類算法有哪些，各有什麽優缺點？

1，樸素貝葉斯，NB)

簡單，就像做壹些計數工作。

如果條件獨立性假設成立，NB會比判別模型(比如Logistic回歸)收斂得更快，所以妳只需要少量的訓練數據。

如果想做半監督學習，或者想模型簡單，性能好，NB值得壹試。

2.？邏輯回歸

LR有很多方法可以正則化模型。與NB的條件獨立性假設相比，LR不需要考慮樣本是否相關。

如果妳想要壹些概率信息(比如為了更容易的調整分類閾值，得到分類的不確定性，得到置信區間)，或者希望在未來有更多數據的時候方便的更新和改進模型，LR是值得使用的。

3.決策樹

DT是非參數的，所以不需要擔心異常值(或離群值)和數據是否線性可分(比如DT可以很容易的處理這種情況:屬於A類的樣本的特征X的值往往很小或很大，而屬於B類的樣本的特征X的值在中間範圍)。

DT的主要缺點是容易過擬合，這也是為什麽提出了隨機森林、RF)(或Boosted Tree)等集成學習算法。

另外，在很多分類問題中，RF往往是最好的，而且速度快，可擴展，不需要像SVM那樣調整很多參數，所以RF是最近非常流行的算法。

4.支持向量機，SVM)

分類精度高對過擬合有很好的理論保證，在面對特征線性不可分的問題時，通過選擇合適的核函數也能表現良好。

SVM在高維文本分類中非常受歡迎。我覺得RF因為內存需求大，參數調整繁瑣，已經開始威脅到它的地位了。