當前位置:吉日网官网 - 傳統故事 - 數據挖掘中使用的分類算法有哪些,各有什麽優缺點?

數據挖掘中使用的分類算法有哪些,各有什麽優缺點?

1,樸素貝葉斯,NB)

簡單,就像做壹些計數工作。

如果條件獨立性假設成立,NB會比判別模型(比如Logistic回歸)收斂得更快,所以妳只需要少量的訓練數據。

如果想做半監督學習,或者想模型簡單,性能好,NB值得壹試。

2.?邏輯回歸

LR有很多方法可以正則化模型。與NB的條件獨立性假設相比,LR不需要考慮樣本是否相關。

如果妳想要壹些概率信息(比如為了更容易的調整分類閾值,得到分類的不確定性,得到置信區間),或者希望在未來有更多數據的時候方便的更新和改進模型,LR是值得使用的。

3.決策樹

DT是非參數的,所以不需要擔心異常值(或離群值)和數據是否線性可分(比如DT可以很容易的處理這種情況:屬於A類的樣本的特征X的值往往很小或很大,而屬於B類的樣本的特征X的值在中間範圍)。

DT的主要缺點是容易過擬合,這也是為什麽提出了隨機森林、RF)(或Boosted Tree)等集成學習算法。

另外,在很多分類問題中,RF往往是最好的,而且速度快,可擴展,不需要像SVM那樣調整很多參數,所以RF是最近非常流行的算法。

4.支持向量機,SVM)

分類精度高對過擬合有很好的理論保證,在面對特征線性不可分的問題時,通過選擇合適的核函數也能表現良好。

SVM在高維文本分類中非常受歡迎。我覺得RF因為內存需求大,參數調整繁瑣,已經開始威脅到它的地位了。

  • 上一篇:玻璃是如何制成的?
  • 下一篇:電子煙比香煙危害小嗎?
  • copyright 2024吉日网官网