其實決策樹之所以這麽受歡迎,有壹個好處就是容易解釋。同時,決策樹可以無壓力地處理特征之間的交互,是非參數的,所以妳不用擔心離群值,也不用擔心數據是否線性可分。但是決策樹的壹個缺點是不支持在線學習,所以在新樣本到來後,決策樹需要完全重建。另壹個缺點是容易過擬合,但這也是隨機森林RF等集成方法的出發點。此外,隨機森林往往是許多分類問題的贏家。決策樹訓練速度快,可調,不用像支持向量機壹樣擔心調整很多參數,所以過去壹直很受歡迎。
那麽決策樹本身有什麽優勢呢?總結起來有六點。首先是決策樹易於理解和解釋,可以可視化分析,可以很容易地提取規則。第二,名義數據和數值數據可以同時處理。三是更適合處理屬性缺失的樣本。第四是能夠處理不相關的特性。第五是測試數據集時,運行速度更快。六是能夠在相對較短的時間內對大數據源做出可行有效的結果。
那麽決策樹的缺點是什麽呢?總結起來有三點。首先是決策樹容易過擬合,但是隨機森林可以大大減少過擬合。第二是決策樹容易忽略數據集中屬性的相關性。第三,對於那些樣本數不同的數據,在決策樹中進行屬性劃分時,不同的判斷標準會帶來不同的屬性選擇傾向;信息增益標準優先選擇更理想的屬性,而增益率標準優先選擇不太理想的屬性。但是CART並不是簡單的用增益率來劃分屬性,而是采用了壹種啟發式的規則。
通過以上內容,相信妳已經知道決策樹的優缺點了。當妳學習或者使用決策樹算法的時候,可以更好的幫助妳了解決策樹的具體情況。只有了解這些算法,才能更好地使用決策樹算法。