當前位置:吉日网官网 - 傳統美德 - 12-分類算法-決策樹,隨機森林

12-分類算法-決策樹,隨機森林

決策圖表

生活中的決策樹模型;

很明顯,判斷依據的重要性從上到下越來越小。

信息的度量和功能

在不知道任何信息的情況下猜32支隊伍的冠軍:如果用二分法,需要猜5次,即需要的價格是5bit,我們稱之為信息熵(H)。

5 =-(1/32 log(1/32)+1/32 log(1/32)+...+ 1/32log(1/32))

公式:概率對數概率之和

如果我們知道壹些關於團隊的信息,成本將低於5bit。

5 & gt-(1/4 log(1/32)+1/8 log(1/32)+...+ 1/24log(1/32))

信息熵越大(比如各隊奪冠幾率相等時),不確定性越大。

結合決策數,我們之所以先判斷壹些條件,是因為它可以減少我們更多的不確定性。

決策樹劃分基礎——信息增益

信息增益:條件已知時減少的信息熵。

決策樹的Api

《泰坦尼克號》和《泰坦尼克2號》的數據幀描述了泰坦尼克號上個體乘客的生活狀態。泰坦尼克號上的數據框不包含船員的信息,但它包含了乘客實際年齡的壹半。關於泰坦尼克號乘客的主要數據來源是百科全書泰坦尼克號。這裏使用的數據集是由不同的研究人員開始的。其中包括由許多研究人員創建並由邁克爾·芬德利編輯的乘客名單。

我們提取的數據集特征是船票類別、生存、階級、年齡、登錄、home.dest、房間、船票、船和性別。乘坐階層是指乘客階層(1,2,3),是社會經濟階層的代表。

缺少年齡數據。

決策樹部分的圖例:

決策樹的優缺點及其改進

優勢:

缺點:

改進:

綜合學習方法

集成學習通過建立多個模型來解決單壹預測問題。其工作原理是生成多個分類器/模型,自主學習並進行預測。這些預測最終組合成壹個單壹的預測,所以它比任何單壹的分類預測都要好。

隨機森林是壹個包含多個決策樹的分類器,其輸出的類別由各個樹輸出的類別的模式決定。

在隨機森林中建立多重決策樹的過程;

Ps:為什麽隨機抽樣?避免每棵樹都有相同的訓練集,這樣最終的訓練結果是完全壹樣的。

隨機森林案例:

隨機森林的優勢:

隨機森林的缺點很少。

  • 上一篇:京西有哪些特色小吃?
  • 下一篇:農歷五月初五的習俗是什麽?
  • copyright 2024吉日网官网