傳統GBDT在優化時只用到壹階導數信息,xgboost則對代價函數進行了二階泰勒展開,同時用到了壹階和二階導數。順便提壹下,xgboost工具支持自定義代價函數,只要函數可壹階和二階求導。
xgboost在代價函數裏加入了正則項,用於控制模型的復雜度。正則項裏包含了樹的葉子節點個數、每個葉子節點上輸出的score的L2模的平方和。從Bias-variance tradeoff角度來講,正則項降低了模型的variance,使學習出來的模型更加簡單,防止過擬合,這也是xgboost優於傳統GBDT的壹個特性。
Shrinkage(縮減),相當於學習速率(xgboost中的eta)。xgboost在進行完壹次叠代後,會將葉子節點的權重乘上該系數,主要是為了削弱每棵樹的影響,讓後面有更大的學習空間。實際應用中,壹般把eta設置得小壹點,然後叠代次數設置得大壹點。(補充:傳統GBDT的實現也有學習速率)
列抽樣(column subsampling)。xgboost借鑒了隨機森林的做法,支持列抽樣,不僅能降低過擬合,還能減少計算,這也是xgboost異於傳統gbdt的壹個特性。
對缺失值的處理。對於特征的值有缺失的樣本,xgboost可以自動學習出它的分裂方向。
xgboost工具支持並行。boosting不是壹種串行的結構嗎?怎麽並行的?註意xgboost的並行不是tree粒度的並行,xgboost也是壹次叠代完才能進行下壹次叠代的(第t次叠代的代價函數裏包含了前面t-1次叠代的預測值)。xgboost的並行是在特征粒度上的。我們知道,決策樹的學習最耗時的壹個步驟就是對特征的值進行排序(因為要確定最佳分割點),xgboost在訓練之前,預先對數據進行了排序,然後保存為block結構,後面的叠代中重復地使用這個結構,大大減小計算量。這個block結構也使得並行成為了可能,在進行節點的分裂時,需要計算每個特征的增益,最終選增益最大的那個特征去做分裂,那麽各個特征的增益計算就可以開多線程進行。
可並行的近似直方圖算法。樹節點在進行分裂時,我們需要計算每個特征的每個分割點對應的增益,即用貪心法枚舉所有可能的分割點。當數據無法壹次載入內存或者在分布式情況下,貪心算法效率就會變得很低,所以xgboost還提出了壹種可並行的近似直方圖算法,用於高效地生成候選的分割點。