當前位置:吉日网官网 - 傳統節日 - 損失函數和魯棒性

損失函數和魯棒性

機器學習模型中單個樣本的預測值與真實值之差稱為損失。損失越小,模型越好。如果預測值與真實值相等,則沒有損失。

損失函數用於衡量模型的預測值f(x)與真實值Y的不壹致程度,它是非負實函數,通常用L(Y,f(x))表示。損失函數越小,模型的魯棒性越好。

雖然損失函數可以讓我們看到模型的優缺點,為我們提供優化的方向,但是要知道沒有壹個損失函數是適合所有模型的。損失函數的選擇取決於參數個數、離群值、機器學習算法、梯度下降的效率、導數的獲取難度和預測的置信度。

由於機器學習的任務不同,損失函數壹般分為分類和回歸兩類。回歸會預測壹個數值結果,分類會給出壹個標簽。

0-1損失是指如果預測值不等於目標值,則為1,否則為0:

感知器使用這個損失函數。但是因為相等的條件太嚴格了,我們可以放寬條件,也就是滿足|Y?f(X)| & lt;t被認為相等。

邏輯回歸的損失函數是對數損失函數。在logistic回歸的推導中,假設樣本服從伯努利分布(0-1),然後得到滿足該分布的似然函數,再用對數求極值。邏輯回歸不求對數似然函數的最大值,而是以最大化為壹種思想,然後將其風險函數推導為最小負似然函數。從損失函數的角度來看,變成了對數損失函數。

損失函數的標準形式:

在最大似然估計中,通常是先取對數,再求導,再求極值點,方便計算最大似然估計。損失函數L(Y,P(Y|X))是指在樣本X的分類下概率P(Y|X)達到最大(利用已知的樣本分布,找出導致這個概率最大的分布的參數值)。

最小二乘法是壹種線性回歸的方法,將回歸問題轉化為凸優化問題。最小二乘法的基本原理是,最佳擬合曲線應使所有點到回歸線的距離之和最小。距離通常用歐幾裏德距離來度量。平方損失的損失函數為:

AdaBoost采用指數損失函數作為損失函數。

指數損失函數的標準形式:

鉸鏈損失函數用於最大間隔分類,最有代表性的是支持向量機SVM。

鉸鏈功能的標準形式:

其中t是目標值(-1或+1),y是分類器輸出的預測值,不直接是類標簽。意味著當T和Y的符號相同(表示Y預測正確)且|y|≥1時,鉸鏈損耗為0;當t和y的符號相反時,鉸鏈損失函數隨y的增加而線性增加。

在支持向量機中,初始SVM優化函數如下:

轉換約束;否則:

損失函數可以進壹步寫成:

因此,SVM的損失函數可以看作是L2正則化和鉸鏈損失之和。

平均絕對誤差(MAE)是壹種常用的回歸損失函數,它是目標值與預測值之差的絕對值之和,表示預測值的平均誤差幅度,不考慮誤差的方向(註:平均偏差誤差MBE是考慮方向的誤差與殘差之和),取值範圍為0到∞,其公式如下:

均方差(MSE)是回歸損失函數中最常用的誤差。它是預測值與目標值之差的平方和,其公式如下:

下圖為均方根誤差值的曲線分布,其中最小值為預測值為目標值的位置。我們可以看到,隨著誤差的增加,損失函數增加得更快。

Huber損失比平方損失對異常值不太敏感,但它也保持了可微性。它基於絕對誤差,但當誤差較小時,它變成了平方誤差。我們可以使用超參數δ來調整這個誤差的閾值。當δ趨於0時,退化為MAE,當δ趨於無窮大時,退化為MSE。它的表達式如下,是壹個連續可微的分段函數:

對於Huber損失,δ的選擇非常重要,它決定了模型處理異常值的行為。當殘差大於δ時,使用L1的損失,當殘差很小時,使用更合適的L2損失進行優化。

Huber損失函數克服了MAE和MSE的缺點。它既能保持損失函數的連續導數,又能利用MSE梯度隨誤差減小的特性得到更精確的最小值,對異常值也更具魯棒性。Huber損失函數的良好性能得益於精心訓練的超參數δ。

對數余弦損失函數是比L2更平滑的損失函數,雙曲余弦用於計算預測誤差:

它的優點是小誤差時log(cosh(x))非常接近(x**2)/2,大誤差時非常接近abs(x)-log2。這意味著對數余弦損失函數可以具有MSE的優點,而不會受到異常值的太大影響。它具有Huber的所有優點,並且在每壹點都是二次可導的。二次可微在很多機器學習模型中是非常必要的,比如使用牛頓法的XGBoost優化模型(Hessian矩陣)。

在大多數現實世界的預測問題中,我們經常希望看到我們預測結果的不確定性。對於具體業務流程中的決策來說,預測壹個值區間而不是壹個具體的值點是非常重要的。

當我們需要預測結果的範圍時,分位數損失函數是壹個特別有用的工具。通常我們用最小二乘回歸來預測值的區間,這主要是基於殘差方差不變的假設。但很多時候它並不滿足於線性模型。這時就需要分位數損失函數和分位數回歸來保存回歸模型。它對預測區間非常敏感,即使在殘差分布不均勻的情況下也能保持良好的性能。我們用兩個例子來看看異方差數據下分位數損失的回歸表現。

上圖顯示了兩種不同的數據分布,左圖顯示殘差的方差是恒定的,右圖顯示殘差的方差是變化的。我們用正態最小二乘法估計上述兩種情況,橙色線是建模的結果。但是我們無法得到取值範圍,所以需要分位數損失函數來提供。

上圖中的上下虛線是基於分位數損失0.05和0.95得到的值的範圍,從中我們可以清楚的看到建模後預測值的範圍。

分位數回歸的目標是估計給定預測值的條件分位數。實際上,分位數回歸是平均絕對誤差的延伸。分位數的選擇取決於我們是想讓正誤差還是負誤差發揮更大的作用。損失函數將基於分位數γ對過擬合和欠擬合施加不同的懲罰。例如,選擇γ為0.25,意味著更多的過擬合將被懲罰,略小於中位數的預測值將被盡可能地保留。

γ的值通常在0-1之間。圖中描述了不同分位數下的損失函數,很明顯正負誤差不平衡。

參考文章:

/p/b715888f079b

/s?id = 1603857666277651546 & amp;蜘蛛& ampfor=pc

/weixin _ 37933986/文章/詳情/68488339

  • 上一篇:成長型企業如何把握數字化轉型的機遇?
  • 下一篇:新東方營銷管理戰略與策略
  • copyright 2024吉日网官网