這是最著名的建模技術之壹。當人們研究預測模型時,線性回歸通常是首選技術之壹。在這種技術中,因變量是連續的,自變量可以是連續的或離散的,回歸線的性質是線性的。
線性回歸通過使用最佳擬合直線(即回歸線)在因變量(y)和壹個或多個自變量(x)之間建立關系。
用壹個等式表示,即Y=a+b*X+e,其中a代表截距,b代表直線的斜率,e為誤差項。這個方程可以根據給定的預測變量來預測目標變量的值。
壹元線性回歸和多元線性回歸的區別在於多元線性回歸有(>;1)個自變量,而線性回歸通常只有1個自變量。現在的問題是“我們如何獲得最佳擬合線?”。
如何得到最佳擬合線(a和b的值)?
利用最小二乘法可以很容易地解決這個問題。最小二乘法也是擬合回歸線最常用的方法。對於觀察數據,它通過最小化從每個數據點到線的垂直偏差的平方和來計算最佳擬合線。因為相加時偏差首先被平方,所以正值和負值不會抵消。
我們可以用R平方指數來評價模型的性能。有關這些指標的更多信息,請閱讀:模型性能指標Part 1,Part 2。
關鍵點:
(1).自變量和因變量之間必須有線性關系。
(2)多元回歸具有多重線性、自相關性和異方差性。
(3)線性回歸對異常值非常敏感。會嚴重影響北回歸線,最終影響預測值。
(4).多重* * *線性會增加系數估計的方差,使得估計在模型的微小變化下非常敏感。結果,系數的估計值不穩定。
(5).在多個自變量的情況下,可以用向前選擇法、向後淘汰法、逐步篩選法來選擇最重要的自變量。
2.邏輯回歸
邏輯回歸用於計算“事件=成功”和“事件=失敗”的概率。當因變量的類型屬於二元(1/0,真/假,是/否)變量時,應使用邏輯回歸。
關鍵點:
(1).它廣泛應用於分類問題。
(2) Logistic回歸不要求自變量和因變量是線性的。它可以處理各種關系,因為它對預測的相對風險指數或。
3)為了避免過擬合和欠擬合,我們應該包括所有重要的變量。確保這壹點的壹個好方法是使用逐步篩選方法來估計邏輯回歸。
(4)它需要較大的樣本量,因為在樣本數量較少的情況下,極大似然估計的效果要優於普通最小二乘法。