模型:模型的確定主要定義自定義預測函數是什麽樣子的,有兩種形式,P(Y|X)和y=f(x)。由於這兩個公式中未知參數ceta不止壹個,所以當ceta不確定時,公式都表示為各種集合。由此,我們求解出公式中的未知參數並確定最終公式,用這個公式進行預測。
數據:在定義了模型的風格之後,我們需要利用已知的數據來探索未知的參數。無論是訓練數據還是測試數據,我們最終都希望公式能夠預測出和真實情況壹樣的結果。其實可能完全壹樣,會有壹些誤差。我們可以稱之為損失,所以引入損失函數,用最小損失求未知參數。
算法:求最小值,求未知參數的壹階導數,盡量使導數等於0。機器學習中常用的算法有兩種:最小二乘法:針對線性模型;梯度下降和上升方法(批量梯度,增量梯度):任何模塊!
如果妳想了解更多關於數據、模型、算法的知識,建議妳看壹下CDA數據分析師的課程。課程內容兼顧了解決數據挖掘過程問題的橫向能力和解決數據挖掘算法問題的縱向能力的培養。通過數字化工作方法探索商業問題。點擊預約免費試聽課。