什麽是機器學習？

說到機器學習，我們要給機器學習壹個準確的定義。在直觀層面上，如果說計算機科學是壹門關於算法的科學，那麽機器學習就是壹門關於“學習算法”的科學，或者說，與普通的顯式編程不同，機器學習是研究在無法顯式編程的情況下，如何讓計算機學習的領域。需要註意的是，它們是否顯式是對人類而言的——人類是否能清楚地理解每壹個決策步驟，對於計算機而言，並不存在構成不同算法的代碼和指令。

更準確地說，機器學習的定義如下:

如果壹個計算機程序在T上的性能(由P測量)隨著經驗E而提高，則稱該程序從關於某個任務T和某個性能測量P的經驗E中學習。

a(機器學習)程序是壹種可以從經驗數據E中學習任務T的算法，它在任務T上的性能度量P會隨著經驗數據E的學習而變得更好。

因為機器學習必須利用壹些經驗，它們往往以數據的形式存在，我們稱之為數據集，其中的每壹個數據稱為記錄。比如，我們可以通過壹個人的性別、年齡、身高來預測他是否患有某種常見病。以下數據可用:

(性別:男；年齡:18；身高:174；妳生病了嗎:沒有)

(性別:女；年齡:17；身高:164；妳生病了嗎:是的)

(性別:男；年齡:20；身高:181；妳生病了嗎:是的)

(性別:女；年齡:16；身高:161；妳生病了嗎:是的)...

這可以稱為數據集，其中每個人的數據稱為壹條記錄。在記錄中，關於對象的描述性數據稱為屬性，因為往往有很多屬性，如年齡、身高等，可以形成屬性向量，這些向量增長的空間稱為屬性空間。而我們的算法需要預測的量叫做壹個標簽——在上面，就是“有病沒病”。在壹些數據集中，有標記，而在另壹些數據集中，沒有標記。標簽形成的空間稱為標簽空間，也稱為輸出空間。

顯然，由於我們只能得到總體數據的壹部分，也就是訓練樣本，所以我們的程序得到的模型不僅能適應這個訓練樣本，而且必須對總體數據有很好的預測效果。這意味著我們的模型必須具有泛化能力。

我們訓練的模型叫做假設，所有的模型壹起構成壹個假設空間。很明顯，可能有各種各樣的假設空間與訓練數據是壹致的——就像對於壹個知識點很少的課堂學習，很多人都可以得到高分，但對於整個數據來說，不同的學習模式顯然有不同的效果——壹個對很多難點知識點的真實測試，壹個把上述膚淺的學霸分開的測試。

每壹個假設，也就是訓練模型，必然有其歸納偏好，也就是說，在訓練集中沒有見過的情況下，或者兩者都有，會選擇哪個模型。歸納偏好是模型泛化的能力基礎。

上一篇:春節有哪些傳統習俗知識？

下一篇:武漢昆玉國際中心寫字樓值得買嗎？