當前位置:吉日网官网 - 傳統美德 - 什麽是機器學習?

什麽是機器學習?

說到機器學習,我們要給機器學習壹個準確的定義。在直觀層面上,如果說計算機科學是壹門關於算法的科學,那麽機器學習就是壹門關於“學習算法”的科學,或者說,與普通的顯式編程不同,機器學習是研究在無法顯式編程的情況下,如何讓計算機學習的領域。需要註意的是,它們是否顯式是對人類而言的——人類是否能清楚地理解每壹個決策步驟,對於計算機而言,並不存在構成不同算法的代碼和指令。

更準確地說,機器學習的定義如下:

如果壹個計算機程序在T上的性能(由P測量)隨著經驗E而提高,則稱該程序從關於某個任務T和某個性能測量P的經驗E中學習。

a(機器學習)程序是壹種可以從經驗數據E中學習任務T的算法,它在任務T上的性能度量P會隨著經驗數據E的學習而變得更好。

因為機器學習必須利用壹些經驗,它們往往以數據的形式存在,我們稱之為數據集,其中的每壹個數據稱為記錄。比如,我們可以通過壹個人的性別、年齡、身高來預測他是否患有某種常見病。以下數據可用:

(性別:男;年齡:18;身高:174;妳生病了嗎:沒有)

(性別:女;年齡:17;身高:164;妳生病了嗎:是的)

(性別:男;年齡:20;身高:181;妳生病了嗎:是的)

(性別:女;年齡:16;身高:161;妳生病了嗎:是的)...

這可以稱為數據集,其中每個人的數據稱為壹條記錄。在記錄中,關於對象的描述性數據稱為屬性,因為往往有很多屬性,如年齡、身高等,可以形成屬性向量,這些向量增長的空間稱為屬性空間。而我們的算法需要預測的量叫做壹個標簽——在上面,就是“有病沒病”。在壹些數據集中,有標記,而在另壹些數據集中,沒有標記。標簽形成的空間稱為標簽空間,也稱為輸出空間。

顯然,由於我們只能得到總體數據的壹部分,也就是訓練樣本,所以我們的程序得到的模型不僅能適應這個訓練樣本,而且必須對總體數據有很好的預測效果。這意味著我們的模型必須具有泛化能力。

我們訓練的模型叫做假設,所有的模型壹起構成壹個假設空間。很明顯,可能有各種各樣的假設空間與訓練數據是壹致的——就像對於壹個知識點很少的課堂學習,很多人都可以得到高分,但對於整個數據來說,不同的學習模式顯然有不同的效果——壹個對很多難點知識點的真實測試,壹個把上述膚淺的學霸分開的測試。

每壹個假設,也就是訓練模型,必然有其歸納偏好,也就是說,在訓練集中沒有見過的情況下,或者兩者都有,會選擇哪個模型。歸納偏好是模型泛化的能力基礎。

  • 上一篇:春節有哪些傳統習俗知識?
  • 下一篇:武漢昆玉國際中心寫字樓值得買嗎?
  • copyright 2024吉日网官网