1.研究的主要問題
機器學習是人工智能最智能、最前沿的研究領域之壹。它主要是從大量的數據中自動或半自動地發現模式的過程,在這個過程中不斷地獲取新的知識或技能,重組已有的知識結構,不斷提高自身的表現,從而達到學習的目的。目前,機器學習是人工智能發展的壹個重要方面。其研究的主要問題是通過壹組觀測數據集,發現壹些通過原理分析和相應的數學運算無法得到的規律,然後利用這些規律對未知或不可觀測的數據進行預測和分析。機器學習的最終目的是根據給定的有限訓練樣本,估計系統的輸入/輸出之間的相互依賴關系,然後根據輸入/輸出之間的關系,對未知的輸出結果做出準確的預測。上述理論可以表述為:變量Y和X之間存在某種未知的依賴關系,即遵循壹個未知的聯合概率F(yx)。機器學習問題的本質是基於n個獨立同分布的觀測樣本:(x1,y1),(x2,y2),...,(xn,yn),在給定的壹組函數F(。其中:f(x,ω)稱為學習函數集或預測函數集;ω稱為函數的廣義參數,ω∈λ;λ是壹組參數。L [y,f(x,ω)]是用f(x,ω)預測y造成的損失,不同類型的學習問題有不同形式的損失函數。通過選擇不同的損失函數,可以形成三個基本的機器學習問題:模式識別、函數逼近和概率密度估計。
含水層含水量預測的綜合物探技術
在模式識別問題中,輸出Y是壹個類別標簽,在分類問題中,系統輸出向量Y可以表示為壹個二元函數,形式為Y = {0,1}(或Y = {-1,1})。預測函數在這裏稱為指示函數,損失函數定義為
含水層含水量預測的綜合物探技術
為了最小化風險,要求貝葉斯決策最小化錯誤率[7]。
在回歸估計問題中,假設訓練機的輸出值為實數Y,f(x,ω)為壹組實函數ω ∈ λ,其中包含的回歸函數為[8]。
含水層含水量預測的綜合物探技術
這裏的回歸函數是當損失函數為
含水層含水量預測的綜合物探技術
在(5-1)的情況下,風險泛函的函數最小化。因此,回歸估計問題可以表述為在概率測度F(x,y)未知,但數據集(x1,y1),(x2,y2),...,(xn,yn)都是已知的。
對於概率密度估計問題,學習的主要目的是根據訓練樣本確定X的概率分布。設估計的密度函數為p(x,ω),那麽損失函數可以定義如下:L [p (x,ω)] =-LNP (x,ω)。這裏的密度函數是在損失函數下使R(ω)最小化。也就是說,密度估計的問題就是在對應的概率密度F(x)未知,給定獨立同分布數據集x1,x2,...,xn。
2.最小化經驗風險
通常,基於數據的機器學習問題的目標是最小化期望風險。但由於所有已知信息只是數據集的期望風險,而期望風險無法計算,根據概率論中的大數定理,將公式(5-1)中的數學期望替換為算術平均,於是定義了如下公式:
含水層含水量預測的綜合物探技術
r(ω)是用已知訓練樣本對方程(5-1)的估計,所以稱為經驗風險。從參數ω得到經驗風險的最小值Remp(ω)以逼近期望風險的最小值R(ω),稱為經驗風險最小化原則,簡稱ERM原則。
通過對基於數據的機器學習問題中經驗風險最小化原則和期望風險最小化要求的研究,可以發現期望風險最小化並沒有相應的理論基礎,只是壹種直觀合理的做法。首先,Remp(ω)和R(ω)都是ω的函數。概率論中的大數定理只是說明,在壹定的條件下,如果數據集趨於無窮大,Remp(ω)在概率意義上就會逼近R(ω),但不能保證使Remp(ω)最小的ω *和使R(ω)最小的ω'在同壹點,更不能保證。其次,即使在數據集數量無限大的情況下能夠保證這些條件,也不能保證在這些前提條件下得到的經驗風險最小化方法在數據集有限(即小樣本數據)的情況下仍然能夠得到最好的結果[9]。盡管存在上述問題,但多年來,這種思想在機器學習方法的研究中壹直占據主導地位。多年來,人們將大部分註意力集中在如何更好地獲得最小經驗風險上。
(二)統計學習理論
1.統計學習理論的出現
統計方法是利用經驗數據研究機器學習的壹般理論,是對大量缺乏合適理論模型的觀測數據的唯壹分析方法。統計方法研究的主要內容是樣本數據個數趨於無窮大時的極限特征。然而,在實際應用中,數據集的數量通常是有限的,有時獲取數據樣本是非常困難或昂貴的。因此,在實際應用中,往往無法滿足數據集個數趨於無窮大或者數據集的數據樣本量較大的基本前提,尤其是在研究高維特征空間時,這壹矛盾尤為突出。因此,研究小樣本數據下的統計學習規律具有重要的實用價值和意義。
Vapnik等人在20世紀60年代中期提出了統計學習理論(SLT),開始研究有限數據集下基於數據的機器學習問題。由於當時的研究程度還不完善,直到90年代中期,統計學習理論才逐漸發展成熟,形成了比較完善的統計學習理論體系。
統計學習理論的本質是系統地研究經驗風險最小化原理成立的條件,有限樣本下經驗風險與預期風險的關系,以及如何利用這些理論尋找新的學習原理和方法。其主要內容包括四個方面:
1)經驗風險最小化原則下統計學習壹致性的條件。
2)統計學習方法在這些條件下的推廣範圍的結論。
3)基於這些界限的小數據樣本歸納推理原理。
4)實現這些新原理的實用方法或算法。
上述四項內容中,最核心的內容是:VC維度、普及能力邊界、結構風險最小化。
2.學習過程的壹致性條件
學習過程的壹致性主要是指當訓練數據集的數目趨於無窮大時,經驗風險的最優值能夠收斂到真實風險的最優值。設Q(z,ωn)為給定獨立同分布觀測數據集z1,z2,…,zn的經驗風險函數公式。
含水層含水量預測的綜合物探技術
最小化函數。如果下面兩個序列的概率收斂於同壹極限,即
含水層含水量預測的綜合物探技術
那麽就說ERM原理與函數集Q(z,ωn),ω∈λ和概率分布函數F(z)是壹致的。其中,是可能風險最小的。
對於有界損失函數,最小化經驗風險的學習壹致性的充要條件是在公式(5-7)的條件下使經驗風險壹致收斂於真實風險:
含水層含水量預測的綜合物探技術
其中:p代表概率,Remp(ω)和R(ω)分別代表n個數據樣本下的經驗風險和相同ω下的真實風險。
以上內容是學習理論的關鍵定理。根據學習理論的關鍵定理,基於經驗風險最小化原則的學習過程壹致性的條件是由預測函數集中的最差函數,即最壞情況決定的。
因為學習理論的關鍵定理只是給出了經驗風險最小化原則成立的充要條件,並沒有給出任何滿足這些條件的學習方法。因此,統計學習理論定義了壹些衡量函數集性能的指標,其中最重要的是Vapnik-Chervonenkis維度。
3.VC維度理論
VC維數是描述壹個函數集或學習機的復雜程度和學習能力的重要指標。在模式識別中,VC維的直觀定義是:對於壹個指標函數集,如果在所有可能的2h形式中,有H個數據樣本可以被函數集中的函數分開,則稱函數集可以將這H個樣本打散;函數集的VC維是它可以分散的最大樣本數h。如果存在可以分散任意數量樣本的函數,則函數集的VC維是無限的。有界實函數的VC維可以通過將其轉化為具有壹定閾值的指示函數來定義。
VC維體現了函數集的學習能力,直接影響學習機的泛化能力。壹般來說,VC維度越大,學習機越復雜,學習能力越強。但是目前還沒有壹個通用的理論可以用來計算任何函數集的VC維數,只有壹些特殊函數集的VC維數是已知的。比如線性分類器和線性實函數在n維實數空間的VC維數是n+1;函數f(x,a)=sin(x,a)和a∈R的VC維數是無窮大。對於壹些復雜的學習機(如神經網絡),其VC維數不僅與函數集有關,還會受到學習算法的影響,因此確定起來會比較困難。對於給定的學習函數集,如何通過理論或實驗方法計算其VC維數,仍是當前統計學習理論中有待研究的問題。
4.泛化的邊界
統計學習理論系統地研究了各類函數集的經驗風險和實際風險之間的關系,即泛化的邊界。對於兩類分類問題,指標函數集中的所有函數都包含最小化經驗風險的函數,經驗風險Remp(ω)與實際風險R(ω)的關系以至少1-η的概率滿足以下關系:
含水層含水量預測的綜合物探技術
其中:h是函數集的VC維數;n是數據樣本的數量。
這個結論說明學習機的實際風險由兩部分組成:壹部分是經驗風險,也就是訓練錯誤,另壹部分叫做置信區間,也叫VC信任,與學習機的VC維度和訓練樣本數有關。等式(5-9)可以簡單地表示為
含水層含水量預測的綜合物探技術
上述公式表明,在訓練樣本有限的情況下,如果學習機的VC維數越高,復雜度越高,置信區間越大,就會導致真實風險與經驗風險的差異越大,這就是“過學習”現象的原因。在機器學習的過程中,既要最小化經驗風險,又要保證VC維數盡可能小,從而縮小置信區間,以達到更小的實際風險,即預測未知樣本,以達到更好的泛化能力。這也是為什麽復雜的學習機或神經網絡可以獲得更好的記憶功能,卻在大多數情況下無法獲得滿意的推廣表現的主要原因。因此,尋找更好地反映學習機能力的參數,得到更好的界,也是未來學習理論的重要研究方向之壹。
5.最小化結構風險
從前面的結論可以看出,在樣本數據有限的情況下,傳統機器學習方法采用的經驗風險最小化原則是不合理的。有必要確保經驗風險和置信範圍都最小化。選擇模型和算法的過程實際上就是優化置信區間的過程。如果選擇的模型適合現有的訓練樣本(相當於壹個合適的h/n值),就可以取得更好的結果。比如在神經網絡中,可以根據問題和樣本的具體情況,選擇不同的網絡結構(對應不同的VC維度),然後將經驗風險降到最低。
(三)支持向量機理論[10 ~ 14]
1.支持向量機的基本思想
支持向量機(Support vector machines,SVM)是由Vladimir N.Vapnik在20世紀90年代根據統計學習理論中的結構風險最小化原理提出的壹種新的通用機器學習技術。SVM是由線性可分情況下的最優分類面發展而來的,其基本思想可以用圖5-1所示的二維情況來說明。在圖5-1中,實心點和空心點代表兩類數據樣本,其中H是分類線,H1和H2是穿過最接近分類線的數據樣本並與分類線平行的直線,它們之間的距離稱為分類余量。所謂最優分類線,要求分類線既能正確區分兩種類型,又能使區間最大化。前者確保經驗風險最小化;最大化分類區間實際上就是最小化泛化世界中的置信區間,從而保證最小的真實風險。當擴展到高維空間時,最優分類線轉化為最優分類面。
圖5-1優化分類面示意圖
2.最佳分類表面
最優分類面不僅要求分類超平面能正確分離兩類,而且要求分類區間最大化,因為要使結構風險最小化,就要求分類超平面集合的VC維數最小化。根據VC維理論,給定訓練樣本時,分類區間越大,對應的分類超平面集的VC維越小,因此需要最大的分類區間,這就是最大區間(分類)原理。
根據最大區間原理,對於線性可分的訓練集
T={(x1,y1),…,(xn,yn)}∈(X×Y)n,
其中Xi ∈ x = r”,yi∈Y={+1,-1},i=1,…,n;
如果其分類線性方程為ω x+b = 0,
那麽訓練集中的向量應該滿足
含水層含水量預測的綜合物探技術
此時分類區間等於,最大區間相當於‖ω‖2最小。滿足公式(5-11)。而最小的分類平面就是圖5-1中的最優分類線H。
因此,最優分類面問題可以用下面的約束優化問題來表示,即在公式(5-11)的約束下,求下面函數的最小值:
含水層含水量預測的綜合物探技術
定義拉格朗日函數:
含水層含水量預測的綜合物探技術
其中:αi≥0為拉格朗日乘數。
為了求公式(5-13)的最小值,我們分別對ω,b,αi取偏導數,使之為0,則得到
含水層含水量預測的綜合物探技術
通過拉格朗日對偶理論,上述求解最優分類面的問題可以轉化為它的對偶問題:
含水層含水量預測的綜合物探技術
αi是原問題中每個約束條件對應的拉格朗日乘子。這是壹個帶有不等式約束的二次函數優化問題,有唯壹的解。如果α*i是最優解,則最優分類面的權系數向量是支持向量的線性組合。
可以用約束條件α i [yi (ω xi+b)-1] = 0來求解,求解上述問題後得到的最優分類面函數為:
含水層含水量預測的綜合物探技術
Sgn()是壹個符號函數。由於對於αi,非支持向量都是零,所以上面公式中的求和實際上是針對支持向量的。B*是分類閾值,可以通過公式(5-11)的任意壹個支持向量,或者取任意壹對兩類支持向量的中值得到。這是對SVM最概括的表述。
3.廣義最優分類面
當最優分類面不能完全分離兩類點時,為了在經驗風險和泛化性能之間取得壹定的平衡,我們在允許誤分類樣本存在的條件中引入壹個松弛變量ξ,此時的分類面ω a+b = 0滿足:
含水層含水量預測的綜合物探技術
當0
含水層含水量預測的綜合物探技術
其中:c是壹個正常數,稱為懲罰因子。
類似於線性可分的情況,等式(5-18)可以通過下面的二次規劃來實現:
含水層含水量預測的綜合物探技術
對於非線性分類問題,如果原空間中的簡單最優分類面不能得到滿意的分類結果,可以通過非線性變換將原問題轉化為高維空間中的線性問題,在變換空間中尋找最優分類面。
由於變換可能比較復雜,壹般難以實現,SVM可以通過核函數變換巧妙地解決這個問題。
4.核函數
核函數法的核心內容是利用非線性變換φ將N維向量空間中的隨機向量X映射到高維特征空間[11],在高維特征空間中設置相應的線性學習算法。由於坐標分量之間的相互作用僅限於內積,所以不需要知道非線性變換φ的具體形式,只需用滿足Mercer條件的核函數替換線性算法中的內積,就可以得到原輸入空間中相應的非線性算法。默瑟條件定義為
對於任意對稱函數K(x,x '),它是特征空間內積運算的充要條件。對於任何對稱函數k (x),它不是常數等於零,且∫ φ 2 (x) dx
在支持向量機中,不同的核函數可以用來構造輸入空間中具有不同類型非線性決策面的學習機。目前滿足Mercer條件的核函數有近10個,但常用的核函數主要有
(1)徑向基函數
含水層含水量預測的綜合物探技術
所構建的支持向量機的判別函數為
含水層含水量預測的綜合物探技術
其中,s個支持向量xi可以確定徑向基函數的中心位置,s是中心的個數。徑向基核函數是壹種常用的核函數,因為其對應的特征空間是無限的,而有限的數據樣本必須在這個特征空間中是線性可分的。
(2)Sigmoid核函數
含水層含水量預測的綜合物探技術
所構建的支持向量機的判別函數為
含水層含水量預測的綜合物探技術
方程(5-23)是常用的三層神經網絡的判別函數,其隱節點對應支持向量。算法中不存在局部極小問題。
(3)多項式函數
含水層含水量預測的綜合物探技術
所構建的支持向量機的判別函數為
含水層含水量預測的綜合物探技術
其中s是支持向量的數量。對於給定的數據集,系統的VC維數取決於包含數據樣本向量的最小超球半徑r和特征空間中權重向量的模,兩者都取決於多項式的次數d。所以系統的VC維數可以通過D的選擇來控制,在上面的公式中,γ,R,D是核函數的參數。
5.支持向量回歸機
支持向量回歸(SVR)的基本思想是通過內積函數定義的非線性變換,將輸入空間數據轉換到壹個高維特征空間,在這個高維空間中尋找輸入特征變量與輸出預測變量之間的線性關系。其基本結構如圖5-2所示。
圖5-2支持向量機結構圖
支持向量回歸機算法是壹個凸二次優化問題,可以保證找到的解是全局最優解,可以解決小樣本、非線性、高維等實際回歸問題。
假設給定的訓練樣本是
{(xi,易),i = 1,2,…,r},xi∈RN為輸入特征值,易∈RN為對應的預測目標值,k為訓練樣本數。
對於支持向量機的函數擬合,首先考慮線性擬合函數。
含水層含水量預測的綜合物探技術
其中,ω和b分別是回歸函數的權重向量和偏差。
如果在給定的ε精度下,所有數據都與線性函數無誤差地擬合,即
含水層含水量預測的綜合物探技術
其中:ε為常數,控制回歸函數的精度。
滿足結構風險最小化原則的目標函數為
含水層含水量預測的綜合物探技術
根據統計學習理論,在這個優化目標下可以獲得更好的泛化能力。考慮到允許誤差,引入松弛因子ζ≤0和ζ*≤0,將公式(5-27)轉化為
含水層含水量預測的綜合物探技術
優化目標函數變成
含水層含水量預測的綜合物探技術
其中常數C & gt0,c代表樣本超過誤差ε的懲罰程度,即它折衷了上式第壹項中VC(Vapnik Chervonenkis)維數的最小化和第二個訓練樣本中誤差的最小化。對偶問題可以通過拉格朗日優化方法得到。
含水層含水量預測的綜合物探技術
制造
其中:αi和α*i分別為拉格朗日系數。
從上面的最小化函數,可以得到支持向量機的回歸擬合函數如下
含水層含水量預測的綜合物探技術
對於非線性問題,可以通過非線性變換將原問題映射為高維特征空間中的線性問題來求解。在高維特征空間中,線性問題中的內積運算可以用核函數來代替,即,
含水層含水量預測的綜合物探技術
這樣,公式(5-31)、(5-32)和(5-33)變成以下形式:
含水層含水量預測的綜合物探技術
制造
0≤αi,α*i≤C,i=,1,2,…,r,
規則
根據庫恩-塔克定理,可以由任何滿足條件的樣本得到。
含水層含水量預測的綜合物探技術
那麽方程(5-38)就是我們要找的ε-SVR預測模型。