當然,壹些基礎知識還是要了解壹下,這裏面有不少的概念還挺不好理解的。深度學習,有專門的卷積神經網絡,在圖像領域取得了非常好的實際效果,已經把傳統的圖像處理的方法快幹趴下了。看了很多關於卷積的解釋,在這裏整理壹下。
網上流傳的壹個段子,非常形象。比如說妳的老板命令妳幹活,妳卻到樓下打臺球去了,後來被老板發現,他非常氣憤,扇了妳壹巴掌(註意,這就是輸入信號,脈沖),於是妳的臉上會漸漸地鼓起來壹個包,妳的臉就是壹個系統,而鼓起來的包就是妳的臉對巴掌的響應,好,這樣就和信號系統建立起來意義對應的聯系。
下面還需要壹些假設來保證論證的嚴謹:假定妳的臉是線性時不變系統,也就是說,無論什麽時候老板打妳壹巴掌,打在妳臉的同壹位置,妳的臉上總是會在相同的時間間隔內鼓起來壹個相同高度的包來,並且假定以鼓起來的包的大小作為系統輸出。好了,那麽,下面可以進入核心內容——卷積了!
如果妳每天都到樓下去打臺球,那麽老板每天都要扇妳壹巴掌,不過當老板打妳壹巴掌後,妳5分鐘就消腫了,所以時間長了,妳甚至就適應這種生活了……。如果有壹天,老板忍無可忍,以0.5秒的間隔開始不間斷的扇妳,這樣問題就來了,第壹次扇妳鼓起來的包還沒消腫,第二個巴掌就來了,妳臉上的包就可能鼓起來兩倍高,老板不斷扇妳,脈沖不斷作用在妳臉上,效果不斷疊加了,這樣這些效果就可以求和了,結果就是妳臉上的包的高度隨時間變化的壹個函數了(註意理解)。
如果老板再狠壹點,頻率越來越高,以至於妳都辨別不清時間間隔了,那麽,求和就變成積分了。可以這樣理解,在這個過程中的某壹固定的時刻,妳的臉上的包的鼓起程度和什麽有關呢?和之前每次打妳都有關!但是各次的貢獻是不壹樣的,越早打的巴掌,貢獻越小,所以這就是說,某壹時刻的輸出是之前很多次輸入乘以各自的衰減系數之後的疊加而形成某壹點的輸出,然後再把不同時刻的輸出點放在壹起,形成壹個函數,這就是卷積,卷積之後的函數就是妳臉上的包的大小隨時間變化的函數。
本來妳的包幾分鐘就可以消腫,可是如果連續打,幾個小時也消不了腫了,這難道不是壹種平滑過程麽?反映到劍橋大學的公式上,f(a) 就是第 a 個巴掌,g(x-a)就是第 a 個巴掌在x時刻的作用程度,乘起來再疊加就 ok 了。
從數學上講,卷積就是壹種運算。通俗易懂的說,卷積就是
** 輸出 = 輸入 * 系統**
雖然它看起來只是個簡單的數學公式,但是卻有著重要的物理意義,因為自然界這樣的系統無處不在,計算壹個系統的輸出最好的方法就是運用卷積。更壹般的,我們還有很多其他領域的應用:
統計學中,加權的滑動平均是壹種卷積。
概率論中,兩個統計獨立變量X與Y的和的概率密度函數是X與Y的概率密度函數的卷積。
聲學中,回聲可以用源聲與壹個反映各種反射效應的函數的卷積表示。
電子工程與信號處理中,任壹個線性系統的輸出都可以通過將輸入信號與系統函數(系統的沖激響應)做卷積獲得。
物理學中,任何壹個線性系統(符合疊加原理)都存在卷積。
計算機科學中,卷積神經網絡(CNN)是深度學習算法中的壹種,近年來被廣泛用到模式識別、圖像處理等領域中。
這6個領域中,卷積起到了至關重要的作用。在面對壹些復雜情況時,作為壹種強有力的處理方法,卷積給出了簡單卻有效的輸出。對於機器學習領域,尤其是深度學習,最著名的CNN卷積神經網絡(Convolutional Neural Network, CNN),在圖像領域取得了非常好的實際效果,始壹出現便橫掃各類算法。
其定義如下:
我們稱 (f * g)(n) 為 f,g 的卷積
其連續的定義為:
其離散的定義為:
再通俗的說,看起來像把壹張二維的地毯從角沿45度斜線卷起來。
以下是壹張正方形地毯,上面保存著f和g在區間[a,\b]的張量積,即U(x,y)=f(x)g(y)。
再看下面最簡單的壹個例子。
考慮到函數 f 和 g 應該地位平等,或者說變量 x 和 y 應該地位平等,壹種可取的辦法就是沿直線 x+y = t 卷起來:
卷了有什麽用?可以用來做多位數乘法,比如:
要解決的問題是:有兩枚骰子,把它們都拋出去,兩枚骰子點數加起來為4的概率是多少?
分析壹下,兩枚骰子點數加起來為4的情況有三種情況:1+3=4, 2+2=4, 3+1=4
因此,兩枚骰子點數加起來為4的概率為:
在這裏我想進壹步用上面的翻轉滑動疊加的邏輯進行解釋。
首先,因為兩個骰子的點數和是4,為了滿足這個約束條件,我們還是把函數 g 翻轉壹下,然後陰影區域上下對應的數相乘,然後累加,相當於求自變量為4的卷積值,如下圖所示:
樓下早點鋪子生意太好了,供不應求,就買了壹臺機器,不斷的生產饅頭。
假設饅頭的生產速度是 f(t),那麽壹天後生產出來的饅頭總量為:
饅頭生產出來之後,就會慢慢腐敗,假設腐敗函數為 g(t),比如,10個饅頭,24小時會腐敗:
用壹個模板和壹幅圖像進行卷積,對於圖像上的壹個點,讓模板的原點和該點重合,然後模板上的點和圖像上對應的點相乘,然後各點的積相加,就得到了該點的卷積值。對圖像上的每個點都這樣處理。由於大多數模板都是對稱的,所以模板不旋轉。卷積是壹種積分運算,用來求兩個曲線重疊區域面積。可以看作加權求和,可以用來消除噪聲、特征增強。
把壹個點的像素值用它周圍的點的像素值的加權平均代替。
卷積是壹種線性運算,圖像處理中常見的mask運算都是卷積,廣泛應用於圖像濾波。
卷積關系最重要的壹種情況,就是在信號與線性系統或數字信號處理中的卷積定理。利用該定理,可以將時間域或空間域中的卷積運算等價為頻率域的相乘運算,從而利用FFT等快速算法,實現有效的計算,節省運算代價。
有這麽壹副圖像,可以看到,圖像上有很多噪點:
自然圖像有其固有特性,也就是說,圖像的壹部分的統計特性與其他部分是壹樣的。這也意味著我們在這壹部分學習的特征也能用在另壹部分上,所以對於這個圖像上的所有位置,我們都能使用同樣的學習特征。
更恰當的解釋是,當從壹個大尺寸圖像中隨機選取壹小塊,比如說 8x8 作為樣本,並且從這個小塊樣本中學習到了壹些特征,這時我們可以把從這個 8x8 樣本中學習到的特征作為探測器,應用到這個圖像的任意地方中去。特別是,我們可以用從 8x8 樣本中所學習到的特征跟原本的大尺寸圖像作卷積,從而對這個大尺寸圖像上的任壹位置獲得壹個不同特征的激活值。
下面給出壹個具體的例子:假設妳已經從壹個 96x96 的圖像中學習到了它的壹個 8x8 的樣本所具有的特征,假設這是由有 100 個隱含單元的自編碼完成的。為了得到卷積特征,需要對 96x96 的圖像的每個 8x8 的小塊圖像區域都進行卷積運算。也就是說,抽取 8x8 的小塊區域,並且從起始坐標開始依次標記為(1,1),(1,2),...,壹直到(89,89),然後對抽取的區域逐個運行訓練過的稀疏自編碼來得到特征的激活值。在這個例子裏,顯然可以得到 100 個集合,每個集合含有 89x89 個卷積特征。
以上,未知來源出處無法壹壹註明。