首先,簡單的縮放
分為:最大縮放和均值縮放。
在簡單縮放中,我們的目的是重新調整數據的每個維度的值(這些維度可能是相互獨立的),以使最終的數據向量落在區間內。常見的處理是將這些像素值除以255,這樣就可以縮放到[0,1]。
2.逐個樣本平均減法(也稱為去除DC分量)
如果妳的數據是平穩的(即數據各維度的統計量服從同壹分布),那麽妳可以考慮從每個樣本中減去數據的統計平均值(逐個樣本計算)。
例如:對於壹幅圖像,這種歸壹化可以去除圖像的平均亮度值。很多時候,我們對圖像的光照不感興趣,而更關註它的內容。此時,去除每個數據點的像素平均值是有意義的。
註意:雖然這種方法在圖像中被廣泛使用,但我們在處理彩色圖像時需要格外小心,具體來說,因為不是所有不同顏色通道中的像素都具有固定的特征。
例如
Caffe demo中的classification_demo.m腳本文件對原始數據有這樣的處理。
im _ data = im _ data-mean _ data;
第三,特征標準化(使數據集中所有特征的均值和單位方差為零)
特征標準化的具體方法是:先計算各維數據的平均值(使用所有數據),然後在各維進行歸約。
去掉均值。下壹步是將數據的每個維度除以該維度中數據的標準偏差。
簡單來說:減去原始數據的平均值,再除以原始數據的標準差。
例子
x= [ones(m,1),x];
%x包括2個特征值和1個偏移量,所以矩陣x的規模是x:[mX3]。
sigma = STD(x);%X的標準偏差;mu=均值(x);%X的平均值;x(:,2)= (x(:,2) - mu(2))。/sigma(2);x(:,3)= (x(:,3) - mu(3))。/sigma(3);