數據預處理的數據規範化

首先，簡單的縮放

分為:最大縮放和均值縮放。

在簡單縮放中，我們的目的是重新調整數據的每個維度的值(這些維度可能是相互獨立的)，以使最終的數據向量落在區間內。常見的處理是將這些像素值除以255，這樣就可以縮放到[0，1]。

2.逐個樣本平均減法(也稱為去除DC分量)

如果妳的數據是平穩的(即數據各維度的統計量服從同壹分布)，那麽妳可以考慮從每個樣本中減去數據的統計平均值(逐個樣本計算)。

例如:對於壹幅圖像，這種歸壹化可以去除圖像的平均亮度值。很多時候，我們對圖像的光照不感興趣，而更關註它的內容。此時，去除每個數據點的像素平均值是有意義的。

註意:雖然這種方法在圖像中被廣泛使用，但我們在處理彩色圖像時需要格外小心，具體來說，因為不是所有不同顏色通道中的像素都具有固定的特征。

例如

Caffe demo中的classification_demo.m腳本文件對原始數據有這樣的處理。

im _ data = im _ data-mean _ data；

第三，特征標準化(使數據集中所有特征的均值和單位方差為零)

特征標準化的具體方法是:先計算各維數據的平均值(使用所有數據)，然後在各維進行歸約。

去掉均值。下壹步是將數據的每個維度除以該維度中數據的標準偏差。

簡單來說:減去原始數據的平均值，再除以原始數據的標準差。

例子

x= [ones(m，1)，x]；

%x包括2個特征值和1個偏移量，所以矩陣x的規模是x:[mX3]。

sigma = STD(x)；%X的標準偏差；mu=均值(x)；%X的平均值；x(:，2)= (x(:，2) - mu(2))。/sigma(2)；x(:，3)= (x(:，3) - mu(3))。/sigma(3)；