傳統自編碼器

類似於對策生成網絡的變分自編碼器就是為了解決數據生成問題而誕生的。在自編碼器的結構中，通常需要壹個輸入數據，並且生成的數據與輸入數據相同。但是，通常期望生成的數據在某種程度上是不同的，這需要輸入隨機向量，並且模型可以學習生成的圖像的風格化特征。因此，在後續研究中，產生了以隨機向量為輸入生成特定樣本的對抗生成網絡結構。變分自編碼器也以隨機分布的樣本作為輸入，並能生成相應的圖像。從這個角度來說，類似於網絡目標生成。然而，變分自編碼器不需要鑒別器，而是使用編碼器來估計特定的分布。整體結構與自編碼器類似，但中間傳遞向量是壹個特定分布的隨機向量，需要特別區分:編碼器、解碼器、生成器和鑒別器。

首先假設壹個隱變量Z的分布，構建壹個從Z到目標數據X的模型，即構造，使學習到的目標數據的概率分布接近真實數據的概率分布。

VAE的結構圖如下:

VAE匹配高斯分布到每個樣本，隱藏變量從高斯分布中采樣。對於每個樣本，假設每個樣本的高斯分布為，問題是如何擬合這些分布。VAE構建了兩個神經網絡來擬合均值和方差。即擬合的原因是不需要添加激活功能。

此外，VAE使每個高斯分布盡可能接近標準高斯分布。擬合過程中的誤差損失通過KL散度來計算，具體推導如下:

VAE也非常類似於GMM(高斯混合模型)，也是壹代模型。事實上，VAE可以被視為GMM的分布式代表版本。GMM是高斯分布的有限個隱變量的混合，而VAE可以看作是無限個隱變量的混合，隱變量可以是高斯的，也可以是非高斯的。

原始樣本數據的概率分布:

假設服從標準高斯分布，則先驗分布為高斯，即。是兩個函數，它們是相應高斯分布的均值和方差，是積分域內所有高斯分布的累加:

因為已知和未知，解題其實就是求這兩個函數。最初的目標是求解，希望越大越好，相當於求解最大對數似然:

但是可以轉化為:

這裏我們發現第二項實際上是sum的KL散度，也就是因為KL散度大於等於0，所以上面的公式可以進壹步寫成:

這樣，找到了壹個下限，這是公式的正確項，即:

原始公式也可以表示為: