學習整理的相關章節鏈接:
基礎篇_1.音視頻學習框架
基礎篇_2. 顏色空間模型 RBG、YUV、HSV
基礎篇_3.圖像編碼之Bmp
基礎篇_4.音頻基礎概念
基礎篇_5.音頻數據采集
基礎篇_6.音頻編碼PCM
基礎篇_7.音頻編碼WAV
基礎篇_8.音頻編碼MP3\AAC
mp3編碼詳細信息參考如下鏈接
/p/58df71a19901
AAC是高級音頻編碼(Advanced Audio Coding)的縮寫,出現於1997年,最初是基於MPEG-2的音頻編碼技術。由Fraunhofer IIS、Dolby Laboratories、AT&T、Sony等公司***同開發,目的是取代MP3格式。2000年,MPEG-4標準出臺,AAC重新集成了其它技術(PS,SBR),為區別於傳統的MPEG-2 AAC,故含有SBR或PS特性的AAC又稱為MPEG-4 AAC。
AAC是新壹代的音頻有損壓縮技術,它通過壹些附加的編碼技術(比如PS,SBR等),衍生出了LC-AAC,HE-AAC,HE-AACv2三種主要的編碼,LC-AAC就是比較傳統的AAC,相對而言,主要用於中高碼率(>=80Kbps),HE-AAC(相當於AAC+SBR)主要用於中低碼(<=80Kbps),而新近推出的HE-AACv2(相當於AAC+SBR+PS)主要用於低碼率(<=48Kbps),事實上大部分編碼器設成<=48Kbps自動啟用PS技術,而>48Kbps就不加PS,就相當於普通的HE-AAC
AAC***有9種規格,以適應不同的場合的需要:
MPEG-2 AAC LC 低復雜度規格(Low Complexity)--比較簡單,沒有增益控制,但提高了編碼效率,在中等碼率的編碼效率以及音質方面,都能找到平衡點
MPEG-2 AAC Main 主規格
MPEG-2 AAC SSR 可變采樣率規格(Scaleable Sample Rate)
MPEG-4 AAC LC 低復雜度規格(Low Complexity)------現在的手機比較常見的MP4文件中的音頻部份就包括了該規格音頻文件
MPEG-4 AAC Main 主規格 ------包含了除增益控制之外的全部功能,其音質最好
MPEG-4 AAC SSR 可變采樣率規格(Scaleable Sample Rate)
MPEG-4 AAC LTP 長時期預測規格(Long Term Predicition)
MPEG-4 AAC LD 低延遲規格(Low Delay)
MPEG-4 AAC HE 高效率規格(High Efficiency)-----這種規格適合用於低碼率編碼,有
Nero ACC 編碼器支持
目前使用最多的是 LC和HE(適合低碼率) 。流行的Nero AAC編碼程序只支持LC,HE,HEv2這三種規格,編碼後的AAC音頻,規格顯示都是LC。 HE其實就是AAC(LC)+SBR技術,HEv2就是AAC(LC)+SBR+PS技術;
** Hev1和HEv2用此圖簡單表示:**
** (圖中AAC即指的是原來的AAC-LC)**
** HE:“High Efficiency”(高效性)。 HE-AAC v1(又稱AACPlusV1,SBR),用容器的方法實現了AAC(LC)+SBR技術。 SBR其實代表的是Spectral Band Replication(頻段復制)**。簡要敘述壹下,音樂的主要頻譜集中在低頻段,高頻段幅度很小,但很重要,決定了音質。如果對整個頻段編碼,若是為了保護高頻就會造成低頻段編碼過細以致文件巨大;若是保存了低頻的主要成分而失去高頻成分就會喪失音質。SBR把頻譜切割開來,低頻單獨編碼保存主要成分,高頻單獨放大編碼保存音質,“統籌兼顧”了,在減少文件大小的情況下還保存了音質,完美的化解這壹矛盾。
** HEv2:**用容器的方法包含了HE-AAC v1和PS技術。PS指“parametric stereo”(參數立體聲)。原來的立體聲文件文件大小是壹個聲道的兩倍。但是兩個聲道的聲音存在某種相似性,根據香農信息熵編碼定理,相關性應該被去掉才能減小文件大小。所以PS技術存儲了壹個聲道的全部信息,然後,花很少的字節用參數描述另壹個聲道和它不同的地方
(1)AAC是壹種 高壓縮比 的音頻壓縮算法,但它的 壓縮比要遠超過較老的音頻壓縮算法,如AC-3、MP3 等。並且其 質量可以同未壓縮的CD音質相媲美 。
(2)同其他類似的音頻編碼算法壹樣,AAC也是采用了變換編碼算法,但AAC使用了分辨率更高的濾波器組,因此它可以達到更高的壓縮比。
(3)AAC使用了 臨時噪聲重整、後向自適應線性預測、聯合立體聲技術和量化哈夫曼編碼 等最新技術,這些新技術的使用都使壓縮比得到進壹步的提高。
(4)AAC支持 更多種采樣率和比特率、支持1個到48個音軌、支持多達15個低頻音軌、具有多種語言的兼容能力、還有多達15個內嵌數據流 。
(5)AAC支持 更寬的聲音頻率範圍,最高可達到96kHz,最低可達8KHz ,遠寬於MP3的16KHz-48kHz的範圍。
(6)不同於MP3及WMA, AAC幾乎不損失聲音頻率中的甚高、甚低頻率成分 ,並且比WMA在頻譜結構上更接近於原始音頻,因而聲音的保真度更好。專業評測中表明, AAC比WMA聲音更清晰,而且更接近原音 。
(7)AAC采用優化的算法達到了 更高的解碼效率 ,解碼時只需較少的處理能力。
ADIF : Audio Data Interchange Format 音頻數據交換格式 。這種格式的特征是 可以確定的找到這個音頻數據的開始 ,不需進行在音頻數據流中間開始的解碼,即 它的解碼必須在明確定義的開始處進行。故這種格式常用在磁盤文件中 。
ADTS : Audio Data Transport Stream 音頻數據傳輸流 。這種格式的特征是它 是壹個有同步字的比特流,解碼可以在這個流中任何位置開始 。它的特征類似於mp3數據流格式。
簡單說,ADTS可以在任意幀解碼,也就是說它每壹幀都有頭信息。ADIF只有壹個統壹的頭,所以必須得到所有的數據後解碼。且這兩種的header的格式也是不同的,目前壹般編碼後的和抽取出的都是ADTS格式的音頻流。兩者具體的組織結構如下所示:
AAC的ADIF格式見下圖:
AAC的ADTS的壹般格式見下圖:
圖中表示出了ADTS壹幀的簡明結構,其兩邊的空白矩形表示壹幀前後的數據。
ADIF 的頭信息:
ADIF頭信息位於AAC文件的起始處,接下來就是連續的 raw data blocks。
組成ADIF頭信息的各個域如下所示:
ADTS 的固定頭信息:
ADTS的可變頭信息:
(1) 幀同步目的在於找出幀頭在比特流中的位置 ,13818-7規定,aac ADTS格式的幀頭同步字為12比特的“1111 1111 1111”.
(2)ADTS的頭信息為兩部分組成,其壹為固定頭信息,緊接著是可變頭信息。固定頭信息中的數據每壹幀都相同,而可變頭信息則在幀與幀之間可變。
在AAC中,原始數據塊的組成可能有六種不同的元素:
SCE: Single Channel Element單通道元素 。單通道元素基本上只由壹個ICS組成。壹個原始數據塊最可能由16個SCE組成。
CPE: Channel Pair Element 雙通道元素 ,由兩個可能***享邊信息的ICS和壹些聯合立體聲編碼信息組成。
CCE: Coupling Channel Element 藕合通道元素 。代表壹個塊的多通道聯合立體聲信息或者多語種程序的對話信息。
LFE: Low Frequency Element 低頻元素 。包含了壹個加強低采樣頻率的通道。
DSE: Data Stream Element 數據流元素 ,包含了壹些並不屬於音頻的附加信息。
PCE: Program Config Element 程序配置元素 。包含了聲道的配置信息。它可能出現在ADIF 頭部信息中。
FIL: Fill Element 填充元素 。包含了壹些擴展信息。如SBR,動態範圍控制信息等。
AAC解碼流程
[圖片上傳失敗...(image-eaf24c-1543569949388)]
如圖:
在主控模塊開始運行後,主控模塊將AAC比特流的壹部分放入輸入緩沖區,通過 查找同步字得到壹幀的起始 ,找到後,根據ISO/IEC 13818-7所述的語法 開始進行Noisless Decoding(無噪解碼),無噪解碼實際上就是哈夫曼解碼,通過反量化(Dequantize)、聯合立體聲(Joint Stereo),知覺噪聲替換(PNS),瞬時噪聲整形(TNS),反離散余弦變換(IMDCT),頻段復制 (SBR)這幾個模塊之後,得出左右聲道的PCM碼流 ,再由主控模塊將其放入輸出緩沖區輸出到聲音播放設備。
技術解析:
1.主控模塊:
所謂的主控模塊,它的主要任務是操作輸入輸出緩沖區,調用其它各模塊協同工作。
其中,輸入輸出緩沖區均由DSP控制模塊提供接口。輸出緩沖區中將存放的數據為解碼出來的PCM數據,代表了聲音的振幅。它由壹塊固定長度的緩沖區構成,通過調用DSP控制模塊的接口函數,得到頭指針,在完成輸出緩沖區的填充後,調用中斷處理輸出至I2S接口所連接的音頻ADC芯片(立體聲音頻DAC和DirectDrive耳機放大器)輸出模擬聲音。
2.Noisless Decoding(無噪解碼):
無噪編碼就是哈夫曼編碼,它的作用在於進壹步減少尺度因子和量化後頻譜的冗余,
即將尺度因子和量化後的頻譜信息進行哈夫曼編碼。全局增益編碼成壹個8位的無符號整數,第壹個尺度因子與全局增益值進行差分編碼後再使用尺度因子編碼表進行哈夫曼編碼。後續的各尺度因子都與前壹個尺度因子進行差分編碼。量化頻譜的無噪編碼有兩個頻譜系數的劃分。其壹為4元組和2元組的劃分,另壹個為節劃分。對前壹個劃分來說,確定了壹次哈夫曼表查找出的數值是4個還是2個。對後壹個劃分來說,確定了應該用哪壹個哈夫曼表,壹節中含有若幹的尺度因子帶並且每節只用壹個哈夫曼表。
——分段
無噪聲編碼將輸入的1024個量化頻譜系數分為幾個段(section),段內的各點均使用
同壹個哈夫曼表,考慮到編碼效率,每壹段的邊界最好同尺度因子帶的邊界重合。所以每壹段必段傳送信息應該有:段長度,所在的尺度因子帶,使用的哈夫曼表。
——分組和交替
分組是指忽略頻譜系數所在窗,將連續的,具有相同尺度因子帶的頻譜系數分為壹組放在
壹起,***享壹個尺度因子從而得到更好的編碼效率。這樣做必然會引起交替,即本來是以
c[組][窗][尺度因子帶][ 系數索引]為順序的系數排列,變為將尺度因子帶同的系數放在壹起: c[組][尺度因子帶][窗][ 系數索引]
這樣就引起了相同窗的系數的交替。
——大量化值的處理
大量化值在AAC中有兩種處理方法:在哈夫曼編碼表中使用escape標誌或使用脈沖
escape方法。前者跟mp3編碼方法相似,在許多大量化值出現時采用專門的哈夫曼表,這個表暗示了它的使用將會在哈夫曼編碼後面跟跟壹對escape值及對值的符號。在用脈沖escape方法時,大數值被減去壹個差值變為小數值,然後使用哈夫曼表編碼,後面會跟壹個脈沖結構來幫助差值的還原.
3.尺度因子解碼及逆量化
在AAC編碼中,逆量化頻譜系數是由壹個非均勻量化器來實現的,在解碼中需進行其逆運算。即保持符號並進行4/3次冪運算。在頻域調整量化噪聲的基本方法就是用尺度因子來進行噪聲整形。尺度因子就是壹個用來改變在壹個尺度因子帶的所有的頻譜系數的振幅增益值。使用尺度因子這種機制是為了使用非均勻量化器在頻域中改變量化噪聲的比特分配。
——尺度因子帶(scalefactor-band)
頻率線根據人耳的聽覺特性被分成多個組,每個組對應若幹個尺度因子,這些組就叫做尺度因子帶。為了減少信息含有短窗的邊信息,連續的短窗可能會被分為壹組,即將若幹個短窗當成壹個窗口壹起傳送,然後尺度因子將會作用到所有分組後的窗口去。
4.聯合立體聲(Joint Stereo)
聯合立體聲的是對原來的取樣進行的壹定的渲染工作,使聲音更”好聽”些。
5.知覺噪聲替換(PNS)
知覺噪聲替換模塊是壹種以參數編碼的方式模擬噪聲的模塊。在判別出音頻值中的噪
聲後,將這些噪聲不進行量化編碼,而是采用壹些參數告訴解碼器端這是某種噪聲,然後解碼器端將會對這些噪聲用壹些隨機的編碼來制造出這壹類型的噪聲。
在具體操作上,PNS模塊對每個尺度因子帶偵測頻率4kHz以下的信號成分。如果這個
信號既不是音調,在時間上也無強烈的能量變動,就被認為是噪聲信號。其信號的音調及能量變化都在心理聲學模型中算出。
在解碼中,如果發現使用了哈夫曼表13(NOISE_HCB),則表明使用了PNS。由於M/S立體聲解碼與PNS解碼互斥,故可以用參數ms_used來表明是否兩個聲道都用同樣的PNS。如果 ms_used參數為1,則兩個聲道會用同樣的隨機向量來生成噪聲信號。PNS的能量信號用noise_nrg來表示,如果使用了PNS,則能量信號將會代替各自的尺度因子來傳送。噪聲能量編碼同尺度因子壹樣,采用差分編碼的方式。第壹個值同樣為全局增益值。它同強度立體聲位置值及尺度因子交替地放在壹起,但對差分解碼來說又彼此忽略。即下壹個噪聲能量值以上壹個噪聲能量值而不是強度立體聲位置或尺度因子為標準差分解碼。隨機能量將會在壹個尺度因子帶內產生noise_nrg所計算出的平均能量分布。此項技術只有在MPEG-4 AAC中才會使用。
6.瞬時噪聲整形(TNS)
這項神奇的技術可以通過在頻率域上的預測,來修整時域上的量化噪音的分布。在壹
些特殊的語音和劇烈變化信號的量化上,TNS技術對音質的提高貢獻巨大!TNS瞬態噪聲整形用於控制壹個轉換窗口內的瞬時噪聲形態。它是用壹個對單個通道的濾波過程來實現的。傳統的變換編碼方案常常遇到信號在時域變化非常劇烈的問題,特別是語音信號,這個問題是因為量化後的噪聲分布雖然在頻率域上得到控制,但在時域上卻以壹個常數分布在壹個轉換塊內。如果這種塊中信號變化得很劇烈卻又不轉向壹個短塊去,那這個常數分布的噪聲將會被聽到。TNS的原理利用了時域和頻域的二元性和LPC(線性預測編碼)的時頻對稱性,即在其中的任意壹個域上做編碼與在另壹域上做預測編碼等效,也就是說,在壹個域內做預測編碼可以在另壹域內增加其解析度。量化噪聲產生是在頻域產生的,降低了時域的解析度,故在這裏是在頻域上做預測編碼。在AACplus中,由於基於AAC profile LC,故TNS的濾波器階數被限制在 12階以內。
7.反離散余弦變換(IMDCT)
將音頻數據從頻域轉換到時域的過程主要是由將頻域數據填入壹組IMDCT濾波器來實現的。在進行IMDCT變換後,輸出數值經過加窗,疊加,最後得到時域數值。
8.頻段復制(SBR)
簡要敘述,音樂的主要頻譜集中在低頻段,高頻段幅度很小,但很重要,決定了
音質。如果對整個頻段編碼,若是為了保護高頻就會造成低頻段編碼過細以致文件巨大;若是保存了低頻的主要成分而失去高頻成分就會喪失音質。SBR把頻譜切割開來,低頻單獨編碼保存主要成分,高頻單獨放大編碼保存音質,“統籌兼顧”了,在減少文件大小的情況下還保存了
音質,完美的化解這壹矛盾。
9.參數立體聲(PS)
對於之前的立體聲文件來說,其文件大小是單聲道的兩倍,但是兩個聲道的聲音存在
某種相似性,根據香農信息熵編碼定理,相關性應該被去掉才能減小文件大小。所以PS技術存儲了壹個聲道的全部信息,之後,用很少的字節當作參數來描述另壹個聲道和它不同的地方。