TWI521502B

TWI521502B - 多聲道音訊的較高頻率和降混低頻率內容的混合編碼

Info

Publication number: TWI521502B
Application number: TW103115174A
Authority: TW
Inventors: 菲力普威廉斯; 麥可舒格; 羅賓席辛
Original assignee: 杜比國際公司; 杜比實驗室特許公司
Priority date: 2013-04-30
Filing date: 2014-04-28
Publication date: 2016-02-11
Also published as: HK1215490A1; RU2581782C1; KR20150138328A; TW201513096A; CN105164749B; BR112015026963A2; BR112015026963B1; CN105164749A; US8804971B1; EP2992528B1; JP6181854B2; WO2014179119A1; JP2016522909A; EP2992528A4; KR101750732B1; EP2992528A1

Description

多聲道音訊的較高頻率和降混低頻率內容的混合編碼

本發明係關於音訊訊號處理，特別關於多聲道音頻編碼(例如，表示多聲道音訊訊號的資料之編碼)及解碼。在典型的實施例中，多聲道輸入音訊的個別聲道的低頻率成分之降混進行波形碼化，而輸入音訊的其它頻率成分(較高頻率)進行參數碼化。某些實施例根據習知的AC-3及E-AC-3(強化AC-3)之格式之一、或是根據其它編碼格式，將多聲道音訊資料編碼。

杜比實驗室提供習稱為杜比數位(Dolby Digital)及杜比數位附加(Dolby Digital Plus)之AC-3及EAC-3的專有實施，杜比數位及杜比數位附加是杜比實驗室授權公司的商標。

雖然發明不侷限於用於根據E-AC-3(或AC-3)格式之音訊資料編碼，但是，為了便於說明，在實施例中將說明根據E-AC-3格式以將音訊位元流編碼。

AC-3或E-AC-3編碼的位元流包括元資料及包括一至六聲道的音訊內容。音訊內容是使用知覺音訊碼化壓縮的音訊資料。AC-3碼化的細節已廣為熟知且揭示於包含下述之很多公開文獻中：ATSC標準A52/A：數位音訊壓縮標準(AC-3)修訂版A，先進電視系統委員會，2001年8月20日；以及美國專利5,583,962；5,632,005；5,633,981；5,727,119；及6,021,386。

杜比數位附加(E-AC-3)碼化的細節揭示於例如2004年10月28日第117屆AES大會之AES大會論文6196「Introduction to Dolby Digital Plus,an Enhancement to the Dolby Digital Coding System」。

AC-3編碼的音頻流的各格含有用於1536個數位音訊取樣之音訊內容和元資料。對於48kHz的取樣率，這代表32毫秒的數位音訊或是每秒音訊31.25格的速率。

各格的E-AC-3編碼音頻位元流視格含有一、二、三或六區塊的音訊資料而分別含有用於256、512、768或1536數位音訊取樣的音訊內容和元資料。

由典型的E-AC-3編碼實施所執行的音訊內容編碼包含波形編碼及參數編碼。

音訊輸入訊號的波形碼化(典型上被執行以壓縮訊號，以致於編碼的訊號比輸入訊號包括更少的位元)以可應用限制之下保留盡可能多的輸入訊號波形之方式(舉例而言，在可能的程度上，編碼訊號的波形符合輸入訊號的波形)，將輸入訊號編碼。舉例而言，在習知的E-AC-3編碼中，藉由產生(在頻域中)輸入訊號的各聲道之各低頻率帶的各取樣(其為頻率成分)之量化表示(量化尾數及指數)，對多聲道輸入訊號的各聲道的多低頻率成分(典型上，達到3.5kHz或4.6kHz)執行波形編碼，以將輸入訊號的此低頻率內容壓縮。

更具體而言，典型的E-AC-3編碼器實施(及某些其它習知的音訊編碼器)會實施心理聲學模型以頻帶為基礎(亦即，典型上，50個近似稱為巴耳克(Bark)量尺的習知心理聲學量尺之頻帶的不均勻的頻帶)，分析表示輸入訊號的頻域資料，而決定各尾數的最佳位元分配。為了對輸入訊號的低頻率成分執行波形編碼，尾數資料(代表低頻率成分)被量化至對應於決定的位元分配之一些位元。量化的尾數資料(及對應的指數資料典型上也是對應的元資料)接著被格式成編碼的輸入位元流。

另一習知型式的音訊訊號編碼為參數編碼，會將輸入音訊訊號的特徵參數取出及將其編碼，使得重建的訊號(在編碼及後續的解碼之後)具有儘可能多的可理解性(受到適用的限制)，但是使得編碼訊號的波形非常不同於輸入訊號的波形。

舉例而言，2003年10月9日公開之PCT國際申請公開號WO 03/083834 A1及2004年11月25日公開之PCT國際申請公開號WO 2004/102532 A1，說明習稱為頻譜延伸碼化的參數碼化型式。在頻譜延伸碼化中，全頻率範圍音訊輸入訊號的頻率補償被編碼作為有限頻率範圍訊號(基頻帶訊號)的頻率成分序列以及決定(以基頻帶訊號)全頻率範圍輸入訊號的近似版本之對應的編碼參數(代表剩餘訊號)的序列。

另一習知型式的參數編碼是聲道耦合碼化。在聲道耦合碼化中，建立音訊輸入訊號的聲道之單聲道降混。將輸入訊號編碼作為此降混(頻率成分序列)及對應的耦合參數序列。耦合參數是決定(以降混)輸入訊號的各聲道之近似版本之位準參數。耦合參數是使單聲道降混的能量匹配輸入訊號的各聲道的能量之頻帶元資料。

舉例而言，5.1聲道輸入訊號的習知E-AC-3編碼(以可利用的192kbps位元速率遞送編碼訊號)典型上實施聲道耦合碼化以將輸入訊號的各聲道之中間頻率成分編碼(在F1<f≦F2，其中，F1典型上等於3.5kHz或是4.6kHz，以及，F2典型上等於10kHz或是10.2kHz)，以及，實施頻譜延伸碼化以將輸入訊號的各聲道之高頻率成分編碼(在F2<f≦F3，其中，F2典型上等於10kHz或是10.2kHz，以及，F3典型上等於14.8kHz或是16kHz)。在聲道耦合編碼執行期間決定的單聲道降混被波形碼化，以及波形碼化降混被遞送(在編碼輸出訊號中)並有耦合參數伴隨。使用聲道耦合編碼執行期間決定的降混作為用於頻譜延伸碼化之基頻帶訊號。頻譜延伸碼化決定(從輸入訊號的各聲道之基頻帶訊號及高頻率成分)另一組編碼參數(SPX參數)。SPX參數包含在編碼輸出訊號中並隨著編碼輸出訊號被遞送。

在有時被稱為空間音訊碼化之另一型式的參數碼化中，產生多聲道音訊輸入訊號的聲道降混(例如，單聲或立體聲降混)。將輸入訊號編碼作為包含此降混(頻率成分序列)及對應的空間參數序列的輸出訊號(或是作為具有對應的空間參數序列之降混的各聲道的波形碼化版本)。空間參數允許從輸入訊號的降混，恢復音訊輸入訊號的各聲道的振幅包絡以及音訊輸入訊號的聲道之間的聲道間關連性。可以對輸入訊號的所有頻率成分(亦即，對輸入訊號的全頻範圍)而不是僅對輸入訊號的全頻範圍的子範圍中的頻率成分，執行此型式的參數碼化(亦即，以致於輸入訊號的編碼版本包含用於輸入訊號的全頻範圍而不僅是其子範圍之降混及空間參數)。

在音訊位元流的E-AC-3或AC-3編碼中，要被編碼之輸入的音訊取樣的區塊進行時間對頻率域轉換，造成頻域資料區塊，通常稱為位於均勻間隔的頻率框中的轉換係數(或是頻率係數或頻率成分)。各框中的頻率係數接著轉換(例如，在圖1系統的BFPE級7中)成包括指數及尾數的浮點格式。

典型地，尾數位元指派是根據微粒訊號頻譜(以用於各頻率框之功率頻譜密度(PSD)值表示)與粗粒遮罩曲線(以各頻帶的遮罩值表示)之間的差異。

圖1是編碼器，配置成對時域輸入音訊資料1執行習知的E-AC-3編碼。編碼器的分析濾波器庫2將時域輸入音訊資料1轉換成頻域音訊資料3，以及，區塊浮點編碼(BFPE)級7產生資料3的各頻率成分之浮點表示，浮點表示包括用於各頻率框的指數及尾數。從級7輸出的頻域資料於此有時將稱為頻域音訊資料3。從級7輸出的頻域音訊資料接著被編碼，包含對級7輸出的頻域資料的低頻率成分(具有小於或等於「F1」的頻率，其中，F1典型上等於3.5kHz或4.6kHz)執行波形碼化(在圖1系統的元件4、6、10及11中)、以及對級7輸出的頻域資料的其它頻率成分(具有大於F1的頻率者)執行參數碼化(在參數編碼級12中)。

波形編碼包含在量化器6中的尾數(從級7輸出的低頻率成分的)的量化及在暫蔽級10中(從級7輸出的低頻率成分的)指數的暫蔽以及級10中產生的暫蔽指數的編碼(在指數碼化級11中)。格式化器8產生E-AC-3編碼位元流9以回應從量化器6輸出的量化資料、從級11輸出之碼化差異指數資料、以及從級12輸出的參數編碼資料。

量化器6根據控制器4產生的控制資料(包含遮罩資料)，執行位元分配及量化。根據人類聽力及聽覺的心理聲學模型(由控制器4實施)，從頻域資料3產生遮蔽資料(決定遮蔽曲線)。心理聲學模型將人類聽力的頻率相依臨界值、及稱為遮蔽的心理聲學現象列入考慮，因而接近一或更多較弱的頻率成分之強力頻率成分傾向於遮蔽較弱成分，使用它們對於聆聽者是聽不到的。這使得將音訊資料編碼時省略較弱的頻率成分成為可能，並藉以取得更高程度的壓縮，而不會不利地影響編碼音訊資料的感知品質(位元流9)。遮蔽資料包括用於頻域音訊資料3的各頻帶的遮蔽曲線值。這些遮蔽曲線值代表各頻帶中由人耳遮蔽的訊號的位準。量化器6使用此資訊以決定如何最佳地使用可供利用的資料位元的數目，以代表輸入的音訊訊號的各頻帶的頻域資料。

知道在習知的E-AC-3編碼中，將差異指數(亦即，連續指數之間的差異)碼化以取代絕對指數。差異指數僅取五值中之一：2,1,0,-1,及-2。假使發現此範圍之外的差異指數時，則將被減掉的指數之一修改，以致於差異指數(在修改後)是在顯著範圍之內(此習知方法稱為「指數暫蔽」或是「暫蔽」)。圖1編碼器的暫蔽級10藉由執行此暫蔽操作而產生暫蔽指數以回應提示給其的原始指數。

在E-AC-3碼化的典型實施例中，以約96kbps至約192kbps範圍內的位元速率，將5或5.1聲道音訊訊號編碼。目前，使用用於訊號的各聲道之較低頻率成分(例如達到3.5kHz或4.6kHz)之離散波形碼化、用於訊號的各聲道之中間頻率成分(例如從3.5kHz至約10kHz或是從4.6kHz至約10kHz)的聲道耦合、以及用於訊號的各聲道之較高頻率成分(例如從10kHz至16kHz或是從10kHz至14.8kHz)的頻譜延伸之組合，以192kbps，典型的E-AC-3編碼器將5聲道(或5.1聲音)輸入訊號編碼。雖然這造成可接受的品質，但是，由於可供遞送編碼的輸出訊號利用的最大位元速率降低至192kbps之下，所以，(編碼的輸出訊號的解碼版本的)品質快速變差。舉例而言，當使用E-AC-3以將5.1聲道音訊編碼以用於串流時，暫時的資料頻寬限制將要求低於192kbps(例如，至64kbps)的資料速率。但是，使用E-AC-3以將5.1聲道訊號編碼而以192kbps之下的位元速率遞送不會產生「廣播品質」編碼音訊。為了將訊號編碼(使用E-AC-3編碼)而以192kbps之下(例如，96kbps、或128kbps、或160kbps)的位元速率遞送，必須找到音訊頻寬(可供遞送編碼的音訊訊號利用)、碼化人造物、及空間崩潰之間可取得的最佳妥協。更一般而言，發明人認知到必須找到音訊頻寬、碼化人造物、及空間崩潰之間的最佳妥協，以將多聲道輸入音訊不同樣地編碼而用於以低(或是典型地小於)位元速率遞送。

一初期的解決之道是將多聲道輸入音訊降混至對於可利用的位元速率能被以適當品質產生的聲道數目(例如，假使這是最小適當的品質，則為「廣播品質」)，然後，執行降混的各聲道之習知編碼。舉例而言，可能將五聲道輸入訊號降混至三聲道降混(其中，可利用的位元速率是128kbps)、或是二聲道降混(其中，可利用的位元速率是96kbps)。但是，此解決之道是以嚴苛的空間崩潰為代價來維持碼化品質以及音訊頻寬。

另一初期的解決之道是避免降混(例如，產生全5.1 聲道編碼輸出訊號以回應5.1聲道輸入訊號)，以及，取代地將編解碼推至其極限。但是，此解決之道雖然能維持儘可能多的寬廣性，但將導入更多的碼化人造物以及犠牲音訊頻寬。

在典型的實施例中，本發明是用於多聲道音訊輸入訊號的混頻編碼之方法(例如，符合E-AC-3標準的編碼方法)。方法包含下述步驟：產生輸入訊號的個別聲道之低頻率成分的降混(例如，具有達到從約1.2kHz至約4.6kHz範圍中或是從約3.5kHz至約4.6kHz範圍中的最大值之頻率)、對降混的各聲道執行波形碼化、以及執行輸入訊號的各聲道之其它頻率成分(至少某些中間頻率及/或高頻率成分)的參數編碼(而不對任何輸入訊號的聲道之其它頻率成分執行初期降混)。

在典型的實施例中，發明的編碼方法將輸入訊號壓縮，以致於編碼的輸出訊號包括比輸入訊號更少的位元，以及，以致於能以低位元速率、良好的品質來傳送編碼的訊號(例如，對符合E-AC-3的實施例，在從約96kbps至約160kbps的範圍中，其中，「kbps」代表每秒一仟位元)。在此脈絡中，在傳輸位元速率實質上小於典型上可供習知編碼音訊傳輸(例如，用於習知E-AC-3編碼音訊的192kbps典型位元速率)利用的位元速率，但是大於最小位元速率之情形中，傳送位元速率是「低的」，在上述最小位元速率之下時，會要求輸入訊號的完全參數碼化以取得適當品質(傳送的編碼訊號的解碼版本)。為了提供適當品質(例如低位元速率的編碼訊號傳輸之後編碼訊號的解碼版本)，將多聲道輸入訊號編碼成為輸入訊號的原始聲道的低頻率內容的波形碼化降混與輸入訊號的各原始聲道的高頻率(比低還高的)內容之參數碼化版本之混合。與各原始輸入聲道的低頻率內容之離散波形碼化相反，將低頻率內容的降混波形碼化，取得顯著的位元速率節省。由於將各輸入聲道的高頻率參數地碼化所要求的資料量(被包括在編碼訊號中)相當地小，所以，能夠將各輸入聲道的較高頻率參數地碼化而不顯著地增加遞送編碼訊號之位元速率，以相當低的「位元速率」成本造成增進的空間成像。發明的混合(波形及參數)碼化方法之典型實施例在導因於空間影像崩潰(導因於降混)的人造物與碼化雜訊之間的平衡下，允許更多控制，以及相對於習知方法取得的感知品質，大致地造成感知品質(編碼訊號的解碼版本)的整體增進。

在某些實施例中，發明是E-AC-3編碼方法或是系統，產生編碼音訊，特別用於在極端頻寬限制環境中作為串流內容遞送。在其它實施例中，發明的編碼方法及系統產生編碼音訊，對更多一般應用可以以更高位元速率遞送。

在實施例等級中，藉由消除(在編碼的輸出訊號中)包含音訊內容的低頻率帶之波形碼化位元之需求，僅有多聲道輸入音訊的各聲道之低頻率帶的降混(低頻率成分的結果降混之波形碼化跟隨在後)節省大量的位元(亦即，縮減編碼的輸出訊號的位元數目)，以及，由於(在編碼訊號中)包含原始輸入音訊的所有聲道之參數碼化內容(例如，聲道耦合及譜頻延伸內容)的結果，也在遞送的編碼訊號的解碼版本的執行期間之空間崩潰最小化(或減少)。由這些實施例產生的編碼訊號相較於其由習知的編碼方法(舉例而言，上述初期編碼方法中之一)產生時具有更多之空間、頻寬、及碼化人造物之間的平衡妥協。

在某些實施例中，發明是多聲道音訊輸入訊號的編碼方法，包含下述步驟：產生輸入訊號的至少某些聲道之低頻率成分的降混；將降混的各聲道波形碼化，藉以產生表示降混的音訊內容之波形碼化降混資料；對輸入訊號的各聲道之至少某些較高頻率成分(例如，中間頻率成分及/或高頻率成分)執行參數編碼(舉例而言，執行中間頻率成分的聲道耦合碼化及高頻率成分的譜頻延伸碼化)，藉以產生表示輸入訊號的該各聲道的至少某些較高頻率成分的參數碼化的資料；以及，產生表示波形碼化、降混資料及參數碼化的資料的編碼音訊訊號。在某些此類實施例中，編碼的音訊訊號是E-AC-3編碼音訊訊號。

本發明的另一態樣是編碼音訊資料的解碼方法，包含下述步驟：接收表示編碼的音訊資料之訊號，其中，編碼的音訊資料是根據發明的編碼方法之任何實施例以編碼音訊資料而產生的，以及，將編碼的音訊資料解碼以產生表示音訊資料的訊號。

舉例而言，在某些實施例中，發明是表示波形碼化的資料及參數碼化的資料的編碼音訊訊號的解碼方法，其中，藉由下述而產生編碼的音訊訊號：產生多聲道音訊輸入訊號的至少某些聲道之低頻率成分的降混、將降混的各聲道波形碼化而藉以產生波形碼化的資料以致該波形碼化的資料表示降混的音訊內容、對輸入訊號的各聲道的至少某些較高頻率成分執行參數編碼而藉以產生參數碼化的資料以致該參數碼化的資料表示輸入訊號的該各聲道的至少某些較高頻率成分、以及產生編碼的音訊訊號以回應波形碼化的資料及參數碼化的資料。解碼方法包含下述步驟：從編碼的音訊訊號中取出波形編碼資料以及參數編碼資料；對取出的波形編碼資料執行波形解碼以產生第一組恢復頻率成分，表示降混的各聲道的低頻率音訊內容；以及，對取出的參數編碼資料執行參數解碼以產生第二組恢復頻率成分，表示多聲道音訊輸入訊號的各聲道的較高頻率(亦即，中間頻率及高頻率)音訊內容。在某些實施例中，多聲道音訊輸入訊號具有N聲道，其中，N是整數，以及，解碼方法也包含產生N聲道解碼頻域資料步驟：藉由結合該第一組恢復頻率成分及該第二組恢復頻率成分，而產生N聲道解碼頻域資料，以致於解碼頻域資料的各聲道表示多聲道音訊輸入訊號的多聲道中不同的一聲道之中間頻率及高頻率音訊內容，以及，至少解碼的頻域資料的聲道子集合中各聲道表示多聲道音訊輸入訊號的低頻率音訊內容。

發明的另一態樣是包含編碼器及解碼器的系統，編碼器配置成(例如，程式化)執行發明編碼方法的任何實施例以產生編碼的音訊資料以回應音訊資料，解碼器配置成將編碼的音訊資料解碼以恢復音訊資料。

發明的其它態樣包含配置成(例如，程式化)執行發明的方法的任何實施例之系統或裝置(例如，編碼器、解碼器、或處理器)、以及儲存實施發明的方法或其步驟的任何實施例之碼的電腦可讀取媒體(例如，碟片)。舉例而言，發明的系統可為或包含可編程的一般用途處理器、數位訊號處理器、或微處理器，以軟體或韌體程式化以及/或以其它方式配置以對資料執行各式各樣操作中的任何操作，包含發明的方法或其步驟之實施例。此一般用途的處理器可為或包含電腦系統，電腦系統包含輸入裝置、記憶體、及可程式化(和/或否則組態成)以執行發明的方法(或其步驟)之實施例的處理電路以回應提示給其的資料。

22‧‧‧時域至頻域轉換級

23‧‧‧降混級

24‧‧‧波形編碼級

26‧‧‧聲道耦合碼化級

27‧‧‧波形碼化級

28‧‧‧頻譜延伸碼化級

30‧‧‧格式化級

32‧‧‧解格式化級

34‧‧‧波形解碼級

36‧‧‧波形解碼級

37‧‧‧聲道解耦合解碼級

38‧‧‧頻譜延伸解碼級

40‧‧‧頻域結合及頻域至時域轉換級

圖1是習知的編碼系統的方塊圖。

圖2是配置成執行發明的編碼方法之實施例的編碼系統的方塊圖。

圖3是配置成執行發明的解碼方法之實施例的解碼系統的方塊圖。

圖4是系統方塊圖，系統包含編碼器及解碼器，編碼器配置成執行發明的編碼方法的任何實施例以產生編碼的音訊資料以回應音訊資料，解碼器配置成將編碼的音訊資料解碼以恢復音訊資料。

將參考圖2，說明發明的碼化方法及系統配置成實施方法之實施例。圖2的系統是E-AC-3編碼器，配置成產生E-AC-3編碼的音訊位元流(31)以回應多聲道音訊輸入訊號(21)。訊號21可為包括音訊內容的五個全範圍聲道之「5.0聲道」時域訊號。

圖2的系統也配置成產生E-AC-3編碼的音訊位元流(31)以回應包括五個全範圍聲道及一低頻率效果(LFE)聲道之5.1聲道音訊輸入訊號21。圖2中所示的元件能夠將五個全範圍輸入聲道編碼、以及提供表示編碼的全範圍聲道之位元給格式化級30以用於包含在輸出位元流31中。用於將LFE聲道(以習知方式)編碼、以及提供表示編碼的LFE聲道之位元給格式化級30以用於包含在輸出位元流31中習知的系統元件未顯示於圖2中。

圖2的時域至頻域轉換級22配置成將時域輸入訊號21的各聲道轉換成頻域音訊資料的聲道。由於圖2的系統是E-AC-3編碼器，所以，各聲道的頻率成分被頻率帶化成50個不均勻的頻帶，近似稱為巴耳克量尺的習知心理聲學之頻帶。在圖2實施例的變異中(舉例而言，其中，編碼的輸出音訊31不具有E-AC-3相符格式)，輸入訊號的各聲道的頻率成分以另一方式頻率帶化(亦即，以任何均勻或不均勻頻帶組為基礎)。

來自級22的所有或某些聲道輸出的低頻率成分在降混級23中進行降混。低頻率成分具有小於或等於最大頻率「F1」之頻率，其中，F1典型上在約1.2kHz至約4.6kHz的範圍中。

從級22輸出的所有聲道的中間頻率成分在級26中進行聲道耦合碼化。中間頻率成分具有頻率f，在範圍F1<f≦F2，其中，F1典型上在約1.2kHz至約4.6kHz的範圍中，F2典型上在約8kHz至約12.5kHz中(例如，F2等於8kHz或10kHz或是10.2kHz)。

從級22輸出的所有聲道的高頻率成分在級28中進行頻譜延伸碼化。高頻率成分具有頻率f，在範圍F2<f≦F3，其中，F2典型上在約2.8kHz至約12.5kHz的範圍中，F3典型上在約10.2kHz至約18kHz中。

發明人決定多聲道輸入訊號的某些或全部聲道的音訊內容的低頻率成分的波形碼化降混(例如具有五全範圍聲道的輸入訊號的三聲道降混)(而不是離散地波形碼化所有五個全範圍輸入聲道的音訊內容的低頻率成分)，以及將輸入訊號的各聲道的其它頻率成分參數地編碼，而在降低位元速率及避免令人不悅的空間崩潰上，相對於使用標準的E-AC-3碼化，可以造成具有改良品質的編碼輸出訊號。圖2系統配置成執行發明的編碼方法之此實施例。舉例而言，在多聲道輸入訊號21具有五個全範圍聲道(亦即，5或5.1聲道音訊訊號)以及被以降低的位元速率編碼(例如，160kbps、或是大於約96kbps及實質上小於192kbps的位元速率(其中，「kbps」代表每秒仟位元)的情形中，圖2系統執行此發明的方法實施例，而以改良的品質(以及，以避免令人不悅的空間崩潰)，產生編碼的輸出訊號31，其中，「降低的」位元速率代表位元速率在標準的E-AC-3編碼器在相同的輸入訊號編碼期間典型地操作的位元速率之下。雖然說明之發明的方法及習知的E-AC-3編碼方法的實施例都使用參數技術以將輸入訊號的音訊內容的中間及較高頻率成分編碼(亦即，如圖2系統的級26中執行的聲道耦合碼化，以及如圖2系統的級28中執行的頻譜延伸碼化)，但是，本發明的方法僅執行輸入音訊訊號的減少數目(例如3)的降混聲道而不是全部五個離散聲道之的內容的低頻率成分之波形碼化。這造成有利的妥協，因此，以空間資訊的損失為代價(由於來自某些聲道(典型上是環繞聲道)的低頻率資料混入其它聲道中(典型上是前方聲道))，而降低降混聲道中的碼化雜訊(例如，由於僅對小於五個而不是五個聲道的低頻率成分執行波形碼化)。發明人判定相較於對輸入訊號以降低的位元速率執行標準的E-AC-3碼化所產生的輸出訊號，此妥協典型上能夠提供較佳的品質輸出訊號(在編碼的輸出訊號的遞送、解碼及歸還之後，提供較佳的聲音品質)。

在典型的實施例中，圖2系統的降混級23以0值取代輸入訊號的聲道的第一子集合之各聲道(典型地，左及右環繞聲道，Ls及Rs)的低頻率成分，以及使輸入訊號的其它聲道(例如，如圖2所示，左前聲道L、中央聲道C、及右前聲道R)之低頻率成分未改變地通過(至波形碼化級24)作為輸入聲道的低頻率成分的降混。替代地，以另一方式產生低頻率內容的降混。舉例而言，在一替代實施中，產生降混的操作包含混合第一子集合的至少一聲道的低頻率成分與輸入訊號的其它聲道中至少之一的低頻率成分(例如，級23可以實施成混合提示給其之右環繞聲道Rs及右前聲道R，以產生降混的右聲道，以及，混合提示給其之左環繞聲道Ls及左前聲道L，以產生降混的左聲道)。

在級23中產生的降混的各聲道在波形編碼級24中進行波形碼化(以習知方式)。在典型的實施中，其中，降混級23以包括0值的低頻率成分聲道取代輸入訊號的聲道的第一子集合之各聲道(例如，如圖2中所指示，左及右環繞聲道，Ls及Rs)的低頻率成分，以及，包括零值的各此類聲道(於此有時稱為「靜音」聲道)與降混的各非零(非靜音)聲道一起從級23輸出。當降混的各非零聲道(在級23中產生的)在級24中進行波形碼化時，從級23提示給級24的各「靜音」聲道典型上也被波形碼化(以非常低的處理及位元成本)。在級24中產生的所有波形編碼聲道(包含任何波形編碼靜音聲道)從級24輸出至格式化級30以用於以適當格式包含在編碼的輸出訊號31。

在典型的實施例中，當編碼的輸出訊號31遞送(例如傳送)至解碼器(例如，將參考圖3而說明的解碼器)時，解碼器看到低頻率音訊內容的全數的波形碼化聲道(例如，五個波形碼化聲道)，但是，它們的子集合(例如，在三聲道降混的情形中，它們中的二個，或是，在二聲道降混的情形中，它們中的三個)是完全由0組成的「靜音」聲道。

為了產生低頻率內容的降混，本發明的不同實施例(例如，圖2的級23的不同實施)採用不同的方法。在某些實施例中，輸入訊號具有五個全範圍聲道(左前、左環繞、右前、右環繞、及中央)以及產生3聲道降混，輸入訊號的左環繞聲道訊號的低頻率成分混入輸入訊號的左前聲道的低頻率成分，以產生降混的左前聲道，以及，輸入訊號的右環繞訊號的低頻率成分混入輸入訊號的右前聲道的低頻率成分，以產生降混的右前聲道。在波形及參數碼化之前，輸入訊號的中央聲道未改變(亦即，未進行混合)，以及，降混的左及右環繞聲道的低頻率成分設定於0。

替代地，假使產生2聲道降混時(亦即，對於更低的位元速率)，除了混合輸入訊號的左環繞聲道的低頻率成分與輸入訊號的左前聲道的低頻率成分之外，典型地，在使輸入訊號的中央聲道的低頻率成分之位準降低3dB之後(考慮分裂左與右聲道之間的中央聲道的功率)，輸入訊號的中央聲道的低頻率成分也與輸入訊號的左前聲道的低頻率成分相混合，以及，輸入訊號的右環繞聲道及中央聲道的低頻率成分會與輸入訊號的右前聲道的低頻率成分相混合。

在其它替代實施例中，產生單聲道(一聲道)降混，或是，產生二或三聲道之外的某數目(例如四)聲道之降混。

再參考圖2，從級22輸出的所有聲道的中間頻率成分(亦即，為回應具有五個全範圍聲道的輸入訊號21而產生的中間頻率成分的所有五個聲道)在聲道耦合碼化級26中進行習知的聲道耦合碼化。級26的輸出、中間頻率成分的單聲道降混(圖2中標示為「單聲音訊」)及耦合參數的對應序列。

在波形碼化級27中，將單聲道降混波形碼化(以習知方式)，以及，自級27輸出的波形碼化降混、及自級26輸出的耦合參數的對應序列提示給格式化級30，用於以適當格式包含在編碼的輸出訊號31中。

因聲道耦合編碼的結果而由級26產生的單聲道降混也提示給頻譜延伸碼化級28。此單聲道降混由級28採用作為基頻帶訊號，以用於從級22輸出的所有聲道的高頻率成分的頻譜延伸碼化。級28配置成使用來自級26的單聲道降混以執行從級22輸出的所有聲道的高頻率成分(亦即，為回應具有五個全範圍聲道的輸入訊號21而產生之高頻率成分的所有五個聲道)的頻譜延伸碼化。頻譜延伸碼化包含對應於高頻率成分的編碼參數(SPX參數)組之決定。

SPX參數與基頻帶訊號(從級26輸出)由解碼器(例如，圖3的解碼器)處理，以重建輸入訊號21的各聲道的音訊內容的高頻率成分的良好近似。SPX參數從碼化級28提示給格式化級30，用於以適當格式包含在編碼的輸出訊號31中。

接著，參考圖3，我們說明用於將圖2編碼器產生之編碼的輸出訊號31解碼的發明之方法和系統的實施例。

圖3的系統是E-AC-3解碼器，其實施發明的解碼系統及方法的實施例，以及配置成恢復多聲道音訊輸入訊號41以回應E-AC-3編碼的音訊位元流(例如，E-AC-3編碼訊號31由圖2編碼器產生，然後傳送或遞送至圖3解碼器)。訊號41可為包括音訊內容的五個全範圍聲道之5.0聲道時域訊號，其中，訊號31表示此5.0聲道訊號的音訊內容。

替代地，假使訊號31表示此5.1聲道訊號的音訊內容，則訊號41可為包括五個全範圍聲道及一低頻率效果(LFE)聲道之5.1聲道時域音訊訊號。圖3中所示的元件能夠將此訊號31標示的五個全範圍聲道解碼(以及，將表示解碼的全範圍聲道之位元提供給級40，以用於產生輸出訊號41)。為了將表示5.1聲道訊號的音訊內容之訊號31解碼，圖3的系統將包含習知的元件(未顯示於圖3中)，用於將此5.1聲道訊號的LFE聲道解碼(以習知方式)，以及，提供表示解碼的LFE聲道的位元給級40，以用於輸出訊號41的產生。

圖3解碼器的解格式化級32配置成從訊號31取出訊號21的所有或某些原始聲道的低頻率成分的降混的波形編碼的低頻率成分(由圖2編碼器的級24產生)、訊號21的中間頻率成分的波形編碼單聲道降混(由圖2編碼器的級27產生)、由圖2編碼器的聲道耦合碼化級26產生的耦合參數序列、以及由圖2編碼器的頻譜延伸碼化級28產生的SPX參數。

級23耦合及配置成將各個取出的波形編碼低頻率成分的降混聲道提示給波形解碼級34。級34配置成對波形編碼低頻率成分的各個此降混聲道執行波形解碼，以恢復從圖2的降混級23輸出之低頻率成分的各降混聲道。典型地，這些恢復的低頻率成分的降混聲道包含靜音聲道(例如，圖3中標示的靜音左環繞聲道，Ls=0，以及，圖3中標示的靜音右環繞聲道，Rs=0)、以及圖2編碼器的級23產生的降混的低頻率成分的各非靜音聲道(例如，圖3中標示的左前聲道L、中央聲道C、及右前聲道R)。從級34輸出的各降混聲道的低頻率成分具有小於或等於「F1」的頻率，其中，F1典型上在約1.2kHz至約4.6kHz的範圍中。

恢復之低頻率成分的降混聲道從級34提示給頻域結合及頻域至時域轉換級40。

為回應級32取出的中間頻率成分的波形編碼單聲道降混，圖3解碼器的波形解碼級36配置成對其執行波形解碼，以恢復從圖2編碼器的聲道耦合編碼級26輸出的中間頻率成分的單聲道降混。為了回應由級36恢復的中間頻率成分的單聲道降混、以及由級32取出的耦合參數序列，圖3的聲道耦合解碼級37配置成執行聲道耦合解碼，以恢復訊號21的原始聲道的中間頻率成分(被提示給圖2編碼器的級26的輸入)。這些中間頻率成分具有在範圍F1<f≦F2中的頻率，其中，F1典型上在約1.2kHz至約4.6kHz的範圍中，F2典型上在約8kHz至約12.5kHz的範圍中(例如，F2等於8kHz或10kHz或10.2kHz)。

恢復的中間頻率成分從級37提示給頻域結合及頻域至時域轉換級40。

由波形解碼級36產生的中間頻率成分的單聲道降混也被提示給頻譜延伸解碼級38。為回應中間頻率成分的單聲道降混、以及級32取出的SPX參數的序列，頻譜延伸解碼級38配置成執行頻譜延伸解碼以恢復訊號21的原始聲道的高頻率成分(被提示給圖2的編碼器的級28的輸入)。這些高頻率成分具有在範圍F2<f≦F3中的頻率，其中，F2典型上是在約8kHz至約12.5kHz的範圍中，以及，F3典型上是在約10.2kHz至約18kHz的範圍中(例如，從約14.8kHz至約16kHz)。

恢復的高頻率成分從級38提示給頻域結合及頻域至時域轉換級40。

級40配置成結合(例如，一起總合)對應於原始多聲道訊號21的左前聲道之恢復的中間頻率成分、高頻率成分、及低頻率成分，以產生左前聲道的全頻率範圍、頻域恢復版本。

類似地，級40配置成結合(例如，一起總合)對應於原始多聲道訊號21的右前聲道之恢復的中間頻率成分、高頻率成分、及低頻率成分，以產生右前聲道的全頻率範圍、頻域恢復版本，以及，結合(例如，一起總合)對應於原始多聲道訊號21的中央之恢復的中間頻率成分、高頻率成分、及低頻率成分，以產生中央聲道的全頻率範圍、頻域恢復版本。

級40也配置成結合(例如，一起總合)原始多聲道訊號21的左環繞聲道之恢復的低頻率成分(由於低頻率成分降混的左環繞聲道是靜音聲道，所以具有零值)與對應於原始多聲道訊號21的左環繞聲道之恢復的中間頻率成分及高頻率成分，以產生具有全頻率範圍之左環繞前聲道的頻域恢復版本(雖然其因圖2編碼器的級23中執行的降混而缺乏低頻率內容)。

級40也配置成結合(例如，一起總合)原始多聲道訊號21的右環繞聲道之恢復的低頻率成分(由於低頻率成分降混的右環繞聲道是靜音聲道，所以具有零值)與對應於原始多聲道訊號21的右環繞聲道之恢復的中間頻率成分及高頻率成分，以產生具有全頻率範圍之右環繞前聲道的頻域恢復版本(雖然其因圖2編碼器的級23中執行的降混而缺乏低頻率內容)。

級40也配置成對頻率成分的各恢復(頻域)之全頻率範圍聲道執行頻域至時域轉換，以產生解碼的輸出訊號41的各聲道。訊號41是時域、多聲道音訊訊號，其聲道是原始多聲道訊號21的聲道之恢復版本。

更一般而言，發明的解碼方法及系統的典型實施例恢復(從根據發明的實施例產生之編碼的音訊訊號)原始多聲道輸入訊號的聲道(某些或全部聲道)之音訊內容的低頻率成分之波形編碼的降混之各聲道，也恢復多聲道輸入訊號的各聲道之內容的參數編碼之中間及高頻率成分的各聲道。為執行解碼，恢復的降混之低頻率成分進行波形解碼，然後以數種不同方式中的任何方式與恢復的中間及高頻率成分的參數解碼版本相結合。在第一級的實施例中，各降混聲道的低頻率成分與對應的參數碼化聲道的中間及高頻率成分相結合。舉例而言，考慮編碼訊號包含5聲道輸入訊號的低頻率成分之3聲道降混(左前、中央、及右前聲道)，以及，編碼器輸出0值(配合產生低頻率成分降混)取代輸入訊號的左環繞及右環繞聲道的低頻率成分。解碼器的左輸出將是與參數解碼的左聲道訊號(包括中間及高頻率成分)相結合的波形解碼的左前降混聲道(包括低頻率成分)。從解碼器輸出的中央聲道將是與參數解碼中央聲道相結合的波形解碼中央降混聲道。解碼器的右輸出將是與參數解碼的右聲道相結合之波形解碼的右前降混聲道。解碼器的左環繞聲道輸出將正好是左環繞參數解碼訊號(亦即，將不會有非零的低頻率左環繞聲道內容)。類似地，解碼器的右環繞聲道輸出將正好是右環繞參數解碼訊號(亦即，將不會有非零的低頻率右環繞聲道內容)。

在某些替代實施例中，發明的解碼方法包含下述步驟(以及，發明的解碼系統配置成執行)：原始多聲道輸入訊號的聲道(某些或所有聲道)的音訊內容之低頻率成分的波形編碼的降混之各聲道的恢復，以及對降混的低頻率成分的各降混聲道的波形解碼版本之盲升混(亦即，以非回應從編碼器收到的任何參數資料而執行的觀點而言為「盲」)，隨後，升混的低頻率成分的各聲道與從編碼的訊號恢復之參數解碼的中間及高頻率內容的對應聲道之復合。盲升混合器在此技藝中是熟知的，以及，2011年11月10日公告之美國專利申請公開號2011/0274280 A1中說明盲升混的實例。本發明未要求特別的盲升混合器，可以使用不同的盲升混合法以實施發明的不同實施例。舉例而言，考慮接收及解碼包含五聲道輸入訊號(包括左前、左環繞、中央、右環繞、及右前聲道)的低頻率成分的3聲道降混(包括左前、中央、及右前聲道)之編碼的音訊訊號之實施例。在本實施例中，解碼器包含盲升混合器(例如，由圖3的級40於頻域中實施)，配置成對3聲道降混的低頻率成分之各降混聲道(左前、中央、及右前)的波形解碼版本執行盲升混。解碼器也配置成結合 (例如，圖3的級40配置成結合)解碼器的盲升混合器的左前輸出聲道(包括低頻率成分)與解碼器收到的編碼音訊訊號之參數解碼的左前聲道(包括中間及高頻率成分)，結合盲升混合器的左環繞輸出聲道(包括低頻率成分)與解碼器收到的音訊訊號之參數解碼的左環繞聲道(包括中間及高頻率成分)，結合盲升混合器的中央輸出聲道(包括低頻率成分)與解碼器收到的音訊訊號之參數解碼的中央聲道(包括中間及高頻率成分)，結合盲升混合器的右前輸出聲道(包括低頻率成分)與音訊訊號之參數解碼的右前聲道(包括中間及高頻率成分)，以及結合盲升混合器的右環繞輸出與解碼器收到的音訊訊號之參數解碼的右環繞聲道。

在發明的解碼器之典型實施例中，在頻域中執行編碼的音訊訊號的解碼的低頻率內容與訊號的參數解碼的中間及高頻率內容的復合(例如，在圖3解碼器的級40中)，然後，將單一的頻域至時域轉換施加至各復合的聲道(例如，在圖3解碼器的級40中)，以產生完全解碼的時域訊號。或者，發明的解碼器配置成藉由使用第一轉換以逆轉換波形解碼的低頻率成分、使用第二轉換以逆轉換以參數解碼的中間及高頻率成分、然後將結果總合，而在時域執行此復合。

在舉例說明的發明實施例中，圖2系統是可操作而以採用從192kbps下達實質上小於192kbps(例如，96kbps)的位元速率之範圍中可利用的位元速率(為了傳送編碼的輸出訊號)之方式，執行表示聽眾喝采之5.1聲道音訊輸入訊號的E-AC-3編碼。下述舉例說明的位元成本計算假定此系統操作以將表示聽眾喝采及具有五個全範圍聲道之多聲道輸入訊號編碼、以及輸入訊號的各全範圍聲道的頻率成分具有與頻率函數至少實質上相同的分佈。舉例說明的位元成本計算也假定包含藉由對輸入訊號的各全範圍聲道的具有達到4.6kHz的頻率之頻率成分執行波形編碼，對輸入訊號的各全範圍聲道的4.6kHz至10.2kHz的頻率成分執行聲道耦合碼化、以及對輸入訊號的各全範圍聲道的10.2kHz至14.8kHz的頻率成分執行頻譜延伸碼化，系統能執行E-AC-3編碼輸入訊號。假定包含在編碼的輸出訊號中的耦合參數(耦合側鏈元資料)消耗每一全範圍聲道約1.5kbps，以及，耦合聲道的尾數及指數消耗約25kbps(亦即，假定以192kbps的位元速率傳送編碼的輸出訊號，約為傳送個別全範圍聲道將消耗的位元數之約1/5)。導因於執行聲道耦合的位元節省是因為尾數及指數的單一聲道(耦合聲道)的傳送而不是尾數及指數的五聲道(對於在相關範圍中的頻率成分)。

因此，假使在將降混的所有頻率成分編碼之前系統是要將所有音訊內容從5.1降混至立體聲(對降混的各全範圍聲道的10.2kHz至14.8kHz的頻率成分使用頻譜延伸碼化，對從4.6kHz至10.2kHz的頻率成分使用聲道耦合碼化，以及對達到4.6kHz的頻率成分使用波形編碼)，則耦合的聲道將仍然需要消耗約25kbps以取得廣播品質。因此，導因於降混的位元節省(為了實施聲道耦合)將僅是導因於省略不再要求耦合參數之三聲道的耦合參數，數量可達三聲道中的每一聲道約1.5kbps，或是全部約4.5kbps。因此，對立體聲降混執行聲道耦合的成本幾乎與對輸入訊號的原始五個全範圍聲道執行聲道耦合相同(僅約少於4.5kbps)。

對舉例說明的輸入訊號之全部五個全範圍聲道執行頻譜延伸碼化將在編碼的輸出訊號中要求包含頻譜延伸(「SPX」)參數(SPX側鏈元資料)。這將要求在編碼的輸出訊號中包含每一全範圍聲道約3kbps的SPX元資料(對全部五個全範圍聲道總共約15kbps)，仍然假定以192kbps的位元速率傳送編碼的輸出訊號。

因此，假使在將降混的所有頻率成分之前，系統是要將輸入訊號的五個全範圍聲道降混至二聲道時(立體聲降混)(對降混的各全範圍聲道的10.2kHz至14.8kHz之頻率成分使用頻譜延伸碼化，對從4.6kHz至10.2kHz的頻率成分使用聲道耦合碼化，以及對達到4.6kHz的頻率成分使用波形編碼)，則起因於降混的位元節省(對於實施頻譜延伸耦合)將是僅因為省略不再要求這些參數的三聲道的SPX參數，數量達到三聲道中的每一聲道約3kbps，或是總共約9kbps。

在實例中耦合及spx碼化的成本總結於下述表1中。

從表1清楚可見，在編碼前輸入至3/0降混(三個全範圍聲道)之5.1聲道輸入訊號的全降混僅節省9kbps(在耦合及頻率延伸頻帶中)，在編碼前輸入至2/0降混(二個全範圍聲道)之5.1聲道輸入訊號的全降混在耦合及頻率延伸頻帶中僅節省13.5kbps。當然，各個此降混也將減少降混的低頻率成分(具有在用於聲道碼化的最小頻率之下的頻率)的波形編碼所需的位元數目，但是，會以空間崩潰為成本。

發明人認知到由於執行多聲道(例如，如上述實例中的五、三或二聲道)耦合碼化及頻譜延伸碼化的位元成本是如此類似，所以，希望以參數碼化(例如，如上述實例中的耦合碼化及頻譜延伸碼化)，將儘可能多的多聲道音訊訊號的聲道碼化。因此，發明的典型實施例僅降混要編碼的多聲道輸入訊號的聲道(亦即，某些或全部聲道)的低頻率成分(在用於聲道碼化的最小頻率之下)，以及，對降混的各聲道執行波形編碼，以及，也對輸入訊號的各原始聲道的更高頻率成分(在用於參數碼化的最小頻率之上)執行參數碼化(例如，耦合碼化及頻譜延伸碼化)。藉由從編碼的輸出訊號移除離散的聲道指數及尾數，這節省大量的位元數目，且歸功於包含輸入訊號的所有原始聲道之高頻率內容的參數碼化版本而使空間崩潰最小化。

相對於參考上述實例所述之執行5.1聲道訊號的E-AC-3編碼之習知方法，起因於本發明的二實施例之位元成本及節省的比較如下所述。

習知的5.1聲道訊號之E-AC-3編碼的總成本是172.5kbps，這是表1中的左欄中加總之47.5kbps(對輸入訊號之4.6kHz以上的高頻率內容的參數碼化)、加上用於指數的五聲道之25kbps(導因於輸入訊號的各聲道之4.6kHz以下的低頻率內容的波形編碼)、加上用於尾數的五聲道之100kbps(導因於輸入訊號的各聲道之低頻率內容的波形編碼)。

根據本發明的實施例之5.1聲道輸入訊號的編碼之總成本為122.5kbps，其中，產生輸入訊號的五個全範圍聲道的低頻率成分(在4.6kHz之下)的3聲道降混，以及，產生E-AC-3符合的編碼輸出訊號(包含藉由輸入訊號的各原始全範圍聲道的高頻率成分的參數編碼、以及波形編碼降混)，總成本122.5kbps是表1中的左欄中加總之47.5kbps(對輸入訊號之各聲道4.6kHz以上的高頻率內容的參數碼化)、加上用於指數的三聲道之15kbps(導因於降混的各聲道之低頻率內容的波形編碼)、加上用於尾數的三聲道之60kbps(導因於降混之各聲道的低頻率內容的波形編碼)。相對於習知方法，這代表節省50kbps。此節省允許以142kbps的位元速率而不是以習知的編碼輸出訊號的傳送所要求的192kbps，來傳送編碼的輸出訊號(具有與習知的編碼輸出訊號的品質等效之品質)。

可期望上文中說明的發明方法真正實施時，由於靜音聲道中零值資料的最大時間共享，輸入訊號的高頻率(在4.6kHz以上)內容的參數編碼小於表1中所示的用於耦合參數元資料之7.5kbps、以及用於SPX參數元資料之表1中所示的15kbps。因此，相對於習知方法，此真正實施將提供多於50kbps的節省。

類似地，根據本發明的實施例之5.1聲道訊號的編碼之總成本為102.5kbps，其中，產生輸入訊號的五個全範圍聲道的低頻率成分(在4.6kHz之下)的2聲道降混，以及，然後產生E-AC-3符合的編碼輸出訊號(包含藉由輸入訊號的各原始全範圍聲道的高頻率成分的參數編碼、以及波形編碼降混)，總成本102.5kbps是表1中的左欄中加總之47.5kbps(對輸入訊號之各聲道4.6kHz以上的高頻率內容的參數碼化)、加上用於指數的二聲道之10kbps(導因於降混的各聲道之低頻率內容的波形編碼)、加上用於尾數的二聲道之45kbps(導因於降混之各聲道的低頻率內容的波形編碼)。相對於習知方法，這代表節省70kbps。此節省允許以122kbps的位元速率而不是以習知的編碼輸出訊號的傳送所要求的192kbps，來傳送編碼的輸出訊號(具有與習知的編碼輸出訊號的品質等效之品質)。

可期望上文中說明的發明方法真正實施時，由於靜音聲道中零值資料的最大時間共享，輸入訊號的高頻率(在4.6kHz以上)內容的參數編碼小於表1中所示的用於耦合參數元資料之7.5kbps、以及用於SPX參數元資料之表1中所示的15kbps。因此，相對於習知方法，此真正實施將提供多於70kbps的節省。

在某些實施例中，以被降混及接著進行波形編碼之低頻率成分具有降低的(低於典型的)最大頻率(例如，1.2kHz)，而不是在其上時對輸入的音訊內容執行聲道耦合但在其下時對輸入的音訊內容執行波形編碼之典型的最小頻率(在習知的E-AC-3編碼器中，3.5kHz或4.6kHz)之觀點而言，發明的編碼方法實施「強化耦合」碼化。在這些實施例中，比典型的頻率範圍(例如，從1.2kHz至10kHz，或是從1.2kHz至10.2kHz)更寬的輸入音訊的頻率成分進行聲道耦合碼化。而且，在這些實施例中，與導因於聲道編碼的編碼音訊內容包含在編碼的輸出訊號中之耦合參數(位準參數)相較於它們僅有在典型的(較窄的)範圍中的頻率成分進行聲道耦合碼化會被不同地量化(對本發明領域之熟悉技藝者而言，係顯而易見的)。

實施強化耦合碼化的本發明的實施例是所希望的，這是由於它們對於具有小於用於聲道耦合碼化的最小頻率之頻率的頻率成分將典型地遞送零值指數(在編碼的輸出訊號中)，以及降低此最小頻率(藉由實施強化的耦合碼化)因而降低包含在編碼的輸出訊號中浪費的位元(零位元)總數並提供增加的空間性(當解碼及造成編碼訊號時)，但僅稍微增加位元速率成本。

如上所述，在本發明的某些實施例中，選取輸入訊號的第一子集合的聲道(例如，如圖2中所示的L、C、及R聲道)之低頻率成分作為進行波形編碼的降混，以及，將第二子集合的輸入訊號的聲道(典型地，環繞聲道，例如圖2中所示的Ls及Rs聲道)之各聲道的低頻率成分設定於零(以及，也進行波形編碼)。在某些此類實施例中，其中，根據本發明產生的編碼音訊訊號符合E-AC-3標準，即使僅有E-AC-3編碼訊號的第一子集合的聲道之低頻率音訊內容是有用的、波形編碼的、低頻率音訊內容(及E-AC-3編碼訊號的第二子集合聲道的低頻率音訊內容是無用的、波形編碼的、「靜音」音訊內容)，全部聲道集合(第一及第二子集合)必須被格式化及作為E-AC-3訊號遞送。舉例而言，左及右環繞聲道將出現在E-AC-3編碼訊號但是它們的低頻率內容將要求某些開銷成本以傳送之靜音。「靜音」聲道(對應於上述第二子集合聲道)可以根據下述方針配置以最小化此開銷成本。

區塊切換傳統上出現在表示暫態訊號的E-AC-3編碼訊號的聲道上，這些區塊切換將造成此聲道的波形編碼內容的MDCT區塊分裂(在E-AC-3解碼器中)成數目較多的較小塊(然後進行波形解碼)，以及，使得此聲道之高頻率內容的參數(聲道耦合及頻譜延伸)解碼禁能。在靜音聲道中的區塊切換的發訊(包含「靜音」低頻率內容的聲道)將要求更多的開銷成本也將防止靜音聲道之高頻率內容(具有在最小的「聲道耦合解碼」頻率之上的頻率)的參數解碼。因此，用於根據本發明的典型實施例產生的E-AC-3編碼訊號的各靜音聲道之區塊切換應被禁能。

類似地，在根據本發明的實施例中產生的E-AC-3編碼訊號的靜音聲道的解碼期間，習知的AHT及TPNP處理(有時在習知的E-AC-3解碼器的操作中執行)未提供優點。因此，在此E-AC-3編碼訊號的各靜音聲道的解碼期間，使AHT及TPNP處理較佳地禁能。

傳統上包含在E-AC-3編碼訊號的聲道中之隨機顫動旗標(dithflag)參數向E-AC-3解碼器標示是否以隨機雜訊重建由編碼器分配的0位元之尾數(在聲道中)。由於根據實施例產生之E-AC-3編碼訊號的各靜音聲道要成為真正靜音的，所以，在E-AC-3編碼訊號期間，用於各此靜音聲道的隨機顫動旗標應被設定為0。結果，尾數是被分配的0位元(在各此靜音聲道中)，在解碼期間，尾數將不使用雜訊重建。

由E-AC-3解碼器使用傳統上包含在E-AC-3編碼訊號的聲道中的指數策略參數，以控制聲道中的指數之時間及頻率解答。對於根據實施例產生的E-AC-3編碼訊號的各靜音聲道，較佳地選取使指數的傳送成本最小之指數策略。達成此點之指數策略稱為「D45」策略，且其包含每四頻率框一指數以用於第一區塊編碼格(其餘區塊編碼格再使用先前區塊的指數)。

在頻域中實施之發明的編碼方法的某些實施例的一課題是當轉換回時域時(輸入訊號聲道之低頻率內容的)降混會飽和，且無法使用純頻域分析以預測這何時會發生。在某些此類實施例中(例如實施E-AC-3編碼的某些實施例)，藉由在時域中模擬降混(在頻域中真正地產生它之前)以評估剪輯是否將發生，而處理此課題。習知的峰值限制器用以計算比例因數，比例因數接著應用至降混中的所有目的地聲道。僅有被降混的聲道由剪輯防止比例因數衰減。舉例而言，在輸入訊號的左及左環繞聲道的內容被降混至左降混聲道、以及輸入訊號的右及右環繞聲道的內容降混右降混聲道之降混中，中央聲道由於不是降混中的起源或目的地聲道，所以，它將不會比例化。在施加此降混剪輯保護之後，藉由施加習知的E-AC-3 DRC/降混保護，其效果被補償。

發明的其它觀點包含編碼器、解碼器、及系統，編碼器配置成執行發明的編碼方法的任何實施例以產生編碼音訊訊號以回應多聲道音訊輸入訊號(例如，回應表示多聲道音訊輸入訊號的音訊資料)，解碼器配置成將此編碼訊號解碼，系統包含此編碼器及此解碼器。圖4系統是此系統的實例。圖4的系統包含編碼器90、遞送子系統91、及解碼器92，編碼器90配置成(例如，程式化)執行發明的編碼方法之任何實施例，以產生編碼的音訊訊號而回應音訊資料(表示多聲道音訊輸入訊號)。遞送子系統91配置成儲存由編碼器90產生之編碼的音訊訊號(例如，儲存表示編碼的音訊訊號之資料)以及/或傳送編碼的音訊訊號。解碼器92耦合及配置成(例如程式化)從子系統91接收編碼的音訊訊號(或是表示編碼的音訊訊號之資料)(例如，藉由從子系統91中的儲存器中讀取或取出此資料，或是接收由子系統91傳送的此編碼音訊訊號)，以及將編碼的音訊訊號(或是代表其之資料)解碼。解碼器92典型上配置成產生及輸出(例如，至渲染系統)表示原始的多聲道輸入訊號的音訊內容之解碼的音訊訊號。

在某些實施例中，發明是音訊編碼器，配置成藉由將多聲道音訊輸入訊號編碼而產生編碼的音訊訊號。

編碼器包含：

編碼子系統(例如，圖2的元件22、23、24、26、27及28)，配置成產生輸入訊號的至少某些聲道之低頻率成分的降混、將降混的各聲道波形碼化而藉以產生表示降混的音訊內容之波形碼化的、降混的資料、以及對輸入訊號的各聲道之中頻成分及高頻率成分執行參數編碼而藉以產生表示輸入訊號的該各聲道之中頻成分及高頻率成分的參數碼化的資料；以及格式化系統(例如圖2的元件30)，耦合及配置成產生編碼的音訊訊號以回應波形碼化、降混的資料及參數碼化的資料，以致於編碼的音訊訊號表示該波形碼化的、降混的資料及該參數碼化的資料。

在某些此類實施例中，編碼子系統配置成對輸入訊號執行(例如，在圖2的元件22中)時域對頻域轉換，以產生包含輸入訊號的至少某些聲道的低頻率成分及輸入訊號的該各聲道之中頻成分和高頻率成分之頻域資料。

在某些實施例中，本發明是音訊解碼器，配置成將表示波形碼化的資料及參數碼化的資料的編碼音訊訊號解碼(例如，圖2或圖3的訊號31)，其中，藉由產生具有N聲道之多聲道音訊輸入訊號的至少某些聲道之低頻率成分的降混，而產生編碼的音訊訊號，其中，N是整數；將降混的各聲道波形碼化，藉以產生波形碼化的資料，以致於該波形碼化的資料表示降混的音訊內容；對輸入訊號的各聲道的中頻成分及高頻率成分執行參數編碼，藉以產生參數碼化的資料以致於該參數碼化的資料表示輸入訊號的該各聲道之中頻成分及高頻率成分；以及，產生編碼的音訊訊號以回應波形碼化的資料及參數碼化的資料。在這些實施例中，解碼器包含：第一子系統(例如，圖3的元件32)，配置成從編碼的音訊訊號取出波形編碼資料及參數編碼資料；以及第二子系統(例如，圖3的元件34、36、37、38、及40)耦合及配置成對第一子系統取出的波形編碼資料執行波形解碼，以產生表示降混的各聲道之低頻率音訊內容的第一組恢復的頻率成分，以及，對第一子系統取出的參數編碼資料執行參數解碼，以產生表示多聲道音訊輸入訊號的各聲道之中頻及高頻率音訊內容的第二組恢復的頻率成分。

在某些此類實施例中，解碼器的第二子系統也配置成包含藉由結合第一組恢復頻率成分及第二組恢復頻率成分(例如，在圖3的元件40中)，以產生N聲道的解碼頻域資料，以致於解碼的頻域資料的各聲道表示多聲道音訊輸入訊號的多個聲道中不同的一聲道的中頻及高頻率音訊內容，以及，解碼的頻域資料的至少聲道的子集合中的各聲道表示多聲道音訊輸入訊號的低頻率音訊內容。

在某些實施例中，解碼器的第二子系統配置成對解碼的頻域資料的多個聲道中的各聲道執行(例如，在圖3的元件40中)頻域至時域轉換，以產生N聲道、時域解碼的音訊訊號。

本發明的另一態樣是根據發明的編碼方法之實施例產生的編碼音訊訊號之解碼方法(例如，由圖4的解碼器92或圖3的解碼器執行的方法)。

發明可以以硬體、韌體、或軟體、或二者的結合(例如，成為可編程邏輯陣列)實施。除非另外指明，否則包含作為本發明的一部份之演繹法或處理並非固有地關於任何特定電腦或其它設備。特別地，各式各樣的一般用途機器可以與根據此處的揭示而撰寫的程式一起使用，或者，可以更方便地建構更特別的設備(例如，積體電路)以執行要求的方法步驟。因此，本發明可以以在一或更多可編程的電腦系統上(例如，實施圖2的編碼器或圖3的解碼器之電腦系統)執行的一或更多電腦程式實施，一或更多可編程的電腦系統均包括至少一處理器、至少一資料儲存系統(包含依電性及非依電性記憶體及/或儲存元件)、至少一輸入裝置或埠、及至少一輸出裝置或埠。程式碼應用至輸入資料以執行此處所述的功能以及產生輸出資訊。輸出資訊以已知方式施加至一或更多輸出裝置。

各此程式可以以任何所需的電腦語言實施(包含機器、組合語言、或是高階程序、邏輯、或物件導向程式語言)，以與電腦系統通訊。在任何情形中，語言可以是編譯或解譯語言。

舉例而言，當由電腦軟體指令序列實施時，可以由在適當數位訊號處理硬體中執行的多緒軟體指令序列來實施本發明的實施例之各式各樣功能和步驟，在此情形中，實施例的各式各樣裝置、步驟、及功能對應於軟體指令的部份。

各此類電腦程式較佳地儲存在或下載至可由一般或特定用途的可編程電腦讀取之儲存媒體或裝置(例如，固態記憶體或媒體、或磁性或光學媒體)，當儲存媒體或裝置由電腦系統讀取以執行此處所述的程序時，用於規劃及操作電腦。發明的系統也實施成電腦可讀取的儲存媒體、由電腦程式規劃(亦即，儲存)，其中，如此規劃的媒體促使電腦系統以特定及預定的方式操作，以執行此處所述的功能。

已說明本發明的多個實施例。然而，將瞭解在不悖離發明的精神及範圍之下，可以作各種不同的修改。慮及上述揭示，則本發明的眾多修改及變異是可能的。要瞭解，在後附的申請專利範圍的範圍之內，本發明可以以此處具體說明的其它方式實施。

1‧‧‧時域輸入音訊資料

2‧‧‧分析濾波器庫

3‧‧‧頻域音訊資料

4‧‧‧控制器

6‧‧‧量化器

7‧‧‧區塊浮點編碼

8‧‧‧格式化器

9‧‧‧編碼串流

10‧‧‧暫蔽級

11‧‧‧指數碼化

12‧‧‧參數編碼

Claims

一種多聲道音訊輸入訊號的編碼方法，該多聲道音訊輸入訊號具有低頻率成分及較高頻率成分，該方法包含下述步驟：(a)產生該輸入訊號的至少某些聲道之該低頻率成分的降混；(b)波形碼化該降混的各聲道，藉以產生表示該降混的音訊內容之波形碼化的、降混的資料；(c)對該輸入訊號的各聲道之至少某些該較高頻率成分執行參數編碼，藉以產生表示該輸入訊號的該各聲道之該至少某些較高頻率成分的參數碼化的資料；以及(d)產生表示該波形碼化的、降混的資料及該參數碼化的資料之編碼的音訊訊號。
如申請專利範圍第1項之方法，其中，該編碼的音訊訊號是E-AC-3編碼的音訊訊號。
如申請專利範圍第1項之方法，其中，該較高頻率成分包含中頻成分及高頻率成分，以及，其中，該步驟(c)包含下述步驟：執行該中頻成分的聲道耦合碼化；以及執行該高頻率成分的頻譜延伸碼化。
如申請專利範圍第3項之方法，其中，該低頻率成分具有不大於最大值F1的頻率，在約1.2kHz至約4.6kHz的範圍中，該中頻成分具有頻率f，在F1<f≦F2的範圍中，其中，F2是在約8kHz至約12.5kHz的範圍中，以及，該高頻率成分具有頻率f，在F2<f≦F3的範圍中，其中，F3是在約10.2kHz至約18kHz的範圍中。
如申請專利範圍第4項之方法，其中，該編碼的音訊訊號是E-AC-3編碼的音訊訊號。
如申請專利範圍第1項之方法，其中，該輸入訊號具有數目N的全範圍音訊聲道，該降混具有少於N的非靜音聲道，以及，該步驟(a)包含以0值取代該輸入訊號的該全範圍音訊聲道中至少之一的低頻率成分之步驟。
如申請專利範圍第1項之方法，其中，該輸入訊號具有五個全範圍音訊聲道，該降混具有三個非靜音聲道，以及，該步驟(a)包含以0值取代該輸入訊號的該全範圍音訊聲道中之二聲道的低頻率成分之步驟。
如申請專利範圍第1項之方法，其中，該編碼壓縮該輸入訊號，以致於該編碼的音訊訊號包括比該輸入訊號包括的位元更少的位元。
一種音訊編碼器，配置成藉由將多聲道音訊輸入訊號編碼以產生編碼的音訊訊號，該多聲道音訊輸入訊號具有低頻率成分及較高頻率成分，該編碼器包含：編碼子系統，配置成產生該輸入訊號的至少某些聲道之該低頻率成分的降混，波形碼化該降混的各聲道，藉以產生表示該降混的音訊內容之波形碼化的、降混的資料，以及對該輸入訊號的各聲道之至少某些該較高頻率成分執行參數編碼，藉以產生表示該輸入訊號的該各聲道之該至少某些該較高頻率成分的參數碼化的資料；以及格式化子系統，耦合及配置成產生該編碼的音訊訊號，以回應該波形碼化的、降混的資料及該參數碼化的資料，以致於該編碼的音訊訊號表示該波形碼化的、降混的資料及該參數碼化的資料。
如申請專利範圍第9項之編碼器，其中，該編碼子系統配置成對該輸入訊號執行時域至頻域轉換，以產生包含該輸入訊號的至少某些聲道之該低頻率成分及該輸入訊號的該各聲道之該較高頻率成分的頻域資料。
如申請專利範圍第9項之編碼器，其中，該較高頻率成分包含中頻成分及高頻率成分，以及，該編碼子系統配置成藉由執行該中頻成分的聲道耦合碼化以及該高頻率成分的頻譜延伸碼化，以產生該參數碼化的資料。
如申請專利範圍第11項之編碼器，其中，該低頻率成分具有不大於最大值F1的頻率，在約1.2kHz至約4.6kHz的範圍中，該中頻成分具有頻率f，在F1<f≦F2的範圍中，其中，F2是在約8kHz至約12.5kHz的範圍中，以及，該高頻率成分具有頻率f，在F2<f≦F3的範圍中，其中，F3是在約10.2kHz至約18kHz的範圍中。
如申請專利範圍第12項之編碼器，其中，該編碼的音訊訊號是E-AC-3編碼的音訊訊號。
如申請專利範圍第9項之編碼器，其中，該輸入訊號具有至少二全範圍音訊聲道，以及，該編碼子系統配置成藉由以0值取代該輸入訊號的該全範圍音訊聲道中至少之一的低頻率成分，而產生該降混。
如申請專利範圍第9項之編碼器，其中，該編碼器配置成產生該編碼的音訊訊號，以致於該編碼的音訊訊號包括比該輸入訊號包括的位元更少的位元。
如申請專利範圍第9項之編碼器，其中，該編碼的音訊訊號是E-AC-3編碼的音訊訊號。
如申請專利範圍第9項之編碼器，其中，該編碼器是數位訊號處理器。
一種解碼方法，用於將表示波形碼化的資料及參數碼化的資料之編碼的音訊訊號解碼，其中，藉由下述步驟以產生該編碼的音訊訊號：產生多聲道音訊輸入訊號的至少某些聲道之低頻率成分的降混，波形碼化該降混的各聲道，藉以產生波形碼化的資料，以致於該波形碼化的資料表示該降混的音訊內容，對該輸入訊號的各聲道之至少某些該較高頻率成分執行參數編碼，藉以產生參數碼化的資料，以致於該參數碼化的資料表示該輸入訊號的該各聲道之該至少某些較高頻率成分，以及，產生該編碼的音訊訊號以回應該波形碼化的資料及該參數碼化的資料，該方法包含下述步驟：(a)從該編碼的音訊訊號取出該波形編碼的資料及該參數編碼的資料；(b)對在該步驟(a)中取出的該波形編碼資料執行波形解碼，以產生表示該降混的各聲道之低頻率音訊內容的第一組恢復的頻率成分；以及 (c)對在該步驟(a)中取出的該參數編碼資料執行參數解碼，以產生表示該多聲道音訊輸入訊號的各聲道之至少某些較高頻率音訊內容的第二組恢復的頻率成分。
如申請專利範圍第18項之方法，其中，該多聲道音訊輸入訊號具有N聲道，其中，N是整數，以及，其中，該方法也包含下述步驟：(d)包含藉由結合該第一組恢復頻率成分及該第二組恢復頻率成分，而產生N聲道解碼的頻域資料，以致於該解碼的頻域資料的各聲道表示該多聲道音訊輸入訊號的多聲道中不同的一聲道之中間頻率及高頻率音訊內容，以及，該解碼的頻域資料的至少聲道子集合中各聲道表示該多聲道音訊輸入訊號的低頻率音訊內容。
如申請專利範圍第19項之方法，也包含步驟：對解碼的頻域資料的各聲道執行頻域至時域轉換，以產生N聲道、時域解碼的音訊訊號。
如申請專利範圍第19項之方法，其中，該步驟(d)包含下述步驟：對該第一組恢復的頻率成分執行盲升混，以產生升混的頻率成分；以及結合該升混的頻率成分及該第二組恢復的頻率成分，以產生該N聲道解碼的頻域資料。
如申請專利範圍第18項之方法，其中，該編碼的音訊訊號是E-AC-3編碼的音訊訊號。
如申請專利範圍第18項之方法，其中，步驟 (c)包含下述步驟：對該步驟(a)中取出的至少某些參數編碼資料執行聲道耦合解碼；以及對該步驟(a)中取出的至少某些參數編碼資料執行頻譜延伸解碼。
如申請專利範圍第18項之方法，其中，該第一組恢復的頻率成分具有小於或等於最大值F1的頻率，在約1.2kHz至約4.6kHz的範圍中。
一種音訊解碼器，配置成將表示波形碼化的資料及參數碼化的資料之編碼的音訊訊號解碼，其中，藉由下述步驟以產生該編碼的音訊訊號：產生具有N聲道之多聲道音訊輸入訊號的至少某些聲道之低頻率成分的降混，其中，N是整數，波形碼化該降混的各聲道，藉以產生該波形碼化的資料，以致於該波形碼化的資料表示該降混的音訊內容，對該輸入訊號的各聲道之至少某些該較高頻率成分執行參數編碼，藉以產生該參數碼化的資料，以致於該參數碼化的資料表示該輸入訊號的該各聲道之該至少某些較高頻率成分，以及，產生該編碼的音訊訊號以回應該波形碼化的資料及該參數碼化的資料，該解碼器包含：第一子系統，配置成從該編碼的音訊訊號取出該波形編碼的資料及該參數編碼的資料；及第二子系統，耦合及配置成對該第一子系統取出的該波形編碼資料執行波形解碼，以產生表示該降混的各聲道之低頻率音訊內容的第一組恢復的頻率成分，以及對該第一子系統取出的該參數編碼資料執行參數解碼，以產生表示該多聲道音訊輸入訊號的各聲道之至少某些較高頻率音訊內容的第二組恢復的頻率成分。
如申請專利範圍第25項之解碼器，其中，該第二子系統也配置成包含藉由結合該第一組恢復頻率成分及該第二組恢復頻率成分，而產生N聲道解碼的頻域資料，以致於該解碼的頻域資料的各聲道表示該多聲道音訊輸入訊號的多聲道中不同的一聲道之中間頻率及高頻率音訊內容，以及，該解碼的頻域資料的至少聲道子集合中各聲道表示該多聲道音訊輸入訊號的低頻率音訊內容。
如申請專利範圍第26項之解碼器，其中，該第二子系統配置成對解碼的頻域資料的各聲道執行頻域至時域轉換，以產生N聲道、時域解碼的音訊訊號。
如申請專利範圍第26項之解碼器，其中，該第二子系統配置成執行該第一組恢復的頻率成分的盲升混，以產生升混的頻率成分，以及，結合該升混的頻率成分及該第二組恢復的頻率成分，以產生該N聲道解碼的頻域資料。
如申請專利範圍第25項之解碼器，其中，該編碼的音訊訊號是E-AC-3編碼的音訊訊號。
如申請專利範圍第25項之解碼器，其中，該第二子系統配置成對該第一子系統取出的至少某些該參數編碼資料執行聲道耦合解碼，以及對該第一子系統取出的至少某些參數編碼資料執行頻譜延伸解碼。
如申請專利範圍第25項之解碼器，其中，該第一組恢復的頻率成分具有小於或等於最大值F1的頻率，在約1.2kHz至約4.6kHz的範圍中。
如申請專利範圍第25項之解碼器，其中，該解碼器是數位訊號處理器。