TW202429915A

TW202429915A - 頭部追蹤拆分渲染及頭部相關傳遞功能個人化

Info

Publication number: TW202429915A
Application number: TW112134481A
Authority: TW
Inventors: 史蒂芬布魯恩; 里沙普塔吉
Original assignee: 美商杜拜研究特許公司; 瑞典商都比國際公司
Priority date: 2022-09-12
Filing date: 2023-09-11
Publication date: 2024-07-16
Also published as: WO2024059505A1

Abstract

本發明描述用於基於到達方向(DOA)之頭部追蹤拆分渲染及頭部相關傳遞功能(HRTF)個人化之系統、方法及電腦程式產品。頭部追蹤音訊渲染在兩個裝置之間拆分。一第一裝置接收編碼音訊之一主位元流表示。一第二裝置追蹤頭部姿勢資訊。該第一裝置使用一主解碼器解碼該主位元流，且將該解碼之位元流編碼成預渲染雙耳信號及後渲染後設資料。該第二裝置從中間位元流解碼該預渲染雙耳信號及後渲染器後設資料，且將該解碼之預渲染雙耳信號及後渲染器後設資料提供至一輕量化渲染器。該輕量化渲染器基於該後渲染器後設資料、該頭部姿勢資訊、通用HRTF及個人化HRTF將該等預渲染之雙耳信號渲染成雙耳音訊。

Description

頭部追蹤拆分渲染及頭部相關傳遞功能個人化

本發明係關於音訊處理。特定言之，本發明係關於音訊渲染。

擴展實境(XR，(AR/MR/VR))將愈加依賴於功耗非常有限之終端裝置。擴增實境(AR)眼鏡係一突出實例。為使其等儘可能輕量化，其等無法配備重型電池。因此，為實現合理之操作時間，僅非常複雜之受限數值操作可在其等包含之處理器上進行。另一方面，沉浸式音訊係XR服務之一重要媒體組件。此等服務可通常支援回應於3DoF或6DoF使用者(頭部)運動來調整所呈現之沉浸式音訊/視覺場景。為以高品質執行對應之沉浸式音訊再現，通常需要高數值複雜度。

解決此問題之一個潛在解決方案係不在裝置本身上，而在終端裝置連接至之行動/無線網路之某一實體上，或者在終端裝置繫鏈至之一強大行動使用者設備(UE)上執行渲染。在此情況下，終端裝置將例如僅接收經雙耳渲染之音訊。3DoF/6DoF頭部姿勢資訊(頭部追蹤後設資料)將需要傳輸至渲染實體(網路實體/UE)。此之一問題係終端裝置與網路實體/UE之間之傳輸之延時，其可約100ms或更大。因此，在網路實體/UE上進行渲染將意味著其必須依賴過時之頭部追蹤後設資料，且由終端渲染裝置播放之雙耳音訊不匹配頭部/終端裝置之實際頭部姿勢。此延時被稱為運動至聲音之延時。如果其太大，終端使用者將感知其為品質下降。

對於沉浸式媒體渲染之視訊組件，此問題正在藉由拆分渲染方法來解決，其中視訊場景之一近似部分由網路實體/UE渲染，且最終之視訊場景調整在終端裝置上完成。對於音訊，該領域目前探索較少。

在各種音訊服務中，例如沉浸式語音及音訊服務(IVAS)，期望能夠在音訊渲染期間追蹤一使用者之頭部運動，且相應地調整音訊，以給予使用者一沉浸式音訊體驗。此需要使用一組頭部相關傳遞功能(HRTF)進行沉浸式音訊解碼及雙耳渲染，其中特定HRTF之選擇可取決於沉浸式音訊信號及使用者之頭部運動(或頭部姿勢)之性質。取決於沉浸式音訊格式，解碼及頭部追蹤雙耳渲染可係計算複雜之操作。例如，基於場景之音訊(例如，高階環繞聲)、基於通道之音訊(例如，具有7.1.4通道佈局)或具有許多物件之基於物件之音訊可各自依賴於大量組成音訊組件，歸因於此大量性，該等組件之解碼及渲染在計算上係複雜的。此意味著回應於使用者頭部運動解碼一位元流及雙耳渲染需要大量運算處理。計算之複雜性需要功率且產生熱，此對於如AR眼鏡之小型可攜式裝置可係有問題的。

本發明之一目標係克服本文描述之問題，且提供一拆分渲染，其中頭部姿勢特定處理可在一第二裝置處執行。

根據一些實施方案，此目標及其他目標藉由根據技術方案1或技術方案14之一方法來達成。根據另一實施方案，此目標及其他目標由技術方案22之一使用者固持裝置達成。

描述用於基於到達方向(DOA)之頭部追蹤拆分渲染及頭部相關傳遞功能(HRTF)個人化之技術。頭部追蹤音訊解碼及雙耳渲染可在兩個或更多個裝置之間拆分。在一些實例中，一第一裝置可與一第二裝置協調拆分解碼及渲染操作。第一裝置(例如一智慧型電話)接收編碼音訊之一主位元流表示。第一裝置使用一主解碼器及雙耳渲染器將主位元流解碼且渲染成預渲染雙耳信號，且對預渲染雙耳信號及後渲染後設資料進行編碼，該後設資料包含關於與雙耳渲染相關聯之HRTF之資訊。第一裝置將預渲染之雙耳信號及後渲染器後設資料作為一多工化之中間位元流提供至第二裝置。第二裝置(例如一頭戴式耳機、一AR眼鏡或一入耳式耳機)追蹤當前頭部姿勢資訊。第二裝置從中間位元流解碼預渲染雙耳信號及後渲染器後設資料，且將解碼之預渲染雙耳信號及後渲染器後設資料提供至一輕量化渲染器。輕量化渲染器基於後渲染器後設資料、當前頭部姿勢資訊、通用HRTF及視情況個人化HRTF將預渲染之雙耳信號渲染成雙耳音訊。

後渲染後設資料至少包含已經在雙耳預渲染中使用之預渲染HRTF之一指示。預渲染HRTF與音訊內容之一主導方向分量(通常係兩個角度)相對於一假定之頭部姿勢之一到達方向(DOA)相關聯。預渲染HRTF之指示可係DOA或某種索引，容許使用者固持裝置識別正確之HRTF。

在一些實施方案中，預渲染HRTF之指示亦包含可個人化之一個或若干個參數。

渲染可涉及藉由對雙耳音訊信號應用經組態以補償一預渲染HRTF之一效應之一HRTF補償操作來計算一經補償之立體聲音訊信號，以及藉由對補償之立體聲信號應用一後渲染HRTF來計算一雙耳輸出信號。可在一單一操作中執行此等步驟。HRTF補償操作可涉及預渲染HRTF之一逆操作，例如藉由存取一查找表獲得。實現預渲染HRTF補償之其他方式亦係可能的。

本文將雙耳化描述為使用頭部相關傳遞功能(HRTF)來執行，但同樣可使用雙耳房間脈衝回應(BRIRs)來執行。此外，應注意，所有HRTF處理需要針對各時間框及各頻帶執行，通常表達為時間/頻率塊。

在一些應用中，假定之頭部姿勢亦包含在後設資料中。在其他實施方案中，使用者固持裝置經組態以將當前頭部姿勢發送至主裝置。視情況，第二裝置將頭部姿勢資訊之至少一部分編碼成一頭部姿勢位元流，且將該位元流提供至第一裝置。第一裝置解碼頭部姿勢位元流以獲得頭部姿勢資訊，且接著將頭部姿勢資訊應用於主解碼器及預渲染器。主解碼器/預渲染器基於接收之頭部姿勢資訊(亦稱為一假定之頭部姿勢)及通用HRTF對主位元流進行解碼及預渲染。在此情況下，使用者固持裝置可基於一預期之傳輸延遲來估計假定之頭部姿勢。

假定頭部姿勢之資訊與其他資訊一起傳輸至第二裝置，除非該裝置從一先驗知識導出假定頭部姿勢，該先驗知識可基於先前傳輸至第一裝置之(頭部姿勢)資訊或在兩個裝置之間預先約定之一假定頭部姿勢。

另外，本發明係關於另一發明概念，涉及使用一合適之原型信號及一選用之漫射信號進行基於DOA之頭部追蹤拆分渲染之技術。第一裝置使用一主解碼器對主位元流進行解碼，且將經解碼之位元流渲染為被稱為一原型信號之一主導方向分量、及零個或更多個漫射信號以及後渲染後設資料。接著，第一裝置對原型信號及零個或更多個漫射信號(或表示其等之參數)以及後渲染器後設資料進行編碼，且將其作為一經多工化之中間位元流提供至第二裝置。第二裝置解碼來自中間位元流之原型信號及零個或更多個漫射信號及後渲染器後設資料，且將解碼之原型信號及零個或更多個漫射信號及後渲染器後設資料提供至一輕量化渲染器。輕量化渲染器基於後渲染器後設資料、與頭部姿勢相關之資訊、通用HRTF及視情況個人化HRTF將原型信號及零個或多個漫射信號渲染成雙耳音訊。

本說明書中描述之技術可達成優於習知渲染技術之各種技術優勢。在兩個裝置之間拆分處理減少一可穿戴裝置上之處理，從而延長電池壽命。可穿戴裝置基於使用者之當前頭部姿勢執行輕量化渲染，而不必僅依賴於可僅具有對延遲/過時頭部姿勢資訊之存取之一重型渲染裝置之一雙耳再現，重型渲染裝置，從而減少歸因於在渲染期間過時頭部姿勢資訊之潛在使用而導致之運動至聲音之延時。第一裝置之間處理量之分配可係靈活的，例如，藉由將從第二裝置傳輸至第一裝置之頭部姿勢資訊量從無調諧至全部，從而容許匹配具有不同處理能力之各種可穿戴裝置。根據下文描述之實施方式及相關附圖，除上文明確描述之外之其他優點、特徵及益處將係顯而易見的。

此發明內容經提供以以一簡化形式引入概念之一選擇，且既不旨在識別所主張標的物之關鍵或本質特徵，亦不旨在用作對判定所主張標的物之範疇之一幫助。例如，術語「技術」可指上文及貫穿文件描述之背景內容所允許之(若干)系統、(若干)方法、電腦可讀指令、(若干)模組、演算法、硬體邏輯及/或操作。

在以下實施方式中，參考形成本文之一部分且藉由繪示展示特定實例組態之隨附圖式，可實踐該等組態之概念。足夠詳細地描述此等組態以使熟習此項技術者能夠實踐本文描述之技術，且應理解，可利用其他組態，且可在不脫離呈現之概念之精神或範疇之情況下做出其他改變。因此，不應以一限制意義理解以下詳細描述，且僅藉由隨附申請專利範圍界定呈現之概念之範疇。

本申請案揭示之系統及方法可實施為軟體、韌體、硬體或其等之一組合。在一硬體實施方案中，任務劃分不必對應於實體單元之劃分；相反，一個實體組件可具有多個功能性，且一個任務可由若干實體組件協作執行。

電腦硬體可例如為一伺服器電腦、一用戶端電腦、一個人電腦(PC)、一平板PC、一機上盒(STB)、一個人數位助理(PDA)、一蜂巢式電話、一智慧型電話、一網路設備、一網路路由器、交換器或橋接器或能夠執行指定由該電腦硬體採取之動作之指令(循序或以其他方式)之任何機器。此外，本發明應係關於個別或聯合執行指令以執行本文討論之任何一或多個概念之電腦硬體之任何集合。

某些或所有組件可藉由接受含有一指令集之電腦可讀(亦稱為機器可讀)碼之一或多個處理器實施，該指令集當藉由一或多個處理器執行時執行本文描述之至少一個方法。包含能夠執行指定所採取之行動之一指令集(循序或不循序)之任何處理器。因此，一個實例係包含一或多個處理器之一典型處理系統(例如一電腦硬體)。各處理器可包含一CPU、一圖形處理單元及一可程式化DSP單元之一或多者。處理系統進一步可包含一記憶體子系統，其包含一硬碟、SSD、RAM及/或ROM。可包含用於組件之間之通信之一匯流排子系統。在電腦系統執行軟體期間，軟體可駐留在記憶體子系統中及/或處理器內。

一或多個處理器可作為一獨立裝置操作或可連接(例如，網路連結)至其他處理器。此一網路可建立在各種不同網路協定上，且可為網際網路、一廣域網路(WAN)、一區域網路(LAN)或其等之任何組合。

該軟體可分佈在電腦可讀媒體上，該電腦可讀媒體可包括電腦儲存媒體(或非暫時性媒體)及通信媒體(或暫時性媒體)。如熟習此項技術者所熟知，術語電腦儲存媒體包含在用於儲存資訊(諸如電腦可讀指令、資料結構、程式模組或其他資料)之任何方法或技術中實施之揮發性及非揮發性、可抽換及不可抽換媒體兩者。電腦儲存媒體包含但不限於各種形式之實體(非暫時性)儲存媒體，諸如RAM、ROM、EPROM、EEPROM、快閃記憶體或其他記憶體技術、CD-ROM、數位光碟(DVD)或其他光碟儲存器、磁卡、磁帶、磁碟儲存器或其他磁性儲存裝置或可用於儲存所要資訊且可由一電腦存取之任何其他媒體。此外，熟習此項技術者熟知，通信媒體(暫時性)通常將電腦可讀指令、資料結構、程式模組及其他資料體現於諸如一載波或其他傳輸機構之一調變資料信號中，且包含任何資訊遞送媒體。

本發明假定存在一沉浸式音訊編解碼器，諸如一IVAS編解碼器，其在一些擴展實境XR應用中使用。主解碼及預渲染可由一假定之5G系統之一第一裝置(使用者設備，UE)或邊緣或其他網路節點來完成。第二裝置含有一後解碼器及一(輕量化)後渲染器。因此，總體操作可劃分為多個裝置之操作。第一裝置(主裝置)可係一行動裝置，如一膝上型電腦或平板電腦或智慧型電話，或一固定裝置(諸如一工作站或一伺服器)。第一裝置亦可係若干處理裝置之一組合。第二裝置可係一使用者固持(例如穿戴)裝置，諸如一對擴增實境(AR)眼鏡。

應用於拆分渲染領域之一個基本假定及創造性見解是，對於各時頻塊，音訊由一個主導方向分量及一個漫射(全向)分量組成。方向分量被假定為從某一到達方向(DOA)到達之一原型信號S，而漫射分量係該原型信號之一去相關版本。此概念在如DirAC或後設資料輔助空間音訊(MASA)編碼之空間音訊編碼方法中被證明係非常強大的。

基於至少此等假定，各種實例實施方案可包含以下步驟： 1.預渲染器使用給定頭部姿勢P’之一組通用HRTF (或BRIR)來雙耳化解碼之沉浸式音訊，該頭部姿勢P’係經從配備有一頭部追蹤器之一輕量化裝置傳輸，或可僅係不一定對應於使用者之任何實際頭部姿勢，而可係一合理之預設(如一直接向前看之頭部姿勢)之一預設定值。在雙耳預渲染操作期間HRTF之應用可藉由針對各時間/頻率塊之一特定選擇之HRTF來完成。基於沉浸式音訊內容之主要分量之一到達方向(DOA)，相對於假定之頭部姿勢來選擇HRTF。 2.第一或主裝置編碼且傳輸雙耳音訊通道及使用之HRTF及/或DOA角之一指示，以及假定之頭部姿勢P’。 3.第二裝置之後渲染器旨在相對於當前頭部姿勢P(如果其偏離P’)調整接收之左及右雙耳信號。 4.給定由預渲染器應用之HRTF或DOA角度及頭部姿勢，左及右HRTF補償信號由第二裝置基本上藉由左及右音訊通道之逆HRTF濾波且視情況線性組合其等來計算。 5. HRTF補償信號由第二裝置用對應於正確頭部姿勢之正確HRTF濾波。 6.藉由適當選擇所提及之線性組合之權重來減輕漫射分量中之一潛在誤差。

主要理念亦可應用於HRTF個人化，其中通用HRTF由預渲染器使用，而後渲染器補償此等通用HRTF且隨後應用個人化HRTF。

在下文中，參考圖1至圖3繪示本文描述之新穎概念之一實例實施方案。

圖1係根據本發明之各種態樣配置之實施頭部追蹤拆分渲染之一實例系統之一方塊圖。實例系統包含一第一裝置10及一第二裝置20。第一裝置10亦可被稱為一主裝置，而第二裝置20亦可被稱為一行動或使用者固持裝置。

在圖1中，第一或主裝置10包含一解碼器/渲染器11、一選用之頭部姿勢解碼器12、編碼器13及14以及一多工器15。解碼器/渲染器11 (例如一IVAS解碼器)接收(步驟S1)包含編碼之沉浸式音訊內容之主位元流b ₁，解碼(步驟S2)沉浸式音訊內容，且使用與相對於使用者之一假定頭部姿勢P’之一到達方向(DOA)相關聯之HRTF來執行解碼音訊內容之雙耳渲染(步驟S3)。使用之HRTF通常取自一組H _g通用HRTF (用於各種到達方向，DOA)。此處理通常在計算上過於複雜，而無法在一行動或使用者固持(輕量化)裝置中執行。假定之頭部姿勢P’可係一適當之預設頭部姿勢，或者可係從使用者固持裝置接收之一實際使用者頭部姿勢，其可視情況由頭部姿勢解碼器12解碼(步驟S21)。此一經解碼之使用者頭部姿勢可表示一最近之，但並非非常當前之使用者頭部姿勢。渲染器11輸出雙耳信號L ₁、R ₁以及後渲染後設資料M。後渲染後設資料M包含所使用之HRTF之一指示，例如表達為沉浸式音訊內容之主導方向分量之一到達方向(DOA)，其相對於假定之頭部姿勢P’或所使用之HRTF之一索引來表達。後渲染後設資料M亦可包含與雙耳渲染相關聯之頭部姿勢P’之一指示。編碼器13、14經配置以分別將雙耳信號L ₁、R ₁及後渲染後設資料M編碼(步驟S4)成編碼信號b ₁₁及b ₁₂。多工器15經配置以將編碼之雙耳信號b ₁₁及編碼之後設資料b ₁₂多工化或組合(步驟S5)成一中間位元流b ₂，該中間位元流b ₂傳輸(步驟S6)至第二裝置20。

可為一使用者固持裝置20之第二裝置20包含一解多工器21、一解碼器22及23、一編碼器25、一渲染器26及一頭部追蹤器24。使用者固持裝置20接收(步驟S11)中間位元流b ₂，且解多工器21將中間位元流b ₂分離成編碼信號b ₂₁及b ₂₂；其等由對應之解碼器22及23接收。解碼器22及23回應地解碼(步驟S12)編碼信號b ₂₁及b ₂₂，以獲得一解碼之雙耳信號L ₂、R ₂及解碼之後設資料M’。如提及，後設資料M’包含所使用之HRTF之一指示，例如由相對於一向前看之頭部姿勢之一索引或一到達方向來指示。

可包含在使用者固持裝置120中或連接至其之頭部追蹤器124偵測(步驟S13)使用者頭部之一當前頭部姿勢P。編碼器25可視情況用於將偵測到之頭部姿勢P編碼(步驟S131)為b _P，且將編碼之偵測到之頭部姿勢b _P傳輸至主裝置10。

後設資料M’亦可包含在渲染器11中使用之假定頭部姿勢P’。替代地，在將偵測到之頭部姿勢P傳輸至主裝置10之一實施方案中，使用者固持裝置可基於一預期之傳輸延遲來估計假定之頭部姿勢。原則上，假定之頭部姿勢可被假定為在對應於預期傳輸延遲之一時間點偵測到之頭部姿勢。

最後，渲染器26接收解碼之雙耳音訊信號L ₂、R ₂、DOA或使用之HRTF、假定之頭部姿勢P’及當前頭部姿勢P，且計算一輸出雙耳信號L _out、R _out。此處理涉及識別(步驟S14)對應於偵測到之當前頭部姿勢P之一後渲染HRTF，藉由對雙耳音訊信號應用經組態以補償預渲染HRTF之一效應之一HRTF補償操作來計算一經補償之立體聲音訊信號(步驟S15)，以及最終應用(步驟S16)識別之後渲染HRTF。對於下文將討論之此處理，渲染器26具備HRTF資料，通常係一組H _g通用HRTF (用於各種到達方向(DOA))。渲染器26亦可具備一組H _p個人化HRTF。

圖2係繪示一第一裝置(或主裝置)中之處理之一流程圖，其包含上述步驟S1至S6及選用步驟S21。

該程序包含，在步驟S1 (「接收位元流」)接收一位元流，以及在步驟S2 (「解碼」)由一解碼器解碼位元流，以獲得解碼之沉浸式音訊內容。在步驟S21 (「解碼姿勢」)，該程序可包含從一第二使用者固持裝置接收及解碼一當前使用者頭部姿勢之一指示，以及基於當前使用者頭部姿勢判定假定之使用者頭部姿勢之選用步驟。在步驟S3 (「預渲染」)中，該程序涉及藉由一預渲染器對沉浸式音訊內容進行雙耳化以產生一預渲染雙耳信號，該雙耳化使用一組HRTF中之一預渲染HRTF及一使用者之一假定頭部姿勢。在步驟S4 (「編碼」)中，該程序涉及對預渲染雙耳信號進行編碼，以及對後渲染後設資料進行編碼，該後設資料指示預渲染HRTF。在步驟S5 (「組合」)中，該程序涉及在一多工器中組合編碼之雙耳音訊信號及編碼之後渲染後設資料，以形成包含一雙耳音訊表示之一位元流。在步驟S6 (「傳輸」)中，該程序涉及將位元流傳輸至一第二裝置(或使用者固持裝置)。

圖3係繪示一第二裝置(或使用者固持裝置)中之處理之一流程圖，其包含上述步驟S11至S16及選用步驟S131。

該程序包含，在步驟S11 (「接收位元流」)中，從一第一裝置(或主裝置)接收一位元流，該位元流包含一沉浸式音訊內容之一雙耳預渲染之一表示。已經獲得相對於一假定之頭部姿勢P’之雙耳預渲染。在步驟S12 (「解碼」)中，該程序涉及解碼位元流以獲得一雙耳音訊信號及相關聯之後渲染後設資料。後設資料指示在雙耳預渲染中使用之一預渲染HRTF，其中預渲染HRTF與假定之頭部姿勢P’相關聯。在步驟S13 (「偵測當前姿勢」)中，該程序涉及獲得指示一當前頭部姿勢P之使用者頭部姿勢資訊。在步驟131 (「編碼姿勢」)中，該程序可包含用一編碼器對偵測到之頭部姿勢P進行編碼，且將當前頭部姿勢P之一指示傳輸至主裝置之選用步驟。如上文提及，主裝置接著可使用從第二使用者固持裝置接收之當前姿勢作為假定姿勢。因此，在此情況下，第二使用者固持裝置可基於一預期之傳輸延遲(及一先前傳輸之當前姿勢)來估計假定之頭部姿勢P’。在步驟S14 (「識別後渲染HRTF」)中，該程序涉及基於後設資料、假定之頭部姿勢P’及當前頭部姿勢P來識別一後渲染HRTF。在步驟S15 (「計算補償音訊」)中，該程序涉及藉由對雙耳音訊信號應用經組態以補償預渲染HRTF之一效應之一HRTF補償操作來計算一經補償之立體聲音訊信號。

本文描述適合於計算經補償之立體聲音訊信號之各種實例HRTF補償操作。此等操作可涉及任何數量之方法，該等方法適當地對抗及調整由預渲染HRTF操作產生之各種效應。在一些實例中，HRTF補償可涉及預渲染HRTF之一逆數學運算。在一些其他實例中，HRTF補償可用一查找表類型之操作來實施，其中為減少記憶體需求，輕量化裝置可依賴於比預渲染裝置中使用之密度更低之一組HRTF。因此，輕量化裝置可用之逆HRTF組可包括預渲染裝置處之HRTF組中可用之HRTF之逆運算之適當近似。在其他實例中，HRTF補償可用一數值近似方法來實施，該數值近似方法可包含線性或非線性或其等之組合之插值。在進一步之實例中，HRTF補償可用一最佳擬合類型之近似來實施。各種方法之組合同樣適用，且在本發明之範疇內考慮。

返回圖3，在步驟S16 (「應用後渲染HRTF」)，該程序涉及藉由將後渲染HRTF應用於經補償之立體聲信號來計算一雙耳輸出信號。步驟S15及S16可作為一單一操作來執行。

圖2及圖3所繪示之程序包含一塊集合，其等表示可在硬體、軟體或其等之一組合中實施之一序列操作或步驟。在軟體之上下文中，塊可表示電腦可執行指令，當由一或多個處理器執行時，該等指令執行陳述之操作。通常，電腦可執行指令可包含執行或實施功能之常式、程式、物件、組件、資料結構及類似者。描述操作之順序不旨在解釋為一限制，且任何數量之所描述之塊可以任何順序組合，分離成額外之塊，及/或並行操作以實施該程序。

預渲染器11之方法：一基本假定係，對於各時頻塊，音訊由一個主導方向分量及一個漫射(全向)分量組成。方向分量被假定為從一特定DOA到達之一原型信號S，該DOA具有用某一房間座標系統表達之一方位角及仰角。漫射分量係原型信號S之一去相關版本。

本文，預渲染器合成藉由將方向分量(每時頻塊)與對應於DOA之HRTF卷積且添加漫射分量來完成。兩個分量與各自之權重r _dir及r _diff相加：，，具有去相關器及。此處，係方向分量相對於在預渲染器11處假定之頭部姿勢P’之方位角及仰角。如果頭部姿勢P’在同一個房間座標系統中表達，則至少在特定進一步之限制假定下，，。

後渲染器之方法：後渲染器之目的係，如果當前頭部姿勢P偏離P’，則相對於當前頭部姿勢P調整接收之左及右雙耳信號L ₂及R ₂。

一重要觀點係，正確之輸出信號將為，。

信號S及去相關器信號及不可用。替代地，將使用可用信號L ₂及R ₂在一參數方法中近似及。假定由預渲染器應用之HRTF係已知的，則可計算左及右HRTF補償之信號。獲得此等信號之一個可能性係將其等導出為HRTF補償之左及右通道信號之一加權組合。因此，k _L及k _R係合適之加權因數或算子。

對於左及右通道信號，HRTF補償之左及右通道信號分別為及。

接著，左及右HRTF補償信號係及。

在一個簡單實例中，k _L= k _R= 1(無加權)，使得及。

使用此等信號，如下獲得後渲染器之左及右輸出信號：。

此方法導致輸出信號中相對於當前頭部姿勢之正確方向分量，即及。

然而，在漫射分量中出現一誤差，該誤差可量化如下：及。

假定HRTF可分解為延遲及增益/形狀操作，去相關漫射分量之所涉及之延遲變化在感知上可無關緊要，增益/形狀變化可導致音色偏差或著色效應。給定所涉及之HRTF組，藉由適當選擇k _L、k _R可減輕此誤差。在一更一般之形式中，k _L、k _R可係線性及非線性算子，如(頻率選擇性)濾波器算子或增益限制器，以避免輸出樣本超過一預定之數字範圍。

自適應地選擇權重k _L、k _R之益處藉由考慮頭部姿勢變化限於橫擺角之情況之一實例來繪示，即，旋轉僅圍繞z軸發生，且因此方向分量相對於假定及當前頭部姿勢之仰角相等( )。

首先考慮幾乎無橫擺旋轉之情況。因此，α近似等於α’。在此情況下，較佳地根據k _L= k _R= 1來選擇權重，此意味著接收之左及右雙耳信號L ₂及R ₂幾乎不加修改地輸出且。因此，對於(足夠)小之橫擺偏差(例如，小於20度)，將權重設定為k _L= k _R= 1係一良好選擇。

其次考慮橫擺改變180度之情況，導致α近似等於α’±180度。現在，較佳地根據k _L= k _R= 0來選擇權重，此意味著接收之左及右雙耳信號L ₂及R ₂作為調整處理之部分(虛擬地)交換。此導致左及右輸出通道出現以下漫射分量：及。

考慮右耳HRTF可用以180度方位角偏移獲得之左耳HRTF來近似，且同樣，左耳HRTF可用以180度方位角偏移獲得之右耳HRTF來近似，發現在上文等式中，項及可用1來近似。此導致左及右輸出通道之漫射分量之近似如下：及。

因此可得出結論，如果當前與假定之頭部姿勢之間之橫擺差接近180度，則將權重設定為k _L= k _R= 0係一良好選擇。

一第三考慮情況係橫擺旋轉90度，導致α等於α’±90度。現在，可認為，當構建HRTF補償信號時，沒有理由優先選擇可用信號L ₂或R ₂。此係因為此可潛在地導致左與右通道之間行為不對稱之解決方案。在橫擺旋轉接近90度之情況下，當選擇k _L= k _R= 0.5時，達成對稱行為。

此討論導致用於回應於一判定之橫擺旋轉 (即相對於假定之頭部姿勢P’與當前頭部姿勢P之方向分量之方位角之間之差)自適應地選擇權重k _L、k _R之一較佳解決方案：。

注意，可基於假定與當前頭部姿勢之滾動角度來制定類似之實施例。

圖4繪示具有預渲染雙耳信號之基於DOA之拆分渲染之實例技術。展示如何假定聲波前分別從具有方位角α’、α之一DOA到達一聽者之頭部30。預渲染器僅能存取角度為α’之頭部姿勢P’。因此，使用對應於角度為α’之頭部姿勢P’之HRTF來完成雙耳合成。一個主要效應係左右耳之間的波前之雙耳間時間差(ITD)為。亦存在對應之雙耳間音強差(ILD)及頻譜差。應用之HRTF藉由施加/壓印合適之ITD、ILD及頻譜來模擬此效應。該圖進一步展示在具有角度α之實際頭部姿勢P之知識之後渲染器處之假定情況。其展示假定之波前如何從相對於實際頭部姿勢P角α而非α’之一不同DOA到達，此繼而來導致一不同之ITD 。注意，亦存在對應於實際頭部姿勢之其他ILD及頻譜。因此，圖4中可視化之本發明之一個主要概念係藉由首先補償且接著應用來將ITD從改變為。類似地，藉由補償對應於頭部姿勢P’之ILD及頻譜以及應用對應於實際頭部姿勢P之HRTF之ILD及頻譜來修改ILD及頻譜。

以上描述導致以下簡化方法(亦參考圖4)：假定：聽者30之前後軸A界定一右手座標系統之x軸。此外，在許多相關情況下，一使用者可主要圍繞橫擺軸(z軸)進行頭部運動，且大多數沉浸式音訊內容具有接近水平平面之聲源。因此，DOA之仰角相對接近零度(例如，限定在[-20,20]度之間隔內)。

在此等假定下，根據一簡化公式，僅DOA之方位角分量引起顯著之ITD。其進一步影響增益及頻譜形狀。

DOA之限定仰角分量(俯仰、滾動)影響增益及頻譜形狀，但不影響ITD。

HRTF濾波器可分解為一延遲及增益/形狀操作：。

在預渲染時假定聽者之一頭部姿勢P’。預渲染器在DOA之一方位角分量α’下渲染，該方位角分量在重播時偏離真實方位角α。

後渲染器在重播時在對應於聽者頭部姿勢P之DOA 之方位角分量α下進行渲染。

預渲染信號及後渲染器調整後之信號之雙耳間時間差(ITD)計算如下：其中d _e：雙耳間距離及c：聲速。

因此，後渲染器應將一給定時頻塊中方向分量之ITD從調整至。

除ITD調整之外，相較於預渲染器假定之頭部姿勢，後渲染器亦在給定真實頭部姿勢之情況下調整雙耳間音強差及頻譜形狀。

注意，即使無DOA之一限定仰角分量之假定，類似之公式亦係可能的。即使在該情況下，後渲染器操作亦可分解為ITD調整、雙耳間音強差及頻譜形狀調整。然而，在該情況下，所需之ITD調整量將取決於在預渲染時假定之及在後渲染期間有效之DOA之方位角及仰角。

圖5繪示HRTF個人化之實例技術。展示從DOA角α到達一聽者頭部30之一假定波前如何取決於聽者頭部之尺寸導致不同之ITD。使用通用HRTF之預渲染可假定具有通用雙耳間距離之聽者頭部尺寸。此將產生對應於之通用ITD及左及右音訊信號之對應ILD及頻譜形狀。個人化之HRTF將基於(更)正確之聽者頭部尺寸。因此，此將導致更正確、個人化之ITD 及左及右音訊信號之更正確之對應ILD以及頻譜形狀。HRTF個人化之一般理念係，後渲染器將補償通用HRTF，且施加個人化HRTF之效應。總體概念非常類似於在後渲染器處之上述頭部姿勢校正。因此，兩個概念係彼此相容的，且可容易地組合。

對於具有預渲染器11之主裝置10，以上相同描述亦適用。然而，當預渲染器11依賴於一組通用HRTF H _g進行渲染時，使用者固持裝置20中之後渲染器26使用一組個人化HRTF H _p進行調整，由此後渲染器知道由預渲染器使用之通用HRTF。

後渲染器26之目的係，如果當前頭部姿勢P偏離P’，則相對於當前頭部姿勢P以及相對於個人化HRTF組H _p，調整接收之左及右雙耳信號L ₂及R ₂。

正確之輸出信號將係。

信號S及去相關器信號及不可用。替代地，將使用可用信號L ₂及R ₂在一參數方法中近似及。假定由預渲染器應用之HRTF係已知的，左及右HRTF補償信號被計算為HRTF補償之左及右通道信號之一線性組合：及。

使用此等信號，如下獲得後渲染器之左及右輸出信號：。

此方法導致輸出信號中相對於實際頭部姿勢及個人化HRTF之正確方向分量，即及。

然而，再次，在漫射分量中出現一誤差，該誤差可量化如下：及。

假定HRTF可分解為延遲及增益/形狀操作，去相關漫射分量之所涉及之延遲變化在感知上可無關緊要，增益/形狀變化可導致音色偏差或著色效應。給定所涉及之HRTF組，藉由適當選擇k _L、k _R可減輕此誤差。回應於當前及假定之頭部姿勢之間之橫擺及/或滾動之偏差而自適應選擇權重之實施例仍然完全適用。

實施例之特定態樣

後渲染器接收到達方向(DOA)資訊。此DOA資訊可表示為沉浸式音訊內容之主導方向分量相對於假定之頭部姿勢P’之方位角及仰角(DOA角) 。注意，DOA係根據時間頻率塊判定的。所用HRTF之索引係向後渲染器提供DOA資訊之另一形式。

此外，後渲染器必須知道預渲染器假定之頭部姿勢P’。對應之資訊可傳輸至後渲染器(即，在後設資料中)。亦可依賴於P’對應於一較早時刻之真實頭部姿勢之事實，其已經從後渲染器傳輸至預渲染器。假定從後渲染器至預渲染器之傳輸延遲係一先驗已知的或可估計的，此將使P’至後渲染器之傳輸變得不必要。估計從後渲染器至預渲染器之傳輸延遲之一種方式係基於從後渲染器至預渲染器以及回至後渲染器之往返延遲量測，例如使用時間戳。

參數r _dir、r _diff、k _L、k _R在數學上係互連接的。因此，可利用此互相依性，此例如有助於找至k _L、k _R之合適選擇，藉此可避免在後渲染器中使用一去相關器。此一方法之益處係避免後渲染器複雜性。

如果在後渲染器中應使用一去相關器，則合適之去相關器輸入信號係

其補償/移除方向分量，因為其產生：。

較佳地，預渲染之雙耳通道信號L ₁、R ₁在複值正交鏡像濾波器組(CQMF)/頻域中傳輸，此將避免在後渲染器中進行一前向時間至CQMF/頻域之操作，此在複雜性及延遲方面將係有利的。

本方法及習知技術之間之一顯著差異在於，本方法依賴於對預渲染器之HRTF濾波器操作之補償，且應用理想情況下已經使用之HRTF。相反，替代技術依賴於使用一線性變換來變換雙耳輸出通道，線性變換之係數係按照一LMS方法及插值獲得的。

利用原型信號之基於DOA之拆分渲染之一實例實施方案包括以下步驟： 1.預渲染器或解碼器產生一原型信號(S)。產生S之一些實例方法如下： a.使用任何已知技術從解碼器輸出獲得環繞聲W或全向通道表示，且將其用作S。 b.從解碼器輸出獲得主導特徵信號之一表示，且將其用作S。 c.使用一組通用HRTF (或BRIR)預渲染解碼之沉浸式音訊，產生S = aL + bR；其中在L及R中係預渲染之分頻信號之左通道及右通道，a及b係每時頻塊之複數或純實數增益因數，且可係動態計算或靜態預定之值，例如a = 0.5及b = 0.5。 2.主裝置傳輸編碼之原型信號S及假定之頭部姿勢P’及/或假定之DOA角(或等效資訊)及漫射參數。 3.後渲染器解碼原型信號位元且產生S’(如果用於編碼S之編解碼器具有零延遲且係無損的，則S’應該與S相同)。 4.後渲染器之目的係，(如果當前頭部姿勢P偏離P’)相對於當前頭部姿勢P產生左及右雙耳信號。 5.後渲染器根據P與P’之間之差調整由主裝置發送之DOA角。與S’、後渲染器處之HRTF及調整之DOA角一起，後渲染器產生後渲染雙耳信號之方向分量。漫射參數與去相關之S’一起使用，以填充後渲染雙耳信號中之漫射能量。

後渲染器之方法：

後渲染器之目的係如果當前頭部姿勢P偏離P’，相對於當前頭部姿勢P調整接收之DOA，且接著與原型信號S’及可係個人化之或通用之HRTF組H _p一起調整。後渲染器如下產生頭部追蹤雙耳信號。。 , 。 r _diff係主裝置發送之漫射參數，且r _dir係方向增益，其可用DOA及球面諧波計算。

此方法之優點： -低位元速率模式可僅用經編碼且傳輸至後渲染器之S通道來達成。 -不需要發生HRTF補償，且漫射補償中之誤差可減小至0。

此方法之缺點： -對於使用者固持裝置將僅輸出解碼之雙耳音訊信號而不進行任何進一步處理或後渲染操作之一潛在情況，在使用者固持裝置處不容易獲得預渲染之雙耳音訊信號。

圖6繪示用原型信號之基於DOA之拆分渲染之實例技術。

在圖6中，主裝置110包含一解碼器/渲染器111、一頭部姿勢解碼器112、編碼器113、114及一多工器115。解碼器/渲染器111 (例如一IVAS解碼器)接收主位元流b ₁且執行一原型信號S之渲染合成，原型信號S具有相對於使用者之一假定頭部姿勢P’之一到達方向(DOA)。假定之頭部姿勢P’可係一適當之預設頭部姿勢，或者可係從使用者固持裝置接收之一實際使用者頭部姿勢，其可視情況由頭部姿勢解碼器112解碼。此一經解碼之使用者頭部姿勢將表示一最近，但不完全係當前之使用者頭部姿勢。此處之渲染器111輸出一原型信號S及後設資料M，其至少包含原型信號之到達方向(DOA)。編碼器113、114對原型信號S及後設資料M進行編碼，且多工器115將編碼之原型信號b ₁₁及編碼之後設資料b ₁₂多工化成一個中間位元流b ₂。

使用者固持裝置120包含一解多工器121、解碼器122、123、一頭部追蹤器124、一編碼器125及一後渲染器126。解多工器121接收中間位元流，且將其分離成兩個編碼信號b ₂₁及b ₂₂，且兩個解碼器122、123回應地解碼此等信號，以獲得一解碼之原型信號S’及解碼之後設資料M’，例如，渲染器111中使用之DOA及(視情況)假定之頭部姿勢P’。可包含在使用者固持裝置120中或連接至其之頭部追蹤器124偵測使用者頭部之一當前頭部姿勢P。編碼器125對偵測到之頭部姿勢P進行編碼，且將其傳輸至主裝置110。最後，後渲染器126接收解碼之原型信號S’、DOA、假定之頭部姿勢P’及當前頭部姿勢P，且計算一輸出雙耳信號L _out、R _out。對於下文將討論之此處理，後渲染器126具備HRTF資料，通常係一組H _g通用HRTF (用於各種到達方向(DOA))。渲染器125亦可具備一組H _p個人化HRTF。

可獲益於沉浸式音訊之拆分渲染之實例用例

本說明書中描述之技術可在各種用例中實施。假定初級音訊處理/音訊信號增強以及隨後之預渲染在一些強大之裝置或網路節點上完成，而後渲染係在如AR眼鏡之一輕量化終端裝置上完成。

下文提供一些實例。 1.涉及音訊之AR/MR

音訊變焦/放大器：如放大鏡，但用於聲音。使用者可放大受關注之聲音。

真實世界物件與聲音之疊加：真實世界之物件/項目將與聲音相關聯。有用但不限於視障人士之輔助系統。

對話增強/智慧型環境降噪：幫助有雞尾酒會問題之人，提高周圍噪聲中之活躍語音。

情緒聲音氛圍：如心情燈。聲音將與現實世界之環境、項目及個人偏好相關聯。 2.用例特性

此等用例通常將依賴於音訊/視覺捕獲、一些場景分析及增強聲音信號之產生。在一些場景下，其亦可被來自某一網路節點或一通信遠端之沉浸式聲音所覆蓋。

用例通常將依賴於頭部追蹤之音訊/視覺渲染。 3.進一步非AR/MR用例

沉浸式語音通信(雙方、會議)及以AR眼鏡作為終端裝置之沉浸式之內容流可能係IVAS用例。

其等之一些可依賴於頭部追蹤音訊渲染，一些可不依賴。

一些用例可涉及頭部追蹤音訊之一對多沉浸式分配。

本文中描述之系統之態樣可在用於處理數位或數位化音訊檔案之一適當之基於電腦之聲音處理網路環境中實施。適應性音訊系統之部分可包含包括任何所要數目個個別機器之一或多個網路，包含用於緩衝及路由在電腦之間傳輸之資料之一或多個路由器(未展示)。此一網路可建立在各種不同網路協定上，且可為網際網路、一廣域網路(WAN)、一區域網路(LAN)或其等之任何組合。

組件、區塊、程序或其他功能組件之一或多者可透過控制系統之一基於處理器之運算裝置之執行之一電腦程式來實施。亦應注意，本文中揭示之各種功能可使用硬體、韌體及/或作為各種機器可讀或電腦可讀媒體中體現之資料及/或指令之任何數目個組合(就其等之行為、暫存器傳送、邏輯組件及/或其他特性而言)來描述。其中可體現此格式化資料及/或指令之電腦可讀媒體包含但不限於呈各種形式之實體(非暫時性)、非揮發性儲存媒體，諸如光學、磁性或半導體儲存媒體。

雖然已藉由實例且就特定實施例而言描述一或多個實施方案，但應理解，一或多個實施方案不限於所揭示實施例。相反地，其旨在涵蓋熟習此項技術者將明白之各種修改及類似配置。因此，隨附發明申請專利範圍之範疇應符合最廣泛解釋，以便涵蓋全部此等修改及類似配置。

本發明之進一步細節及實施例可從以下列舉之實例性實施例(EEE)之列表理解： EEE1.一種處理音訊之方法，其包括：由一第一裝置接收編碼音訊之一主位元流表示；由一第二裝置獲得使用者頭部姿勢資訊；由該第一裝置從該主位元流判定包括至少一個通道及後設資料之降混信號；由該第一裝置提供該等降混信號及後設資料至該第二裝置；由該第二裝置之一輕量化渲染器基於該後設資料、該使用者頭部姿勢資訊將該等降混信號渲染成輸出雙耳音訊。 EEE2.如EEE1之方法，其中該等降混信號包括預渲染雙耳信號。 EEE3.如EEE2之方法，其中判定該等預渲染雙耳信號及渲染後設資料包括：由該第一裝置之一主渲染器解碼該主位元流表示以產生解碼音訊；由該第一裝置之一預渲染器雙耳化該解碼音訊以產生該等預渲染雙耳信號及渲染後設資料，其中該預渲染器使用以下至少一者來執行該雙耳化：一通用頭部相關傳遞功能(HRTF)或雙耳房間脈衝回應(BRIR)，或該使用者頭部姿勢資訊、該使用者頭部姿勢資訊該使用者資訊從以下至少一者獲得：該第二裝置之一頭部追蹤器，一儲存裝置，其儲存一預設定值，或一假定之到達方向(DOA)角。 EEE4.如EEE3之方法，其中該後設資料包含以下之至少一者：該預渲染器使用之一HRTF或一BRIR之一指示，該預渲染器使用之一假定使用者頭部姿勢，或該預渲染器使用之該假定DOA角度。 EEE5.如EEE 4之方法，其中將該等預渲染之雙耳信號渲染成輸出雙耳音訊包括由該輕量化渲染器相對於透過該頭部追蹤器獲得之一當前使用者頭部姿勢在該預渲染器使用之該假定使用者頭部姿勢上調整該等預渲染之雙耳信號之左及右通道。 EEE6.如EEE2至5中任一項之方法，其中渲染該等預渲染之雙耳信號包括：逆HRTF根據該預渲染器使用之該HRTF或假定之DOA角對該等預渲染之雙耳信號之左及右通道進行濾波；及線性組合該等逆HRTF濾波信號。 EEE7.如EEE6之方法，其中該逆HRTF濾波包含使用透過該第二裝置之該頭部追蹤器獲得之一當前使用者頭部姿勢來校正由該預渲染器使用之該HRTF。 EEE8.如EEE6或7之方法，其中線性組合該等逆HRTF濾波信號包含藉由選擇該線性組合之一權重來減輕一漫射分量中之一誤差。 EEE9.如技術方案2至8中任一項之方法，其包括應用HRTF個人化，其中該預渲染應用一通用HRTF，且該輕量化渲染器補償該通用HRTF且隨後應用一個人化HRTF。 EEE10.如EEE1之方法，其中該等降混信號包括一原型信號。 EEE11.如EEE10之方法，其中該原型信號包括一單一通道。 EEE12.如EEE10或11之方法，其中計算該原型信號包括：由該第一裝置之一主解碼器解碼該主位元流表示以產生解碼音訊；及將增益應用至該解碼音訊，且將具有應用之增益之該解碼音訊添加至該解碼音訊。 EEE13.如EEE10至12中任一項之方法，其進一步包括：基於假定之頭部姿勢P’及漫射參數計算該原型信號及DOA角；將該假定頭部姿勢P’、該假定頭部姿勢P’之DOA角、漫射參數及該原型信號發送至一後渲染器裝置；基於一實際頭部姿勢P在該後渲染器裝置處調整該等DOA角度；使用該原型信號及一組HRTF以及經調整之DOA角來計算該等方向分量；使用該等漫射參數及原型信號之一去相關版本計算漫射分量；及使定向及漫射分量相加以產生一後渲染雙耳輸出。 EEE14.如EEE1至13中任一項之方法，其中該第一裝置包括一智慧型電話，該第二裝置包括一可穿戴音訊、視覺或AR裝置，且該主位元流包括一沉浸式音訊及視訊服務(IVAS)位元流。 EEE15.一種系統，其包含經組態以執行EEE1至14中任一項之操作之一或多個處理器。 EEE16.一種電腦程式產品，其經組態以使一或多個處理器執行EEE1至14中任一項之操作。

10:第一裝置 11:解碼器/渲染器 12:頭部姿勢解碼器 13:編碼器 14:編碼器 15:多工器 20:第二裝置 21:解多工器 22:解碼器 23:解碼器 24:頭部追蹤器 25:編碼器 26:渲染器 30:頭部 110:主裝置 111:解碼器/渲染器 112:頭部姿勢解碼器 113:編碼器 114:編碼器 115:多工器 120:使用者固持裝置 121:解多工器 122:解碼器 123:解碼器 124:頭部追蹤器 125:編碼器 126:後渲染器 S1:步驟 S2:步驟 S3:步驟 S4:步驟 S5:步驟 S6:步驟 S11:步驟 S12:步驟 S13:步驟 S14:步驟 S15:步驟 S16:步驟 S21:步驟 S131:步驟

圖1係實施頭部追蹤拆分渲染之一實例系統之一方塊圖。

圖2係繪示一第一或主裝置中之處理之一流程圖。

圖3係繪示一第二或使用者固持裝置中之一處理之一流程圖。

圖4繪示具有預渲染雙耳信號之基於DOA之拆分渲染之實例技術。

圖5繪示HRTF個人化之實例技術。

圖6繪示用原型信號之基於DOA之拆分渲染之實例技術。

10:第一裝置

11:解碼器/渲染器

12:頭部姿勢解碼器

13:編碼器

14:編碼器

15:多工器

20:第二裝置

21:解多工器

22:解碼器

23:解碼器

24:頭部追蹤器

25:編碼器

26:渲染器

Claims

一種在一使用者固持處理裝置中處理音訊之方法，其包括：從一主裝置接收一位元流，該位元流包含一沉浸式音訊內容之一雙耳預渲染之一表示，其中該雙耳預渲染係經相對於一假定之頭部姿勢P’獲得；解碼該位元流以獲得一雙耳音訊信號及相關聯之後渲染後設資料，該後設資料指示在該雙耳預渲染中使用之一預渲染HRTF，其中該預渲染HRTF與該假定之頭部姿勢P’相關聯；獲得指示一當前頭部姿勢P之使用者頭部姿勢資訊；基於該後設資料、該假定之頭部姿勢P’及該當前頭部姿勢P識別一後渲染HRTF；藉由對該雙耳音訊信號應用經組態以補償該預渲染HRTF之一效應之一HRTF補償操作來計算一經補償之立體聲音訊信號；及藉由將該後渲染HRTF應用於該經補償之立體聲信號來計算一雙耳輸出信號。
如請求項1之方法，其中計算一經補償立體聲音訊信號及計算一雙耳輸出信號之該等步驟在一個單一操作中執行。
如請求項1或2之方法，其中該HRTF補償操作涉及該預渲染HRTF之一逆操作。
如請求項3之方法，其中藉由存取包括該預渲染HRTF之一逆操作之一近似之一表中之一查找來獲得該預渲染HRTF之該逆操作。
如請求項3之方法，其中計算一經補償立體聲音訊信號之該步驟包含：將一逆左HRTF應用於該雙耳音訊信號之一左通道以形成一逆濾波左通道，將一逆右HRTF應用於該雙耳音訊信號之一右通道以形成一逆濾波右通道，且將該等逆濾波左及右通道組合以分別形成該經補償立體聲音訊信號之一左通道及一右通道。
如請求項5之方法，其中該等逆濾波左及右通道經線性組合，其中選擇該線性組合之權重以減輕該雙耳輸出信號之一漫射分量中之一誤差。
如請求項6之方法，其中該等權重係自適應的，較佳地回應於假定之頭部姿勢P’與當前頭部姿勢P之間之一差。
如請求項1或2之方法，其中該後渲染HRTF係經個人化給該使用者固持處理裝置之一使用者。
如請求項1或2之方法，其中該後渲染後設資料進一步包含該假定之頭部姿勢P’之一指示。
如請求項1或2之方法，其中該方法進一步包含將該當前頭部姿勢P之一指示傳輸至該主裝置，且基於一預期之傳輸延遲來估計該假定之頭部姿勢P’。
如請求項1或2之方法，其中該使用者固持處理裝置包括一可穿戴音訊、視覺或AR裝置。
如請求項1或2之方法，其中該位元流包括一沉浸式音訊及視訊服務(IVAS)位元流。
如請求項1或2之方法，其中該後設資料包含與該沉浸式音訊內容之一主導方向分量相關聯之一到達方向(DOA)，該DOA指示該預渲染HRTF。
一種處理音訊之方法，其包括：接收一位元流；由一解碼器解碼該位元流以獲得解碼之沉浸式音訊內容；藉由一預渲染器對該沉浸式音訊內容進行雙耳化以產生一預渲染雙耳信號，該雙耳化使用一組HRTF中之一預渲染HRTF及一使用者之一假定頭部姿勢；對該預渲染之雙耳信號進行編碼；對後渲染後設資料進行編碼，該後設資料指示該預渲染HRTF；在一多工器中組合該編碼之雙耳音訊信號及該編碼之後渲染後設資料，以形成包含一雙耳音訊表示之一位元流；及將該位元流傳輸至一使用者固持裝置。
如請求項14之方法，其中該後設資料包含與該沉浸式音訊內容之一主導方向分量相關聯之一到達方向。
如請求項14或15之方法，其中該後設資料額外包含該假定之頭部姿勢。
如請求項14或15之方法，其進一步包括：從該使用者固持裝置接收一當前使用者頭部姿勢之一指示，及基於該當前使用者頭部姿勢判定該假定之使用者頭部姿勢。
如請求項14或15之方法，其中在一智慧型電話中執行該方法。
一種包含一或多個處理器之系統，該等處理器經組態以執行如請求項1至18中任一項之方法。
一種電腦程式產品，其經組態以使一或多個處理器執行如請求項1至18中任一項之操作。
一種使用者固持處理裝置，其包括：一解碼器，其經組態以解碼包含一沉浸式音訊內容之一雙耳預渲染之一表示之一位元流，且獲得一雙耳音訊信號及相關聯之後渲染後設資料，該後設資料指示在該雙耳預渲染中使用之一預渲染HRTF，該預渲染HRTF與該假定之頭部姿勢相關聯；一頭部追蹤器，其用於獲得指示一當前頭部姿勢之使用者頭部姿勢資訊；一渲染器，其經組態以：基於該後設資料、該假定之頭部姿勢P’及該當前頭部姿勢P識別一後渲染HRTF；藉由對該雙耳音訊信號應用經組態以補償該預渲染HRTF之一效應之一HRTF補償操作來計算一經補償之立體聲音訊信號；及藉由將該後渲染HRTF應用於該經補償之立體聲信號來計算一雙耳輸出信號。
如請求項21之裝置，其中該HRTF補償操作涉及該預渲染HRTF之一逆操作。
如請求項22之裝置，其中該渲染器經組態以藉由存取包括一預渲染HRTF之一逆操作之一近似之一表中之一查找來獲得該預渲染HRTF之該逆操作。
如請求項22或23之裝置，其中該渲染器經組態以藉由以下方式計算一經補償立體聲音訊信號：將一逆左HRTF應用於該雙耳音訊信號之一左通道以形成一逆濾波左通道，將一逆右HRTF應用於該雙耳音訊信號之一右通道以形成一逆濾波右通道，且將該等逆濾波左及右通道組合以分別形成該經補償立體聲音訊信號之一左通道及一右通道。
如請求項24之裝置，其中該等逆濾波左及右通道經線性組合，其中選擇該線性組合之權重以減輕該雙耳輸出信號之一漫射分量中之一誤差。
如請求項25之方法，其中該等權重係自適應的，較佳地回應於假定之頭部姿勢P’與當前頭部姿勢P之間之一差。
如請求項21至23中任一項之裝置，其中該後渲染HRTF係經個人化給該使用者固持處理裝置之一使用者。
如請求項21至23中任一項之裝置，其併入一可穿戴音訊、視覺或AR裝置中。