TWI802108B

TWI802108B - 降低聲學回音之語音處理裝置及其方法

Info

Publication number: TWI802108B
Application number: TW110144134A
Authority: TW
Inventors: 賴昭榮; 林義棠; 陳宗樑
Original assignee: 英屬開曼群島商意騰科技股份有限公司
Priority date: 2021-05-08
Filing date: 2021-11-26
Publication date: 2023-05-11
Also published as: TW202244902A; US20220358946A1

Abstract

本發明提供一種語音處理裝置，適用於具有一機構瑕疵的一通訊裝置，包含一聲學回音消除(AEC)單元、一乘法器以及一處理器。該AEC單元，利用一已知的AEC演算法，消除來自一麥克風的一第一音訊訊號中的回音，以產生一第二音訊訊號。該乘法器，用來將一增益值乘上一下行鏈音訊訊號的對應M個音框，以提供一增益下行鏈訊號給一揚聲器。該處理器，用來執行一組操作，包含：當一第一輸入訊號的M個音框的第一功率值小於一第一臨界值時，將一上行鏈音訊訊號設為靜音；以及，當該第一功率值大於或等於該第一臨界值以及一第二輸入訊號的M個音框的第二功率值大於或等於一第二臨界值時，降低該增益值。

Description

降低聲學回音之語音處理裝置及其方法

本發明係有關於語音處理，特別地，尤有關於一種用以降低聲學回音之語音處理裝置及其方法。

當麥克風收到來自揚聲器的音訊訊號並送回給一遠端通話者/使用者時，會產生局部音訊迴環(loop back)之聲學回音，隨後該遠端通話者在說話時，會聽到自己聲音的回音。聲學回音消除/降低的目的是要降低麥克風訊號中的聲學回音，之後，再將乾淨的麥克風訊號傳送給該遠端通話者，藉以改善麥克風訊號或對話的品質及清晰度。實際實施時，聲學回音消除(acoustic echo cancellation，AEC)的效果高度取決於通訊裝置的機構設計。對通訊裝置而言，不良的機構設計或機構瑕疵，例如墊片洩漏(gasket leak)或麥克風的位置太靠近揚聲器，都容易產生聲學回音。因此，具有機構瑕疵的通訊裝置，即使具有AEC功能，也難以改善語音品質。

如本領域技術人士所熟知的，通訊裝置中的聲學路徑引導外部聲音進入麥克風，所以不能有任何會引起多路徑回音或噪音問題的洩漏(如墊片洩漏)。墊片是由聲學上不透明材質所製成，可避免聲音穿透。常見的墊片材質包含各種橡膠以及可壓縮閉孔發泡料(closed-cell foam)。該墊片必須完全地密封住產品的機殼、麥克風或印刷電路板。墊片的密封若有洩漏會導致揚聲器的輸出及其他噪音在產品機殼內傳播至麥克風埠(port)。然而，某些特殊狀況不容許修正機構設計或墊片設計，此時，仍需解決通訊裝置的多路徑回音或噪音問題。

因此，業界亟需一種降低聲學回音之語音處理裝置及其方法，係適用於一個具有機構瑕疵的通訊裝置，且該機構瑕疵會造成強大的聲學回音。

有鑒於上述問題，本發明的目的之一是提供一種語音處理裝置，可降低一通訊裝置的聲學回音，其中該通訊裝置具有一機構瑕疵會造成強大的聲學回音。

根據本發明之一實施例，係提供一種語音處理裝置，適用於具有一機構瑕疵的一通訊裝置，包含：一聲學回音消除(AEC)單元、一乘法器以及一處理器。該AEC單元，利用一已知的AEC演算法，消除來自一個或更多麥克風的一第一音訊訊號中的回音，以產生一第二音訊訊號。該乘法器，用來將一增益值乘上一下行鏈音訊訊號的對應M個音框，以提供一增益下行鏈訊號給一揚聲器。該處理器，用來執行一組操作，包含：當一第一輸入訊號的M個音框的第一功率值小於一第一臨界值時，將一上行鏈音訊訊號設為靜音，其中該第一輸入訊號與該第二音訊訊號有關；以及，當該第一功率值大於或等於該第一臨界值以及一第二輸入訊號的M個音框的第二功率值大於或等於一第二臨界值時，降低該增益值，其中該第二輸入訊號與該下行鏈音訊訊號有關以及M＞=1。

本發明之另一實施例，係提供一種語音處理方法，適用於一個具有一機構瑕疵的通訊裝置，包含：利用一已知的聲學回音消除演算法，消除來自一個或更多麥克風的一第一音訊訊號中的回音，以產生一第二音訊訊號；當一第一輸入訊號的M個音框的第一功率值小於一第一臨界值時，將一上行鏈音訊訊號設為靜音，其中該第一輸入訊號與該第二音訊訊號有關；當該第一功率值大於或等於該第一臨界值以及一第二輸入訊號的M個音框的第二功率值大於或等於一第二臨界值時，降低一增益值，其中該第二輸入訊號與該下行鏈音訊訊號有關以及M＞=1；以及，將該增益值乘上一下行鏈音訊訊號的對應M個音框，以提供一增益下行鏈訊號給一揚聲器。

茲配合下列圖示、實施例之詳細說明及申請專利範圍，將上述及本發明之其他目的與優點詳述於後。

在通篇說明書及後續的請求項當中所提及的「一」及「該」等單數形式的用語，都同時包含單數及複數的涵義，除非本說明書中另有特別指明。在通篇說明書及後續的請求項當中所提及的相關用語定義如下，除非本說明書中另有特別指明。在通篇說明書中，具相同功能的電路元件使用相同的參考符號。

本發明是要解決由通訊裝置的機構瑕疵所造成的強大聲學回音。本發明的特色之一是：當一上行鏈(uplink)音訊訊號TX的功率值Pt小於一第一臨界值TH1時，將該上行鏈音訊訊號TX調成靜音，以防止一遠端通話者聽到他自己的聲學回音。本發明的另一特色是：當Pt＞=TH1且一下行鏈(downlink)音訊訊號RX的功率值Pr大於或等於一第二臨界值TH時，降低該下行鏈音訊訊號RX的強度或揚聲器的音量，並進而降低麥克風收到的回音訊號的強度/振幅，此有助於後端的AEC單元130輕易地去除輸入音訊訊號S1中的殘餘回音訊號。

圖1係根據本發明一實施例，顯示一語音處理裝置的架構圖。請參考圖1，本發明語音處理裝置100，適用於具有一機構瑕疵的通訊裝置10，包含一前處理單元115、一AEC單元130、一噪音降低(noise reduction，NR)單元140、一功率估測(power estimation)單元150、一決策單元160以及一乘法器170。該通訊裝置10可以是一手機、一個人數位助理、一筆記型電腦、一錄音機(sound recorder)、耳機、以及可接收及輸出音訊訊號的其他類似的通訊裝置。該通訊裝置10包含該語音處理裝置100、一個或更多的麥克風110以及一揚聲器120。引起強大聲學回音的機構瑕疵包含，但不受限於，墊片洩漏或麥克風110的位置鄰近揚聲器120。一般來說，若麥克風110的位置太靠近揚聲器120，可修改機構設計來解決回音問題。除了上述麥克風110的位置鄰近揚聲器120之外，回音問題最有可能的原因是墊片洩漏或墊片密封性不足而引起。有一個簡單墊片洩漏測試如下：堵住產品機殼上的麥克風埠，並播放揚聲器。若回音問題持續存在，表示該回音很可能由墊片洩漏所引起，此時，可修改墊片設計來解決回音問題。然而，有些特殊情況不容許修正機構設計或墊片設計，並且上述墊片洩漏測試結果指出功率比值(P1/P2)大於Q，此時，本發明提供語音處理裝置100/300來解決上述回音問題，其中P1表示在麥克風埠未封住的狀況下，該下行鏈音訊訊號RX的功率值，而P2表示在麥克風埠被封住的狀況下，該下行鏈音訊訊號RX的功率值。一實施例中，Q=10~100dB。請注意，上述Q值只是一個示例，而非本發明之限制。

語音處理裝置100從上述一個或更多的麥克風110，接收一個或更多的麥克風訊號。前處理單元115包含的元件則根據麥克風110的數量及類型而不同。例如，若只有一個麥克風110輸出一類比音訊訊號，則前處理單元115包含一類比數位轉換器(ADC)，用來將該類比音訊訊號轉換成一數位音訊訊號S1；若有多個麥克風110輸出多個類比音訊訊號，則前處理單元115包含多個ADC(耦接至該些麥克風110)及一平均單元，其中，該平均單元用來平均該些ADC的輸出訊號，以產生該數位音訊訊號S1；若有多個麥克風110輸出多個數位音訊訊號，則前處理單元115包含一平均單元，用來平均該些數位音訊訊號，以產生該數位音訊訊號S1；若只有一個麥克風110輸出該數位音訊訊號S1，就不需該前處理單元115。由於該前處理單元115並非必須，故在圖1中以虛線顯示。

本發明前處理單元115、AEC單元130以及乘法器170可以軟體、硬體、或軟體(或韌體)及硬體的組合來實施，一單純解決方案的例子是現場可程式閘陣列(field programmable gate array，FPGA)或一特殊應用積體電路(application specific integrated circuit，ASIC)。AEC單元130可利用任何已知的AEC演算法或架構，來消除該數位音訊訊號S1中的聲學回音。一實施例中，AEC單元130僅包含一減法器131；於此實施例中，該減法器131將該數位音訊訊號S1減去該下行鏈音訊訊號RX，以產生一回音消除訊號S2。

另一實施例中，AEC單元130包含一減法器131以及一適應性濾波器(adaptive filter)132。實際實施時，揚聲器120會引起一個或更多回音訊號，而且各回音訊號分別從該揚聲器120橫越一直接路徑或一反射路徑進入該些麥克風，此外，該揚聲器120的音量越大，該些回音訊號的強度/振幅也越大。為消除麥克風頻道中的回音訊號，該適應性濾波器132的位置係與該下行鏈音訊訊號RX及該數位音訊訊號S1之間的回音路徑平行，並且該適應性濾波器132是以該下行鏈音訊訊號RX當作參考訊號。適應性濾波器132具有調整其脈衝響應的能力，以濾除該下行鏈音訊訊號RX中的相關訊號(correlated signal)，並形成複製(replica)的回音路徑，使得適應性濾波器132的輸出訊號S5為複製的回音訊號。因為適應性濾波器132的運作方式已為本領域技術人員所熟知，故在此不予贅述。減法器131將該數位音訊訊號S1減去該複製的回音訊號S5，以產生一回音消除訊號S2。由於適應性濾波器132並非必須，故在圖1中以虛線顯示。

噪音降低單元140可利用任何已知的噪音降低演算法，例如傳統噪音降低演算法或人工智慧(artificial intelligence)噪音降低(AI-NR)，以降低該回音消除訊號S2中的噪音。就傳統噪音降低演算法而言，可在時域或頻域中進行噪音降低操作如下。(1) 時域：對時域的回音消除訊號S2進行無限脈衝響應(IIR)濾波操作，以產生一噪音降低訊號S3；(2)頻域：在頻域中，濾除該回音消除訊號S2內多個頻帶的噪音，以產生該噪音降低訊號S3。至於AI-NR，係透過訓練一機器學習(machine learning)模型(利用一循環神經網路(recurrent neural network)或一卷積(convolutional)神經網路來實施)，先將回音消除訊號S2的各頻帶分類為”語音主導(speech-dominant)”或是”噪音主導(noise-dominant)(或非語音)”，之後，在頻域中，濾除該回音消除訊號S2中被分類為”噪音主導”的多個頻帶內的噪音，以產生該噪音降低訊號S3。

之後，根據功率公式：

，功率估測單元150分別計算出噪音降低訊號S3的每M個音框的功率值Pt 及下行鏈音訊訊號RX的每M個音框的功率值Pr，其中，x(n)表示一離散音訊訊號以及N表示該離散音訊訊號x(n) 的每M個音框內的取樣點總數，N為2的冪次方，例如128、256或1024，而M則為一預設整數，其中該噪音降低訊號S3的該M個音框係對應至該下行鏈音訊訊號RX的該M個音框。對應地，決策單元160對訊號S3及RX的每M個音框，執行一次圖2的決策方法。為清楚說明及方便描述，以下例子與實施例僅以M=1為例來說明，然而，M可以是其他整數，亦同樣適用於功率估測單元150及圖2的決策方法。

圖2係根據本發明一實施例，顯示一決策方法之流程圖。以下，請參考圖2，說明由決策單元160執行之決策方法。

步驟S201：於系統初始化時，將乘法器170的增益值g設為一初始值，例如1。請注意，本決策方法僅在系統初始化時，執行一次步驟S201，之後，係對訊號S3及RX的每M個音框(M=1)，執行一次步驟S202~S210。

步驟S202：對訊號S3及RX的每M個音框，從功率估測單元150分別接收一次上述二個功率值Pt及Pr。

步驟S204：判斷功率值Pt是否大於或等於一第一臨界值TH1。若是，跳到步驟S206；若否，跳到步驟S208。

步驟S206：判斷功率值Pr是否大於或等於一第二臨界值TH2。若是，跳到步驟S210；若否，回到步驟S202。請注意，TH1及TH2的值是獨立的且會根據通訊裝置10的機構缺陷(如墊片洩漏的程度，或麥克風110相對於揚聲器120的距離)而改變。「Pt＞=TH1及Pr＜TH2」的情況代表近端通話者正在講話且遠端通話者是在沉默狀態，此時，將噪音降低訊號S3當作該上行鏈音訊訊號TX而傳送至遠端通話者；由於揚聲器120是無聲狀態，所以不會產生任何聲學回音，因此，不須去改變增益值g。

步驟S208：將該上行鏈音訊訊號TX設成靜音(mute)。「Pt＜TH1」的情況代表近端通話者的上行鏈音訊訊號TX的功率值Pt過小，以致於遠端通話者很難聽到近端通話者的聲音。在此情況下，決策單元160將近端通話者視為”沒說話(或沉默)”，透過將上行鏈音訊訊號TX的值設為0的方式，直接將該上行鏈音訊訊號TX設成靜音。傳送設成靜音的上行鏈音訊訊號TX的優點是防止遠端通話者在說話時聽到自己聲音的回音。

步驟S209：重置該增益值g等於步驟S202設定的初始值1。之後，回到步驟S202。

步驟S210：降低增益值g。「Pt＞=TH1及Pr＞=TH2」的情況係有關雙向通話(double-talk)。「雙向通話(double-talk)」一詞表示遠端通話者及近端通話者二者同時說話。雙向通話包含二種場景A及B。場景A：「Pr＞Pt＞=TH1」；以及，場景B：「Pt＞=TH1以及Pr＞=TH2」。場景A代表遠端通話者的聲音大於端通話者的聲音，而場景B代表遠端通話者的聲音未必大於端通話者的聲音，但功率值Pt相對地高於TH2。無論哪一種場景，揚聲器120的音量都會大到麥克風110可輕易接收揚聲器120的輸出訊號並產生聲學回音。因此，需降低增益值g以降低麥克風110接收到的回音訊號的強度/振幅。每當條件「Pt＞=TH1及Pr＞=TH2」被滿足時，本發明提供以下二種方式來降低增益值。方式一：將上一次的增益值g _P乘上一常數f1，以得到一目前增益值g _C，亦即g _C=g _P

f1，其中，0＜f1＜1；例如，f1=0.5。方式二：根據(Pr/Pr _max)的比例，調整該目前增益值g _C，亦即g _C= Pr/Pr _max，其中Pr _max代表訊號RX的每M個音框的最大功率值。舉例而言，若Pr _max=100以及Pr=80，則該目前增益值g _C=80/100。理論上，由於方式二是根據(Pr/Pr _max) 的比例來調整該目前增益值g _C，因此，相較於方式一，揚聲器音量的轉換會比較平滑，聲音品質也較佳。於增益值降低後，麥克風110接收到的殘餘回音或該數位音訊訊號S1包含的殘餘回音也會降低。相對地，後端的AEC單元130也會比較容易去除該數位音訊訊號S1內的殘餘回音，故可改善上行鏈音訊訊號TX的品質及清晰度。於本步驟S210結束後，回到步驟S202，為訊號S3及RX的接下來的M個音框(M=1)，再執行一次步驟S202~S210 。

最後，乘法器170將下行鏈音訊訊號RX接下來的M個音框的取樣值乘上該目前增益值g _C，以產生一增益音訊訊號S4。隨後，揚聲器120播放該增益音訊訊號S4。

圖3係根據本發明另一實施例，顯示一語音處理裝置的架構圖。相較於圖1，本發明語音處理裝置300，適用於具有一機構瑕疵的通訊裝置30，另外包含一噪音降低單元141。類似於噪音降低單元140的運作方式，噪音降低單元141可利用任何已知的噪音降低演算法，例如傳統噪音降低演算法或AI-NR，來降低下行鏈音訊訊號RX中的噪音，以產生一降噪訊號S6。依此，根據上述功率公式，功率估測單元150分別計算出噪音降低訊號S3的每M個音框的功率值Pt 及降噪訊號S6的每M個音框的功率值Pr，其中該噪音降低訊號S3的該M個音框係對應至該降噪訊號S6的該M個音框。語音處理裝置300的其他運作方式與語音處理裝置100相同。該噪音降低單元141用來進一步去除下行鏈音訊訊號RX中的背景噪音，以防止一下行鏈31被視為”忙碌(busy)狀態”。因此，噪音降低單元141可幫助決策單元160正確判斷遠端通話者的狀態(說話或沉默)。

綜而言之，在一些特殊狀況下，例如無法修正通訊裝置10/30的機構設計或機構瑕疵而且該機構瑕疵會引起強大聲學回音時，本發明語音處理裝置100/300可有效降低遠端通話者的聲學回音，並改善上行鏈音訊訊號TX的品質及清晰度。

一實施例中，該語音處理裝置100/300(不包含前處理單元115中的ADC)係利用一個一般用途處理器以及一程式記憶體(圖未示)來實施，而該程式記憶體儲存一處理器可執行程式。當該一般用途處理器執行該處理器可執行程式時，該一般用途處理器被組態以運作有如：該前處理單元115(不包含ADC)、該AEC單元130、該噪音降低單元140~141、該功率估測單元150、該決策單元160以及該乘法器170。

上述實施例以及功能性操作可利用數位電子電路、具體化的電腦軟體或韌體、電腦硬體，包含揭露於說明書的結構及其等效結構、或者上述至少其一之組合等等，來實施。在圖2揭露的方法與邏輯流程可利用至少一部電腦執行至少一電腦程式的方式，來執行其功能。在圖2揭露的方法與邏輯流程可利用特殊目的邏輯電路來實施，例如：FPGA或ASIC等。適合執行該至少一電腦程式的電腦包含，但不限於，通用或特殊目的的微處理器，或任一型的中央處理器(CPU)。適合儲存電腦程式指令及資料的電腦可讀取媒體包含所有形式的非揮發性記憶體、媒體及記憶體裝置，包含，但不限於，半導體記憶體裝置，例如，可抹除可規劃唯讀記憶體(EPROM)、電子可抹除可規劃唯讀記憶體(EEPROM)以及快閃(flash)記憶體裝置；磁碟，例如，內部硬碟或可移除硬碟；磁光碟(magneto-optical disk)，例如，CD-ROM或DVD-ROM。

上述僅為本發明之較佳實施例而已，而並非用以限定本發明的申請專利範圍；凡其他未脫離本發明所揭示之精神下所完成的等效改變或修飾，均應包含在下述申請專利範圍內。

10 、30:通訊裝置 100 、300:語音處理裝置 110:麥克風 120:揚聲器 115:前處理單元 130:聲學回音消除單元 140、141:噪音降低單元 150:功率估測單元 160:決策單元 170:乘法器

圖1係根據本發明一實施例，顯示一語音處理裝置的架構圖。圖2係根據本發明一實施例，顯示一決策方法之流程圖。圖3係根據本發明另一實施例，顯示一語音處理裝置的架構圖。

10:通訊裝置

100:語音處理裝置

110:麥克風

120:揚聲器

115:前處理單元

130:聲學回音消除單元

140:噪音降低單元

150:功率估測單元

160:決策單元

170:乘法器

Claims

一種語音處理裝置，適用於具有一機構瑕疵的一通訊裝置，包含：一聲學回音消除(AEC)單元，利用一已知的AEC演算法，消除來自一個或更多麥克風的一第一音訊訊號中的回音，以產生一第二音訊訊號；一乘法器，耦接一揚聲器，用來將一增益值乘上一下行鏈音訊訊號的對應M個音框的各取樣值，以提供一增益下行鏈訊號給該揚聲器；以及一處理器，用來執行一組操作，包含：利用一第一已知噪音降低演算法，減少該第二音訊訊號中的噪音，以產生一第一輸入訊號；當該第一輸入訊號的M個音框的第一功率值小於一第一臨界值時，將一上行鏈音訊訊號設為靜音；以及當該第一功率值大於或等於該第一臨界值以及一第二輸入訊號的M個音框的第二功率值大於或等於一第二臨界值時，降低該增益值，其中該第二輸入訊號與該下行鏈音訊訊號有關以及M>=1。
如請求項1之裝置，其中該組操作更包含：利用一第二已知噪音降低演算法，減少該下行鏈音訊訊號中的噪音，以產生一第三音訊訊號；其中，該第二輸入訊號等於該第三音訊訊號。
如請求項2之裝置，其中該第一已知噪音降低演算法及該第二已知噪音降低演算法為人工智慧噪音降低。
如請求項1之裝置，其中該組操作更包含：當該第一功率值大於或等於該第一臨界值以及該第二功率值小於該第二臨界值時，維持該增益值不變。
如請求項1之裝置，其中該降低該增益值操作包含：利用以下公式：g_C=g_P×f1，取得一目前增益值g_C，其中f1是一常數且0<f1<1，以及g_P代表一先前增益值。
如請求項1之裝置，其中該降低該增益值操作包含：根據(Pr/Pr_max)的比例，調整該增益值，其中Pr及Pr_max分別代表該第二功率值及該第二輸入訊號的M個音框的最大功率值。
如請求項1之裝置，其中該機構瑕疵是墊片洩漏以及該一個或更多麥克風的位置鄰近該揚聲器之其一。
如請求項1之裝置，其中該將該上行鏈音訊訊號設為靜音操作更包含：將該增益值重置為系統初始化時的一初始值。
一種語音處理方法，適用於一個具有一機構瑕疵的通訊裝置，包含：利用一已知的聲學回音消除演算法，消除來自一個或更多麥克風的一第一音訊訊號中的回音，以產生一第二音訊訊號；利用一第一已知噪音降低演算法，減少該第二音訊訊號中的噪音，M產生一第一輸入訊號；當該第一輸入訊號的M個音框的第一功率值小於一第一臨界值時，將一上行鏈音訊訊號設為靜音；當該第一功率值大於或等於該第一臨界值以及一第二輸入訊號的M個音框的第二功率值大於或等於一第二臨界值時，降低一增益值，其中該第二輸入訊號與該下行鏈音訊訊號有關以及M>=1；以及將該增益值乘上一下行鏈音訊訊號的對應M個音框的各取樣值，以提供一增益下行鏈訊號給一揚聲器。
如請求項9之方法，更包含：利用一第二已知噪音降低演算法，減少該下行鏈音訊訊號中的噪音，以產生一第三音訊訊號；其中，該第二輸入訊號等於該第三音訊訊號。
如請求項10之方法，其中該第一已知噪音降低演算法及該第二已知噪音降低演算法為人工智慧噪音降低。
如請求項9之方法，更包含：當該第一功率值大於或等於該第一臨界值以及該第二功率值小於該第二臨界值時，維持該增益值不變。
如請求項9之方法，其中該降低該增益值步驟包含：利用以下公式：g_C=g_P×f1，取得一目前增益值g_C，其中f1是一常數且0<f1<1，以及g_P代表一先前增益值。
如請求項9之方法，其中該降低該增益值步驟包含：根據(Pr/Pr_max)的比例，調整該增益值，其中Pr及Pr_max分別代表該第二功率值及該第二輸入訊號的M個音框的最大功率值。
如請求項9之方法，其中該機構瑕疵是墊片洩漏及該一個或更多麥克風的位置鄰近該揚聲器之其一。
如請求項9之方法，其中該將該上行鏈音訊訊號設為靜音步驟更包含：將該增益值重置為系統初始化時的一初始值。