[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP7156084B2 - 音信号処理プログラム、音信号処理方法及び音信号処理装置 - Google Patents

音信号処理プログラム、音信号処理方法及び音信号処理装置 Download PDF

Info

Publication number
JP7156084B2
JP7156084B2 JP2019032113A JP2019032113A JP7156084B2 JP 7156084 B2 JP7156084 B2 JP 7156084B2 JP 2019032113 A JP2019032113 A JP 2019032113A JP 2019032113 A JP2019032113 A JP 2019032113A JP 7156084 B2 JP7156084 B2 JP 7156084B2
Authority
JP
Japan
Prior art keywords
sound signal
noise
sound
signal
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019032113A
Other languages
English (en)
Other versions
JP2020134887A (ja
Inventor
潤 高橋
拓也 上村
健太郎 村瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2019032113A priority Critical patent/JP7156084B2/ja
Publication of JP2020134887A publication Critical patent/JP2020134887A/ja
Application granted granted Critical
Publication of JP7156084B2 publication Critical patent/JP7156084B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、音信号処理プログラム、音信号処理方法及び音信号処理装置に関する。
例えば、非一時的記録媒体に記録されている音に対して、音声認識技術を適用して、発話内容及び発話時間を取得し、発話内容を表す字幕を作成したり、発話内容から特定の用語を検索することが可能なコーパスを作成したりする技術が存在する。しかしながら、非一時的記録媒体に記録されている音に雑音が含まれている場合、音声認識精度が低下する。
例えば、音を収音する際に、複数のマイクを使用して、音の到来方向を取得することで、雑音を除去する技術が存在する。しかしながら、一般的に、非一時的記録媒体に記録されている音を収音した際のマイクに関する情報は不明であるため、非一時的記録媒体に記録されている音に対して、当該技術を使用することは困難である。
特開2018-81277号公報 特開2004-020679号公報 特開2016-42152号公報
音を収音する際に使用されたマイクの配置に関する情報を使用することなく、音から雑音を除去する方法として、例えば、End-to-End speech denoising (End-to-End雑音除去方法)が存在する。End-to-End雑音除去方法では、音信号をスペクトルに変換せず、当該音信号に対して雑音除去方法を適用する。詳細には、Deep Neural Network (DNN)などを使用して、雑音を含む音信号から雑音を含まない音信号を出力するモデルを構築し、当該モデルを使用して、音信号から雑音を除去する。
End-to-End雑音除去方法による雑音除去は、Mean Opinion Score (MOS: 複数被験者による主観評価試験)などで、スペクトルに適用される雑音除去方法よりも良い結果を得ることができる、と評価されたことが報告されている。しかしながら、End-to-End雑音除去方法が、スペクトルに適用される雑音除去方法よりも良くない結果を得る場合もある。
本発明は、1つの側面として、雑音の種類に拘わらず、当該雑音を適切に除去することを可能とすることを目的とする。
1つの実施形態では、音信号を時間周波数変換によりスペクトル信号に変換し、非音声区間のスペクトル信号の平均パワーが第1閾値以上の場合に、周波数特性から非音声区間のスペクトル信号の定常性の有無を判定する。非音声区間のスペクトル信号に定常性がない場合は、音信号に対して雑音除去を行う第1雑音除去方法を適用し、非音声区間に定常性がある場合は、スペクトル信号に対して雑音除去を行う第2雑音除去方法を適用することを決定する。音信号に対して第1雑音除去方法を適用して雑音が除去された音信号、またはスペクトル信号に対して第2雑音除去方法を適用して雑音が除去され、かつ、時間周波数逆変換により変換された音信号を取得する。
本発明は、1つの側面として、雑音の種類に拘わらず、当該雑音を適切に除去することを可能とする。
実施形態に係る音信号処理装置の一例を示すブロック図である。 異なる雑音除去方法による単語誤り率の一例を示す表である。 「空調音」のスペクトルを例示する概要図である。 「話し声」のスペクトルを例示する概要図である。 「コピー機」のスペクトルを例示する概要図である。 「咳」のスペクトルを例示する概要図である。 「打鍵音」のスペクトルを例示する概要図である。 「着信音」のスペクトルを例示する概要図である。 異なる雑音によるパワー平均値、0次メル周波数ケプストラム係数の平均値及び分散値を例示する表である。 End-to-End雑音除去方法を説明するブロック図である。 スペクトル雑音除去方法を説明するブロック図である。 音信号処理装置のハードウェアの一例を示すブロック図である。 音信号処理の一例を示すフローチャートである。 雑音除去方法決定処理の一例を示すフローチャートである。 雑音除去処理の一例を示すフローチャートである。 音信号処理装置の一例を示すブロック図である。 サーバのハードウェアの一例を示すブロック図である。 音信号処理装置の一例を示すブロック図である。
以下、図面を参照して実施形態の一例を詳細に説明する。
図1に示す音信号処理装置10は、音入力部12、時間周波数変換部14、音声区間判定部16、雑音除去方法決定部18、第1雑音除去部20、第2雑音除去部22、時間周波数逆変換部24、及び、音出力部26を含む。第1雑音除去部20及び第2雑音除去部22は、雑音除去部の一例である。
音入力部12は、入力される音を音信号に変換する。時間周波数変換部14は、1フレーム分の音信号に対して時間周波数変換を行い、スペクトル信号(以下、スペクトルともいう。)に変換する。1フレームは、例えば、10m秒であってよく、時間周波数変換は、例えば、Fast Fourier Transformation(以下、FFTという。)であってよい。例えば、窓幅25[ミリ秒]のFFTをステップ幅10[ミリ秒]毎に適用する。
音声区間判定部16は、既存の技術をスペクトルに適用して、音が音声区間の音であるか、非音声区間の音であるか判定する。既存の技術には、例えば、自己相関を使用する技術、及び、特徴量を使用する技術、などが存在する。
雑音除去方法決定部18は、時間領域信号である音信号に適用することで雑音除去を行う第1雑音除去方法を使用するか、周波数領域信号であるスペクトルに適用することで雑音除去を行う第2雑音除去方法を使用するか、決定する。以下、第1雑音除去方法は、時間雑音除去方法ともいい、例えば、End-to-End speech denoising (End-to-End雑音除去方法)であってよい。また、以下、第2雑音除去方法は、スペクトル雑音除去方法ともいう。
発明者らは、例えば、会議中に雑音となり得る様々な種類の環境音を含む音を使用して、雑音除去を行わない場合、スペクトル雑音除去方法で雑音除去を行った場合、及び、End-to-End雑音除去方法で雑音除去を行った場合の音信号を使用して音声認識を行った。音声認識エンジンは、Julius-v4.4(DNNモデル)である。評価音は、新聞記事読上音声コーパスの文書200文(男女各100文)に環境音を信号対雑音比が5[dB]程度になるように重畳した音を使用した。評価音に重畳される環境音は、会議中に雑音となり得る「空調音」、「話し声」、「コピー機」、「咳」、「打鍵音」、及び「着信音」である。
音声認識の結果、環境音の種類が、「話し声」、「咳」、「打鍵音」、及び「着信音」の場合、End-to-End雑音除去方法で雑音除去を行った場合の単語誤り率が、スペクトル雑音除去方法で雑音除去を行った場合の単語誤り率よりも低いことが判明した。音声認識の結果を図2に例示する。
一方、環境音の種類が、「空調音」、及び「コピー機」の場合、スペクトル雑音除去方法で雑音除去を行った場合の単語誤り率が、End-to-End雑音除去方法で雑音除去を行った場合の単語誤り率よりも低いことが判明した。即ち、「話し声」、「咳」、「打鍵音」、及び「着信音」の場合、End-to-End雑音除去方法による雑音除去が適しており、「空調音」、及び「コピー機」の場合、スペクトル雑音除去方法による雑音除去が適していることが判明した。
そこで、発明者らは、「空調音」、及び「コピー機」に共通する音の特徴、及び、「話し声」、「咳」、「打鍵音」、及び「着信音」に共通する音の特徴を調査した。図3A~図3Fは、環境音のスペクトルの時間変動を表す。詳細には、図3Aは「空調音」、図3Bは「話し声」、図3Cは「コピー機」、図3Dは「咳」、図3Eは「打鍵音」、及び図3Fは「着信音」のスペクトルの時間変動を表す。図3A~図3Fの横軸は時間を表し、縦軸は周波数を表す。音圧レベルは色の濃淡で表され、音圧レベルが大きいほど濃い色で表され、音圧レベルが小さいほど白に近い色で表されている。
図3A~図3Fを比較検討した結果、図3A及び図3Cに例示するように、「空調音」、及び「コピー機」は、スペクトルの周波数毎の成分の時間変動が小さい、という共通した音の特徴を有することが判明した。一方、図3B、図3D、図3E及び図3Fに例示するように、「話し声」、「咳」、「打鍵音」、及び「着信音」は、スペクトルの周波数毎の成分の時間変動が大きい、という共通した音の特徴を有することが判明した。
上記から、スペクトルの周波数毎の成分の時間変動が小さい場合には、スペクトル雑音除去方法の使用が適しており、スペクトルの周波数毎の成分の時間変動が大きい場合には、End-to-End雑音除去方法の使用が適していることが判明した。したがって、本実施形態の雑音除去方法決定部18では、スペクトルの周波数毎の成分の時間変動が小さい場合に、スペクトル雑音除去方法を使用することを決定する、こととした。また、本実施形態の雑音除去方法決定部18では、スペクトルの周波数毎の成分の時間変動が大きい場合に、時間雑音除去方法を使用することを決定する、こととした。
以下、スペクトルの周波数毎の成分の時間変動が所定値より小さい場合、定常性がある、といい、スペクトルの周波数毎の成分の時間変動が所定値以上である場合、定常性がない、という。定常性の有無を判定するために、スペクトルの周波数特性を使用することができる。ここでは、周波数特性として、声の特性を表す特徴量であるメル周波数ケプストラム係数(Mel Frequency Cepstral Coefficients:MFCC)を使用する。
発明者らは、「無音」、「空調音」、「話し声」、「コピー機」、「咳」、「打鍵音」、及び、「着信音」について、0次MFCC(以下、MFCC[0]という。MFCCの直流成分)の時間軸方向での平均値及び分散値を調査した。その結果、図4に例示するように、MFCC[0]の平均値では、環境音(以下、雑音という。)の種類による顕著な差異は存在しないが、「空調音」及び「コピー機」では、MFCC[0]の分散値が、「無音」以外の他の雑音より低いことが判明した。ここで、「無音」とは、限りなく微小な信号である。
そこで、まず、「無音」を除外する。詳細には、「無音」は、「無音」以外の他の雑音より、パワー平均値(直流成分の時間軸方向の平均値)が低いため、パワー平均値に基づいて、「無音」を除外する。例えば、パワー平均値が第1閾値より小さい場合、「無音」であると判断して除外する。次に、MFCC[0]の分散値が第2閾値より小さい雑音を定常性があると判断する。
以上から、本実施形態において、雑音除去方法決定部18は、音が非音声区間の音であり、パワー平均値が第1閾値以上である場合、「無音」以外の他の雑音である、と判定することとする。第1閾値は、例えば、-70[dB]であってよい。「無音」である場合、雑音が存在したとしてもその影響は小さいため、雑音除去を行わなくてもよいし、予め定めた任意の雑音除去方法によって雑音除去を行ってもよい。
パワー平均値が第1閾値以上である場合、雑音除去方法決定部18は、スペクトルの周波数特性について検討する。詳細には、例えば、MFCC[0]の分散値が第2閾値以上であるか否か判定する。第2閾値は、例えば、100であってよい。MFCC[0]の分散値が第2閾値以上である場合、定常性がないと判断し、雑音除去方法決定部18は、定常性がない雑音の除去に適した時間雑音除去方法を使用することを決定する。一方、MFCC[0]の分散値が第2閾値より小さい場合、定常性があると判断し、雑音除去方法決定部18は、定常性がある雑音の除去に適したスペクトル雑音除去方法を使用することを決定する。
第1雑音除去部20は、時間雑音除去方法を音信号に適用して、音信号から雑音を除去する。時間雑音除去方法は、例えば、End-to-End雑音除去方法であってよい。第1雑音除去部20は、図5Aに例示するように、音信号を入力し、例えば、End-to-End雑音除去モデルを使用して、音信号から雑音を除去し、雑音が除去された音信号を出力する。
第2雑音除去部22は、スペクトル雑音除去方法を振幅スペクトル(以下、スペクトルという。)に適用して、スペクトルから雑音を除去する。スペクトル雑音除去方法は、非音声区間のスペクトルから雑音スペクトルを推定し、スペクトルから当該雑音スペクトルを減算するフィルタを使用して、雑音を除去する。当該フィルタは、例えば、機械学習を利用して作成されてもよい。第2雑音除去部20は、図5Bに例示するように、スペクトルを入力して、例えば、フィルタ生成モデルを使用して雑音除去フィルタを生成し、生成された雑音除去フィルタをスペクトルに適用して、スペクトルから雑音を除去し、雑音が除去されたスペクトルを出力する。
時間周波数逆変換部24は、第2雑音除去部20で雑音が除去されたスペクトルに対して、時間周波数逆変換を行い、スペクトルに対応する音信号を取得する。時間周波数逆変換は、例えば、Inverse Fast Fourier Transformation(以下、IFFTという。)であってよい。音出力部26は、時間周波数逆変換部24で取得された音信号に対応する音、または、第1雑音除去部20で雑音が除去された音信号に対応する音を出力する。
なお、第1雑音除去部20による雑音除去は、雑音除去方法決定部18が、定常性があると判定した場合に行われてもよいし、判定に関係なく行われてもよい。また、第2雑音除去部22による雑音除去は、雑音除去方法決定部18が、定常性がないと判定した場合に行われてもよいし、判定に関係なく行われてもよい。判定に関係なく行われた場合、音出力部26が、判定に基づいて、第1雑音除去部20で取得された音信号を出力するか、第2雑音除去部22及び時間周波数逆変換部24で取得された音信号を出力するか、選択する。
音信号処理装置10は、一例として、図6に示すように、CPU(Central Processing Unit)51、一次記憶部52、二次記憶部53、外部インタフェース54、マイク31A及びスピーカ31Bを含む。CPU51は、ハードウェアであるプロセッサの一例である。CPU51、一次記憶部52、二次記憶部53、外部インタフェース54、マイク31A及びスピーカ31Bは、バス59を介して相互に接続されている。
一次記憶部52は、例えば、RAM(Random Access Memory)などの揮発性のメモリである。二次記憶部53は、例えば、HDD(Hard Disk Drive)、又はSSD(Solid State Drive)などの不揮発性のメモリである。
二次記憶部53は、プログラム格納領域53A及びデータ格納領域53Bを含む。プログラム格納領域53Aは、一例として、雑音の種類を判定することで雑音除去方法を決定する音信号処理プログラムなどのプログラムを記憶している。データ格納領域53Bは、一例として、音信号、スペクトル及び音信号処理プログラムを実行している間に生成される中間データなどを記憶する。
CPU51は、プログラム格納領域53Aから音信号処理プログラムを読み出して一次記憶部52に展開する。CPU51は、音信号処理プログラムをロードして実行することで、図1の時間周波数変換部14、音声区間判定部16、雑音除去方法決定部18、第1雑音除去部20、第2雑音除去部22及び時間周波数逆変換部24として動作する。
なお、音信号処理プログラムなどのプログラムは、外部サーバに記憶され、ネットワークを介して、一次記憶部52に展開されてもよい。また、音信号処理プログラムなどのプログラムは、DVD(Digital Versatile Disc)などの非一時的記録媒体に記憶され、記録媒体読込装置を介して、一次記憶部52に展開されてもよい。
外部インタフェース54には外部装置が接続され、外部インタフェース54は、外部装置とCPU51との間の各種情報の送受信を司る。マイク31Aは、音入力部12の一例であり、入力される音を音信号に変換する。スピーカ31Bは、音出力部26の一例であり、例えば、雑音除去済みの音信号に対応する音を出力する。なお、マイク31A及びスピーカ31Bは、音信号処理装置10に内蔵されず、外部インタフェース54を介して、外部装置として、音信号処理装置10と接続されていてもよい。
音信号処理装置10は、例えば、パーソナルコンピュータであってもよいし、スマートフォンであってもよいし、専用のデバイスであってもよい。
次に、雑音の種類を判定することで雑音除去方法を決定する音信号処理の作用の概要について説明する。図7は、音信号処理の流れを例示する。CPU51は、ステップ100で、雑音除去方法を決定し、ステップ200で、ステップ100で決定された雑音除去方法を適用することで雑音除去を行う。
図8は、図7のステップ100の雑音除去方法決定処理の流れを例示する。CPU51は、ステップ102で、マイク31Aから入力される音に対応する音信号を1フレーム分読み込む。CPU51は、ステップ104で、読み込まれた音信号に対してFFTを行い、音信号をスペクトル信号に変換する。
CPU51は、ステップ106で、スペクトル信号が所定時間以上継続している非音声区間であるか否か判定する。所定時間は、例えば、0.5[秒]であってよい。ステップ106の判定が肯定された場合、CPU51は、ステップ108で、スペクトル信号が無音であるか否か判定する。ステップ108の判定が否定された場合、CPU51は、ステップ110で、MFCC[0]を累積する。
CPU51は、ステップ112で、まだ処理すべき音信号が存在するか否か判定する。ステップ106の判定が否定された場合、または、ステップ108の判定が肯定された場合も、CPU51は、ステップ112で、まだ処理すべき音信号が存在するか否か判定する。ステップ112の判定が肯定された場合、CPU51は、ステップ102に戻る。
例えば、ユーザが音信号処理の終了を指示したことなどにより、ステップ112の判定が否定された場合、CPU51は、ステップ114で、MFCC[0]の平均値を算出する。CPU51は、ステップ116で、MFCC[0]の平均値が第2閾値の一例である所定値以上であるか否か判定する。ステップ116の判定が肯定された場合、CPU51は、ステップ118で、音信号に対して雑音除去を行う第1雑音除去方法の一例であるEnd-to-End雑音除去方法を適用することを決定する。ステップ116の判定が否定された場合、CPU51は、ステップ120で、スペクトル信号に対して雑音除去を行う第2雑音除去方法の一例であるスペクトル雑音除去方法を適用することを決定する。
図9は、図7のステップ200の雑音除去処理の流れを例示する。CPU51は、ステップ202で、信号を1フレーム分読み込む。ステップ118で、End-to-End雑音除去方法を適用することが決定された場合、音信号を読み込み、ステップ120で、スペクトル雑音除去方法を適用することが決定された場合、スペクトル信号を読み込む。ここで、読み込まれる信号は、図8のステップ102で読み込まれた音信号またはステップ104で変換されたスペクトル信号である。
CPU51は、ステップ204で、信号に対して雑音除去を適用する。ステップ118で、End-to-End雑音除去方法を適用することが決定された場合、音信号に対してEnd-to-End雑音除去方法を適用する。一方、ステップ120で、スペクトル雑音除去方法を適用することが決定された場合、スペクトル信号に対してスペクトル雑音除去方法を適用する。
CPU51は、ステップ206で、ステップ204でスペクトル雑音除去方法が適用されたか否か判定する。ステップ206の判定が肯定された場合、CPU51は、ステップ208で、雑音が除去されたスペクトル信号に対してIFFTを行い、音信号に変換する。CPU51は、ステップ210で、例えば、スピーカ31Bから、ステップ208で変換された音信号、または、ステップ204でEnd-to-End雑音除去方法が適用されて雑音が除去された音信号に対応する音を出力する。なお、音信号は、スピーカ31Bから音として出力される代わりに、例えば、外部記憶装置に出力され、ファイルに保存されてもよい。
なお、図7の音信号処理は、マイク31Bから入力される音に代えて、例えば、ファイルに保存されている音信号に対して、行われてもよい。即ち、ステップ100で、当該ファイルの音信号または当該音信号に対応するスペクトル信号に適用される雑音除去方法を決定し、ステップ200で、当該ファイルの音信号または対応するスペクトル信号から雑音を除去してもよい。また、例えば、所定時間の音信号毎にステップ100及びステップ200を繰り返し適用してもよい。所定時間は、例えば、0.5[秒]であってよい。
例えば、環境音が変化しない状況下で収音されファイルに保存されている音信号については、当該音信号に対応する全ての音について、同一の雑音除去方法を適用すればよい。また、例えば、環境音が時間変動する状況下でマイク31Aから入力される音については、所定時間の音毎に、当該音を使用して判定した環境音である雑音の種類に応じた雑音除去方法を適用すればよい。
本実施形態は、様々な雑音が存在し得る環境で収音される音声の字幕作成、会議議事録作成などに適用することができる。なお、図7~図9に例示するフローチャートは一例であり、ステップの順序は変更されてもよい。
音信号処理装置10は、図10に例示するように、有線または無線ネットワークで接続されたクライアント81A及びサーバ82Aを含んでいてもよい。この場合、クライアント81Aは、例えば、図1の音入力部12及び音出力部26を含む。サーバ82Aは、時間周波数変換部14、音声区間判定部16、雑音除去方法決定部18、第1雑音除去部20、第2雑音除去部22、及び、時間周波数逆変換部24を含む。
クライアント81Aのハードウェア構成は、図6の音信号処理装置10のハードウェア構成と同様であってよい。また、サーバ82Aのハードウェア構成は、図11に例示するように、マイク31A及びスピーカ31Bを含まない点で、図6の音信号処理装置10と相違する。しかしながら、図11のCPU51D、一次記憶部52D、二次記憶部53D、及び外部インタフェース54Dは、図6のCPU51、一次記憶部52、二次記憶部53、及び外部インタフェース54と同様であってよいため、詳細な説明を省略する。二次記憶部53Dは、二次記憶部53と同様に、プログラム格納領域53AD及びデータ格納領域53BDを含む。
音信号処理装置10の機能をクライアント81Aとサーバ82Aとに分離することで、クライアント81Aの処理負荷を軽減し、クライアント81Aを小型・軽量化することで、クライアント81Aの携帯性を向上させることが可能となる。
音信号処理装置10は、図12に例示するように、有線または無線ネットワークで接続されたクライアント81B、方法決定サーバ82B、第1雑音除去サーバ82C及び第2雑音除去サーバ82Dを含んでいてもよい。クライアント81Bは、音入力部12及び、音出力部26を含む。サーバ82Bは、時間周波数変換部14、音声区間判定部16、雑音除去方法決定部18、及び、時間周波数逆変換部24を含む。第1雑音除去サーバ82Cは第1雑音除去部20を含み、第2雑音除去サーバ82Dは第2雑音除去部22を含む。
方法決定サーバ82B、第1雑音除去サーバ82C及び第2雑音除去サーバ82Dのハードウェア構成は、サーバ82Aのハードウェア構成と同様であってよい。クライアント81Bのハードウェア構成は、クライアント81Aの構成と同様であってよい。
第1雑音除去サーバ82Cは、音入力部12で入力した音信号に対して第1雑音除去方法を適用する。第2雑音除去サーバ82Dは、時間周波数変換部14で変換されたスペクトル信号に対して第2雑音除去方法を適用する。方法決定サーバ82Bは、雑音除去方法決定部18で決定された雑音除去方法が第1雑音除去方法であれば、第1雑音除去サーバ82Cで雑音が除去された音信号をクライアント81Bに送信する。方法決定サーバ82Bは、雑音除去方法決定部18で決定された雑音除去方法が第2雑音除去方法であれば、第2雑音除去サーバ82Dで雑音が除去されたスペクトル信号を、時間周波数逆変換部24で音信号に変換して、クライアント81Bに送信する。
音信号処理装置10の機能をクライアント81B、方法決定サーバ82B、第1雑音除去サーバ82C及び第2雑音除去サーバ82Dに分離することで、クライアント81Bの処理負荷を軽減することができる。これにより、クライアント81Bを小型・軽量化することで、クライアント81Bの携帯性を向上させることが可能となる。また、雑音除去方法の決定とは無関係に、第1雑音除去サーバ82Cで第1雑音除去を行い、第2雑音除去サーバ82Dで第2雑音除去を行うことで、全体処理の高速化を図ることが可能となる。
なお、図10及び図12に例示した音信号処理装置は、一例であり、本実施形態はこれらに限定されない。例えば、図12の第2雑音除去サーバ82Dは、時間周波数変換部14及び時間周波数逆変換部24を、方法決定サーバ82Bとは別に有していてもよい。
なお、音信号に対応する音を音出力部26から出力する例について説明したが、本実施形態はこれに限定されない。音信号は、例えば、ファイルに保存されてもよいし、音信号に対して音声認識処理を適用し、テキストとしてディスプレイに表示してもよいし、テキストをファイルに保存してもよい。ファイルは、例えば、二次記憶部53のデータ格納領域53Bまたは二次記憶部53Dのデータ格納領域53BDなどに記憶されてもよい。
本実施形態では、音信号を時間周波数変換によりスペクトル信号に変換し、非音声区間のスペクトル信号の平均パワーが第1閾値以上の場合に、周波数特性から非音声区間のスペクトル信号の定常性の有無を判定する。非音声区間のスペクトル信号に定常性がない場合は、音信号に対して雑音除去を行う第1雑音除去方法を適用し、非音声区間に定常性がある場合は、スペクトル信号に対して雑音除去を行う第2雑音除去方法を適用することを決定する。音信号に対して第1雑音除去方法を適用して雑音が除去された音信号、またはスペクトル信号に対して第2雑音除去方法を適用して雑音が除去され、かつ、時間周波数逆変換により変換された音信号を取得する。
本実施形態では、雑音の種類を判定し、当該雑音に適した雑音除去方法を決定する。これにより、本実施形態では、雑音の種類に拘わらず、当該雑音を適切に除去することを可能とする。
以上の各実施形態に関し、更に以下の付記を開示する。
(付記1)
音信号を時間周波数変換によりスペクトル信号に変換し、
非音声区間の前記スペクトル信号の平均パワーが第1閾値以上の場合に、周波数特性から前記非音声区間の前記スペクトル信号の定常性の有無を判定し、
前記非音声区間のスペクトル信号に定常性がない場合は、前記音信号に対して雑音除去を行う第1雑音除去方法を適用し、前記非音声区間に定常性がある場合は、前記スペクトル信号に対して雑音除去を行う第2雑音除去方法を適用することを決定し、
前記音信号に対して前記第1雑音除去方法を適用して雑音が除去された音信号、または前記スペクトル信号に対して前記第2雑音除去方法を適用して雑音が除去され、かつ、時間周波数逆変換により変換された音信号を取得する、
雑音除去処理をコンピュータに実行させるための音信号処理プログラム。
(付記2)
音入力部から入力された前記スペクトル信号に変換する前の音信号を取得し、
前記第1雑音除去方法を適用して雑音が除去された音信号、または前記第2雑音除去方法を適用して雑音が除去され、かつ、時間周波数逆変換により変換された音信号から変換される音を音出力部から出力する、
付記1の音信号処理プログラム。
(付記3)
前記定常性がない場合は、前記スペクトル信号の周波数毎の成分の時間変動が所定値以上の場合である、
付記1または付記2の音信号処理プログラム。
(付記4)
前記周波数特性は、0次メル周波数ケプストラム係数であり、前記定常性がない場合は、前記0次メル周波数ケプストラム係数の分散値が第2閾値以上である場合である、
付記3の音信号処理プログラム。
(付記5)
コンピュータが、
音信号を時間周波数変換によりスペクトル信号に変換し、
非音声区間の前記スペクトル信号の平均パワーが第1閾値以上の場合に、周波数特性から前記非音声区間の前記スペクトル信号の定常性の有無を判定し、
前記非音声区間のスペクトル信号に定常性がない場合は、前記音信号に対して雑音除去を行う第1雑音除去方法を適用し、前記非音声区間に定常性がある場合は、前記スペクトル信号に対して雑音除去を行う第2雑音除去方法を適用することを決定し、
前記音信号に対して前記第1雑音除去方法を適用して雑音が除去された音信号、または前記スペクトル信号に対して前記第2雑音除去方法を適用して雑音が除去され、かつ、時間周波数逆変換により変換された音信号を取得する、
音信号処理方法。
(付記6)
音入力部から入力された前記スペクトル信号に変換する前の音信号を取得し、
前記第1雑音除去方法を適用して雑音が除去された音信号、または前記第2雑音除去方法を適用して雑音が除去され、かつ、時間周波数逆変換により変換された音信号から変換される音を音出力部から出力する、
付記5の音信号処理方法。
(付記7)
前記定常性がない場合は、前記スペクトル信号の周波数毎の成分の時間変動が所定値以上の場合である、
付記5または付記6の音信号処理方法。
(付記8)
前記周波数特性は、0次メル周波数ケプストラム係数であり、前記定常性がない場合は、前記0次メル周波数ケプストラム係数の分散値が第2閾値以上である場合である、
付記7の音信号処理方法。
(付記9)
音信号を時間周波数変換によりスペクトル信号に変換する時間周波数変換部と、
非音声区間の前記スペクトル信号の平均パワーが第1閾値以上の場合に、周波数特性から前記非音声区間の前記スペクトル信号の定常性の有無を判定し、前記非音声区間のスペクトル信号に定常性がない場合は、前記音信号に対して雑音除去を行う第1雑音除去方法を適用し、前記非音声区間に定常性がある場合は、前記スペクトル信号に対して雑音除去を行う第2雑音除去方法を適用することを決定する雑音除去方法決定部と、
前記音信号に対して前記第1雑音除去方法を適用して雑音が除去された音信号、または前記スペクトル信号に対して前記第2雑音除去方法を適用して雑音が除去され、かつ、時間周波数逆変換により変換された音信号を取得する雑音除去部と、
を含む、音信号処理装置。
(付記10)
前記スペクトル信号に変換する前の音信号を取得する音入力部と、
前記第1雑音除去方法を適用して雑音が除去された音信号、または前記第2雑音除去方法を適用して雑音が除去され、かつ、時間周波数逆変換により変換された音信号から変換される音を出力する音出力部と、
をさらに含む、付記9の音信号処理装置。
(付記11)
前記定常性がない場合は、前記スペクトル信号の周波数毎の成分の時間変動が所定値以上の場合である、
付記9または付記10の音信号処理装置。
(付記12)
前記周波数特性は、0次メル周波数ケプストラム係数であり、前記定常性がない場合は、前記0次メル周波数ケプストラム係数の分散値が第2閾値以上である場合である、
付記11の音信号処理装置。
(付記13)
前記時間周波数変換部と、前記雑音除去方法決定部と、前記雑音除去部と、を含むサーバと、
前記音入力部と、前記音出力部と、を含むクライアントと、
を含む、
付記10の音信号処理装置。
(付記14)
前記雑音除去部は、
前記音信号に対して前記第1雑音除去方法を適用して雑音が除去された音信号を取得する第1雑音除去部と、
前記スペクトル信号に対して前記第2雑音除去方法を適用して雑音が除去され、かつ、時間周波数逆変換により変換された音信号を取得する第2雑音除去部と、
を含み、
前記時間周波数変換部と、前記雑音除去方法決定部と、を含む方法決定サーバと、
前記第1雑音除去部を含む第1雑音除去サーバと、
前記第2雑音除去部を含む第2雑音除去サーバと、
前記音入力部と、前記音出力部と、を含むクライアントと、
を含む、付記10の音信号処理装置。
10 音信号処理装置
14 時間周波数変換部
18 雑音除去方法決定部
20 第1雑音除去部
22 第2雑音除去部
24 時間周波数逆変換部
51 CPU
52 一次記憶部
53 二次記憶部
31A マイク
31B スピーカ

Claims (6)

  1. 音信号を時間周波数変換によりスペクトル信号に変換し、
    非音声区間の前記スペクトル信号の平均パワーが第1閾値以上の場合に、周波数特性から前記非音声区間の前記スペクトル信号の定常性の有無を判定し、
    前記非音声区間のスペクトル信号に定常性がない場合は、前記音信号に対して雑音除去を行う第1雑音除去方法を適用し、前記非音声区間に定常性がある場合は、前記スペクトル信号に対して雑音除去を行う第2雑音除去方法を適用することを決定し、
    前記音信号に対して前記第1雑音除去方法を適用して雑音が除去された音信号、または前記スペクトル信号に対して前記第2雑音除去方法を適用して雑音が除去され、かつ、時間周波数逆変換により変換された音信号を取得する、
    雑音除去処理をコンピュータに実行させるための音信号処理プログラム。
  2. 音入力部から入力された前記スペクトル信号に変換する前の音信号を取得し、
    前記第1雑音除去方法を適用して雑音が除去された音信号、または前記第2雑音除去方法を適用して雑音が除去され、かつ、時間周波数逆変換により変換された音信号から変換される音を音出力部から出力する、
    請求項1に記載の音信号処理プログラム。
  3. 前記定常性がない場合は、前記スペクトル信号の周波数毎の成分の時間変動が所定値以上の場合である、
    請求項1または請求項2に記載の音信号処理プログラム。
  4. 前記周波数特性は、0次メル周波数ケプストラム係数であり、前記定常性がない場合は、前記0次メル周波数ケプストラム係数の分散値が第2閾値以上である場合である、
    請求項3に記載の音信号処理プログラム。
  5. コンピュータが、
    音信号を時間周波数変換によりスペクトル信号に変換し、
    非音声区間の前記スペクトル信号の平均パワーが第1閾値以上の場合に、周波数特性から前記非音声区間の前記スペクトル信号の定常性の有無を判定し、
    前記非音声区間のスペクトル信号に定常性がない場合は、前記音信号に対して雑音除去を行う第1雑音除去方法を適用し、前記非音声区間に定常性がある場合は、前記スペクトル信号に対して雑音除去を行う第2雑音除去方法を適用することを決定し、
    前記音信号に対して前記第1雑音除去方法を適用して雑音が除去された音信号、または前記スペクトル信号に対して前記第2雑音除去方法を適用して雑音が除去され、かつ、時間周波数逆変換により変換された音信号を取得する、
    音信号処理方法。
  6. 音信号を時間周波数変換によりスペクトル信号に変換する時間周波数変換部と、
    非音声区間の前記スペクトル信号の平均パワーが第1閾値以上の場合に、周波数特性から前記非音声区間の前記スペクトル信号の定常性の有無を判定し、前記非音声区間のスペクトル信号に定常性がない場合は、前記音信号に対して雑音除去を行う第1雑音除去方法を適用し、前記非音声区間に定常性がある場合は、前記スペクトル信号に対して雑音除去を行う第2雑音除去方法を適用することを決定する雑音除去方法決定部と、
    前記音信号に対して前記第1雑音除去方法を適用して雑音が除去された音信号、または前記スペクトル信号に対して前記第2雑音除去方法を適用して雑音が除去され、かつ、時間周波数逆変換により変換された音信号を取得する雑音除去部と、
    を含む、音信号処理装置。
JP2019032113A 2019-02-25 2019-02-25 音信号処理プログラム、音信号処理方法及び音信号処理装置 Active JP7156084B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019032113A JP7156084B2 (ja) 2019-02-25 2019-02-25 音信号処理プログラム、音信号処理方法及び音信号処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019032113A JP7156084B2 (ja) 2019-02-25 2019-02-25 音信号処理プログラム、音信号処理方法及び音信号処理装置

Publications (2)

Publication Number Publication Date
JP2020134887A JP2020134887A (ja) 2020-08-31
JP7156084B2 true JP7156084B2 (ja) 2022-10-19

Family

ID=72263024

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019032113A Active JP7156084B2 (ja) 2019-02-25 2019-02-25 音信号処理プログラム、音信号処理方法及び音信号処理装置

Country Status (1)

Country Link
JP (1) JP7156084B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW202424726A (zh) * 2022-10-19 2024-06-16 美商松下電器(美國)知識產權公司 音響處理裝置及音響處理方法
WO2024084998A1 (ja) * 2022-10-19 2024-04-25 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音響処理装置及び音響処理方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002258899A (ja) 2001-03-02 2002-09-11 Yrp Kokino Idotai Tsushin Kenkyusho:Kk 雑音抑圧方法および雑音抑圧装置
WO2008114432A1 (ja) 2007-03-20 2008-09-25 Fujitsu Limited データ埋め込み装置、データ抽出装置、及び音声通信システム
JP2013148724A (ja) 2012-01-19 2013-08-01 Sony Corp 雑音抑圧装置、雑音抑圧方法およびプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04238399A (ja) * 1991-01-22 1992-08-26 Ricoh Co Ltd 音声認識装置
JP3367592B2 (ja) * 1996-09-24 2003-01-14 日本電信電話株式会社 自動利得調整装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002258899A (ja) 2001-03-02 2002-09-11 Yrp Kokino Idotai Tsushin Kenkyusho:Kk 雑音抑圧方法および雑音抑圧装置
WO2008114432A1 (ja) 2007-03-20 2008-09-25 Fujitsu Limited データ埋め込み装置、データ抽出装置、及び音声通信システム
JP2013148724A (ja) 2012-01-19 2013-08-01 Sony Corp 雑音抑圧装置、雑音抑圧方法およびプログラム

Also Published As

Publication number Publication date
JP2020134887A (ja) 2020-08-31

Similar Documents

Publication Publication Date Title
US10614827B1 (en) System and method for speech enhancement using dynamic noise profile estimation
Macartney et al. Improved speech enhancement with the wave-u-net
JP4797342B2 (ja) オーディオデータを自動的に認識する方法及び装置
US20090177468A1 (en) Speech recognition with non-linear noise reduction on mel-frequency ceptra
JP6054142B2 (ja) 信号処理装置、方法およびプログラム
US20140177853A1 (en) Sound processing device, sound processing method, and program
CN110767244A (zh) 语音增强方法
CN112053702B (zh) 一种语音处理的方法、装置及电子设备
Chougule et al. Robust spectral features for automatic speaker recognition in mismatch condition
CN111696568A (zh) 一种半监督瞬态噪声抑制方法
JP2014518404A (ja) 雑音の入った音声信号中のインパルス性干渉の単一チャネル抑制
JP7156084B2 (ja) 音信号処理プログラム、音信号処理方法及び音信号処理装置
JP5803125B2 (ja) 音声による抑圧状態検出装置およびプログラム
JP2004347956A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP6724290B2 (ja) 音響処理装置、音響処理方法、及び、プログラム
JP4705414B2 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
JP7505830B2 (ja) 機械学習モデルを用いて複数の信号成分を含むオーディオ信号処理装置
JP2010237269A (ja) 音声認識装置、その方法及びそのプログラム
JP4445460B2 (ja) 音声処理装置及び音声処理方法
JPH1138997A (ja) 雑音抑圧装置および音声の雑音除去の処理をするための処理プログラムを記録した記録媒体
JP7159767B2 (ja) 音声信号処理プログラム、音声信号処理方法及び音声信号処理装置
Weber et al. Constructing a dataset of speech recordings with lombard effect
JP2005321539A (ja) 音声認識方法、その装置およびプログラム、その記録媒体
JP2006234888A (ja) 残響除去装置、残響除去方法、残響除去プログラムおよび記録媒体
JP2006126859A5 (ja)

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211109

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220817

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220906

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220919

R150 Certificate of patent or registration of utility model

Ref document number: 7156084

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150