JP2019128402A - Signal processor, sound emphasis device, signal processing method, and program - Google Patents
Signal processor, sound emphasis device, signal processing method, and program Download PDFInfo
- Publication number
- JP2019128402A JP2019128402A JP2018008649A JP2018008649A JP2019128402A JP 2019128402 A JP2019128402 A JP 2019128402A JP 2018008649 A JP2018008649 A JP 2018008649A JP 2018008649 A JP2018008649 A JP 2018008649A JP 2019128402 A JP2019128402 A JP 2019128402A
- Authority
- JP
- Japan
- Prior art keywords
- feature amount
- signal processing
- feature
- weight
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims description 3
- 238000012545 processing Methods 0.000 claims abstract description 145
- 238000003860 storage Methods 0.000 claims abstract description 93
- 238000004364 calculation method Methods 0.000 claims abstract description 50
- 238000000034 method Methods 0.000 claims description 48
- 238000013528 artificial neural network Methods 0.000 claims description 30
- 230000008569 process Effects 0.000 claims description 19
- 230000005236 sound signal Effects 0.000 claims description 12
- 230000002708 enhancing effect Effects 0.000 claims description 4
- 239000013598 vector Substances 0.000 description 30
- 238000004458 analytical method Methods 0.000 description 26
- 230000006870 function Effects 0.000 description 26
- 238000010586 diagram Methods 0.000 description 10
- 238000011156 evaluation Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 230000004044 response Effects 0.000 description 5
- 238000005070 sampling Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 238000009827 uniform distribution Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
本発明の実施形態は、信号処理装置、音声強調装置、信号処理方法およびプログラムに関する。 Embodiments described herein relate generally to a signal processing device, a speech enhancement device, a signal processing method, and a program.
音声認識システムの認識率を向上させるため、音声を強調する信号処理などを実行する技術が提案されている。音声強調装置で用いられている技術として、信号の空間情報を利用して特定の方向の音声を強調するビームフォーミングが知られている。信号処理をより高精度に実行するためには、信号処理に用いる情報(特徴量など)をより高精度に算出することが望ましい。 In order to improve the recognition rate of a speech recognition system, a technique for executing signal processing for enhancing speech has been proposed. As a technique used in a speech enhancement apparatus, beam forming that enhances speech in a specific direction using spatial information of a signal is known. In order to execute signal processing with higher accuracy, it is desirable to calculate information (features and the like) used for signal processing with higher accuracy.
しかしながら、従来技術では信号処理に用いる情報を高精度に算出できない場合があった。例えば、ビームフォーミングでは、忘却機能を設けることにより、現在の音源位置を優先して強調する場合がある。しかし、音源が移動しない場合にも忘却機能が働き、強調の効果が低下する場合があった。 However, in the prior art, information used for signal processing may not be calculated with high accuracy. For example, in beam forming, there is a case where the current sound source position is preferentially emphasized by providing a forgetting function. However, the forgetting function works even when the sound source does not move, and the enhancement effect may be reduced.
実施形態の信号処理装置は、記憶部と、類似度算出部と、重み算出部と、更新部と、信号処理部と、を備える。記憶部は、第1入力信号の特徴を表す第1特徴量を記憶する。類似度算出部は、第1特徴量と、第2入力信号の特徴を表す第2特徴量と、の類似度を算出する。重み算出部は、類似度および第2特徴量に基づいて、第1特徴量に対する第1重みを算出する。更新部は、第1重みを乗算した第1特徴量と、第2特徴量とに基づいて、第3特徴量を算出し、第3特徴量により記憶部に記憶された第1特徴量を更新する。信号処理部は、更新された第1特徴量を用いた信号処理を実行する。 The signal processing device according to the embodiment includes a storage unit, a similarity calculation unit, a weight calculation unit, an update unit, and a signal processing unit. The storage unit stores a first feature amount representing a feature of the first input signal. The similarity calculation unit calculates the similarity between the first feature value and the second feature value representing the feature of the second input signal. The weight calculation unit calculates a first weight for the first feature amount based on the similarity and the second feature amount. The update unit calculates a third feature amount based on the first feature amount multiplied by the first weight and the second feature amount, and updates the first feature amount stored in the storage unit with the third feature amount. Do. The signal processing unit executes signal processing using the updated first feature amount.
以下に添付図面を参照して、この発明にかかる信号処理装置の好適な実施形態を詳細に説明する。なお以下では主に音声を強調する信号処理を実行する装置を例に説明するが、適用可能な信号処理は音声強調処理に限られない。音声以外の任意の信号の処理に適用できる。また、信号を強調する以外の信号処理を適用してもよい。 Hereinafter, preferred embodiments of a signal processing apparatus according to the present invention will be described in detail with reference to the accompanying drawings. In the following description, an apparatus that mainly performs signal processing for enhancing speech will be described as an example, but applicable signal processing is not limited to speech enhancement processing. It can be applied to the processing of any signal other than voice. Further, signal processing other than enhancing the signal may be applied.
ビームフォーミングでは、通常、音源の到来方向は一定であることが仮定されている。このため、話者が切り替わる場合、および、音声を入力する音声入力装置(マイクなど)に対して話者が相対的に移動する場合には音源が固定されている場合より強調の効果が発揮されづらい。そこで、上述のような忘却機能を設け、過去の音源位置より現在の音源位置を優先して強調する技術が提案されている。しかし、話者が相対的に移動しない場合でも忘却機能が働くために、忘却機能を設定しない場合と比較して強調の効果が得られない場合がある。 In beam forming, it is usually assumed that the direction of arrival of a sound source is constant. For this reason, when the speaker is switched, and when the speaker moves relative to a voice input device (such as a microphone) for inputting voice, the emphasis effect is exhibited more than when the sound source is fixed. It is difficult. Therefore, a technique has been proposed in which the above-described forgetting function is provided and the current sound source position is prioritized and emphasized over the past sound source positions. However, even when the speaker does not move relatively, the effect of emphasis may not be obtained compared to the case where the forgetting function is not set because the forgetting function works.
一方、クラスタリングを用いることで話者切り替えに対処する技術が提案されている。しかしこのような方法は規則ベースの方法であり、微分不可能な構成要素を含む。このため、出力の基準、例えば信号対雑音比(SN比)を最大化することを表す基準(最大SNR基準)などを用いて、クラスタリングの精度を向上させるためのパラメータを調整することは困難であった。 On the other hand, a technique for dealing with speaker switching by using clustering has been proposed. However, such a method is a rule-based method and includes non-differentiable components. For this reason, it is difficult to adjust a parameter for improving the accuracy of clustering by using an output criterion, for example, a criterion (maximum SNR criterion) representing maximization of a signal-to-noise ratio (SN ratio). there were.
(第1の実施形態)
第1の実施形態にかかる信号処理装置は、話者の空間情報を表す特徴量を複数の記憶領域それぞれに記憶する。信号処理装置は、音声信号に対する特徴量が入力されるごとに、記憶部に記憶された特徴量と入力された特徴量との類似度、および、入力された特徴量をニューラルネットに入力する。ニューラルネットは、記憶領域の個数と等しい次元数を持つ重みを出力する。出力される重みは、例えば、記憶された特徴量に対する重み(消去重み)、入力された特徴量に対する重み(書き込み重み)、および、記憶領域から読み出した特徴量に対する重み(読み出し重み)を含む。記憶領域から読み出した特徴量は、ビームフォーミングなどの信号処理に用いられる。
First Embodiment
The signal processing apparatus according to the first embodiment stores feature quantities representing spatial information of a speaker in each of a plurality of storage areas. The signal processing apparatus inputs, to the neural network, the degree of similarity between the feature quantity stored in the storage unit and the input feature quantity and the input feature quantity each time the feature quantity for the audio signal is input. The neural network outputs a weight having a number of dimensions equal to the number of storage areas. The weight to be output includes, for example, a weight for the stored feature amount (erasing weight), a weight for the input feature amount (write weight), and a weight for the feature amount read from the storage area (read weight). The feature amount read from the storage area is used for signal processing such as beam forming.
本実施形態では、学習データを利用して、適切な特徴量の書き換えと読み出しの方法をニューラルネットに学習させることができる。このため、忘却せずに特徴量を保持する方が強調するために都合がいい場合に忘却をしないといったことが学習できるようになる。 In the present embodiment, it is possible to make the neural network learn an appropriate feature amount rewriting and reading method using learning data. For this reason, it becomes possible to learn that no forgetting is performed when it is convenient for emphasizing to hold the feature amount without forgetting.
また本実施形態では、忘却の要否と関連性が高い情報である、記憶された特徴量と現在の特徴量との類似度を、ニューラルネットの入力に含めている。これにより、類似度を入力しない場合と比較して学習に必要なデータを削減できる。類似度を入力しない場合でも、記憶された特徴量と現在の特徴量とが類似するかに応じて出力が変わるように学習させることができるが、そのためにはより多くのデータが必要になるためである。学習のためのデータが増大する可能性はあるが、ニューラルネットの入力に類似度を含めないように構成してもよい。 Further, in the present embodiment, the similarity between the stored feature amount and the current feature amount, which is information highly relevant to necessity of oblivion, is included in the input of the neural network. Thereby, data required for learning can be reduced as compared with the case where the similarity is not input. Even if the similarity is not input, it can be learned to change the output depending on whether the stored feature quantity is similar to the current feature quantity, but more data is required for this purpose. It is. Although there is a possibility that the data for learning increases, it may be configured not to include the similarity in the input of the neural network.
このように、本実施形態によれば、忘却機能を導入しつつ、信号処理に用いる情報をより高精度に算出可能となる。例えば話者が相対的に移動しない場合でも強調の効果を維持可能となる。また、以下に述べるように本実施形態では微分不可能な構成要素を含まないモデルを用いるため、忘却機能を含む各機能を定めるパラメータが、出力で定義される評価基準(SN比など)を最大化するように調整可能となる。 Thus, according to the present embodiment, information used for signal processing can be calculated with higher accuracy while introducing the forgetting function. For example, even when the speaker does not move relatively, the emphasis effect can be maintained. In addition, as described below, in this embodiment, a model that does not include a non-differentiable component is used. Therefore, the parameters that define each function including the forgetting function maximize the evaluation criteria (such as SN ratio) defined by the output. Can be adjusted to
次に、第1の実施形態にかかる信号処理装置のハードウェア構成について図1を用いて説明する。図1は、第1の実施形態にかかる信号処理装置100のハードウェア構成例を示す説明図である。
Next, the hardware configuration of the signal processing apparatus according to the first embodiment will be described with reference to FIG. FIG. 1 is an explanatory diagram illustrating a hardware configuration example of the
信号処理装置100は、CPU(Central Processing Unit)51、ROM(Read Only Memory)52、RAM(Random Access Memory)53、記憶装置54、および、操作装置55を含み、それらがバスを介して接続されている。
The
CPU51は、RAM53を作業領域とし、RAM53に記録されたプログラムとの協働により各種処理を実行し、信号処理装置100の動作を統括的に制御する。
The
ROM52は、信号処理装置100の動作に関わるプログラム、および、学習に必要なメディアデータなどを、書き換え不可能な形式で記憶する。
The
RAM53は、例えばSDRAM(Synchronous Dynamic Random Access Memory)などの記憶媒体である。RAM53は、CPU51の作業エリアとして機能し、中間データの保持などの役割を果たす。
The
記憶装置54は、磁気的または光学的に情報を記憶可能な媒体であり、各種設定情報および学習結果などを記憶する。 The storage device 54 is a medium capable of storing information magnetically or optically, and stores various setting information and learning results.
操作装置55は、例えばキーボードおよびマウスなどであり、ユーザの入力をCPU51に出力する。
The
図2は、信号処理装置100の構成の一例を示すブロック図である。図2に示すように、信号処理装置100は、生成部101と、解析部111と、特徴量算出部112と、類似度算出部113と、重み算出部114と、更新部115と、信号処理部121と、学習部122と、記憶部141と、を備えている。
FIG. 2 is a block diagram illustrating an example of the configuration of the
記憶部141は、過去に入力された音声信号(第1入力信号)に対して算出された特徴量(第1特徴量)を記憶する。記憶部141は、例えば図1のRAM53により構成することができる。記憶部141は、複数の記憶領域を含み、複数の記憶領域それぞれに特徴量を記憶する。
The
生成部101は、学習に用いる学習データを生成する。例えば生成部101は、音声信号(第3入力信号)と参照データとを含む学習データを生成する。参照データは、音声信号に対する信号処理の処理結果を表すデータである。参照データは、学習部122による学習時に参照される。 The generation unit 101 generates learning data used for learning. For example, the generation unit 101 generates learning data including an audio signal (third input signal) and reference data. The reference data is data representing a processing result of signal processing on the audio signal. The reference data is referred to at the time of learning by the learning unit 122.
生成部101は、例えば予め準備された学習データを加工することにより、多様性を増大させ学習後の頑健性を向上させるような学習データを生成し、解析部111に出力する。上述のように、生成する学習データには、学習部122で用いるための参照データを含めることができる。その場合、参照データは、学習部122以外に入力する必要はない。
The generation unit 101 generates learning data that increases diversity and improves robustness after learning, for example, by processing learning data prepared in advance, and outputs the generated learning data to the
生成部101により生成される学習データに相当するデータが準備されている場合は、そのデータを用いるように構成すれば、生成部101を備える必要はない。 When data corresponding to learning data generated by the generation unit 101 is prepared, if the data is configured to be used, the generation unit 101 need not be provided.
音声信号は、例えば、マイクロフォンアレイなどの音声入力装置により収録された信号である。マイクロフォンアレイは、空間内の異なる位置に備えられる複数のマイクを含み、複数のマイクに対応する複数のチャンネルの音声信号を取得する。以下では、複数のチャンネルの音声信号を用いる場合を例に説明するが、1つのチャンネルの音声信号に対しても同様の方法を適用できる。 The audio signal is a signal recorded by an audio input device such as a microphone array. The microphone array includes a plurality of microphones provided at different positions in the space, and acquires audio signals of a plurality of channels corresponding to the plurality of microphones. In the following, the case of using audio signals of a plurality of channels will be described as an example, but the same method can be applied to an audio signal of one channel.
学習データの生成方法はどのような方法であってもよいが、例えば、以下のような方法を用いることができる。
・音源が存在する領域(部屋など)のインパルス応答を生成して元の信号に畳み込む。
・雑音を加える。
・ランダムにサンプルを欠損させる。
・チャンネル間にランダムな遅延を加える。
・フェーズボコーダーにより持続時間、および、音高を変化させる。
Although any method may be used to generate learning data, for example, the following method can be used.
Generate an impulse response in a region (such as a room) in which the sound source is present and fold it into the original signal.
Add noise.
・ Drop samples randomly.
Add random delays between channels.
・ Change duration and pitch with phase vocoder.
また生成部101は、話者が交代する状況を再現するための学習データを生成してもよい。例えば、話者がA→B→Aと変化したときの状況を再現するために、生成部101は、Aに対応するチャンネル間相関を持つ信号とBに対応するチャンネル間相関を持つ信号とを互い違いに連結し、さらに雑音を重畳した学習データを生成してもよい。これにより、過去に発話したことのある話者が再度発話したときの音声強調の追従速度が向上することが期待できる。 Further, the generation unit 101 may generate learning data for reproducing a situation where a speaker changes. For example, to reproduce the situation when the speaker changes from A to B to A, the generation unit 101 generates a signal having an interchannel correlation corresponding to A and a signal having an interchannel correlation corresponding to B. It is also possible to generate learning data in which noises are further connected in a staggered manner. Thereby, it can be expected that the follow-up speed of the speech enhancement when a speaker who has spoken in the past speaks again is improved.
解析部111は、入力された学習データを解析し、後段の処理で用いる情報を解析結果として出力する。例えば解析部111は、入力された音声信号に対して窓関数付き短時間フーリエ変換を実行し、スペクトログラムを出力する。非特許文献1と同様に、後段の特徴量の算出のため、スペクトログラムの各時間周波数ビンにおける信号/雑音判定をニューラルネットワークに実行させ、判定結果を出力に追加するように構成してもよい。
The
特徴量算出部112は、解析部111が出力した情報を元に特徴量を算出する。例えば特徴量算出部112は、入力信号に含まれる複数チャンネルの信号間の空間相関を特徴量として算出する。空間相関の例としては、入力全体の空間相関、雑音が多く含まれると推定されるスペクトログラムの領域のみから算出される雑音空間相関、および、信号が多く含まれると推定されるスペクトログラムの領域から算出される信号空間相関が挙げられる。
The feature
類似度算出部113は、記憶部141の各記憶領域に記憶されている特徴量と、特徴量算出部112により算出された特徴量(第2特徴量)と、の類似度を算出する。類似度は、例えば、空間相関をベクトル化したベクトルvと、i番目の記憶領域の内容riとの複素相関係数Real(vHri)/(|v||ri|)を用いる。記号Hはエルミート転置を表す。
The
空間相関は、例えば周波数ごとに算出される。ベクトルvは、各周波数に対して算出された特徴量すべてを連結してベクトル化することにより求めてもよい。ベクトルvは、周波数ごとに算出された空間相関を個別にベクトル化してもよい。後者の場合、記憶部141の記憶領域の確保、および、類似度の算出などの後段の処理も、空間相関ごとに独立して実行される。
The spatial correlation is calculated, for example, for each frequency. The vector v may be obtained by concatenating and vectorizing all the feature quantities calculated for each frequency. The vector v may individually vectorize the spatial correlation calculated for each frequency. In the latter case, securing of the storage area of the
重み算出部114は、上述の消去重み、書き込み重み、および、読み出し重みを算出する。消去重みは、記憶部141に記憶された特徴量に対する重み(第1重み)である。消去重みは、例えば上述の忘却機能で用いられる忘却係数に対応する。書き込み重みは、特徴量算出部112により算出された特徴量に対する重み(第2重み)である。読み出し重みは、信号処理に用いる特徴量を算出するために記憶領域から読み出した特徴量に対する重み(第3重み)である。
The
重み算出部114は、例えば、類似度算出部113により算出された類似度、および、特徴量算出部112により算出された特徴量に基づいて重みを算出する。重みの算出には、類似度および特徴量を入力し、各重みを出力するニューラルネットワークを用いることができる。重みを算出するためのモデルはニューラルネットワークに限られない。例えば、ガウシアンプロセスなどの、回帰分析を行う他のモデルを適用してもよい。
The
重み算出部114は、例えば、類似度と空間相関(ベクトル化したベクトルv)とを入力とし、消去重み、書き込み重み、および、読み出し重みを表す3つの重みベクトルを出力するニューラルネットワークを用いる。各重みベクトルは、特徴量を記憶する記憶領域の個数と同じ次元数のベクトルである。各重みベクトルの要素は、0から1の範囲の実数値を取る。
The
本実施形態では、類似度に応じて異なる値となるように重みを算出することができる。例えば、記憶された特徴量と入力された音声信号に対する特徴量とが類似する場合、言い換えると音源が移動しない場合には、消去重みを大きな値とすることにより、忘却機能の効果を抑制することが可能となる。忘却機能の効果を抑制するためには、少なくとも消去重みを類似度に応じて算出すればよく、他の重み(書き込み重み、読み出し重み)は、他の方法で決定してもよい。例えば、他の重みを固定値とする方法、および、消去重みの値に応じて他の重みを算出する方法などを適用してもよい。 In the present embodiment, the weights can be calculated so as to have different values according to the degree of similarity. For example, when the stored feature value is similar to the feature value for the input audio signal, in other words, when the sound source does not move, the effect of the forgetting function is suppressed by increasing the erasure weight. Is possible. In order to suppress the effect of the forgetting function, at least the erasure weight may be calculated according to the degree of similarity, and other weights (write weight, read weight) may be determined by another method. For example, a method of setting other weights to a fixed value, a method of calculating other weights according to the value of the erasure weight, and the like may be applied.
更新部115は、算出された重みベクトルと、特徴量算出部112により算出された特徴量と、を用いて記憶部141の各記憶領域に記憶された特徴量を更新する。例えば更新部115は、記憶された特徴量に消去重みを乗算し、特徴量算出部112により算出された特徴量に書き込み重みを乗算し、各乗算結果を加算することにより、特徴量(第3特徴量)を算出する。このように算出される特徴量は、記憶された特徴量と同じ次元のベクトルであり、記憶された特徴量の個数(記憶領域の個数)と同じ個数となる。更新部115は、算出した特徴量により、記憶部141に記憶された特徴量を更新する。
The updating
なお空間相関にはエルミート対称であるという性質があるため、更新部115により算出される特徴量も行列として解釈した場合にはエルミート対称であるという性質を満たす必要がある。エルミート対称である特徴量(空間相関)を用いて、エルミート対称を維持する演算(乗算および加算など)を行って特徴量を算出しているため、更新部115により算出される特徴量もエルミート対称であるという性質を満たす。
Since the spatial correlation has the property of being Hermitian symmetric, the feature quantity calculated by the updating
信号処理部121は、更新された特徴量を用いた信号処理を実行する。信号処理は、例えば、複数チャンネルの音声信号のうち一部の音声信号を強調する音声強調処理である。例えば信号処理部121は、記憶部141から読み出した特徴量(空間相関)を元に信号を強調するフィルタを生成し、生成したフィルタを入力に作用させて出力を得る。フィルタの算出方法としては、例えば非特許文献1に記載されているような最大SNR基準による方法を用いることができる。出力した信号に対して、さらにポストフィルタを適用してもよい。例えば非特許文献1にあるようにBAN(Blind Analytical Normalization)を用いることができる。
The
学習部122は、重み算出時に用いるニューラルネットワークのパラメータを学習する。例えば学習部122は、学習データを用いて信号処理部121による信号処理までの処理を実行し、信号処理の処理結果を評価し、評価結果に応じてニューラルネットワークのパラメータを更新する。学習部122は、例えば生成部101により生成された学習データを用いて学習処理を実行する。解析部111がニューラルネットワークを用いる場合、学習部122は、このニューラルネットワークのパラメータも学習してもよい。
The learning unit 122 learns the parameters of the neural network used when calculating the weight. For example, the learning unit 122 executes processing up to signal processing by the
学習部122は、例えば、参照データ、および、信号処理部121による処理結果から評価値を算出し、誤差逆伝播によりニューラルネットワークのパラメータを更新する。参照データが雑音の重畳されていない信号である場合には、出力との2乗誤差を評価値として用いることができる。参照データが信号と雑音である場合には、適用したフィルタから算出できるSN比を評価値として用いることができる。
For example, the learning unit 122 calculates an evaluation value from reference data and a processing result of the
学習部122は、評価値の推移から、学習を終了させるか否かを判定する。終了を判定するための基準(終了基準)としては、例えば過去10000回の入力から算出された評価値の推移に改善が見られないこと、などの基準が考えられる。終了基準を満たさない場合、学習部122は、例えば生成部101に新たに学習データを生成するように指令を出力する。終了基準を満たす場合、学習部122は、学習したパラメータを記憶部141などに記憶し、学習処理を終了する。
The learning unit 122 determines whether to end learning from the transition of the evaluation value. As a criterion (end criterion) for determining the end, for example, a criterion such as no improvement in the transition of the evaluation value calculated from the past 10000 inputs can be considered. If the end criterion is not satisfied, the learning unit 122 outputs a command to the generation unit 101 to newly generate learning data, for example. When the end criterion is satisfied, the learning unit 122 stores the learned parameter in the
上記各部(生成部101、解析部111、特徴量算出部112、類似度算出部113、重み算出部114、更新部115、信号処理部121、および、学習部122)は、例えば、1または複数のプロセッサにより実現される。例えば上記各部は、CPU51などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のIC(Integrated Circuit)などのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち1つを実現してもよいし、各部のうち2以上を実現してもよい。
Each of the units (generation unit 101,
記憶部141は、HDD(Hard Disk Drive)、光ディスク、メモリカード、RAMなどの一般的に利用されているあらゆる記憶媒体により構成することができる。記憶部141の記憶領域は、物理的に異なる記憶媒体としてもよいし、物理的に同一の記憶媒体の異なる記憶領域として実現してもよい。さらに記憶部141の記憶領域のそれぞれは、物理的に異なる複数の記憶媒体により実現してもよい。
The
次に、このように構成された信号処理装置100による信号処理について図3を用いて説明する。図3は、第1の実施形態における信号処理の一例を示すフローチャートである。
Next, signal processing by the
まず操作装置55などを介して信号処理の開始が指示されると、生成部101は、初期化処理を実行する(ステップS101)。例えば生成部101は、学習処理の各種設定のための記憶領域、および、特徴量を記憶するための記憶領域を、記憶部141内に確保する。
First, when the start of signal processing is instructed through the
また生成部101は、記憶部141などに事前に記憶された学習データを読み出してRAM53内に記憶する。学習データは一度にすべて読み出して記憶してもよいし、逐次的に読み出して記憶してもよい。生成部101は、読み出したデータを破棄してもよい。
Further, the generation unit 101 reads out learning data stored in advance in the
学習データは、例えば、強調の対象となる信号、および、抑圧の対象となる信号の2種類の信号に分けられる。強調の対象である信号は、典型的には音声(音声信号)である。強調の対象でない信号は、存在しても十分小さいこととする。例えば、SN比が予め定められた閾値(例えば40dB(デシベル))以上となるような学習データを用いる。以降、強調の対象は音声であるものとして説明するが、以下の手続きは強調する対象が音声でなくとも適用できることに注意する。例えば楽器の鳴動音など時間周波数領域で特徴的なパターンを持つ任意の信号に適用可能である。また、音波に限らず、例えば反射されたレーザー光を含む電磁波などを対象にすることもできる。抑圧の対象となる信号を、以下では雑音(雑音信号)と呼ぶ。 The learning data is divided into two types of signals, for example, a signal to be emphasized and a signal to be suppressed. The signal to be emphasized is typically voice (voice signal). It is assumed that a signal that is not an object of enhancement is sufficiently small even if it exists. For example, learning data whose SN ratio is equal to or higher than a predetermined threshold value (for example, 40 dB (decibel)) is used. The following description will be made on the assumption that the object to be emphasized is speech, but it is to be noted that the following procedure can be applied even if the object to be emphasized is not speech. For example, it can be applied to an arbitrary signal having a characteristic pattern in the time-frequency domain, such as a sound of a musical instrument. Moreover, not only a sound wave but the electromagnetic wave containing the reflected laser beam etc. can also be made into object. Hereinafter, the signal to be suppressed is referred to as noise (noise signal).
音声および雑音は、それぞれ同一とみなせる信号が複数チャンネルに渡って観測され、少なくとも1つのチャンネルの信号は他のチャンネルの信号と異なる。このような信号は、例えばマイクロフォンアレイを使用した収録などによって得られる。音源が存在する領域(部屋など)のインパルス応答を1チャンネルの信号に対して畳み込むなどの方法で多チャンネルの収録をシミュレーションすることによって、このような信号を生成してもよい。また、音声と雑音のチャンネル数は等しいことに注意する。 As for voice and noise, signals that can be regarded as the same are observed over a plurality of channels, and signals of at least one channel are different from signals of other channels. Such a signal is obtained, for example, by recording using a microphone array. Such a signal may be generated by simulating multi-channel recording by convoluting an impulse response of a region (such as a room) where a sound source is present with a signal of one channel. Also note that the number of voice and noise channels is equal.
次に生成部101は、事前に準備された学習データから、学習部122による学習処理で用いる学習データを生成する(ステップS102)。例えば生成部101は、音声と雑音をランダムに選択し、ランダムなSN比で振幅を調整してすべてのチャンネルで重畳する。生成部101は、例えば、予め定められた範囲(例えば−5dBから10dBの範囲)の一様分布からサンプリングすることでSN比を決定する。このとき、すべてのチャンネルの音声の開始時間を、ランダムな時間だけ共通に遅らせてもよい。例えば雑音が音声より十分に長い場合、生成部101は、音声が雑音の範囲に含まれるような時間遅れの範囲を定めた一様分布からサンプリングすることで、遅らせる時間を決定する。 Next, the production | generation part 101 produces | generates the learning data used by the learning process by the learning part 122 from the learning data prepared in advance (step S102). For example, the generation unit 101 randomly selects voice and noise, adjusts the amplitude with a random signal-to-noise ratio, and superimposes them on all channels. For example, the generation unit 101 determines the SN ratio by sampling from a uniform distribution in a predetermined range (for example, a range of −5 dB to 10 dB). At this time, voice start times of all channels may be commonly delayed by random time. For example, when the noise is sufficiently longer than the speech, the generation unit 101 determines the delay time by sampling from a uniform distribution in which the range of the time delay is set such that the speech is included in the noise range.
雑音に重畳する音声は複数存在してもよい。その場合、生成部101は、互いに重ならない複数の音声を用いる。生成部101は、複数の音声に対して共通のインパルス応答を畳み込んでもよい。これにより、同じ位置から発話している状況をシミュレーションすることができる。生成部101は、僅かに異なる位置のインパルス応答、例えば20cmから50cm程度移動させた位置からのインパルス応答を畳み込むように構成してもよい。これにより、音源が僅かに移動した状況をシミュレーションすることができる。 There may be a plurality of voices to be superimposed on the noise. In that case, the generation unit 101 uses a plurality of sounds that do not overlap each other. The generation unit 101 may convolve a common impulse response with a plurality of sounds. As a result, it is possible to simulate a situation where the user speaks from the same position. The generation unit 101 may be configured to convolute an impulse response at a slightly different position, for example, an impulse response from a position moved about 20 cm to 50 cm. This makes it possible to simulate a situation where the sound source has moved slightly.
生成部101は、以上のようにして得られたデータから、音声の含まれない範囲の信号をカットして学習データとしてもよい。 From the data obtained as described above, the generation unit 101 may cut a signal in a range not including speech and use it as learning data.
次に解析部111は、生成された学習データ(入力信号)を入力し、入力信号に対して信号解析処理を実行する(ステップS103)。例えば解析部111は、入力信号をそれぞれのチャンネルについて時間周波数解析して時間周波数で表された解析結果を出力し、例えばRAM53に記憶する。時間周波数解析の方法としては、例えば短時間フーリエ変換、および、ウェーブレット変換などのフィルタバンク分析を用いることができる。
Next, the
次に解析部111は、解析結果をニューラルネットワークN1に入力し、ニューラルネットワークN1の中間出力と最終出力を例えばRAM53に記憶する。入力を与える方法としては、複数チャンネルをまとめて入力してもよいし、チャンネルごとに独立に処理してもよい。チャンネルごとに独立に処理する場合、最終出力を得るために後処理を加える。例えば得られた各チャンネルの出力の中央値を各時間周波数座標について求めるなどの方法が考えられる。
Then
ここで、ニューラルネットワークN1の最終出力の次元数は、解析結果のフレームごとの特徴量数の2倍である。ニューラルネットワークN1の構成要素としては、フィードフォワード接続、畳み込み接続、および、LSTM(Long short-term memory)を用いた構造など、任意の構造を採用できる。Bidirectional LSTMなどの系列全体の情報を利用するタイプの構造を用いる場合、学習後の実行時にオンライン処理ができないことに注意する。 Here, the number of dimensions of the final output of the neural network N 1 is twice the characteristic quantity number for each frame of the analysis results. The constituent elements of the neural network N 1, feedforward connection, convolution connection, and, like structures using LSTM (Long short-term memory) , may employ any structure. When using a type of structure that uses information of the entire sequence such as Bidirectional LSTM, note that online processing can not be performed at the time of execution after learning.
解析結果の位相情報を破棄して絶対値のみにし、さらに絶対値の自然対数を取った値をニューラルネットワークN1に入力してもよい。このように構成することで、入力のダイナミックレンジが狭くなり、後段のパラメータ更新時の安定性を向上させることができる。 Only the absolute value discards the phase information of the analysis result, may enter additional values it took the natural logarithm of the absolute value to the neural network N 1. With this configuration, the dynamic range of the input is narrowed, and the stability at the time of parameter updating in the subsequent stage can be improved.
解析部111は、ニューラルネットワークN1の最終出力に対してシグモイド関数を適用する。シグモイド関数は、例えば出力を0〜1の範囲にするために用いられる。同様の機能を有するシグモイド関数以外の関数を用いてもよい。解析部111は、シグモイド関数の出力を2つに分離し、片方を音声マスクとし、もう片方を雑音マスクとする。
次に特徴量算出部112は、音声および雑音それぞれについて特徴量を算出する(ステップS104)。例えば特徴量算出部112は、解析結果に対してそれぞれのマスクを用いて、音声の空間相関の推定値と、雑音の空間相関の推定値と、を求める。より具体的には、特徴量算出部112は、時刻t、周波数ωにおける入力ベクトルx(t,ω)に対して、音声マスクmS(t,ω)と雑音マスクmN(t,ω)とを用いて、以下の(1)式により特徴量(空間相関)ξXを算出する。
ξX(t,ω)=mX(t,ω)x(t,ω)xH(t,ω) ・・・(1)
Next, the feature
ξ X (t, ω) = m X (t, ω) x (t, ω) x H (t, ω) (1)
ξXおよびmXの「X」は、音声を示す「S」、または、雑音を示す「N」のいずれかが設定されることを表す。以下の処理は、音声と雑音で独立に実行される。説明の便宜のため、区別する必要がない場合は「X」を付した変数名を用いる。入力ベクトルx(t,ω)の各要素は、各チャンネルに対応する。 “X” of ξ X and m X indicates that either “S” indicating speech or “N” indicating noise is set. The following processing is executed independently for voice and noise. For convenience of explanation, variable names with “X” are used when it is not necessary to distinguish them. Each element of the input vector x (t, ω) corresponds to each channel.
次に類似度算出部113は、記憶部141に記憶された各特徴量と、ステップS104で算出された特徴量との類似度を算出する(ステップS105)。特徴量を記憶する記憶領域の個数をLとする。L個の記憶領域に記憶された特徴量を示すL個のベクトルをr1,r2,・・・,rLと表す。また以下では、L個のベクトルを並べた行列をR={r1,r2,・・・,rL}と表す。
Next, the
例えば類似度算出部113は、L個のベクトルr1,r2,・・・,rLのそれぞれと、特徴量ξXをベクトル化したvXとの間の相関係数を類似度として算出する。相関係数は、上述の複素相関係数Real(vH Xri)/(|vX||ri|)(1≦i≦L)などを用いることができる。またvXは、周波数ごとに算出される特徴量(ξSまたはξN)をすべて連結してベクトル化することにより生成してもよいし、適当に分割してそれぞれ管理してもよい。例えば、周波数ごとにベクトル化してvXを生成してもよい。記憶部141に記憶するL個のベクトルr1,r2,・・・,rLそれぞれは、vXの次元数と等しいベクトルとする。
For example, the
次に重み算出部114は、算出された類似度、および、特徴量を用いて重みを算出する(ステップS106)。例えば重み算出部114は、L個の類似度と、特徴量をベクトル化したvXと、をニューラルネットワークN2に入力する。ニューラルネットワークN2は次元数Lの3つの重みベクトルWD、WW、WRを出力する。各重みベクトルの各要素は0以上の実数であり、各要素の総和は1である。重みベクトルWD、WW、WRは、それぞれ消去重み、書き込み重み、読み出し重みに対応する。
Next, the
vXの次元数が固定であるか、任意であるかはニューラルネットワークN2の構成に依存する。例えば全結合のフィードフォワード型の構造のように入力と出力の次元数が固定される場合、vXの次元数は学習時および音声強調時で共通の固定された値を用いる。一方、畳み込みネットワークのような、vXの次元数に依存せず計算可能な構造を採用した場合、vXの次元数は任意である。任意の場合であっても、記憶領域に記憶された各特徴量を新たに初期化しない限り、続けて入力されるvXの次元数は前に入力したものと等しい。 v The X number of dimensions is fixed, it is or is optional depending on the configuration of the neural network N 2. For example, when the dimensionality of the input and output is fixed, as in a feedforward type structure of full coupling, the dimensionality of v X uses a common fixed value during learning and speech enhancement. On the other hand, such as convolutional network, v case of adopting a computable structure without depending on the number of dimensions of X, v the number of dimensions of X is arbitrary. Even in any case, as long as each feature amount stored in the storage area is not newly initialized, the number of dimensions of the subsequently input v X is equal to that previously input.
次に更新部115は、算出された重みを用いて、記憶部141に記憶された特徴量を更新する(ステップS107)。例えば更新部115は、記憶されたL個のベクトルを含む行列Rを、以下の(2)式により更新する。Diag(・)は、ベクトルを対角要素に持つ対角行列を表す。
R←RDiag(WD)+vXWH W ・・・(2)
Next, the updating
R ← RDiag (W D) + v X W H W ··· (2)
更新部115は、更新されたRを用いて出力φXを以下の(3)式により算出する。
φX=WH RR ・・・(3)
Updating
φ X = W H R R (3)
以上の手順は、記憶部141に記憶する特徴量の個数を1(L=1)とし、入力に依存しない固定の値を重み(忘却係数)に用いたとき、以下の(4)式と定数倍を除いて一致する。(4)式は、空間相関のオンライン推定の忘却係数付きの推定方法を表す。αは固定された忘却係数を表す。従って、以上の手順は、固定の忘却係数を用いる既存の方法を特別な場合に含むことがわかる。
R←αR+vX ・・・(4)
In the above procedure, assuming that the number of feature quantities stored in the
R ← αR + v X (4)
本実施形態では、以上の手順で重みを算出することにより、既存の場合と比較し、入力に適応して重みを柔軟に制御することができる。 In this embodiment, by calculating the weight according to the above-described procedure, the weight can be flexibly controlled by adapting to the input, as compared with the existing case.
出力φXは、記憶部141に記憶する各特徴量が空間相関とみなせる場合、空間相関の推定値とみなせる。このためには、記憶部141に記憶する情報が空間相関の推定値とみなせるように初期化してある必要がある。例えば、ランダムな複素ベクトルcを用いて、ccHを各記憶領域に十分な回数加算するなどの方法で初期化した初期値は、この条件を満たす。cの次元数は入力のチャンネル数に等しい。十分な回数とは、例えば、cの次元数の2倍程度である。複素ベクトルのサンプリング方法としては、例えば実部と虚部を−1から1の範囲の一様分布からサンプリングする方法を用いることができる。
The output φ X can be regarded as an estimated value of spatial correlation when each feature quantity stored in the
このようにして、音声および雑音それぞれに対応する次元数の等しい出力φSおよびφNが得られる。 In this way, outputs φ S and φ N having the same number of dimensions corresponding to speech and noise are obtained.
信号処理部121は、これらの出力を用いた信号処理を実行する(ステップS108)。例えば信号処理部121は、出力φS、φNに対して最大SNR基準でフィルタfを設計する。これは一般化固有値問題により解くことができる。例えば信号処理部121は、非特許文献1に記載された方法によりフィルタを生成することができる。信号処理部121は、生成したフィルタを混合音声の時間周波数表現に対して適用し、必要ならばさらにBANを適用して、雑音抑圧音声の時間周波数表現を出力する。
The
次に学習部122は、信号処理部121の処理結果を用いてニューラルネットワークのパラメータを更新する(ステップS109)。例えば学習部122は、信号処理部121により算出された雑音抑制音声の時間周波数表現に対して、SN比を算出する。音声のみが含まれた信号をs(t,ω)、雑音のみが含まれた信号をn(t,ω)として、以下の(5)式によりSN比ECNが求められる。
ECN=|(fHs)/(fHn)| ・・・(5)
Next, the learning unit 122 updates the parameters of the neural network using the processing result of the signal processing unit 121 (step S109). For example, the learning unit 122 calculates an SN ratio for the time-frequency expression of the noise-suppressed speech calculated by the
E CN = | (f H s) / (f H n) | (5)
学習部122は、算出されたSN比の微分を求め、例えば誤差逆伝搬法によってニューラルネットワークN1およびN2のパラメータを更新する。更新するとき、微分値をそのまま用いる代わりにAdamなどを適用して修正を施した値を利用してもよい。 Learning unit 122 obtains a differential of the calculated SN ratio, for example, to update the parameters of the neural network N 1 and N 2 by the error backpropagation. When updating, instead of using the derivative value as it is, a modified value may be used by applying Adam or the like.
ニューラルネットワークN1のパラメータ更新を安定させるため、SN比を反映した正解マスクと、算出された音声マスクmS(t,ω)または雑音マスクmN(t,ω)のクロスエントロピー誤差を評価値として追加し、パラメータを更新してもよい。 In order to stabilize the parameter update of the neural network N 1 , the evaluation value is the cross-entropy error of the correct mask reflecting the S / N ratio and the calculated speech mask m S (t, ω) or noise mask m N (t, ω). And the parameters may be updated.
正解マスクは、例えば、SN比が上限値(例えば10dB)以上であれば音声マスクを1とし、SN比が下限値(例えば−10dB)以下であれば雑音マスクを1とし、それ以外では0にするという基準で作成される。 For example, when the SN ratio is equal to or higher than the upper limit value (for example, 10 dB), the correct mask is set to 1. When the SN ratio is equal to or lower than the lower limit value (for example, −10 dB), the noise mask is set to 1. Created on the basis of
学習部122は、以上の処理を学習が収束するまで繰り返す。学習部122は、例えば、終了条件が満たされたか否かを判定する(ステップS110)。終了条件はどのような条件であってもよいが、例えば、以下のような条件を適用できる。
・更新の回数が一定値(例えば100万回)に達したときに収束したとみなす。
・更新の回数が一定値(例えば100万回)に達するごとに、評価データの平均SN比に対してSN比が改善されたかを評価する。所定回数(例えば5回)に渡って改善が見られないときに収束したとみなす。学習部122は、例えば、学習データの一部を学習には利用せずに分離して、評価データとして利用する。
The learning unit 122 repeats the above processing until learning converges. For example, the learning unit 122 determines whether or not an end condition is satisfied (step S110). The termination condition may be any condition. For example, the following condition can be applied.
-It is considered that it has converged when the number of updates reaches a certain value (for example, 1 million times).
-Assess that the SN ratio has improved with respect to the average SN ratio of the evaluation data each time the number of updates reaches a fixed value (for example, 1 million times). When no improvement is observed for a predetermined number of times (for example, 5 times), it is considered that the image has converged. For example, the learning unit 122 separates part of the learning data without using it for learning, and uses it as evaluation data.
終了条件が満たされていない場合(ステップS110:No)、ステップS103に戻り処理が繰り返される。終了条件が満たされた場合(ステップS110:Yes)、学習部122は、更新したパラメータを例えば記憶部141に記憶する。
When the end condition is not satisfied (step S110: No), the process returns to step S103 and the process is repeated. When the end condition is satisfied (step S110: Yes), the learning unit 122 stores the updated parameter in the
次に、特徴量を算出および更新する処理についてさらに説明する。図4は、特徴量を算出および更新する処理の流れを説明するための図である。 Next, the process of calculating and updating the feature amount will be further described. FIG. 4 is a diagram for explaining the flow of processing for calculating and updating feature amounts.
解析部111および特徴量算出部112により、入力信号から特徴量が算出される。特徴量は、例えば複数チャンネルの信号間の空間相関を表す空間相関行列により表される。特徴量は、vXにベクトル化される。
The
一方、記憶部141には、vXと同じ次元数のL個のベクトルr1,r2,・・・,rLが記憶される。記憶部141全体としては、L個のベクトルを並べた行列R={r1,r2,・・・,rL}を記憶する。
On the other hand, the
類似度算出部113は、ベクトルvXと、L個のベクトルそれぞれとの類似度を算出する。算出された類似度は、ニューラルネットに入力され、ニューラルネットが重みを出力する。重みの次元数は、L個のベクトルに対応してLとなる。出力される重みは、少なくとも記憶された特徴量に対する重み(消去重み)を含む。
更新部115は、出力された重み、算出された特徴量、および、記憶部141に記憶された特徴量を用いて、記憶部141に記憶された特徴量を更新するとともに、更新後の特徴量を用いて、信号処理のための特徴量φX(φSおよびφN)を算出する。
The updating
このように、第1の実施形態にかかる信号処理装置では、記憶された特徴量に対する重み(消去重み)を用いるため、従来の忘却機能と同様の機能を実現できる。さらに、算出された特徴量と、記憶された特徴量との類似度に応じて重みを算出するため、信号処理に用いる情報(特徴量)をより高精度に算出可能となる。 As described above, in the signal processing apparatus according to the first embodiment, since the weight (erasing weight) for the stored feature amount is used, the same function as the conventional forgetting function can be realized. Furthermore, since the weight is calculated according to the similarity between the calculated feature amount and the stored feature amount, it is possible to calculate information (feature amount) used for signal processing with higher accuracy.
(第2の実施形態)
第2の実施形態にかかる信号処理装置は、第1の実施形態の信号処理装置などによりパラメータが学習されたモデルを用いて信号処理(例えば音声強調処理)を実行する装置である。第1の実施形態の信号処理装置(学習処理を実行する装置)の機能と、本実施形態の信号処理装置の機能とを両方備えるように構成してもよい。
Second Embodiment
The signal processing apparatus according to the second embodiment is an apparatus that performs signal processing (for example, speech enhancement processing) using a model whose parameters have been learned by the signal processing apparatus or the like according to the first embodiment. It may be configured to have both the function of the signal processing device (the device that executes the learning process) of the first embodiment and the function of the signal processing device of the present embodiment.
図5は、第2の実施形態にかかる信号処理装置100−2のハードウェア構成例を示す説明図である。 FIG. 5 is an explanatory diagram illustrating a hardware configuration example of the signal processing device 100-2 according to the second embodiment.
信号処理装置100−2は、CPU61、ROM62、RAM63、記憶装置64、操作装置65、入力装置66、および、出力装置67を含み、それらがバスを介して接続されている。
The signal processing device 100-2 includes a
CPU61、ROM62、RAM63、記憶装置64、および、操作装置65の機能は、信号処理装置100と同様であるため説明を省略する。
The functions of the
入力装置66は、例えば音声を入力するマイクロフォンアレイである。入力装置66は、マイクロフォンアレイを構成する複数のマイクから複数の独立した信号を取得する。
The
出力装置67は、各種情報を出力するための装置である。例えば出力装置67は、スピーカ、イヤホン、および、ヘッドホンなどの1つまたは複数の音声出力装置である。音声出力装置は、電気信号を空気の振動に変換して出力する。出力装置67は、ディスプレイであってもよい。ディスプレイは、例えば音声認識結果を表示する。
The
図6は、第2の実施形態にかかる信号処理装置100−2の構成の一例を示すブロック図である。図6に示すように、信号処理装置100−2は、受付部131−2と、解析部111と、特徴量算出部112と、類似度算出部113と、重み算出部114と、更新部115と、信号処理部121と、記憶部141と、を備えている。
FIG. 6 is a block diagram illustrating an example of a configuration of a signal processing device 100-2 according to the second embodiment. As illustrated in FIG. 6, the signal processing apparatus 100-2 includes a reception unit 131-2, an
第2の実施形態では、生成部101および学習部122が削除され、受付部131−2が追加されたことが第1の実施形態と異なっている。その他の構成および機能は、第1の実施形態にかかる信号処理装置100のブロック図である図2と同様であるので、同一符号を付し、ここでの説明は省略する。
The second embodiment is different from the first embodiment in that the generation unit 101 and the learning unit 122 are deleted and the reception unit 131-2 is added. The other configurations and functions are the same as those in FIG. 2 which is a block diagram of the
受付部131−2は、信号処理の対象となる情報の入力を受け付け、解析部111に出力する。例えば受付部131−2は、マイクロフォンアレイにより取得された多チャンネルの波形データである入力信号を受け付ける。受付部131−2は、入力信号をAD(アナログデジタル)変換によりデジタル化し、デジタル化した信号を、例えば記憶部141内の作業領域に記憶する。受付部131−2は、デジタル化した信号を解析部111に出力する。
The accepting unit 131-2 accepts input of information to be subjected to signal processing and outputs it to the analyzing
解析部111以降の処理は、第1の実施形態と同様である。信号処理部121は、受け付けられた波形データに対する処理結果を出力する。例えば信号処理部121は、雑音抑圧音声の時間周波数表現(スペクトル)を出力する。信号処理部121は、後段の処理で用いる形式に変換した処理結果を出力してもよい。例えば信号処理部121は、強調処理後のスペクトルに対し、合成窓を適用したオーバーラップアドにより出力波形に変換して出力してもよい。後段に音声認識システムが接続されている場合は、波形に変換せず、直接スペクトルを出力してもよい。
The processing after the
次に、このように構成された第2の実施形態にかかる信号処理装置100−2による信号処理について図7を用いて説明する。図7は、第2の実施形態における信号処理の一例を示すフローチャートである。 Next, signal processing by the signal processing apparatus 100-2 according to the second embodiment configured as described above will be described with reference to FIG. FIG. 7 is a flowchart illustrating an example of signal processing according to the second embodiment.
まず操作装置65などを介して信号処理の開始が指示されると、受付部131−2は、初期化処理を実行する(ステップS201)。例えば受付部131−2は、学習されたパラメータのための記憶領域、および、特徴量を記憶するための記憶領域を、記憶部141内に確保する。
First, when the start of signal processing is instructed via the
受付部131−2は、例えばマイクロフォンアレイにより取得された複数チャンネルの信号の入力を受け付ける(ステップS202)。受付部131−2は、信号をAD変換によりデジタル化し、デジタル化した波形を記憶部141に記憶する。
The accepting unit 131-2 accepts input of signals of a plurality of channels acquired by, for example, a microphone array (Step S202). The reception unit 131-2 digitizes the signal by AD conversion, and stores the digitized waveform in the
ステップS203からステップS208までは、第1の実施形態にかかる信号処理装置100におけるステップS103からステップS108までと同様の処理なので、その説明を省略する。
The processes from step S203 to step S208 are the same as the processes from step S103 to step S108 in the
ステップS208の信号処理により、信号処理の処理結果(例えば強調音声のスペクトル)が得られる。以上の手順が、動作の終了が指示されるまで繰り返される。例えば受付部131−2は、操作装置65などを介して動作の終了が指示されたか否かを判定する(ステップS209)。動作の終了が指示されていない場合(ステップS209:No)、次に入力された信号に対してステップS202から処理が繰り返される。動作の終了が指示された場合(ステップS209:Yes)、信号処理が終了する。
The signal processing result (for example, the spectrum of the emphasized speech) is obtained by the signal processing in step S208. The above procedure is repeated until the end of the operation is instructed. For example, the reception unit 131-2 determines whether or not the operation has been instructed via the
終了時に、記憶部141の各記憶領域に記憶された特徴量を、他の不揮発性の記憶媒体(例えば記憶装置64)に記憶してもよい。そして、この記憶媒体に記憶した特徴量を、次回の起動時に初期設定値として読み出し、記憶部141に設定してもよい。これにより、記憶部141の記憶領域の初期化処理を省略することができる。
At the end of the process, the feature quantities stored in the respective storage areas of the
このように、第2の実施形態にかかる信号処理装置では、第1の実施形態と同様の手法を、音声強調処理などの信号処理時に適用可能となる。 As described above, the signal processing apparatus according to the second embodiment can apply the same method as that of the first embodiment at the time of signal processing such as speech enhancement processing.
以上説明したとおり、第1から第2の実施形態によれば、信号処理に用いる情報(特徴量)をより高精度に算出可能となる。 As described above, according to the first and second embodiments, information (feature amount) used for signal processing can be calculated with higher accuracy.
上記実施形態の信号処理装置(信号処理装置100、信号処理装置100−2)で実行されるプログラムは、ROM52等に予め組み込まれて提供される。
The program executed by the signal processing device (the
信号処理装置で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。 A program executed by the signal processing apparatus is an installable or executable file, which is a CD-ROM (Compact Disk Read Only Memory), a flexible disk (FD), a CD-R (Compact Disk Recordable), a DVD ( The program may be configured to be recorded as a computer program product by being recorded on a computer readable recording medium such as Digital Versatile Disk).
さらに、信号処理装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、信号処理装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。 Furthermore, the program executed by the signal processing apparatus may be stored on a computer connected to a network such as the Internet, and may be provided by being downloaded via the network. The program executed by the signal processing apparatus may be provided or distributed via a network such as the Internet.
信号処理装置で実行されるプログラムは、コンピュータを上述した信号処理装置の各部として機能させうる。このコンピュータは、CPUがコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。 The program executed by the signal processing device can cause the computer to function as each unit of the signal processing device described above. This computer can read out a program from the computer readable storage medium onto the main storage device and execute it.
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。 Although several embodiments of the present invention have been described, these embodiments are presented by way of example and are not intended to limit the scope of the invention. These novel embodiments can be implemented in various other forms, and various omissions, substitutions, and modifications can be made without departing from the scope of the invention. These embodiments and modifications thereof are included in the scope and the gist of the invention, and are included in the invention described in the claims and the equivalent scope thereof.
100、100−2 信号処理装置
101 生成部
111 解析部
112 特徴量算出部
113 類似度算出部
114 重み算出部
115 更新部
121 信号処理部
122 学習部
131−2 受付部
141 記憶部
100, 100-2 Signal processing apparatus 101
Claims (11)
前記第1特徴量と、第2入力信号の特徴を表す第2特徴量と、の類似度を算出する類似度算出部と、
前記類似度および前記第2特徴量に基づいて、前記第1特徴量に対する第1重みを算出する重み算出部と、
前記第1重みを乗算した前記第1特徴量と、前記第2特徴量とに基づいて、第3特徴量を算出し、前記第3特徴量により前記記憶部に記憶された前記第1特徴量を更新する更新部と、
更新された前記第1特徴量を用いた信号処理を実行する信号処理部と、
を備える信号処理装置。 A storage unit for storing a first feature amount representing a feature of the first input signal;
A similarity calculation unit that calculates a similarity between the first feature amount and a second feature amount representing a feature of the second input signal;
A weight calculator configured to calculate a first weight for the first feature amount based on the similarity and the second feature amount;
A third feature amount is calculated based on the first feature amount multiplied by the first weight and the second feature amount, and the first feature amount stored in the storage unit according to the third feature amount. Updating section, and
A signal processing unit that performs signal processing using the updated first feature value;
A signal processing apparatus comprising:
請求項1に記載の信号処理装置。 The weight calculation unit calculates the first weight using a model that receives the similarity and the second feature and outputs the first weight.
The signal processing apparatus according to claim 1.
請求項2に記載の信号処理装置。 The model is a neural network,
The signal processing device according to claim 2.
請求項2に記載の信号処理装置。 The system further includes a learning unit that evaluates the processing result of the signal processing using learning data and updates parameters of the model.
The signal processing apparatus according to claim 2.
前記学習部は、生成された前記学習データを用いて学習処理を実行する、
請求項4に記載の信号処理装置。 It further comprises a generation unit that generates learning data including a third input signal and reference data representing the processing result of the signal processing,
The learning unit executes a learning process using the generated learning data.
The signal processing device according to claim 4.
請求項1に記載の信号処理装置。 The first feature quantity, the second feature quantity, and the third feature quantity are spatial correlations based on a plurality of input signals input from different positions in space.
The signal processing apparatus according to claim 1.
前記更新部は、前記第1重みを乗算した前記第1特徴量と、前記第2重みを乗算した前記第2特徴量とに基づいて、前記第3特徴量を算出する、
請求項1に記載の信号処理装置。 The weight calculation unit further calculates a second weight for the second feature amount based on the similarity and the second feature amount.
The update unit calculates the third feature amount based on the first feature amount multiplied by the first weight and the second feature amount multiplied by the second weight.
The signal processing apparatus according to claim 1.
前記信号処理部は、前記第3重みを乗算した前記第1特徴量を用いた信号処理を実行する、
請求項1に記載の信号処理装置。 The weight calculation unit further calculates a third weight for the first feature value read from the storage unit based on the similarity and the second feature value.
The signal processing unit executes signal processing using the first feature amount multiplied by the third weight.
The signal processing apparatus according to claim 1.
前記第1特徴量と、複数チャンネルの音声信号を含む第2入力信号の特徴を表す第2特徴量と、の類似度を算出する類似度算出部と、
前記類似度および前記第2特徴量に基づいて、前記第1特徴量に対する第1重みを算出する重み算出部と、
前記第1重みを乗算した前記第1特徴量と、前記第2特徴量とに基づいて、第3特徴量を算出し、前記第3特徴量により前記記憶部に記憶された前記第1特徴量を更新する更新部と、
更新された前記第1特徴量を用いて複数チャンネルの音声信号のうち一部の音声信号を強調する信号処理を実行する信号処理部と、
を備える音声強調装置。 A storage unit for storing a first feature amount representing a feature of a first input signal including a plurality of channels of audio signals;
A similarity calculation unit that calculates a similarity between the first feature amount and a second feature amount representing a feature of a second input signal including audio signals of a plurality of channels;
A weight calculator configured to calculate a first weight for the first feature amount based on the similarity and the second feature amount;
A third feature amount is calculated based on the first feature amount multiplied by the first weight and the second feature amount, and the first feature amount stored in the storage unit according to the third feature amount. Updating section, and
A signal processing unit that executes signal processing for enhancing a part of audio signals of a plurality of channels using the updated first feature amount;
A speech enhancement device comprising
前記第1特徴量と、第2入力信号の特徴を表す第2特徴量と、の類似度を算出する類似度算出ステップと、
前記類似度および前記第2特徴量に基づいて、前記第1特徴量に対する第1重みを算出する重み算出ステップと、
前記第1重みを乗算した前記第1特徴量と、前記第2特徴量とに基づいて、第3特徴量を算出し、前記第3特徴量により前記記憶部に記憶された前記第1特徴量を更新する更新ステップと、
更新された前記第1特徴量を用いた信号処理を実行する信号処理ステップと、
を含む信号処理方法。 A storage step of storing a first feature amount representing a feature of the first input signal in a storage unit;
A similarity calculation step of calculating a similarity between the first feature and a second feature representing a feature of the second input signal;
A weight calculation step of calculating a first weight for the first feature amount based on the similarity and the second feature amount;
A third feature amount is calculated based on the first feature amount multiplied by the first weight and the second feature amount, and the first feature amount stored in the storage unit according to the third feature amount. Update step to update
A signal processing step of performing signal processing using the updated first feature value;
Signal processing method including:
第1入力信号の特徴を表す第1特徴量を記憶部に記憶する記憶ステップと、
前記第1特徴量と、第2入力信号の特徴を表す第2特徴量と、の類似度を算出する類似度算出ステップと、
前記類似度および前記第2特徴量に基づいて、前記第1特徴量に対する第1重みを算出する重み算出ステップと、
前記第1重みを乗算した前記第1特徴量と、前記第2特徴量とに基づいて、第3特徴量を算出し、前記第3特徴量により前記記憶部に記憶された前記第1特徴量を更新する更新ステップと、
更新された前記第1特徴量を用いた信号処理を実行する信号処理ステップと、
を実行させるためのプログラム。 On the computer,
A storage step of storing a first feature amount representing a feature of the first input signal in a storage unit;
A similarity calculation step of calculating a similarity between the first feature and a second feature representing a feature of the second input signal;
A weight calculation step of calculating a first weight for the first feature amount based on the similarity and the second feature amount;
A third feature amount is calculated based on the first feature amount multiplied by the first weight and the second feature amount, and the first feature amount stored in the storage unit according to the third feature amount. Update step to update
A signal processing step of performing signal processing using the updated first feature value;
A program to run a program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018008649A JP6925995B2 (en) | 2018-01-23 | 2018-01-23 | Signal processor, speech enhancer, signal processing method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018008649A JP6925995B2 (en) | 2018-01-23 | 2018-01-23 | Signal processor, speech enhancer, signal processing method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019128402A true JP2019128402A (en) | 2019-08-01 |
JP6925995B2 JP6925995B2 (en) | 2021-08-25 |
Family
ID=67472141
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018008649A Active JP6925995B2 (en) | 2018-01-23 | 2018-01-23 | Signal processor, speech enhancer, signal processing method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6925995B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021140400A (en) * | 2020-03-04 | 2021-09-16 | 株式会社日立製作所 | Learning model creation system and learning model creation method |
JP7504601B2 (en) | 2020-01-28 | 2024-06-24 | 株式会社東芝 | Signal processing device, signal processing method and program |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0566795A (en) * | 1991-09-06 | 1993-03-19 | Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho | Noise suppressing device and its adjustment device |
JPH1155132A (en) * | 1997-07-30 | 1999-02-26 | Nec Corp | Radio equipment and radio communication method |
US20170162194A1 (en) * | 2015-12-04 | 2017-06-08 | Conexant Systems, Inc. | Semi-supervised system for multichannel source enhancement through configurable adaptive transformations and deep neural network |
US20170278513A1 (en) * | 2016-03-23 | 2017-09-28 | Google Inc. | Adaptive audio enhancement for multichannel speech recognition |
-
2018
- 2018-01-23 JP JP2018008649A patent/JP6925995B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0566795A (en) * | 1991-09-06 | 1993-03-19 | Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho | Noise suppressing device and its adjustment device |
JPH1155132A (en) * | 1997-07-30 | 1999-02-26 | Nec Corp | Radio equipment and radio communication method |
US20170162194A1 (en) * | 2015-12-04 | 2017-06-08 | Conexant Systems, Inc. | Semi-supervised system for multichannel source enhancement through configurable adaptive transformations and deep neural network |
US20170278513A1 (en) * | 2016-03-23 | 2017-09-28 | Google Inc. | Adaptive audio enhancement for multichannel speech recognition |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7504601B2 (en) | 2020-01-28 | 2024-06-24 | 株式会社東芝 | Signal processing device, signal processing method and program |
JP2021140400A (en) * | 2020-03-04 | 2021-09-16 | 株式会社日立製作所 | Learning model creation system and learning model creation method |
Also Published As
Publication number | Publication date |
---|---|
JP6925995B2 (en) | 2021-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11282505B2 (en) | Acoustic signal processing with neural network using amplitude, phase, and frequency | |
US10741192B2 (en) | Split-domain speech signal enhancement | |
Delcroix et al. | Strategies for distant speech recognitionin reverberant environments | |
CN110364140B (en) | Singing voice synthesis model training method, singing voice synthesis model training device, computer equipment and storage medium | |
Eskimez et al. | Adversarial training for speech super-resolution | |
JP2004347761A (en) | Voice recognition device, voice recognition method, computer executable program and storage medium for performing the voice recognition method to computer | |
Paul et al. | Enhancing speech intelligibility in text-to-speech synthesis using speaking style conversion | |
US11842720B2 (en) | Audio processing method and audio processing system | |
CN111465982A (en) | Signal processing device and method, training device and method, and program | |
CN109416911B (en) | Speech synthesis device and speech synthesis method | |
Cogliati et al. | Piano music transcription with fast convolutional sparse coding | |
Shahnawazuddin et al. | Developing speaker independent ASR system using limited data through prosody modification based on fuzzy classification of spectral bins | |
JP2019078864A (en) | Musical sound emphasis device, convolution auto encoder learning device, musical sound emphasis method, and program | |
JP6925995B2 (en) | Signal processor, speech enhancer, signal processing method and program | |
Moliner et al. | Blind audio bandwidth extension: A diffusion-based zero-shot approach | |
WO2022190615A1 (en) | Signal processing device and method, and program | |
Jannu et al. | Weibull and nakagami speech priors based regularized nmf with adaptive wiener filter for speech enhancement | |
Tachibana et al. | A real-time audio-to-audio karaoke generation system for monaural recordings based on singing voice suppression and key conversion techniques | |
Das et al. | Improved real-time monophonic pitch tracking with the extended complex Kalman filter | |
JP7443823B2 (en) | Sound processing method | |
JP6747236B2 (en) | Acoustic analysis method and acoustic analysis device | |
JP7293162B2 (en) | Signal processing device, signal processing method, signal processing program, learning device, learning method and learning program | |
Płonkowski | Using bands of frequencies for vowel recognition for Polish language | |
Zhu et al. | Maximum likelihood sub-band adaptation for robust speech recognition | |
JP6930089B2 (en) | Sound processing method and sound processing equipment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190814 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200424 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201020 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201217 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210706 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210804 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6925995 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |