JPWO2014049944A1 - Audio processing device, audio processing method, audio processing program, and noise suppression device - Google Patents
Audio processing device, audio processing method, audio processing program, and noise suppression device Download PDFInfo
- Publication number
- JPWO2014049944A1 JPWO2014049944A1 JP2014538111A JP2014538111A JPWO2014049944A1 JP WO2014049944 A1 JPWO2014049944 A1 JP WO2014049944A1 JP 2014538111 A JP2014538111 A JP 2014538111A JP 2014538111 A JP2014538111 A JP 2014538111A JP WO2014049944 A1 JPWO2014049944 A1 JP WO2014049944A1
- Authority
- JP
- Japan
- Prior art keywords
- processing
- parameter
- noise suppression
- speech
- parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000001629 suppression Effects 0.000 title claims abstract description 117
- 238000003672 processing method Methods 0.000 title claims description 5
- 230000008054 signal transmission Effects 0.000 claims abstract description 34
- 238000000034 method Methods 0.000 claims description 26
- 238000010586 diagram Methods 0.000 description 11
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000006866 deterioration Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- LFYJSSARVMHQJB-QIXNEVBVSA-N bakuchiol Chemical group CC(C)=CCC[C@@](C)(C=C)\C=C\C1=CC=C(O)C=C1 LFYJSSARVMHQJB-QIXNEVBVSA-N 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
事前に音声認識の知識を利用できない場合でも、精度の高い雑音抑圧を行うことができる音声処理装置を提供する。音声処理装置は、予め発声内容が把握されている音声であり雑音抑圧処理用のパラメータが用いられて雑音抑圧処理された複数の教師信号を、音声認識エンジンに送信する教師信号送信部11と、音声認識エンジンによる複数の教師信号に対する音声認識処理の認識結果を受け取る認識結果受信部12と、認識結果の精度に基づいて、複数の教師信号に用いられたパラメータのうち、音声認識エンジンによる音声認識処理の前に行われる雑音抑圧処理に用いるためのパラメータを選択するパラメータ選択部13とを備える。Provided is a speech processing apparatus capable of performing highly accurate noise suppression even when knowledge of speech recognition cannot be used in advance. The speech processing apparatus includes a teacher signal transmission unit 11 that transmits a plurality of teacher signals to a speech recognition engine, which are speeches whose utterance contents have been grasped in advance and are subjected to noise suppression processing using parameters for noise suppression processing; A recognition result receiving unit 12 that receives a recognition result of speech recognition processing on a plurality of teacher signals by the speech recognition engine, and speech recognition by the speech recognition engine among parameters used for the plurality of teacher signals based on the accuracy of the recognition result And a parameter selection unit 13 that selects parameters for use in noise suppression processing performed before the processing.
Description
本発明は、音声処理装置、音声処理方法、音声処理プログラムおよび雑音抑圧装置に関し、特に音声認識に用いられる音声処理装置、音声処理方法、音声処理プログラムおよび雑音抑圧装置に関する。 The present invention relates to a voice processing device, a voice processing method, a voice processing program, and a noise suppression device, and more particularly to a voice processing device, a voice processing method, a voice processing program, and a noise suppression device used for voice recognition.
近年、音声認識技術の実用化が盛んである。音声認識を行う一般的な装置は、マイクロフォンから入力した音声を認識処理する。しかし、その際、目的とする音声以外に周囲の雑音などが混入することがあり、これが音声認識率を下げる大きな要因の一つである。 In recent years, voice recognition technology has been put into practical use. A general apparatus that performs speech recognition performs speech recognition processing on speech input from a microphone. However, in that case, ambient noise or the like may be mixed in addition to the target speech, which is one of the major factors that lower the speech recognition rate.
この問題を解決するための方法として、雑音抑圧、音声強調の技術が長年研究されてきた。例えば、入力中の雑音成分を推定して入力から差し引くことで雑音を抑圧するスペクトルサブトラクションなどは既に実用化されている。また近年、特にモデルベースの雑音抑圧、音声強調技術が発展してきており、単純に音声の品質を上げるだけでは解消しない音声の歪みを軽減し、より音声認識に適した変換を行う研究がされている。 As a method for solving this problem, techniques of noise suppression and speech enhancement have been studied for many years. For example, spectral subtraction that suppresses noise by estimating a noise component in an input and subtracting it from the input has already been put into practical use. In recent years, model-based noise suppression and speech enhancement technologies have been developed, and research has been conducted to reduce speech distortion that cannot be eliminated simply by improving speech quality, and to perform conversion suitable for speech recognition. Yes.
特許文献1に、モデルベース雑音抑圧、音声強調技術の例が記載されている。特許文献1に記載された技術は、雑音平均スペクトルを求める手段と、入力信号と雑音平均スペクトルから仮推定音声を求める手段と、標準パタンと、標準パタンを用いて仮推定音声の補正値を求める手段を用いる。これにより、特許文献1に記載された技術は、音声の情報を欠落させることなく高い精度で雑音成分を除去できる雑音抑圧システムを提供することができる。 Patent Document 1 describes an example of model-based noise suppression and speech enhancement technology. The technique described in Patent Literature 1 obtains a noise average spectrum, a means for obtaining a temporary estimated speech from an input signal and a noise average spectrum, a standard pattern, and a correction value of the temporary estimated speech using the standard pattern. Use means. Thereby, the technique described in Patent Document 1 can provide a noise suppression system that can remove noise components with high accuracy without missing voice information.
一般的なモデルベース雑音抑圧を行う雑音抑圧システムは、後段の音声認識エンジンが使用する標準パタンすなわちモデルと同質のモデルを利用することで、音声認識に適した変換を行っていた。このとき、雑音抑圧システムは、雑音抑圧用のモデル構築時に、後段の音声認識エンジンの知識(モデル)を利用できることを前提としていた。 A noise suppression system that performs general model-based noise suppression performs conversion suitable for speech recognition by using a standard pattern, that is, a model having the same quality as the model used by the subsequent speech recognition engine. At this time, the noise suppression system is based on the premise that the knowledge (model) of the subsequent speech recognition engine can be used when building a model for noise suppression.
しかし、例えば雑音抑圧処理を行う前段の構成と、音声認識を行う後段の構成とが独立に構築される場合、後段の音声認識エンジンの知識が利用可能であるとは限らない。例えば、クライアントサーバ型音声認識システムにおいて、雑音抑圧処理を行うクライアント側と音声認識を行うサーバ側とが独立している場合がある。このような場合、クライアント側が、雑音抑圧の際に音声認識の知識を使わず、雑音抑圧のパラメータ(モデル)と音声認識のパラメータとのミスマッチが生じた場合、適切な雑音抑圧ができず、音声認識精度が劣化する。 However, for example, when the configuration of the previous stage for performing noise suppression processing and the configuration of the subsequent stage for performing speech recognition are independently constructed, knowledge of the subsequent speech recognition engine is not always available. For example, in a client-server type speech recognition system, a client side that performs noise suppression processing and a server side that performs speech recognition may be independent. In such a case, if the client side does not use speech recognition knowledge for noise suppression and there is a mismatch between the noise suppression parameter (model) and the speech recognition parameter, appropriate noise suppression cannot be performed and the voice Recognition accuracy deteriorates.
本発明は、事前に音声認識の知識を利用できない場合でも、精度の高い雑音抑圧を行うことができる音声処理装置、音声処理方法、音声処理プログラムおよび雑音抑圧装置を提供することを目的とする。 An object of the present invention is to provide a speech processing device, a speech processing method, a speech processing program, and a noise suppression device that can perform highly accurate noise suppression even when speech recognition knowledge cannot be used in advance.
本発明による音声処理装置は、予め発声内容が把握されている音声であり雑音抑圧処理用のパラメータが用いられて雑音抑圧処理された複数の教師信号を、音声認識エンジンに送信する教師信号送信部と、音声認識エンジンによる複数の教師信号に対する音声認識処理の認識結果を受け取る認識結果受信部と、認識結果の精度に基づいて、複数の教師信号に用いられたパラメータの中から音声認識エンジンによる音声認識処理の前に行われる雑音抑圧処理に用いるためのパラメータを選択するパラメータ選択部とを備えたことを特徴とする。 A speech processing apparatus according to the present invention is a teacher signal transmission unit that transmits a plurality of teacher signals, which are speeches whose contents are uttered in advance and subjected to noise suppression processing using parameters for noise suppression processing, to a speech recognition engine A recognition result receiving unit that receives a recognition result of speech recognition processing for a plurality of teacher signals by the speech recognition engine, and a speech by the speech recognition engine from among parameters used for the plurality of teacher signals based on the accuracy of the recognition result And a parameter selection unit that selects a parameter to be used for the noise suppression process performed before the recognition process.
本発明による雑音抑圧装置は、予め発声内容が把握されている音声であり雑音抑圧処理用のパラメータが用いられて雑音抑圧処理された複数の教師信号を、音声認識エンジンに送信する教師信号送信部と、音声認識エンジンによる複数の教師信号に対する音声認識処理の認識結果を受け取る認識結果受信部と、認識結果の精度に基づいて、複数の教師信号に用いられたパラメータのうち、音声認識エンジンによる音声認識処理の前に行われる雑音抑圧処理に用いるためのパラメータを選択するパラメータ選択部と、選択されたパラメータを用いて雑音抑圧処理を行う耐雑音処理部とを備えたことを特徴とする。 A noise suppression device according to the present invention is a teacher signal transmission unit that transmits a plurality of teacher signals, which are voices whose utterance contents are grasped in advance and subjected to noise suppression processing using parameters for noise suppression processing, to a speech recognition engine A recognition result receiving unit that receives a recognition result of the speech recognition processing for a plurality of teacher signals by the speech recognition engine, and among the parameters used for the plurality of teacher signals based on the accuracy of the recognition result, the speech by the speech recognition engine A parameter selection unit that selects a parameter to be used for noise suppression processing performed before the recognition processing, and a noise proof processing unit that performs noise suppression processing using the selected parameter are provided.
本発明による雑音抑圧方法は、予め発声内容が把握されている音声であり雑音抑圧処理用のパラメータが用いられて雑音抑圧処理された複数の教師信号を、音声認識エンジンに送信し、音声認識エンジンによる複数の教師信号に対する音声認識処理の認識結果を受け取り、認識結果の精度に基づいて、複数の教師信号に用いられたパラメータのうち、音声認識エンジンによる音声認識処理の前に行われる雑音抑圧処理に用いるためのパラメータを選択することを特徴とする。 The noise suppression method according to the present invention transmits, to a speech recognition engine, a plurality of teacher signals that are speech whose contents of utterances are grasped in advance and are subjected to noise suppression processing using parameters for noise suppression processing. The noise suppression processing performed before the speech recognition processing by the speech recognition engine among the parameters used for the plurality of teacher signals based on the accuracy of the recognition result based on the recognition result of the speech recognition processing for the plurality of teacher signals by The method is characterized in that parameters for use in the selection are selected.
本発明による雑音抑圧プログラムは、コンピュータに、予め発声内容が把握されている音声であり雑音抑圧処理用のパラメータが用いられて雑音抑圧処理された複数の教師信号を、音声認識エンジンに送信する教師信号送信処理と、音声認識エンジンによる複数の教師信号に対する音声認識処理の認識結果を受け取る認識結果受信処理と、認識結果の精度に基づいて、複数の教師信号に用いられたパラメータのうち、音声認識エンジンによる音声認識処理の前に行われる雑音抑圧処理に用いるためのパラメータを選択するパラメータ選択処理とを実行させることを特徴とする。 The noise suppression program according to the present invention is a teacher that transmits, to a speech recognition engine, a plurality of teacher signals, which are sounds whose contents are uttered in advance and are subjected to noise suppression processing using parameters for noise suppression processing. Based on the signal transmission processing, the recognition result receiving processing for receiving the recognition result of the speech recognition processing for the plurality of teacher signals by the speech recognition engine, and the speech recognition among the parameters used for the plurality of teacher signals based on the accuracy of the recognition result And a parameter selection process for selecting a parameter to be used for the noise suppression process performed before the speech recognition process by the engine.
本発明によれば、事前に音声認識の知識を利用できない場合でも、精度の高い雑音抑圧を行うことができる。 According to the present invention, it is possible to perform highly accurate noise suppression even when knowledge of speech recognition cannot be used in advance.
本発明による音声処理装置の実施形態を、図面を参照して説明する。 An embodiment of a voice processing device according to the present invention will be described with reference to the drawings.
実施形態1.
図1は、第1の実施の形態に係る音声処理装置の構成を示した図である。図1に示される音声処理装置10は、教師信号の出力と認識結果の受信を行い、雑音抑圧および音声強調のために最適なパラメータを選択する。Embodiment 1. FIG.
FIG. 1 is a diagram illustrating a configuration of a speech processing apparatus according to the first embodiment. The
本実施形態の音声処理装置10は、汎用的なコンピュータシステムであり、図示しない構成として、CPU(Central Processing Unit)、RAM(Random Access Memory)、ROM(Read Only Memory)、及び不揮発性記憶装置を備える。音声処理装置10は、CPUがRAM、ROM、又は不揮発性記憶装置に格納されたOS(Operation System)およびプログラムを読み込み、音声処理を実行する。なお、音声処理装置10は、1台のコンピュータシステムである必要はなく、複数台のコンピュータシステムで構成されていてもよい。
The
図1に示すように、本実施形態の音声処理装置10は、教師信号送信部11と、認識結果受信部12と、パラメータ選択部13と、パラメータ記憶部15と、教師信号記憶部14を備える。なお、パラメータ記憶部15および教師信号記憶部14は、音声処理装置10の外部に設けられていてもよい。
As shown in FIG. 1, the
パラメータ記憶部15は、複数のパラメータを記憶する。パラメータとは、後述する雑音抑圧処理に用いられるデータであり、例えばモデルベース雑音抑圧を用いる場合は、音声認識エンジンに用いられるモデルである。教師信号記憶部14は、パラメータ記憶部15に記憶された複数のパラメータによって変換された複数の教師信号を記憶する。この変換とは、後述する耐雑音処理部102が行う雑音抑圧処理と同様の処理である。
The
教師信号送信部11は、教師信号記憶部14に記憶された複数の教師信号を、音声認識エンジン103に順次送信する。教師信号とは、予め発声内容が把握されている音声である。また、教師信号送信部11は、送信された教師信号に関する情報、例えば変換に用いられたパラメータを認識結果受信部12に通知する。
The teacher
認識結果受信部12は、音声認識エンジン103から得られる複数の音声認識処理の認識結果を順次受信し、教師信号送信部11から通知されるパラメータの情報とあわせてパラメータ選択部13に通知する。
The recognition
パラメータ選択部13は、認識結果の精度に基づいて、パラメータ記憶部15に記憶された複数のパラメータの中から、音声認識エンジン103による認識処理の前に行われる雑音抑圧処理に用いるためのパラメータを選択する。具体的には、パラメータ選択部13は、認識結果受信部12にて順次受信した複数の認識結果を比較し、最も認識精度の高い認識結果を選択する。そして、パラメータ選択部13は、選択した認識結果の認識対象である教師信号に用いられたパラメータを選択する。パラメータ選択部13は、例えば、予め把握されている教師信号の発声内容に単語レベルまたは文字レベルで最も近い認識結果を、最も認識精度が高い認識結果として選択する。単語レベルまたは文字レベルの距離の比較方法は、公知技術として良く知られているため、ここでは説明を省略する。
Based on the accuracy of the recognition result, the
なお、パラメータ選択部13が比較する対象を認識精度のみとしたが、パラメータ選択部13は、音声認識エンジン103の認識精度と処理時間との組み合わせに基づいて最適なパラメータを選択してもよい。その場合、認識結果受信部12は、認識結果を受信する際に処理時間も合わせて得て、パラメータ選択部13に通知する。一般に、音声認識においてはパラメータあるいはモデルのマッチングが良いほど処理時間が短いという傾向がある。そのため、パラメータ選択部13は、処理時間も考慮することで、より精度の高いパラメータの選択をすることができる。
Although the
次に、本実施形態の音声処理装置の動作を説明する。図2は、本発明による音声処理装置の第1の実施形態の動作を示すフローチャートである。 Next, the operation of the speech processing apparatus according to this embodiment will be described. FIG. 2 is a flowchart showing the operation of the first embodiment of the speech processing apparatus according to the present invention.
まず、教師信号送信部11は、教師信号を送信する(ステップS200)。具体的には、教師信号送信部11は、複数のパラメータによって変換され、教師信号記憶部14に記憶された複数の教師信号を、音声認識エンジン103に順次送信する。また、教師信号送信部11は、送信した教師信号に関する情報を認識結果受信部12に通知する。
First, the teacher
次に、認識結果受信部12は、音声認識エンジン103から認識結果を受信する(ステップS201)。具体的には、認識結果受信部12は、音声認識エンジン103から複数の認識結果を順次受信し、教師信号送信部11から通知されるパラメータの情報と合わせてパラメータ選択部13に通知する。
Next, the recognition
次に、パラメータ選択部13は、パラメータ選択を行う(ステップS202)。具体的には、パラメータ選択部13は、認識結果受信部12から通知された複数の認識結果を比較し、最も認識精度の高い認識結果を選択する。そして、パラメータ選択部13は、選択した認識結果の認識対象である教師信号に用いられたパラメータを選択する。例えば、教師信号として「一番近い駅はどこですか」と発声された音声が用いられているとする。そして、音声認識エンジン103が、3種類のパラメータにより変換されたその教師信号に音声認識を行い、「一番近い駅は」「一番近い木はどこですか」「千葉駅はどこですか」といった3種類の認識結果を出力したとする。この場合、最も認識精度の高い認識結果、すなわち正解に近い認識結果は、単語レベルで比較して2番目の認識結果である。そこで、パラメータ選択部13は、2番目の認識結果を選択する。この選択結果は、2番目の認識結果の対象である教師信号の変換に用いられたパラメータが、後段の音声認識エンジンにとって最適であることを示している。
Next, the
次に、パラメータ選択部13は、選択したパラメータを出力する(ステップS203)。
Next, the
本実施形態では変換に用いられる対象および選択の対象をパラメータと表現したが、パラメータは、例えばスペクトルサブトラクションの閾値でもよいし、ウィナーフィルターのゲインでもよい。 In the present embodiment, the object used for conversion and the object to be selected are expressed as parameters, but the parameter may be, for example, a threshold value of spectral subtraction or a gain of a Wiener filter.
なお、教師信号送信部11は、複数のパラメータによって変換された複数の教師信号を順次送信する際、送信する順序を制御してもよい。例えば、複数のパラメータが音響的近さによってクラスタリングされている場合、教師信号送信部11は、各クラスタを代表するノード(パラメータ)により変換された教師信号を優先適用する。そして、教師信号送信部11は、パラメータ選択部13にて認識精度が高いと選択された代表ノードに関連付けられたクラスタ内のパラメータを優先して適用する。これにより、パラメータ選択部13は、パラメータが多数ある場合でも少ない処理量で効率的にパラメータ選択をすることが可能となる。
Note that the teacher
図5は、パラメータのクラスタリングの例を示す説明図である。図5に示すように、あらかじめ多数のパラメータ(ここでは一つ一つの記号がパラメータを表す)がクラスタリングされ、その中で代表となるパラメータが代表ノードとされる。教師信号送信部11は、まず4つの代表ノード(a、b、c、d)を送信して音声認識を行う。そして、パラメータ選択部13が例えばaを最良の認識精度となるパラメータとして選択した場合、教師信号送信部11は、残りの代表ノードが含まれるクラスタは展開せずに、aが含まれるクラスタA内のパラメータのみを対象として再帰的に教師信号の送信を行う。これにより、選択される可能性の低いパラメータの処理が省略されるため、効率が上がる。なお、図5に示す木構造は、多数階層であってもよい。また、代表ノードは、最良の認識精度のパラメータのみではなく、認識精度の良いものから順に複数選択されてもよい。
FIG. 5 is an explanatory diagram illustrating an example of parameter clustering. As shown in FIG. 5, a large number of parameters (here, each symbol represents a parameter) is clustered in advance, and a representative parameter among them is a representative node. The teacher
このように、本実施形態の音声処理装置10は、雑音抑圧処理を行う場合に、後段の音声認識エンジンの知識を事前に知らなくても精度の高い雑音抑圧および音声強調を行うことができる。特に、モデルベースの雑音抑圧手法を用いる場合には、雑音抑圧時のモデルと音声認識時のモデルにミスマッチがあると大きな精度劣化の要因になるので、このミスマッチを低減させることによる精度向上の効果は高い。
As described above, the
また、本実施形態の音声処理装置10は、教師信号を作成するパラメータが多数である場合に、木構造などを利用して精度の良いものから効率的に適用することで処理量を削減することができる。
In addition, the
<実施例1>
以下、本実施形態の音声処理装置の実施例を説明する。図3は、実施例1にかかる雑音抑圧装置の構成を示すブロック図である。図3に示す雑音抑圧装置100は、音声処理装置10bと、耐雑音処理部102とを備える。また、雑音抑圧装置100は、入力部101と、音声認識エンジン103とに接続されている。雑音抑圧装置100は、雑音抑圧エンジンとして動作し、入力音声に雑音抑圧処理を施すことにより音声認識のために好適な音声を出力する。<Example 1>
Hereinafter, examples of the speech processing apparatus according to the present embodiment will be described. FIG. 3 is a block diagram of the configuration of the noise suppression device according to the first embodiment. The
雑音抑圧装置100は、汎用的なコンピュータシステムを用いており、図示しない構成として、CPU、RAM、ROM、及び不揮発性記憶装置を備える。雑音抑圧装置100は、CPUがRAM、ROM、又は不揮発性記憶装置に格納されたOSおよび雑音抑圧プログラムを読み込み、雑音抑圧処理を実行する。これにより、雑音抑圧装置100は、入力音声を音声認識に好適な音声にすることができる。なお、雑音抑圧装置100は1台のコンピュータシステムである必要はなく、複数台のコンピュータシステムで構成されていてもよい。
The
入力部101は、音声を入力し、耐雑音処理部102に出力する。入力部101は、例えば、マイクロフォンである。
The
音声処理装置10bは、入力部101が音声を入力する前に、音声認識エンジンに教師信号を送信し、認識結果を受信して、雑音抑圧処理に適したパラメータを耐雑音処理部102に通知する。音声処理装置10bは、図1に示される音声処理装置10と同様の機能を有するため、説明を省略する。
The speech processing apparatus 10b transmits a teacher signal to the speech recognition engine, receives a recognition result, and notifies the noise
耐雑音処理部102は、音声処理装置10bから通知されたパラメータを用い、入力部101から入力された音声に雑音抑圧処理を行い、音声認識エンジン103に出力する。耐雑音処理部102は、雑音抑圧処理として、例えばモデルベース雑音抑圧を行う。
The noise
次に、本実施例の雑音抑圧装置100の動作を説明する。図4は、実施例1にかかる雑音抑圧装置の動作を示すフローチャートである。音声処理装置10bは、図1の音声処理装置10と同様の機能を有するものであるから、図2のフローチャートに示した音声処理装置10の動作と同様の動作に関しては詳細な説明を省略する。
Next, the operation of the
まず、教師信号送信部11は、教師信号を送信する(ステップS400)。具体的には、教師信号送信部11は、音声認識エンジン103へ複数の教師信号を順次送信する。
First, the teacher
次に、認識結果受信部12は、認識結果を受信する(ステップS401)。具体的には、認識結果受信部12は、音声認識エンジン103から順次得られる複数の認識結果を受信する。
Next, the recognition
次に、パラメータ選択部13は、パラメータ選択を行う(ステップS402)。具体的には、パラメータ選択部13は、認識結果受信部12から順次受信した複数の認識結果のうち最も認識精度の高いものを選択する。そして、パラメータ選択部13は、選択した認識結果の認識対象である教師信号に用いられたパラメータを選択する。
Next, the
次に、パラメータ選択部13は、パラメータを出力する(ステップS403)。具体的には、パラメータ選択部13は、選択したパラメータを耐雑音処理部102に通知する。
Next, the
次に、入力部101は、音声を入力する(ステップS404)。
Next, the
次に、耐雑音処理部102は、雑音抑圧処理を行う(ステップS405)。具体的には、耐雑音処理部102は、音声処理装置10bから通知されるパラメータを用い、入力部101から入力される音声に雑音抑圧処理を施し、雑音抑圧後の入力音声を音声認識エンジン103に出力する。
Next, the noise
本実施例において、雑音抑圧装置100は、教師信号の送信によるパラメータの選択と、入力音声に対する雑音抑圧処理を、それぞれ1回ずつ行っているが、一度パラメータの選択が行われれば、同じ条件では選択されたパラメータを使い続けてもよい。
In the present embodiment, the
実施形態2.
以下に記載する本実施形態の音声処理装置は、時々刻々変化する環境に追従してパラメータを変更する場合でも、効率よくパラメータの選択を行うためのものである。Embodiment 2. FIG.
The speech processing apparatus of the present embodiment described below is for efficiently selecting parameters even when parameters are changed following an environment that changes from moment to moment.
図6は、本発明による音声処理装置の第2の実施形態の構成を示すブロック図である。図6に示す音声処理装置10cは、教師信号の出力と認識結果の受信を行い、雑音抑圧、音声強調のために最適なモデルパラメータを選択する。
FIG. 6 is a block diagram showing the configuration of the second embodiment of the speech processing apparatus according to the present invention. The
本実施形態の音声処理装置10cは、汎用的なコンピュータシステムを用いており、図示しない構成として、CPU、RAM、ROM、及び不揮発性記憶装置を備える。音声処理装置10cは、CPUがRAM、ROM、又は不揮発性記憶装置に格納されたOS、音声処理プログラムを読み込み、音声処理を実行する。これにより、適切な雑音抑圧を効率よく行うことができる。なお、音声処理装置10cは、1台のコンピュータシステムである必要はなく、複数台のコンピュータシステムを用いて構成されていてもよい。
The
図6に示すように、本実施形態の音声処理装置10cは、教師信号送信部11と、認識結果受信部12と、パラメータ選択部13と、パラメータ記録部16とを備える。音声処理装置10cは、さらに、複数のパラメータを記憶するパラメータ記憶部15と、当該複数のパラメータによって変換された複数の教師信号を記憶する教師信号記憶部14とを備える。以下、音声処理装置10cについて、図1に示した音声処理装置10と異なる点についてのみ説明する。
As illustrated in FIG. 6, the
パラメータ記録部16は、パラメータ選択部13から通知されたパラメータを記録し、次の音声処理の際に記録したパラメータを教師信号送信部11に通知する。このとき、記録するパラメータは一つとは限らず、それまでの音声処理にて選択された複数のパラメータの履歴情報を記録してもよい。また、パラメータ記録部16は、教師信号送信部11にも複数のパラメータを通知してもよい。
The
教師信号送信部11は、複数のパラメータによって変換された複数の教師信号を、音声認識エンジン103に送信する。教師信号送信部11は、パラメータ記録部16に記録されているパラメータにより変換された教師信号を優先して使用する。
The teacher
パラメータ選択部13は、認識結果受信部12から順次受信した複数の認識結果を比較し、最も認識精度の高いものを選択し、選択した認識結果の認識対象である教師信号に用いられたパラメータを選択して耐雑音処理部102に出力し、同時にパラメータ記録部16に通知する。
The
次に、本実施形態の音声処理装置の動作を説明する。図7は、本実施形態の音声処理装置の動作を示すフローチャートである。 Next, the operation of the speech processing apparatus according to this embodiment will be described. FIG. 7 is a flowchart showing the operation of the speech processing apparatus according to this embodiment.
まず、教師信号送信部11は、教師信号を送信する(ステップS700)。具体的には、音声処理装置10の教師信号送信部11は、複数のパラメータによって変換された複数の教師信号を、音声認識エンジン103に順次送信する。また、教師信号送信部11は、送信した教師信号に関する情報を認識結果受信部12に通知する。このとき、教師信号送信部11は、パラメータ記録部16から通知された複数のパラメータ、つまり過去に選択されたパラメータにより変換された教師信号を優先的に使用する。教師信号送信部11は、例えば、パラメータ記録部16に記録された過去に選択されたパラメータのうち、直前に選択されたパラメータにより変換された教師信号を優先的に使用する。
First, the teacher
次に、認識結果受信部12は、認識結果を受信する(ステップS701)。具体的には、音声処理装置10の認識結果受信部12は、音声認識エンジン103から得られる複数の認識結果を順次受信し、教師信号送信部11から通知されるパラメータの情報と合わせてパラメータ選択部13に通知する。
Next, the recognition
次に、パラメータ選択部13は、パラメータ選択を行う(ステップS702)。具体的には、音声処理装置10のパラメータ選択部13は、認識結果受信部12にて順次受信した複数の認識結果を比較し、最も認識精度の高い認識結果を選択する。そしてパラメータ選択部13は、選択した認識結果の認識対象である教師信号に用いられたパラメータを選択する。
Next, the
次に、パラメータ選択部13は、パラメータを出力する(ステップS703)。具体的には、音声処理装置10のパラメータ選択部13は、選択したパラメータをパラメータ記録部16に通知する。
Next, the
次に、パラメータ記録部16は、パラメータを記録する(ステップS704)。具体的には、音声処理装置10のパラメータ記録部16は、パラメータ選択部13から通知されたパラメータを記録し、次の音声処理の際に教師信号送信部11に通知する。
Next, the
また、本実施形態にかかる音声処理装置10cは、図5に示すようなパラメータの階層化を行って音声認識を行うパラメータの順序を制御してもよい。その場合、例えば、パラメータ記録部16に記録されたパラメータを代表ノードとする。そして、教師信号送信部11は、そのパラメータにより雑音処理された教師信号、およびそのパラメータの下位のクラスタに含まれるパラメータにより雑音処理された教師信号を優先して音声認識エンジン103に送信する。
Further, the
このように、本実施形態にかかる音声処理装置10cは、直前までの情報に追随して効率的にパラメータの選択を行うことで、処理量を減らすことができる。
As described above, the
<実施例2>
以下、本実施形態の音声処理装置の実施例を説明する。図8は、実施例2にかかる音声認識システムの構成を示した図である。図8における音声認識システム800は、音声処理装置10dと、耐雑音処理部102と、音声認識エンジン103とを備える。また、音声認識システム800は、入力部101と、出力部801とに接続されている。<Example 2>
Hereinafter, examples of the speech processing apparatus according to the present embodiment will be described. FIG. 8 is a diagram illustrating the configuration of the speech recognition system according to the second embodiment. The
音声認識システム800は、汎用的なコンピュータシステムを用いており、図示しない構成として、CPU、RAM、ROM、及び不揮発性記憶装置を備える。音声認識システム800は、CPUがRAM、ROM、又は不揮発性記憶装置に格納されたOS、音声認識プログラムを読み込み、音声認識処理を実行する。これにより、音声認識システム800は、雑音下でも頑健に動作する音声認識を実現できる。なお、音声認識システム800は、1台のコンピュータシステムである必要はなく、複数台のコンピュータシステムを用いて構成されていてもよい。入力部101は、入力となる音声を受け付け、耐雑音処理部102に入力する。入力部101は、例えばマイクロフォンである。
The
音声処理装置10dは、入力部101が入力音声を受け付ける前に、音声認識エンジン103に教師信号を送信し、認識結果を受信して雑音抑圧処理に適したパラメータを耐雑音処理部102に通知する。音声処理装置10dは、図6の音声処理装置10cと同様の機能を有する構成であるため、説明な説明を省略する。
The
耐雑音処理部102は、音声処理装置10dから通知されるパラメータを用い、入力部101から入力した音声に耐雑音処理を施し、音声認識エンジン103に出力する。音声認識エンジン103は、耐雑音処理部102から入力した雑音抑圧後の入力音声に対し、音声認識処理を実行し、音声認識結果を出力部801に通知する。
The noise
出力部801は、認識結果を出力する。例えば、出力部801は、テキストを画面表示するディスプレイでもよいし、認識結果を音声出力するための音声合成装置を組み込んだスピーカでもよい。
The
次に、本実施例2にかかる音声認識処理の全体の流れを説明する。図9は、実施例2にかかる音声認識システムの動作を示すフローチャートである。ここで、音声認識システム800の音声処理装置10dは、図6の音声処理装置10cと同様の機能を有するものであるから、図7のフローチャートと同様の動作については詳細な説明を省略する。
Next, the overall flow of the speech recognition processing according to the second embodiment will be described. FIG. 9 is a flowchart illustrating the operation of the speech recognition system according to the second embodiment. Here, since the
まず、教師信号送信部11は、教師信号を送信する(ステップS900)。具体的には、教師信号送信部11は、音声認識エンジン103へ複数の教師信号を順次送信する。このとき、パラメータ記録部16から通知された過去の複数のパラメータにより変換された教師信号を優先的に使用する。
First, the teacher
次に、認識結果受信部12は、認識結果を受信する(ステップS901)。具体的には、認識結果受信部12は、音声認識エンジン103から順次得られる複数の認識結果を受信する。
Next, the recognition
次に、パラメータ選択部13は、パラメータ選択を行う(ステップS902)。具体的には、パラメータ選択部13は、認識結果受信部12にて順次受信した複数の認識結果を比較し、最も認識精度の高い認識結果を選択する。そして、パラメータ選択部13は、その認識結果の認識対象である教師信号に用いられたパラメータを選択する。
Next, the
次に、パラメータ選択部13は、パラメータを出力する(ステップS903)。具体的には、音声処理装置10dのパラメータ選択部13は、選択されたパラメータを耐雑音処理部102と音声処理装置10dのパラメータ記録部16とに通知する。
Next, the
次に、パラメータ記録部16は、パラメータを記録する(ステップS904)。具体的には、音声処理装置10dのパラメータ記録部16は、通知されたパラメータを記録し、次の音声処理時に利用可能にする。
Next, the
次に、入力部101は、音声を入力する(ステップS905)。
Next, the
次に、耐雑音処理部102は、雑音抑圧処理を行う(ステップS906)。具体的には、耐雑音処理部102は、音声処理装置10dから通知されるパラメータを用い、入力部101から入力した音声に雑音抑圧処理を施し、雑音抑圧後の入力音声を音声認識エンジン103に入力する。
Next, the noise
次に、音声認識エンジン103は、音声を認識する(ステップS907)。具体的には、音声認識エンジン103は、耐雑音処理部102から入力した雑音抑圧後の音声に対して音声認識処理を行い、認識結果を出力部801に通知する。
Next, the
次に、音声認識エンジン103は、認識結果を出力する(ステップS908)。具体的には、出力部801は、音声認識エンジン103から通知された認識結果を、例えばディスプレイに表示する。
Next, the
このように、実施例2における音声認識システムは、過去に選択されたパラメータの情報を用いることにより効率的にパラメータを選択することができるので、雑音抑圧処理を繰り返し行っても処理量の増加を抑えることが可能となる。 As described above, since the speech recognition system according to the second embodiment can select parameters efficiently by using information on parameters selected in the past, the amount of processing can be increased even if the noise suppression processing is repeatedly performed. It becomes possible to suppress.
図10は、本発明による音声処理装置の主要部の構成を示すブロック図である。図10に示されるように、本発明による音声処理装置は、主要な構成として、予め発声内容が把握されている音声であり雑音抑圧処理用のパラメータが用いられて雑音抑圧処理された複数の教師信号を、音声認識エンジンに送信する教師信号送信部11と、音声認識エンジンによる複数の教師信号に対する音声認識処理の認識結果を受け取る認識結果受信部12と、認識結果の精度に基づいて、複数の教師信号に用いられたパラメータのうち、音声認識エンジンによる音声認識処理の前に行われる雑音抑圧処理に用いるためのパラメータを選択するパラメータ選択部13とを備えたことを特徴とする。
FIG. 10 is a block diagram showing the configuration of the main part of the speech processing apparatus according to the present invention. As shown in FIG. 10, the speech processing apparatus according to the present invention has, as a main configuration, a plurality of teachers that are speeches whose utterance contents have been grasped in advance and are subjected to noise suppression processing using parameters for noise suppression processing. Based on the accuracy of the recognition results, a teacher
また、上記の実施形態では、以下の(1)〜(6)に示す音声処理装置および雑音抑圧装置も開示されている。 Moreover, in said embodiment, the audio processing apparatus and noise suppression apparatus which are shown to the following (1)-(6) are also disclosed.
(1)雑音抑圧処理は、モデルベース雑音抑圧処理であり、パラメータは、雑音抑圧処理用のモデルである音声処理装置。このような音声処理装置によれば、雑音抑圧の精度を大きく向上させることができる。モデルベースの雑音抑圧手法を用いる場合には、雑音抑圧時のモデルと音声認識時のモデルにミスマッチがあると大きな精度劣化の要因になるので、このミスマッチを低減させることによる精度向上の効果は高いためである。 (1) The noise suppression process is a model-based noise suppression process, and the parameter is a speech processing apparatus that is a model for the noise suppression process. According to such a speech processing apparatus, the accuracy of noise suppression can be greatly improved. When using a model-based noise suppression method, if there is a mismatch between the model at the time of noise suppression and the model at the time of speech recognition, it will cause a large deterioration in accuracy, so the effect of improving accuracy by reducing this mismatch is high. Because.
(2)音声処理装置は、認識結果受信部が、音声認識エンジンにより行われた複数の教師信号に対する音声認識処理の処理時間を取得し、パラメータ選択部が、認識結果の精度および当該処理時間に基づいて、複数の教師信号に用いられたパラメータの中から、音声認識エンジンによる音声認識処理の前に行われる雑音抑圧処理に用いるためのパラメータを選択するように構成されていてもよい。このような音声処理装置によれば、処理時間も考慮することで、より精度の高いパラメータの選択をすることができる。一般に、音声認識においてはパラメータあるいはモデルのマッチングが良いほど処理時間が短いという傾向があるためである。 (2) In the speech processing apparatus, the recognition result receiving unit acquires the processing time of speech recognition processing for a plurality of teacher signals performed by the speech recognition engine, and the parameter selection unit determines the accuracy of the recognition result and the processing time. Based on the parameters used for the plurality of teacher signals, a parameter for use in noise suppression processing performed before speech recognition processing by the speech recognition engine may be selected. According to such a voice processing device, it is possible to select a parameter with higher accuracy by taking the processing time into consideration. This is because, generally speaking, the better the parameter or model matching in speech recognition, the shorter the processing time.
(3)音声処理装置は、複数のパラメータは、音響的近さに応じて複数階層のクラスタに分類された木構造として表現され、複数のパラメータが当該クラスタの代表ノードとして表現され、教師信号送信部は、木構造の代表ノードとして表現されたパラメータが用いられた教師信号を優先して音声認識エンジンに送信し、当該教師信号のうち認識精度が最も高い教師信号に用いられたパラメータを選択し、当該パラメータを含むクラスタに属するパラメータが用いられた教師信号を次に優先して音声認識エンジンに送信するように構成されていてもよい。このような音声処理装置によれば、パラメータが多数ある場合でも少ない処理量で効率的にパラメータ選択をすることが可能となる。 (3) In the speech processing apparatus, a plurality of parameters are expressed as a tree structure classified into a cluster of a plurality of hierarchies according to acoustic proximity, a plurality of parameters are expressed as representative nodes of the cluster, and a teacher signal is transmitted. The unit preferentially transmits a teacher signal using a parameter expressed as a representative node of the tree structure to the speech recognition engine, and selects a parameter used for the teacher signal having the highest recognition accuracy among the teacher signals. The teacher signal using the parameter belonging to the cluster including the parameter may be configured to be transmitted to the speech recognition engine with priority next. According to such a speech processing apparatus, even when there are a large number of parameters, it is possible to efficiently select parameters with a small processing amount.
(4)音声処理装置は、過去に選択されたパラメータを記録するパラメータ記録部(例えば、パラメータ記録部16)を備え、教師信号送信部は、パラメータ記録部に記録されたパラメータが用いられた教師信号を、優先して音声認識エンジンに送信するように構成されていてもよい。このような音声処理装置によれば、直前までの情報に追随して効率的にパラメータの選択を行うことで、処理量を減らすことができる。 (4) The speech processing apparatus includes a parameter recording unit (for example, parameter recording unit 16) that records a parameter selected in the past, and the teacher signal transmission unit uses a parameter recorded in the parameter recording unit. The signal may be configured to be transmitted to the speech recognition engine with priority. According to such a speech processing device, the amount of processing can be reduced by efficiently selecting a parameter following the information up to immediately before.
(5)音声処理装置は、過去に選択されたパラメータを記録するパラメータ記録部を備え、複数のパラメータは、音響的近さに応じて複数階層のクラスタに分類された木構造として表現され、複数のパラメータが当該クラスタの代表ノードとして表現され、教師信号送信部は、パラメータ記録部に記録されたパラメータに基づいて一つの代表ノードを選択し、当該代表ノードとして表現されたパラメータを含むクラスタに属するパラメータが用いられた教師信号を優先して音声認識エンジンに送信するように構成されていてもよい。このような音声処理装置によれば、パラメータが多数ある場合でも少ない処理量で効率的にパラメータ選択をすることが可能となり、直前までの情報に追随して効率的にパラメータの選択を行うことで、処理量を減らすことができる。 (5) The speech processing apparatus includes a parameter recording unit that records a parameter selected in the past, and the plurality of parameters are expressed as a tree structure classified into a cluster of a plurality of layers according to acoustic proximity. Are represented as representative nodes of the cluster, and the teacher signal transmission unit selects one representative node based on the parameters recorded in the parameter recording unit, and belongs to the cluster including the parameter represented as the representative node. The teacher signal using the parameter may be preferentially transmitted to the speech recognition engine. According to such an audio processing device, even when there are a large number of parameters, it is possible to efficiently select parameters with a small amount of processing, and it is possible to efficiently select parameters following the information up to immediately before. , Can reduce the processing amount.
(6)予め発声内容が把握されている音声であり雑音抑圧処理用のパラメータが用いられて雑音抑圧処理された複数の教師信号を、音声認識エンジンに送信する教師信号送信部と、音声認識エンジンによる複数の教師信号に対する音声認識処理の認識結果を受け取る認識結果受信部と、認識結果の精度に基づいて、複数の教師信号に用いられたパラメータのうち、音声認識エンジンによる音声認識処理の前に行われる雑音抑圧処理に用いるためのパラメータを選択するパラメータ選択部と、選択されたパラメータを用いて雑音抑圧処理を行う耐雑音処理部(例えば、耐雑音処理部102)とを備えた雑音抑圧装置。 (6) A teacher signal transmission unit that transmits a plurality of teacher signals, which are voices whose utterance contents have been grasped in advance and have been subjected to noise suppression processing using parameters for noise suppression processing, to the speech recognition engine, and the speech recognition engine A recognition result receiving unit for receiving recognition results of speech recognition processing for a plurality of teacher signals by the voice, and parameters used for the plurality of teacher signals based on the accuracy of the recognition results before the speech recognition processing by the speech recognition engine Noise suppression apparatus comprising: a parameter selection unit that selects parameters for use in noise suppression processing to be performed; and a noise resistance processing unit (for example, noise resistance processing unit 102) that performs noise suppression processing using the selected parameters .
この出願は、2012年9月27日に出願された日本出願特願2012−213864を基礎とする優先権を主張し、その開示の全てをここに取り込む。 This application claims the priority on the basis of Japanese application Japanese Patent Application No. 2012-213864 for which it applied on September 27, 2012, and takes in those the indications of all here.
以上、実施形態(及び実施例)を参照して本願発明を説明したが、本願発明は上記実施形態(及び実施例)に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。 While the present invention has been described with reference to the embodiments (and examples), the present invention is not limited to the above embodiments (and examples). Various changes that can be understood by those skilled in the art can be made to the configuration and details of the present invention within the scope of the present invention.
本発明によれば、音声認識システムを雑音下で精度良く実行するために耐雑音処理システムといった用途に適用できる。 INDUSTRIAL APPLICABILITY According to the present invention, the speech recognition system can be applied to an application such as a noise-resistant processing system in order to execute it accurately under noise.
10,10b,10c,10d 音声処理装置
11 教師信号送信部
12 認識結果受信部
13 パラメータ選択部
14 教師信号記憶部
15 パラメータ記憶部
16 パラメータ記録部
100 雑音抑圧装置
101 入力部
102 耐雑音処理部
103 音声認識エンジン
800 音声認識システム
801 出力部10, 10b, 10c, 10d
Claims (9)
前記音声認識エンジンによる前記複数の教師信号に対する音声認識処理の認識結果を受け取る認識結果受信部と、
前記認識結果の精度に基づいて、前記複数の教師信号に用いられたパラメータの中から前記音声認識エンジンによる音声認識処理の前に行われる雑音抑圧処理に用いるためのパラメータを選択するパラメータ選択部とを備えた
ことを特徴とする音声処理装置。A teacher signal transmitting unit that transmits a plurality of teacher signals that are noises that have been preliminarily grasped and are subjected to noise suppression processing using parameters for noise suppression processing;
A recognition result receiving unit that receives a recognition result of voice recognition processing for the plurality of teacher signals by the voice recognition engine;
A parameter selection unit for selecting a parameter to be used for noise suppression processing performed before speech recognition processing by the speech recognition engine from parameters used for the plurality of teacher signals based on the accuracy of the recognition result; An audio processing device comprising:
パラメータは、雑音抑圧処理用のモデルである
請求項1記載の音声処理装置。Noise suppression processing is model-based noise suppression processing,
The speech processing apparatus according to claim 1, wherein the parameter is a model for noise suppression processing.
音声認識エンジンにより行われた複数の教師信号に対する音声認識処理の処理時間を取得し、
パラメータ選択部は、
認識結果の精度および当該処理時間に基づいて、前記複数の教師信号に用いられたパラメータの中から、前記音声認識エンジンによる音声認識処理の前に行われる雑音抑圧処理に用いるためのパラメータを選択する
請求項1または請求項2記載の音声処理装置。The recognition result receiver
Acquire the processing time of speech recognition processing for multiple teacher signals performed by the speech recognition engine,
The parameter selector
Based on the accuracy of the recognition result and the processing time, a parameter to be used for noise suppression processing performed before speech recognition processing by the speech recognition engine is selected from the parameters used for the plurality of teacher signals. The speech processing apparatus according to claim 1 or 2.
教師信号送信部は、
前記木構造の代表ノードとして表現されたパラメータが用いられた教師信号を優先して音声認識エンジンに送信し、当該教師信号のうち認識精度が最も高い教師信号に用いられたパラメータを選択し、当該パラメータを含むクラスタに属するパラメータが用いられた教師信号を次に優先して前記音声認識エンジンに送信する
請求項1から請求項3のうちのいずれか1項に記載の音声処理装置。The plurality of parameters are represented as a tree structure classified into a cluster of a plurality of layers according to acoustic proximity, and the plurality of parameters are represented as representative nodes of the cluster,
The teacher signal transmitter
The teacher signal using the parameter expressed as the representative node of the tree structure is transmitted to the speech recognition engine with priority, and the parameter used for the teacher signal with the highest recognition accuracy is selected from among the teacher signals, The speech processing apparatus according to any one of claims 1 to 3, wherein a teacher signal in which a parameter belonging to a cluster including a parameter is used is transmitted with priority to the speech recognition engine.
教師信号送信部は、
前記パラメータ記録部に記録された前記パラメータが用いられた教師信号を、優先して音声認識エンジンに送信する
請求項1から請求項3のうちのいずれか1項に記載の音声処理装置。A parameter recording unit for recording parameters selected in the past is provided.
The teacher signal transmitter
The speech processing apparatus according to any one of claims 1 to 3, wherein a teacher signal using the parameter recorded in the parameter recording unit is preferentially transmitted to a speech recognition engine.
複数のパラメータは、音響的近さに応じて複数階層のクラスタに分類された木構造として表現され、複数のパラメータが当該クラスタの代表ノードとして表現され、
教師信号送信部は、
前記パラメータ記録部に記録された前記パラメータに基づいて一つの代表ノードを選択し、当該代表ノードとして表現されたパラメータを含むクラスタに属するパラメータが用いられた教師信号を優先して音声認識エンジンに送信する
請求項1から請求項3のうちのいずれか1項に記載の音声処理装置。A parameter recording unit for recording parameters selected in the past is provided.
The plurality of parameters are represented as a tree structure classified into a cluster of a plurality of layers according to acoustic proximity, and the plurality of parameters are represented as representative nodes of the cluster,
The teacher signal transmitter
One representative node is selected based on the parameter recorded in the parameter recording unit, and a teacher signal using a parameter belonging to a cluster including the parameter expressed as the representative node is preferentially transmitted to the speech recognition engine. The speech processing apparatus according to any one of claims 1 to 3.
前記音声認識エンジンによる前記複数の教師信号に対する音声認識処理の認識結果を受け取る認識結果受信部と、
前記認識結果の精度に基づいて、前記複数の教師信号に用いられたパラメータの中から前記音声認識エンジンによる音声認識処理の前に行われる雑音抑圧処理に用いるためのパラメータを選択するパラメータ選択部と、
選択された前記パラメータを用いて雑音抑圧処理を行う耐雑音処理部とを備えた
ことを特徴とする雑音抑圧装置。A teacher signal transmitting unit that transmits a plurality of teacher signals that are noises that have been preliminarily grasped and are subjected to noise suppression processing using parameters for noise suppression processing;
A recognition result receiving unit that receives a recognition result of voice recognition processing for the plurality of teacher signals by the voice recognition engine;
A parameter selection unit for selecting a parameter to be used for noise suppression processing performed before speech recognition processing by the speech recognition engine from parameters used for the plurality of teacher signals based on the accuracy of the recognition result; ,
A noise suppression apparatus, comprising: a noise proof processing unit that performs noise suppression processing using the selected parameter.
前記音声認識エンジンによる前記複数の教師信号に対する音声認識処理の認識結果を受け取り、
前記認識結果の精度に基づいて、前記複数の教師信号に用いられたパラメータの中から前記音声認識エンジンによる音声認識処理の前に行われる雑音抑圧処理に用いるためのパラメータを選択する
ことを特徴とする音声処理方法。Sending a plurality of teacher signals, which are speeches whose utterance contents have been grasped in advance and subjected to noise suppression processing using parameters for noise suppression processing, to the speech recognition engine,
Receiving recognition results of voice recognition processing for the plurality of teacher signals by the voice recognition engine;
Based on the accuracy of the recognition result, a parameter used for noise suppression processing performed before speech recognition processing by the speech recognition engine is selected from parameters used for the plurality of teacher signals. Voice processing method.
予め発声内容が把握されている音声であり雑音抑圧処理用のパラメータが用いられて雑音抑圧処理された複数の教師信号を、音声認識エンジンに送信する教師信号送信処理と、
前記音声認識エンジンによる前記複数の教師信号に対する音声認識処理の認識結果を受け取る認識結果受信処理と、
前記認識結果の精度に基づいて、前記複数の教師信号に用いられたパラメータの中から前記音声認識エンジンによる音声認識処理の前に行われる雑音抑圧処理に用いるためのパラメータを選択するパラメータ選択処理とを
実行させるための音声処理プログラム。On the computer,
A teacher signal transmission process for transmitting a plurality of teacher signals, which are voices whose utterance contents have been grasped in advance and subjected to noise suppression processing using parameters for noise suppression processing, to a speech recognition engine;
A recognition result receiving process for receiving a recognition result of a voice recognition process for the plurality of teacher signals by the voice recognition engine;
A parameter selection process for selecting a parameter to be used for a noise suppression process performed before a voice recognition process by the voice recognition engine from parameters used for the plurality of teacher signals based on the accuracy of the recognition result; Voice processing program to execute.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012213864 | 2012-09-27 | ||
JP2012213864 | 2012-09-27 | ||
PCT/JP2013/004943 WO2014049944A1 (en) | 2012-09-27 | 2013-08-21 | Speech processing device, speech processing method, speech processing program and noise suppression device |
Publications (1)
Publication Number | Publication Date |
---|---|
JPWO2014049944A1 true JPWO2014049944A1 (en) | 2016-08-22 |
Family
ID=50387394
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014538111A Pending JPWO2014049944A1 (en) | 2012-09-27 | 2013-08-21 | Audio processing device, audio processing method, audio processing program, and noise suppression device |
Country Status (2)
Country | Link |
---|---|
JP (1) | JPWO2014049944A1 (en) |
WO (1) | WO2014049944A1 (en) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6067760B2 (en) * | 2015-01-28 | 2017-01-25 | 日本電信電話株式会社 | Parameter determining apparatus, parameter determining method, and program |
US10388272B1 (en) | 2018-12-04 | 2019-08-20 | Sorenson Ip Holdings, Llc | Training speech recognition systems using word sequences |
US11170761B2 (en) | 2018-12-04 | 2021-11-09 | Sorenson Ip Holdings, Llc | Training of speech recognition systems |
US11017778B1 (en) | 2018-12-04 | 2021-05-25 | Sorenson Ip Holdings, Llc | Switching between speech recognition systems |
US10573312B1 (en) | 2018-12-04 | 2020-02-25 | Sorenson Ip Holdings, Llc | Transcription generation from multiple speech recognition systems |
JP7501054B2 (en) * | 2020-03-31 | 2024-06-18 | 大日本印刷株式会社 | Voice recognition device and voice recognition program |
US11488604B2 (en) | 2020-08-19 | 2022-11-01 | Sorenson Ip Holdings, Llc | Transcription of audio |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3969908B2 (en) * | 1999-09-14 | 2007-09-05 | キヤノン株式会社 | Voice input terminal, voice recognition device, voice communication system, and voice communication method |
JP4275353B2 (en) * | 2002-05-17 | 2009-06-10 | パイオニア株式会社 | Speech recognition apparatus and speech recognition method |
JP4765461B2 (en) * | 2005-07-27 | 2011-09-07 | 日本電気株式会社 | Noise suppression system, method and program |
JP5916054B2 (en) * | 2011-06-22 | 2016-05-11 | クラリオン株式会社 | Voice data relay device, terminal device, voice data relay method, and voice recognition system |
-
2013
- 2013-08-21 JP JP2014538111A patent/JPWO2014049944A1/en active Pending
- 2013-08-21 WO PCT/JP2013/004943 patent/WO2014049944A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2014049944A1 (en) | 2014-04-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7434137B2 (en) | Speech recognition method, device, equipment and computer readable storage medium | |
US20240038218A1 (en) | Speech model personalization via ambient context harvesting | |
WO2014049944A1 (en) | Speech processing device, speech processing method, speech processing program and noise suppression device | |
US10373609B2 (en) | Voice recognition method and apparatus | |
US10923137B2 (en) | Speech enhancement and audio event detection for an environment with non-stationary noise | |
US8831939B2 (en) | Voice data transferring device, terminal device, voice data transferring method, and voice recognition system | |
US20200098379A1 (en) | Audio watermark encoding/decoding | |
CN107910011B (en) | Voice noise reduction method and device, server and storage medium | |
US10062374B2 (en) | Methods and apparatus for training a transformation component | |
JP5613335B2 (en) | Speech recognition system, recognition dictionary registration system, and acoustic model identifier sequence generation device | |
US20150081300A1 (en) | Speech recognition system and method using incremental device-based acoustic model adaptation | |
US20100198577A1 (en) | State mapping for cross-language speaker adaptation | |
Kinoshita et al. | Text-informed speech enhancement with deep neural networks. | |
WO2020039571A1 (en) | Voice separation device, voice separation method, voice separation program, and voice separation system | |
JP2016075740A (en) | Voice processing device, voice processing method, and program | |
US20030144837A1 (en) | Collaboration of multiple automatic speech recognition (ASR) systems | |
US20180301144A1 (en) | Electronic device, method for adapting acoustic model thereof, and voice recognition system | |
CN111868823A (en) | Sound source separation method, device and equipment | |
KR20190032868A (en) | Method and apparatus for voice recognition | |
CN110600032A (en) | Voice recognition method and device | |
US11996114B2 (en) | End-to-end time-domain multitask learning for ML-based speech enhancement | |
JP2018005122A (en) | Detection device, detection method, and detection program | |
US20230130777A1 (en) | Method and system for generating voice in an ongoing call session based on artificial intelligent techniques | |
JP2005196020A (en) | Speech processing apparatus, method, and program | |
CN113689886B (en) | Voice data emotion detection method and device, electronic equipment and storage medium |