JP7501054B2 - Voice recognition device and voice recognition program - Google Patents
Voice recognition device and voice recognition program Download PDFInfo
- Publication number
- JP7501054B2 JP7501054B2 JP2020063732A JP2020063732A JP7501054B2 JP 7501054 B2 JP7501054 B2 JP 7501054B2 JP 2020063732 A JP2020063732 A JP 2020063732A JP 2020063732 A JP2020063732 A JP 2020063732A JP 7501054 B2 JP7501054 B2 JP 7501054B2
- Authority
- JP
- Japan
- Prior art keywords
- unit
- operation parameter
- voice
- recognition rate
- control unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims description 56
- 238000012360 testing method Methods 0.000 claims description 47
- 230000008569 process Effects 0.000 claims description 45
- 230000008859 change Effects 0.000 claims description 22
- 238000006243 chemical reaction Methods 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 16
- 230000003252 repetitive effect Effects 0.000 claims description 13
- 230000009467 reduction Effects 0.000 claims description 12
- 230000004048 modification Effects 0.000 claims description 7
- 238000012986 modification Methods 0.000 claims description 7
- 230000007613 environmental effect Effects 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 19
- 238000012545 processing Methods 0.000 description 14
- 238000011156 evaluation Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 5
- 230000007423 decrease Effects 0.000 description 5
- 238000012854 evaluation process Methods 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 235000016496 Panda oleosa Nutrition 0.000 description 4
- 240000000220 Panda oleosa Species 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000035945 sensitivity Effects 0.000 description 3
- 239000011800 void material Substances 0.000 description 3
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 239000000470 constituent Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
Description
本発明は、音声認識装置等に関する。 The present invention relates to a voice recognition device, etc.
展示会、ショールーム又は店頭等において収集した顧客や来場者の発話音声を音声認識によりテキスト化することが行われている。テキスト化した顧客や来場者の発言を内容分析することにより、マーケティングデータとして使用するためである。しかし、音声認識には以下に述べる課題がある。展示会の会場では、説明員の声、環境音、ノイズ、アナウンス音など、多種の音声が混じり合っており、来場者の発話音声を、良質に収集できる環境を構築することは困難である。また、会場で収音後に、収音した音声を音声認識する場合、音声認識に適した音声でないと適切な認識結果を得られない。収音した音声の品質が一定以下の場合、後処理で品質改善を試みても、人が発話内容を聞き取ることは困難であり、コンピュータによる音声認識は高い精度は期待できないという課題である。 The speech of customers and visitors collected at exhibitions, showrooms, stores, etc. is converted to text using speech recognition. The converted speech of customers and visitors is analyzed for content and used as marketing data. However, speech recognition has the following issues. At exhibitions, a wide variety of sounds are mixed together, such as the voice of the presenter, environmental sounds, noise, and announcements, making it difficult to create an environment in which the speech of visitors can be collected in good quality. Furthermore, when recognizing the collected speech after it is recorded at the venue, appropriate recognition results will not be obtained unless the speech is suitable for speech recognition. If the quality of the collected speech is below a certain level, it is difficult for people to understand the content of the speech, even if attempts are made to improve the quality in post-processing, and the issue is that high accuracy cannot be expected from computer-based speech recognition.
そのような状況に対して、特許文献1には、収音を行なうクライアント機器の所在する位置付近の背景音を記録し、記録された背景音に基づいて、雑音モデルを生成し、生成された雑音モデルに基づいて、クライアント機器からの音声ファイルに対して雑音低減処理を行い、雑音低減処理後の音声ファイルに対して音声認識を行って、認識後のテキストを得る音声認識装置が提案されている。
In response to such a situation,
しかし、展示会の会場のように、人の混雑状況が変動するなど収音環境に大きな変動がある場合、従来技術では、収音開始から終了まで間、常に最適な条件で音声を収音することは困難である。本発明はこのような状況に鑑みてなされたものである。その目的は、収音環境が大きく変動しても、収音した音声が音声認識に適したものとなるように、マイクやフィルタ処理の動作パラメータを変更する音声認識装置等の提供である。 However, when the sound collection environment changes significantly, such as in an exhibition hall where the number of people changes, it is difficult with conventional technology to always collect sound under optimal conditions from the start to the end of sound collection. The present invention has been made in consideration of this situation. The purpose is to provide a voice recognition device etc. that changes the operating parameters of the microphone and filter processing so that the collected sound is suitable for voice recognition, even if the sound collection environment changes significantly.
本願の一態様に係る音声認識装置は、雑音低減フィルタを有しテスト用テキストに対応するテスト音声及び雑音を含む音声を取得する取得部と、取得した前記テスト音声を認識し、発話テキストに変換する変換部と、前記発話テキストを前記テスト用テキストの正解データと比較し、認識率を算出する算出部と、前記雑音低減フィルタのパラメータを含む前記取得部の動作パラメータを変更する変更部と、前記認識率が所定の収束条件を満たすまで、前記取得部、前記変換部、前記算出部、前記変更部を繰り返し動作させる繰り返し制御部と、変更動作パラメータを用いて算出した複数の認識率の結果に基づき、認識率の高い前記動作パラメータを決定する決定部とを備え、前記繰り返し制御部は、前記動作パラメータを第1の刻み幅で変更することを前記変更部へ指示し、前記繰り返し制御部は、前記取得部、前記変換部、前記算出部、前記変更部の動作を繰り返し動作させ、前記認識率が最大値となる前記動作パラメータの第1最適値を探索し、探索の終了後に、前記繰り返し制御部は、前記動作パラメータを前記第1の刻み幅より小さい第2の刻み幅で変更することを前記変更部へ指示し、前記繰り返し制御部は、前記取得部、前記変換部、前記算出部、前記変更部の動作を繰り返し動作させ、前記認識率が前記最大値以上の値で最大となる前記動作パラメータの第2最適値を探索することを特徴とする。 A speech recognition device according to one aspect of the present application includes an acquisition unit having a noise reduction filter and acquiring a test speech and a speech including noise corresponding to a test text, a conversion unit recognizing the acquired test speech and converting it into a speech text, a calculation unit comparing the speech text with correct answer data of the test text and calculating a recognition rate, a modification unit modifying operation parameters of the acquisition unit including parameters of the noise reduction filter, a repetitive control unit repeatedly operating the acquisition unit, the conversion unit, the calculation unit and the modification unit until the recognition rate satisfies a predetermined convergence condition, and a repetitive control unit determining the operation parameters with a high recognition rate based on a plurality of recognition rate results calculated using the modified operation parameters. and a determination unit , wherein the repetitive control unit instructs the change unit to change the operating parameter by a first step size, and the repetitive control unit repeatedly operates the acquisition unit, the conversion unit, the calculation unit, and the change unit to search for a first optimal value of the operating parameter at which the recognition rate is maximized, and after the search is completed, the repetitive control unit instructs the change unit to change the operating parameter by a second step size smaller than the first step size, and the repetitive control unit repeatedly operates the acquisition unit, the conversion unit, the calculation unit, and the change unit to search for a second optimal value of the operating parameter at which the recognition rate is maximized and is a value equal to or greater than the maximum value .
本願の一態様にあっては、収音環境が大きく変動しても、マイクやフィルタ処理の動作パラメータを変更することにより、音声認識に適した音声が収音可能となる。 In one aspect of the present application, even if the sound collection environment changes significantly, by changing the operating parameters of the microphone and filter processing, it is possible to collect sound suitable for voice recognition.
以下実施の形態を、図面を参照して説明する。図1は音声認識装置のハードウェア構成例を示すブロック図である。音声認識装置1はノートPC(Personal Computer)、タブレットコンピュータ、スマートフォン又はスマートスピーカ等で構成する。音声認識装置1は制御部11、主記憶部12、補助記憶部13、音声入力部14、音声出力部15、通信部16及び読み取り部17を含む。制御部11、主記憶部12、補助記憶部13、音声入力部14、音声出力部15、通信部16及び読み取り部17は、バスBにより接続されている。なお、音声認識装置1は複数のコンピュータからなるマルチコンピュータ、ソフトウェアによって仮想的に構築された仮想マシン又は量子コンピュータを用いて構成してもよい。さらに、音声認識装置1の全部又は一部の機能はクラウドサービスで実現してもよい。
The embodiment will be described below with reference to the drawings. FIG. 1 is a block diagram showing an example of the hardware configuration of a voice recognition device. The
制御部11は、一又は複数のCPU(Central Processing Unit)、MPU(Micro-Processing Unit)、GPU(Graphics Processing Unit)等の演算処理装置を有する。制御部11は、補助記憶部13に記憶された制御プログラム1P(音声認識プログラム)を読み出して実行することにより、音声認識装置1に係る種々の情報処理、制御処理等を行い、取得部、変換部、算出部、変更部又は繰り返し制御部等の機能部を実現する。
The
主記憶部12は、SRAM(Static Random Access Memory)、DRAM(Dynamic Random Access Memory)、フラッシュメモリ等である。主記憶部12は主として制御部11が演算処理を実行するために必要なデータを一時的に記憶する。
The
補助記憶部13はハードディスク又はSSD(Solid State Drive)等であり、制御部11が処理を実行するために必要な制御プログラム1Pや各種DB(Database)を記憶する。補助記憶部13は、テスト音声DB131、テストテキストDB132、パラメータDB133、音声DB134及び認識テキストDB135を記憶する。補助記憶部13は音声認識装置1に接続された外部記憶装置であってもよい。補助記憶部13に記憶する各種DB等を、音声認識装置1とは異なるデータベースサーバやクラウドストレージに記憶してもよい。
The
音声入力部14はマイク装置であり、音声の収音を行う。音声入力部14はノイズリダクション機能等を実現する音声処理回路を含む。音声出力部15はスピーカ装置である。音声出力部15は制御部11の制御により音声を出力する。音声入力部14及び音声出力部15はそれぞれ複数であってもよい。
The
通信部16はネットワークNを介して、他のコンピュータと通信を行う。通信部16は制御部11からの制御にしたがい、ネットワークN等を介して他のコンピュータから制御プログラム1Pをダウンロードしてもよい。読み取り部17はCD(Compact Disc)-ROM及びDVD(Digital Versatile Disc)-ROMを含む可搬型記憶媒体1aを読み取る。制御部11が読み取り部17を介して、制御プログラム1Pを可搬型記憶媒体1aより読み取り、補助記憶部13に記憶してもよい。また、半導体メモリ1bから、制御部11が制御プログラム1Pを読み込んでもよい。
The
音声認識装置1は音声入力部14で収音した音声の認識を、他のコンピュータやクラウドサービスが提供する外部の音声認識エンジンを用いて行う。外部の音声認識エンジンを利用しない場合、音声認識装置1は、収音した音声について、特徴抽出、音素解析、解析及び構文解析を行い、その入力された音声を仮名の文字列に変換する。さらに、音声認識装置1は仮名の文字列を漢字仮名交じりの文字列に変換する。なお、補助記憶部13は、これらの解析を行う際に用いる音声辞書、構文辞書、単語辞書、仮名漢字変換辞書(共に図示しない)等を記憶する。
The
次に、音声認識装置1が用いるデータベースについて、説明する。図2はテスト音声DBの例を示す説明図である。テスト音声DB131は音声入力部14の動作パラメータを調整する際に使用するテスト音声を記憶する。テスト音声DB131はVoID列、テスト音声列及びTxtID列を含む。VoID列はテスト音声を一意に特定可能なVoIDを記憶する。テスト音声列はテスト音声をバイナリ形式で記憶する。なお、テスト音声を音声ファイルとして補助記憶部13に記憶し、当該音声ファイルのファイル名をテスト音声列に記憶してもよい。テスト音声のデータ形式は、MP3形式、WAV形式、WMA形式等である。TxtID列はテスト音声に対応したテキストを記憶するテストテキストDB132の主キーTxtIDを記憶する。
Next, the database used by the
図3はテストテキストDBの例を示す説明図である。テストテキストDB132はテスト音声をテキスト化したテキストを記憶する。テストテキストDB132はTxtID列及びテキスト列を含む。TxtID列はテキストを一意に特定するTxtIDを記憶する。テキスト列はテキストを記憶する。図3の例では、テキスト列は平仮名表記とし、単語毎に区切り記号/を入れている。
Figure 3 is an explanatory diagram showing an example of a test text DB. Test text DB 132 stores text that is a conversion of test audio.
図4はパラメータDBの例を示す説明図である。パラメータDB133は音声入力部14における動作パラメータの実績値を記憶する。パラメータDB133はPID列、Mic No.列、Power(音声/環境)dB列、ノイズ低減(dB/感度/バンド)列、Mic(角度/範囲)列、フィルタ1列及び認識率列を含む。PID列は動作パラメータを一意に特定可能なPIDを記憶する。Mic No.列は音声入力部14を一意に特定するMic No.を記憶する。Power(音声/環境)dB列は収音すべき音声(人の話し声)のパワーと、環境音のパワーとを記憶する。ノイズ低減(dB/感度/バンド)列は、ノイズを減衰させる量(dB)、ノイズとみなす音のパワー値(感度)、ノイズの周波数の前後で平滑化する周波数の幅(バンド)を記憶する。Mic(角度/範囲)列は指向性設定、指向性の中心角度(角度)と収音する角度範囲(範囲)を記憶する。フィルタ1列は第1フィルタの係数や重みを記憶する。フィルタ(雑音低減フィルタ)はローパスフィルタ、ハイパスフィルタ、バンドパスフィルタ、帯域除去フィルタ(BEF:Band elimination filter、BRF:Band reject fitler)、有限インパルス応答フィルタ(FIR:Finite Impulse Response)、無線インパルス応答デジタルフィルタ(IIR:Infinite Impulse Response)などである。利用するフィルタは複数であってもよい。その場合、フィルタの数に応じて、パラメータDBの列を設ける。認識率列は当該レコードの動作パラメータを設定した後、テスト音声を音声出力部15から出力し、当該音声を音声入力部14で収音して音声認識を行った際の認識率を記憶する。
Figure 4 is an explanatory diagram showing an example of a parameter DB. The
図5は音声DBの例を示す説明図である。音声DB134は収音した音声を記憶する。音声DB134は収音ID列、日付列、開始終了時刻列、PID列及び音声列を含む。収音ID列は収音した音声を一意に特定する収音IDを記憶する。日付列は収音した日付を記憶する。開始終了時刻列は収音を開始した時刻と収音を終了した時刻とを記憶する。PID列は収音する際に使用した動作パラメータを記憶する。音声列は収音した音声をバイナリ形式で記憶する。音声データ形式は、上述したテスト音声と同様である。
Figure 5 is an explanatory diagram showing an example of an audio DB.
図6は認識テキストDBの例を示す説明図である。認識テキストDB135は収音した音声を音声認識して得たテキストを記憶する。認識テキストDB135は収音ID列及びテキスト列を含む。収音ID列はテキストに対応する音声データの収音IDを記憶する。テキスト列は音声認識して得たテキストを記憶する。
Figure 6 is an explanatory diagram showing an example of a recognized text DB. The recognized
続いて、音声認識装置1が行う処理について、説明する。図7は収音認識処理の手順例を示すフローチャートである。収音認識処理は音声入力部14で収音した音声の認識を行い、認識結果として得た漢字仮名交じり文字列(テキスト)を認識テキストDB135に記憶する処理である。音声認識装置1の制御部11は音声入力部14の動作パラメータの設定を行う(ステップS1)。制御部11は音声入力部14を介して収音を行う(ステップS2)。制御部11は収音した音声を音声DB134に記憶する(ステップS3)。制御部11は外部の音声認識エンジンを利用して音声認識を行う(ステップS4)。制御部11は音声認識エンジンから返却された認識テキストを認識テキストDB135に記憶する(ステップS5)。制御部11は処理を終了するか否かを判定する(ステップS6)。制御部11は処理を終了しないと判定した場合(ステップS6でNO)、動作パラメータを再調整するか否かを判定する(ステップS7)。例えば、制御部11はインターバルタイマ等を利用して、所定時間が経過する毎に再調整を行うと判定する。また、制御部11はユーザからの指示入力を受け付けた場合に再調整を行うと判定する。制御部11は再調整を行うと判定した場合(ステップS7でYES)、処理をステップS1へ戻す。制御部11は動作パラメータを再調整しないと判定した場合(ステップS7でNO)、処理をステップS2に戻す。制御部11は処理を終了すると判定した場合(ステップS6でYES)、処理を終了する。なお、音声認識エンジンがストリーミングに対応する場合は、ステップS2からS5を並列的に実行してもよい。
Next, the process performed by the
図8は動作パラメータ設定処理の手順例を示すフローチャートである。動作パラメータ設定処理は図7のステップS1に対応する処理である。音声認識装置1の制御部11は音声入力部14の動作パラメータに初期値を設定する(ステップS21)。初期値は予め定めた値でもよいし、ユーザが都度、入力した値でもよい。また、動作パラメータを再調整する場合、直前の値を初期値としてもよい。制御部11は動作パラメータを変動させる幅(刻み幅)を大に設定する(ステップS22)。刻み幅(第1の刻み幅)は動作パラメータ毎に予め定め、補助記憶部13に記憶しておく。制御部11は動作パラメータの評価を行う(ステップS23)。制御部11は収束しているか否かを判定する(ステップS24)。制御部11は動作パラメータを変更する毎に、ステップS23で得られる評価値を一時記憶領域に記憶しておき、評価値の変化より収束しているか否か判定する。一時記憶領域は主記憶部12又は補助記憶部13に設ける。収束しているか否かを判定するための収束条件は予め補助記憶部13に記憶しておく。例えば収束条件として、5回連続認識率の低下とする。制御部11は収束していないと判定した場合(ステップS24でNO)、動作パラメータを変更する(ステップS25)。制御部11は動作パラメータの値を刻み幅だけ増加又は減少させる。制御部11は処理をステップS23へ戻す。制御部11は収束していると判定した場合(ステップS24でYES)、刻み幅を小に設定する(ステップS26)。制御部11は収束していると判定した場合の動作パラメータの値が、第1最適値である。刻み幅が大のときと同様に、刻み幅(第2の刻み幅)は動作パラメータ毎に予め定め、補助記憶部13に記憶しておく。制御部11は動作パラメータの評価を行う(ステップS27)。制御部11は収束しているか否かを判定する(ステップS28)。判定方法はステップS24と同様である。制御部11は収束していないと判定した場合(ステップS28でNO)、動作パラメータを変更する(ステップS29)。制御部11は動作パラメータの値を刻み幅だけ増加又は減少させる。制御部11は処理をステップS27へ戻す。制御部11は収束していると判定した場合(ステップS28でYES)、動作パラメータを最適値(第2最適値)に設定する(ステップS30)。ステップS27で得られる評価値を動作パラメータと対応付けて記憶しておく。記憶した評価値の中で、もっと評価が高い値、例えば最大値に対応する動作パラメータの値を最適値とする。制御部11は処理を呼び出し元に戻す。なお、刻み幅が大での探索(ステップS23からS25)において、高い認識率(例えば95%)となった場合は、刻み幅が小での探索(ステップS26からS29)を省略してもよい。
Figure 8 is a flowchart showing an example of the procedure of the operation parameter setting process. The operation parameter setting process corresponds to step S1 in Figure 7. The
図9は評価処理の手順例を示すフローチャートである。評価処理は図8のステップS23及びS27に対応する処理である。音声認識装置1の制御部11はテスト音声を収音する(ステップS41)。制御部11はテスト音声DB131に記憶してあるテスト音声を音声出力部15より出力する。制御部11は出力したテスト音声を音声入力部14により収音する。なお、テスト音声は、ユーザがその場で発話したものを使用してもよい。制御部11は音声認識を行う(ステップS42)。制御部11は音声認識の結果として得たテキストと、テストテキストDB132に記憶してある正解テキストとを比較する(ステップS43)。制御部11は単語単位で比較を行う。制御部11は、正しく認識した単語数(正解単語数)、誤って認識した単語数(誤認識単語数)、テスト音声に含まれていたがその存在が認識されなかった単語数(脱落単語数)を求める。制御部11は比較結果として得た正解単語数、誤認識単語数及び脱落単語数から、認識率を算出する(ステップS44)。認識率は以下の式(1)で求める。
Figure 9 is a flowchart showing an example of the procedure of the evaluation process. The evaluation process corresponds to steps S23 and S27 in Figure 8. The
認識率=正解単語数/(正解単語数+誤認識単語数+脱落単語数) …(1) Recognition rate = number of correct words / (number of correct words + number of misrecognized words + number of omitted words) … (1)
制御部11は認識率を評価値として、一時記憶領域に記憶し(ステップS45)、処理を呼び出し元に戻す。図8で示す動作パラメータ設定処理は、最適化問題を解く処理である。本実施の形態では、公知の様々な最適化問題の解法を採用可能である。例えばベイズ最適化手法を本実施の形態では用いる。
The
続いて、動作パラメータ設定処理の動作例を示す。図10及び図11は動作例を示す説明図である。図10及び図11は動作パラメータと当該動作パラメータの評価結果として得られた認識率とを対応付けて示している。図10及び図11に示す内容が、評価処理において一時記憶領域に記憶される。図10は刻み幅が大のときの処理の経過を示し、図11は刻み幅が小のときの処理の経過を示す。図10及び図11において、処理が進むにしたがい、上から下へ順にレコードが増えている。 Next, an example of the operation of the operation parameter setting process is shown. Figs. 10 and 11 are explanatory diagrams showing the example of the operation. Figs. 10 and 11 show the operation parameters in correspondence with the recognition rate obtained as the evaluation result of the operation parameters. The contents shown in Figs. 10 and 11 are stored in a temporary storage area in the evaluation process. Fig. 10 shows the progress of the process when the step size is large, and Fig. 11 shows the progress of the process when the step size is small. In Figs. 10 and 11, the number of records increases from top to bottom as the process progresses.
図10の例では、動作パラメータの初期値で認識率が87.1%となっている。動作パラメータを変更した次の評価では、認識率が87.9%となっている。その後の評価では、認識率が下がる傾向であるため、処理を打ち切り、認識率87.9%に対応する動作パラメータの値が暫定の最適値となる。処理打ち切りは、例えば、認識率が所定回連続して低下した場合に、行う。 In the example of Figure 10, the recognition rate is 87.1% with the initial values of the operation parameters. In the next evaluation after changing the operation parameters, the recognition rate is 87.9%. Since the recognition rate tends to decrease in subsequent evaluations, the process is terminated and the value of the operation parameters corresponding to a recognition rate of 87.9% becomes the provisional optimal value. The process is terminated, for example, when the recognition rate decreases a predetermined number of times in succession.
図11を参照し、刻み幅が小のときの処理を説明する。図11の例では、暫定の最適値の周辺から動作パラメータの値を変更して、評価を行っている。認識率の最大値は93.2%であり、それ以降の認識率は低下傾向であるから処理は打ち切られ、93.2%に対応する動作パラメータが、最適値と判定される。 Referring to Figure 11, the processing when the step size is small will be explained. In the example of Figure 11, the value of the operation parameter is changed from around the provisional optimal value and evaluation is performed. The maximum recognition rate is 93.2%, and since the recognition rate thereafter has a downward trend, the processing is terminated and the operation parameter corresponding to 93.2% is determined to be the optimal value.
音声認識装置1が複数の音声入力部14を備える場合、制御部11は各音声入力部14について個別に動作パラメータ設定処理(図8)及び評価処理(図9)を実行する。また、音声入力部14が複数の物理なマイクを論理的な1つのマイクとして機能させるマイクアレイを備える場合、マイクアレイにより収音したテスト音声の認識率が最大となるように、マイクアレイを構成する個々のマイクの動作パラメータを設定する。
When the
本実施の形態は以下の効果を奏する。音声認識装置1は所定条件が満たされていると判定すると、音声入力部14の動作パラメータを更新する。動作パラメータの更新は、音声認識装置1の動作環境にて行なうので、収音環境が大きく変動しても、適切な値へ動作パラメータを変更することが可能となる。それにより、音声認識に適した音声が収音可能となる。また、収音した音声を記憶しておくので、認識したテキストに誤りがあった場合でも、記憶した音声を参考にユーザによるテキストの修正が可能となる。また、収音を開始する前に実環境で動作パラメータを設定するので、利用する音声認識エンジンが異なっても、同じ音声認識エンジンであるがバージョンアップにより動作特性が替わっていたとしても、適切な音声認識結果を得ることが可能となる。
The present embodiment has the following effects. When the
(変形例)
動作パラメータ設定処理において、処理を早く収束させるためには、動作パラメータの初期値を最適値に近いと推定される値に設定する。そこで、使用実績のある動作パラメータが使用された環境に関する情報(環境情報)を記憶しておく。動作パラメータ設定処理の初期値として、使用する環境と類似する環境に対応付けられた動作パラメータの値を設定する。図12は環境情報DBの例を示す説明図である。環境情報DB136は補助記憶部13に記憶する。環境情報DB136はPID列、場面列、名称列、会場種別列、会場名称列及び雑音レベル列を含む。PID列は対応する動作パラメータを特定するPIDを記憶する。PIDはパラメータDB133の主キーである。場面列は動作パラメータを使用された場面を記憶する。場面は例えば、大規模展示会、小規模展示会、常設展示である。大規模展示会は数十社の出展者が集まり展示場で行う展示会である。小規模展示会は数社の出展者が集まり貸しホールで行う展示会である。常設展示はショールーム等での展示を示す。名称列は展示会等の名称を記憶する。会場種別列は会場の種別を記憶する。会場種別は例えば展示場、貸しホール、ショールームである。会場名称列は会場の名称を記憶する。雑音レベル列は周囲雑音の音圧(dBSPL)を記憶する。単位はdBである。
(Modification)
In the operation parameter setting process, in order to converge the process quickly, the initial value of the operation parameter is set to a value estimated to be close to the optimal value. Therefore, information (environment information) on the environment in which the operation parameter with a proven track record was used is stored. As the initial value of the operation parameter setting process, the value of the operation parameter associated with an environment similar to the environment in which it is used is set. FIG. 12 is an explanatory diagram showing an example of the environment information DB. The
ユーザは動作パラメータの初期値を設定する際に、環境情報DB136を検索し、使用する環境と類似する環境を選択する。制御部11は選択された環境情報に含まれるPIDをキーにパラメータDB133を検索する。例えば、過去に収音を行った展示会で再度、収音する場合は、展示会の名称で、環境情報DB136を検索する。過去に収音を行った場面ではないが、収音の実績がある会場で再度、収音する場合は、会場名称で環境情報DB136を検索する。過去に収音を行った会場ではないが、類似する会場での実績がある場合は、会場種別で検索する。場面や会場が新規の場合、周囲雑音の音圧が似通った値のレコードを検索する。制御部11は、検索にヒットしたレコードに含まれる動作パラメータを初期値として、動作パラメータ設定処理を行う。なお、初期値として用いる動作パラメータを検索ではなく、他の方法で選択してもよい。収音する環境の属性(場面、名称、会場種別、会場名称、雑音レベル等)と、環境情報DB136の名称列、会場種別列、会場名称列、雑音レベル列とをそれぞれ対照して類似度を算出し、収音する環境の属性と最も類似する値を持つレコードを特定し、特定したレコードの動作パラメータを初期値とする。
When setting the initial values of the operation parameters, the user searches the
本変形例においては、過去の実績に基づき、動作パラメータの初期値を最適値に近いと推定される値に初期値を設定し、動作パラメータ設定処理を行なうことにより、処理が迅速に収束し、動作パラメータの最適値が定まると期待される。 In this modified example, the initial values of the operating parameters are set to values that are estimated to be close to the optimal values based on past performance, and the operating parameter setting process is then performed. It is expected that the process will converge quickly and the optimal values of the operating parameters will be determined.
図13は音声認識装置が備える機能部の一例を示すブロック図である。音声認識装置1は、機能部として、取得部11a、変換部11b、算出部11c、変更部11d、決定部11e及び繰り返し制御部11fを備える。これらの各機能部は、制御部11が制御プログラム1Pに基づいて動作することにより、実現される。
Figure 13 is a block diagram showing an example of functional units of a voice recognition device. The
取得部11aはテスト用テキストに対応するテスト音声及び雑音を含む音声を取得する。変換部11bは取得部11aが取得したテスト音声を認識し、発話テキストに変換する。算出部11cは発話テキストをテスト用テキストの正解データと比較し、認識率を算出する。変更部11dは算出した認識率に基づいて、雑音除去フィルタのパラメータを含む取得部の動作パラメータを変更する。決定部11eは変更動作パラメータを用いて算出した複数の認識率の結果に基づき、認識率の高い動作パラメータを決定する。繰り返し制御部11fは認識率が所定の収束条件を満たすまで、前記取得部、前記変換部、前記算出部、前記変更部を繰り返し動作させる。
The
各実施の形態で記載されている技術的特徴(構成要件)はお互いに組み合わせ可能であり、組み合わせすることにより、新しい技術的特徴を形成することができる。
今回開示された実施の形態はすべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。
The technical features (constituent elements) described in each embodiment can be combined with each other, and by combining them, new technical features can be formed.
The embodiments disclosed herein are illustrative in all respects and should not be considered as limiting. The scope of the present invention is defined by the claims, not by the above meaning, and is intended to include all modifications within the scope and meaning equivalent to the claims.
1 音声認識装置
11 制御部
11a 取得部
11b 変換部
11c 算出部
11d 変更部
11e 決定部
11f 繰り返し制御部
12 主記憶部
13 補助記憶部
131 テスト音声DB
132 テストテキストDB
133 パラメータDB
134 音声DB
135 認識テキストDB
136 環境情報DB
14 音声入力部
15 音声出力部
16 通信部
17 読み取り部
1P 制御プログラム
1a 可搬型記憶媒体
1b 半導体メモリ
REFERENCE SIGNS
132 Test Text DB
133 Parameter DB
134 Audio DB
135 Recognition Text DB
136 Environmental Information DB
14
Claims (5)
取得した前記テスト音声を認識し、発話テキストに変換する変換部と、
前記発話テキストを前記テスト用テキストの正解データと比較し、認識率を算出する算出部と、
前記雑音低減フィルタのパラメータを含む前記取得部の動作パラメータを変更する変更部と、
前記認識率が所定の収束条件を満たすまで、前記取得部、前記変換部、前記算出部、前記変更部を繰り返し動作させる繰り返し制御部と、
変更動作パラメータを用いて算出した複数の認識率の結果に基づき、認識率の高い前記動作パラメータを決定する決定部と
を備え、
前記繰り返し制御部は、前記動作パラメータを第1の刻み幅で変更することを前記変更部へ指示し、
前記繰り返し制御部は、前記取得部、前記変換部、前記算出部、前記変更部の動作を繰り返し動作させ、前記認識率が最大値となる前記動作パラメータの第1最適値を探索し、
探索の終了後に、前記繰り返し制御部は、前記動作パラメータを前記第1の刻み幅より小さい第2の刻み幅で変更することを前記変更部へ指示し、
前記繰り返し制御部は、前記取得部、前記変換部、前記算出部、前記変更部の動作を繰り返し動作させ、前記認識率が前記最大値以上の値で最大となる前記動作パラメータの第2最適値を探索することを特徴とする音声認識装置。 an acquisition unit having a noise reduction filter and acquiring a test speech corresponding to a test text and a noisy speech;
A conversion unit that recognizes the acquired test voice and converts it into spoken text;
a calculation unit that compares the spoken text with correct answer data of the test text and calculates a recognition rate;
a change unit that changes operating parameters of the acquisition unit, including parameters of the noise reduction filter;
a repetitive control unit that repeatedly operates the acquisition unit, the conversion unit, the calculation unit, and the change unit until the recognition rate satisfies a predetermined convergence condition;
a determination unit that determines an operation parameter having a high recognition rate based on a plurality of results of the recognition rates calculated using the changed operation parameter ,
the repetitive control unit instructs the change unit to change the operation parameter by a first step size;
the repetitive control unit repeatedly operates the acquisition unit, the conversion unit, the calculation unit, and the change unit to search for a first optimum value of the operation parameter that maximizes the recognition rate;
After the search is completed, the repetitive control unit instructs the change unit to change the operation parameter by a second step size smaller than the first step size;
The repetitive control unit repeatedly operates the acquisition unit, the conversion unit, the calculation unit, and the change unit to search for a second optimal value of the operation parameter that maximizes the recognition rate and is equal to or greater than the maximum value.
ことを特徴とする請求項1に記載の音声認識装置。 2. The speech recognition device according to claim 1, wherein the recognition rate is calculated based on a result of comparison between words constituting the spoken text and words constituting correct answer data.
ことを特徴とする請求項1又は請求項2に記載の音声認識装置。 3. The speech recognition device according to claim 1, wherein a Bayesian optimization method is used to search for the first optimum value and the second optimum value.
前記繰り返し制御部は、前記環境情報を取得し、取得した前記環境情報に対応付けられた前記第2最適値を、前記記憶部から読み出し、読み出した前記第2最適値を前記動作パラメータの初期値となるよう、前記変更部に設定させる
ことを特徴とする請求項1から請求項3の何れか一項に記載の音声認識装置。 a storage unit that stores environmental information regarding an environment in which the acquisition unit acquired the voice in association with the second optimum value,
4. The speech recognition device according to claim 1, wherein the repetitive control unit acquires the environmental information, reads the second optimum value associated with the acquired environmental information from the storage unit, and controls the change unit to set the read second optimum value as an initial value of the operation parameter.
テスト用テキストに対応する音声及び雑音を含む音声を前記取得部により取得する取得処理と、
取得した音声を認識し、発話テキストに変換する変換処理と、
前記発話テキストを前記テスト用テキストの正解データと比較し、認識率を算出する算出処理と、
前記雑音低減フィルタのパラメータを含む前記取得部の動作パラメータを変更する変更処理と、
変更動作パラメータを用いて算出した複数の認識率の結果に基づき、認識率の高い前記動作パラメータを決定する処理と
を前記コンピュータに実行させる音声認識プログラムであって、
前記取得処理、前記変換処理、前記算出処理、及び、前記動作パラメータを第1の刻み幅で変更する前記変更処理を、前記認識率が所定の収束条件を満たすまで、繰り返し実行して、前記認識率が最大値となる前記動作パラメータの第1最適値を探索し、
探索の終了後に、前記取得処理、前記変換処理、前記算出処理、及び、前記動作パラメータを前記第1の刻み幅より小さい第2の刻み幅で変更する前記変更処理を、前記認識率が所定の収束条件を満たすまで、繰り返し実行して、前記認識率が前記最大値以上の値で最大となる前記動作パラメータの第2最適値を探索する
ことを特徴とする音声認識プログラム。 A computer including an acquisition unit having a noise reduction filter and configured to acquire speech,
an acquisition process for acquiring a speech corresponding to a test text and a speech including noise by the acquisition unit;
A conversion process that recognizes the acquired voice and converts it into spoken text;
A calculation process of comparing the spoken text with the correct answer data of the test text and calculating a recognition rate;
A modification process for modifying operating parameters of the acquisition unit, including parameters of the noise reduction filter;
A process of determining an operation parameter having a high recognition rate based on a plurality of recognition rate results calculated using the changed operation parameter;
A speech recognition program for causing the computer to execute the above ,
repeatedly executing the acquisition process, the conversion process, the calculation process, and the change process of changing the operation parameter by a first step size until the recognition rate satisfies a predetermined convergence condition, thereby searching for a first optimum value of the operation parameter that maximizes the recognition rate;
After the search is completed, the acquisition process, the conversion process, the calculation process, and the change process for changing the operation parameter by a second step size smaller than the first step size are repeatedly executed until the recognition rate satisfies a predetermined convergence condition, thereby searching for a second optimum value of the operation parameter at which the recognition rate is maximized at a value equal to or greater than the maximum value.
A speech recognition program comprising :
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020063732A JP7501054B2 (en) | 2020-03-31 | 2020-03-31 | Voice recognition device and voice recognition program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020063732A JP7501054B2 (en) | 2020-03-31 | 2020-03-31 | Voice recognition device and voice recognition program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021162697A JP2021162697A (en) | 2021-10-11 |
JP7501054B2 true JP7501054B2 (en) | 2024-06-18 |
Family
ID=78003210
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020063732A Active JP7501054B2 (en) | 2020-03-31 | 2020-03-31 | Voice recognition device and voice recognition program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7501054B2 (en) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002221986A (en) | 2001-01-24 | 2002-08-09 | Alpine Electronics Inc | Characteristic setting method of noise reduction device |
JP2002236497A (en) | 2001-02-08 | 2002-08-23 | Alpine Electronics Inc | Noise reduction system |
JP2008224960A (en) | 2007-03-12 | 2008-09-25 | Nippon Seiki Co Ltd | Voice recognition device |
JP2013007764A (en) | 2011-06-22 | 2013-01-10 | Clarion Co Ltd | Voice data repeating device, terminal, voice data repeating method, and voice recognition system |
WO2014049944A1 (en) | 2012-09-27 | 2014-04-03 | 日本電気株式会社 | Speech processing device, speech processing method, speech processing program and noise suppression device |
-
2020
- 2020-03-31 JP JP2020063732A patent/JP7501054B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002221986A (en) | 2001-01-24 | 2002-08-09 | Alpine Electronics Inc | Characteristic setting method of noise reduction device |
JP2002236497A (en) | 2001-02-08 | 2002-08-23 | Alpine Electronics Inc | Noise reduction system |
JP2008224960A (en) | 2007-03-12 | 2008-09-25 | Nippon Seiki Co Ltd | Voice recognition device |
JP2013007764A (en) | 2011-06-22 | 2013-01-10 | Clarion Co Ltd | Voice data repeating device, terminal, voice data repeating method, and voice recognition system |
WO2014049944A1 (en) | 2012-09-27 | 2014-04-03 | 日本電気株式会社 | Speech processing device, speech processing method, speech processing program and noise suppression device |
Also Published As
Publication number | Publication date |
---|---|
JP2021162697A (en) | 2021-10-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11176936B2 (en) | Architecture for multi-domain natural language processing | |
US20200320977A1 (en) | Speech recognition method and apparatus | |
US7522967B2 (en) | Audio summary based audio processing | |
US9466289B2 (en) | Keyword detection with international phonetic alphabet by foreground model and background model | |
CN110675886B (en) | Audio signal processing method, device, electronic equipment and storage medium | |
JP4797342B2 (en) | Method and apparatus for automatically recognizing audio data | |
JP5175325B2 (en) | WFST creation device for speech recognition, speech recognition device using the same, method, program thereof, and storage medium | |
US10109273B1 (en) | Efficient generation of personalized spoken language understanding models | |
JP5274711B2 (en) | Voice recognition device | |
JP2021144218A5 (en) | ||
JP2019020598A (en) | Learning method of neural network | |
EP1403852B1 (en) | Voice activated music playback system | |
JP7501054B2 (en) | Voice recognition device and voice recognition program | |
CN112580669B (en) | Training method and device for voice information | |
JP2020510862A (en) | Sound Discrimination Using Periodic Display | |
JP4601643B2 (en) | Signal feature extraction method, signal search method, signal feature extraction device, computer program, and recording medium | |
CN111798844A (en) | Artificial intelligent speaker customized personalized service system based on voiceprint recognition | |
CN113516963A (en) | Audio data generation method and device, server and intelligent loudspeaker box | |
TWI731921B (en) | Speech recognition method and device | |
US20230047378A1 (en) | Processing accelerator architectures | |
JP2013088488A (en) | Speech search device, speech search method, and program | |
CN113611284A (en) | Voice library construction method, recognition method, construction system and recognition system | |
CN112837688A (en) | Voice transcription method, device, related system and equipment | |
CN114627876B (en) | Intelligent voice recognition security defense method and device based on audio dynamic adjustment | |
JP3803301B2 (en) | Summary section determination method, summary information providing method, apparatus using these methods, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230127 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231031 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231121 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240115 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240507 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240520 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7501054 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |