JPH0540498A - Voice recognizing device - Google Patents
Voice recognizing deviceInfo
- Publication number
- JPH0540498A JPH0540498A JP3197542A JP19754291A JPH0540498A JP H0540498 A JPH0540498 A JP H0540498A JP 3197542 A JP3197542 A JP 3197542A JP 19754291 A JP19754291 A JP 19754291A JP H0540498 A JPH0540498 A JP H0540498A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- pattern
- input
- standard pattern
- standard
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
Description
【0001】[0001]
【産業上の利用分野】この発明は音声認識装置に関し、
特にマイクロフォンから入力された音声を分析して得ら
れる音声パターンと予め設定された標準パターンとを比
較して当該音声を認識する、音声認識装置に関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a voice recognition device,
In particular, the present invention relates to a voice recognition device that compares a voice pattern obtained by analyzing a voice input from a microphone with a preset standard pattern to recognize the voice.
【0002】[0002]
【従来の技術】この種の音声認識装置をステレオなどの
音響機器の近傍で用いる場合、音響機器からの出力音響
が音声認識装置に対して周囲雑音となり、誤認識を多発
する危惧がある。特に、たとえば、このような音響機器
を音声認識装置の認識結果に基づいて制御ないし操作し
ようとする場合には、音響機器から出力される音声や音
楽がかなりの大きさで音声認識装置に入力されるので、
音声認識装置が不所望に動作してしまうという不都合が
ある。このような誤動作を防止するために、音声認識装
置に対して音声入力を行うときには、音声入力期間だけ
音響機器の出力を小さくするような音声認識装置が提案
されている(特開昭63−29755号公報参照)。2. Description of the Related Art When a voice recognition device of this type is used in the vicinity of an audio device such as a stereo, the output sound from the audio device becomes ambient noise with respect to the voice recognition device, and there is a danger of erroneous recognition occurring frequently. In particular, for example, when controlling or operating such an audio device based on the recognition result of the voice recognition device, the voice or music output from the audio device is input to the voice recognition device in a considerable amount. So
There is an inconvenience that the voice recognition device operates undesirably. In order to prevent such a malfunction, a voice recognition device has been proposed in which, when voice input is performed to the voice recognition device, the output of the acoustic device is reduced only during the voice input period (Japanese Patent Laid-Open No. 63-29755). (See Japanese Patent Publication).
【0003】また、このような音声認識装置において
は、一般的には、マイクロフォンから入力された音声を
分析して得られる音声の特徴を表すパラメータを含む音
声パターンを、予め設定された標準パターンと比較し
て、最も類似した標準パターンを選択することによって
入力音声を認識する。このような音声認識装置において
は、最も類似する標準パターンを選択しても、その類似
度が極めて小さいときには、誤認識である可能性が高い
ので、これを防止するために、その類似度が一定の閾値
を超えなければ認識棄却(リジェクト)するのが一般的
である。Further, in such a voice recognition device, generally, a voice pattern including a parameter representing a feature of a voice obtained by analyzing a voice input from a microphone is referred to as a preset standard pattern. The input voice is recognized by comparing and selecting the most similar standard pattern. In such a voice recognition device, even if the most similar standard pattern is selected, if the degree of similarity is extremely small, there is a high possibility that it is erroneous recognition. If it does not exceed the threshold of, recognition is generally rejected.
【0004】[0004]
【発明が解決しようとする課題】前者においては、音声
入力可能期間を設定するために、音声入力の都度スイッ
チを操作するなど煩雑な操作が必要であった。また、後
者においては、類似度の閾値が大きすぎる場合には音声
の微妙な曖昧要素によって認識結果が得られないことが
多く、また閾値を小さくすると雑音までも音声として誤
認識してしまうなど種々の不都合がある。In the former case, in order to set the voice input possible period, a complicated operation such as operating a switch each time voice input is required. In the latter case, if the threshold value of the similarity is too large, a recognition result is often not obtained due to a subtle ambiguity element of the voice, and if the threshold value is reduced, even noise may be erroneously recognized as voice. There is an inconvenience.
【0005】それゆえに、この発明の主たる目的は、煩
雑な操作なしに周囲雑音等による誤動作を防止できる、
音声認識装置を提供することである。この発明の他の目
的は、類似度の閾値設定に伴う不都合を解消できる、音
声認識装置を提供することである。この発明のさらに他
の目的は、認識対象外の音声が入力された場合の誤認識
を防止できる、音声認識装置を提供することである。Therefore, the main object of the present invention is to prevent malfunctions due to ambient noise without complicated operations.
A voice recognition device is provided. Another object of the present invention is to provide a voice recognition device that can eliminate the inconvenience caused by setting the threshold value of the similarity. Still another object of the present invention is to provide a voice recognition device that can prevent erroneous recognition when a voice that is not a recognition target is input.
【0006】この発明のさらに他の目的は、1つの項目
に対して複数の音声を標準パターンとして登録する場合
に登録誤りを可及的防止できる、音声認識装置を提供す
ることである。Still another object of the present invention is to provide a voice recognition device capable of preventing registration error as much as possible when registering a plurality of voices as a standard pattern for one item.
【0007】[0007]
【課題を解決するための手段】第1発明は、マイクロフ
ォンから入力された音声を分析して音声パターンを作成
するパターン作成手段、および音声パターンと予め登録
されている標準パターンとを比較して認識する認識手段
を備える音声認識装置において、マイクロフォンからの
音声入力を許容する入力時間を設定する時間設定手段、
および時間設定手段によって設定された入力時間内に認
識手段によって音声が認識されたとき入力時間を延長す
る延長手段をさらに備えることを特徴とする、音声認識
装置である。SUMMARY OF THE INVENTION A first aspect of the present invention is a pattern creating means for analyzing a voice input from a microphone to create a voice pattern, and a recognition by comparing a voice pattern with a standard pattern registered in advance. A voice recognition device having a recognition means for setting a time setting means for setting an input time for allowing voice input from a microphone,
And a voice recognizing device further comprising extension means for extending the input time when the voice is recognized by the recognition means within the input time set by the time setting means.
【0008】第2発明は、マイクロフォンから入力され
た音声を分析して音声パターンを作成するパターン作成
手段、複数の音声パターンが標準パターンとして予め設
定されている標準パターン設定手段、パターン作成手段
によって作成された音声パターンを標準パターン設定手
段に設定されているそれぞれの標準パターンと比較して
最も大きい類似度を示す標準パターンを選択する選択手
段、および選択手段によって選択された標準パターンの
類似度が所定の閾値より大きいとき標準パターンによっ
て音声を認識し、類似度が所定の閾値よりも小さいとき
リジェクトする判定手段を備える音声認識装置におい
て、判定手段によって同じ音声が複数回連続してリジェ
クトされたときその音声を認識結果とする手段をさらに
備えることを特徴とする、音声認識装置である。A second aspect of the invention is a pattern creating means for analyzing a voice input from a microphone to create a voice pattern, a standard pattern setting means for presetting a plurality of voice patterns as standard patterns, and a pattern creating means. The selected voice pattern is compared with the respective standard patterns set in the standard pattern setting means, and the selecting means for selecting the standard pattern having the highest similarity, and the similarity of the standard pattern selected by the selecting means are predetermined. When a voice recognition device having a determination means for recognizing a voice by a standard pattern when the value is larger than a threshold value and rejecting the similarity when the similarity is smaller than a predetermined threshold value, the same voice is continuously rejected multiple times by the determination means. Characterized in that it further comprises means for making speech a recognition result. That is a voice recognition device.
【0009】第3発明は、マイクロフォンから入力され
た音声を分析して音声パターンを作成するパターン作成
手段、複数の音声パターンが標準パターンとして予め設
定されている標準パターン設定手段、パターン作成手段
によって作成された音声パターンを標準パターン設定手
段に設定されているそれぞれの標準パターンと比較して
最も大きい類似度を示す標準パターンを選択する選択手
段、および選択手段によって選択された標準パターンの
類似度が所定の閾値より大きいとき標準パターンによっ
て音声を認識し、類似度が前記所定の閾値よりも小さい
ときリジェクトする判定手段を備える音声認識装置にお
いて、選択された標準パターンが識別対象外のものであ
るとき判定手段からの認識結果の出力を停止する手段を
さらに備えることを特徴とする、音声認識装置である。A third aspect of the present invention is a pattern creating means for analyzing a voice input from a microphone to create a voice pattern, a standard pattern setting means for presetting a plurality of voice patterns as a standard pattern, and a pattern creating means. The selected voice pattern is compared with the respective standard patterns set in the standard pattern setting means, and the selecting means for selecting the standard pattern having the highest similarity, and the similarity of the standard pattern selected by the selecting means are predetermined. When the selected standard pattern is out of the identification target, the speech recognition apparatus includes a determination unit that recognizes the voice by the standard pattern when the standard pattern is larger than the threshold value and rejects when the similarity is smaller than the predetermined threshold value. Further comprising means for stopping the output of the recognition result from the means Wherein a speech recognition device.
【0010】第4発明は、マイクロフォンから入力され
た音声を分析して得られる音声パターンを標準パターン
として予め登録しておく音声認識装置において、1つの
項目について異なるモードで異なる音声の標準パターン
を登録するとき、登録すべきモードを知らせる表示手段
をさらに備えることを特徴とする、音声認識装置であ
る。According to a fourth aspect of the present invention, in a voice recognition device in which a voice pattern obtained by analyzing a voice input from a microphone is registered in advance as a standard pattern, different voice standard patterns are registered in different modes for one item. The voice recognition device is characterized by further comprising display means for indicating a mode to be registered.
【0011】[0011]
【作用】第1発明においては、たとえば音声入力スイッ
チをオンして音声入力を許容する。それと共に、たとえ
ばオン時間タイマによって音声入力を許容する入力時間
が設定される。そのタイマに設定された入力時間内に認
識手段によって音声が認識されたとき、延長手段は、た
とえば、そのタイマに延長時間を再度設定して入力時間
を延長する。In the first aspect of the invention, the voice input switch is turned on to allow the voice input. At the same time, for example, an on-time timer sets an input time for allowing voice input. When the recognition unit recognizes the voice within the input time set in the timer, the extension unit sets the extension time in the timer again to extend the input time.
【0012】第2発明においては、選択手段によって選
択された標準パターンに対する類似度が閾値よりも小さ
いときにはリジェクトされるが、その標準パターンが複
数回連続してリジェクトされたときには、その標準パタ
ーンに基づいて認識結果を出力する。したがってリジェ
クトされた音声を何回か再入力すれば認識可能になる。In the second aspect of the invention, when the similarity to the standard pattern selected by the selecting means is smaller than the threshold value, the standard pattern is rejected. When the standard pattern is rejected a plurality of times in succession, the standard pattern is used. Output the recognition result. Therefore, the rejected voice can be recognized by inputting it again several times.
【0013】第3発明においては、認識対象外の音声の
標準パターンが最大類似度を示す場合には、認識結果は
出力しない。したがって、認識対象外の音声によって誤
動作を生じることはない。第4発明によれば、たとえば
LEDなどの異なる表示態様によって、そのとき音声を
登録すべきモードを表示する。In the third aspect of the present invention, the recognition result is not output when the standard pattern of the non-recognition speech shows the maximum similarity. Therefore, a malfunction does not occur due to a voice that is not a recognition target. According to the fourth invention, the mode in which the voice should be registered at that time is displayed by a different display mode such as an LED.
【0014】[0014]
【発明の効果】第1発明によれば、音声が一旦認識され
ると音声入力可能時間が延長されるので、連続して音声
入力する場合に再度入力時間を設定する必要はない。し
たがって、誤動作を防止するために音声入力可能期間を
設定するのに、従来のように煩雑なスイッチ操作は必要
なくなる。また、入力時間にのみ音声を認識するので、
周囲雑音がマイクロフォンに入力される可能性が小さく
なり、従来と同様に、雑音で誤動作することはない。According to the first aspect of the invention, since the voice input possible time is extended once the voice is recognized, it is not necessary to set the input time again in the case of continuous voice input. Therefore, in order to set the voice input possible period in order to prevent malfunction, it is not necessary to perform a complicated switch operation as in the conventional case. Also, since the voice is recognized only at the input time,
Ambient noise is less likely to be input to the microphone, and noise does not cause malfunction as in the conventional case.
【0015】第2発明によれば、判定ないし認識に必要
な類似度の弁別のための閾値の設定が容易になる。すな
わち、従来技術では、閾値を小さく設定すると周囲の音
声等の雑音によっても誤動作するし、そのような誤動作
を防止するために閾値を大きく設定すると、音声特有の
曖昧要素によってリジェクトされる確率が大きくなり、
閾値の設定が難しかったが、この第2発明によれば、複
数回同じ単語を音声入力し、それがリジェクトされ続け
た場合には、そのリジェクトされた単語を認識するの
で、結果的に、誤動作を防止するために閾値を大きく設
定しても、何回か同じ音声入力を繰り返すことによって
認識可能となる。また、突発音や会話の音声の場合に
は、同一単語が繰り返し入力されることは少ないので、
そのような突発音や会話音声による誤動作を少なくする
ことができる。According to the second aspect of the invention, it becomes easy to set a threshold value for discriminating the degree of similarity required for judgment or recognition. That is, in the prior art, if the threshold value is set small, it malfunctions due to noise such as surrounding voice, and if the threshold value is set large to prevent such malfunction, the probability of being rejected by an ambiguity element peculiar to the voice is large. Becomes
Although it was difficult to set the threshold value, according to the second aspect of the invention, if the same word is input by voice a plurality of times and the word is continuously rejected, the rejected word is recognized, resulting in malfunction. Even if the threshold value is set to a large value in order to prevent this, recognition can be performed by repeating the same voice input several times. Also, in the case of sudden sound or speech of conversation, the same word is rarely input repeatedly, so
It is possible to reduce malfunctions caused by such sudden sounds and conversation voices.
【0016】第3発明によれば、認識対象外の音声を入
力した場合には認識結果が出力されないので、それによ
る誤動作を防止することができる。また、再入力を指示
するようにすれば、使用者は、再度音声入力することが
できる。また、所定時間内に再度音声が入力されない場
合には、対象内で最も類似している標準パターンに基づ
いて認識するようにすれば、認識対象内の音声を入力し
たにも拘わらず対象外であると判断された場合でも、対
象内の音声入力であるとして認識される。According to the third aspect, since the recognition result is not output when a voice that is not a recognition target is input, it is possible to prevent a malfunction due to the recognition result. If the user inputs a re-input instruction, the user can input the voice again. Also, if the voice is not input again within the predetermined time, if recognition is performed based on the most similar standard pattern in the target, the voice in the recognition target is input, but the target is outside the target. Even if it is determined that there is a voice input, it is recognized as a voice input in the target.
【0017】第4発明によれば、たとえば1つの制御対
象を2以上の認識結果で制御するような場合でも、登録
誤りを減じることができる。この発明の上述の目的,そ
の他の目的,特徴および利点は、図面を参照して行う以
下の実施例の詳細な説明から一層明らかとなろう。According to the fourth invention, registration errors can be reduced even when, for example, one control target is controlled by two or more recognition results. The above-mentioned objects, other objects, features and advantages of the present invention will become more apparent from the following detailed description of the embodiments with reference to the drawings.
【0018】[0018]
【実施例】図1に示す実施例のカーオーディオシステム
10はマイクロコンピュータ12を含み、マイクロコン
ピュータ12によってオーディオ部14が制御される。
オーディオ部14は、チューナ18,テープデッキ20
およびCDプレーヤ22等を含むステレオ音源16を含
み、このステレオ音源16からの右信号Rおよび左信号
Lは、それぞれ、アンプ24Rおよび24Lを通して、
自動車(図示せず)の室内の適宜の位置に配置されたス
ピーカ26Rおよび26Lに与えられる。ステレオ音源
16が4チャネルステレオである場合、さらにリア信号
が出力される。オーディオ部14は、さらに、コントロ
ーラ28を含み、このコントローラ28はステレオ音源
16を手動的に操作するための操作スイッチ(図示せ
ず)を備える。ただし、マイクロコンピュータ12から
の制御信号によってオーディオ部14すなわちステレオ
音源16を制御する場合には、オーディオ部14に設け
られた音声入力スイッチ30が操作される。この場合に
は、上述の操作スイッチからの操作信号に代えて、マイ
クロコンピュータ12からの制御信号がステレオ音源1
6に入力される。なお、オーディオ部14には、発光ダ
イオード(LED)31が設けられ、このLED31に
よって、後述のように、たとえば認識対象外の音声が入
力されたこと、そのために再度音声入力が必要なこと、
あるいは登録の手順等を操作者に種々報知する。DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS A car audio system 10 of the embodiment shown in FIG. 1 includes a microcomputer 12, and an audio section 14 is controlled by the microcomputer 12.
The audio section 14 includes a tuner 18 and a tape deck 20.
And a stereo sound source 16 including a CD player 22 and the like, and a right signal R and a left signal L from this stereo sound source 16 are passed through amplifiers 24R and 24L, respectively.
It is given to speakers 26R and 26L arranged at appropriate positions in the interior of a vehicle (not shown). When the stereo sound source 16 is 4-channel stereo, a rear signal is further output. The audio unit 14 further includes a controller 28, and the controller 28 includes an operation switch (not shown) for manually operating the stereo sound source 16. However, when the audio unit 14, that is, the stereo sound source 16 is controlled by the control signal from the microcomputer 12, the voice input switch 30 provided in the audio unit 14 is operated. In this case, the control signal from the microcomputer 12 is replaced by the control signal from the microcomputer 12 instead of the operation signal from the operation switch.
6 is input. Note that the audio unit 14 is provided with a light emitting diode (LED) 31, and as described later, for example, a voice that is not a recognition target is input by the LED 31, and therefore voice input is required again.
Alternatively, the operator is notified of various procedures such as registration procedures.
【0019】一方、自動車のダッシュボード(図示せ
ず)には、オーディオ部分14を制御するためのドライ
バの音声をピックアップするためのマイクロフォン32
が配置される。このマイクロフォン32からの音声信号
はフィルタバンク34に与えられる。フィルタバンク3
4は、よく知られているように、たとえば8チャネルの
バンドパスフィルタを含み、そのバンドパスフィルタに
よって、マイクロフォン32から入力された音声信号の
特徴パラメータを抽出する。すなわち、フィルタバンク
34は、各チャネル毎に、プリアンプ,AGC,バンド
パスフィルタ,整流回路およびローパスフィルタを備え
る。フィルタバンク34からの各特徴パラメータ(アナ
ログ信号)はマルチプレクサ36に入力される。マルチ
プレクサ36は、フィルタバンク34から入力される8
チャネルの特徴パラメータ信号を時間順次に出力する。
マルチプレクサ36から出力された音声信号はA/D変
換器38によって、特徴パラメータデータに変換され
る。On the other hand, a vehicle dashboard (not shown) has a microphone 32 for picking up a driver's voice for controlling the audio section 14.
Are placed. The audio signal from the microphone 32 is given to the filter bank 34. Filter bank 3
As well known, 4 includes, for example, an 8-channel band pass filter, and the band pass filter extracts the characteristic parameter of the audio signal input from the microphone 32. That is, the filter bank 34 includes a preamplifier, an AGC, a bandpass filter, a rectifier circuit, and a lowpass filter for each channel. Each characteristic parameter (analog signal) from the filter bank 34 is input to the multiplexer 36. The multiplexer 36 receives the 8 input from the filter bank 34.
The characteristic parameter signals of the channels are output in time sequence.
The audio signal output from the multiplexer 36 is converted into characteristic parameter data by the A / D converter 38.
【0020】上述の音声入力スイッチ30からの信号お
よびA/D変換器38の出力は、入力ポート40を通し
て、上述のマイクロコンピュータ12に入力される。マ
イクロコンピュータ12は、後述のようにして、入力ポ
ート40から入力された特徴パラメータをメモリ42に
形成されている標準パターンテーブル42a(図2)の
各標準パターンと比較することによって、マイクロフォ
ン32から入力された音声を認識する。そして、その認
識結果に応じて、出力ポート44を通して、オーディオ
部14に前述の制御信号を出力する。The signal from the voice input switch 30 and the output of the A / D converter 38 are input to the microcomputer 12 via the input port 40. The microcomputer 12 compares the characteristic parameters input from the input port 40 with the respective standard patterns in the standard pattern table 42a (FIG. 2) formed in the memory 42, as described later, to input from the microphone 32. The recognized voice. Then, according to the recognition result, the aforementioned control signal is output to the audio section 14 through the output port 44.
【0021】したがって、音声入力スイッチ30が操作
されているときマイクロフォン32にオーディオ部14
を制御するための音声が入力されると、その音声に応じ
て、マイクロコンピュータ12から制御信号が出力され
る。この制御信号に応答して、コントローラ28が、ス
テレオ音源16を制御する。メモリ42は、図2に示す
ように、標準パターンテーブル42aを含み、この標準
パターンテーブル42aには、フィルタバンク34によ
って切り出された特徴パラメータに基づいて音声を認識
するための各音ないし単語の標準的な特徴パラメータの
パターンが各番号毎に予め登録されている。なお、この
標準パターンテーブル42aはたとえばバックアップR
AMで構成される。メモリ42には、さらに、始端フラ
グ42aが形成され、この始端フラグ42bは、図3に
示すように音声データが最初に閾値を超えたときすなわ
ち“Fh”で示す音声の始端が検出されたときオンされ
る。メモリ42はさらに音声データバッファ42cを含
み、この音声データバッファ42cにはマイクロコンピ
ュータ12が取り込んだA/D変換器38からの音声デ
ータがストアされる。この音声データバッファ42cは
複数のフレームに亘って図3に示す始端(“Fh”で示
す)から終端(“Ft”で示す)までの一連の音声デー
タをストア可能なように、複数のアドレスを有する。た
だし、1フレームはたとえば5ミリ秒に設定される。す
なわち、音声データバッファ42cは、A/D変換器3
8から出力されるマイク32に入力された音声の特徴パ
ラメータデータをフレーム順次にストアする。Therefore, when the voice input switch 30 is operated, the audio section 14 is added to the microphone 32.
When a voice for controlling is input, a control signal is output from the microcomputer 12 according to the voice. In response to this control signal, the controller 28 controls the stereo sound source 16. As shown in FIG. 2, the memory 42 includes a standard pattern table 42a. In the standard pattern table 42a, a standard of each sound or word for recognizing a voice based on the characteristic parameters cut out by the filter bank 34. A pattern of characteristic parameters is registered in advance for each number. The standard pattern table 42a is, for example, a backup R
Composed of AM. A start end flag 42a is further formed in the memory 42, and the start end flag 42b is set when the voice data first exceeds the threshold as shown in FIG. 3, that is, when the start end of the voice indicated by "Fh" is detected. Turned on. The memory 42 further includes an audio data buffer 42c, and the audio data buffer 42c stores audio data from the A / D converter 38 fetched by the microcomputer 12. The audio data buffer 42c has a plurality of addresses so that a series of audio data from the start end (shown by "Fh") to the end (shown by "Ft") shown in FIG. 3 can be stored over a plurality of frames. Have. However, one frame is set to 5 milliseconds, for example. That is, the audio data buffer 42c is the A / D converter 3
The characteristic parameter data of the voice input from the microphone 8 and input to the microphone 32 is stored in frame order.
【0022】メモリ42はさらに前述の標準パターンテ
ーブル42aの各番号毎に固有の設定領域を有する時間
テーブル42dを含み、この時間テーブル42dには、
標準パターンテーブル42aに設定される標準パターン
毎に特有に決定される「延長時間」が設定される。この
延長時間は、前述の音声入力スイッチ30のオン時間を
延長すべき時間を意味する。たとえば、一連の2以上の
音声で1つの制御を達成する場合、先の音声が認識され
た後、音声入力スイッチ30のオン状態を継続しておく
必要があるが、そのオン時間をどの程度延長すべきかを
示す延長時間が、この時間テーブル42dに設定され
る。そして、後述のように、この時間テーブル42dか
ら読み出した時間が同じくメモリ42に割り付けられて
いるオン時間タイマ42eに設定される。The memory 42 further includes a time table 42d having a setting area unique to each number of the standard pattern table 42a, and the time table 42d includes:
An "extended time" that is uniquely determined for each standard pattern set in the standard pattern table 42a is set. This extension time means the time when the on time of the voice input switch 30 should be extended. For example, in order to achieve one control with a series of two or more voices, it is necessary to keep the ON state of the voice input switch 30 after the previous voice is recognized, but how much the ON time is extended. The extension time indicating whether or not it should be set is set in the time table 42d. Then, as described later, the time read from the time table 42d is set in the on-time timer 42e which is also assigned to the memory 42.
【0023】メモリ42に含まれるリジェクトフラグ4
2fは適正な認識ができなかったとき(認識棄却のと
き)にオンされるものであり、リジェクト番号レジスタ
42gはそのようにしてリジェクトされた単語を示す標
準パターンテーブル42aの番号をストアする。リジェ
クトカウンタ42hは、リジェクトされた回数をカウン
トするもので、リジェクトされる毎にインクリメントさ
れる。Reject flag 4 included in the memory 42
2f is turned on when proper recognition cannot be performed (when recognition is rejected), and the reject number register 42g stores the number of the standard pattern table 42a indicating the word rejected in this way. The reject counter 42h counts the number of rejects, and is incremented each time it is rejected.
【0024】なお、メモリ42の再入力タイマ42i
は、認識対象外の単語が入力されたとき操作者に再入力
を許容する時間を設定するためのタイマである。また、
点滅時間タイマ42jは、LED31を点滅させる時間
間隔を設定するためのタイマである。図4に示す登録モ
ードは図示しない登録キーの操作に応じて設定され、最
初のステップS1においては、同じく図示しないテンキ
ーなどを用いて登録番号を設定する。この登録番号は標
準パターンテーブル42aにおける番号であり、その番
号毎に認識すべき単語の標準パターンを登録する。その
ために、使用者がマイクロフォン32(図1)に向かっ
てその番号で登録したい単語を音声入力する。応じて、
ステップS2において、音声入力のサンプリングが開始
され、先に説明したように、フィルタバンク34,マル
チプレクサ36およびA/D変換器38を経て、マイク
ロコンピュータ12に音声(パラメータ)データが入力
される。したがって、ステップS3において、マイクロ
コンピュータ12は、その音声データを取り込み、図示
しないバッファに一時的にストアする。次のステップS
4においては、マイクロコンピュータ12は、音声の始
端(これは図3の“Fh”に相当する)を既に検出して
いるかどうかを判断する。もし音声の始端がまだ入力さ
れていないときには、続くステップS5において、その
ステップS3で入力された音声データは始端のものであ
るかどうか判断する。このステップS5において“N
O”が判断されると、ステップS3に戻る。入力された
音声データが始端のものであると、マイクロコンピュー
タ12は始端フラグ42b(図2)をセットして、先の
ステップS4において“YES”と判断されたときと同
様に、次のステップS7を実行する。ステップS7にお
いては、先に取り込んだ音声データを音声バッファ42
c(図2)にストアする。そして、ステップS8におい
て、入力された音声データが終端(これは図3における
“Ft”に相当する)のものであるかどうか判断する。
そうでなければ、先のステップS3に戻る。このように
して、ステップS3〜S8が繰り返し実行され、始端か
ら終端までの音声データが音声バッファ42cにフレー
ム順次にストアされる。The re-input timer 42i of the memory 42
Is a timer for setting a time for allowing the operator to re-input a word that is not a recognition target. Also,
The blinking time timer 42j is a timer for setting a time interval for blinking the LED 31. The registration mode shown in FIG. 4 is set according to the operation of a registration key (not shown), and in the first step S1, a registration number is also set using a numeric keypad (not shown). This registration number is a number in the standard pattern table 42a, and a standard pattern of a word to be recognized is registered for each number. For that purpose, the user voice-inputs to the microphone 32 (FIG. 1) the word to be registered with the number. Depending on,
In step S2, sampling of voice input is started, and voice (parameter) data is input to the microcomputer 12 via the filter bank 34, the multiplexer 36 and the A / D converter 38 as described above. Therefore, in step S3, the microcomputer 12 takes in the audio data and temporarily stores it in a buffer (not shown). Next step S
At 4, the microcomputer 12 determines whether or not the beginning of the voice (which corresponds to "Fh" in FIG. 3) has already been detected. If the start point of the voice has not been input yet, it is determined in step S5 whether the voice data input in step S3 is the start point. In this step S5, "N
If "O" is determined, the process returns to step S3. If the input audio data is for the start end, the microcomputer 12 sets the start end flag 42b (FIG. 2), and "YES" at the previous step S4. In the same manner as when it is determined that the voice buffer 42 receives the voice data previously fetched in step S7.
Store in c (FIG. 2). Then, in step S8, it is determined whether or not the input voice data is the end (corresponding to "Ft" in FIG. 3).
If not, the process returns to the previous step S3. In this way, steps S3 to S8 are repeatedly executed, and the audio data from the start end to the end is frame-sequentially stored in the audio buffer 42c.
【0025】その後、ステップS9において、マイクロ
コンピュータ12はこの音声バッファ42cにストアし
たデータを正規化(具体的にはデータ圧縮)する。正規
化された音声データが、ステップS10において、標準
パターンテーブル42aのステップS1において設定さ
れた番号に相当する領域にセーブされる。次のステップ
S11においては、時間テーブル42dに、「延長時
間」を設定する。すなわち、このステップS11におい
ては、標準パターンテーブル42aに標準パターンが設
定されたその単語が入力されたときに、音声入力可能時
間(後述)をどの程度延長すべきかを示す延長時間が個
々に設定される。そして、ステップS12において、登
録キーが再度操作されたかどうかなどに応じて、登録モ
ードを終了するかどうか判断される。もし登録動作を継
続するならば、ステップS13において、登録番号を変
更して先のステップS2に戻る。このようにして、標準
パターンテーブル42aに認識すべき単語の標準パター
ンデータが、そして時間テーブル42dに個々の単語を
認識したときの延長時間を表すデータが予め登録され
る。Then, in step S9, the microcomputer 12 normalizes the data stored in the audio buffer 42c (specifically, data compression). In step S10, the normalized voice data is saved in the area corresponding to the number set in step S1 of the standard pattern table 42a. In the next step S11, "extension time" is set in the time table 42d. That is, in this step S11, when the word for which the standard pattern is set is input to the standard pattern table 42a, the extension time indicating how much the voice input possible time (described later) should be extended is individually set. It Then, in step S12, it is determined whether or not to end the registration mode according to whether or not the registration key is operated again. If the registration operation is to be continued, the registration number is changed in step S13 and the process returns to step S2. In this way, the standard pattern data of the word to be recognized is registered in the standard pattern table 42a, and the data representing the extension time when each word is recognized is registered in the time table 42d in advance.
【0026】図5に示す認識モードの最初のステップS
101では、マイクロコンピュータ12は、入力ポート
40(図1)からの信号によって、音声入力スイッチ3
0が操作されているかどうか、すなわち音声入力可能期
間であるかどうか判断する。そして、ステップS101
において音声入力スイッチ30のオンが検出されると、
次のステップS102において、マイクロコンピュータ
12は、オン時間タイマ42e(図2)に、この音声入
力スイッチ30のオン状態を継続する所定の時間(たと
えば、10秒)を設定する。First step S of the recognition mode shown in FIG.
At 101, the microcomputer 12 receives the signal from the input port 40 (FIG. 1) and outputs the voice input switch 3
It is determined whether 0 is operated, that is, whether it is a voice input possible period. Then, step S101
When it is detected that the voice input switch 30 is turned on,
In the next step S102, the microcomputer 12 sets the ON time timer 42e (FIG. 2) to a predetermined time (for example, 10 seconds) for continuing the ON state of the voice input switch 30.
【0027】その後、ステップS103,S104,S
105,S106およびS108が実行される。これら
のステップは、先の図5の登録モードで説明したステッ
プS2,S3,S4,S5およびS6にそれぞれ相当す
るので、ここでは重複する説明は省略する。そして、ス
テップS107において、ステップS104で入力され
た音声データが、先のステップS102においてオン時
間タイマ42eに設定した音声入力可能時間内に入力さ
れたものかどうか判断する。このステップS107にお
いて“YES”が判断されると、先のステップS104
に戻るが、“NO”が判断されるとステップS107a
において、マイクロコンピュータ12は、音声入力スイ
ッチ30をオフ状態に強制し、ステップS101に戻
る。すなわち、音声入力スイッチ30がオンされた後オ
ン時間タイマ42eに設定された所定時間内に音声入力
がなければ、マイクロコンピュータ12は音声入力スイ
ッチ30をオフして、それ以後の認識動作は実行されな
い。Thereafter, steps S103, S104, S
105, S106 and S108 are executed. These steps correspond to the steps S2, S3, S4, S5 and S6 described in the registration mode of FIG. 5, respectively, and thus duplicated description will be omitted here. Then, in step S107, it is determined whether or not the voice data input in step S104 is input within the voice input possible time set in the on-time timer 42e in step S102. If "YES" is determined in this step S107, the previous step S104
However, if "NO" is determined, the step S107a is executed.
At 12, the microcomputer 12 forces the voice input switch 30 to the off state and returns to step S101. That is, if there is no voice input within the predetermined time set in the on-time timer 42e after the voice input switch 30 is turned on, the microcomputer 12 turns off the voice input switch 30 and the recognition operation thereafter is not executed. ..
【0028】ステップS108に続いて、図6に示すス
テップS109および110が実行されるが、このステ
ップは先の登録モードにおけるステップS7およびS8
と同様であり、ここでは重複する説明は省略する。そし
て、ステップS111において、マイクロコンピュータ
12は、音声バッファ42cにストアされた音声データ
と標準パターンテーブル42aに予め登録されている標
準パターンの各々との類似度を計算する。そして、その
うち最大類似度を示す標準パターンをステップS112
で決定するとともに、ステップS113においてその類
似度を弁別するための第1の閾値を設定し、ステップS
114に進む。ステップS113において設定される第
1の閾値は、比較的大きく、完全同一の場合の類似度を
「100」とすると、この第1の閾値はたとえば「9
0」に設定される。そして、ステップS114におい
て、ステップS112において選択した標準パターンの
類似度が、ステップS113で設定した第1の閾値を超
えるかどうか判断する。最大類似度が第1の閾値より大
きいとき、その最大類似度を与える標準パターンで示さ
れる単語を認識結果として出力する(ステップS11
5)。Following step S108, steps S109 and 110 shown in FIG. 6 are executed, which are steps S7 and S8 in the previous registration mode.
The same description is omitted here, and the duplicated description is omitted here. Then, in step S111, the microcomputer 12 calculates the degree of similarity between the audio data stored in the audio buffer 42c and each of the standard patterns registered in advance in the standard pattern table 42a. Then, the standard pattern indicating the maximum degree of similarity is selected in step S112.
In step S113, the first threshold value for discriminating the degree of similarity is set, and in step S113
Proceed to 114. The first threshold set in step S113 is relatively large, and if the similarity in the case of perfect identity is "100", this first threshold is, for example, "9."
It is set to "0". Then, in step S114, it is determined whether the similarity of the standard pattern selected in step S112 exceeds the first threshold value set in step S113. When the maximum similarity is larger than the first threshold value, the word indicated by the standard pattern that gives the maximum similarity is output as the recognition result (step S11).
5).
【0029】続くステップS116においては、時間テ
ーブル42dのその単語に相当する番号の領域から延長
時間データを読み出し、その延長時間を、先のステップ
S102と同様にして、オン時間タイマ42eに設定す
る。すなわち、ステップS115において、入力された
音声が標準パターンテーブル42aに予め登録されてい
る標準パターンによって識別されると、引き続き音声入
力を許容するために、ステップS116においてオン時
間タイマ42eを再設定して、ステップS103(図
5)に戻り、後続の音声入力を待つ。このように、入力
音声が認識されると音声入力可能時間が延長されるの
で、その後続けて音声入力する場合でも、音声入力スイ
ッチ30を再度操作する必要はない。たとえば、カーオ
ーディオシステム10のテープデッキ20を制御して、
「早送り」したいときには、「早送り」,「再生」,
「早送り」,…「再生」と連続して音声入力すればよい
が、この場合でも、最初に1回音声入力スイッチ30を
オンするだけで、以後連続して音声入力することができ
る。また、ステップS107およびS107aによっ
て、オン時間タイマ40eに設定した時間が経過した後
は、音声入力できなくなるので、周囲の雑音による誤動
作を防ぐことができる。In the following step S116, extension time data is read from the area of the number corresponding to the word in the time table 42d, and the extension time is set in the on-time timer 42e in the same manner as in step S102. That is, when the input voice is identified by the standard pattern registered in advance in the standard pattern table 42a in step S115, the on-time timer 42e is reset in step S116 to allow the voice input continuously. , And returns to step S103 (FIG. 5) to wait for the subsequent voice input. As described above, when the input voice is recognized, the voice input possible time is extended, and therefore, even when the voice is continuously input, it is not necessary to operate the voice input switch 30 again. For example, by controlling the tape deck 20 of the car audio system 10,
When you want to "fast forward", "fast forward", "play",
It is only necessary to continuously input the voice by "fast forward", ... "Play", but even in this case, the voice can be continuously input only by first turning on the voice input switch 30 once. Further, in steps S107 and S107a, after the time set in the on-time timer 40e has elapsed, voice input cannot be performed, so that malfunction due to ambient noise can be prevented.
【0030】なお、ステップS116がステップS11
5において特定番号で示される単語を認識したときにの
み実行されるようにすれば、すなわち特定の単語を認識
したときにのみ音声入力可能時間を延長するようにすれ
ば、周囲雑音による誤動作の可能性をより一層低減する
ことができる。先のステップS114(図6)において
ステップS112で選択された最大類似度を示す標準パ
ターンの類似度が第1の閾値より小さいと判定した場合
には、図7に示すステップS117に進む。すなわち、
ステップS117においては、リジェクトフラグ42f
がオンされているかどうかを判断する。もし、リジェク
トフラグ42fがオフされているときには、ステップS
118において、リジェクトフラグ42fをセットする
とともに、リジェクト番号レジスタ42gにリジェクト
された単語(標準パターン)の番号をストアしかつリジ
ェクトカウンタ40hをインクリメントし、その後先の
ステップS103(図5)に戻る。Note that step S116 is step S11.
If it is executed only when the word indicated by the specific number in 5 is recognized, that is, if the voice input possible time is extended only when the specific word is recognized, malfunction due to ambient noise is possible. The property can be further reduced. If it is determined in the previous step S114 (FIG. 6) that the similarity of the standard pattern indicating the maximum similarity selected in step S112 is smaller than the first threshold value, the process proceeds to step S117 shown in FIG. That is,
In step S117, the reject flag 42f
To determine if is turned on. If the reject flag 42f is turned off, step S
At 118, the reject flag 42f is set, the number of the rejected word (standard pattern) is stored in the reject number register 42g, the reject counter 40h is incremented, and then the process returns to step S103 (FIG. 5).
【0031】ステップS117においてリジェクトフラ
グ42fが既にオンされていることを検出すると、次の
ステップS119において、マイクロコンピュータ12
は、リジェクト番号レジスタ42gを参照して、直前に
リジェクトされた標準パターンの番号と今回リジェクト
された標準パターンの番号とが同じであるかどうか、す
なわち同じ単語が続けてリジェクトされたかどうかを判
断する。前にリジェクトされた単語と今回リジェクトさ
れた単語とが異なる場合、すなわち“NO”の場合、ス
テップS120において、リジェクト番号レジスタ42
gを今回リジェクトされた標準パターンの番号で更新す
るとともに、リジェクトカウンタ42hをインクリメン
トし、ステップS103に戻る。When it is detected in step S117 that the reject flag 42f is already turned on, in the next step S119, the microcomputer 12 is detected.
Refers to the reject number register 42g, and determines whether the number of the standard pattern rejected immediately before is the same as the number of the standard pattern rejected this time, that is, whether the same word is continuously rejected. .. If the previously rejected word is different from the currently rejected word, that is, if “NO”, in step S120, the reject number register 42
g is updated with the number of the standard pattern rejected this time, the reject counter 42h is incremented, and the process returns to step S103.
【0032】前にリジェクトされた番号と今回リジェク
トされた番号とが同じである場合、すなわちステップS
119において“YES”が判断された場合、マイクロ
コンピュータS121は、第1閾値よりやや小さいたと
えば「80」のような第2の閾値を設定し、ステップS
122において、ステップS112(図6)で選択され
た最大類似度がステップS121で設定された第2の閾
値を超えるかどうかを判断する。もし最大類似度がその
第2の閾値を超える場合には、その標準パターンに基づ
いて認識結果が出力される。しかしながら、最大類似度
が第2の閾値以下である場合には、ステップS123に
おいて、マイクロコンピュータ12はリジェクトカウン
タ42hを参照して、リジェクト回数が所定回数n(た
とえば3回)に達したかどうかを判断する。ステップS
123において“YES”と判断されると、マイクロコ
ンピュータ12は、ステップS124において、リジェ
クト番号レジスタ42gにロードされている番号を認識
結果として出力する。また、リジェクト回数が所定回数
に達していないときには、ステップS125において、
リジェクトカウンタ42hをインクリメントするととも
に、第2の閾値よりさらに小さいたとえば「70」の第
3の閾値を設定して、ステップS103に戻る。If the previously rejected number and the currently rejected number are the same, that is, step S
If “YES” is determined in 119, the microcomputer S121 sets a second threshold value, such as “80”, which is slightly smaller than the first threshold value, and the step S
At 122, it is determined whether the maximum similarity selected at step S112 (FIG. 6) exceeds the second threshold set at step S121. If the maximum similarity exceeds the second threshold, the recognition result is output based on the standard pattern. However, if the maximum similarity is equal to or less than the second threshold value, in step S123, the microcomputer 12 refers to the reject counter 42h and determines whether the number of rejects has reached a predetermined number n (for example, 3). to decide. Step S
When it is determined to be "YES" in 123, the microcomputer 12 outputs the number loaded in the reject number register 42g as a recognition result in step S124. If the number of rejects has not reached the predetermined number, in step S125,
The reject counter 42h is incremented, and a third threshold value of, for example, "70" smaller than the second threshold value is set, and the process returns to step S103.
【0033】このようにして、連続する音声入力が同一
の標準パターンとして同定されかつ同じようにリジェク
トされた場合には、類似度の閾値を徐々に小さく設定す
るようにしているので、再度音声入力すれば認識され得
る。したがって、最初に設定する第1の閾値を比較的大
きく設定して誤認識を可及的減じるようにしても、リジ
ェクトされ続けて音声入力できなくなるということはな
い。さらに、所定回数(たとえば3回)同じようにリジ
ェクトされてしまうと、そのリジェクトされた番号で示
す標準パターンによって同定される音声を識別する(ス
テップS124)ので、何回か同じように音声入力を繰
り返すことによって、確実にその音声が入力される。な
お、突発音や会話の場合には同じ単語が繰り返されるこ
とは少ないので、突発音や会話によって誤動作すること
はない。In this way, when consecutive voice inputs are identified as the same standard pattern and are rejected in the same manner, the threshold value of the similarity is set to be gradually smaller, so that the voice input is performed again. It can be recognized. Therefore, even if the first threshold value that is initially set is set to be relatively large to reduce erroneous recognition as much as possible, there is no possibility that voice input cannot be continued due to rejection. Further, when the voices are rejected a predetermined number of times (for example, three times) in the same manner, the voice identified by the standard pattern indicated by the rejected number is identified (step S124), and therefore voice input is performed several times in the same manner. By repeating, the voice is surely input. In the case of sudden sound or conversation, the same word is rarely repeated, so there is no malfunction due to sudden sound or conversation.
【0034】図7のステップS118,S120または
S125からは、図5のステップS103に戻るが、そ
のときにもステップS102で設定された入力時間は有
効であるので、ここで設定された入力時間内に繰り返し
て同じ音声が入力されかつリジェクトされた場合に、図
7に示すプロセスが有効となる。その入力時間内に再音
声入力がない場合は、リジェクトされたままで終わる。From step S118, S120 or S125 in FIG. 7, the process returns to step S103 in FIG. 5, but the input time set in step S102 is still valid at that time. When the same voice is repeatedly input and rejected, the process shown in FIG. 7 becomes effective. If there is no re-voice input within the input time, it ends as rejected.
【0035】別の実施例では、図6に示すステップS1
13に続いて、図8に示すステップS201を実行す
る。このステップS201では、ステップS114と同
様にして、ステップS112で示される最大類似度がス
テップS113で決定された第1の閾値を超えるかどう
かを判断する。最大類似度が第1の閾値を超えない場合
には、すなわちリジェクトする場合には、先の実施例と
同じように図7のステップS117に移るようにしても
よいし、そのまま終わるようにしてもよい。In another embodiment, step S1 shown in FIG.
Subsequent to step 13, step S201 shown in FIG. 8 is executed. In this step S201, similarly to step S114, it is determined whether or not the maximum degree of similarity shown in step S112 exceeds the first threshold value determined in step S113. When the maximum similarity does not exceed the first threshold value, that is, when the rejection is performed, the process may proceed to step S117 of FIG. 7 as in the previous embodiment, or may be finished as it is. Good.
【0036】また、最大類似度が第1の閾値を超える場
合には、ステップS202において、マイクロコンピュ
ータ12は、その最大類似度を与える単語が認識対象の
ものかどうかを判断する。すなわち、図1の実施例にお
いてカセットテープモードとチューナモードとがあると
すると、それぞれのモードにおいては、表1に示すよう
に、認識対象となる単語がモード毎に予め限定されてい
るものとする。If the maximum similarity exceeds the first threshold, the microcomputer 12 determines in step S202 whether the word giving the maximum similarity is a recognition target. That is, assuming that there is a cassette tape mode and a tuner mode in the embodiment of FIG. 1, in each mode, as shown in Table 1, words to be recognized are preliminarily limited for each mode. ..
【0037】[0037]
【表1】 [Table 1]
【0038】この場合、マイクロコンピュータ12は、
たとえばチューナモードにおいて登録番号「1」〜
「5」のいずれかが最大類似度を与える場合またはカセ
ットモードにおいて登録番号「6」〜「13」のいずれ
かの標準パターンが最大類似度を与える場合には、ステ
ップS202において、そのときの音声入力は認識対象
外であると判断する。認識対象外であることを判断する
と、すなわちステップS202において“NO”が判断
されると、ステップS203においては、マイクロコン
ピュータ12は、たとえばブザー(図示せず)を鳴らし
たり、LED31(図1)を点灯するなどして、認識対
象外の単語が最大類似度を示したことおよびしたがって
再入力の必要があることを使用者に報知する。それとと
もに、ステップS204において、再入力タイマ42i
(図2)に所定時間たとえば3秒を設定する。そして、
再入力タイマ42iに設定された時間内に音声入力がな
い場合には、ステップS205を経て、ステップS20
6において、マイクロコンピュータ12は、認識対象内
で最大類似度を与える標準パターンを決定する。たとえ
ばカセットモードにおいて「巻戻し」の音声入力があっ
たとき、それが曖昧に発声されたため、ステップS11
2においてそれが「バンドチェンジ」の標準パターンと
最も類似している判断され、次に類似しているのが「巻
戻し」の標準パターンである場合には、ステップS20
6では、認識対象内で最大類似度を示す単語すなわち
「巻戻し」を決定し、その類似度が第1の閾値を超えて
いるかどうかを、先のステップS201と同様にして、
ステップS207で判断する。In this case, the microcomputer 12
For example, in tuner mode, registration number "1" ~
If any of "5" gives the maximum similarity, or if any of the standard patterns of registration numbers "6" to "13" gives the maximum similarity in the cassette mode, in step S202, the voice at that time is output. It is determined that the input is outside the recognition target. When it is determined that the object is not a recognition target, that is, when “NO” is determined in step S202, in step S203, the microcomputer 12 sounds, for example, a buzzer (not shown) or the LED 31 (FIG. 1). For example, by turning on the light, the user is notified that the unrecognized word has the maximum degree of similarity and thus needs to be re-input. At the same time, in step S204, the re-input timer 42i
A predetermined time, for example, 3 seconds is set in (FIG. 2). And
If there is no voice input within the time set in the re-input timer 42i, the process goes through step S205 and then step S20.
At 6, the microcomputer 12 determines the standard pattern that gives the maximum similarity within the recognition target. For example, when there is a voice input of "rewind" in the cassette mode, the voice is vaguely uttered, so step S11
If it is determined in 2 that it is the most similar to the standard pattern of "band change" and the next most similar is the standard pattern of "rewind", step S20.
In 6, the word indicating the maximum similarity in the recognition target, that is, “rewind” is determined, and whether the similarity exceeds the first threshold value is determined in the same manner as in step S201 described above.
The determination is made in step S207.
【0039】ただし、再入力タイマ42iに設定された
時間内に音声入力があった場合には、図5のステップS
103からの動作を実行し、その再入力された音声につ
いて判定する。次に、図9を参照して、図4に示す登録
モードの変形例について説明する。この変形例において
は、表2に示すように、1つのキーないしスイッチに複
数の機能を持たせるいわゆる「マルチファンクション」
を達成する場合の登録方法である。However, if there is voice input within the time set in the re-input timer 42i, step S in FIG.
The operation from 103 is executed, and the re-input voice is judged. Next, a modification of the registration mode shown in FIG. 4 will be described with reference to FIG. In this modification, as shown in Table 2, a so-called "multi-function" in which one key or switch has a plurality of functions
This is a registration method for achieving the above.
【0040】[0040]
【表2】 [Table 2]
【0041】このようなマルチファンクション効果を達
成するためには、1つの表示に対して2以上の音声を予
め登録する必要があるが、これらを区別することは難し
く、したがって誤登録、誤認識の原因になっていた。図
9に示す実施例はこのような問題を解決するように、2
以上の音声によって制御される機器を制御するための音
声を登録する場合には、特定の表示に従って、そのこと
を使用者に知らしめ、結果的に誤登録、誤認識を低減す
るようにするものである。すなわち、ステップS301
においては、マイクロコンピュータ12は、表2に示す
「1/AMSS」や「2/RPT」のように1つのスイ
ッチにモード毎に異なる単語を登録する場合であるかど
うかを判断する。たとえば「1/AMSS」スイッチ
は、AMラジオモードではAM放送の1チャネルを設定
するために用いられ、FMラジオモードではFM放送の
1チャネルを設定するために用いられ、カセットテープ
モードでは頭出しの設定のために用いられる。したがっ
て、この場合、ステップS301では“YES”と判定
される。もしそうでなければ、マイクロコンピュータ1
2は、次のステップS302において、LED31(図
1)を常時点灯する。もし“YES”が判断されると、
すなわち1つのスイッチに対して複数の音声登録を行う
場合であれば、次のステップS303において、マイク
ロコンピュータ12は、LED31の点滅モードを設定
する。そして、ステップS304において、たとえば
「1/AMSS」のように1つのスイッチに対して3つ
以上の音声の登録が必要なのかどうかを判断する。1つ
のスイッチに対して2つの音声登録のみでよい場合すな
わち“NO”が判断される場合には、ステップS305
において、マイクロコンピュータ12は点滅用タイマ4
2j(図2)に第1のタイマ時間を設定し、逆に“YE
S”が判断されたときには、ステップS306において
マイクロコンピュータ12は第2タイマ時間を設定す
る。第1タイマ時間と第2タイマ時間とはLED31の
点滅速度や間隔が異なるように予め決められているもの
である。したがって、使用者は、LED31の点灯状態
(すなわち常時点灯,点滅1および点滅2)を判断する
ことによって各モードに適合した音声パターンを登録す
ることができ、誤登録をなくすことができる。In order to achieve such a multi-function effect, it is necessary to register in advance two or more voices for one display, but it is difficult to distinguish between them, and therefore misregistration and misrecognition may occur. It was the cause. In order to solve such a problem, the embodiment shown in FIG.
When registering a voice for controlling a device controlled by the above voices, the user is informed of the fact according to a specific display, and as a result, false registration and false recognition are reduced. Is. That is, step S301
In, the microcomputer 12 determines whether it is a case of registering different words for each mode in one switch such as “1 / AMSS” and “2 / RPT” shown in Table 2. For example, the "1 / AMSS" switch is used to set one channel of AM broadcast in the AM radio mode, is used to set one channel of FM broadcast in the FM radio mode, and is set to the beginning in the cassette tape mode. Used for settings. Therefore, in this case, "YES" is determined in step S301. If not, microcomputer 1
In the next step S302, the LED 2 always lights up the LED 31 (FIG. 1). If “YES” is judged,
That is, when a plurality of voice registrations are performed for one switch, the microcomputer 12 sets the blinking mode of the LED 31 in the next step S303. Then, in step S304, it is determined whether or not it is necessary to register three or more voices with respect to one switch, such as "1 / AMSS". If only two voice registrations are required for one switch, that is, if "NO" is determined, step S305.
At the microcomputer 12, the blinking timer 4
Set the first timer time to 2j (Fig. 2), and conversely "YE
When S "is determined, the microcomputer 12 sets the second timer time in step S306. The first timer time and the second timer time are predetermined so that the blinking speed and interval of the LED 31 are different. Therefore, the user can register the voice pattern suitable for each mode by judging the lighting state of the LED 31 (that is, constant lighting, blinking 1 and blinking 2), and eliminate erroneous registration. ..
【0042】なお、上述の実施例では、音声入力を許容
するために音声入力スイッチ30を設けたが、このよう
な特別なスイッチを設けることなく、たとえば「入力
(にゅうりょく)」のような音声入力によって音声入力
可能状態を設定するようにしてもよい。In the above-mentioned embodiment, the voice input switch 30 is provided to allow the voice input. However, without providing such a special switch, for example, "input" is used. The voice input enable state may be set by various voice inputs.
【図1】この発明の一実施例を示すブロック図である。FIG. 1 is a block diagram showing an embodiment of the present invention.
【図2】図1のメモリをより詳細に示す図解図である。FIG. 2 is an illustrative view showing the memory of FIG. 1 in more detail.
【図3】認識される音声の始端と終端とを示す波形図で
ある。FIG. 3 is a waveform diagram showing the beginning and end of a recognized voice.
【図4】図1の実施例における登録モードを示すフロー
図である。FIG. 4 is a flowchart showing a registration mode in the embodiment of FIG.
【図5】図1の実施例における認識モードの一部を示す
フロー図である。5 is a flowchart showing a part of a recognition mode in the embodiment of FIG.
【図6】図1の実施例における認識モードの一部を示す
フロー図である。6 is a flowchart showing a part of a recognition mode in the embodiment of FIG.
【図7】図1の実施例における認識モードの一部を示す
フロー図である。FIG. 7 is a flowchart showing a part of a recognition mode in the embodiment of FIG.
【図8】図1の実施例における認識モードの変形例を示
すフロー図である。FIG. 8 is a flowchart showing a modification of the recognition mode in the embodiment of FIG.
【図9】図1の実施例における登録モードの変形例を示
すフロー図である。9 is a flowchart showing a modification of the registration mode in the embodiment of FIG.
10 …カーオーディオシステム 12 …マイクロコンピュータ 14 …オーディオ部 16 …ステレオ音源 30 …音声入力スイッチ 31 …LED 32 …マイクロフォン 34 …フィルタバンク 36 …マルチプレクサ 38 …A/D変換器 42 …メモリ 42a …標準パターンテーブル 42c …音声バッファ 42d …時間テーブル 10 ... Car audio system 12 ... Microcomputer 14 ... Audio part 16 ... Stereo sound source 30 ... Voice input switch 31 ... LED 32 ... Microphone 34 ... Filter bank 36 ... Multiplexer 38 ... A / D converter 42 ... Memory 42a ... Standard pattern table 42c ... voice buffer 42d ... time table
───────────────────────────────────────────────────── フロントページの続き (72)発明者 荒木 孝次 大阪府守口市京阪本通2丁目18番地 三洋 電機株式会社内 (72)発明者 出島 浩次 大阪府守口市京阪本通2丁目18番地 三洋 電機株式会社内 ─────────────────────────────────────────────────── ─── Continuation of the front page (72) Inventor Koji Araki 2-18 Keihan Hondori, Moriguchi City, Osaka Prefecture Sanyo Electric Co., Ltd. (72) Inventor Koji Dejima 2-18 Keihan Hondori, Moriguchi City, Osaka Sanyo Electric Co., Ltd. Within the corporation
Claims (4)
して音声パターンを作成するパターン作成手段、および
前記音声パターンと予め登録されている標準パターンと
を比較して認識する認識手段を備える音声認識装置にお
いて、 前記マイクロフォンからの音声入力を許容する入力時間
を設定する時間設定手段、および 前記時間設定手段によって設定された前記入力時間内に
前記認識手段によって音声が認識されたとき入力時間を
延長する延長手段をさらに備えることを特徴とする、音
声認識装置。1. A voice recognition device comprising pattern creating means for analyzing a voice input from a microphone to create a voice pattern, and recognition means for recognizing by comparing the voice pattern with a standard pattern registered in advance. In, a time setting means for setting an input time for allowing voice input from the microphone, and an extension for extending the input time when voice is recognized by the recognition means within the input time set by the time setting means. A voice recognition device, further comprising means.
して音声パターンを作成するパターン作成手段、複数の
音声パターンが標準パターンとして予め設定されている
標準パターン設定手段、前記パターン作成手段によって
作成された音声パターンを前記標準パターン設定手段に
設定されているそれぞれの標準パターンと比較して最も
大きい類似度を示す標準パターンを選択する選択手段、
および前記選択手段によって選択された標準パターンの
類似度が所定の閾値より大きいとき前記標準パターンに
よって前記音声を認識し、前記類似度が前記所定の閾値
よりも小さいときリジェクトする判定手段を備える音声
認識装置において、 前記判定手段によって同じ音声が複数回連続してリジェ
クトされたときその音声を認識結果とする手段をさらに
備えることを特徴とする、音声認識装置。2. A pattern creating means for analyzing a voice input from a microphone to create a voice pattern, a standard pattern setting means for presetting a plurality of voice patterns as a standard pattern, and a pattern creating means. Selecting means for comparing the voice pattern with each of the standard patterns set in the standard pattern setting means and selecting the standard pattern showing the highest degree of similarity;
And voice recognition provided with a judging means for recognizing the voice by the standard pattern when the similarity of the standard pattern selected by the selecting means is larger than a predetermined threshold value and rejecting when the similarity degree is smaller than the predetermined threshold value. The speech recognition apparatus, further comprising means for, when the same speech is rejected a plurality of times in succession by the determination means, using the speech as a recognition result.
して音声パターンを作成するパターン作成手段、複数の
音声パターンが標準パターンとして予め設定されている
標準パターン設定手段、前記パターン作成手段によって
作成された音声パターンを前記標準パターン設定手段に
設定されているそれぞれの標準パターンと比較して最も
大きい類似度を示す標準パターンを選択する選択手段、
および前記選択手段によって選択された標準パターンの
類似度が所定の閾値より大きいとき前記標準パターンに
よって前記音声を認識し、前記類似度が前記所定の閾値
よりも小さいときリジェクトする判定手段を備える音声
認識装置において、 前記選択された標準パターンが識別対象外のものである
とき前記判定手段からの認識結果の出力を停止する手段
をさらに備えることを特徴とする、音声認識装置。3. A pattern creating means for analyzing a voice input from a microphone to create a voice pattern, a standard pattern setting means for presetting a plurality of voice patterns as a standard pattern, and a pattern creating means. Selecting means for comparing the voice pattern with each of the standard patterns set in the standard pattern setting means and selecting the standard pattern showing the highest degree of similarity;
And voice recognition provided with a judging means for recognizing the voice by the standard pattern when the similarity of the standard pattern selected by the selecting means is larger than a predetermined threshold value and rejecting when the similarity degree is smaller than the predetermined threshold value. The voice recognition device, further comprising means for stopping the output of the recognition result from the determination means when the selected standard pattern is out of the identification target.
して得られる音声パターンを標準パターンとして予め登
録しておく音声認識装置において、 1つの項目について異なるモードで異なる音声の標準パ
ターンを登録するとき登録すべきモードを知らせる表示
手段をさらに備えることを特徴とする、音声認識装置。4. A voice recognition device in which a voice pattern obtained by analyzing a voice input from a microphone is registered in advance as a standard pattern. When registering different voice standard patterns in different modes for one item, registration is performed. The voice recognition device, further comprising display means for indicating a mode to be performed.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3197542A JP3005330B2 (en) | 1991-08-07 | 1991-08-07 | Voice recognition device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3197542A JP3005330B2 (en) | 1991-08-07 | 1991-08-07 | Voice recognition device |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0540498A true JPH0540498A (en) | 1993-02-19 |
JP3005330B2 JP3005330B2 (en) | 2000-01-31 |
Family
ID=16376215
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP3197542A Expired - Fee Related JP3005330B2 (en) | 1991-08-07 | 1991-08-07 | Voice recognition device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3005330B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001154694A (en) * | 1999-09-13 | 2001-06-08 | Matsushita Electric Ind Co Ltd | Voice recognition device and method |
JPWO2007111197A1 (en) * | 2006-03-24 | 2009-08-13 | パイオニア株式会社 | Speaker model registration apparatus and method in speaker recognition system, and computer program |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS56121100A (en) * | 1980-02-29 | 1981-09-22 | Nissan Motor | Voice identification driving device |
JPS57127388A (en) * | 1981-01-30 | 1982-08-07 | Toshiba Corp | Voice remote controller |
JPS5870283A (en) * | 1981-10-22 | 1983-04-26 | 日産自動車株式会社 | Voice recognition equipment for vehicle |
JPS59107395A (en) * | 1982-12-13 | 1984-06-21 | 三菱自動車工業株式会社 | Registration type voice recognition equipment |
JPS59185394A (en) * | 1983-04-05 | 1984-10-20 | 松下電器産業株式会社 | Voice recognition equipment |
JPS61189635U (en) * | 1985-05-16 | 1986-11-26 | ||
JPH04260100A (en) * | 1991-02-15 | 1992-09-16 | Toshiba Corp | Voice recognizing device |
-
1991
- 1991-08-07 JP JP3197542A patent/JP3005330B2/en not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS56121100A (en) * | 1980-02-29 | 1981-09-22 | Nissan Motor | Voice identification driving device |
JPS57127388A (en) * | 1981-01-30 | 1982-08-07 | Toshiba Corp | Voice remote controller |
JPS5870283A (en) * | 1981-10-22 | 1983-04-26 | 日産自動車株式会社 | Voice recognition equipment for vehicle |
JPS59107395A (en) * | 1982-12-13 | 1984-06-21 | 三菱自動車工業株式会社 | Registration type voice recognition equipment |
JPS59185394A (en) * | 1983-04-05 | 1984-10-20 | 松下電器産業株式会社 | Voice recognition equipment |
JPS61189635U (en) * | 1985-05-16 | 1986-11-26 | ||
JPH04260100A (en) * | 1991-02-15 | 1992-09-16 | Toshiba Corp | Voice recognizing device |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001154694A (en) * | 1999-09-13 | 2001-06-08 | Matsushita Electric Ind Co Ltd | Voice recognition device and method |
JPWO2007111197A1 (en) * | 2006-03-24 | 2009-08-13 | パイオニア株式会社 | Speaker model registration apparatus and method in speaker recognition system, and computer program |
Also Published As
Publication number | Publication date |
---|---|
JP3005330B2 (en) | 2000-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6011854A (en) | Automatic recognition of audio information in a broadcast program | |
JPH04204700A (en) | Speech recognition device | |
DE60217444T2 (en) | Voice-controlled electronic device | |
JP4155383B2 (en) | Voice recognition device operation device | |
US20190339928A1 (en) | Method and system for assisting aircraft piloting | |
JPH1152976A (en) | Voice recognition device | |
JP3005330B2 (en) | Voice recognition device | |
WO2004012422A2 (en) | Voice controlled system and method | |
JPH0592788A (en) | Motorcycle with voice recognition function | |
JP3530035B2 (en) | Sound recognition device | |
EP1065652B1 (en) | Voice-based manipulation method and apparatus | |
JP2003195890A (en) | Speech operating device | |
JPH05249989A (en) | Voice recognition control device | |
JP3088838B2 (en) | Music detection circuit and audio signal input device using the circuit | |
JP2754960B2 (en) | Voice recognition device | |
JPS59117610A (en) | Controller for device mounted on vehicle | |
JPH0451376B2 (en) | ||
JP2001222291A (en) | Controller using voice recognition device | |
JP2007043356A (en) | Device and method for automatic sound volume control | |
JPH08305391A (en) | Voice processing device | |
WO1992000586A1 (en) | Keyword-based speaker selection | |
JPH0247753B2 (en) | ||
GB2371669A (en) | Control of apparatus by artificial speech recognition | |
JPH0619492A (en) | Speech recognizing device | |
JP2001337687A (en) | Voice operating device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 19991026 |
|
LAPS | Cancellation because of no payment of annual fees |