【発明の詳細な説明】
【産業上の利用分野]
この発明11、音声を認識してその認識結果に基づいて
各か雪の処理をするものであり、特に、騒音レベルの高
い車載用の音声2FjA ’ft 社の入力方式に関す
るものである。
【従来の技術】
近年、音声認識の技術も高まり実用の段階を迎えている
。そして、種々な装置にその技術が石y11され商品化
されてきている。たとえば、発声に応答して時刻を表示
し、また電話番号を表示するものがある。
また串の各Fill器の操作に音声認識技術を用いるこ
とが考えられている。これによれば車の運転中に前方よ
り視線をそらすこともなく、又手足を用いることもなく
aXの操作を行うことができるので、運転も安全であり
運転する人もきわめて楽である。
1発明が解決しようとする3題J
しかしながら、騒音の多い場所や環境においては操作者
の発声等を認識しないことが多く、すなわち騒音下にお
いては棒端に認識率が低下するという問題があった。し
たがって、認識装置が所定の音iffを認識するまで同
じ発声を何度も祿り返えさなくてはならず、大変煩わし
いものになっていた。
そして#1を社用の装置に対して、音声2彊を確実に行
うためには、音声認識部に音声入力を確実に行わせなけ
ればならない。
一方、車両の走行中は、車室内は比較的静寂とはいえ、
路面とタイヤの間から発−生する音や、風きり音などの
いわゆる走行音があり、必ずしも静かとはいえない、し
かも、この走行音は一定ではなく、走行状態によって程
々変化する。
このような騒音状態の下で、音声入力をより確実にしな
くてはならないという問題があった。
これに対して従来は、車室内の!%I音レベルが高い場
合は、騒音の大小により入力回路の増幅部の増幅度を変
化させる。
あるいは、手持ち式のマイクを準備し、入力時はそのマ
イクを口もとに十分近付けて入力する方式ここで、前者
の増幅度を変化させる方式は、音声の入力レベルも変化
するので期待する効果は少ない、又、手持ち式マイクを
用いる方式は、音声の入力に際しマイクを持つために運
転中視線をそらし、又手を動かすことが必要であること
から、危険であり不便である。
そこでこの発明は、これら従来の問題点に鑑みてなされ
たもので、騒音下であっても認−率を高めることを課題
としている。
1課題を解決するための手段l
すなわちこの発明は、中室内で音声認識装置に語源させ
る音声を入力し予め入力されている標準パターンとの比
較により車載の機器を動作させるものにおいて、音声の
入力に際し音声入力される直前の周囲騒音レベルをもと
にして、音声の特徴抽出のための音In入力時における
しきい値のレベルを変化させるようにしたものである。
[作 1111
この発明は、上記のような構成により?¥声2識で特定
のtp詰を特定の話者が発声し、それを標準パターンと
して記録におき、次に音声が入力されたとき、その音声
パターンと先に記録されている枕準パターンとを比較し
近似の程度をしらべ同一語か否かを判別している。そし
て、走行音等の騒音がマイクを通して入ってきている場
合、そのレベルに応じて、入力波彩のしきい値以下をカ
プトする。これは正規の1021信号に騒音がmuされ
ているのて、この騒音レベルに応じた分を差し引いてほ
ぼ正規の音声信号にしようとするものである。
その結果、第1図の(a)図が(b)図のようになるが
、特徴となる部分は抽出されているので標準パターン(
C)との比較は可能である。もちろん、走行音その他の
騒音レベルが極めて高(、入力スべきぎ声がマスクされ
るような場合、または特徴を抽出することが困難な場合
は、本来の目的である認=が不可能になるので、そのレ
ベルまてはしきい値を上げることができないことは当然
である。
【実施例]
つぎに、実施例に従うて詳細に説明する。
入力された音声パターンをあらかじめ記憶されている標
準パターンと比較するということは、2つのパターンの
整合であり、どれだけパターンが似ているかということ
を判断することである。
そして、パターンは1ffi(111X3)の特徴を示
している。
例えば第2図において、この図は一例であるが、時間軸
tに対して音のレベルを示す山が2つある。
ここでの9徴は、時間軸に対する山の位置12つの山の
差、1である。これらの特徴をとり出せる範囲で、しき
い値を変化させることは、!!識に対してiり能である
。
第3v4は、この発明による音声認識装置をしめしてい
るが、この図において、lは音声を入力するマイクであ
り、増幅R2にrM続されている。この増幅部2の出力
は、分析!$3およびマイクロコンピュータ(C10)
4とに入力されており、これらの出力は共に特徴抽出部
5に入力される。この特徴抽出部5の出力は、予め抽出
されている標準パターンを記録している記憶部6の出力
と共に認識部7に入力されている。
次に以上の構成による動作を説明する。
第4図において説明する。第3図の音声認識5N置は常
に作動状態、すなわち電源の入った状態にしてお(。
走行音、および車内の騒音等のレベルは共に常時マイク
lを通して入力されるが、その後音声および騒音とも増
幅部2により増幅される。この騒音の入力レベルが検出
部により検出され、その入力レベルはマイクロコンピュ
ータ4で読みとられ、しきい値を変化させる。
一方、周波数を分析する周波数分析部3に入力された増
幅1’l13からの音声出力は、マイクロコンピュータ
4の設定しきい値に応じて特徴抽出部5によりその特徴
を抽出して認識部7に(3号として出力するe4識部7
では、この信号と、予め記憶部6に記憶されている音声
の標準パターンと比較することにより認識する。すなわ
ち、共通点や類似点の度合いにより標準パターンとの整
合性をみて、この度合いが所定のレベルを越えていれば
、その標準パターンの音声と認識する。そして、操作す
べき装置に信号として出力するわけである。
1発明の効果]
このように、この発明の方式により入力することにより
、車の室内等の種々な騒音下においても、同上発声を何
度も縁り返えさなくてはならないというような珀わしさ
もな(、高い認識・ドの音1!l認諜ができるので、中
桟の各種機器の音声による操作をffl Qlにするこ
とができる。
4、図面のL!?l litな説明
第1図は、本発明の入力波射と標準パターンとを説明す
る図であり、第2図は特徴抽出の説明図であり、第3図
はこの発明のブロック図、第4図この発明のフローチャ
ート図である。
!・・・・・・マイク、 3・・・・・・周波数分析
部、4・・・・・・マイクロコンピユータ、5・・・・
・・特徴抽出部、 6・・・・・・記憶部、7・・
・・・・認識部。
特りn出願人
株式会社ニーシン
m:hxa
味
第2WJ
t−
一共々
m−に歳
第3図[Detailed Description of the Invention] [Industrial Application Field] This invention 11 recognizes voices and processes snow based on the recognition results, especially for in-vehicle voices with high noise levels. 2FjA 'ft Company's input method. [Background Art] In recent years, voice recognition technology has improved and is now at the stage of practical use. This technology has been applied to various devices and commercialized. For example, some devices display the time and also display a telephone number in response to vocalizations. It is also being considered to use voice recognition technology to operate each filler on a skewer. According to this, it is possible to operate the aX without looking away from the front while driving the car, and without using hands or feet, so driving is safe and extremely comfortable for the driver. 1. 3 problems that the invention aims to solveJ However, in noisy places or environments, the operator's utterances are often not recognized, and in other words, there is a problem that the recognition rate for the end of the rod decreases under noisy conditions. . Therefore, the same utterance has to be repeated many times until the recognition device recognizes the predetermined sound iff, which is very troublesome. In order to reliably perform voice input #1 to a corporate device, it is necessary to ensure that the voice recognition section performs voice input. On the other hand, while the vehicle is running, although the interior of the vehicle is relatively quiet,
There are so-called running noises such as sounds generated between the road surface and the tires and wind noise, and it is not necessarily quiet.Furthermore, this running noise is not constant and varies depending on the driving conditions. There is a problem in that voice input must be made more reliable under such noisy conditions. In contrast, conventionally, inside the vehicle! %I When the sound level is high, the amplification degree of the amplification section of the input circuit is changed depending on the level of noise. Alternatively, prepare a hand-held microphone and hold the microphone close enough to your mouth when inputting.The former method of changing the amplification level also changes the audio input level, so the expected effect is small. Furthermore, the method of using a hand-held microphone is dangerous and inconvenient because it is necessary to avert one's line of sight while driving and move one's hands in order to hold the microphone when inputting voice. The present invention was made in view of these conventional problems, and an object of the present invention is to increase the recognition rate even under noisy conditions. Means for Solving the Problems 1 That is, the present invention operates in-vehicle equipment by inputting a voice to be used as an etymology into a voice recognition device in a middle room and comparing it with a standard pattern that has been inputted in advance. The threshold level at the time of inputting the sound In for voice feature extraction is changed based on the ambient noise level immediately before the voice is input. [Creation 1111 Is this invention based on the above configuration? In ¥ Voice 2 Knowledge, a specific speaker utters a specific tpzume, records it as a standard pattern, and when the next voice is input, that voice pattern is matched with the previously recorded pillow pattern. It compares the words to determine the degree of approximation and determines whether they are the same word or not. If noise such as running noise is coming in through the microphone, the input waveforms below the threshold are captured depending on the level. This is because noise is muted to the regular 1021 signal, and an amount corresponding to the noise level is subtracted to make it a substantially regular audio signal. As a result, (a) in Figure 1 becomes as shown in (b), but since the characteristic parts have been extracted, the standard pattern (
Comparison with C) is possible. Of course, if the level of driving noise or other noise is extremely high (such as when input noise is masked, or if it is difficult to extract features), the original purpose of recognition becomes impossible. Therefore, it is natural that the threshold value cannot be raised to that level. [Example] Next, a detailed explanation will be given according to an example. To compare two patterns is to judge how similar the two patterns are.Then, the pattern shows the characteristics of 1ffi (111X3).For example, Fig. 2 In this figure, although this figure is an example, there are two peaks indicating the sound level with respect to the time axis t.The nine signs here are 1, which is the difference between the positions of the 12 peaks with respect to the time axis. Changing the threshold value within a range that allows these features to be taken out is very useful for human intelligence. Section 3v4 shows the speech recognition device according to the present invention, and in this figure, 1 is a microphone for inputting audio, and is connected to amplifier R2.The output of this amplifier 2 is analyzed!$3 and a microcomputer (C10).
4, and both outputs are input to the feature extraction unit 5. The output of the feature extraction section 5 is input to the recognition section 7 together with the output of the storage section 6 which records standard patterns extracted in advance. Next, the operation of the above configuration will be explained. This will be explained in FIG. The voice recognition position 5N in Figure 3 is always in the operating state, that is, the power is turned on. The input level of this noise is amplified by the amplifier section 2.The input level of this noise is detected by the detection section, and the input level is read by the microcomputer 4 to change the threshold value. The audio output from the input amplification 1'l13 is extracted by the feature extractor 5 according to the set threshold value of the microcomputer 4 and sent to the recognition unit 7 (e4 recognition unit 7 which outputs it as No. 3).
Then, recognition is performed by comparing this signal with a standard sound pattern stored in the storage section 6 in advance. That is, consistency with a standard pattern is checked based on the degree of commonality or similarity, and if this degree exceeds a predetermined level, the voice is recognized as that of the standard pattern. Then, it is output as a signal to the device to be operated. 1. Effects of the Invention] As described above, by inputting data using the method of the present invention, even in various noisy environments such as inside a car, the problem of having to repeat the same utterance many times can be avoided. Samona (, High recognition / C sound 1!L recognition is possible, so you can operate various devices on the middle bridge by voice. 4.L!?l lit explanation of the drawing 1st The figures are diagrams for explaining input wave radiation and standard patterns of the present invention, Figure 2 is a diagram for explaining feature extraction, Figure 3 is a block diagram of this invention, and Figure 4 is a flowchart diagram of this invention. !...Microphone, 3...Frequency analysis section, 4...Microcomputer, 5...
...Feature extraction unit, 6...Storage unit, 7...
...Recognition department. Especially n Applicant Nishin Co., Ltd. M: Hxa Aji No. 2 WJ t- Together with m- Years Figure 3