JP2005091611A - Information terminal, speech recognition server, and speech recognition system - Google Patents
Information terminal, speech recognition server, and speech recognition system Download PDFInfo
- Publication number
- JP2005091611A JP2005091611A JP2003323372A JP2003323372A JP2005091611A JP 2005091611 A JP2005091611 A JP 2005091611A JP 2003323372 A JP2003323372 A JP 2003323372A JP 2003323372 A JP2003323372 A JP 2003323372A JP 2005091611 A JP2005091611 A JP 2005091611A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- information terminal
- data
- determination unit
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Traffic Control Systems (AREA)
- Navigation (AREA)
Abstract
Description
この発明は、情報端末および音声認識サーバと、それらを用いた音声認識システムに関するものである。 The present invention relates to an information terminal, a voice recognition server, and a voice recognition system using them.
音声を入出力とする情報システムは、車載情報システムやホームネットワークシステムなどさまざまな分野で利用されている。音声を入出力とするシステムには、入力された音声データに含まれる雑音信号を除去し、音声データを正しく認識するための仕組みが備えられている。 Information systems that use voice as input and output are used in various fields such as in-vehicle information systems and home network systems. A system that uses voice as input / output includes a mechanism for removing a noise signal included in input voice data and correctly recognizing the voice data.
例えば、特許文献1に記載された従来の車載用音声認識装置は、話者用のマイクを介して得られた音声信号から、雑音集音用のマイクを介して得られた雑音信号を除去することにより、高いS/N比を得て音声認識率を上げている。 For example, the conventional in-vehicle voice recognition device described in Patent Document 1 removes a noise signal obtained through a noise collecting microphone from a voice signal obtained through a speaker microphone. Thus, a high S / N ratio is obtained and the speech recognition rate is increased.
また、特許文献2に記載された従来の音声対話型ナビゲーションシステムは、車載端末機と音声対話サーバ間で通話を行い、サーバ側で音声認識処理を行うものである。 In addition, the conventional voice interactive navigation system described in Patent Document 2 performs a call between an in-vehicle terminal and a voice interactive server, and performs voice recognition processing on the server side.
特許文献1に記載された車載用音声認識装置においては、車内外に様々な雑音発生の要因があるため、雑音を完全に除去することは難しい。 In the on-vehicle speech recognition apparatus described in Patent Document 1, it is difficult to completely remove noise because there are various causes of noise generation inside and outside the vehicle.
また、特許文献2に記載された音声対話型ナビゲーションシステムにおいては、サーバとの通信時間、認識処理時間により認識結果が出るまでに時間を要し、サーバで音声認識に失敗した場合にユーザの再入力操作とデータの再送が必要となるため、無駄な通信が発生して操作性が悪くなり、通信料金も高くなるという問題があった。 Further, in the voice interactive navigation system described in Patent Document 2, it takes time until the recognition result is obtained due to the communication time with the server and the recognition processing time. Since an input operation and data retransmission are required, there is a problem that wasteful communication occurs, operability is deteriorated, and a communication fee is increased.
この発明は上記のような課題を解決するためになされたもので、サーバ側で音声認識処理を行う場合に、サーバへ送信する音声データの信頼性を高め、無効なデータ通信を削減することが可能な情報端末を得ることを目的とする。
また、情報端末への無駄なデータ通信を削減することが可能な音声認識サーバを得ることを目的とする。
また、上記のような情報端末および音声認識サーバを用いた音声認識システムを得ることを目的とする。
The present invention has been made to solve the above-described problems. In the case where voice recognition processing is performed on the server side, it is possible to increase the reliability of voice data transmitted to the server and reduce invalid data communication. The purpose is to obtain possible information terminals.
It is another object of the present invention to provide a voice recognition server that can reduce useless data communication with an information terminal.
It is another object of the present invention to obtain a voice recognition system using the information terminal and the voice recognition server as described above.
この発明に係る情報端末は、音声入力部を介して入力された音声データが、正しく音声認識されるかどうかを判断する判定部と、判定部において正しく音声認識されると判断された音声データのみを音声認識サーバに送信する通信部を備えたものである。 The information terminal according to the present invention includes a determination unit that determines whether or not the voice data input via the voice input unit is correctly recognized, and only the voice data that is determined to be correctly recognized by the determination unit. Is provided with a communication unit that transmits the message to the voice recognition server.
この発明に係る音声認識サーバは、情報端末から受信した音声データの音声認識を行う音声認識部と、音声認識部による認識結果を辞書データと比較し、認識結果の信頼度を出力する認識結果判定部と、信頼度がある閾値以上の場合には、受信した音声データに対する応答内容を持つ応答データを作成し、信頼度が閾値に達しない場合には、受信した音声データの認識結果が正しいかどうかを確認する内容の応答データを作成する応答データ作成部と、応答データ作成部で作成した応答データを情報端末へ送信する通信部を備えたものである。 A speech recognition server according to the present invention includes a speech recognition unit that performs speech recognition of speech data received from an information terminal, and a recognition result determination that compares a recognition result by the speech recognition unit with dictionary data and outputs a reliability of the recognition result. If the reliability is equal to or higher than a certain threshold, response data having response contents for the received voice data is created. If the reliability does not reach the threshold, whether the received voice data is recognized correctly A response data creating unit that creates response data having contents to be confirmed and a communication unit that transmits the response data created by the response data creating unit to the information terminal are provided.
この発明に係る音声認識システムは、情報端末が、判定部において、音声入力部を介して入力された音声データが音声認識サーバで正しく音声認識されるかどうか判断し、判定部において正しく音声認識されると判断された音声データのみを通信部を介して音声認識サーバに送信し、音声認識サーバが、音声認識部において、通信部を介して情報端末から受信した音声データの音声認識を行い、認識結果判定部において、音声認識部による認識結果を辞書データと比較することにより、認識結果の信頼度を出力し、信頼度がある閾値以上の場合には、応答データ作成部において、受信した音声データに対する応答内容を持つ応答データを作成し、信頼度が閾値に達しない場合には、受信した音声データの認識結果が正しいかどうかを確認する内容の応答データを作成し、応答データを通信部を介して情報端末へ送信するものである。 In the speech recognition system according to the present invention, the information terminal determines whether the speech data input via the speech input unit is correctly recognized by the speech recognition server in the determination unit, and is correctly recognized by the determination unit. Only the voice data determined to be transmitted to the voice recognition server via the communication unit, and the voice recognition server performs voice recognition of the voice data received from the information terminal via the communication unit and recognizes In the result determination unit, the recognition result by the speech recognition unit is compared with dictionary data to output the reliability of the recognition result. If the reliability is greater than a certain threshold, the response data creation unit receives the received speech data Create response data with the response contents for, and if the reliability does not reach the threshold, check whether the recognition result of the received voice data is correct Creates a response data capacity, and transmits via the communication unit the response data to the information terminal.
この発明によれば、情報端末において、入力された音声データ自身の雑音量を判定すると共に、様々な雑音発生の原因となる要素の情報に基づいて音声データの認識可能性を判断し、認識可能と判断した音声データのみを音声認識サーバへ送信するようにしたので、音声認識サーバでの音声認識の失敗をできるだけ排除し、無駄な通信を減らすことができるという効果がある。 According to the present invention, in the information terminal, the noise amount of the input voice data itself is determined, and the recognizability of the voice data is determined based on the information of the elements that cause various noises. Since only the voice data determined to be transmitted to the voice recognition server is transmitted, it is possible to eliminate as much as possible voice recognition failure in the voice recognition server and reduce useless communication.
この発明によれば、音声認識サーバにおいて、音声認識が成功したと判断したときは、情報端末へ送信データに対する応答内容を含む応答データを送信し、音声認識が失敗したと判断したときは、情報端末に対して送信データの内容を確認する内容の応答データを送信するようにしたので、音声認識サーバからの無駄なデータの送信を避けることができる。 According to the present invention, when the voice recognition server determines that the voice recognition is successful, the response data including the response content to the transmission data is transmitted to the information terminal, and when it is determined that the voice recognition has failed, the information Since the response data having the content for confirming the content of the transmission data is transmitted to the terminal, it is possible to avoid unnecessary data transmission from the voice recognition server.
この発明によれば、情報端末において、入力された音声データ自身の雑音量および様々な雑音発生の原因となる要素の情報に基づいて音声データの認識可能性を判断し、認識可能と判断した音声データのみを音声認識サーバへ送信し、音声認識サーバは、受信した音声データの音声認識が成功したと判断したときは、情報端末へ送信データに対する応答内容を含む応答データを送信し、音声認識が失敗したと判断したときは、情報端末に対して送信データの内容を確認する内容の応答データを送信するようにしたので、無効なデータ通信を減らすとともに、ユーザの操作効率を向上させることが可能な音声認識システムが得られる。 According to the present invention, the information terminal determines the recognizability of the sound data based on the noise amount of the input sound data itself and the information of the elements that cause various noises, and the sound that is determined to be recognizable When only the data is transmitted to the voice recognition server and the voice recognition server determines that the voice recognition of the received voice data is successful, the voice recognition server transmits response data including a response content to the transmission data to the information terminal. When it is determined that it has failed, response data with the content to confirm the content of the transmission data is transmitted to the information terminal, so that it is possible to reduce invalid data communication and improve user operation efficiency Voice recognition system can be obtained.
以下、この発明の実施の様々な形態を説明する。
実施の形態1.
図1は、この発明の実施の形態1による、車載用の音声認識システム100の構成を示すブロック図である。音声認識システム100は、車載情報機器(情報端末)200、および音声認識サーバ300を備えている。車載情報機器200および音声認識サーバ300は、無線通信回線を介して接続されている。
Hereinafter, various embodiments of the present invention will be described.
Embodiment 1 FIG.
FIG. 1 is a block diagram showing a configuration of an in-vehicle
車載情報機器200は、車両情報取得部201、ノイズ量判断部202、判定部(雑音量判定部、判定部)203、閾値格納部204、音声入力部205、S/N比取得部206、音声データ判定部207、音声出力部208、制御部209、通信部210、認識結果判定部211、判定条件学習部212を備える。また、車載情報機器200は、音声入力部205を介して車内情報端末のマイク11と、音声出力部208を介してスピーカー10と接続されている。また、車両情報取得部201を介して、車速計12、窓の開閉装置13、ワイパー駆動装置14、ウィンカー15、カーナビゲーション装置16、および車内オーディオ機器17、車内空調機18と接続されている。また、制御部209は、車載情報機器200全体を制御している。
The in-
車両情報取得部201、ノイズ量判断部202、判定部203、閾値格納部204、音声入力部205、S/N比取得部206、音声データ判定部207、音声出力部208、制御部209、通信部210、認識結果判定部211、および判定条件学習部212は、車載情報機器200の中央演算処理装置の部分を構成するものであり、これらは、車載情報機器200の中央演算処理装置の動作を制御するプログラムのモジュールに対応している。
Vehicle
音声認識サーバ300は、通信部301、制御部302、音声認識部303、認識結果判定部304、応答データ作成部305を備える。また、音声認識サーバ300には、認識辞書記憶部306が接続されている。認識辞書記憶部306は、認識辞書データベースを格納した記憶装置である。また、制御部302は、音声認識サーバ300全体を制御している。
The
通信部301、制御部302、音声認識部303、認識結果判定部304、および応答データ作成部305は、音声認識サーバ300の中央演算処理装置の部分を構成するものであり、これらは、音声認識サーバ300の中央演算処理装置の動作を制御するプログラムのモジュールに対応している。
The
次に、動作について説明する。
図2は、実施の形態1による車載情報機器200による音声認識処理のフローチャートである。
音声入力処理が開始されると、マイク11を介してユーザによる発話音声が取得され(ステップST101)、音声入力部205に音声データが入力される(ステップST102)。
Next, the operation will be described.
FIG. 2 is a flowchart of voice recognition processing by the in-
When the voice input process is started, the voice spoken by the user is acquired via the microphone 11 (step ST101), and voice data is input to the voice input unit 205 (step ST102).
次に、S/N比取得部206により、入力された音声データのS/N比(N)が取得される(ステップST103)。S/N比(N)は、車載情報機器200が取得した音声入力処理開始直前の周囲の雑音信号と、ステップST102で入力された音声信号を比較することにより算出される。
Next, the S / N
次に、音声データ判定部207により、ステップST103で取得されたS/N比(N)と閾値(N0)が比較される(ステップST104)。ステップST104でS/N比(N)が閾値(N0)以上であると判定された場合には、入力された音声データはノイズが多く誤認識が発生しやすいと判断され、スピーカー10等を介してユーザに再入力を促す。
Next, the audio
ステップST104でS/N比(N)が閾値(N0)より小さいと判定された場合には、車両情報取得部201により、車両内で、ノイズの発生原因となる様々な要素についての情報を取得する(ステップST105)。
例えば、車速計12からは走行速度を取得する。また、窓の開閉装置13からは窓の開閉状態を取得する。窓の開閉状態については、窓が開いているか閉まっているか、開いている場合はどの程度開いているかという情報を取得する。また、ワイパー駆動装置14からは、ワイパーが動いているか停止しているか、動いている場合にはどの程度の速さで動いているかという情報を取得する。また、ウィンカー15からは、ウィンカーが作動しているか停止しているかの情報を取得する。カーナビゲーション装置16からは、現在、すなわち音声データ入力時の走行地点に関する情報を取得する。走行地点に関する情報としては、例えば、走行している道路の状態、すなわち舗装されているか否か等、すぐ近くに工事現場があるかといった情報を取得する。車内オーディオ機器17からは、使用中であれば、設定されている音量を取得する。車内空調機18からは、空調機が稼動中であれば設定されている送風量を取得する。
When it is determined in step ST104 that the S / N ratio (N) is smaller than the threshold value (N0), the vehicle
For example, the traveling speed is acquired from the
ノイズ量判断部202は、車両情報取得部201により取得されたノイズ発生原因となる様々な要素についての情報に基づいて、各々の要素についてのノイズ量の判定値Sを取得する(ステップST105)。判定値Sは、ノイズ量判断部202で取得した走行速度等をそのまま利用してもよいし、窓の開閉状態やワイパーの動作状態等を複数の段階に分けて点数化してもよい。例えば、窓の開閉状態については、閉まっていれば0点、開いている部分が半分以下ならば1点、半分以上開いていれば2点、全開ならば3点というように設定してもよい。同様に、ワイパーについても、停止していれば0点、最も遅い設定の速度で動いていれば1点、中間の速度なら2点、最も速い速度なら3点というように設定してもよい。
The noise
次に、判定部203は、ステップST105で得られたノイズ量の判定値Sを取得すると共に、閾値格納部204から各々の要素についてのノイズ量の閾値S0を取得する(ステップST106)。
Next, the
図3は、閾値格納部204に格納されたノイズ量の閾値S0の設定方法を説明する図である。ここでは、車両内でノイズの発生原因となる要素として車両の走行速度を例に取り説明する。
閾値格納部204は、予め定められた認識率またはノイズ量の限界値に従って得られる閾値S0を保持する。図に示す例では、音声の認識率が50%以上かどうかを音声認識サーバ300へ送信するか否かの限界値Aとして定めており、この場合、音声認識率が50%となる80km/hが走行速度の閾値S0となる。
走行速度のほか、窓の開閉状態、加速度状態、オーディオの音量状態、ワイパーの動作状態、ウィンカーの動作状態、エアコンの送風量状態、走行地点の状態といった他の要素についても、同様に限界値Aを満たす値を閾値S0とする。
FIG. 3 is a diagram for explaining a method of setting the noise amount threshold value S0 stored in the threshold
The threshold
In addition to the traveling speed, the limit value A is similarly applied to other factors such as the opening / closing state of the window, the acceleration state, the audio volume state, the wiper operation state, the blinker operation state, the air conditioner air flow state, and the travel point state. A value satisfying the condition is defined as a threshold value S0.
また、ノイズ発生原因となる要素が複数ある場合、それらの条件を組み合わせた状態で認識率またはノイズ量の限界値を満たすような閾値S0を設定するようにすれば、より適切な閾値S0を得ることができる。図4には、走行速度と窓の開閉状態を組み合わせた場合の走行速度の閾値S0の設定方法の例を示している。図に示すように、窓が閉まっている状態では走行速度の閾値S0は80km/hであるが、窓が半分開いた状態、さらに全開の状態では、認識率の限界値50%を満たす走行速度の閾値S0は、70km/h、65km/hとなる。 Further, when there are a plurality of elements that cause noise generation, a more appropriate threshold value S0 can be obtained by setting a threshold value S0 that satisfies the recognition rate or the noise amount limit value in a state in which these conditions are combined. be able to. FIG. 4 shows an example of a method for setting the threshold value S0 of the traveling speed when the traveling speed and the window open / closed state are combined. As shown in the figure, the running speed threshold S0 is 80 km / h when the window is closed, but the running speed that satisfies the recognition rate limit value of 50% when the window is half open and further fully opened. The threshold value S0 is 70 km / h and 65 km / h.
判定部203は、各々のノイズ発生原因となる要素について、判定値Sと閾値S0を比較する(ステップST107)。
ステップST107で、判定値Sが閾値S0以上であると判定された場合には、入力された音声データはノイズ量が多く誤認識が発生しやすいと判断され、音声認識サーバ300に音声データを送信せず、ユーザに再入力を促す。図3の例を用いて説明すると、ステップST105で取得した車両の走行速度が80km/h以上の場合には、音声認識サーバ300に音声データを送信せず、ユーザに再入力を促す。
The
If it is determined in step ST107 that the determination value S is greater than or equal to the threshold value S0, it is determined that the input voice data has a large amount of noise and misrecognition is likely to occur, and the voice data is transmitted to the
ステップST107で判定値Sが閾値S0より小さいと判定された場合には、通信部210により、音声データが音声認識サーバ300に送信される(ステップST108)。図3の例を用いて説明すると、例えば、ステップST105で取得した車両の走行速度が60km/hであれば、閾値の80km/hよりも小さいため、音声データを音声認識サーバ300に送信する。
If it is determined in step ST107 that the determination value S is smaller than the threshold value S0, the
音声認識サーバ300において後述する音声認識処理が行われ、音声認識サーバ300から応答データが通知されると、通信部210において応答データを受信する(ステップST109)。
When the voice recognition process described later is performed in the
認識結果判定部211において、受信した応答データの内容を判断し、音声認識サーバ300において音声認識が正しく行われたかどうかを判定する(ステップST110)。
ステップST110で、音声認識サーバ300による音声認識が成功したと判定された場合には、判定条件学習部212は閾値格納部204に格納された閾値S0の値を上げる(ステップST111)。一方、ステップST110で、音声認識が失敗したと判定された場合には、閾値S0の値を下げる(ステップST112)。
The recognition
If it is determined in step ST110 that the speech recognition by the
判定条件学習部212は、音声認識サーバ300での音声認識が成功したか失敗したかに基づいて、閾値格納部204に保持された各々の車両状態についての閾値S0を更新する。例えば、図3の例で、走行速度の閾値S0を80km/hを設定していたが、音声認識サーバ300での音声認識が失敗した場合には、閾値S0を60km/hに下げる。これにより、音声認識サーバ300へ音声データを送信するか否かの判定条件が厳しくなり、より信頼度の高い音声データのみを音声認識サーバ300へ送信するようにすることができる。
The determination
次に、音声認識サーバ300の動作について説明する。
図5は、実施の形態1による音声認識サーバ300による音声認識処理のフローチャートである。
通信部301で、車載情報機器200がステップST108で送信した音声データを受信する(ステップST201)。
Next, the operation of the
FIG. 5 is a flowchart of voice recognition processing by the
The
次に、音声認識部303において、認識辞書記憶部306に格納された辞書データを基に受信した音声データの音声認識処理を行う(ステップST202)。
Next, the
次に、認識結果判定部304は、ステップST202で行われた音声認識の結果が、認識辞書記憶部306に格納された辞書データとどの程度一致したかを表す結果のスコアs(信頼度)を出力する(ステップST203)。
Next, the recognition
次に、ステップST203で取得したスコアsと、予め設定されたスコアの閾値s0を比較する(ステップST204)。
ステップST204で、スコアsが閾値s0以上であると判定された場合には、誤認識である可能性が高いと判断され、応答データ作成部305は、ユーザに音声認識結果が正しいか否かを確認する内容の応答データを作成する(ステップST206)。
一方、ステップST204で、スコアsが閾値s0より小さいと判定された場合には、音声認識が成功している可能性が高いと判断され、認識結果に基づいて、それに対する応答内容を含む応答データを作成する(ステップST205)。
Next, the score s acquired in step ST203 is compared with a preset score threshold s0 (step ST204).
If it is determined in step ST204 that the score s is greater than or equal to the threshold value s0, it is determined that there is a high possibility of misrecognition, and the response
On the other hand, if it is determined in step ST204 that the score s is smaller than the threshold value s0, it is determined that there is a high possibility that the speech recognition is successful, and the response data including the response content for the recognition based on the recognition result. Is created (step ST205).
次に、通信部301により、ステップST205またはステップST206で作成された応答データが車載情報機器200に送信される(ステップST207)。送信した応答データは、車載情報機器200がステップST109で受信する。車載情報機器200の認識結果判定部211は、ステップST110で、受信した応答データの内容に基づいて音声認識サーバ300での音声認識が成功したか失敗したかを判定する。
Next, the
図6と図7を用いて、実施の形態1による、車載情報機器200と音声認識サーバ300間での音声認識処理の流れを説明する。図6は、音声認識サーバ300において、ステップST204で音声認識結果のスコアsが閾値s0より小さかった場合、すなわち音声認識が成功したと判断された場合のシーケンスを示している。例えば、車載情報機器200から音声認識サーバ300に「近くのラーメン屋」という内容の音声データを送信した場合、音声認識サーバ300で認識結果のスコアsが閾値s0より小さいと判断されれば、音声認識サーバ300は送信された音声データの要求に答えて、ラーメン屋を検索し、検索結果のラーメン屋リストを応答データとして車載情報機器200に送信する。車載情報機器200の音声出力部208は、スピーカー10を介して受信した応答データを出力する。また、この時、音声認識サーバ300での音声認識が成功しているので、車載情報機器200の判定条件学習部212は、閾値格納部204に格納された閾値S0の値を上げる。
The flow of voice recognition processing between the in-
一方、図7は、音声認識サーバ300において、ステップST204で音声認識結果のスコアsが閾値s0以上であった場合、すなわち音声認識が失敗したと判断された場合のシーケンスを示している。この場合には、音声認識サーバ300が音声データの内容を誤って認識している可能性があるため、車載情報機器200の「近くのラーメン屋」という音声に対し、応答データ作成部305は、例えば「近くのラーメン屋ですか?」といった確認のための応答データを作成し、車載情報機器200に送信する。車載情報機器200の音声出力部208は、スピーカー10を介して受信した応答データを出力する。ユーザが出力された音声に対して、例えば「はい」と答えると、「はい」という内容の音声データが音声認識サーバ300に送信される。音声認識サーバ300は、「はい」という内容の音声データを確認して、検索結果のラーメン屋リストを車載情報機器200に送信する。これにより、ユーザが目的のデータを得るまでの通信手順を最小にできるとともに、誤認識による無駄な通信を避けることが可能となる。
On the other hand, FIG. 7 shows a sequence when the
以上のように、この実施の形態1によれば、車載情報機器200において、音声データ判定部207が入力された音声データ自身のノイズ量を判定すると共に、判定部203が様々なノイズ発生要因を総合して音声データの認識可能性を判断し、音声認識サーバ300への送信を制御するようにしたので、音声認識サーバ300での音声認識の失敗をできるだけ排除することが可能である。このため、無駄な通信を減らし、通信料金を削減することができる。また、誤認識の発生による無駄なユーザ操作も省くことができ、操作効率が向上する。
As described above, according to the first embodiment, in the in-
また、音声認識サーバ300は、音声認識が成功したと判断したときは、車載情報機器200へ送信データに対する応答内容を含む応答データを送信し、音声認識が失敗したと判断したときは、車載情報機器200に対して送信データの内容を確認する内容の応答データを送信するようにしたので、音声認識サーバ300からの無駄なデータの送信を避けることができる。
When the
さらに、車載情報機器200は、音声認識サーバ300から受信した応答データに基づいて認識結果判定部211で音声認識サーバ300での音声認識が成功したか失敗したかを判定し、成功した場合には閾値格納部204に格納された閾値の値を上げ、失敗した場合には閾値を下げるようにしたので、音声認識サーバ300へ送信する音声データの信頼性をより高めることができると共に、必要以上に送信する条件が厳しくなるのを防ぐことができる。
Furthermore, the in-
また、実施の形態1では、カーナビゲーション装置16の機能を利用して、走行地点の情報を取得し雑音量の判定に用いるようにしたので、カーナビゲーション装置16を有効に利用してより精度の高い音声認識システムを実現することができる。 In the first embodiment, the function of the car navigation device 16 is used to acquire travel point information and use it to determine the amount of noise. Therefore, the car navigation device 16 can be used effectively to achieve higher accuracy. A high voice recognition system can be realized.
実施の形態2.
図8は、この発明の実施の形態2による、ホームネットワーク上の音声認識システム500の構成を示すブロック図である。音声認識システム500は、ホームネットワーク900上の情報端末600、および音声認識サーバ700を備えている。情報端末600および音声認識サーバ700は、通信回線を介して接続されている。情報端末600および音声認識サーバ700の構成は、実施の形態1の車載情報機器200および音声認識サーバ300と同様である。
Embodiment 2. FIG.
FIG. 8 is a block diagram showing a configuration of a
情報端末600は、ホームネットワーク900のホームサーバ800に接続されている。ホームサーバ800には、例えばテレビ801、オーディオ機器802、洗濯機803、エアコン804、パソコン805が接続されており、ホームサーバ800は、これらの家屋内の電機機器や情報機器を一元管理している。
The
次に、実施の形態2による音声認識システム500の動作について説明する。
情報端末600および音声認識サーバ700の動作は、実施の形態1の図2および図5のフローチャートで示した動作と同様である。実施の形態2では、車載情報機器200の車両情報取得部201と同様の機能により、ホームサーバ800を介してノイズ発生原因となる要素に関する情報を取得する。それらの情報は、具体的にはテレビ801の音量情報、オーディオ機器802の音量情報、洗濯機803の稼動状態、エアコン804の送風量等である。ノイズ量判断部202は、取得した情報に基づいて各々のノイズ量判定値Sを出力する。判定部203は、ノイズ量判定値Sと閾値格納部204に保持されたそれぞれの要素の閾値S0とを比較し、音声認識サーバ700へ送信するか否かを決定する。
Next, the operation of the
The operations of
以上のように、この実施の形態2によれば、家屋内で情報端末600を用いて音声認識サーバ700と音声によるやり取りをする場合に、情報端末600がホームサーバ800を利用して家屋内で雑音発生の原因となる様々な電気機器の状態情報を収集し、音声データのノイズ量を判定して音声認識サーバ700への送信を制御するようにしたので、音声認識サーバ700での音声認識の失敗をできるだけ排除することができる。このため、無駄な通信を減らし、通信料金を削減することができる。また、誤認識の発生による無駄なユーザ操作も省くことができ、操作効率が向上する。
As described above, according to the second embodiment, when information is exchanged with the
なお、実施の形態2では、音声認識システム500のクライアントは情報端末600に実装されているが、例えば、テレビ801やパソコン805等の電機機器、またはホームサーバ800に実装されていてもよい。
In the second embodiment, the client of the
10 スピーカー、11 マイク、12 車速計、13 窓の開閉装置、14 ワイパー駆動装置、15 ウィンカー、16 カーナビゲーション装置、17 車内オーディオ機器、18 車内空調機、100,500 音声認識システム、200 車載情報機器(情報端末)、201 車両情報取得部、202 ノイズ量判断部、203 判定部(雑音量判定部、判定部)、204 閾値格納部、205 音声入力部、206 S/N比取得部、207 音声データ判定部(判定部)、208 音声出力部、209 制御部、210 通信部、211 認識結果判定部、212 判定条件学習部、300,700 音声認識サーバ、301 通信部、302 制御部、303 音声認識部、304 認識結果判定部、305 応答データ作成部、306 認識辞書記憶部、600 情報端末、800 ホームサーバ、、801 テレビ、802 オーディオ機器、803 洗濯機、804 エアコン、805 パソコン、900 ホームネットワーク。
DESCRIPTION OF
Claims (13)
上記判定部において正しく音声認識されると判断された音声データのみを音声認識サーバに送信する通信部を備えた情報端末。 A determination unit that determines whether or not the voice data input through the voice input unit is correctly recognized;
An information terminal including a communication unit that transmits only voice data that is determined to be correctly voice-recognized by the determination unit to a voice recognition server.
雑音発生の原因となる要素についての情報に基づいて、上記音声データの正しい音声認識が可能か判断する雑音量判定部を備えたことを特徴とする請求項1記載の情報端末。 The determination unit is a voice data determination unit that determines the reliability of the voice data itself based on the SN ratio between the input voice data and the ambient noise when the voice data is input;
The information terminal according to claim 1, further comprising a noise amount determination unit that determines whether correct voice recognition of the voice data is possible based on information about an element that causes noise generation.
上記認識結果判定部において正しく音声認識されたと判断された場合には、雑音量判定部で音声データを認識可能と判断する条件を緩くし、正しく音声認識されなかったと判断された場合には、上記判断する条件を厳しくする判定条件学習部を備えたことを特徴とする請求項2から請求項10のうちのいずれか1項記載の情報端末。 A recognition result determination unit that determines whether the voice data transmitted to the voice recognition server is correctly voice-recognized by the voice recognition server based on the content of the response data from the voice recognition server;
When it is determined that the speech recognition is correctly recognized by the recognition result determination unit, the condition for determining that the speech data can be recognized by the noise amount determination unit is relaxed, and when it is determined that the speech recognition is not correctly performed, The information terminal according to any one of claims 2 to 10, further comprising a determination condition learning unit that makes conditions for determination stricter.
上記音声認識部による認識結果を辞書データと比較し、上記認識結果の信頼度を出力する認識結果判定部と、
上記信頼度がある閾値以上の場合には、上記受信した音声データに対する応答内容を持つ応答データを作成し、上記信頼度が上記閾値に達しない場合には、上記受信した音声データの認識結果が正しいかどうかを確認する内容の応答データを作成する応答データ作成部と、
上記応答データ作成部で作成した応答データを上記情報端末へ送信する通信部を備えた音声認識サーバ。 A voice recognition unit that performs voice recognition of voice data received from the information terminal;
A recognition result determination unit that compares the recognition result by the voice recognition unit with dictionary data and outputs the reliability of the recognition result;
If the reliability is greater than or equal to a threshold value, response data having response contents to the received voice data is created. If the reliability does not reach the threshold value, the recognition result of the received voice data is A response data creation unit that creates response data with content to check whether it is correct,
A speech recognition server comprising a communication unit that transmits response data created by the response data creation unit to the information terminal.
上記情報端末は、判定部において、音声入力部を介して入力された音声データが上記音声認識サーバで正しく音声認識されるかどうか判断し、上記判定部において正しく音声認識されると判断された音声データのみを通信部を介して上記音声認識サーバに送信し、
上記音声認識サーバは、音声認識部において、通信部を介して上記情報端末から受信した音声データの音声認識を行い、認識結果判定部において、上記音声認識部による認識結果を辞書データと比較することにより、上記認識結果の信頼度を出力し、上記信頼度がある閾値以上の場合には、応答データ作成部において、上記受信した音声データに対する応答内容を持つ応答データを作成し、上記信頼度が上記閾値に達しない場合には、上記受信した音声データの認識結果が正しいかどうかを確認する内容の応答データを作成し、上記応答データを通信部を介して上記情報端末へ送信することを特徴とする音声認識システム。 A speech recognition system comprising a speech recognition server and an information terminal,
In the information terminal, the determination unit determines whether or not the voice data input via the voice input unit is correctly recognized by the speech recognition server, and the sound determined to be correctly recognized by the determination unit Send only data to the voice recognition server via the communication unit,
The voice recognition server performs voice recognition of voice data received from the information terminal via a communication unit in a voice recognition unit, and compares a recognition result by the voice recognition unit with dictionary data in a recognition result determination unit. To output the reliability of the recognition result, and when the reliability is equal to or greater than a certain threshold, the response data generating unit generates response data having response contents for the received voice data, and the reliability is When the threshold value is not reached, response data having a content for confirming whether or not the recognition result of the received voice data is correct is created, and the response data is transmitted to the information terminal via a communication unit. Voice recognition system.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003323372A JP4413564B2 (en) | 2003-09-16 | 2003-09-16 | Information terminal and voice recognition system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003323372A JP4413564B2 (en) | 2003-09-16 | 2003-09-16 | Information terminal and voice recognition system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005091611A true JP2005091611A (en) | 2005-04-07 |
JP4413564B2 JP4413564B2 (en) | 2010-02-10 |
Family
ID=34454471
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003323372A Expired - Fee Related JP4413564B2 (en) | 2003-09-16 | 2003-09-16 | Information terminal and voice recognition system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4413564B2 (en) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007263651A (en) * | 2006-03-28 | 2007-10-11 | Alpine Electronics Inc | On-vehicle navigation device and vehicle signal detection method |
JP2010091963A (en) * | 2008-10-10 | 2010-04-22 | Denso Corp | Speech recognition system and navigator |
JP2011170266A (en) * | 2010-02-22 | 2011-09-01 | Secom Co Ltd | Identification device and utterance detector |
JP2011227237A (en) * | 2010-04-19 | 2011-11-10 | Honda Motor Co Ltd | Communication robot |
JPWO2010128560A1 (en) * | 2009-05-08 | 2012-11-01 | パイオニア株式会社 | Speech recognition apparatus, speech recognition method, and speech recognition program |
EP2538404A1 (en) | 2011-06-22 | 2012-12-26 | Clarion Co., Ltd. | Voice data transferring device, terminal device, voice data transferring method, and voice recognition system |
JP2013068532A (en) * | 2011-09-22 | 2013-04-18 | Clarion Co Ltd | Information terminal, server device, search system, and search method |
JP2014065359A (en) * | 2012-09-25 | 2014-04-17 | Fujitsu Ten Ltd | Display control device, display system and display control method |
JP2016033530A (en) * | 2014-07-30 | 2016-03-10 | 株式会社東芝 | Utterance section detection device, voice processing system, utterance section detection method and program |
WO2016129276A1 (en) * | 2015-02-12 | 2016-08-18 | パナソニックIpマネジメント株式会社 | Information dissemination method, server, information terminal device, system, and voice interaction system |
JP2017050010A (en) * | 2013-02-20 | 2017-03-09 | 株式会社ソニー・インタラクティブエンタテインメント | Hybrid performance scaling or speech recognition |
JP2017102822A (en) * | 2015-12-04 | 2017-06-08 | クラリオン株式会社 | On-vehicle device and voice recognition system |
-
2003
- 2003-09-16 JP JP2003323372A patent/JP4413564B2/en not_active Expired - Fee Related
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007263651A (en) * | 2006-03-28 | 2007-10-11 | Alpine Electronics Inc | On-vehicle navigation device and vehicle signal detection method |
JP2010091963A (en) * | 2008-10-10 | 2010-04-22 | Denso Corp | Speech recognition system and navigator |
JPWO2010128560A1 (en) * | 2009-05-08 | 2012-11-01 | パイオニア株式会社 | Speech recognition apparatus, speech recognition method, and speech recognition program |
JP2011170266A (en) * | 2010-02-22 | 2011-09-01 | Secom Co Ltd | Identification device and utterance detector |
JP2011227237A (en) * | 2010-04-19 | 2011-11-10 | Honda Motor Co Ltd | Communication robot |
US8831939B2 (en) | 2011-06-22 | 2014-09-09 | Clarion Co., Ltd | Voice data transferring device, terminal device, voice data transferring method, and voice recognition system |
EP2538404A1 (en) | 2011-06-22 | 2012-12-26 | Clarion Co., Ltd. | Voice data transferring device, terminal device, voice data transferring method, and voice recognition system |
CN102842304A (en) * | 2011-06-22 | 2012-12-26 | 歌乐株式会社 | Voice data transferring device, transferring method, terminal device and voice recognition system |
JP2013007764A (en) * | 2011-06-22 | 2013-01-10 | Clarion Co Ltd | Voice data repeating device, terminal, voice data repeating method, and voice recognition system |
CN102842304B (en) * | 2011-06-22 | 2014-11-12 | 歌乐株式会社 | Voice data transferring device, transferring method, terminal device and voice recognition system |
JP2013068532A (en) * | 2011-09-22 | 2013-04-18 | Clarion Co Ltd | Information terminal, server device, search system, and search method |
JP2014065359A (en) * | 2012-09-25 | 2014-04-17 | Fujitsu Ten Ltd | Display control device, display system and display control method |
JP2017050010A (en) * | 2013-02-20 | 2017-03-09 | 株式会社ソニー・インタラクティブエンタテインメント | Hybrid performance scaling or speech recognition |
JP2016033530A (en) * | 2014-07-30 | 2016-03-10 | 株式会社東芝 | Utterance section detection device, voice processing system, utterance section detection method and program |
US10276191B2 (en) | 2014-07-30 | 2019-04-30 | Kabushiki Kaisha Toshiba | Speech section detection device, voice processing system, speech section detection method, and computer program product |
WO2016129276A1 (en) * | 2015-02-12 | 2016-08-18 | パナソニックIpマネジメント株式会社 | Information dissemination method, server, information terminal device, system, and voice interaction system |
JPWO2016129276A1 (en) * | 2015-02-12 | 2017-11-24 | パナソニックIpマネジメント株式会社 | Information providing method, server, information terminal device, system, and voice dialogue system |
JP2017102822A (en) * | 2015-12-04 | 2017-06-08 | クラリオン株式会社 | On-vehicle device and voice recognition system |
Also Published As
Publication number | Publication date |
---|---|
JP4413564B2 (en) | 2010-02-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4413564B2 (en) | Information terminal and voice recognition system | |
US9544412B2 (en) | Voice profile-based in-vehicle infotainment identity identification | |
US10081334B1 (en) | Method and system for unlocking vehicle with use of morse code | |
US8209177B2 (en) | Voice recognition system having articulated talk-back feature | |
JP4965036B2 (en) | A method for controlling a device via an audio signal, particularly in an automobile | |
US20090164216A1 (en) | In-vehicle circumstantial speech recognition | |
CN111354363A (en) | Vehicle-mounted voice recognition method and device, readable storage medium and electronic equipment | |
EP2747077A1 (en) | Voice recognition system, recognition dictionary logging system, and audio model identifier series generation device | |
JP2009530666A (en) | How to provide automatic speech recognition, dictation, recording and playback for external users | |
US10950233B2 (en) | Dialogue system, vehicle having the same and dialogue processing method | |
US9302677B2 (en) | Methods for providing operator support utilizing a vehicle telematics service system | |
CN110503949B (en) | Dialogue system, vehicle having dialogue system, and dialogue processing method | |
JP2016018078A (en) | Voice recognition device and voice recognition system | |
US10141967B1 (en) | Virtual network interface connectivity | |
US20160125878A1 (en) | Vehicle and head unit having voice recognition function, and method for voice recognizing thereof | |
US11645731B2 (en) | Simplified authentication of mobile device by vehicle for shared or autonomous vehicles | |
JPH11126092A (en) | Voice recognition device and on-vehicle voice recognition device | |
US7319963B2 (en) | Voice recognition system preventing lowering performance | |
CN103596119A (en) | Method and apparatus for voice-based machine to machine communication | |
CN111739525A (en) | Agent device, control method for agent device, and storage medium | |
US10468017B2 (en) | System and method for understanding standard language and dialects | |
KR102417899B1 (en) | Apparatus and method for recognizing voice of vehicle | |
CN111557030A (en) | Method, device and computer-readable storage medium with instructions for processing a speech input, motor vehicle with speech processing and user terminal | |
CN117579535B (en) | Transmission path planning method, device, system and medium | |
CN107525511B (en) | Navigation device with automatic mirroring function and automatic mirroring method using the same |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060406 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20071018 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20080710 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090406 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090414 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090615 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20091110 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20091118 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121127 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4413564 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121127 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131127 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |