JP2008250236A - Speech recognition device and speech recognition method - Google Patents
Speech recognition device and speech recognition method Download PDFInfo
- Publication number
- JP2008250236A JP2008250236A JP2007094855A JP2007094855A JP2008250236A JP 2008250236 A JP2008250236 A JP 2008250236A JP 2007094855 A JP2007094855 A JP 2007094855A JP 2007094855 A JP2007094855 A JP 2007094855A JP 2008250236 A JP2008250236 A JP 2008250236A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- driver
- utterance
- passenger
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
この発明は、音声認識を用いて入力処理を行なう音声認識装置および音声認識方法に関し、特に、車載用の音声認識装置および音声認識方法に関する。 The present invention relates to a voice recognition apparatus and a voice recognition method for performing input processing using voice recognition, and more particularly, to an in-vehicle voice recognition apparatus and a voice recognition method.
近年、利用者の音声を認識する技術の実現に向けて、各種考案がなされている。利用者の音声を認識することができれば、利用者は各種機器の操作を音声によって実行することが可能であり、特に車載装置では運転者による手動操作の運転への影響が懸念されることから音声操作技術の実用化が切望されている。 In recent years, various ideas have been made for realizing a technology for recognizing a user's voice. If the user's voice can be recognized, it is possible for the user to perform various device operations by voice. Especially, in-vehicle devices are concerned about the influence of manual operation by the driver on the driving. The practical application of operation technology is eagerly desired.
また、音声認識では、だれがどこに向かって発話しているかの認識が必要な場合がある。そこで、例えば特許文献1は、マイクアレイによって音源を特定し、顔の向きを検出して話し相手を特定する技術を開示している。 In speech recognition, it may be necessary to recognize who is speaking to where. Thus, for example, Patent Document 1 discloses a technique for specifying a sound partner by using a microphone array and detecting a face direction to specify a speaking partner.
また、特許文献2は、音声入力を受け付ける車載装置において、発話と発話との間の無音声時間を計時し、計時された無音声時間に基づいてその音声が車載装置に対する音声入力であるか否かを判別する技術を開示している。 Japanese Patent Laid-Open No. 2004-228688 measures a silent time between utterances in an in-vehicle device that accepts voice input, and whether or not the voice is a voice input to the in-vehicle device based on the measured silent time. The technique which discriminates is disclosed.
しかしながら上述した従来技術のように発話と発話の間の無音声時間を用いる方法では、無音声時間を計時するまで音声認識を行なうことができないという問題点があった。また、音楽データの再生などで無音声時間が十分に得られない場合には発話か否かを判別することが困難であるという問題点があった。 However, in the method using the silent time between utterances as in the above-described prior art, there is a problem that speech recognition cannot be performed until the silent time is counted. In addition, there has been a problem that it is difficult to determine whether or not the speech is uttered when a sufficient amount of silent time cannot be obtained due to music data reproduction or the like.
そのため、ユーザの発話が行なわれた時点で、その発話が車載装置に対する音声入力であるか、同乗者との会話であるか、すなわち音声の発話対象を高精度に判定することの出来る音声認識装置および音声認識方法の実現が重要な課題となっていた。 Therefore, when the user's utterance is performed, the speech recognition apparatus that can determine whether the utterance is a voice input to the in-vehicle device or a conversation with a passenger, that is, a speech utterance target with high accuracy. The realization of speech recognition methods has become an important issue.
本発明は、上述した従来技術における問題点を解消し、課題を解決するためになされたものであり、発話対象を高精度に認識し、車載装置に対する発話に対して選択的に音声認識を行なうことで音声認識精度を向上する音声認識装置および音声認識方法を提供することを目的とする。 The present invention has been made to solve the above-described problems in the prior art and to solve the problems. The present invention recognizes an utterance target with high accuracy and selectively performs speech recognition on an utterance to an in-vehicle device. It is an object of the present invention to provide a speech recognition apparatus and speech recognition method that improve speech recognition accuracy.
上述した課題を解決し、目的を達成するため、本発明にかかる音声認識処理装置および音声認識方法は、運転者が同乗者と会話している状態からプロファイルデータを作成し、発話中にプロファイルデータを参照して、その発話が同乗者に対する会話であるか音声操作入力であるかを判定する。 In order to solve the above-described problems and achieve the object, the speech recognition processing device and speech recognition method according to the present invention creates profile data from a state in which the driver is talking to a passenger, and profile data during speech. , It is determined whether the utterance is a conversation for a passenger or a voice operation input.
本発明によれば音声認識装置および音声認識方法は、運転者が同乗者と会話する場合と車載装置に対して音声入力を行なう場合との違いを判別し、音声入力を行なっている場合にのみ音声認識を行なうので、音声認識精度が向上した音声認識装置および音声認識装置を得ることができるという効果を奏する。 According to the present invention, the voice recognition device and the voice recognition method discriminate the difference between the case where the driver talks with the passenger and the case where voice input is performed on the in-vehicle device, and only when the voice input is performed. Since voice recognition is performed, there is an effect that a voice recognition device and a voice recognition device with improved voice recognition accuracy can be obtained.
以下に添付図面を参照して、この発明に係る音声認識装置および音声認識方法の好適な実施の形態を詳細に説明する。 Exemplary embodiments of a speech recognition apparatus and a speech recognition method according to the present invention will be explained below in detail with reference to the accompanying drawings.
図1は、本発明の実施例である音声認識装置20を搭載した車載システムの概要構成を示す概要構成図である。同図に示す車載システム10は、音声認識装置20、車載統合機30、マイク41、カメラ42、振動センサ43、トークスイッチ44、圧力センサ45、ディスプレイ51およびスピーカ52を有する。
FIG. 1 is a schematic configuration diagram showing a schematic configuration of an in-vehicle system equipped with a
車載統合機30は、目的地までの経路設定および経路誘導を行なうナビゲーション機能と、ラジオやテレビの受信、記録媒体に格納された音楽や影像の再生をおこなうオーディオ・ビジュアル機能とを備えた装置であり、その内部に機器操作部31、記録媒体32、ナビ処理部33、AV処理部34および出力処理部35を有する。
The in-vehicle integrated
機器操作部31は、利用者からの操作入力を受け付ける処理部であり、受け付けた操作内容はナビ処理部33およびAV処理部34の動作制御に用いられる。記録媒体32は、HDD、DVD、CD、MDなどであり、地図データや音楽データ、映像データが記録されている。ナビ処理部33は、ナビゲーション機能を実現する処理部であり、AV処理部34は、オーディオ・ビジュアル機能を実現する処理部である。そして、出力処理部35は、ナビ処理部33、AV処理部34の出力に基づいてディスプレイ51の表示出力およびスピーカ52の音声出力を制御する処理を行なう。
The
音声認識装置20は、利用者の音声を認識して機器操作部31に入力することで、車載統合機30の動作を制御する操作手段として機能する。
The
具体的には、音声認識装置20は、マイク11、カメラ42、振動センサ43、トークスイッチ44、圧力センサ45に接続される。また、音声認識装置20は、その内部にバッファメモリ21、音声認識部22、プロファイル作成部23、プロファイルデータ24、音声入力検知部25、同乗者検知部26、主制御部27を有する。
Specifically, the
マイク41は、周囲の音、特に運転者の音声を取得する集音手段である。また、カメラ42は、運転者の顔画像を撮影する撮影手段であり、振動センサ43は、運転席の振動を検知する検知手段である。そして、マイク41が取得した音声データ、カメラ42が撮影した画像データ、振動センサ43が取得した振動データは、バッファメモリ21に格納される。
The
トークスイッチ44は、利用者によって操作される操作手段であり、音声認識の開始要求に用いられる。音声認識装置20は、トークスイッチ44が操作された後にマイク41が集音した音声データから発話を切り出して音声認識する。
The
ここで、トークスイッチ44が操作された後に取得した音声データであっても、その全てが車載システム10に対する音声操作指示であるとは限らない。例えば、運転者がトークスイッチを押した後、同乗者との会話が発生することもありえる。そのため、トークスイッチ操作後の発声を単純に車載システム10に対する音声入力と看做して音声認識の対象とすると、本来同乗者に向けて発声されていた言葉についても操作入力として扱うととなり、誤認識を増加させてしまう。
Here, even the voice data acquired after the
そこで、音声認識装置20では、運転者が同乗者に対して発話する際の状態を予め取得してプロファイルデータを作成しておく。そして、トークスイッチ操作後の運転者の状態とプロファイルデータとを比較することで、発声が同乗者に対する会話であるのか、車載システム20に対する音声入力であるのかを判定する。
Therefore, in the
プロファイルデータの作成、およびプロファイルデータとの比較に用いる運転者の状態としては、運転者の音声の大きさとその変化、音声の高さ、ノイズ区間との音声の大きさの差、発話開始部分もしくは発話終端部分の音声の特徴、発声速度、画像データ内の顔の変化、運転席の振動などを使用可能である。 The state of the driver used for the creation of profile data and comparison with the profile data includes the volume and change of the driver's voice, the height of the voice, the difference in the volume of the voice from the noise section, the utterance start part or It is possible to use the voice characteristics at the end of the utterance, the utterance speed, the change of the face in the image data, the vibration of the driver's seat, and the like.
なお、同乗者がいなければ、運転者の発言は全て音声入力であると推定することが出来る。そこで、音声認識装置20は、各座席の座面や背もたれに内蔵した圧力センサ45の出力を同乗者検知部26によって収集し、同乗者が乗車しているか否かを検知している。
If there is no passenger, it can be estimated that all of the driver's speech is voice input. Therefore, the
主制御部27は、音声認識装置20を全体制御する制御部である。主制御部27は、プロファイルデータがまだ作成されていなければ、バッファメモリ21をプロファイル作成部23に接続し、同乗者との会話時における運転者の状態を取得させる。プロファイル作成部23は、取得した情報を用いてプロファイルデータを作成し、データベース24に格納する。そして、トークスイッチ44が操作されたことを音声入力検知部25が検知した場合、主制御部27は、バッファメモリ21を音声認識部22に接続し、同乗者との会話時における運転者の状態を取得させる。
The
音声認識部22は、バッファメモリ21に格納された音声データや画像データから発話の開始と終了を検知し、音声認識によって発話の内容を認識して機器操作部31に入力する。
The
この時、音声認識部22aは、その内部の発話対象判定部27aによって音声データ内の発話が同乗者に対する会話であるのか、車載システム10に対する音声入力であるのかは判定し、車載システム10を対象とする発話に対してのみ音声認識を行なう。具体的には、発話対象判定部22aは、音声認識時における運転者の状態とプロファイルデータとを比較することで、発声対象を判定する。
At this time, the
図2は、音声認識装置20の処理動作を示すフローチャートである。同図に示した処理動作は、音声認識装置20が繰り返し実行するメインフローの一例である。
FIG. 2 is a flowchart showing the processing operation of the
まず、音声認識装置20はプロファイルデータの作成が必要であるか否か判定する(ステップS101)。具体的には、プロファイルデータが未作成である場合や、プロファイルデータの作成後、車両の乗員構成に変化があった場合にプロファイルデータの作成が必要であると判定する。なお、車両の乗員構成の変化は、圧力センサ45の出力変化やドア開閉の検知によって行なうことができる。
First, the
そして、プロファイルデータの作成が必要である場合(ステップS101,Yes)、プロファイル作成部23によってプロファイルデータを作成し、データベース24に登録する(ステップS102)。このプロファイル学習の終了後、もしくはプロファイルデータの作成が不要である場合(ステップS101,No)、主制御部27はトークスイッチ44が操作されたか否かを監視し(ステップS103)、トークスイッチ44が操作されていなければ(ステップS103,No)、そのまま処理を終了する。
If it is necessary to create profile data (step S101, Yes), the
一方、トークスイッチ44が操作された場合(ステップS103,Yes)、音声認識装置20は、音声認識部による音声認識を実行し(ステップS104)、音声認識の結果を用いて車載統合機30に対する操作入力を実行し(ステップS105)、処理を終了する。
On the other hand, when the
つづいて、図2に示したプロファイル学習処理の詳細について図3を参照してさらに説明する。同図に示したように、プロファイル学習処理では、まず、同乗者検知部26が圧力センサ45の出力に基づいて同乗者が乗車しているか否かを判定し(ステップS201)、同乗者が居ない場合(ステップS201,No)にはそのまま処理を終了する。
Next, details of the profile learning process shown in FIG. 2 will be further described with reference to FIG. As shown in the figure, in the profile learning process, first, the
一方、同乗者が居る場合(ステップS201,Yes)には、プロファイル作成部23がバッファメモリから音声データ、画像データなどを取得し(ステップS202)、プロファイルデータとして登録して(ステップS203)、処理を終了する。
On the other hand, when there is a passenger (step S201, Yes), the
つづいて、図2に示した音声認識処理の具体例について説明する。既に述べたように、本発明では、運転者の音声の大きさとその変化、音声の高さ、ノイズ区間との音声の大きさの差、発話開始部分もしくは発話終端部分の音声の特徴、発声速度、画像データ内の顔の変化、運転席の振動などをプロファイルデータと比較して発話対象を判別している。 Next, a specific example of the speech recognition process shown in FIG. 2 will be described. As described above, in the present invention, the volume and change of the driver's voice, the pitch of the driver, the difference in the volume of the voice from the noise section, the characteristics of the voice at the utterance start part or the utterance end part, the utterance speed Then, the face change in the image data, the vibration of the driver's seat, etc. are compared with the profile data to determine the utterance target.
例えば、声の大きさを用いる場合、図4に示したように、まず、入力音声について発声区間を検出し、次に発声区間の入力レベル平均を計算する。そして得られた計算結果と同様に計算されたプロファイルデータの値とを比較し、プロファイルデータの値に比して閾値以上大きい場合、車載システムに向けた発声であると判定する。すなわち、この方法では、運転者は音声入力を行なう際には、同乗者との会話時よりも大きい声で発声する、との観点に基づいて発声対象を判定することが出来る。 For example, when using the loudness of the voice, as shown in FIG. 4, first, the utterance section is detected for the input speech, and then the input level average of the utterance section is calculated. Then, the calculated profile data value is compared with the obtained calculation result, and when it is larger than the profile data value by a threshold value or more, it is determined that the voice is directed to the in-vehicle system. That is, in this method, the driver can determine the utterance target based on the viewpoint that the driver utters a louder voice than when speaking with the passenger when performing voice input.
図5は、声の大きさの抑揚を用いる場合の発話対象判定方法である。同図では、まず入力音声について発声区間を検出し、発声区間の入力レベルを単位時間に区切って各区間毎に平均値を計算する。そして、計算結果の振れ幅(分散値)を計算し、同様に計算されたプロファイルの値と比較して、プロファイルデータの値に比して閾値以上大きい場合、車載システムに向けた発声であると判定する。すなわち、この方法では、運転者は音声入力を行なう際には、同乗者との会話時よりも明瞭な語調で発声する、との観点に基づいて発声対象を判定することが出来る。 FIG. 5 shows an utterance target determination method when voice volume inflection is used. In the figure, first, an utterance section is detected for the input speech, and an average value is calculated for each section by dividing the input level of the utterance section into unit times. Then, the fluctuation width (dispersion value) of the calculation result is calculated, and compared with the profile value calculated in the same manner, if it is greater than the threshold value compared to the value of the profile data, the voice is directed to the in-vehicle system judge. That is, in this method, the driver can determine the utterance target based on the viewpoint that the driver speaks in a clearer tone than when speaking with the passenger.
図6は、声の高さの抑揚を用いる場合の発話対象判定方法である。この方法では、まず入力音声について発声区間を検出し、発声区間を周波数領域についてフーリエ変換し、一番強い周波数帯域について、周波数軸上における振れ幅を計算する。そして、計算結果を同様に計算されたプロファイルの値と比較して、プロファイルデータの値に比して閾値以上大きい場合、車載システムに向けた発声であると判定する。この方法でも、運転者は音声入力を行なう際には、同乗者との会話時よりも明瞭な語調で発声する、との観点に基づいて発声対象を判定することが出来る。 FIG. 6 shows an utterance target determination method when using voice pitch inflection. In this method, first, an utterance interval is detected for input speech, the utterance interval is Fourier-transformed in the frequency domain, and a fluctuation width on the frequency axis is calculated for the strongest frequency band. Then, the calculation result is compared with the value of the profile calculated in the same manner, and when it is larger than the threshold value by the threshold value, it is determined that the voice is directed to the in-vehicle system. Also in this method, the driver can determine the utterance target based on the viewpoint that the driver speaks in clearer tone than when talking with the passenger.
図7は、発声区間とそれ以外の区間との音の入力レベル差による発話対象判定方法である。同図では、まず入力音声について発声区間を検出し、発声区間とその他の区間についてそれぞれ入力レベルの平均を計算する。そして、この二つの入力レベル平均について差分を計算し、差分値が同様に計算されたプロファイルデータの値に比して閾値以上大きい場合、車載システムに向けた発声であると判定する。すなわち、この方法では、運転者は環境音(発声していない区間の周囲の音)の大きさに合わせて自らの発声音量を決め、またその環境音量に対する大きさは、同乗者との会話時よりも明瞭な語調で発声する、との観点に基づいて発声対象を判定することが出来る。 FIG. 7 shows an utterance target determination method based on a difference in sound input level between the utterance section and the other sections. In the figure, first, an utterance section is detected for input speech, and an average of input levels is calculated for the utterance section and other sections. Then, a difference is calculated for the average of these two input levels, and if the difference value is larger than the threshold value calculated in the same manner by the threshold value, it is determined that the voice is directed to the in-vehicle system. In other words, in this method, the driver determines his / her utterance volume according to the volume of the environmental sound (the sound around the non-speaking section), and the volume level relative to the environmental volume is the same as when talking with the passenger. It is possible to determine the utterance target based on the viewpoint of uttering in a clearer tone.
また、画像データを用いる場合、図8に示したように、まず、入力音声について発声区間を検出し、次に発声区間と同時間帯の下唇の位置をカメラ画像から検出する。そして、下唇の位置の振れ幅を計算する。得られた計算結果と、同様に計算されたプロファイルデータの値とを比較し、プロファイルデータの値に比して閾値以上大きい場合、車載システムに向けた発声であると判定する。すなわち、この方法では、運転者は音声入力を行なう際には、同乗者との会話時よりも大きい声で発声する、との観点に基づいて発声対象を判定することが出来る。 When image data is used, as shown in FIG. 8, first, a speech section is detected for the input voice, and then the position of the lower lip in the same time zone as the speech section is detected from the camera image. Then, the deflection width of the position of the lower lip is calculated. The obtained calculation result is compared with the value of the profile data calculated in the same manner, and when the value is larger than the threshold value by the threshold value or more, it is determined that the voice is directed to the in-vehicle system. That is, in this method, the driver can determine the utterance target based on the viewpoint that the driver utters a louder voice than when speaking with the passenger when performing voice input.
また、運転席の振動を用いる場合、図9に示したように、まず、入力音声について発声区間を検出し、次に発声区間と同時間帯の運転席の振動値を検出し、その振れ幅を計算する。そして得られた計算結果と、同様に計算されたプロファイルデータの値とを比較し、プロファイルデータの値に比して閾値以上大きい場合、車載システムに向けた発声であると判定する。すなわち、この方法では、運転者は音声入力を行なう際には、同乗者との会話時よりも大きい声や明瞭な口調で話し、発声の差が運転席の振動に現れる、との観点に基づいて発声対象を判定することが出来る。 Further, when using vibration of the driver's seat, as shown in FIG. 9, first, the utterance section is detected for the input voice, and then the vibration value of the driver's seat in the same time zone as the utterance section is detected, and the fluctuation width is detected. Calculate Then, the obtained calculation result is compared with the value of the profile data calculated in the same manner, and when the value is larger than the threshold value by the threshold value or more, it is determined that the voice is directed to the in-vehicle system. In other words, this method is based on the viewpoint that the driver speaks with a louder voice and a clear tone than when talking with the passenger, and the difference in utterance appears in the vibration of the driver's seat. To determine the utterance target.
このほか、図10に示したように発話開始部分や発話終端部分の音声の特徴を用いる場合、まず入力音声について発声区間を検出し、発声区間の入力レベルを単位時間に区切って各区間毎に平均値を計算する。そして、単位時間ごとの入力レベル平均の推移を計算し、同様に計算されたプロファイルの値と比較する。その結果、入力レベルの減少度合い(開始部分の場合は上昇度合い)が、プロファイルデータの値に比して閾値以上大きい場合、車載システムに向けた発声であると判定する。すなわち、この方法では、運転者は音声入力を行なう際には、同乗者との会話時よりも明瞭な語調で発声し、発声の立ち上がりや終端にその差が現れる、との観点に基づいて発声対象を判定することが出来る。 In addition, when using the voice features of the utterance start portion and the utterance end portion as shown in FIG. 10, first, the utterance interval is detected for the input speech, and the input level of the utterance interval is divided into unit times and is divided for each interval. Calculate the average value. Then, the transition of the average input level per unit time is calculated and compared with the profile value calculated in the same manner. As a result, when the decrease level of the input level (in the case of the start portion) is greater than the threshold value by the threshold value, it is determined that the voice is directed to the in-vehicle system. In other words, with this method, the driver speaks in clearer tone than when speaking with the passenger, and the utterance is based on the point that the difference appears at the beginning and end of the utterance. The target can be determined.
さらに、図11に示したように発声速度を用いることもできる。この場合、まず入力音声について発声区間を検出し、発声区間を周波数領域についてフーリエ変換し、入力音声の特徴から、単位時間当たりの音節数(母音数)を求める。そして、計算結果を同様に計算されたプロファイルの値と比較して、プロファイルデータの値に比して閾値以上発声速度が遅い場合、車載システムに向けた発声であると判定する。この方法でも、運転者は音声入力を行なう際には、同乗者との会話時よりも丁寧なゆっくりとした発声を行なう、との観点に基づいて発声対象を判定することが出来る。 Furthermore, the speech rate can be used as shown in FIG. In this case, first, the utterance interval is detected for the input speech, the utterance interval is Fourier-transformed for the frequency domain, and the number of syllables (vowel number) per unit time is obtained from the characteristics of the input speech. Then, the calculation result is compared with the calculated profile value, and when the utterance speed is slower than the threshold value by the threshold value, it is determined that the utterance is directed to the in-vehicle system. Even in this method, the driver can determine the utterance target based on the viewpoint that when the voice is input, the utterance is more polite and slower than when speaking with the passenger.
以上説明してきたように、本発明にかかる音声認識装置20は、運転者が同乗者と会話中である場合に運転者の状態をプロファイルデータとして取得し、音声入力時に運転者の状態をプロファイルデータと比較することで、運転者の発声が同乗者に向けた会話であるか車載システムに向けた音声入力であるかを判定する。
As described above, the
そのため、同乗者に対する会話を音声入力として誤って認識する誤認識の発生を抑え、高精度な音声入力を実現することができる。 Therefore, it is possible to suppress the occurrence of misrecognition that erroneously recognizes a conversation with a passenger as a voice input, and to realize a highly accurate voice input.
なお、本実施例に示した構成および動作はあくまで一例であり、本発明を限定するものではない。本発明の構成および動作は適宜変更して実施することができる。例えば、運転者方向と助手席方向にそれぞれ指向性を有するマイクを設ける構成とすれば、それぞれのマイクの入力レベルの差から誰が発話を行なったかを判定することや、運転者がどの方向に顔を向けて発話したかを推定することができる。さらに、運転者からの音声入力があるか否かを監視することで、トークスイッチを省略した構成で実施することも可能である。 Note that the configuration and operation shown in this embodiment are merely examples, and do not limit the present invention. The configuration and operation of the present invention can be implemented with appropriate modifications. For example, if there is a configuration in which microphones having directivity are provided in the driver direction and the passenger seat direction, it is possible to determine who speaks from the difference in the input level of each microphone, and in which direction the driver faces. Can be estimated. Furthermore, by monitoring whether or not there is a voice input from the driver, the talk switch can be omitted.
以上のように、本発明にかかる音声認識装置および音声認識方法は、音声認識精度向上に有用であり、特に車載装置での発話対象の判定による認識精度向上に適している。 As described above, the speech recognition apparatus and speech recognition method according to the present invention are useful for improving speech recognition accuracy, and are particularly suitable for improving recognition accuracy by determining an utterance target in an in-vehicle device.
10 車載システム
20 音声認識装置
21 バッファメモリ
22 音声認識部
22a 発話対象判定部
23 プロファイル作成部
24 データベース
25 音声入力検知部
26 同乗者検知部
27 主制御部
30 車載統合機
31 機器操作部
32 記録媒体
33 ナビ処理部
34 AV処理部
35 出力処理部
41 マイク
42 カメラ
43 振動センサ
44 トークスイッチ
45 圧力センサ
51 ディスプレイ
52 スピーカ
DESCRIPTION OF
Claims (7)
運転者の発話中に前記運転者の状態を前記プロファイルデータと比較し、前記発話が同乗者に対する会話であるか音声操作入力であるかを判定する発話対象判定手段と、
前記発話対象判定手段によって音声操作入力であると判定された発話について音声認識を行なう音声認識手段と、
を備えたことを特徴とする音声認識装置。 Profile creation means for obtaining information on the state in which the driver is talking to the passenger and creating profile data from the obtained information;
An utterance target determination unit that compares the state of the driver with the profile data during the driver's utterance and determines whether the utterance is a conversation with a passenger or a voice operation input;
Voice recognition means for performing voice recognition on an utterance determined to be a voice operation input by the utterance target determination means;
A speech recognition apparatus comprising:
運転者の発話中に前記運転者の状態を前記プロファイルデータと比較し、前記発話が同乗者に対する会話であるか音声操作入力であるかを判定する発話対象判定工程と、
前記発話対象判定工程によって音声操作入力であると判定された発話について音声認識を行なう音声認識工程と、
を含んだことを特徴とする音声認識方法。 A profile creation step of obtaining information on a state in which the driver is talking to the passenger and creating profile data from the obtained information;
An utterance target determination step of comparing the driver state with the profile data during the driver's utterance, and determining whether the utterance is a conversation with a passenger or a voice operation input;
A voice recognition step for performing voice recognition on the utterance determined to be a voice operation input by the utterance target determination step;
A speech recognition method comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007094855A JP2008250236A (en) | 2007-03-30 | 2007-03-30 | Speech recognition device and speech recognition method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007094855A JP2008250236A (en) | 2007-03-30 | 2007-03-30 | Speech recognition device and speech recognition method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008250236A true JP2008250236A (en) | 2008-10-16 |
Family
ID=39975218
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007094855A Pending JP2008250236A (en) | 2007-03-30 | 2007-03-30 | Speech recognition device and speech recognition method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008250236A (en) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014077969A (en) * | 2012-10-12 | 2014-05-01 | Honda Motor Co Ltd | Dialogue system and determination method of speech to dialogue system |
JP2015129794A (en) * | 2014-01-06 | 2015-07-16 | 株式会社デンソー | Voice recognition apparatus |
DE112015006887B4 (en) * | 2015-09-09 | 2020-10-08 | Mitsubishi Electric Corporation | Vehicle speech recognition device and vehicle equipment |
DE112014007015B4 (en) * | 2014-09-30 | 2021-01-14 | Mitsubishi Electric Corporation | Speech recognition system |
WO2022172393A1 (en) * | 2021-02-12 | 2022-08-18 | 三菱電機株式会社 | Voice recognition device and voice recognition method |
US11659107B2 (en) | 2020-03-06 | 2023-05-23 | Fujifilm Business Innovation Corp. | Information processing device and non-transitory computer readable medium |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002193150A (en) * | 2000-12-22 | 2002-07-10 | Sony Corp | On-vehicle device, automobile and information processing method |
JP2003308079A (en) * | 2002-04-15 | 2003-10-31 | Nissan Motor Co Ltd | Voice input device |
-
2007
- 2007-03-30 JP JP2007094855A patent/JP2008250236A/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002193150A (en) * | 2000-12-22 | 2002-07-10 | Sony Corp | On-vehicle device, automobile and information processing method |
JP2003308079A (en) * | 2002-04-15 | 2003-10-31 | Nissan Motor Co Ltd | Voice input device |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014077969A (en) * | 2012-10-12 | 2014-05-01 | Honda Motor Co Ltd | Dialogue system and determination method of speech to dialogue system |
JP2015129794A (en) * | 2014-01-06 | 2015-07-16 | 株式会社デンソー | Voice recognition apparatus |
DE112014007015B4 (en) * | 2014-09-30 | 2021-01-14 | Mitsubishi Electric Corporation | Speech recognition system |
DE112015006887B4 (en) * | 2015-09-09 | 2020-10-08 | Mitsubishi Electric Corporation | Vehicle speech recognition device and vehicle equipment |
US11659107B2 (en) | 2020-03-06 | 2023-05-23 | Fujifilm Business Innovation Corp. | Information processing device and non-transitory computer readable medium |
WO2022172393A1 (en) * | 2021-02-12 | 2022-08-18 | 三菱電機株式会社 | Voice recognition device and voice recognition method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9230538B2 (en) | Voice recognition device and navigation device | |
EP3210205B1 (en) | Sound sample verification for generating sound detection model | |
JP2008299221A (en) | Speech detection device | |
JP4859982B2 (en) | Voice recognition device | |
EP2051241B1 (en) | Speech dialog system with play back of speech output adapted to the user | |
WO2016051519A1 (en) | Speech recognition system | |
WO2017081960A1 (en) | Voice recognition control system | |
JP5018773B2 (en) | Voice input system, interactive robot, voice input method, and voice input program | |
JP2007219207A (en) | Speech recognition device | |
CN112397065A (en) | Voice interaction method and device, computer readable storage medium and electronic equipment | |
JP2008250236A (en) | Speech recognition device and speech recognition method | |
US20070198268A1 (en) | Method for controlling a speech dialog system and speech dialog system | |
JP5431282B2 (en) | Spoken dialogue apparatus, method and program | |
JP2010156825A (en) | Voice output device | |
JP2007288242A (en) | Operator evaluation method, device, operator evaluation program, and recording medium | |
JP6459330B2 (en) | Speech recognition apparatus, speech recognition method, and speech recognition program | |
JP3838159B2 (en) | Speech recognition dialogue apparatus and program | |
JPH06236196A (en) | Method and device for voice recognition | |
JP7065964B2 (en) | Sound field control device and sound field control method | |
JP2004301875A (en) | Speech recognition device | |
JP7172120B2 (en) | Speech recognition device and speech recognition method | |
KR101710695B1 (en) | Microphone control system for voice recognition of automobile and control method therefor | |
JP7407665B2 (en) | Audio output control device and audio output control program | |
KR102394510B1 (en) | Apparatus and method for recognizing voice in vehicle | |
JP2007286198A (en) | Voice synthesis output apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100727 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110301 |