JP2008309864A - Voice recognition device and voice recognition method - Google Patents
Voice recognition device and voice recognition method Download PDFInfo
- Publication number
- JP2008309864A JP2008309864A JP2007155212A JP2007155212A JP2008309864A JP 2008309864 A JP2008309864 A JP 2008309864A JP 2007155212 A JP2007155212 A JP 2007155212A JP 2007155212 A JP2007155212 A JP 2007155212A JP 2008309864 A JP2008309864 A JP 2008309864A
- Authority
- JP
- Japan
- Prior art keywords
- vocabulary
- speech recognition
- speech
- utterance
- recognized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、車両の搭乗者によって発話された発話語彙を音声認識する音声認識手段と、該音声認識手段によって音声認識された該発話語彙を対応するコマンドへ変換して車載装置へと受け渡すコマンド変換手段とを有する音声認識装置および該音声認識装置による音声認識方法に関し、特に、車載装置へ向かってその制御のために発話する発話者をトークスイッチの押下操作のわずらわしさから開放し、かつ該発話が車載装置に対するものであるか否かを明確に認識して誤作動を起こさない音声認識装置および音声認識方法に関する。 The present invention provides a speech recognition means for recognizing a speech vocabulary spoken by a passenger of a vehicle, and a command for converting the speech vocabulary recognized by the speech recognition means into a corresponding command and delivering it to an in-vehicle device In particular, the speech recognition device having the conversion means and the speech recognition method using the speech recognition device free from the trouble of pressing down the talk switch for the speaker who speaks for the control toward the in-vehicle device, and The present invention relates to a speech recognition device and a speech recognition method that clearly recognizes whether or not an utterance is directed to an in-vehicle device and does not cause a malfunction.
近年、利用者の音声を認識する技術の実現に向けて、各種考案がなされている。利用者の音声を認識することができれば、利用者は各種機器の操作を音声によって実行することが可能であり、特に車載装置では運転者による手動操作の運転への影響が懸念されることから音声操作技術の実用化が切望されている。 In recent years, various ideas have been made for realizing a technology for recognizing a user's voice. If the user's voice can be recognized, it is possible for the user to perform various device operations by voice. Especially, in-vehicle devices are concerned about the influence of manual operation by the driver on the driving. The practical application of operation technology is eagerly desired.
ところで、現在では、車両の音声認識機能を搭載した車載装置は、トークスイッチを押下した後に発話された特定のコマンドを認識する仕様となっている。このトークスイッチを使用することによって、車載装置は、特定のコマンドをより的確に認識することが可能となる(例えば、特許文献1参照)。 By the way, at present, an in-vehicle device equipped with a vehicle voice recognition function has a specification for recognizing a specific command uttered after pressing a talk switch. By using this talk switch, the in-vehicle device can recognize a specific command more accurately (see, for example, Patent Document 1).
しかしながら、上記特許文献1に代表される従来技術では、トークスイッチを押下するという操作が発話者の負担になるが、特に、発話者が運転者である場合には、運転操作以外の負荷を与える要因となる。このため、将来的には、トークスイッチを使用しない常時音声認識が主流となってくることが予想される。
However, in the conventional technique represented by the above-mentioned
しかし、車両に搭乗している発話者が車載装置以外へ向かって発話した場合(例えば、同乗者へ向かう発話や独り言など)にも、車載装置は、自装置へ向かう発話として認識してしまい、この発話に基づいて誤動作を起こしてしまうおそれがあった。 However, even when a speaker on the vehicle speaks to a device other than the vehicle-mounted device (for example, utterance or self-speaking toward the passenger), the vehicle-mounted device recognizes the utterance to the device itself, There was a risk of malfunctioning based on this utterance.
本発明は、上記問題点(課題)を解消するためになされたものであって、車載装置へ向かってその制御のために発話する発話者をトークスイッチの押下操作のわずらわしさから開放し、かつ該発話が車載装置に対するものであるか否かを明確に認識して誤作動を起こさない音声認識装置および音声認識方法を提供することを目的とする。 The present invention has been made to solve the above problems (problems), and frees the speaker who speaks to the in-vehicle device for the control from the trouble of pressing the talk switch, and It is an object of the present invention to provide a voice recognition device and a voice recognition method that clearly recognizes whether or not the utterance is for an in-vehicle device and does not cause a malfunction.
上述した問題を解決し、目的を達成するため、本発明は、車両の搭乗者によって発話された発話語彙を音声認識する音声認識手段と、該音声認識手段によって音声認識された該発話語彙を対応するコマンドへ変換して車載装置へと受け渡すコマンド変換手段とを有する音声認識装置であって、前記音声認識手段によって音声認識された発話語彙が前記車載装置へ向けられた発話であるか否かを判定する音声認識結果判定手段をさらに有し、前記音声認識手段は、前記音声認識手段によって音声認識された発話語彙が前記車載装置へ向けられた発話であると前記音声認識結果判定手段により判定された場合にのみ該音声認識した発話語彙を前記コマンド変換手段へと受け渡すことを特徴とする。 In order to solve the above-described problems and achieve the object, the present invention provides a speech recognition unit that recognizes a speech vocabulary spoken by a vehicle occupant and a speech vocabulary that is speech-recognized by the speech recognition unit. Whether or not the utterance vocabulary recognized by the voice recognition means is an utterance directed to the in-vehicle device. Voice recognition result determination means for determining whether the utterance vocabulary recognized by the voice recognition means is an utterance directed to the in-vehicle device. The speech vocabulary recognized by the speech is transferred to the command conversion means only when the command is received.
また、本発明は、上記発明において、前記音声認識手段は、前記音声認識手段によって音声認識された発話語彙が特定語彙であると前記音声認識結果判定手段により判定された場合に、該特定語彙以降に音声認識した発話語彙を前記コマンド変換手段へと受け渡すことを特徴とする。 Further, the present invention provides the speech recognition unit according to the above invention, wherein when the speech recognition result determination unit determines that the utterance vocabulary recognized by the speech recognition unit is a specific vocabulary, the speech recognition unit The speech vocabulary that has been voice-recognized is transferred to the command conversion means.
また、本発明は、上記発明において、前記音声認識手段は、前記音声認識手段によって音声認識された発話語彙が特定語彙であると前記音声認識結果判定手段により判定された場合に、該特定語彙以前に音声認識した発話語彙を前記コマンド変換手段へと受け渡すことを特徴とする。 Further, the present invention provides the speech recognition unit according to the above invention, wherein when the speech recognition result determination unit determines that the utterance vocabulary speech-recognized by the speech recognition unit is a specific vocabulary, The speech vocabulary that has been voice-recognized is transferred to the command conversion means.
また、本発明は、上記発明において、前記音声認識手段は、前記音声認識手段によって音声認識された発話語彙が第1の特定語彙であると前記音声認識結果判定手段により判定された場合に、該第1の特定語彙より後に音声認識した発話語彙を前記コマンド変換手段へと受け渡すことを開始し、前記音声認識手段によって該第1の特定語彙以降に音声認識された発話語彙が第2の特定語彙であると前記音声認識結果判定手段により判定された場合に、該第2の特定語彙以降に音声認識した発話語彙を音声認識した発話語彙を前記コマンド変換手段へと受け渡すことを終了すことを特徴とする。 Further, the present invention provides the speech recognition unit according to the above invention, wherein the speech recognition result determination unit determines that the utterance vocabulary recognized by the speech recognition unit is the first specific vocabulary. An utterance vocabulary speech-recognized after the first specific vocabulary is started to be transferred to the command conversion means, and an utterance vocabulary speech-recognized after the first specific vocabulary by the speech recognition means is a second specific vocabulary. When the speech recognition result determination means determines that the vocabulary is a vocabulary, the speech vocabulary obtained by speech recognition of the utterance vocabulary speech recognized after the second specific vocabulary is terminated to the command conversion means. It is characterized by.
また、本発明は、上記発明において、前記音声認識手段によって音声認識された発話語彙を所定数だけバッファリングするバッファリング手段と、前記発話語彙に、該発話語彙が属するカテゴリを対応付けて記憶する語彙カテゴリ記憶手段とをさらに有し、前記音声認識手段は、前記バッファリング手段にバッファリングされる発話語彙のカテゴリに基づいて、音声認識された発話語彙が前記車載装置へ向けられた発話であると前記音声認識結果判定手段により判定された場合にのみ該音声認識した発話語彙を前記コマンド変換手段へと受け渡すことを特徴とする。 Further, according to the present invention, in the above invention, buffering means for buffering a predetermined number of utterance vocabulary speech-recognized by the speech recognition means, and a category to which the utterance vocabulary belongs is stored in association with the utterance vocabulary. Vocabulary category storage means, and the speech recognition means is an utterance in which the utterance vocabulary recognized by speech based on the category of the utterance vocabulary buffered in the buffering means is directed to the in-vehicle device. The speech vocabulary that has been speech-recognized is transferred to the command conversion means only when it is determined by the speech recognition result determination means.
また、本発明は、上記発明において、前記音声認識手段は、前記バッファリング手段にバッファリングされる発話語彙のなかで特定カテゴリの出現率が所定値以上となったとして、音声認識された発話語彙が前記車載装置へ向けられた発話であると前記音声認識結果判定手段により判定された場合に、該音声認識した発話語彙を前記コマンド変換手段へと受け渡すことを特徴とする。 Further, the present invention provides the speech recognition unit according to the above-described invention, wherein the speech recognition unit assumes that the appearance rate of the specific category is a predetermined value or more in the speech vocabulary buffered by the buffering unit. When the speech recognition result determining means determines that the speech is directed to the in-vehicle device, the speech vocabulary recognized by the speech is transferred to the command conversion means.
また、本発明は、上記発明において、前記音声認識手段は、前記バッファリング手段にバッファリングされる発話語彙のなかで特定カテゴリの出現率が所定値以上となったとして、音声認識された発話語彙が前記車載装置へ向けられた発話であると前記音声認識結果判定手段により判定されなかった場合が所定回数連続して以降、該音声認識した発話語彙を前記コマンド変換手段へと受け渡すことをキャンセルすることを特徴とする。 Further, the present invention provides the speech recognition unit according to the above-described invention, wherein the speech recognition unit assumes that the appearance rate of the specific category is a predetermined value or more in the speech vocabulary buffered by the buffering unit. Canceling the delivery of the speech-recognized speech vocabulary to the command conversion means after a predetermined number of times that the speech recognition result judgment means has not determined that the speech is directed to the in-vehicle device It is characterized by doing.
また、本発明は、上記発明において、前記音声認識手段は、前記バッファリング手段にバッファリングされる発話語彙のなかで特定カテゴリが所定回数連続したとして、音声認識された発話語彙が前記車載装置へ向けられた発話であると前記音声認識結果判定手段により判定された場合に、該音声認識した発話語彙を前記コマンド変換手段へと受け渡すことを特徴とする。 Further, according to the present invention, in the above invention, the voice recognition unit assumes that a specific category continues a predetermined number of times in the utterance vocabulary buffered by the buffering unit, and the utterance vocabulary that has been voice-recognized is transferred to the in-vehicle device. When the speech recognition result determining unit determines that the utterance is directed, the speech vocabulary recognized by the speech is transferred to the command conversion unit.
また、本発明は、上記発明において、前記音声認識手段は、前記バッファリング手段にバッファリングされる発話語彙のなかで特定カテゴリが所定回数連続したとして、音声認識された発話語彙が前記車載装置へ向けられた発話であると前記音声認識結果判定手段により判定されなかった場合が所定回数連続して以降、該音声認識した発話語彙を前記コマンド変換手段へと受け渡すことをキャンセルすることを特徴とする。 Further, according to the present invention, in the above invention, the voice recognition unit assumes that a specific category continues a predetermined number of times in the utterance vocabulary buffered by the buffering unit, and the utterance vocabulary that has been voice-recognized is transferred to the in-vehicle device. Canceling the delivery of the speech-recognized speech vocabulary to the command conversion means after a predetermined number of times that the speech recognition result judgment means has not determined that the speech is directed. To do.
また、本発明は、車両の搭乗者によって発話された発話語彙を音声認識する音声認識工程と、該音声認識手段によって音声認識された該発話語彙を対応するコマンドへ変換して車載装置へと受け渡すコマンド変換工程とを含む音声認識方法であって、前記音声認識工程によって音声認識された発話語彙が前記車載装置へ向けられた発話であるか否かを判定する音声認識結果判定工程をさらに含み、前記音声認識工程は、前記音声認識工程によって音声認識された発話語彙が前記車載装置へ向けられた発話であると前記音声認識結果判定工程により判定された場合にのみ、該音声認識した発話語彙を前記コマンド変換肯定へと受け渡すことを特徴とする。 The present invention also provides a speech recognition step for recognizing speech vocabulary spoken by a vehicle occupant and converting the speech vocabulary speech recognized by the speech recognition means into a corresponding command to be received by an in-vehicle device. A speech recognition method including a command conversion step to pass, further including a speech recognition result determination step of determining whether or not the utterance vocabulary recognized by the speech recognition step is an utterance directed to the in-vehicle device. In the speech recognition step, only when the speech recognition result determination step determines that the utterance vocabulary recognized by the speech recognition step is an utterance directed to the in-vehicle device, the speech recognition vocabulary recognized by the speech Is transferred to the affirmative command conversion.
本発明によれば、音声認識手段は、音声認識された発話語彙が車載装置へ向けられた発話であると音声認識結果判定手段により判定された場合にのみ該音声認識した発話語彙をコマンド変換手段へと受け渡すので、トークスイッチを必要としないために搭乗者はトークスイッチの押下操作のわずらわしさから開放され、かつ音声認識によって、車載装置へ向けられた発話語彙とに車載装置へ向けられたものではない発話語彙とを常時区別し、誤った音声認識に基づくコマンドによって車載装置が誤作動することを防止するという効果を奏する。 According to the present invention, the speech recognition means converts the speech utterance vocabulary recognized by the speech recognition result determination means into a command conversion means only when the speech recognition result determination means determines that the speech utterance vocabulary is directed to the in-vehicle device. Since the talk switch is not required, the passenger is freed from the troublesome operation of pressing the talk switch, and the voice vocabulary is directed to the in-vehicle device by voice recognition. It is possible to always distinguish the utterance vocabulary that is not a thing and prevent the in-vehicle device from malfunctioning due to a command based on erroneous voice recognition.
また、本発明によれば、音声認識手段によって音声認識された発話語彙が特定語彙であると音声認識結果判定手段により判定された場合に、該特定語彙以降に音声認識した発話語彙を前記コマンド変換手段へと受け渡すので、車載装置の制御のための発話を開始するためのトークスイッチの押下を必要とせず発話開始を音声認識手段に明確に認識させるとともに、搭乗者はトークスイッチの押下操作のわずらわしさから開放されるという効果を奏する。 Further, according to the present invention, when the speech recognition result determining means determines that the utterance vocabulary recognized by the speech recognition means is the specific vocabulary, the command conversion is performed on the utterance vocabulary recognized after the specific vocabulary. Therefore, the voice recognition means clearly recognizes the start of the utterance without the need to press the talk switch for starting the utterance for controlling the in-vehicle device. It has the effect of being free from bothersomeness.
また、本発明によれば、音声認識手段によって音声認識された発話語彙が特定語彙であると音声認識結果判定手段により判定された場合に、該特定語彙以降に音声認識した発話語彙を前記コマンド変換手段へと受け渡すので、車載装置の制御のための発話を開始するためのトークスイッチの押下を必要とせず発話開始を音声認識手段に明確に認識させるとともに車載装置の制御のための発話の終了を音声認識手段に明確に認識させることができ、搭乗者はトークスイッチの押下操作のわずらわしさから開放されるという効果を奏する。 Further, according to the present invention, when the speech recognition result determining means determines that the utterance vocabulary recognized by the speech recognition means is the specific vocabulary, the command conversion is performed on the utterance vocabulary recognized after the specific vocabulary. Therefore, the voice recognition means clearly recognizes the start of the utterance without the need to press the talk switch for starting the utterance for controlling the in-vehicle device, and ends the utterance for controlling the in-vehicle device. Can be clearly recognized by the voice recognition means, and the passenger is freed from the troublesome operation of pressing the talk switch.
また、本発明によれば、音声認識手段は、バッファリング手段にバッファリングされる発話語彙のカテゴリに基づいて、音声認識された発話語彙が車載装置へ向けられた発話であると音声認識結果判定手段により判定された場合にのみ該音声認識した発話語彙をコマンド変換手段へと受け渡すので、常時音声認識をしつつも、搭乗者が車載装置を制御するための発話の開始を意識しなくても、車載装置へ向けられた発話語彙とに車載装置へ向けられたものではない発話語彙とが区別され、発話者の負担を軽減するとともに、誤った音声認識に基づくコマンドによって車載装置が誤作動することを防止するという効果を奏する。 Further, according to the present invention, the speech recognition means determines the speech recognition result based on the category of the utterance vocabulary buffered by the buffering means if the utterance vocabulary recognized by the speech is directed to the in-vehicle device. Since the speech vocabulary recognized by the voice is transferred to the command conversion means only when it is determined by the means, the passenger does not have to be aware of the start of the utterance for controlling the in-vehicle device while always performing the voice recognition. In addition, the vocabulary directed to the in-vehicle device is distinguished from the utterance vocabulary that is not directed to the in-vehicle device, reducing the burden on the speaker and causing the in-vehicle device to malfunction due to an incorrect voice recognition command. This has the effect of preventing this.
また、本発明によれば、音声認識手段は、バッファリング手段にバッファリングされる発話語彙のなかで特定カテゴリの出現率が所定値以上となったとして、音声認識された発話語彙が車載装置へ向けられた発話であると音声認識結果判定手段により判定された場合に、該音声認識した発話語彙をコマンド変換手段へと受け渡すので、発話内容が特定の傾向を示すことを認識することによって、搭乗者が車載装置を制御するための発話を意識しなくても、車載装置へ向けられた発話語彙と車載装置へ向けられたものではない発話語彙とが区別され、発話者の負担を軽減するとともに、誤った音声認識に基づくコマンドによって車載装置が誤作動することを防止するという効果を奏する。 Further, according to the present invention, the speech recognition means determines that the appearance rate of the specific category among the utterance vocabulary buffered by the buffering means exceeds a predetermined value, and the speech utterance vocabulary is transferred to the in-vehicle device. When the speech recognition result determining means determines that the utterance is directed, the speech recognition speech vocabulary is transferred to the command conversion means, so that by recognizing that the utterance content shows a specific tendency, Even if the passenger is not conscious of the utterance for controlling the in-vehicle device, the utterance vocabulary directed to the in-vehicle device and the utterance vocabulary not directed to the in-vehicle device are distinguished, reducing the burden on the utterer At the same time, the in-vehicle device is prevented from malfunctioning due to a command based on erroneous voice recognition.
また、本発明によれば、音声認識手段は、バッファリング手段にバッファリングされる発話語彙のなかで特定カテゴリの出現率が所定値以上となったとして、音声認識された発話語彙が車載装置へ向けられた発話であると音声認識結果判定手段により判定されなかった場合が所定回数連続して以降、該音声認識した発話語彙を前記コマンド変換手段へと受け渡すことをキャンセルするので、発話内容が特定の傾向を示さなくなったことを認識することによって、搭乗者が車載装置を制御するための発話の終了を意識しなくても、車載装置へ向けられた発話語彙と車載装置へ向けられたものではない発話語彙とが区別され、発話者の負担を軽減するとともに、誤った音声認識に基づくコマンドによって車載装置が誤作動することを防止するという効果を奏する。 Further, according to the present invention, the speech recognition means determines that the appearance rate of the specific category among the utterance vocabulary buffered by the buffering means exceeds a predetermined value, and the speech utterance vocabulary is transferred to the in-vehicle device. Since the case where the speech recognition result determination means does not determine that the speech is directed is canceled after a predetermined number of consecutive times, the speech utterance vocabulary transferred to the command conversion means is canceled. By recognizing that a specific tendency is no longer shown, utterance vocabulary intended for in-vehicle devices and in-vehicle devices, even if the passenger is not aware of the end of the utterance to control the in-vehicle devices Utterance vocabulary is not distinguished, reducing the burden on the speaker, and preventing the in-vehicle device from malfunctioning due to commands based on incorrect voice recognition. An effect.
また、本発明によれば、バッファリング手段にバッファリングされる発話語彙のなかで特定カテゴリが所定回数連続したとして、音声認識された発話語彙が車載装置へ向けられた発話であると音声認識結果判定手段により判定された場合に、該音声認識した発話語彙をコマンド変換手段へと受け渡すので、発話内容が特定の傾向を一時的であっても強く示すことを認識することによって、搭乗者が車載装置を制御するための発話を意識しなくても、車載装置へ向けられた発話語彙と車載装置へ向けられたものではない発話語彙とが区別され、発話者の負担を軽減するとともに、誤った音声認識に基づくコマンドによって車載装置が誤作動することを防止するという効果を奏する。 Further, according to the present invention, the speech recognition result indicates that the speech utterance vocabulary is an utterance directed to the in-vehicle device, assuming that the specific category continues for a predetermined number of times in the utterance vocabulary buffered by the buffering means. When judged by the judging means, the voice-recognized utterance vocabulary is transferred to the command converting means, so that the passenger can recognize the utterance content strongly even if it shows a specific tendency temporarily. Even if you are not conscious of the utterances to control the in-vehicle device, the utterance vocabulary directed to the in-vehicle device and the utterance vocabulary not directed to the in-vehicle device are distinguished, reducing the burden on the speaker and This has the effect of preventing the in-vehicle device from malfunctioning due to a command based on the voice recognition.
また、本発明によれば、音声認識手段は、バッファリング手段にバッファリングされる発話語彙のなかで特定カテゴリが所定回数連続したとして、音声認識された発話語彙が前記車載装置へ向けられた発話であると音声認識結果判定手段により判定されなかった場合が所定回数連続して以降、該音声認識した発話語彙をコマンド変換手段へと受け渡すことをキャンセルするので、発話内容が特定の傾向を一時的に強く示さなくなったことを認識することによって、搭乗者が車載装置を制御するための発話の終了を意識しなくても、車載装置へ向けられた発話語彙と車載装置へ向けられたものではない発話語彙とが区別され、発話者の負担を軽減するとともに、誤った音声認識に基づくコマンドによって車載装置が誤作動することを防止するという効果を奏する。 Further, according to the present invention, the speech recognition means determines that a specific category continues for a predetermined number of times in the utterance vocabulary buffered by the buffering means, and the speech recognition utterance vocabulary is directed to the in-vehicle device. If the speech recognition result determination means does not determine that the speech recognition result is determined, the speech utterance vocabulary is cancelled from being transferred to the command conversion means after a predetermined number of consecutive times. By recognizing that the utterance is no longer shown strongly, the utterance vocabulary for the in-vehicle device and the in-vehicle device are not intended even if the passenger is unaware of the end of the utterance for controlling the in-vehicle device. It is distinguished from the utterance vocabulary not to reduce the burden on the speaker and to prevent the in-vehicle device from malfunctioning due to a command based on erroneous voice recognition. Achieve the cormorant effect.
以下に添付図面を参照し、本発明の音声認識装置および音声認識方法に係る実施例を詳細に説明する。 Exemplary embodiments according to a speech recognition apparatus and speech recognition method of the present invention will be described below in detail with reference to the accompanying drawings.
以下に図1〜図3を参照して、本発明にかかる実施例1を説明する。実施例1は、車両の搭乗者による発話語彙の常時音声認識において、予め設定されている特定のキーワードが音声認識されると、該キーワードの直後に音声認識された発話語彙を、カーナビゲーション装置などを制御可能なコマンドへ変換するために所定のコマンド変換部へと受け渡す実施例である。
先ず、実施例1にかかる音声認識装置の構成について説明する。図1は、実施例1にかかる音声認識装置の構成を示す機能ブロック図である。同図に示すように、車両1において、CAN(Controller Area Network)2を介して、実施例1にかかる音声認識装置10aと、音声認識された発話内容に基づく制御コマンドによる制御対象であるカーナビゲーション装置20とが接続されている。以下の実施例では、音声認識された発話内容が変換された、カーナビゲーション装置20などの車載装置を制御する制御コマンドを、単に“コマンド”と呼ぶ。
First, the configuration of the speech recognition apparatus according to the first embodiment will be described. FIG. 1 is a functional block diagram of the configuration of the speech recognition apparatus according to the first embodiment. As shown in the figure, in a
音声認識装置10aは、所定の表示画面を有するディスプレイ装置などの表示手段である表示部11aと、音声を発するスピーカー装置などの音声発生手段である音声発生部11bと、揮発性または不揮発性の記憶手段である記憶部12と、制御部13とを有する。また、音声認識装置10aには、外部から検知した音声データを音声認識装置10aへと入力するマイク14が接続されている。
The voice recognition device 10a includes a
記憶部12は、キーワード辞書12aと、音声認識辞書12bとを格納している。キーワード辞書12aおよび音声認識辞書12bは、所定のテーブルとして記憶部12に格納されている。キーワード辞書12aは、予め設定された特定の語彙のリストである。また、音声認識辞書12bは、音声認識された発話内容から変換されるべきコマンドのリストである。
The
制御部13は、音声認識装置10aの全体制御をつかさどるが、特に実施例1に関連する特徴的な機能構成としては、音声認識処理部13aと、音声認識処理結果判定処理部13bと、コマンド変換出力処理部13cとを有する。その他の機能構成については省略している。
The
音声認識処理部13aは、車両1の搭乗者によって発話された語彙がマイク14によって検知されると、その検知された発話語彙をひとまず受け付けて一時記憶しておく。そして、その発話語彙がキーワード辞書12aに含まれている場合(以上を前段の音声認識と呼ぶ)に、該発話語彙より後に検知された語彙を音声認識処理(この音声認識処理による音声認識を、後段の音声認識と呼ぶ)する。なお、単に音声認識と呼ぶ場合は、検知された発話語彙が音声認識辞書12bに含まれていると判定された場合を示し、音声認識処理は、音声認識を試みる処理である。
When the vocabulary spoken by the passenger of the
音声認識処理結果判定処理部13bは、音声認識処理部13aによって受け付けられた発話語彙がキーワード辞書12aに含まれているか否かを判定する処理部である。音声認識処理結果判定処理部13bが音声認識処理部13aによって受け付けられた発話語彙がキーワード辞書12aに含まれていると判定する場合には、音声認識処理部13aは、音声認識結果をコマンド変換出力処理部13cへと受け渡す。なお、音声認識処理結果判定処理部13bが音声認識処理部13aによって受け付けられた発話語彙がキーワード辞書12aに含まれていると判定されない場合には、音声認識処理部13aは、音声認識結果をコマンド変換出力処理部13cへ受け渡さない。
The speech recognition processing result determination processing unit 13b is a processing unit that determines whether or not the utterance vocabulary accepted by the speech
コマンド変換出力処理部13cは、音声認識処理部13aから受け渡された音声認識結果を、音声認識辞書12bを参照して対応するコマンドへと変換し、カーナビゲーション装置20へと出力する。
The command conversion output processing unit 13c converts the voice recognition result delivered from the voice
次に、実施例1の音声認識処理(その1)について説明する。実施例1の音声認識処理(その1)は、前段の音声認識による音声認識結果がキーワードである場合に、そのキーワードの直後に音声認識された1語彙をコマンド変換する場合の処理である。図2は、実施例1の音声認識処理手順(その1)を示すフローチャートである。 Next, the speech recognition process (part 1) of the first embodiment will be described. The voice recognition process (No. 1) according to the first embodiment is a process in the case of converting a vocabulary speech-recognized immediately after the keyword into a command when the voice recognition result by the voice recognition in the previous stage is a keyword. FIG. 2 is a flowchart illustrating the speech recognition processing procedure (part 1) according to the first embodiment.
先ず、音声認識処理部13aは、マイク14を介して入力された発話語彙の音声認識処理をおこない、その処理結果を音声認識処理結果判定処理部13bへと出力する(ステップS101)。続いて、音声認識処理結果判定処理部13bは、所定の記憶領域に格納される「コマンド変換フラグ」がオンであるか否かを判定する(ステップS102)。「コマンド変換フラグ」がオンであると判定された場合に(ステップS102肯定)、ステップS103へ移り、「コマンド変換フラグ」がオンであると判定されなかった場合に(ステップS102否定)、ステップS105へ移る。
First, the speech
ステップS103では、音声認識処理部13aは、音声認識処理結果判定処理部13bによる判定処理結果に基づき、入力された発話語彙の音声認識処理結果をコマンド変換出力処理部13cへ受け渡す。続いて、音声認識処理結果判定処理部13bは、所定の記憶領域に格納される「コマンド変換フラグ」をオフにする(ステップS104)。
In step S103, the speech
ステップS105では、音声認識処理結果判定処理部13bは、キーワード辞書12aを参照し、音声認識処理部13aから入力された音声認識処理結果がキーワードであるか否かを判定する。音声認識処理部13aから入力された音声認識処理結果がキーワードであると判定された場合に(ステップS105肯定)、ステップS106へ移り、音声認識処理部13aから入力された音声認識処理結果がキーワードであると判定されなかった場合に(ステップS105否定)、ステップS107へ移る。
In step S105, the speech recognition processing result determination processing unit 13b refers to the keyword dictionary 12a and determines whether or not the speech recognition processing result input from the speech
ステップS106では、音声認識処理結果判定処理部13bは、所定の記憶領域に格納される「コマンド変換フラグ」をオンにする。また、ステップS107では、音声認識処理結果判定処理部13bは、所定の記憶領域に格納される「コマンド変換フラグ」をオフにする。これらの処理が終了すると、ステップS108へ移る。 In step S106, the speech recognition processing result determination processing unit 13b turns on a “command conversion flag” stored in a predetermined storage area. In step S107, the speech recognition processing result determination processing unit 13b turns off the “command conversion flag” stored in the predetermined storage area. When these processes are completed, the process proceeds to step S108.
ステップS108では、音声認識処理部13aは、音声認識結果のコマンド変換出力処理部13cへの出力を終了するか否かを判定し、音声認識結果のコマンド変換出力処理部13cへの出力を終了する場合は(ステップS108肯定)、実施例1の音声認識処理(その1)は終了し、音声認識結果のコマンド変換出力処理部13cへの出力を終了しない場合は(ステップS108否定)、ステップS101へ移る。
In step S108, the voice
次に、実施例1の音声認識処理(その2)について説明する。実施例1の音声認識処理(その2)は、前段の音声認識による音声認識結果がキーワードである場合に、そのキーワードの直前に音声認識された1語彙をコマンド変換する場合の処理である。図3は、実施例1の音声認識処理手順(その2)を示すフローチャートである。 Next, the voice recognition process (part 2) of the first embodiment will be described. The voice recognition process (No. 2) of the first embodiment is a process in the case of converting a vocabulary voice-recognized immediately before the keyword into a command when the voice recognition result by the voice recognition in the previous stage is a keyword. FIG. 3 is a flowchart illustrating the voice recognition processing procedure (part 2) according to the first embodiment.
先ず、音声認識処理部13aは、「所定のバッファ」をクリアする(ステップS111)。このバッファは、揮発性または不揮発性の記憶手段に設けられる。
First, the speech
続いて、音声認識処理部13aは、マイク14を介して入力された発話語彙の音声認識処理をおこない、その処理結果を音声認識処理結果判定処理部13bへと出力する(ステップS112)。続いて、音声認識処理部13aは、「所定のバッファ」がクリアされているか否かを判定する(ステップS113)。「所定のバッファ」がクリアされていると判定される場合に(ステップS113肯定)、ステップS117へ移り、「所定のバッファ」がクリアされていると判定されない場合に(ステップS113否定)、ステップS114へ移る。
Subsequently, the speech
ステップS114では、音声認識処理結果判定処理部13bは、キーワード辞書12aを参照し、音声認識処理部13aから入力された音声認識結果がキーワードであるか否かを判定する。音声認識処理部13aから入力された音声認識結果がキーワードであると判定された場合に(ステップS114肯定)、ステップS115へ移り、音声認識処理部13aから入力された音声認識結果がキーワードであると判定されなかった場合に(ステップS114否定)、ステップS117へ移る。
In step S114, the speech recognition processing result determination processing unit 13b refers to the keyword dictionary 12a and determines whether or not the speech recognition result input from the speech
ステップS115では、音声認識処理部13aは、音声認識処理結果判定処理部13bによる判定処理結果に基づき、入力された発話語彙の音声認識処理結果をコマンド変換出力処理部13cへ受け渡す。続いて、音声認識処理結果判定処理部13bは、所定の記憶領域に格納される「コマンド変換フラグ」をオフにする(ステップS116)。
In step S115, the speech
続いて、音声認識処理部13aは、ステップS112で入力された音声認識結果を「所定のバッファ」に記憶する(ステップS117)。このステップS117の処理の際に、すでに「所定のバッファ」に音声認識結果が記憶されている場合は、この古い音声認識結果を消去して、新しい音声認識結果を記憶する。続いて、音声認識処理部13aは、音声認識結果のコマンド変換出力処理部13cへの出力を終了するか否かを判定し(ステップS118)、音声認識結果のコマンド変換出力処理部13cへの出力を終了する場合は(ステップS118肯定)、実施例1の音声認識処理(その2)は終了し、音声認識結果のコマンド変換出力処理部13cへの出力を終了しない場合は(ステップS118否定)、ステップS112へ移る。
Subsequently, the speech
以下に図4および図5を参照して、本発明にかかる実施例2を説明する。実施例1は、車両の搭乗者による発話語彙の常時音声認識において、予め設定されている特定の開始キーワードが音声認識されると、該キーワード以降に音声認識された発話語彙を、カーナビゲーション装置などを制御可能なコマンドへ変換するために所定のコマンド変換部へと受け渡し、特定の開始キーワードが音声認識された以降に特定の終了キーワードが音声認識されると、声認識された発話語彙を所定のコマンド変換部へと受け渡すことを終了する実施例である。以下は、実施例1との差異のみを説明することとする。 A second embodiment according to the present invention will be described below with reference to FIGS. 4 and 5. In the first embodiment, when a specific start keyword set in advance is recognized by voice recognition in the continuous speech recognition of the utterance vocabulary by the vehicle occupant, the utterance vocabulary recognized after the keyword is converted into the car navigation device or the like. Is converted to a controllable command to a predetermined command conversion unit, and when a specific end keyword is recognized after speech recognition of a specific start keyword, a voice-recognized utterance vocabulary is It is an Example which complete | finishes delivery to a command conversion part. Only the differences from the first embodiment will be described below.
先ず、実施例2にかかる音声認識装置の構成について説明する。図4は、実施例2にかかる音声認識装置の構成を示す機能ブロック図である。実施例2の音声認識装置10bは、実施例1の音声認識装置10aと比較して、記憶部12においてキーワード辞書12aに代えて開始キーワード辞書12cおよび終了キーワード辞書12dが含まれる構成となっている。これらの構成以外は、実施例2の音声認識装置10bは、実施例1の音声認識装置10aと同一であるので、説明を省略する。
First, the configuration of the speech recognition apparatus according to the second embodiment will be described. FIG. 4 is a functional block diagram of the configuration of the speech recognition apparatus according to the second embodiment. Compared with the speech recognition device 10a of the first embodiment, the speech recognition device 10b of the second embodiment has a configuration in which the
開始キーワード辞書12cおよび終了キーワード辞書12dは、所定のテーブルとして記憶部12に格納されている。開始キーワード辞書12cおよび終了キーワード辞書12dは、予め設定された特定の語彙のリストである。特に、開始キーワード辞書12cには、カーナビゲーション装置20などの車載装置へ向けた発話の開始を示すキーワードが格納されており、終了キーワード辞書12dには、カーナビゲーション装置20などの車載装置へ向けた発話の終了を示すキーワードが格納されている。
The start keyword dictionary 12c and the end keyword dictionary 12d are stored in the
次に、実施例2の音声認識処理について説明する。実施例2の音声認識処理は、前段の音声認識による音声認識結果が開始キーワードである場合に、そのキーワード以降に音声認識された語彙をコマンド変換し、その後終了キーワードが音声認識されると、音声認識された語彙のコマンド変換を終了する処理である。図5は、実施例2の音声認識処理手順を示すフローチャートである。 Next, the speech recognition process according to the second embodiment will be described. In the voice recognition process of the second embodiment, when the voice recognition result by the voice recognition in the previous stage is a start keyword, the vocabulary recognized after the keyword is command-converted, and then the end keyword is voice-recognized. This is a process for ending the command conversion of the recognized vocabulary. FIG. 5 is a flowchart illustrating a voice recognition processing procedure according to the second embodiment.
先ず、音声認識処理部13aは、マイク14を介して入力された発話語彙の音声認識処理をおこない、その処理結果を音声認識処理結果判定処理部13bへと出力する(ステップS121)。続いて、音声認識処理結果判定処理部13bは、所定の記憶領域に格納される「コマンド変換フラグ」がオンであるか否かを判定する(ステップS122)。「コマンド変換フラグ」がオンであると判定された場合に(ステップS122肯定)、ステップS123へ移り、「コマンド変換フラグ」がオンであると判定されなかった場合に(ステップS122否定)、ステップS126へ移る。
First, the speech
ステップS123では、音声認識処理結果判定処理部13bは、終了キーワード辞書12dを参照し、音声認識処理部13aから入力された音声認識結果が終了キーワードであるか否かを判定する。音声認識処理部13aから入力された音声認識結果が終了キーワードであると判定された場合に(ステップS123肯定)、ステップS124へ移り、音声認識処理部13aから入力された音声認識結果が終了キーワードであると判定されなかった場合に(ステップS123否定)、ステップS125へ移る。
In step S123, the speech recognition processing result determination processing unit 13b refers to the end keyword dictionary 12d and determines whether or not the speech recognition result input from the speech
ステップS124では、音声認識処理結果判定処理部13bは、所定の記憶領域に格納される「コマンド変換フラグ」をオフにする。ステップS125では、音声認識処理部13aは、音声認識処理結果判定処理部13bによる判定処理結果に基づき、入力された発話語彙の音声認識処理結果をコマンド変換出力処理部13cへ受け渡す。
In step S124, the speech recognition processing result determination processing unit 13b turns off the “command conversion flag” stored in the predetermined storage area. In step S125, the speech
一方、ステップS126では、音声認識処理結果判定処理部13bは、開始キーワード辞書12cを参照し、音声認識処理部13aから入力された音声認識結果が開始キーワードであるか否かを判定する。音声認識処理部13aから入力された音声認識結果が開始キーワードであると判定された場合に(ステップS126肯定)、ステップS127へ移り、音声認識処理部13aから入力された音声認識結果が開始キーワードであると判定されなかった場合に(ステップS126否定)、ステップS129へ移る。
On the other hand, in step S126, the speech recognition processing result determination processing unit 13b refers to the start keyword dictionary 12c and determines whether or not the speech recognition result input from the speech
ステップS127では、音声認識処理部13aは、音声認識処理結果判定処理部13bによる判定処理結果に基づき、入力された発話語彙の音声認識処理結果をコマンド変換出力処理部13cへ受け渡す。続いて、音声認識処理結果判定処理部13bは、所定の記憶領域に格納される「コマンド変換フラグ」をオンにする(ステップS128)この処理が終了すると、ステップS129へ移る。
In step S127, the speech
ステップS129では、音声認識処理部13aは、音声認識結果のコマンド変換出力処理部13cへの出力を終了するか否かを判定し、音声認識結果のコマンド変換出力処理部13cへの出力を終了する場合は(ステップS129肯定)、実施例2の音声認識処理は終了し、音声認識結果のコマンド変換出力処理部13cへの出力を終了しない場合は(ステップS129否定)、ステップS121へ移る。
In step S129, the speech
以下に図6〜図9を参照して、本発明にかかる実施例3を説明する。実施例3は、車両の搭乗者による発話語彙の常時音声認識において、特定のカテゴリの語彙が一定時間において音声認識された語彙のなかで所定割合を占める、あるいは特定のカテゴリの語彙が一定回数連続して音声認識されると、これらの条件が充足された以降に音声認識された発話語彙を、カーナビゲーション装置などを制御可能なコマンドへ変換するために所定のコマンド変換部へと受け渡する実施例である。以下は、実施例1または2実施例との差異のみを説明することとする。 A third embodiment according to the present invention will be described below with reference to FIGS. In the third embodiment, in the continuous speech recognition of the utterance vocabulary by the vehicle occupant, the vocabulary in the specific category occupies a predetermined ratio among the vocabulary recognized in a certain time, or the vocabulary in the specific category continues for a certain number of times. When speech recognition is performed, an utterance vocabulary recognized after the above conditions are satisfied is transferred to a predetermined command conversion unit to convert the car navigation device into a controllable command. It is an example. In the following, only the differences from the first or second embodiment will be described.
先ず、実施例3にかかる音声認識装置の構成について説明する。図6は、実施例3にかかる音声認識装置の構成を示す機能ブロック図である。実施例3の音声認識装置10cは、実施例1の音声認識装置10aと比較して、記憶部12においてキーワード辞書12aに代えて語彙カテゴリ分類テーブル12eおよび認識語彙格納バッファ12fが含まれる構成となっている。これらの構成以外は、実施例3の音声認識装置10cは、実施例1の音声認識装置10aと同一であるので、説明を省略する。
First, the configuration of the speech recognition apparatus according to the third embodiment will be described. FIG. 6 is a functional block diagram of the configuration of the speech recognition apparatus according to the third embodiment. Compared with the speech recognition device 10a of the first embodiment, the speech recognition device 10c of the third embodiment includes a vocabulary category classification table 12e and a recognized vocabulary storage buffer 12f in the
語彙カテゴリ分類テーブル12eは、音声認識された発話語彙にその所属カテゴリを少なくとも一つ対応付けて記憶するテーブルである。例えば図7にそのテーブル例を示すように、「語彙」“そば”には、「所属カテゴリ」として“食事”、“和食”などが対応付けられている。また、「語彙」“目的地”には、「所属カテゴリ」として“ナビ”、“地図”などが対応付けられている。「語彙」“xxテレビ局”には、「所属カテゴリ」として“テレビ”、“オーディオ”などが対応付けられている。 The vocabulary category classification table 12e is a table that stores at least one affiliation category associated with a speech-recognized utterance vocabulary. For example, as shown in the table example in FIG. 7, “meal”, “Japanese food”, and the like are associated with “vocabulary” and “soba” as “affiliation category”. In addition, “navigation”, “map”, and the like are associated with “vocabulary” and “destination” as “affiliation category”. “Vocabulary” “xx television station” is associated with “TV”, “audio”, etc. as “affiliation category”.
このように、音声認識処理結果判定処理部13bによって語彙カテゴリ分類テーブル12eに含まれると判定された語彙は、該語彙カテゴリ分類テーブル12eに基づきその所属カテゴリが少なくとも一つ取得されることとなる。 As described above, at least one affiliation category of the vocabulary determined to be included in the vocabulary category classification table 12e by the speech recognition processing result determination processing unit 13b is acquired based on the vocabulary category classification table 12e.
認識語彙格納バッファ12fは、音声認識処理部13aによって連続して音声認識がなされた語彙を所定数(例えば、500語彙など)だけバッファリングする記憶領域である。この認識語彙格納バッファ12fにバッファリングされる語彙は、先入れ先出しによって管理され、前述の所定数を超えて新たに音声認識された語彙が格納されようとしたならば、時間的に最も古く格納された語彙を消去して該新たに音声認識された語彙が格納される。
The recognized vocabulary storage buffer 12f is a storage area for buffering a predetermined number (for example, 500 vocabularies) of words that have been continuously recognized by the speech
次に、実施例3の音声認識処理(その1)について説明する。実施例3の音声認識処理(その3)は、認識語彙格納バッファ12fにバッファリングされている音声認識結果の語彙のうち同一の所属カテゴリである語彙の割合が所定閾値以上であると判定される場合に、その判定以後に音声認識された語彙をコマンド変換する場合の処理である。図8は、実施例3の音声認識処理手順(その1)を示すフローチャートである。 Next, the speech recognition process (No. 1) according to the third embodiment will be described. In the speech recognition process (No. 3) of the third embodiment, it is determined that the ratio of the vocabulary belonging to the same category among the vocabulary of the speech recognition result buffered in the recognized vocabulary storage buffer 12f is equal to or greater than a predetermined threshold. In this case, the vocabulary recognized after the determination is command-converted. FIG. 8 is a flowchart illustrating the speech recognition processing procedure (part 1) according to the third embodiment.
先ず、音声認識処理部13aは、マイク14を介して入力された発話語彙の音声認識処理をおこない、その処理結果を音声認識処理結果判定処理部13bへと出力する(ステップS131)。続いて、音声認識処理結果判定処理部13bは、語彙カテゴリ分類テーブル12eを参照して、入力された音声認識結果の語彙の所属カテゴリを取得する(ステップS132)。
First, the speech
続いて、音声認識処理結果判定処理部13bは、入力された音声認識結果を、認識語彙格納バッファ12fに所定数(例えば、500語彙など)だけバッファリングする(ステップS133)。 Subsequently, the speech recognition processing result determination processing unit 13b buffers the input speech recognition result by a predetermined number (for example, 500 vocabulary) in the recognized vocabulary storage buffer 12f (step S133).
続いて、音声認識処理結果判定処理部13bは、認識語彙格納バッファ12fにバッファリングされている音声認識結果の語彙のうち同一所属カテゴリの語彙の割合が所定閾値以上(例えば、80%など)であるか否かを判定する(ステップS134)。認識語彙格納バッファ12fにバッファリングされている音声認識結果の語彙のうち同一所属カテゴリの語彙の割合が所定閾値以上と判定された場合に(ステップS134肯定)、ステップS135へ移り、認識語彙格納バッファ12fにバッファリングされている音声認識結果の語彙のうち同一所属カテゴリの語彙の割合が所定閾値以上であると判定さなかった場合に(ステップS134否定)、ステップS137へ移る。 Subsequently, the speech recognition processing result determination processing unit 13b determines that the ratio of the vocabulary of the same category among the vocabulary of the speech recognition result buffered in the recognition vocabulary storage buffer 12f is equal to or higher than a predetermined threshold (for example, 80%). It is determined whether or not there is (step S134). When it is determined that the ratio of the vocabulary of the same category belongs to the vocabulary of the same affiliation category among the vocabulary of the speech recognition result buffered in the recognition vocabulary storage buffer 12f (Yes in step S134), the process proceeds to step S135, and the recognition vocabulary storage buffer If it is not determined that the vocabulary of the same affiliation category among the vocabulary of the speech recognition result buffered in 12f is greater than or equal to the predetermined threshold (No at step S134), the process proceeds to step S137.
ステップS135では、音声認識処理部13aは、音声認識処理結果判定処理部13bによる判定処理結果に基づき、入力された発話語彙の音声認識処理結果をコマンド変換出力処理部13cへ受け渡す。続いて、音声認識処理結果判定処理部13bは、所定の記憶領域に格納される「コマンド変換フラグ」をオンにする(ステップS136)。この処理が終了すると、ステップS141へ移る。
In step S135, the speech
一方、ステップS137では、音声認識処理結果判定処理部13bは、所定の記憶領域に格納される「コマンド変換フラグ」がオンであるか否かを判定する。「コマンド変換フラグ」がオンであると判定された場合に(ステップS137肯定)、ステップS138へ移り、「コマンド変換フラグ」がオンであると判定されなかった場合に(ステップS137否定)、ステップS139へ移る。 On the other hand, in step S137, the speech recognition processing result determination processing unit 13b determines whether or not the “command conversion flag” stored in the predetermined storage area is on. When it is determined that the “command conversion flag” is on (Yes at step S137), the process proceeds to step S138. When it is not determined that the “command conversion flag” is on (No at step S137), step S139 is performed. Move on.
続いて、音声認識処理結果判定処理部13bは、認識語彙格納バッファ12fにバッファリングされている音声認識結果の語彙のうち同一所属カテゴリの語彙の割合が所定閾値以上であると所定回数判定されなかったか(すなわち、ステップS134否定が所定回数連続したか)否かを判定する(ステップS139)。ステップS134否定が所定回数連続した場合に(ステップS139肯定)、音声認識処理結果判定処理部13bは、所定の記憶領域に格納される「コマンド変換フラグ」をオフにし(ステップS140)、ステップS134否定が所定回数連続しなかった場合に(ステップS139否定)、ステップS141へ移る。 Subsequently, the speech recognition processing result determination processing unit 13b does not determine the predetermined number of times that the vocabulary of the same affiliation category in the vocabulary of the speech recognition result buffered in the recognition vocabulary storage buffer 12f is equal to or greater than a predetermined threshold. (That is, whether negative in step S134 has continued for a predetermined number of times) or not (step S139). When step S134 is negative for a predetermined number of times (Yes at step S139), the speech recognition processing result determination processing unit 13b turns off the “command conversion flag” stored in the predetermined storage area (step S140), and negative at step S134. Does not continue for a predetermined number of times (No at step S139), the process proceeds to step S141.
ステップS141では、音声認識処理部13aは、音声認識結果のコマンド変換出力処理部13cへの出力を終了するか否かを判定し、音声認識結果のコマンド変換出力処理部13cへの出力を終了する場合は(ステップS141肯定)、実施例3の音声認識処理は終了し、音声認識結果のコマンド変換出力処理部13cへの出力を終了しない場合は(ステップS141否定)、ステップS131へ移る。
In step S141, the speech
以上のステップS134の判定処理によって、発話語彙のカテゴリ分類による発話内容の傾向がある時間内にある程度現れた場合に、音声認識結果をコマンド変換処理部へと受け渡してコマンド変換をおこなうようにし、ステップS139の判定処理によって、発話語彙のカテゴリ分類による発話内容の傾向が現れなくなった場合に、音声認識結果をコマンド変換処理部へと受け渡すことをキャンセルしてコマンド変換をおこなわせないように制御することが可能になる。 When the determination processing in step S134 described above shows some tendency in the content of the utterance content due to the categorization of the utterance vocabulary, the speech recognition result is transferred to the command conversion processing unit, and the command conversion is performed. When the tendency of the utterance contents due to the categorization of the utterance vocabulary does not appear as a result of the determination process of S139, control is performed so that the command conversion is not performed by transferring the speech recognition result to the command conversion processing unit. It becomes possible.
なお、ステップS134の判定条件として、「認識語彙格納バッファ12fにバッファリングされている音声認識結果の語彙のうち同一所属カテゴリの語彙の割合が所定閾値以上であるか否か」に代えて「認識語彙格納バッファ12fにバッファリングされている音声認識結果の語彙のうち同一所属カテゴリの語彙が所定数連続しているか否か」を採用してもよい。これを図8のステップS134に代えてステップS134aとする(図9参照)。 In addition, instead of “whether or not the ratio of the vocabulary of the same affiliation category among the vocabulary of the speech recognition result buffered in the recognized vocabulary storage buffer 12f is a predetermined threshold or more” It may be adopted whether or not a predetermined number of vocabularies of the same category belong to the vocabulary of the speech recognition result buffered in the vocabulary storage buffer 12f. This is changed to step S134a in place of step S134 in FIG. 8 (see FIG. 9).
これに応じて、図8のステップS139の判定条件として、「認識語彙格納バッファ12fにバッファリングされている音声認識結果の語彙のうち同一所属カテゴリの語彙の割合が所定閾値以上であると所定回数判定されなかったか(すなわち、ステップS134否定が所定回数連続したか)否か」に代えて「認識語彙格納バッファ12fにバッファリングされている音声認識結果の語彙のうち同一所属カテゴリの語彙が所定数連続していると所定回数判定されなかったか(すなわち、ステップS134a否定が所定回数連続したか)否か」を採用することとなる。これを図8のステップS139に代えてステップS139aとする(図9参照)。 Accordingly, the determination condition in step S139 of FIG. 8 is that “the ratio of the vocabulary of the same affiliation category in the vocabulary of the speech recognition result buffered in the recognized vocabulary storage buffer 12f is a predetermined number of times or more. Instead of whether or not determination is made (that is, whether or not the negative in step S134 is continued for a predetermined number of times), a predetermined number of vocabularies of the same category belong to the vocabulary of the speech recognition result buffered in the recognized vocabulary storage buffer 12f Whether or not the predetermined number of times is determined to be continuous (that is, whether or not negative in step S134a has been continued a predetermined number of times) is adopted. This is replaced with step S139 in FIG. 8 and is referred to as step S139a (see FIG. 9).
以上のステップS134aの判定処理によって、発話語彙のカテゴリ分類による発話内容に一時的な強い傾向が現れた場合に、音声認識結果をコマンド変換処理部へと受け渡してコマンド変換をおこなうようにし、ステップS139aの判定処理によって、発話語彙のカテゴリ分類による発話内容の一時的な強い傾向が現れなくなった場合に、音声認識結果をコマンド変換処理部へと受け渡すことをキャンセルしてコマンド変換をおこなわせないように制御することが可能になる。 When a strong tendency appears temporarily in the utterance content by the category classification of the utterance vocabulary by the determination processing in the above step S134a, the voice recognition result is transferred to the command conversion processing unit to perform command conversion, and step S139a. If there is no temporary strong tendency of the utterance content due to the categorization of the utterance vocabulary by the judgment processing of, the transfer of the speech recognition result to the command conversion processing unit is canceled and the command conversion is not performed. It becomes possible to control.
以上、本発明の実施例を説明したが、本発明は、これに限られるものではなく、特許請求の範囲に記載した技術的思想の範囲内で、更に種々の異なる実施例で実施されてもよいものである。また、実施例に記載した効果は、これに限定されるものではない。 As mentioned above, although the Example of this invention was described, this invention is not limited to this, In the range of the technical idea described in the claim, even if it implements in a various different Example, it is. It ’s good. Moreover, the effect described in the Example is not limited to this.
また、上記実施例において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記実施例で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。 In addition, among the processes described in the above embodiment, all or part of the processes described as being automatically performed can be manually performed, or the processes described as being manually performed can be performed. All or a part can be automatically performed by a known method. In addition, the processing procedure, control procedure, specific name, information including various data and parameters shown in the above embodiment can be arbitrarily changed unless otherwise specified.
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。 Each component of each illustrated device is functionally conceptual and does not necessarily need to be physically configured as illustrated. In other words, the specific form of distribution / integration of each device is not limited to that shown in the figure, and all or a part thereof may be functionally or physically distributed or arbitrarily distributed in arbitrary units according to various loads or usage conditions. Can be integrated and configured.
さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPU(Central Processing Unit)(またはMPU(Micro Processing Unit)、MCU(Micro Controller Unit)などのマイクロ・コンピュータ)および当該CPU(またはMPU、MCUなどのマイクロ・コンピュータ)にて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現されてもよい。 Furthermore, each or all of the processing functions performed in each device are entirely or partially a CPU (Central Processing Unit) (or a microcomputer such as an MPU (Micro Processing Unit) or MCU (Micro Controller Unit)) and It may be realized by a program that is analyzed and executed by the CPU (or a microcomputer such as MPU or MCU), or may be realized as hardware by wired logic.
本発明は、音声認識装置において、車載装置へ向かってその制御のために発話する発話者をトークスイッチの押下操作のわずらわしさから開放し、かつ該発話が車載装置に対するものであるか否かを明確に認識して誤作動を起こさないようにしたい場合に有用である。 According to the present invention, in a voice recognition device, a speaker who speaks for control to an in-vehicle device is released from the troublesome operation of pressing the talk switch, and whether or not the utterance is for the in-vehicle device. This is useful when you want to clearly recognize and avoid malfunctions.
1 車両
10a 音声認識装置
10b 音声認識装置
10c 音声認識装置
11a 表示部
11b 音声発生部
12 記憶部
12a キーワード辞書
12b 音声認識辞書
12c 開始キーワード辞書
12d 終了キーワード辞書
12e 語彙カテゴリ分類テーブル
12f 認識語彙格納バッファ
13 制御部
13a 音声認識処理部
13b 音声認識処理結果判定処理部
13c コマンド変換出力処理部
14 マイク
20 カーナビゲーション装置
1 vehicle 10a speech recognition device 10b speech recognition device 10c
Claims (10)
前記音声認識手段によって音声認識された発話語彙が前記車載装置へ向けられた発話であるか否かを判定する音声認識結果判定手段をさらに有し、
前記音声認識手段は、前記音声認識手段によって音声認識された発話語彙が前記車載装置へ向けられた発話であると前記音声認識結果判定手段により判定された場合にのみ該音声認識した発話語彙を前記コマンド変換手段へと受け渡すことを特徴とする音声認識装置。 Speech recognition means for recognizing speech vocabulary spoken by a passenger of the vehicle, and command conversion means for converting the speech vocabulary recognized by the speech recognition means into a corresponding command and delivering it to the in-vehicle device A voice recognition device comprising:
Further comprising speech recognition result determination means for determining whether the utterance vocabulary recognized by the voice recognition means is an utterance directed to the in-vehicle device;
The speech recognition means determines the speech vocabulary recognized by the speech recognition only when the speech recognition result determination means determines that the utterance vocabulary recognized by the speech recognition means is an utterance directed to the in-vehicle device. A speech recognition device, wherein the speech recognition device is passed to a command conversion means.
前記発話語彙に、該発話語彙が属するカテゴリを対応付けて記憶する語彙カテゴリ記憶手段と
をさらに有し、
前記音声認識手段は、前記バッファリング手段にバッファリングされる発話語彙のカテゴリに基づいて、音声認識された発話語彙が前記車載装置へ向けられた発話であると前記音声認識結果判定手段により判定された場合にのみ該音声認識した発話語彙を前記コマンド変換手段へと受け渡すことを特徴とする請求項1に記載の音声認識装置。 Buffering means for buffering a predetermined number of speech vocabularies recognized by the voice recognition means;
Vocabulary category storage means for storing the utterance vocabulary in association with the category to which the utterance vocabulary belongs, and
The voice recognition means is determined by the voice recognition result determination means that the utterance vocabulary that has been voice-recognized is an utterance directed to the in-vehicle device based on the category of the utterance vocabulary buffered in the buffering means. 2. The speech recognition apparatus according to claim 1, wherein the speech vocabulary that has been speech-recognized is transferred to the command conversion means only when the speech recognition is performed.
前記音声認識工程によって音声認識された発話語彙が前記車載装置へ向けられた発話であるか否かを判定する音声認識結果判定工程をさらに含み、
前記音声認識工程は、前記音声認識工程によって音声認識された発話語彙が前記車載装置へ向けられた発話であると前記音声認識結果判定工程により判定された場合にのみ、該音声認識した発話語彙を前記コマンド変換肯定へと受け渡すことを特徴とする音声認識方法。 A speech recognition step for recognizing an utterance vocabulary spoken by a vehicle occupant, and a command conversion step for converting the utterance vocabulary recognized by the speech recognition means into a corresponding command and transferring it to an in-vehicle device. A speech recognition method including:
A speech recognition result determination step of determining whether or not the utterance vocabulary recognized by the speech recognition step is an utterance directed to the in-vehicle device;
In the speech recognition step, only when the speech recognition result determination step determines that the speech vocabulary speech-recognized by the speech recognition step is an utterance directed to the in-vehicle device, the speech recognition speech vocabulary is The speech recognition method, wherein the command conversion is passed to the positive.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007155212A JP2008309864A (en) | 2007-06-12 | 2007-06-12 | Voice recognition device and voice recognition method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007155212A JP2008309864A (en) | 2007-06-12 | 2007-06-12 | Voice recognition device and voice recognition method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008309864A true JP2008309864A (en) | 2008-12-25 |
Family
ID=40237550
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007155212A Pending JP2008309864A (en) | 2007-06-12 | 2007-06-12 | Voice recognition device and voice recognition method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008309864A (en) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014232289A (en) * | 2013-05-30 | 2014-12-11 | 三菱電機株式会社 | Guide voice adjustment device, guide voice adjustment method and guide voice adjustment program |
WO2014208231A1 (en) * | 2013-06-28 | 2014-12-31 | 株式会社ATR-Trek | Voice recognition client device for local voice recognition |
JP2015501106A (en) * | 2011-12-07 | 2015-01-08 | クゥアルコム・インコーポレイテッドQualcomm Incorporated | Low power integrated circuit for analyzing digitized audio streams |
JP2016076007A (en) * | 2014-10-03 | 2016-05-12 | 株式会社Nttドコモ | Interactive apparatus and interactive method |
JPWO2015029304A1 (en) * | 2013-08-29 | 2017-03-02 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | Speech recognition method and speech recognition apparatus |
US9992745B2 (en) | 2011-11-01 | 2018-06-05 | Qualcomm Incorporated | Extraction and analysis of buffered audio data using multiple codec rates each greater than a low-power processor rate |
JP2022095759A (en) * | 2013-02-07 | 2022-06-28 | アップル インコーポレイテッド | Voice trigger for digital assistant |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0497400A (en) * | 1990-08-16 | 1992-03-30 | Fujitsu Ten Ltd | Voice recognition device |
JP2001296891A (en) * | 2000-04-14 | 2001-10-26 | Mitsubishi Electric Corp | Method and device for voice recognition |
JP2002132290A (en) * | 2000-10-24 | 2002-05-09 | Kenwood Corp | On-vehicle speech recognizer |
JP2002372986A (en) * | 2002-05-09 | 2002-12-26 | Denso Corp | Voice recognizing device and navigation system |
JP2004069426A (en) * | 2002-08-05 | 2004-03-04 | Matsushita Electric Ind Co Ltd | Navigation apparatus |
JP2005157086A (en) * | 2003-11-27 | 2005-06-16 | Matsushita Electric Ind Co Ltd | Speech recognition device |
JP2005229420A (en) * | 2004-02-13 | 2005-08-25 | Toshiba Corp | Voice input device |
JP2005234332A (en) * | 2004-02-20 | 2005-09-02 | Honda Motor Co Ltd | Electronic equipment controller |
-
2007
- 2007-06-12 JP JP2007155212A patent/JP2008309864A/en active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0497400A (en) * | 1990-08-16 | 1992-03-30 | Fujitsu Ten Ltd | Voice recognition device |
JP2001296891A (en) * | 2000-04-14 | 2001-10-26 | Mitsubishi Electric Corp | Method and device for voice recognition |
JP2002132290A (en) * | 2000-10-24 | 2002-05-09 | Kenwood Corp | On-vehicle speech recognizer |
JP2002372986A (en) * | 2002-05-09 | 2002-12-26 | Denso Corp | Voice recognizing device and navigation system |
JP2004069426A (en) * | 2002-08-05 | 2004-03-04 | Matsushita Electric Ind Co Ltd | Navigation apparatus |
JP2005157086A (en) * | 2003-11-27 | 2005-06-16 | Matsushita Electric Ind Co Ltd | Speech recognition device |
JP2005229420A (en) * | 2004-02-13 | 2005-08-25 | Toshiba Corp | Voice input device |
JP2005234332A (en) * | 2004-02-20 | 2005-09-02 | Honda Motor Co Ltd | Electronic equipment controller |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9992745B2 (en) | 2011-11-01 | 2018-06-05 | Qualcomm Incorporated | Extraction and analysis of buffered audio data using multiple codec rates each greater than a low-power processor rate |
US9564131B2 (en) | 2011-12-07 | 2017-02-07 | Qualcomm Incorporated | Low power integrated circuit to analyze a digitized audio stream |
US11810569B2 (en) | 2011-12-07 | 2023-11-07 | Qualcomm Incorporated | Low power integrated circuit to analyze a digitized audio stream |
JP2015501106A (en) * | 2011-12-07 | 2015-01-08 | クゥアルコム・インコーポレイテッドQualcomm Incorporated | Low power integrated circuit for analyzing digitized audio streams |
US11069360B2 (en) | 2011-12-07 | 2021-07-20 | Qualcomm Incorporated | Low power integrated circuit to analyze a digitized audio stream |
US10381007B2 (en) | 2011-12-07 | 2019-08-13 | Qualcomm Incorporated | Low power integrated circuit to analyze a digitized audio stream |
JP2022095759A (en) * | 2013-02-07 | 2022-06-28 | アップル インコーポレイテッド | Voice trigger for digital assistant |
US12009007B2 (en) | 2013-02-07 | 2024-06-11 | Apple Inc. | Voice trigger for a digital assistant |
JP7577816B2 (en) | 2013-02-07 | 2024-11-05 | アップル インコーポレイテッド | Voice Triggers for Digital Assistants |
US11862186B2 (en) | 2013-02-07 | 2024-01-02 | Apple Inc. | Voice trigger for a digital assistant |
JP7101322B2 (en) | 2013-02-07 | 2022-07-14 | アップル インコーポレイテッド | Voice trigger for digital assistant |
US11557310B2 (en) | 2013-02-07 | 2023-01-17 | Apple Inc. | Voice trigger for a digital assistant |
US11636869B2 (en) | 2013-02-07 | 2023-04-25 | Apple Inc. | Voice trigger for a digital assistant |
JP2014232289A (en) * | 2013-05-30 | 2014-12-11 | 三菱電機株式会社 | Guide voice adjustment device, guide voice adjustment method and guide voice adjustment program |
CN105408953A (en) * | 2013-06-28 | 2016-03-16 | 株式会社ATR-Trek | Voice recognition client device for local voice recognition |
JP2015011170A (en) * | 2013-06-28 | 2015-01-19 | 株式会社ATR−Trek | Voice recognition client device performing local voice recognition |
WO2014208231A1 (en) * | 2013-06-28 | 2014-12-31 | 株式会社ATR-Trek | Voice recognition client device for local voice recognition |
US10446151B2 (en) | 2013-08-29 | 2019-10-15 | Panasonic Intellectual Property Corporation Of America | Speech recognition method and speech recognition apparatus |
JPWO2015029304A1 (en) * | 2013-08-29 | 2017-03-02 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | Speech recognition method and speech recognition apparatus |
JP2016076007A (en) * | 2014-10-03 | 2016-05-12 | 株式会社Nttドコモ | Interactive apparatus and interactive method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2008309864A (en) | Voice recognition device and voice recognition method | |
EP2894633B1 (en) | Image display apparatus | |
US8005681B2 (en) | Speech dialog control module | |
US8738368B2 (en) | Speech processing responsive to a determined active communication zone in a vehicle | |
JP2009020423A (en) | Speech recognition device and speech recognition method | |
WO2012137263A1 (en) | Voice recognition device and navigation device | |
US8010359B2 (en) | Speech recognition system, speech recognition method and storage medium | |
US9812129B2 (en) | Motor vehicle device operation with operating correction | |
JP2016161754A (en) | Vehicle-mounted device | |
US11521612B2 (en) | Vehicle control apparatus and method using speech recognition | |
WO2016157782A1 (en) | Speech recognition system, speech recognition device, speech recognition method, and control program | |
CN111199735A (en) | Vehicle-mounted device and voice recognition method | |
JP6459330B2 (en) | Speech recognition apparatus, speech recognition method, and speech recognition program | |
US7853448B2 (en) | Electronic instrument for speech recognition with standby time shortening and acoustic model deletion | |
JP4056711B2 (en) | Voice recognition device | |
JP3916861B2 (en) | Voice recognition device | |
JP6673243B2 (en) | Voice recognition device | |
JP2019211599A (en) | Voice recognition device, voice recognition method, and program | |
JP2008309865A (en) | Voice recognition device and voice recognition method | |
US20190189119A1 (en) | Electronic device | |
TWI270850B (en) | Voice-controlled vehicle control method and system with restricted condition for assisting recognition | |
JP6996944B2 (en) | Speech recognition system | |
WO2023157783A1 (en) | Information processing device, information processing method, program, and recording medium | |
JP4487298B2 (en) | Voice recognition device | |
WO2024029192A1 (en) | Speech command reception device and speech command reception method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100520 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110407 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110909 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111004 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120221 |