JP2008046570A - Voice input system - Google Patents
Voice input system Download PDFInfo
- Publication number
- JP2008046570A JP2008046570A JP2006224689A JP2006224689A JP2008046570A JP 2008046570 A JP2008046570 A JP 2008046570A JP 2006224689 A JP2006224689 A JP 2006224689A JP 2006224689 A JP2006224689 A JP 2006224689A JP 2008046570 A JP2008046570 A JP 2008046570A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- voice recognition
- content
- instruction
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、音声入力システムに関する。 The present invention relates to a voice input system.
従来、音声によって操作指令を入力できるコントロールシステムが開発されている。特許文献1(特開2006−33795号公報)には、音声入力を用いたリモートコントロールシステムが記載されている。当該文献に記載された技術では、リモコン端末から音声入力があると、音声認識部にて音声認識され、キーワードが抽出される。このキーワードをもとに選択候補となり得る制御項目が検索される。この制御項目がテレビ画面上に表示される。ユーザは、リモコン端末をポインティングデバイスとして用いて、表示された制御項目のうち、所望の制御項目を選択指示できる。ユーザが操作キーの選択キーを操作すると、当該制御項目の制御コードが取得され、テレビに送信される。これにより、簡易な操作によって目的とする操作指令を入力することができる。
しかし、特許文献1に記載の技術では、音声入力を行った後、操作指令を選択するためには、リモコン端末の操作キー等を操作する必要がある。そのため、たとえばユーザが身体障害を有していたりして音声入力しか行えないような場合、操作を行うことができないという問題があった。 However, in the technique described in Patent Document 1, it is necessary to operate an operation key or the like of a remote control terminal in order to select an operation command after performing voice input. Therefore, for example, when the user has a physical disability and can only perform voice input, there is a problem that the operation cannot be performed.
本発明は上記事情に鑑みてなされたものであり、その目的とするところは、ユーザが音声入力により簡易かつ精度よく指示を行う技術を提供することにある。 The present invention has been made in view of the above circumstances, and an object of the present invention is to provide a technique in which a user gives instructions simply and accurately by voice input.
本発明によれば、
ユーザの音声の音声データを入力する音声入力部と、
前記音声入力部が入力した音声データを、通常モードおよび確認モードの少なくとも2種のモードで音声認識する音声認識処理部と、
前記音声認識処理部が前記通常モードで音声認識した結果に基づき、前記ユーザからの指示内容を推定するとともに前記音声認識処理部を前記確認モードに移行させる指示受付部と、
前記指示受付部による前記推定を提示するとともに、当該推定の正否を前記ユーザに発話させるため、前記ユーザに発話させる内容を提示する提示処理部と、
を含み、
前記音声認識処理部は、前記確認モードに移行中に前記音声入力部から音声データが入力されると、当該音声データを前記提示処理部が提示した前記内容と比較して音声認識を行い、
前記指示受付部は、前記音声認識処理部が前記確認モードで音声認識した結果に基づき、前記ユーザが前記推定が正しいことを確認したか否かを検出し、当該推定が正しいことが確認された場合に前記指示内容を確定して指示として受け付ける音声入力システムが提供される。
According to the present invention,
A voice input unit for inputting voice data of the user's voice;
A speech recognition processing unit that recognizes speech data input by the speech input unit in at least two modes of a normal mode and a confirmation mode;
An instruction receiving unit that estimates the instruction content from the user and shifts the voice recognition processing unit to the confirmation mode based on a result of the voice recognition processing unit performing voice recognition in the normal mode;
In order to present the estimation by the instruction receiving unit and to cause the user to utter the correctness of the estimation, a presentation processing unit that presents the content to be uttered by the user;
Including
When voice data is input from the voice input unit during the transition to the confirmation mode, the voice recognition processing unit performs voice recognition by comparing the voice data with the content presented by the presentation processing unit,
The instruction receiving unit detects whether or not the user has confirmed that the estimation is correct based on a result of the voice recognition processing unit performing voice recognition in the confirmation mode, and it has been confirmed that the estimation is correct. In some cases, a voice input system is provided that accepts the instruction content and accepts it as an instruction.
この構成によれば、ユーザの音声の音声認識結果に基づき、指示を推定し、推定結果を提示して、それが正しいか否かをユーザに再度音声入力させる。2回目の入力は、認識精度が高まるため、ユーザからの指示を音声だけで精度よく受け付けることができる。本発明の音声入力システムによれば、このように、音声入力のみで指示を行うことができるので、ユーザは必要な情報を発話するだけで、所望の処理を指示することができる。 According to this configuration, the instruction is estimated based on the voice recognition result of the user's voice, the estimation result is presented, and the user is again input by voice whether or not it is correct. Since the second input increases the recognition accuracy, an instruction from the user can be accurately received only by voice. According to the voice input system of the present invention, since an instruction can be given only by voice input, the user can instruct a desired process only by speaking the necessary information.
本発明の音声入力システムは、前記提示処理部が提示した前記内容を記憶する記憶部をさらに含むことができ、前記音声認識処理部は、前記確認モードにおいて、前記記憶部を参照して、前記音声入力部から入力された前記音声データと前記内容とを比較することができる。 The voice input system of the present invention may further include a storage unit that stores the content presented by the presentation processing unit, and the voice recognition processing unit refers to the storage unit in the confirmation mode, and The voice data input from the voice input unit can be compared with the content.
本発明の音声入力システムにおいて、前記指示受付部は、前記音声認識処理部が前記通常モードで音声認識した結果に基づき、前記ユーザからの指示内容を推定し、当該推定の結果を示す一般的な用語を決定することができ、前記提示処理部は、前記指示受付部が決定した前記一般的な用語を前記ユーザに発話させる前記内容として提示することができる。 In the voice input system of the present invention, the instruction receiving unit estimates a content of the instruction from the user based on a result of the voice recognition processing unit performing voice recognition in the normal mode, and indicates a result of the estimation. A term can be determined, and the presentation processing unit can present the general term determined by the instruction receiving unit as the content that causes the user to speak.
なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。 It should be noted that any combination of the above-described constituent elements and a conversion of the expression of the present invention between a method, an apparatus, a system, a recording medium, a computer program, etc. are also effective as an aspect of the present invention.
本発明によれば、ユーザが音声入力により簡易かつ精度よく指示を行うことができる。 ADVANTAGE OF THE INVENTION According to this invention, a user can perform an instruction | indication simply and accurately by voice input.
以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. In all the drawings, the same reference numerals are given to the same components, and the description will be omitted as appropriate.
(第1の実施の形態)
図1は、本実施の形態における音声入力システム100の構成を示すブロック図である。
音声入力システム100は、音声入力部102、音声認識処理部104、指示受付部106、提示処理部112、処理部114、モード記憶部116、提示内容記憶部118、音声データ記憶部120、処理内容記憶部122、マイク130、スピーカ132、およびディスプレイ134を含む。音声入力システム100は、たとえばパーソナルコンピュータ(以下PCという)により構成することができる。マイク130、スピーカ132、およびディスプレイ134は、当該PCに内蔵あるいは有線または無線で接続された構成とすることができる。
(First embodiment)
FIG. 1 is a block diagram showing a configuration of a
The
本実施の形態において、音声入力システム100は、ユーザからの指示を音声で受け付ける。処理部114は、指示受付部106がユーザから受け付けた指示に従い、各種処理を行う。処理部114の処理はとくに限定されないが、たとえば、自動車保険等の保険契約の支援処理を行うことができる。処理内容記憶部122は、処理部114が行う処理の候補を記憶する。処理内容記憶部122の具体的な構成は後述する。
In the present embodiment,
マイク130は、ユーザの音声を取得可能な場所に設けられる。音声入力部102は、マイク130を介してユーザからの指示を音声で入力する。本実施の形態において、音声入力部102は、マイク130から入力された音声をデジタル変換する。音声データ記憶部120は、音声入力部102が入力してデジタル変換した音声のデータ(以下、単に音声データという)を記憶する。
The
音声認識処理部104は、音声入力部102が入力した音声データを、通常モードおよび確認モードの少なくとも2種のモードで音声認識する。図示していないが、音声認識処理部104は、一般的な音声認識プログラムが有する辞書等を有する。通常モードとは、一般的な音声認識プログラムと同様の音声認識処理のことである。確認モードについては後述する。
The voice
モード記憶部116は、音声認識処理部104のモードの設定を記憶する。初期状態では、モード記憶部116には通常モードが設定されている。
The
指示受付部106は、音声認識処理部104が通常モードで音声認識した結果に基づき、ユーザからの指示内容を推定する。処理内容記憶部122は、ユーザから指示される指示内容の候補を記憶する。指示受付部106は、音声認識処理部104が通常モードで音声認識した結果に基づき、処理内容記憶部122を参照して、指示内容の候補の中からユーザからの指示内容を推定する。
The
また、指示受付部106は、ユーザからの指示内容を推定するとともに、音声認識処理部104を確認モードに移行させる。具体的には、指示受付部106は、モード記憶部116の設定を通常モードから確認モードに書き換えることにより、音声認識処理部104を確認モードに移行させる。
The
提示処理部112は、指示受付部106による推定を提示するとともに、当該推定の正否をユーザに発話させるため、ユーザに発話させる内容を提示する処理を行う。提示処理部112は、提示内容記憶部118を参照して、これらをスピーカ132またはディスプレイ134によりユーザに提示する処理を行う。
The presentation processing unit 112 performs a process of presenting the content to be uttered by the user in order to present the estimation by the
図2は、処理内容記憶部122の内部構成の一例を示す図である。処理内容記憶部122は、指示内容欄と提示内容欄とを含む。提示内容欄は、確認内容欄、肯定欄、および否定欄を含む。
FIG. 2 is a diagram illustrating an example of an internal configuration of the processing
図2(a)に示すように、指示内容欄には、たとえば「契約処理開始」や「再入力」が記憶される。「契約処理開始」という指示内容に対応付けて、確認内容として「契約処理を開始します。」、当該推定を肯定する場合にユーザに発話させる内容として「はい」、当該推定を否定する場合にユーザに発話させる内容として「いいえ」が記憶される。処理内容記憶部122は、さらに複数の指示内容を記憶することができる。
As shown in FIG. 2A, for example, “contract processing start” and “re-input” are stored in the instruction content column. Corresponding to the instruction content “Contract processing start”, “Contract processing starts” as confirmation content, “Yes” as content to be uttered by the user when affirming the estimation, and denying the estimation “No” is stored as the content to be uttered by the user. The processing
図1に戻り、指示受付部106は、推定した指示内容の正否をユーザに発話させるため、ユーザに発話させる内容および推定した指示内容を提示内容記憶部118に記憶する。つまり、図2(a)に示した提示内容欄と同様の内容が提示内容記憶部118に記憶される。
Returning to FIG. 1, the
音声認識処理部104は、音声入力部102から音声データが入力されると、モード記憶部116を参照して、現在設定されているモードを確認する。音声認識処理部104は、確認モードに移行中に音声入力部102から音声データが入力されると、当該音声データを提示処理部112が提示した内容と比較して音声認識を行う。具体的には、音声認識処理部104は、提示内容記憶部118を参照して、音声入力部102から入力された音声データと提示内容記憶部118に記憶された内容とを比較する。本実施の形態において、確認モードにおいては、ユーザが発話する内容がある程度特定できているので、精度よく音声認識を行うことができる。
When voice data is input from the
指示受付部106は、音声認識処理部104が確認モードで音声認識した結果に基づき、ユーザが推定が正しいことを確認したか否かを検出し、当該推定が正しいことが確認された場合に指示内容を確定して指示として受け付ける。処理部114は、指示受付部106が指示内容を確定すると、その指示に基づき処理を行う。
The
図3は、本実施の形態における音声入力システム100の処理手順を示すフローチャートである。
FIG. 3 is a flowchart showing a processing procedure of the
音声入力部102が音声データを入力すると(S100のYES)、音声認識処理部104は、モード記憶部116を参照して、通常モードか確認モードかを確認する(S102)。通常モードが設定されている場合(S102のYES)、音声認識処理部104は、通常モードで音声認識処理を行う(S104)。
When the
指示受付部106は、音声認識処理部104の音声認識結果に基づき、処理内容記憶部122を参照してユーザの指示内容を推定する(S106)。指示受付部106は、推定した指示内容と、その推定を肯定するか否かを示す用語を提示内容記憶部118に記憶する(S108)。また、指示受付部106は、モード記憶部116の設定を通常モードから確認モードに書き換える。これにより、音声認識処理部104の音声認識処理が確認モードに移行される(S110)。
The
提示処理部112は、提示内容記憶部118を参照して、指示受付部106が推定した指示内容およびその推定を肯定するか否かを示す用語をスピーカ132またはディスプレイ134により提示する処理を行う(S112)。
The presentation processing unit 112 refers to the presentation
この後、音声入力部102が音声入力を受け付けると(S114のYES)、ステップS102に進む。この場合、ステップS102において、確認モードと判断され(S102のNO)、音声認識処理部104は、確認モードで音声認識処理を行う(S120)。指示受付部106は、音声認識処理部104の音声認識結果に基づき、ステップS106で推定した指示がユーザにより肯定されたか否かを判断する(S122)。推定が肯定された場合(S122のYES)、指示受付部106は、推定した指示を確定して、当該指示を受け付ける(S124)。処理部114は、指示受付部106が確定した指示に基づき処理を開始する(S125)。
Thereafter, when the
一方、ステップS122において、推定が肯定されなかった場合(S122のNO)、指示受付部106は、推定が否定されたか否かを判断する(S126)。推定が否定された場合(S126のYES)、キャンセル処理が行われる(S130)。キャンセル処理とは、ステップS100の音声入力処理が行われる前の状態に戻すことをいう。また、指示受付部106は、モード記憶部116の設定を確認モードから通常モードに書き換える。このとき、指示受付部106は、提示内容記憶部118に記憶した指示内容の推定を消去する処理をさらに行ってもよい。
On the other hand, if the estimation is not affirmed in step S122 (NO in S122), the
ステップS126において、推定が否定されなかった場合(S126のNO)、すなわちステップS114で入力された音声の音声認識が正しく行えなかった場合、指示受付部106は、モード記憶部116の設定を確認モードから通常モードに書き換える(S128)。このとき、指示受付部106は、提示内容記憶部118に記憶した指示内容の推定を消去する処理をさらに行ってもよい。この後、ステップS102に戻り、ステップS114で入力された音声を通常モードで音声認識する処理が行われる(S104)。音声認識処理部104は、音声データ記憶部120に記憶された音声データの音声認識を行う。
If the estimation is not denied in step S126 (NO in S126), that is, if the voice input in step S114 is not correctly recognized, the
一方、ステップS112の後、所定時間が経過しても音声入力がない場合(S114のNO、S116のYES)、ステップS130と同様のキャンセル処理が行われる(S118)。以上により処理が終了する。 On the other hand, after step S112, if there is no voice input even after a predetermined time has elapsed (NO in S114, YES in S116), the same canceling process as in step S130 is performed (S118). The process ends as described above.
次に、具体例を説明する。ここで、モード記憶部116は、通常モードに設定されているものとする。たとえば、ユーザが何らかの契約手続きを行う場合に、「契約するよ」と発話したとする。音声認識処理部104は、通常モードで「契約するよ」という音声データの音声認識処理を行う。
Next, a specific example will be described. Here, it is assumed that the
指示受付部106は、音声認識処理部104による音声認識結果に基づき、処理内容記憶部122を参照して、ユーザからの指示内容が「契約処理開始」であると推定する。指示受付部106は、処理内容記憶部122を参照して、提示処理部112に提示させる内容を読み出す。このとき、図2(a)に示したように設定されている場合、指示内容として「契約処理開始」、確認内容として「契約処理を開始します。」、当該推定を肯定する場合にユーザに発話させる内容として「はい」、当該推定を否定する場合にユーザに発話させる内容として「いいえ」を提示内容記憶部118に記憶する。また、指示受付部106は、モード記憶部116の設定を通常モードから確認モードに書き換える。
The
提示処理部112は、提示内容記憶部118を参照して、「契約処理を開始します。よい場合は「はい」、違う場合は「いいえ」と言ってください。」という内容をスピーカ132またはディスプレイ134によりユーザに提示する。
The presentation processing unit 112 refers to the presentation
この状態で、たとえばユーザが「はい」と発話すると、音声認識処理部104は、確認モードで音声認識処理を行う。このとき、ユーザから入力される音声は「はい」か「いいえ」である可能性が高いため、音声認識処理部104は、精度よく音声認識を行うことができる。指示受付部106は、音声認識処理部104による音声認識結果に基づき、「契約処理開始」という指示がユーザにより確認されたことを検出し、「契約処理開始」という指示を受け付ける。一方、ユーザが「はい」と発話したことが検出できなかった場合、ユーザが「いいえ」と発話したことが検出できた場合は、キャンセル処理を行う。さらに、ユーザの発話内容が検出できなかった場合は、通常モードにより再度音声認識処理を行う。その後、音声認識結果に応じて同様の処理を繰り返す。
In this state, for example, when the user utters “Yes”, the voice
指示受付部106は、提示処理部112が提示した指示に対してユーザが結果が正しいことを発話したか否かを検出し、結果が正しいことを発話したことが検出された場合に、ユーザからの指示を確定する。この後、契約処理を開始する。
The
次に、他の具体例を説明する。指示受付部106は、音声認識処理部104が通常モードで音声認識した結果に基づき、ユーザからの指示内容を推定し、当該推定の結果を示す一般的な用語を決定することができる。提示処理部112は、指示受付部106が決定した一般的な用語をユーザに発話させる内容として提示することができる。この例で動作を行う場合の処理内容記憶部122の内部構成の一例を図2(b)に示す。ここでも、指示内容欄には、たとえば「契約処理開始」が記憶される。また、契約処理開始という指示内容に対する一般的な用語として、「契約処理を開始して下さい。」が記憶される。すなわち、この指示内容に対応付けて、確認内容として「契約処理を開始します。」、それに対する肯定として「契約処理を開始して下さい。」、否定として「ちがいます。」が記憶される。
Next, another specific example will be described. The
まず、モード記憶部116は、通常モードに設定されているものとする。たとえば、ユーザが何らかの契約手続きを行う場合に、「契約するよ」と発話したとする。音声認識処理部104は、通常モードで「契約するよ」という音声データの音声認識処理を行う。
First, it is assumed that the
指示受付部106は、音声認識処理部104による音声認識結果に基づき、ユーザが「契約処理開始」という指示を行っていると推定する。指示受付部106は、処理内容記憶部122を参照して、提示処理部112に提示させる内容を読み出す。このとき、図2(b)に示したように設定されている場合、指示内容として「契約処理開始」、確認内容として「契約処理を開始します。」、当該推定を肯定する場合にユーザに発話させる内容として「契約処理を開始して下さい。」、当該推定を否定する場合にユーザに発話させる内容として「ちがいます。」を提示内容記憶部118に記憶する。また、指示受付部106は、モード記憶部116の設定を通常モードから確認モードに書き換える。
The
提示処理部112は、提示内容記憶部118を参照して、「契約処理を開始します。よい場合は「契約処理を開始して下さい。」、ちがう場合は「ちがいます。」と言ってください。」という内容をスピーカ132またはディスプレイ134によりユーザに提示する。
The presentation processing unit 112 refers to the presentation
この状態で、たとえばユーザが「契約処理を開始して下さい。」と発話すると、音声認識処理部104は、確認モードで音声認識処理を行う。このとき、ユーザから入力される音声は「契約処理を開始して下さい。」か「ちがいます。」である可能性が高いため、音声認識処理部104は、精度よく音声認識を行うことができる。指示受付部106は、音声認識処理部104による音声認識結果に基づき、「契約処理開始」という指示がユーザにより確認されたことを検出し、「契約処理開始」という指示を受け付ける。
In this state, for example, when the user speaks “Please start contract processing”, the speech
一方、ユーザが「契約処理を開始して下さい。」と発話したことが検出できなかった場合、ユーザが「ちがいます。」と発話したことが検出できた場合は、キャンセル処理を行う。さらに、ユーザの発話内容が検出できなかった場合は、通常モードにより再度音声認識処理を行う。その後、音声認識結果に応じて同様の処理を繰り返す。 On the other hand, when it is not detected that the user has uttered “Please start contract processing”, or when it is detected that the user has uttered “No”, cancel processing is performed. Furthermore, when the user's speech content cannot be detected, the speech recognition process is performed again in the normal mode. Thereafter, the same processing is repeated according to the voice recognition result.
本実施の形態における音声入力システム100によれば、音声入力のみで指示を行うことができるので、ユーザは必要な情報を発話するだけで、所望の処理を指示することができる。
According to
(第2の実施の形態)
本実施の形態において、マイクがリモコン端末に設けられた点で、第1の実施の形態と異なる。
(Second Embodiment)
This embodiment is different from the first embodiment in that a microphone is provided in the remote control terminal.
図4は、本実施の形態における音声入力システム100の構成を示す図である。
本実施の形態において、音声入力システム100は、システム本体101とリモコン端末200とを含む。システム本体101は、マイク130を有さず、受信部150を有する点以外は第1の実施の形態における音声入力システム100と同様の構成を有する。
FIG. 4 is a diagram showing a configuration of the
In the present embodiment,
リモコン端末200は、マイク202、音声変換部204、および送信部206を有する。音声変換部204は、マイク202から入力された音声をデジタル変換する。送信部206は、音声変換部204が変換した音声データをシステム本体101の受信部150に送信する。音声入力部102は、受信部150が受信した音声データを入力する。受信部150と送信部206との間の通信は、種々のネットワークを用いて行うことができるが、たとえば赤外線を用いて行うことができる。
The remote control terminal 200 includes a
また、図4では、システム本体101がスピーカ132およびディスプレイ134を含む構成を示したが、これらはシステム本体101とは別体により設けられてもよい。また、スピーカ132またはディスプレイ134のいずれか一方または両方がリモコン端末200に設けられてもよい。さらに、スピーカ132およびディスプレイ134以外でも、システム本体101の各構成要素は、一つの筐体内に設けられる必要はなく、複数の端末内に分散して設けられ、ネットワーク等を介してデータの送受信を行う構成としてもよい。
4 shows a configuration in which the system
図1および図4に示した音声入力システム100の破線で囲んだ各構成要素は、ハードウエア単位の構成ではなく、機能単位のブロックを示している。音声入力システム100の破線で囲んだ各構成要素は、任意のコンピュータのCPU、メモリ、メモリにロードされた本図の構成要素を実現するプログラム、そのプログラムを格納するハードディスクなどの記憶ユニット、ネットワーク接続用インタフェースを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。
Each component surrounded by a broken line in the
以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。 As mentioned above, although embodiment of this invention was described with reference to drawings, these are the illustrations of this invention, Various structures other than the above are also employable.
以上の実施の形態において、音声入力システム100が提示内容記憶部118と処理内容記憶部122を有する構成を説明したが、これらは一体に形成されていてよい。この場合、指示受付部106は、処理内容記憶部122に記憶された複数の指示内容のうち、ユーザからの指示があったと推定した指示内容をマーキング等して区別することができる。
In the above embodiment, the configuration in which the
以上の実施の形態において、音声入力システム100がスピーカ132およびディスプレイ134を含む構成を示したが、音声入力システム100は、スピーカ132およびディスプレイ134のいずれか一方のみを含む構成とすることもできる。
In the above embodiment, the
100 音声入力システム
101 システム本体
102 音声入力部
104 音声認識処理部
106 指示受付部
112 提示処理部
114 処理部
116 モード記憶部
118 提示内容記憶部
120 音声データ記憶部
122 処理内容記憶部
130 マイク
132 スピーカ
134 ディスプレイ
150 受信部
200 リモコン端末
202 マイク
204 音声変換部
206 送信部
DESCRIPTION OF
Claims (3)
前記音声入力部が入力した音声データを、通常モードおよび確認モードの少なくとも2種のモードで音声認識する音声認識処理部と、
前記音声認識処理部が前記通常モードで音声認識した結果に基づき、前記ユーザからの指示内容を推定するとともに前記音声認識処理部を前記確認モードに移行させる指示受付部と、
前記指示受付部による前記推定を提示するとともに、当該推定の正否を前記ユーザに発話させるため、前記ユーザに発話させる内容を提示する提示処理部と、
を含み、
前記音声認識処理部は、前記確認モードに移行中に前記音声入力部から音声データが入力されると、当該音声データを前記提示処理部が提示した前記内容と比較して音声認識を行い、
前記指示受付部は、前記音声認識処理部が前記確認モードで音声認識した結果に基づき、前記ユーザが前記推定が正しいことを確認したか否かを検出し、当該推定が正しいことが確認された場合に前記指示内容を確定して指示として受け付ける音声入力システム。 A voice input unit for inputting voice data of the user's voice;
A speech recognition processing unit that recognizes speech data input by the speech input unit in at least two modes of a normal mode and a confirmation mode;
An instruction receiving unit that estimates the instruction content from the user and shifts the voice recognition processing unit to the confirmation mode based on a result of the voice recognition processing unit performing voice recognition in the normal mode;
In order to present the estimation by the instruction receiving unit and to cause the user to utter the correctness of the estimation, a presentation processing unit that presents the content to be uttered by the user;
Including
When voice data is input from the voice input unit during the transition to the confirmation mode, the voice recognition processing unit performs voice recognition by comparing the voice data with the content presented by the presentation processing unit,
The instruction receiving unit detects whether or not the user has confirmed that the estimation is correct based on a result of the voice recognition processing unit performing voice recognition in the confirmation mode, and it has been confirmed that the estimation is correct. A voice input system that accepts the instruction content as an instruction in a case.
前記提示処理部が提示した前記内容を記憶する記憶部をさらに含み、
前記音声認識処理部は、前記確認モードにおいて、前記記憶部を参照して、前記音声入力部から入力された前記音声データと前記内容とを比較する音声入力システム。 The voice input system according to claim 1,
A storage unit for storing the content presented by the presentation processing unit;
In the confirmation mode, the voice recognition processing unit refers to the storage unit and compares the voice data input from the voice input unit with the content.
前記指示受付部は、前記音声認識処理部が前記通常モードで音声認識した結果に基づき、前記ユーザからの指示内容を推定し、当該推定の結果を示す一般的な用語を決定し、
前記提示処理部は、前記指示受付部が決定した前記一般的な用語を前記ユーザに発話させる前記内容として提示する音声入力システム。 The voice input system according to claim 1 or 2,
The instruction receiving unit estimates the instruction content from the user based on a result of the voice recognition processing unit performing voice recognition in the normal mode, determines a general term indicating a result of the estimation,
The presentation processing unit is a voice input system that presents the general term determined by the instruction receiving unit as the content that causes the user to speak.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006224689A JP2008046570A (en) | 2006-08-21 | 2006-08-21 | Voice input system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006224689A JP2008046570A (en) | 2006-08-21 | 2006-08-21 | Voice input system |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008046570A true JP2008046570A (en) | 2008-02-28 |
Family
ID=39180336
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006224689A Pending JP2008046570A (en) | 2006-08-21 | 2006-08-21 | Voice input system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008046570A (en) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05252555A (en) * | 1992-03-05 | 1993-09-28 | Nec Corp | Second dial reception system |
JP2001142484A (en) * | 1991-11-18 | 2001-05-25 | Toshiba Corp | Method for voice conversation and system therefor |
JP2001175279A (en) * | 1999-12-16 | 2001-06-29 | Honda Motor Co Ltd | Speech recognizing method |
JP2003036094A (en) * | 2001-07-23 | 2003-02-07 | Oki Electric Ind Co Ltd | Device for speech dialogue and method for processing speech dialogue |
JP2004336277A (en) * | 2003-05-06 | 2004-11-25 | All Nippon Airways Co Ltd | Telephone switching system |
JP2005090837A (en) * | 2003-09-17 | 2005-04-07 | Noritz Corp | Hot water system |
JP2005181442A (en) * | 2003-12-16 | 2005-07-07 | Fuji Electric Holdings Co Ltd | Speech interaction device, and method and program therefor |
JP2005246564A (en) * | 2004-02-06 | 2005-09-15 | Sanyo Electric Co Ltd | Robot device |
-
2006
- 2006-08-21 JP JP2006224689A patent/JP2008046570A/en active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001142484A (en) * | 1991-11-18 | 2001-05-25 | Toshiba Corp | Method for voice conversation and system therefor |
JPH05252555A (en) * | 1992-03-05 | 1993-09-28 | Nec Corp | Second dial reception system |
JP2001175279A (en) * | 1999-12-16 | 2001-06-29 | Honda Motor Co Ltd | Speech recognizing method |
JP2003036094A (en) * | 2001-07-23 | 2003-02-07 | Oki Electric Ind Co Ltd | Device for speech dialogue and method for processing speech dialogue |
JP2004336277A (en) * | 2003-05-06 | 2004-11-25 | All Nippon Airways Co Ltd | Telephone switching system |
JP2005090837A (en) * | 2003-09-17 | 2005-04-07 | Noritz Corp | Hot water system |
JP2005181442A (en) * | 2003-12-16 | 2005-07-07 | Fuji Electric Holdings Co Ltd | Speech interaction device, and method and program therefor |
JP2005246564A (en) * | 2004-02-06 | 2005-09-15 | Sanyo Electric Co Ltd | Robot device |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8694322B2 (en) | Selective confirmation for execution of a voice activated user interface | |
US11004453B2 (en) | Avoiding wake word self-triggering | |
WO2014208231A1 (en) | Voice recognition client device for local voice recognition | |
US20180211668A1 (en) | Reduced latency speech recognition system using multiple recognizers | |
US7689424B2 (en) | Distributed speech recognition method | |
EP2747077A1 (en) | Voice recognition system, recognition dictionary logging system, and audio model identifier series generation device | |
US7526286B1 (en) | System and method for controlling a computer via a mobile device | |
JP6787269B2 (en) | Speech recognition system and speech recognition method | |
CN109036406A (en) | A kind of processing method of voice messaging, device, equipment and storage medium | |
JP4942970B2 (en) | Recovery from verb errors in speech recognition | |
US12223959B2 (en) | Modifying spoken commands | |
JP2008033198A (en) | Voice interaction system, voice interaction method, voice input device and program | |
KR102417899B1 (en) | Apparatus and method for recognizing voice of vehicle | |
JP2018116206A (en) | Voice recognition device, voice recognition method and voice recognition system | |
KR20210033167A (en) | Electrical Apparatus and Method for controlling Voice Recognition thereof | |
WO2006118683A1 (en) | Speech dialog method and system | |
JP2006251545A (en) | Spoken dialogue system and computer program | |
JP2008046570A (en) | Voice input system | |
JP2001154694A (en) | Voice recognition device and method | |
JP2006208486A (en) | Voice inputting device | |
KR20190074344A (en) | Dialogue processing apparatus and dialogue processing method | |
KR100820319B1 (en) | Method and apparatus for guiding a road using a navigation server | |
WO2019175960A1 (en) | Voice processing device and voice processing method | |
JP2006023444A (en) | Speech dialog system | |
US20230317080A1 (en) | Dialogue system and control method thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090730 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111004 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120321 |