JP3597398B2 - Voice recognition device - Google Patents
Voice recognition device Download PDFInfo
- Publication number
- JP3597398B2 JP3597398B2 JP29325898A JP29325898A JP3597398B2 JP 3597398 B2 JP3597398 B2 JP 3597398B2 JP 29325898 A JP29325898 A JP 29325898A JP 29325898 A JP29325898 A JP 29325898A JP 3597398 B2 JP3597398 B2 JP 3597398B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- unit
- speech
- voice
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【0001】
【発明の属する技術分野】
この発明は、通信経路を通して行われる会話における音声認識装置、特に会話中の音声を認識し、認識した音声をキーワードとして情報を検索して、検索した情報を話者に提供することに関するものである。
【0002】
【従来の技術】
例えば商品の注文を受けたり、あるいは商品の問い合わせに答えるというような会話を電話で行うときに、音声認識を利用して情報提供や操作支援を行う音声認識方法が例えば特開平8−24897号公報に開示されている。特開平8−24897号公報に示された音声認識方法は、話者Aと話者Bとが会話を行っている通信経路から、話者Aのみの音声信号を抽出して音声認識し、音声認識した結果を用いて話者Aに提供する情報を決定するようにしている。例えば音声認識装置が置かれている側の話者Aが「はい、商品Cの値段ですね、少しお待ちください」という発話から「商品C」という言葉を認識して、商品Cの情報をディスプレイに表示し、それを確認した話者Aが話者Bに商品Cの値段を答えることができる。
【0003】
しかしながら、音声認識装置を常に動作モードにしておくと、仮に音声認識結果が正しくとも、話者Aが意図しないときに音声認識装置が反応してしまい、予期せぬ画面切り替えが起こってしまったりする。このため音声を認識するためのタイミングを指示するタイミング指示手段を設けている。このため話者Aは話者Bとの会話をしているときに、スイッチなどで音声認識を開始する合図を指示する必要があり、操作が煩雑になって話者Bに対する対話がおろそかになる場合が生じる。
【0004】
この発明はかかる短所を改善し、音声認識を常に動作モードにしておいても的確なタイミングで情報提供や操作支援を行えることができる音声認識装置を提供することを目的とするものである。
【0005】
【課題を解決するための手段】
この発明に係る音声認識装置は、話者と話者とが会話を行っている通信経路から音声信号を抽出して音声認識を行う音声認識部と、片方の話者の発話の音声認識結果と他方の話者の発話の音声認識結果を比較し、2つの音声認識結果があらかじめ定められた条件であった場合のみ、話者に情報提供あるいは操作支援を行う認識結果比較部とを有することを特徴とする。
【0006】
上記認識結果比較部は、片方の話者の発話の音声認識結果と他方の話者の発話の音声認識結果が同一であった場合のみ、話者に情報提供あるいは操作支援を行うと良い。
【0007】
また、上記認識結果比較部は、片方の話者の発話の音声認識結果と他方の話者の発話の音声認識結果が同じ意味であった場合のみ、話者に情報提供あるいは操作支援を行っても良い。
【0008】
【発明の実施の形態】
この発明の音声認識装置は、送信音声入力部と受信音声入力部と送信音声認識部と受信音声認識部と情報格納部と認識結果比較部及び表示部を有し、話者Aと話者Bが電話機などの音声入出力部により公衆回線などの通信経路を介して会話を行う話者Aの音声入出力部側に接続されている。
【0009】
例えば話者Bが音声入出力部から話者Aの音声入出力部に発呼して商品の問い合わせをしたときに、受信音声入力部は話者Bからの受信音声を抽出して受信認識部に送る。受信音声認識部は送られた受信音声から、その商品を特定するキーワードを認識し、認識した結果を認識結果比較部へ送る。一方、話者A側の音声入出力部を介して受信音声を聴いた話者Aは情報提供が必要だと判断した場合には、その商品を特定するキーワードを含む応答の送信音声を発話する。この送信音声を送信音声入力部で抽出して送信認識部に送る。送信音声認識部は送られた送信音声から商品を特定するキーワードを認識し、認識した結果を認識結果比較部へ送る。認識結果比較部は受信音声認識部で認識したキーワードと送信音声認識部で認識したキーワードとを比較し、同一の結果であった場合のみ、情報格納部からその商品の価格や性能などの情報を読み出して表示部に表示して話者Aに伝える。話者Aは表示部に表示された商品の情報を確認して話者Bに伝える。
【0010】
【実施例】
図1はこの発明の一実施例の構成を示すブロック図である。図に示すように、話者Aと話者Bは電話機などの音声入出力部1a,1bにより公衆回線などの通信経路2を介して会話を行う。話者Aは、例えば商品の注文を受けたり、質問を受けたりする側であり、話者Bは商品の注文をしたり、質問をしたりする。話者Aの音声入出力部1aには音声認識装置3が接続されている。音声認識装置3は送信音声入力部4と受信音声入力部5と送信音声認識部6と受信音声認識部7と情報格納部8と認識結果比較部9及び表示部10を有する。送信音声入力部4は音声マイクロフォンなどからなり、話者Aが音声入出力部1aで通話したときの送信音声を抽出して入力し、送信音声入力部5は通信経路2に接続され、話者Bが音声入出力部1bで通話したとき通信経路2を介して受信した受信音声を抽出して入力する。送信音声認識部6は送信音声入力部4から入力した送信音声を認識するものであり、話者Aがあらかじめ特定できるので、特定話者方式あるいは話者適応によって話者Aにチューニングされた音声認識を行い、認識性能の向上を図る。受信音声認識部7は受信音声入力部5から入力した受信音声を認識するものであり、話者が特定できないので、話者に依存しない形で音声が認識できる不特定話者方式の音声認識方式により音声を認識する。情報格納部8には、例えば各種商品の情報があらかじめ格納されている。認識結果比較部9は送信音声認識部6と受信音声認識部8の音声認識結果があらかじめ定められた条件であった場合のみ、音声認識結果に応じた情報を情報格納部8から読み出して表示部10に表示する。
【0011】
上記のように構成された音声認識装置3で、話者Bから話者Aに対して例えば商品に対する問い合わせがあったときの動作を説明する。
【0012】
話者Bが音声入出力部1bから音声入出力部1aに発呼して通信経路が接続され、例えば話者Bが話者Aに対して「商品Cの値段を教えて欲しいんですけど」というような発話をした場合に、受信音声入力部5は話者Bの「商品Cの値段を教えて欲しいんですけど」という受信音声を抽出して受信認識部7に送る。受信音声認識部7は送られた受信音声から「商品C」というキーワードを認識し、認識した結果を認識結果比較部9へ送る。一方、音声入出力部1aを介して「商品Cの値段を教えて欲しいんですけど」という音声を聴いた話者Aは情報提供が必要だと判断した場合には、「はい、商品Cの価格でございますね、少しお待ちください」という送信音声を発話する。この送信音声を送信音声入力部4で抽出して送信認識部6に送る。送信音声認識部6は送られた送信音声から「商品C」というキーワードを認識し、認識した結果を認識結果比較部9へ送る。この受信音声認識部5と送信音声認識部4で音声認識するための文法などの言語モデルは、例えば図2に示すように商品名等を表示した言語モデル21を用い、商品名等を発話中から例えばワードスポッティング、すなわち、あらかじめ定めた言葉だけを自動的に抽出し、他を無視する方法で単語や音節を認識したり、単語を連続して発声した音声を認識する連続音声認識のように発話全体を認識してから、図2に示すような商品名を抽出したりする。
【0013】
認識結果比較部9は受信音声認識部7で認識したキーワード「商品C」と送信音声認識部6で認識したキーワード「商品C」とを比較し、同一の結果であった場合のみ、情報格納部8から「商品C」の価格や性能などの情報を読み出して表示部10に表示して話者Aに伝える。話者Aは表示部10に表示された商品の情報を確認して話者Bに伝える。
【0014】
また、話者Bが、例えば「値段が100万円以下の商品はありますか」という発話を行い、これに対して話者Aが「商品Cでしたら98万円でお求めいただけます」のような対話をした場合、受信音声認識部7では認識するキーワードがなく、送信音声認識部6は「商品C」というキーワードを認識するが、認識結果比較部9で受信音声認識部7の認識結果と送信音声認識部6の認識結果が異なるので「商品C」の情報を表示部10に表示しないようにする。
【0015】
上記実施例は受信音声認識部7で認識した結果と送信音声認識部6で認識した結果が同一の場合の認識結果比較部9から該当する情報を表示部10に表示した場合について説明したが、受信音声認識部7で認識した結果と送信音声認識部6で認識した結果が同じ意味の場合に、認識結果比較部9から該当する情報を表示部10に表示するようにしても良い。
【0016】
例えば認識結果比較部9に、図3に示すように、正式名称「NT95」なる商品が、消費者にわかりやすいように、「おとぼけくん」なる愛称がつけられている場合、「エヌティーきゅうごう」,「エヌティーきゅうじゅうご」,「おとぼけくん」という読みは、全て同じ「NT95」という意味(商品)を表すというような意味と読みの変換テーブル91をあらかじめ設けておき、話者Bの発話を受信音声認識部7で認識した結果が「エヌティーきゅうごう」であり、話者Aの発話を送信音声認識部6で認識した結果が「エヌティーきゅうじゅうご」であった場合、読みは異なるが同じ意味「NT95」を表すと認識結果比較部9で判定して、「NT95」の情報を表示部10に表示する。このにして適切な情報を話者Aから話者Bに伝えることができる。
【0017】
また、上記実施例は送信音声入力部4と受信音声入力部5を別個に設け、送信音声認識部6と受信音声認識部7も別個に設けた場合について説明したが、送信音声入力部4と受信音声入力部5を共通にし、送信音声認識部6と受信音声認識部7も共通にして不特定話者方式で受信音声と送信音声を認識したり、音響モデルだけを話者Aと話者Bで切り替えるようにしても良い。このようにして装置の簡素化を図ることができる。
【0018】
【発明の効果】
この発明は以上説明したように、片方の話者の発話の音声認識結果と他方の話者の発話の音声認識結果を比較し、2つの音声認識結果があらかじめ定められた条件であった場合だけ、情報提供あるいは操作支援を行うようにしたから、音声認識装置を常に動作モードにしておいて、認識するタイミングを指示しなくとも情報提供が必要な場合にだけ情報提供や操作支援を行うことができる。
【0019】
また、片方の話者の発話の音声認識結果と他方の話者の発話の音声認識結果が同一であった場合のみ、話者に情報提供あるいは操作支援を行うことにより、誤った情報提供等を行うことを防止でき、正確な情報を提供することができる。
【0020】
さらに、片方の話者の発話の音声認識結果と他方の話者の発話の音声認識結果が同じ意味であった場合に、話者に情報提供あるいは操作支援を行うから、ある商品に対する名称や読みが複数ある場合に、話者の発話の読みが異なっていても、その意味が共通であれば的確なタイミングで情報提供等を行うことができ、型番などの数詞表現などでは、各種の読みがなされるときでも正確な情報提供を行うことができる。
【図面の簡単な説明】
【図1】この発明の実施例の構成を示すブロック図である。
【図2】言語モデルを示す説明図である。
【図3】意味と読みの変換テーブルの構成図である。
【符号の説明】
1 音声入出力部
2 通信経路
3 音声認識装置
4 送信音声入力部
5 受信音声入力部
6 送信音声認識部
7 受信音声認識部
8 情報格納部
9 認識結果比較部
10 表示部[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a speech recognition apparatus for a conversation performed through a communication path, and more particularly to recognizing a speech during a conversation, searching for information using the recognized speech as a keyword, and providing the searched information to a speaker. .
[0002]
[Prior art]
For example, Japanese Unexamined Patent Publication No. H8-24897 discloses a speech recognition method for providing information and operation support using speech recognition when a conversation such as receiving an order for a product or answering a product inquiry is performed by telephone. Is disclosed. The speech recognition method disclosed in Japanese Patent Application Laid-Open No. Hei 8-24897 discloses a speech recognition method in which a speech signal of only a speaker A is extracted from a communication path in which a speaker A and a speaker B have a conversation to perform speech recognition. The information to be provided to the speaker A is determined using the recognition result. For example, the speaker A on the side where the voice recognition device is placed recognizes the word "product C" from the utterance "Yes, the price of product C, please wait a moment", and displays the information of product C on the display. The speaker A who has displayed and confirmed it can reply the price of the product C to the speaker B.
[0003]
However, if the speech recognition device is always set to the operation mode, even if the speech recognition result is correct, the speech recognition device reacts when the speaker A does not intend, and unexpected screen switching may occur. . Therefore, a timing instructing means for instructing a timing for recognizing the voice is provided. For this reason, when the speaker A is talking with the speaker B, it is necessary to give a signal to start speech recognition with a switch or the like, and the operation becomes complicated and the dialogue with the speaker B is neglected. Cases arise.
[0004]
An object of the present invention is to improve the disadvantages and to provide a voice recognition device that can provide information and assist operation at an accurate timing even when the voice recognition is always in the operation mode.
[0005]
[Means for Solving the Problems]
A voice recognition device according to the present invention includes a voice recognition unit that performs voice recognition by extracting a voice signal from a communication path in which a speaker has a conversation, and a voice recognition result of an utterance of one of the speakers. Comparing the speech recognition results of the other speaker's utterances, and providing a recognition result comparison unit that provides information or operation support to the speaker only when the two speech recognition results satisfy predetermined conditions. Features.
[0006]
It is preferable that the recognition result comparing unit only provides information or operation support to the speaker only when the voice recognition result of the utterance of one speaker and the voice recognition result of the utterance of the other speaker are the same.
[0007]
Also, the recognition result comparison unit provides information or operation support to the speaker only when the voice recognition result of the utterance of one speaker and the voice recognition result of the utterance of the other speaker have the same meaning. Is also good.
[0008]
BEST MODE FOR CARRYING OUT THE INVENTION
The voice recognition device of the present invention includes a transmission voice input unit, a reception voice input unit, a transmission voice recognition unit, a reception voice recognition unit, an information storage unit, a recognition result comparison unit, and a display unit. Is connected to the voice input / output unit side of the speaker A who has a conversation via a communication path such as a public line by a voice input / output unit such as a telephone.
[0009]
For example, when the speaker B calls the voice input / output unit of the speaker A from the voice input / output unit and inquires about the product, the reception voice input unit extracts the reception voice from the speaker B, and receives the reception recognition unit. Send to The received voice recognition unit recognizes a keyword specifying the product from the received received voice and sends the recognized result to the recognition result comparison unit. On the other hand, if the speaker A who has listened to the received voice via the voice input / output unit of the speaker A determines that it is necessary to provide information, the speaker A utters a transmission voice of a response including a keyword specifying the product. . The transmission voice is extracted by the transmission voice input unit and sent to the transmission recognition unit. The transmission voice recognition unit recognizes a keyword for specifying a product from the transmitted transmission voice, and sends the recognized result to the recognition result comparison unit. The recognition result comparison unit compares the keyword recognized by the received voice recognition unit with the keyword recognized by the transmission voice recognition unit. Only when the result is the same, information such as the price and performance of the product is stored in the information storage unit. The information is read out, displayed on the display unit, and transmitted to the speaker A. Speaker A confirms the information of the product displayed on the display unit and conveys it to speaker B.
[0010]
【Example】
FIG. 1 is a block diagram showing the configuration of one embodiment of the present invention. As shown in the figure, a speaker A and a speaker B have a conversation via a
[0011]
The operation of the
[0012]
The speaker B makes a call from the voice input / output unit 1b to the voice input / output unit 1a, and the communication path is connected. For example, the speaker B asks the speaker A "I want to tell the price of the product C." When such an utterance is made, the receiving
[0013]
The recognition result comparison unit 9 compares the keyword “product C” recognized by the received voice recognition unit 7 with the keyword “product C” recognized by the transmission
[0014]
In addition, speaker B makes an utterance, for example, "Do you have a product with a price of 1,000,000 yen or less?", While speaker A says, "If it is product C, it can be purchased for 980,000 yen." In the case of a conversation, the received voice recognition unit 7 has no keyword to recognize, and the transmitted
[0015]
The above embodiment has described the case where the corresponding information is displayed on the
[0016]
For example, as shown in FIG. 3, when the product having the official name “NT95” is given the nickname “Otoboke-kun” in the recognition result comparison unit 9 so that consumers can easily understand the product, “NTG” is used. , "NT 90" and "Otoboke-kun" are provided in advance with a meaning-reading conversion table 91 such that they represent the same meaning (product) "NT95". If the result recognized by the received voice recognition unit 7 is "NTN", and the result recognized by the transmission
[0017]
In the above embodiment, the transmission voice input unit 4 and the reception
[0018]
【The invention's effect】
As described above, the present invention compares the speech recognition result of one speaker's speech with the speech recognition result of the other speaker's speech, and only when the two speech recognition results are under predetermined conditions. Since information provision or operation support is provided, the voice recognition device is always set to the operation mode, and information provision and operation support can be performed only when information provision is necessary without instructing the recognition timing. it can.
[0019]
Also, only when the speech recognition result of one speaker's utterance and the speech recognition result of the other speaker's utterance are the same, erroneous information provision etc. Can be prevented, and accurate information can be provided.
[0020]
Furthermore, if the speech recognition result of one speaker's speech and the speech recognition result of the other speaker's speech have the same meaning, information or operation support is provided to the speaker, so that the name or reading In the case where there are multiple words, even if the readings of the speakers' utterances are different, if the meaning is common, it is possible to provide information etc. at the right timing. Even when it is done, accurate information can be provided.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of an embodiment of the present invention.
FIG. 2 is an explanatory diagram showing a language model.
FIG. 3 is a configuration diagram of a meaning-reading conversion table.
[Explanation of symbols]
Reference Signs List 1 voice input /
Claims (3)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP29325898A JP3597398B2 (en) | 1998-10-15 | 1998-10-15 | Voice recognition device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP29325898A JP3597398B2 (en) | 1998-10-15 | 1998-10-15 | Voice recognition device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000122692A JP2000122692A (en) | 2000-04-28 |
JP3597398B2 true JP3597398B2 (en) | 2004-12-08 |
Family
ID=17792507
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP29325898A Expired - Fee Related JP3597398B2 (en) | 1998-10-15 | 1998-10-15 | Voice recognition device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3597398B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006343642A (en) * | 2005-06-10 | 2006-12-21 | Nippon Telegr & Teleph Corp <Ntt> | Speech recognition method, speech recognition device, program, and recording medium |
EP2045798B1 (en) | 2007-03-29 | 2014-12-03 | Panasonic Intellectual Property Corporation of America | Keyword extracting device |
JP2009182432A (en) * | 2008-01-29 | 2009-08-13 | Seiko Epson Corp | Information provision system, information providing device, information providing method, and information provision program of call center |
-
1998
- 1998-10-15 JP JP29325898A patent/JP3597398B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2000122692A (en) | 2000-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3444486B2 (en) | Automatic voice response system and method using voice recognition means | |
US5651056A (en) | Apparatus and methods for conveying telephone numbers and other information via communication devices | |
US8489397B2 (en) | Method and device for providing speech-to-text encoding and telephony service | |
US8909538B2 (en) | Enhanced interface for use with speech recognition | |
US20100217591A1 (en) | Vowel recognition system and method in speech to text applictions | |
JP2003044091A (en) | Voice recognition system, portable information terminal, device and method for processing audio information, and audio information processing program | |
KR100595610B1 (en) | Guidance method and apparatus for telephone number | |
CN105210355A (en) | Ultrasonically cleaning vessels and pipes | |
US20050124322A1 (en) | System for communication information from a server via a mobile communication device | |
US6671354B2 (en) | Speech enabled, automatic telephone dialer using names, including seamless interface with computer-based address book programs, for telephones without private branch exchanges | |
JP3597398B2 (en) | Voice recognition device | |
JP3526101B2 (en) | Voice recognition device | |
KR100467593B1 (en) | Voice recognition key input wireless terminal, method for using voice in place of key input in wireless terminal, and recording medium therefore | |
JP2000165489A (en) | Telephone set | |
JP4760452B2 (en) | Speech training apparatus, speech training system, speech training support method and program | |
JP2000101705A (en) | Radio telephone set | |
EP1269722B1 (en) | Telephonic device for deaf-mutes | |
JP3519259B2 (en) | Voice recognition actuator | |
JP2002101204A (en) | Communication meditating system and telephone set for aurally handicapped person | |
JP3975343B2 (en) | Telephone number registration system, telephone, and telephone number registration method | |
JP3278595B2 (en) | mobile phone | |
KR940011237B1 (en) | Phonetic dialing method and apparatus | |
JP2005123869A (en) | System and method for dictating call content | |
JP2000184077A (en) | Intercom system | |
JP2002252705A (en) | Method and device for detecting talker id |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20040831 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040907 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040908 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080917 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080917 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090917 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090917 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100917 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110917 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120917 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130917 Year of fee payment: 9 |
|
LAPS | Cancellation because of no payment of annual fees |