JP3139679B2 - 音声入力装置及び音声入力方法 - Google Patents
音声入力装置及び音声入力方法Info
- Publication number
- JP3139679B2 JP3139679B2 JP11011036A JP1103699A JP3139679B2 JP 3139679 B2 JP3139679 B2 JP 3139679B2 JP 11011036 A JP11011036 A JP 11011036A JP 1103699 A JP1103699 A JP 1103699A JP 3139679 B2 JP3139679 B2 JP 3139679B2
- Authority
- JP
- Japan
- Prior art keywords
- input
- voice
- word
- unit
- recognized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Description
単語として認識し、この単語の意味内容からあらかじめ
定められている複数の入力項目のうち、この単語を入力
する入力項目を選択する音声入力装置及び音声入力方法
に関する。
う音声入力装置が開発されている。この装置は、コンピ
ュータなどの操作に不慣れである利用者でも、容易に使
用できるように、音声によってデータを入力するもので
ある。
語として認識して、その単語に従って処理を行う。デー
タを入力するときには、それの入力項目を指定する必要
がある。このような音声入力装置として、特開平8−1
29476号公報などに、データとともにそれの入力項
目を発声することにより指定する音声入力装置が掲載さ
れている。
するフローチャートである。なお、公報に掲載されてい
る音声入力装置は、病理検査支援システムに適用したも
のである。
査対象を見ながら、音声によって病理所見やそれの入力
項目を指示する(ステップS21)。このとき発せられ
た音声は、マイクロフォンなどによって集音し、音声認
識合成装置に入力する(ステップS22)。入力された
音声は、音声認識部に出力する。
音声にかかる単語を認識する(ステップS23)。認識
した単語は、コード形式でウィンドウズなどのOSに伝
えられる(ステップS25)。なお、入力音声と認識し
た単語とが一致しているか否かをユーザに確認させるた
め、ヘッドフォンなどから認識した音を出力する(ステ
ップS26)。
ラムである病理検査支援システムに、認識した単語を出
力する(ステップS27)。病理検査支援システムは、
入力された単語が、病理所見に関するものであれば、そ
の単語を、表示装置の画面の所望の項目に表示する(ス
テップS28)。一方、入力された単語が、入力項目に
関するものであれば、その入力項目に所望の単語を入力
できるようにする(ステップS29)。
力を音声だけで行うことができる。また、認識された単
語は、音声で応答されるため、表示装置の画面をみるこ
となく入力音声と認識された音声とが一致しているか否
か確認できる。そのため、音声入力するとき、被検査対
象を観察するなどの作業を中断しなくてもよい。
術は、以下に示すような問題点があった。
場合には、データの入力項目をユーザが音声などによっ
て指示していた。したがって、ユーザは、音声入力装置
を使用するためには、その前提として、どのような入力
項目が設けられているかを知っていることが必要であ
る。
らない場合には、表示装置の画面を見て、表示画面上に
表示されている入力項目を確認してから指示しなければ
ならない。
ように入力音声を単語として認識する機能を備えてい
る。しかし、入力されたデータにかかる単語を同一概念
の他の単語に変換する機能を備えていない。したがっ
て、同一概念の単語を入力しても、装置内では、別々の
単語が入力されたとして扱われてしまう場合がある。
の発明の音声入力装置は、ユーザが発する音声から、音
声にかかる単語とそれの入力項目を特定することを課題
とする。
めに、この発明は、音声を入力する入力部と、前記入力
部によって入力された音声の音声波形から単語を認識す
る認識部と、予め単語を入力する入力項目が複数設けら
れており前記認識手段によって認識された単語がどの入
力項目に属するかを選択する選択部と、前記選択部で選
択された入力項目に前記認識部で認識された単語を入力
した状態で表示する表示部とを備えた音声入力装置であ
って、前記認識部によって認識された単語と前記選択部
によって選択された入力項目とを合成音声によって出力
する応答部を備え、出力結果に基づくユーザの返答に応
じて前記認識部で認識された単語を前記選択部で選択さ
れた入力項目に表示し又はユーザに音声の再入力を促す
ことを特徴とする。
力した音声の音声波形から単語を認識させ、予め単語が
入力される入力項目が複数設けられており前記認識させ
た単語がどの入力項目に属するかを選択させ、前記認識
させた単語を前記選択させた入力項目へ入力させた状態
で表示させる音声入力方法であって、前記認識させた単
語と前記選択させた入力項目とを合成音声によって出力
させ、出力結果に基づいて認識させた単語を選択させた
入力項目に入力した状態で表示させ又は音声の再入力を
行うことを特徴とする。さらに、この発明は、音声を入
力する入力部と、前記入力部によって入力された音声の
音声波形から単語を認識する認識部と、予め単語を入力
する入力項目が複数設けられており前記認識手段によっ
て認識された単語がどの入力項目に属するかを選択する
選択部と、前記選択部で選択された入力項目に前記認識
部で認識された単語を入力した状態で表示する表示部と
を備えた音声入力装置の使用方法であって、前記音声入
力装置は、前記認識部によって認識された単語と前記選
択部によって選択された入力項目とを合成音声によって
出力する応答部を備え、前記応答部の出力結果に基づい
て前記認識部で認識された単語を前記選択部で選択され
た入力項目した状態で表示させ又は音声の再入力を行う
ことを特徴とする。
て、図面を参照して説明する。なお、この実施形態は、
音声入力装置を、たとえば家計簿のソフトウェアに適用
したものである。
す構成図である。図1において、音声入力装置は、ユー
ザが発する音声を入力する入力部11と、入力部11か
ら入力された音声を単語として認識する認識部12と、
認識部12に接続され音声を認識するための情報が登録
されている認識辞書13とを有する。
の入力項目を選択する選択部14と、選択部14に接続
され単語の入力項目を選択するための情報が登録されて
いる選択辞書15と、認識された単語と選択された入力
項目とを音声によって応答する応答部16と、認識され
た単語と選択された入力項目とのデータを出力する出力
部17と、認識された単語と選択された入力項目とを記
憶する記憶部18と、単語とそれの入力項目などを表示
する表示部19とを有している。
簿表を示す図である。図2において、家計簿表の1行目
は、「内訳」、「品名」、「金額」及び「備考」の各欄
からなる。たとえば、食品の内訳として、乳製品、主
食、肉・魚、…、などの欄が設けられている。また、衣
類の内訳には、衣類、靴、…などの欄が設けられてい
る。
作を示すフローチャートである。ここでは、たとえば、
入力するデータが牛乳とそれの値段が200円という場合
を例として説明する。
ると、マイクロフォンなどの入力部11はその音声を入
力する(ステップS1)。入力された音声は認識部12
に出力される。認識部12は、音声を図示しないフィル
タによって、音声を認識するのに不要なノイズなどを除
去する。そして、図示しないA/D変換器によってA/
D変換して、音声波形をデジタル化する。
に登録されている単語の波形と比較される。比較は、H
MM(Hidden Markov Model)などの手法を用いて行わ
れる。そして、入力音声は、認識辞書13に登録されて
いる単語のうち、音声波形と最も近い波形にかかる単語
とみなされる。こうして、「牛乳、200円」という入力
音声は、「牛乳」、「200円」という2つの単語として
認識される(ステップS2)。
入力される。選択部14は、選択辞書15に登録されて
いる選択情報を抽出する。選択辞書15には、「食
品」、「衣服」などの項目ごとに関係する単語を一括し
て登録している。そして、選択情報から、認識された単
語をいずれの入力項目に出力するべきかを選択する(ス
テップS3)。なお、選択情報について、詳しくは後述
する。
が「食品」と選択されると、「牛乳」は「食品」の内訳
に入力されるデータである旨と、「200円」は「金額」
の欄に入力されるデータである旨とが、応答部16から
合成音声によって出力される(ステップS4)。たとえ
ば、『「食品、牛乳」「金額、20円」』という合成音声
である。これによって、ユーザは、発声した「牛乳、20
0円」という音声が、音声入力装置で正しく認識された
ことを確認することができる(ステップS5)。
部16から発せられる合成音声とが一致している場合に
は、その旨を音声などを発することによって、認識され
た単語と選択された入力項目とを特定することができる
(ステップS7)。
発せられる合成音声とが一致していない場合、すなわち
「牛乳」、「200円」以外の合成音声が応答部16から
出力された場合には、ユーザは訂正した単語などを発す
ることにより、誤りを訂正することができる(ステップ
S6)。
されると、出力部17は、「牛乳」という単語を「食
品」欄に入力するということと、「200円」という単語
を「金額」欄に入力するということとを、記憶部18と
表示部19とに出力する。記憶部18は、入力された単
語及びそれの入力項目を記憶する。表示部19は、入力
された単語をそれの特定の入力項目へ表示する(ステッ
プS8)。
選択情報について説明する。選択情報は、以下に示すよ
うな種種の情報を総括したものである。すなわち、選択
情報のうち1つ目の情報は、入力された単語に対応する
入力項目を選択するためのものである。認識部12にお
いて認識された単語が、あらかじめ定められている項目
のいずれに関する単語であるかを選択する。
せる文字の形式などの情報である。たとえば、漢字、ひ
らがな、カタカナなど文字の種類、半角、全角などとい
う文字の大きさなどの情報である。
音声の音声情報である。たとえば、選択辞書15には、
「いずれの入力項目にデータを入力しますか?」などの
音声情報が登録してあり、データの入力項目となる候補
が複数ある場合に、応答部16からこの音声情報に基づ
く合成音声として出力される。なお、この情報について
は、実施形態2において説明する。
語を同一概念である単語に変換するための情報である。
したがって、たとえばユーザが「ミルク」と発声した場
合であっても、「ミルク」という単語を「牛乳」という
単語に変換して、表示部19に表示させることもでき
る。
示部19に表示されている家計簿表を示すである。図4
において、家計簿表の1行目は、「内訳」、「品名」、
「金額」及び「備考」の各欄からなる。たとえば、収入
には、その内訳として、夫、妻、…、などの欄が設けら
れている。また、「品名」の欄には、給与、…などを入
力できるように設けられている。
作を示すフローチャートである。ここでは、たとえば、
入力データが「給与、200,000円」であり、ユーザが夫
である場合を例として説明する。
円」と発声すると、マイクロフォンなどの入力部11は
その音声を入力する(ステップS11)。入力された音
声は実施形態1と同様の処理がなされる。認識部12に
おいて、図示しないA/D変換器によってA/D変換し
て、音声波形をデジタル化する。
辞書13に登録されている単語の波形と比較され、「給
与、200,000円」という入力音声は、「給与」、「200,0
00円」という2つの単語として認識される(ステップS
12)。
入力される。選択部14は、選択辞書15に登録されて
いる選択情報を抽出する。そして、選択情報から、認識
された単語をいずれの入力項目に出力するべきかを選択
する(ステップS13)。
ると、「給与」は「品名」の内訳に入力されるデータで
ある旨と、「200,000円」は「金額」欄に入力されるデ
ータである旨とが、応答部16から合成音声によって出
力される(ステップS14)。これによって、ユーザ
は、発声した「給与、200,000円」という音声が、正し
く認識されたことを確認することができる。
された単語と選択された入力項目とを特定、訂正するこ
とができる(ステップS15〜S17)。
場合が考えられる。この実施形態の家計簿のソフトウェ
アには、収入の欄には、「内訳」として、夫と妻との入
力項目を設けている。かかる場合に、ユーザが「給与、
200,000円」と発しても、いずれを入力項目とするのか
判断できない。
から「入力項目は、夫ですか?、妻ですか?」という旨
の合成音声が出力される(ステップS18)。これによ
って、ユーザは、「夫」と発することによって、入力項
目を特定することができる(ステップS19)。
されると、出力部17は、「給与」という単語は「品
名」欄に入力するということと、「200,000円」は「金
額」欄に入力するということとを、記憶部18と表示部
19とに出力する。記憶部18は、入力された単語及び
それの入力項目を記憶する。表示部19は、入力された
単語をそれの特定の入力項目へ表示する(ステップS2
0)。
も、音声入力装置を家計簿のソフトウェアに適用した場
合を例として説明したが、これらの音声入力装置は、病
理検査支援システムなどにも適用することができる。
ると、その音声にかかる単語とそれの入力項目を選択す
る。そして、選択結果を合成音声によって出力してユー
ザに特定させる。このため、ユーザは音声を発するたび
に、入力項目を確認するために表示画面を見る必要がな
い。したがって、レシートや帳票などの読み上げに専念
することができる。
音声の入力項目の候補が複数ある場合であっても、その
旨を合成音声によって出力して、ユーザに入力項目を特
定させることができる。したがって、上記と同様に、単
語の入力項目を確認するために表示画面を見る必要がな
い。
ーザが発した音声を同一概念である単語に変換するため
の情報を備えている。このため、ユーザが発する音声が
同一概念であれば、入力音声の記憶・表示がまちまちに
ならない。
る。
す図である。
チャートである。
す図である。
チャートである。
Claims (6)
- 【請求項1】 音声を入力する入力部と、前記入力部に
よって入力された音声の音声波形から単語を認識する認
識部と、予め単語を入力する入力項目が複数設けられて
おり前記認識手段によって認識された単語がどの入力項
目に属するかを選択する選択部と、前記選択部で選択さ
れた入力項目に前記認識部で認識された単語を入力した
状態で表示する表示部とを備えた音声入力装置であっ
て、 前記認識部によって認識された単語と前記選択部によっ
て選択された入力項目とを合成音声によって出力する応
答部を備え、出力結果に基づくユーザの返答に応じて前
記認識部で認識された単語を前記選択部で選択された入
力項目に表示し又はユーザに音声の再入力を促す ことを
特徴とする音声入力装置。 - 【請求項2】 前記選択部は、前記複数の入力項目で管
轄する単語を1まとめにして登録している選択辞書に接
続しており、前記選択辞書に登録している単語から前記
入力項目を選択することを特徴とする請求項1に記載の
音声入力装置。 - 【請求項3】 前記応答部は、前記認識した単語の入力
項目の候補が複数ある場合に、合成音声によってその旨
を出力することを特徴とする請求項1に記載の音声入力
装置。 - 【請求項4】 前記選択辞書は、前記認識した単語を同
一概念である単語に変換するための情報を備えているこ
とを特徴とする請求項2に記載の音声入力装置。 - 【請求項5】 音声を入力し、前記入力した音声の音声
波形から単語を認識させ、予め単語が入力される入力項
目が複数設けられており前記認識させた単語がどの入力
項目に属するかを選択させ、前記認識させた単語を前記
選択させた入力項目へ入力させた状態で表示させる音声
入力方法であって、 前記認識させた単語と前記選択させた入力項目とを合成
音声によって出力させ、出力結果に基づいて認識させた
単語を選択させた入力項目に入力した状態で表示させ又
は音声の再入力を行う ことを特徴とする音声入力方法。 - 【請求項6】 音声を入力する入力部と、前記入力部に
よって入力された音声の音声波形から単語を認識する認
識部と、予め単語を入力する入力項目が複数 設けられて
おり前記認識手段によって認識された単語がどの入力項
目に属するかを選択する選択部と、前記選択部で選択さ
れた入力項目に前記認識部で認識された単語を入力した
状態で表示する表示部とを備えた音声入力装置の使用方
法であって、 前記音声入力装置は、前記認識部によって認識された単
語と前記選択部によって選択された入力項目とを合成音
声によって出力する応答部を備え、 前記応答部の出力結果に基づいて前記認識部で認識され
た単語を前記選択部で選択された入力項目した状態で表
示させ又は音声の再入力を行うことを特徴とする音声入
力装置の使用方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11011036A JP3139679B2 (ja) | 1999-01-19 | 1999-01-19 | 音声入力装置及び音声入力方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11011036A JP3139679B2 (ja) | 1999-01-19 | 1999-01-19 | 音声入力装置及び音声入力方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000207166A JP2000207166A (ja) | 2000-07-28 |
JP3139679B2 true JP3139679B2 (ja) | 2001-03-05 |
Family
ID=11766848
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP11011036A Expired - Fee Related JP3139679B2 (ja) | 1999-01-19 | 1999-01-19 | 音声入力装置及び音声入力方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3139679B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101297351B (zh) * | 2005-10-27 | 2013-01-02 | 纽昂斯奥地利通讯有限公司 | 用于处理口述信息的方法和系统 |
KR101427040B1 (ko) * | 2013-03-22 | 2014-08-05 | 박동기 | 음성인식을 이용한 스마트기기용 거래정보 입력 시스템 및 이를 이용한 자산 관리를 위한 정보 입력방법 |
KR20160107605A (ko) * | 2015-03-04 | 2016-09-19 | 네이버 주식회사 | 가계부 서비스 제공 장치 및 방법 |
JP6712940B2 (ja) * | 2016-10-27 | 2020-06-24 | トッパン・フォームズ株式会社 | 音声入力装置、音声入力方法 |
WO2019142419A1 (ja) * | 2018-01-22 | 2019-07-25 | ソニー株式会社 | 情報処理装置および情報処理方法 |
JP7388272B2 (ja) * | 2020-03-31 | 2023-11-29 | ブラザー工業株式会社 | 情報処理装置、情報処理方法及びプログラム |
-
1999
- 1999-01-19 JP JP11011036A patent/JP3139679B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2000207166A (ja) | 2000-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1521239B1 (en) | Multi-modal input form with dictionary and grammar | |
US6324507B1 (en) | Speech recognition enrollment for non-readers and displayless devices | |
US6321196B1 (en) | Phonetic spelling for speech recognition | |
US6157913A (en) | Method and apparatus for estimating fitness to perform tasks based on linguistic and other aspects of spoken responses in constrained interactions | |
US20020123894A1 (en) | Processing speech recognition errors in an embedded speech recognition system | |
US20100250237A1 (en) | Interactive manual, system and method for vehicles and other complex equipment | |
US20080243476A1 (en) | Voice Prompts for Use in Speech-to-Speech Translation System | |
JP3178426B2 (ja) | 自然言語対話システム及び自然言語対話プログラム記録媒体 | |
KR20060110787A (ko) | 회화 지원 장치 | |
US20080104512A1 (en) | Method and apparatus for providing realtime feedback in a voice dialog system | |
JP4516112B2 (ja) | 音声認識プログラム | |
JP3139679B2 (ja) | 音声入力装置及び音声入力方法 | |
CN111902831B (zh) | 演示支援系统 | |
US20050021343A1 (en) | Method and apparatus for highlighting during presentations | |
JP2010054549A (ja) | 回答音声認識システム | |
JP6718243B2 (ja) | 表示装置、表示プログラム、表示システム及び表示装置の制御方法 | |
WO2019003395A1 (ja) | コールセンター会話内容表示システム、方法及びプログラム | |
JP3340163B2 (ja) | 音声認識装置 | |
JP6383748B2 (ja) | 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム | |
JPH08129476A (ja) | 音声データ入力装置 | |
JP4622106B2 (ja) | 人物特定システム | |
Frädrich et al. | Siri vs. Windows speech recognition | |
JP2015076040A (ja) | 情報処理方法、情報処理装置、及びプログラム | |
JP2007148170A (ja) | 外国語学習支援システム | |
JP2006301967A (ja) | 会話支援装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071215 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081215 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091215 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091215 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101215 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101215 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111215 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111215 Year of fee payment: 11 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R371 | Transfer withdrawn |
Free format text: JAPANESE INTERMEDIATE CODE: R371 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111215 Year of fee payment: 11 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111215 Year of fee payment: 11 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121215 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121215 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121215 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131215 Year of fee payment: 13 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |