JP2013019958A - 音声認識装置 - Google Patents
音声認識装置 Download PDFInfo
- Publication number
- JP2013019958A JP2013019958A JP2011150993A JP2011150993A JP2013019958A JP 2013019958 A JP2013019958 A JP 2013019958A JP 2011150993 A JP2011150993 A JP 2011150993A JP 2011150993 A JP2011150993 A JP 2011150993A JP 2013019958 A JP2013019958 A JP 2013019958A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- recognition
- list
- speech
- displayed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 claims abstract description 17
- 238000000034 method Methods 0.000 claims description 55
- 238000012790 confirmation Methods 0.000 claims description 17
- 238000010586 diagram Methods 0.000 description 4
- 238000007664 blowing Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
【解決手段】 入力される音声の信号レベルに基づき音声区間であることを判断し(S120〜S140)、当該音声区間に対応する音声データが記憶して(S150)音声を認識する(S170)。そして、認識結果と共に当該認識結果に対応するリスト表示を行う(S180)。このとき、確定操作が行われないうちは(S190:NO)、音声の抽出を繰り返すようにすると共に、リスト表示される対応項目の手動操作を可能にする(S110)。
【選択図】図2
Description
本発明の音声認識装置は、音声区間抽出処理、認識処理、及び、リスト処理を実行可能となっている。
リスト表示の具体例は、図6に示すごとくである。例えば図6(a)に示す初期画面表示において「ミュージック」という音声を発すると、図6(b)に示すように、認識結果「ミュージック」と認識結果に対応する対応項目「歌手A」、「歌手B」、「歌手C」、「歌手D」がリスト表示される。そして、このような対応項目を選択するなどの手動操作
が可能となっている。
図1は、一実施形態の音声認識装置1の概略構成を示すブロック図である。
音声認識装置1は、車両に搭載されて用いられ、装置全体の制御を司る制御部10を中心に構成されている。制御部10は、いわゆるコンピュータであり、CPU、ROM、RAM、I/O、及びこれらを接続するバスラインを含む。
音声認識ユニット20は、音声入力部21、音声記憶部22、音声認識部23、及び、表示決定部24を有している。
最初のS100では、初期画面表示を行う。この処理は、図1中の表示部40に初期のリスト表示を行うものである。具体的には、図6(a)に示すように、「Listening」という表示を画面の上部に行い、音声の認識候補の一部をその下に表示する。図6(a)では、「エアコン」、「ミュージック」、「電話」、「周辺検索」の4項目が表示されている。
続くS140では、第1無声区間であるか否かを判断する。マイクロフォン50を介して音声入力部21に入力される信号レベルが閾値を下回る区間を、無声区間とする。具体的に、無声区間は、車両の走行に伴う雑音などによって構成される。そして、ここでは、そのような無声区間が所定時間T1だけ連続する区間を、第1無声区間として判断する。ここで第1無声区間であると判断された場合(S140:YES)、S150にて、S130で取得した音声を音声記憶部22に音声データとして記憶する。一方、第1無声区間でないと判断された場合(S140:NO)、すなわち音声区間である場合又は無声区間であるが所定時間T1が経過していない場合は、S130からの処理を繰り返す。
、無声区間が所定時間T2だけ連続する区間を、第2無声区間として判断する。ここで第2無声区間であると判断された場合(S160:YES)、S170へ移行する。一方、第2無声区間でない場合(S160:NO)、S110からの処理を繰り返す。
図3は、マイクロフォン50を介して入力される音声の信号を模式的に示す説明図である。ここで時刻t1にて音声操作の開始が操作スイッチ群30によって指示されたものとする。
最初のS181では、認識結果があるか否かを判断する。この処理は、図2中のS170の認識処理にて何らかの認識結果が得られたか否かを判断するものである。ここで認識結果があると判断された場合(S181:YES)、S182へ移行する。一方、認識結果がないと判断された場合(S181:NO)、すなわちS170にて認識不能であった場合は、以降の処理を実行せず、リスト処理を終了する。
続くS183では、対応項目を表示する。表示決定部24は、対応項目表26を参照し、音声認識部23による認識結果に対応する対応項目を決定する。この処理は、表示決定部24にて決定される対応項目を、表示部40に表示するものである。
続くS114では、選択項目に対応する対応項目を、表示部40に表示する。
上述したように当初のリスト表示は、図6(a)に示すごとくである(図2中のS100)。ここでS170の認識処理による認識結果が「ミュージック」である場合、S180のリスト処理にて、認識結果が「ミュージック」として表示されると共に、ミュージックに対応する対応項目が「歌手A」、「歌手B」、「歌手C」、「歌手D」として表示される。図6(b)に示す如くである。
ュージックに対応する対応項目が「歌手A」、「歌手B」、「歌手C」、「歌手D」として表示されるのであるが、このとき、操作スイッチ群30を介した「歌手A」の選択操作があると(図5中のS112:YES)、図6(c)に示したように、選択項目「歌手A」が表示されると共に(S113)、歌手Aに対応する対応項目が「楽曲A」、「楽曲B」、「楽曲C」、「楽曲D」として表示される(S114)。
一方、本実施形態では、音声認識部23は、リスト表示とは関係なく、音声データに対し、認識辞書25に記憶されている全ての比較対象候補との比較を行う。かかる構成により、図6(a)に示したリスト表示がなされている状態であっても、「エアコン」、「ミュージック」、「電話」、「周辺検索」の4項目以外の「歌手A」、「歌手B」などの音声を認識することができるようになっており、認識結果が「歌手A」である場合には、図6(c)に示したリスト表示が行われる。
本実施形態では、入力される音声の信号レベルに基づき音声区間であることが判断され(図2中のS120〜S140)、当該音声区間に対応する音声データが記憶されて(S150)認識される(S170)。そして、認識結果と共に当該認識結果に対応するリスト表示が行われる(S180,図4中のS182,S183)。このとき、本実施形態では、確定操作が行われないうちは(図2中のS190:NO)、音声の抽出が繰り返されると共に、リスト表示される対応項目の手動操作が可能となっている(S110)。
作が可能となり、音声操作が分かり易いものとなる。これにより、リストの手動操作と音声操作とが融合され、ユーザにとって利便性の高い音声認識装置となる。
(イ)上記実施形態では確定操作がないうちは音声の認識を繰り返す構成となっているが(図2中のS190:NO,S170)、この確定操作を、操作スイッチ群30を介した操作としていた。これに対し、確定操作自体を音声による操作としてもよい。
動操作があった時点で音声認識を終了する上記(イ)に示した構成などにおいて、図7に示すような操作用アイコンによるリスト表示を行ってもよい。この場合、ステアリングなどに設けられる操作ボタンによって、アイコン選択による手動操作が可能になる。図7の例では、ステアリングなどに上下左右の操作ボタンが設けられていることを前提に、上下ボタンによって送風モードの選択が可能となり、左ボタンによって風量調節のモードへ移行し、右ボタンによって温度調節のモードへ移行するという具合である。すなわち、操作用アイコンによるリスト表示を行う場合、その後のリストからの対応項目の選択が手動操作を前提とするものとなるため、手動操作があった時点で音声認識を終了する構成を採用することが望ましい。
Claims (10)
- 音声認識に用いる認識辞書を備え、当該認識辞書を用いて入力された音声を認識する音声認識装置であって、
入力される音声の信号レベルに基づき、音声区間を抽出する音声区間抽出処理、
前記音声区間抽出処理にて前記音声区間が抽出されると、当該音声区間に対応する音声データを、前記認識辞書を用いて認識する認識処理、
及び、前記認識処理による認識結果を表示すると共に、当該認識結果に対応する対応項目をリスト表示するリスト処理、を実行可能であり、
前記リスト処理にてリスト表示される対応項目を手動操作可能としたこと
を特徴とする音声認識装置。 - 請求項1に記載の音声認識装置において、
所定操作を検出しないうちは前記音声区間抽出処理を繰り返すこと
を特徴とする音声認識装置。 - 請求項1又は2に記載の音声認識装置において、
前記対応項目が手動操作にて選択された場合、当該選択された対応項目である選択項目を表示すると共に、当該選択項目に対応する対応項目をリスト表示すること
を特徴とする音声認識装置。 - 請求項1〜3の何れか一項に記載の音声認識装置において、
前記認識辞書は、予め定められた比較対象候補を記憶しており、
前記対応項目は、前記比較対象候補の一部であること
を特徴とする音声認識装置。 - 請求項1〜4の何れか一項に記載の音声認識装置において、
前記認識辞書は、予め定められた比較対象候補を記憶しており、
前記認識処理では、前記音声データが、前記リスト表示される対応項目と関係なく、全ての比較対象候補と比較されること
を特徴とする音声認識装置。 - 請求項1〜5の何れか一項に記載の音声認識装置において、
前記所定操作は、所定の確定操作であること
を特徴とする音声認識装置。 - 請求項1〜5の何れか一項に記載の音声認識装置において、
前記所定操作は、前記リスト処理にてリスト表示される対応項目の手動操作であること
を特徴とする音声認識装置。 - 請求項1〜7の何れか一項に記載の音声認識装置において、
前記リスト表示される対応項目は、操作用アイコンとして表示可能であること
を特徴とする音声認識装置。 - 請求項1〜8の何れか一項に記載の音声認識装置において、
前記音声区間抽出処理では、音声の信号レベルが閾値を下回る無声区間を判断して前記音声区間を抽出すること
を特徴とする音声認識装置。 - 請求項9に記載の音声認識装置において、
前記音声区間抽出処理では、第1無声区間を判断して前記音声区間を抽出すると共に、前記第1無声区間よりも長い第2無声区間が判断されるまで前記音声区間を繰り返し抽出することにより複数の音声区間を抽出可能であり、
前記認識処理では、前記複数の音声区間に対応する複数の音声データを認識可能であること
を特徴とする音声認識装置。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011150993A JP2013019958A (ja) | 2011-07-07 | 2011-07-07 | 音声認識装置 |
US13/541,805 US20130013310A1 (en) | 2011-07-07 | 2012-07-05 | Speech recognition system |
CN2012102330651A CN102867510A (zh) | 2011-07-07 | 2012-07-05 | 语音识别系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011150993A JP2013019958A (ja) | 2011-07-07 | 2011-07-07 | 音声認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013019958A true JP2013019958A (ja) | 2013-01-31 |
Family
ID=47439187
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011150993A Pending JP2013019958A (ja) | 2011-07-07 | 2011-07-07 | 音声認識装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20130013310A1 (ja) |
JP (1) | JP2013019958A (ja) |
CN (1) | CN102867510A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015011639A (ja) * | 2013-07-02 | 2015-01-19 | 三菱電機株式会社 | 情報処理装置および情報処理方法 |
JP2015026102A (ja) * | 2013-07-24 | 2015-02-05 | シャープ株式会社 | 電子機器 |
JP2016018078A (ja) * | 2014-07-08 | 2016-02-01 | トヨタ自動車株式会社 | 音声認識装置及び音声認識システム |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6744025B2 (ja) * | 2016-06-21 | 2020-08-19 | 日本電気株式会社 | 作業支援システム、管理サーバ、携帯端末、作業支援方法およびプログラム |
CN106384590A (zh) * | 2016-09-07 | 2017-02-08 | 上海联影医疗科技有限公司 | 语音控制装置和语音控制方法 |
KR102685523B1 (ko) * | 2018-03-27 | 2024-07-17 | 삼성전자주식회사 | 사용자 음성 입력을 처리하는 장치 |
JP7275795B2 (ja) * | 2019-04-15 | 2023-05-18 | コニカミノルタ株式会社 | 操作受付装置、制御方法、画像形成システム、及び、プログラム |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000231398A (ja) * | 1999-01-18 | 2000-08-22 | Thomson Multimedia Sa | 音声・手動ユーザインタフェースを具備した装置、並びに、この装置の音声命令学習支援方法 |
JP2003122393A (ja) * | 2001-10-19 | 2003-04-25 | Denso Corp | 入力装置、プログラム |
JP2003150192A (ja) * | 2001-11-08 | 2003-05-23 | Denso Corp | 音声認識装置 |
JP2005017932A (ja) * | 2003-06-27 | 2005-01-20 | Nissan Motor Co Ltd | 音声認識装置および音声認識用プログラム |
JP2005182208A (ja) * | 2003-12-16 | 2005-07-07 | Canon Inc | 情報処理装置およびデータ入力方法 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5317732A (en) * | 1991-04-26 | 1994-05-31 | Commodore Electronics Limited | System for relocating a multimedia presentation on a different platform by extracting a resource map in order to remap and relocate resources |
US5579431A (en) * | 1992-10-05 | 1996-11-26 | Panasonic Technologies, Inc. | Speech detection in presence of noise by determining variance over time of frequency band limited energy |
US5596680A (en) * | 1992-12-31 | 1997-01-21 | Apple Computer, Inc. | Method and apparatus for detecting speech activity using cepstrum vectors |
JP3004883B2 (ja) * | 1994-10-18 | 2000-01-31 | ケイディディ株式会社 | 終話検出方法及び装置並びに連続音声認識方法及び装置 |
AU707896B2 (en) * | 1995-02-15 | 1999-07-22 | British Telecommunications Public Limited Company | Voice activity detection |
DE19942871B4 (de) * | 1999-09-08 | 2013-11-21 | Volkswagen Ag | Verfahren zum Betrieb einer sprachgesteuerten Befehlseingabeeinheit in einem Kraftfahrzeug |
JP4201471B2 (ja) * | 2000-09-12 | 2008-12-24 | パイオニア株式会社 | 音声認識システム |
JP2003005897A (ja) * | 2001-06-20 | 2003-01-08 | Alpine Electronics Inc | 情報入力方法および装置 |
DE10158583A1 (de) * | 2001-11-29 | 2003-06-12 | Philips Intellectual Property | Verfahren zum Betrieb eines Barge-In-Dialogsystems |
CN1271595C (zh) * | 2001-12-17 | 2006-08-23 | 旭化成株式会社 | 语音识别方法 |
KR100652645B1 (ko) * | 2004-07-23 | 2006-12-06 | 엘지전자 주식회사 | 푸시 투 토크형 이동 통신 단말기의 음성 검출 및 인식을이용한 발언권 관리 장치와 방법 |
JP2007171809A (ja) * | 2005-12-26 | 2007-07-05 | Canon Inc | 情報処理装置及び情報処理方法 |
CN101162153A (zh) * | 2006-10-11 | 2008-04-16 | 丁玉国 | 一种语音控制的车载gps导航系统及其实现方法 |
CN101281745B (zh) * | 2008-05-23 | 2011-08-10 | 深圳市北科瑞声科技有限公司 | 一种车载语音交互系统 |
US8762150B2 (en) * | 2010-09-16 | 2014-06-24 | Nuance Communications, Inc. | Using codec parameters for endpoint detection in speech recognition |
-
2011
- 2011-07-07 JP JP2011150993A patent/JP2013019958A/ja active Pending
-
2012
- 2012-07-05 US US13/541,805 patent/US20130013310A1/en not_active Abandoned
- 2012-07-05 CN CN2012102330651A patent/CN102867510A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000231398A (ja) * | 1999-01-18 | 2000-08-22 | Thomson Multimedia Sa | 音声・手動ユーザインタフェースを具備した装置、並びに、この装置の音声命令学習支援方法 |
JP2003122393A (ja) * | 2001-10-19 | 2003-04-25 | Denso Corp | 入力装置、プログラム |
JP2003150192A (ja) * | 2001-11-08 | 2003-05-23 | Denso Corp | 音声認識装置 |
JP2005017932A (ja) * | 2003-06-27 | 2005-01-20 | Nissan Motor Co Ltd | 音声認識装置および音声認識用プログラム |
JP2005182208A (ja) * | 2003-12-16 | 2005-07-07 | Canon Inc | 情報処理装置およびデータ入力方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015011639A (ja) * | 2013-07-02 | 2015-01-19 | 三菱電機株式会社 | 情報処理装置および情報処理方法 |
JP2015026102A (ja) * | 2013-07-24 | 2015-02-05 | シャープ株式会社 | 電子機器 |
JP2016018078A (ja) * | 2014-07-08 | 2016-02-01 | トヨタ自動車株式会社 | 音声認識装置及び音声認識システム |
Also Published As
Publication number | Publication date |
---|---|
CN102867510A (zh) | 2013-01-09 |
US20130013310A1 (en) | 2013-01-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2013019958A (ja) | 音声認識装置 | |
CN106796786B (zh) | 语音识别系统 | |
JP4131978B2 (ja) | 音声認識機器制御装置 | |
WO2013014709A1 (ja) | ユーザインタフェース装置、車載用情報装置、情報処理方法および情報処理プログラム | |
JP5637131B2 (ja) | 音声認識装置 | |
JP2014142566A (ja) | 音声認識システムおよび音声認識方法 | |
JP5464078B2 (ja) | 音声認識端末 | |
JP2008203296A (ja) | 音声認識装置及びナビゲーション装置 | |
JP5986468B2 (ja) | 表示制御装置、表示システム及び表示制御方法 | |
JP2018116130A (ja) | 車内音声処理装置および車内音声処理方法 | |
JP2018072599A (ja) | 音声認識装置および音声認識方法 | |
US20170301349A1 (en) | Speech recognition system | |
JP6427755B2 (ja) | データ入力装置、データ入力方法、プログラム及び車載機 | |
JP2006195576A (ja) | 車載音声認識装置 | |
JP2018028733A (ja) | 入力装置、入力装置の制御方法、表示装置および入力プログラム | |
JP5157596B2 (ja) | 音声認識装置 | |
JP2016102823A (ja) | 情報処理システム、音声入力装置及びコンピュータプログラム | |
KR102417901B1 (ko) | 수동조작을 이용한 음성인식 장치 및 방법 | |
JP2009271835A (ja) | 機器操作制御装置及びプログラム | |
JP4770374B2 (ja) | 音声認識装置 | |
JP2010107614A (ja) | 音声案内応答方法 | |
JP2004333703A (ja) | 音声認識システムおよび音声認識の訂正・学習方法 | |
KR102329888B1 (ko) | 음성 인식 장치, 이를 포함하는 차량, 및 음성 인식 장치의 제어방법 | |
JP2008233009A (ja) | カーナビゲーション装置及びカーナビゲーション装置用プログラム | |
JP4983587B2 (ja) | 単音節入力装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121217 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130501 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130521 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130718 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130806 |