[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2013019958A - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP2013019958A
JP2013019958A JP2011150993A JP2011150993A JP2013019958A JP 2013019958 A JP2013019958 A JP 2013019958A JP 2011150993 A JP2011150993 A JP 2011150993A JP 2011150993 A JP2011150993 A JP 2011150993A JP 2013019958 A JP2013019958 A JP 2013019958A
Authority
JP
Japan
Prior art keywords
voice
recognition
list
speech
displayed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2011150993A
Other languages
English (en)
Inventor
Yuki Fujisawa
友紀 藤澤
Katsushi Asami
克志 浅見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Corp
Original Assignee
Denso Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Corp filed Critical Denso Corp
Priority to JP2011150993A priority Critical patent/JP2013019958A/ja
Priority to US13/541,805 priority patent/US20130013310A1/en
Priority to CN2012102330651A priority patent/CN102867510A/zh
Publication of JP2013019958A publication Critical patent/JP2013019958A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】 リストの手動操作と音声操作とを融合し、ユーザにとって利便性の高い音声認識装置を提供する。
【解決手段】 入力される音声の信号レベルに基づき音声区間であることを判断し(S120〜S140)、当該音声区間に対応する音声データが記憶して(S150)音声を認識する(S170)。そして、認識結果と共に当該認識結果に対応するリスト表示を行う(S180)。このとき、確定操作が行われないうちは(S190:NO)、音声の抽出を繰り返すようにすると共に、リスト表示される対応項目の手動操作を可能にする(S110)。
【選択図】図2

Description

本発明は、車載機器の操作などの少なくとも一部を音声で行うための音声認識装置に関する。
従来、入力された音声を予め記憶されている複数の比較対象候補と比較し、一致度合いの高いものを認識結果とする音声認識装置が知られている。近年、音声認識装置の中には、例えばハンズフリーシステムにおいて電話番号を音声入力するための装置も提案されている(例えば、特許文献1参照)。また、音声認識結果を上手く利用して、ユーザからの操作受付を簡易なものにする手法も開示されている(例えば、特許文献2参照)。
このような音声認識技術を採用すれば、ボタン操作などが軽減されるため、特に運転者自身が利用する場合、車両の走行中に行っても安全でありメリットが大きい。
特開2007−256643号公報 特開2008−14818号公報
しかしながら、従来の音声認識装置では、音声操作を行う場合には、音声操作特有の操作が必要になってくる。例えば、階層化されたリスト表示を基にした手動操作が可能な構成があるが、このような手動操作と音声操作とは一般的に別個のものとなっており、手動操作とは別の音声操作が分かり難いものとなっているケースが見受けられる。
本発明は、上述した課題を解決するためになされたものであり、その目的は、リストの手動操作と音声操作とを融合し、ユーザにとって利便性の高い音声認識装置を提供することにある。
上述した目的を達成するためになされた請求項1に記載の音声認識装置は、音声認識に用いる認識辞書を備え、当該認識辞書を用いて入力された音声を認識するものである。
本発明の音声認識装置は、音声区間抽出処理、認識処理、及び、リスト処理を実行可能となっている。
音声区間抽出処理は、入力される音声の信号レベルに基づき、音声区間を抽出するものである。認識処理では、音声区間抽出処理にて音声区間が抽出されると、当該音声区間に対応する音声データを、認識辞書を用いて認識する。また、リスト処理では、認識処理による認識結果を表示すると共に、当該認識結果に対応する対応項目をリスト表示する。
ここで特に本発明では、リスト処理にてリスト表示される対応項目を手動操作可能としている。
リスト表示の具体例は、図6に示すごとくである。例えば図6(a)に示す初期画面表示において「ミュージック」という音声を発すると、図6(b)に示すように、認識結果「ミュージック」と認識結果に対応する対応項目「歌手A」、「歌手B」、「歌手C」、「歌手D」がリスト表示される。そして、このような対応項目を選択するなどの手動操作
が可能となっている。
つまり、本発明では、認識結果に対応する対応項目がリスト表示され、当該リストの手動操作が可能となっているため、手動操作と並列の音声操作が可能となり、音声操作が分かり易いものとなる。このようにすれば、リストの手動操作と音声操作とが融合され、ユーザにとって利便性の高い音声認識装置となる。
なお、従来の音声認識装置には、発話に先立って、発話のトリガとなるボタン操作が必要なものがある。この場合、不認識や誤認識があったときは、都度、ボタン操作を行うことが必要となってくる。また、ボタン操作の後、すぐに発話する必要があり、発話のタイミングが限定されてしまう。
そこで請求項2に示すように、所定操作を検出しないうちは前記音声区間抽出処理を繰り返すこととしてもよい。つまり、例えば確定ボタンなどの押下があるまで、音声区間抽出処理が繰り返すのである。その結果、認識処理及びリスト処理が繰り返される。したがって、不認識や誤認識があったときも、繰り返し発話を行うことが可能となり、発話に先立つボタン操作が不要となる。また、音声区間が自動的に抽出されるため、発話のタイミングが限定されることがない。このようにすれば、一層、ユーザにとって利便性の高い音声認識装置となる。
ところで、手動操作をした場合にも音声操作と同様のリスト表示を行うようにすると、便利である。そこで、請求項3に示すように、対応項目が手動操作にて選択された場合、当該選択された対応項目である選択項目を表示すると共に、当該選択項目に対応する対応項目をリスト表示するようにしてもよい。例えば図6の例では、図6(b)に示した対応項目「歌手A」、「歌手B」、「歌手C」、「歌手D」のうち「歌手A」が音声として発せされた場合も手動で選択された場合も、同様に、図6(c)に示すような「歌手A」と「歌手A」に対応する対応項目「楽曲A」、「楽曲B」、「楽曲C」、「楽曲D」がリスト表示されるという具合である。このようにすれば、手動操作を行った場合にも音声操作と同様のリスト表示がなされ、音声操作がより分かり易くなる。
なお、認識辞書には、いわゆる汎用辞書を採用することが考えられる。ただし、比較対象候補を記憶した専用辞書を用いることで認識率を上げることができる。このような前提の下、請求項4に示すように、上述した対応項目を、比較対象候補の一部であることとしてもよい。例えば、図6(b)の例では、対応項目「歌手A」、「歌手B」、「歌手C」、「歌手D」が比較対象候補の一部になっているという具合である。この場合、リスト表示される対応項目が比較対象候補であるため、リスト表示を見て、そのリスト表示された対応項目から発する音声を選択することができる。このようにすれば、音声操作がより分かり易いものになる。
また、専用辞書を用いることを前提とし、請求項5に示すように、認識処理では、音声データが、リスト表示される対応項目と関係なく、全ての比較対象候補と比較されることとしてもよい。この場合、リスト表示されている比較対象候補はもちろん、リスト表示されていない比較対象候補と音声データとが比較される。例えば図6(a)に示す初期画面表示において、「ミュージック」という音声を発した場合、図6(b)に示すように、認識結果「ミュージック」と、認識結果に対応する対応項目「歌手A」、「歌手B」、「歌手C」、「歌手D」がリスト表示される。この状態において、リスト表示にない「エアコン」という音声を発した場合でも、「エアコン」という音声を認識することができ、これにより、認識結果「エアコン」と、認識結果に対応する対応項目「温度」、「風量」、「内気循環」、「外気導入」がリスト表示される。このようにすれば、自由度の高い音声操作が実現できる。
ところで、所定操作の一例が確定ボタンの押下であることは既に述べた。すなわち、請求項6に示すように、所定操作は、所定の確定操作であることとしてもよい。なお、所定の確定操作には、確定ボタンの押下のみならず、例えば「確定」という音声を発する操作としてもよい。
一方、請求項7に示すように、所定操作は、リスト処理にてリスト表示される対応項目の手動操作であることとしてもよい。この場合は、手動操作が介在した時点で音声認識の処理が終了することになる。
いずれの構成を採用しても、不認識や誤認識があったときも繰り返し発話を行うことが可能となり、発話に先立つボタン操作が不要となる。また、音声区間が自動的に抽出されるため、発話のタイミングが限定されることがない。
なお、リスト表示は、図6の例に示すような比較対象候補のリストとしてもよいが、請求項8に示すように、リスト表示される対応項目が操作用アイコンとして表示されるようにしてもよい。例えば、図7に示すごとくである。このようにすれば、手動操作が分かり易くなり、音声操作から手動操作への移行がスムーズになる。
ところで、上述した各構成では音声区間抽出処理に特徴を有している。例えば請求項9に示すように、音声区間抽出処理では、音声の信号レベルが閾値を下回る無声区間を判断して音声区間を抽出することが考えられる。このようにすれば、比較的簡単に音声を抽出することができる。
このとき、請求項10に示すように、第1無声区間を判断して音声区間を抽出すると共に、第1無声区間よりも長い第2無声区間が判断されるまで音声区間を繰り返し抽出することにより複数の音声区間を抽出するようにしてもよい。このとき、認識処理では、複数の音声区間に対応する複数の音声データを認識する。このようにすれば、複数の音声データを一度に認識することができ、音声操作の幅が広がる。
音声認識装置の全体構成を示すブロック図である。 音声認識処理を示すフローチャートである。 音声の信号を模式的に示す説明図である。 リスト表示処理を示すフローチャートである。 手動操作処理を示すフローチャートである。 リスト表示を例示する説明図である。 操作用アイコンによるリスト表示を示す説明図である。
以下、本発明の実施形態を説明する。
図1は、一実施形態の音声認識装置1の概略構成を示すブロック図である。
音声認識装置1は、車両に搭載されて用いられ、装置全体の制御を司る制御部10を中心に構成されている。制御部10は、いわゆるコンピュータであり、CPU、ROM、RAM、I/O、及びこれらを接続するバスラインを含む。
制御部10には、音声認識ユニット20、操作スイッチ群30、及び、表示部40が接続されている。
音声認識ユニット20は、音声入力部21、音声記憶部22、音声認識部23、及び、表示決定部24を有している。
音声入力部21は、音声を入力するための構成であり、音声入力部21には、マイクロフォン50が接続されている。音声入力部21に入力されて切り出される音声は、音声記憶部22に音声データとして記憶される。
音声認識部23は、音声記憶部22に記憶された音声データの認識を行う。具体的には、音声認識部23は、認識辞書25を参照し、音声データを予め記憶された比較対象候補と比較して当該比較対象候補から認識結果を得る。つまり、認識辞書25は、比較対象候補を記憶する専用辞書となっている。また、本実施形態では、比較対象候補のグループ分けなどはなされておらず、音声データは、認識辞書25に記憶された比較対象候補の全部と比較されるようになっている。
表示決定部24は、音声認識部23にて得られる認識結果に基づき、当該認識結果に対応する対応項目を決定する。認識結果に対応する対応項目は、対応項目表26として用意されている。
操作スイッチ群30は、ユーザによる手動操作を可能とする構成である。表示部40は、例えば液晶ディスプレイを有する構成として具現化され、ユーザに対する情報表示を行う。
次に、本実施形態における音声認識処理を説明する。この音声認識処理は、制御部10にて実行されるものであり、操作スイッチ群30を介した所定操作があると実行される。
最初のS100では、初期画面表示を行う。この処理は、図1中の表示部40に初期のリスト表示を行うものである。具体的には、図6(a)に示すように、「Listening」という表示を画面の上部に行い、音声の認識候補の一部をその下に表示する。図6(a)では、「エアコン」、「ミュージック」、「電話」、「周辺検索」の4項目が表示されている。
続くS110では、手動操作処理を実行する。本実施形態では、音声操作と並行して手動操作が可能となっており、音声認識処理の中で繰り返し手動操作処理が実行される。手動操作処理については後述する。
続くS120では、音声区間か否かを判断する。この処理は、閾値以上のレベルの信号がマイクロフォン50を介して音声入力部21に入力されたことを判断するものである。ここで音声区間であると判断された場合(S120:YES)、S130へ移行する。一方、音声区間でないと判断された場合(S120:NO)、S110からの処理を繰り返す。
音声区間であると判断された場合に移行するS130では、音声を取得する。この処理は、音声入力部21に入力される音声をバッファなどに取得するものである。
続くS140では、第1無声区間であるか否かを判断する。マイクロフォン50を介して音声入力部21に入力される信号レベルが閾値を下回る区間を、無声区間とする。具体的に、無声区間は、車両の走行に伴う雑音などによって構成される。そして、ここでは、そのような無声区間が所定時間T1だけ連続する区間を、第1無声区間として判断する。ここで第1無声区間であると判断された場合(S140:YES)、S150にて、S130で取得した音声を音声記憶部22に音声データとして記憶する。一方、第1無声区間でないと判断された場合(S140:NO)、すなわち音声区間である場合又は無声区間であるが所定時間T1が経過していない場合は、S130からの処理を繰り返す。
S150の処理に続くS160では、第2無声区間であるか否かを判断する。ここでは
、無声区間が所定時間T2だけ連続する区間を、第2無声区間として判断する。ここで第2無声区間であると判断された場合(S160:YES)、S170へ移行する。一方、第2無声区間でない場合(S160:NO)、S110からの処理を繰り返す。
ここで音声データの記憶について説明しておく。
図3は、マイクロフォン50を介して入力される音声の信号を模式的に示す説明図である。ここで時刻t1にて音声操作の開始が操作スイッチ群30によって指示されたものとする。
このとき、時刻t2から時刻t3までが「音声区間A」として判断され(図2中のS120:YES)、第1無声区間T1との判断が行われないうちは(S140:NO)、音声が取得される(S130)。第1無声区間T1が判断されると(S140:YES)、音声区間Aに対応する音声データが記憶される(S150)。
そして、第2無声区間T2であるとの判断が行われないうちは(図2中のS160:NO)、S110からの処理が繰り返される。図3の例では、時刻t4から時刻t5までが「音声区間B」として判断され(S120:YES)、音声区間Bに対応する音声データが記憶される(S150)。
その後、第2無声区間T2との判断が行われると(S160:YES)、認識処理が実行される(S170)。したがって、図3の例では、音声区間A及び音声区間Bの2つの音声区間に対応する音声データが認識処理の対象となる。つまり、本実施形態では、複数の音声データが認識処理の対象になり得る。
図2の説明に戻りS170では、認識処理を実行する。この処理は、S150にて音声記憶部22に記憶した音声データを認識辞書25の比較対象候補と比較し、音声データに対応する認識結果を得るものである。
続くS180では、リスト処理を実行する。ここでリスト処理について説明を加える。図4は、リスト処理を示すフローチャートである。
最初のS181では、認識結果があるか否かを判断する。この処理は、図2中のS170の認識処理にて何らかの認識結果が得られたか否かを判断するものである。ここで認識結果があると判断された場合(S181:YES)、S182へ移行する。一方、認識結果がないと判断された場合(S181:NO)、すなわちS170にて認識不能であった場合は、以降の処理を実行せず、リスト処理を終了する。
S182では、認識結果を表示する。この処理は、表示部40に、S170における認識結果を表示するものである。
続くS183では、対応項目を表示する。表示決定部24は、対応項目表26を参照し、音声認識部23による認識結果に対応する対応項目を決定する。この処理は、表示決定部24にて決定される対応項目を、表示部40に表示するものである。
図2の説明に戻り、S190では、確定操作があったか否かを判断する。ここで確定操作があったと判断された場合(S190:YES)、音声認識処理を終了する。一方、確定操作がないうちは(S190:NO)、S110からの処理を繰り返す。
次に、図2中S110の手動操作処理について説明する。図5は、手動操作処理を示すフローチャートである。上述したように本実施形態では、音声操作に並行して手動操作が可能となるよう手動操作処理が繰り返し実行される。
最初のS111では、手動操作があるか否かを判断する。この処理は、操作スイッチ群30を介したボタン操作などがあったことを判断するものである。ここで手動操作があったと判断された場合(S111:YES)、S112へ移行する。一方、手動操作がないと判断された場合(S111:NO)、手動操作処理を終了する。
S112では、選択操作か否かを判断する。この処理は、表示された対応項目の選択処理が行われたか否かを判断するものである。ここで選択操作が行われたと判断された場合(S112:YES)、S113へ移行する。一方、選択操作が行われていないと判断された場合(S112:NO)、以降の処理を実行せず、手動操作処理を終了する。
S113では、選択された対応項目である選択項目を表示する。この表示は、上述した認識結果の表示と同様に、表示部40に表示される。
続くS114では、選択項目に対応する対応項目を、表示部40に表示する。
ここで上述した音声認識処理に対する理解を容易にするため、リスト表示について具体的な説明を加える。図6は、リスト表示を例示する説明図である。
上述したように当初のリスト表示は、図6(a)に示すごとくである(図2中のS100)。ここでS170の認識処理による認識結果が「ミュージック」である場合、S180のリスト処理にて、認識結果が「ミュージック」として表示されると共に、ミュージックに対応する対応項目が「歌手A」、「歌手B」、「歌手C」、「歌手D」として表示される。図6(b)に示す如くである。
ここで確定操作がないうちは(図2中のS190:NO)、続けて音声操作が可能となっており、S170の認識処理による認識結果が「歌手A」である場合、S180のリスト処理にて、認識結果が「歌手A」として表示されると共に、歌手Aに対応する対応項目が「楽曲A」、「楽曲B」、「楽曲C」、「楽曲D」として表示される。図6(c)に示す如くである。
また、S170の認識処理による認識結果が「エアコン」である場合、S180のリスト処理にて、認識結果が「エアコン」として表示されると共に、エアコンに対応する対応項目が「温度」、「風量」、「内気循環」、「外気導入」として表示される。図6(d)に示す如くである。
ここで確定操作がないうちは(図2中のS190:NO)、続けて音声操作が可能となっており、S170の認識処理による認識結果が「温度」である場合、S180のリスト処理にて、認識結果が「温度」として表示されると共に、温度に対応する対応項目が「25℃」、「27℃」、「27.5℃」、「28℃」として表示される。図6(e)に示す如くである。
さらに発話があり、S170の認識処理による認識結果が「25℃」である場合、S180のリスト処理にて、認識結果が「25℃」として表示されると共に、25℃に対応する対応項目が「25.5℃」、「27℃」、「27.5℃」、「28℃」として表示される。図6(f)に示す如くである。なお、「25℃」に対して、他の温度の候補を表示するのは誤認識があった場合、即座に別の温度を選択可能とするためである。
ところで、本実施形態では、確定操作がないうちは(図2中のS190:NO)、手動操作処理が繰り返し実行される(S110)。これにより、上述したリスト表示は、手動操作によっても、同様に実現される。
例えば、音声の認識結果が「ミュージック」である場合、図6(b)に示したようにミ
ュージックに対応する対応項目が「歌手A」、「歌手B」、「歌手C」、「歌手D」として表示されるのであるが、このとき、操作スイッチ群30を介した「歌手A」の選択操作があると(図5中のS112:YES)、図6(c)に示したように、選択項目「歌手A」が表示されると共に(S113)、歌手Aに対応する対応項目が「楽曲A」、「楽曲B」、「楽曲C」、「楽曲D」として表示される(S114)。
つまり、音声操作によっても手動操作によっても、同様のリスト表示が行われるのである。
一方、本実施形態では、音声認識部23は、リスト表示とは関係なく、音声データに対し、認識辞書25に記憶されている全ての比較対象候補との比較を行う。かかる構成により、図6(a)に示したリスト表示がなされている状態であっても、「エアコン」、「ミュージック」、「電話」、「周辺検索」の4項目以外の「歌手A」、「歌手B」などの音声を認識することができるようになっており、認識結果が「歌手A」である場合には、図6(c)に示したリスト表示が行われる。
同様に図6(c)に示したリスト表示がなされている状態であっても、「歌手A」、「歌手B」、「歌手C」、「歌手D」の4項目以外の「エアコン」や「温度」などの音声を認識することができるようになっており、認識結果が「エアコン」である場合には図6(d)に示したリスト表示が行われ、認識結果が「温度」である場合には図6(e)に示したリスト表示が行われる。
さらにまた、上述したように、本実施形態では、複数の音声データが一回の認識処理の対象となり得る。したがって、例えば「ミュージック」と発話され音声認識が行われる前に、すなわち無声区間T2であるとの判断が行われないうちに(図2中のS160:NO)、「歌手A」と発話された場合、図6(b)ではなく図6(c)に示したリスト表示を行うという具合である。これは、「ミュージック」に続けて「歌手A」と発話した場合、「ミュージック」の中でも「歌手A」の楽曲を聴きたいというユーザの目的に沿ったものとなるためである。また例えば「ミュージック」と発話され音声認識が行われる前に、すなわち無声区間T2であるとの判断が行われないうちに(図2中のS160:NO)、「エアコン」と発話された場合、後者の「エアコン」という発話を優先し、図6(d)に示したリスト表示を行うという具合である。これは、「ミュージック」に続けて「エアコン」と発話した場合、「ミュージック」と言ったもののやっぱりエアコンの操作がしたい、というユーザの「言い直し」と見られるためである。なお、複数の音声データが認識対象となった場合における表示態様は、リスト表示との兼ね合いなどから設計することができる。
次に、本実施形態の音声認識装置1が発揮する効果を説明する。
本実施形態では、入力される音声の信号レベルに基づき音声区間であることが判断され(図2中のS120〜S140)、当該音声区間に対応する音声データが記憶されて(S150)認識される(S170)。そして、認識結果と共に当該認識結果に対応するリスト表示が行われる(S180,図4中のS182,S183)。このとき、本実施形態では、確定操作が行われないうちは(図2中のS190:NO)、音声の抽出が繰り返されると共に、リスト表示される対応項目の手動操作が可能となっている(S110)。
つまり、本実施形態では、確定ボタンなどの押下があるまで、音声区間の抽出が繰り返されるようにした。結果として、音声の認識及び認識結果に対応するリスト表示が繰り返される。したがって、不認識や誤認識があったときも、繰り返し発話を行うことが可能となり、発話に先立つボタン操作が不要となる。また、音声区間が自動的に抽出されるため、発話のタイミングが限定されることがない。しかも、認識結果に対応する対応項目がリスト表示され、当該リストの手動操作が可能となっているため、手動操作と並列の音声操
作が可能となり、音声操作が分かり易いものとなる。これにより、リストの手動操作と音声操作とが融合され、ユーザにとって利便性の高い音声認識装置となる。
また、本実施形態では、手動操作があった場合(図5中のS111:YES)、対応項目が選択された場合には(S112:YES)、選択項目が表示されると共に(S113)当該選択項目に対応する対応項目がリスト表示される(S114)。図6の例では、図6(b)に示した対応項目「歌手A」、「歌手B」、「歌手C」、「歌手D」のうち「歌手A」が音声として発せされた場合も手動で選択された場合も、同様に、図6(c)に示すような「歌手A」と「歌手A」に対応する対応項目「楽曲A」、「楽曲B」、「楽曲C」、「楽曲D」がリスト表示される。これにより、手動操作を行った場合にも音声操作と同様のリスト表示がなされ、音声操作がより分かり易くなる。
さらにまた、本実施形態では、リスト表示される対応項目が認識辞書25に記憶された比較対象候補の一部となっている。図6(b)の例では、対応項目「歌手A」、「歌手B」、「歌手C」、「歌手D」が比較対象候補の一部になっている。したがって、リスト表示を見て、そのリスト表示された対応項目から、次に発する音声を選択することができる。これにより、音声操作がより分かり易くなる。
また、本実施形態では、リスト表示される対応項目と関係なく、全ての比較対象候補と比較される。例えば図6(b)に示した状態でリスト表示にない「エアコン」という音声を発した場合でも、「エアコン」という音声を認識することができ、これにより、図6(d)に示したように、認識結果「エアコン」と、認識結果に対応する対応項目「温度」、「風量」、「内気循環」、「外気導入」がリスト表示される。その結果、自由度の高い音声操作が実現できる。
さらにまた、本実施形態では、音声の信号レベルが閾値を下回る無声区間を判断して音声区間を抽出する。具体的には、第1無声区間を判断して音声区間を抽出すると共に(図2中のS140:YES,S150)、第1無声区間よりも長い第2無声区間が判断されるまで音声区間を繰り返し抽出することにより複数の音声区間を音声データとして抽出する(S160:NO,S120〜S150)。そして、複数の音声区間に対応する複数の音声データを認識する(S170)。これにより、複数の音声データを一度に認識することができ、音声操作の幅が広がる。
なお、本実施形態の音声認識装置1が特許請求の範囲の「音声認識装置」を構成し、認識辞書25が「認識辞書」を構成する。また、図2中のS120〜S160の処理が「音声区間抽出処理」に相当し、S170の処理が「認識処理」に相当し、S180の処理(図4に示したS181〜S183の処理)が「リスト処理」に相当する。
以上、本発明は上述した実施形態に何ら限定されるものではなく、その要旨を逸脱しない範囲において種々なる形態で実施することができる。
(イ)上記実施形態では確定操作がないうちは音声の認識を繰り返す構成となっているが(図2中のS190:NO,S170)、この確定操作を、操作スイッチ群30を介した操作としていた。これに対し、確定操作自体を音声による操作としてもよい。
また、S190における確定操作に代え、手動操作があった時点で音声認識を終了する構成としてもよい。この場合、図2中のS180の処理終了後にS110へ移行するようにし図5中のS111にて肯定判断された場合に、音声認識処理を終了するように構成することが考えられる。
(ロ)上記実施形態では図6に例示したようなリスト表示について述べたが、例えば手
動操作があった時点で音声認識を終了する上記(イ)に示した構成などにおいて、図7に示すような操作用アイコンによるリスト表示を行ってもよい。この場合、ステアリングなどに設けられる操作ボタンによって、アイコン選択による手動操作が可能になる。図7の例では、ステアリングなどに上下左右の操作ボタンが設けられていることを前提に、上下ボタンによって送風モードの選択が可能となり、左ボタンによって風量調節のモードへ移行し、右ボタンによって温度調節のモードへ移行するという具合である。すなわち、操作用アイコンによるリスト表示を行う場合、その後のリストからの対応項目の選択が手動操作を前提とするものとなるため、手動操作があった時点で音声認識を終了する構成を採用することが望ましい。
(ハ)上記実施形態では予め比較対象候補が記憶された専用辞書を認識辞書25として用いているが、特に発する音声を限定しない汎用辞書を認識辞書25として用いるようにしてもよい。
1:音声認識装置、10:制御部、20:音声認識ユニット、21:音声入力部、22:音声記憶部、23:音声認識部、24:表示決定部、25:認識辞書、26:対応項目表、30:操作スイッチ群、40:表示部、50:マイクロフォン

Claims (10)

  1. 音声認識に用いる認識辞書を備え、当該認識辞書を用いて入力された音声を認識する音声認識装置であって、
    入力される音声の信号レベルに基づき、音声区間を抽出する音声区間抽出処理、
    前記音声区間抽出処理にて前記音声区間が抽出されると、当該音声区間に対応する音声データを、前記認識辞書を用いて認識する認識処理、
    及び、前記認識処理による認識結果を表示すると共に、当該認識結果に対応する対応項目をリスト表示するリスト処理、を実行可能であり、
    前記リスト処理にてリスト表示される対応項目を手動操作可能としたこと
    を特徴とする音声認識装置。
  2. 請求項1に記載の音声認識装置において、
    所定操作を検出しないうちは前記音声区間抽出処理を繰り返すこと
    を特徴とする音声認識装置。
  3. 請求項1又は2に記載の音声認識装置において、
    前記対応項目が手動操作にて選択された場合、当該選択された対応項目である選択項目を表示すると共に、当該選択項目に対応する対応項目をリスト表示すること
    を特徴とする音声認識装置。
  4. 請求項1〜3の何れか一項に記載の音声認識装置において、
    前記認識辞書は、予め定められた比較対象候補を記憶しており、
    前記対応項目は、前記比較対象候補の一部であること
    を特徴とする音声認識装置。
  5. 請求項1〜4の何れか一項に記載の音声認識装置において、
    前記認識辞書は、予め定められた比較対象候補を記憶しており、
    前記認識処理では、前記音声データが、前記リスト表示される対応項目と関係なく、全ての比較対象候補と比較されること
    を特徴とする音声認識装置。
  6. 請求項1〜5の何れか一項に記載の音声認識装置において、
    前記所定操作は、所定の確定操作であること
    を特徴とする音声認識装置。
  7. 請求項1〜5の何れか一項に記載の音声認識装置において、
    前記所定操作は、前記リスト処理にてリスト表示される対応項目の手動操作であること
    を特徴とする音声認識装置。
  8. 請求項1〜7の何れか一項に記載の音声認識装置において、
    前記リスト表示される対応項目は、操作用アイコンとして表示可能であること
    を特徴とする音声認識装置。
  9. 請求項1〜8の何れか一項に記載の音声認識装置において、
    前記音声区間抽出処理では、音声の信号レベルが閾値を下回る無声区間を判断して前記音声区間を抽出すること
    を特徴とする音声認識装置。
  10. 請求項9に記載の音声認識装置において、
    前記音声区間抽出処理では、第1無声区間を判断して前記音声区間を抽出すると共に、前記第1無声区間よりも長い第2無声区間が判断されるまで前記音声区間を繰り返し抽出することにより複数の音声区間を抽出可能であり、
    前記認識処理では、前記複数の音声区間に対応する複数の音声データを認識可能であること
    を特徴とする音声認識装置。
JP2011150993A 2011-07-07 2011-07-07 音声認識装置 Pending JP2013019958A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2011150993A JP2013019958A (ja) 2011-07-07 2011-07-07 音声認識装置
US13/541,805 US20130013310A1 (en) 2011-07-07 2012-07-05 Speech recognition system
CN2012102330651A CN102867510A (zh) 2011-07-07 2012-07-05 语音识别系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011150993A JP2013019958A (ja) 2011-07-07 2011-07-07 音声認識装置

Publications (1)

Publication Number Publication Date
JP2013019958A true JP2013019958A (ja) 2013-01-31

Family

ID=47439187

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011150993A Pending JP2013019958A (ja) 2011-07-07 2011-07-07 音声認識装置

Country Status (3)

Country Link
US (1) US20130013310A1 (ja)
JP (1) JP2013019958A (ja)
CN (1) CN102867510A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015011639A (ja) * 2013-07-02 2015-01-19 三菱電機株式会社 情報処理装置および情報処理方法
JP2015026102A (ja) * 2013-07-24 2015-02-05 シャープ株式会社 電子機器
JP2016018078A (ja) * 2014-07-08 2016-02-01 トヨタ自動車株式会社 音声認識装置及び音声認識システム

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6744025B2 (ja) * 2016-06-21 2020-08-19 日本電気株式会社 作業支援システム、管理サーバ、携帯端末、作業支援方法およびプログラム
CN106384590A (zh) * 2016-09-07 2017-02-08 上海联影医疗科技有限公司 语音控制装置和语音控制方法
KR102685523B1 (ko) * 2018-03-27 2024-07-17 삼성전자주식회사 사용자 음성 입력을 처리하는 장치
JP7275795B2 (ja) * 2019-04-15 2023-05-18 コニカミノルタ株式会社 操作受付装置、制御方法、画像形成システム、及び、プログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000231398A (ja) * 1999-01-18 2000-08-22 Thomson Multimedia Sa 音声・手動ユーザインタフェースを具備した装置、並びに、この装置の音声命令学習支援方法
JP2003122393A (ja) * 2001-10-19 2003-04-25 Denso Corp 入力装置、プログラム
JP2003150192A (ja) * 2001-11-08 2003-05-23 Denso Corp 音声認識装置
JP2005017932A (ja) * 2003-06-27 2005-01-20 Nissan Motor Co Ltd 音声認識装置および音声認識用プログラム
JP2005182208A (ja) * 2003-12-16 2005-07-07 Canon Inc 情報処理装置およびデータ入力方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5317732A (en) * 1991-04-26 1994-05-31 Commodore Electronics Limited System for relocating a multimedia presentation on a different platform by extracting a resource map in order to remap and relocate resources
US5579431A (en) * 1992-10-05 1996-11-26 Panasonic Technologies, Inc. Speech detection in presence of noise by determining variance over time of frequency band limited energy
US5596680A (en) * 1992-12-31 1997-01-21 Apple Computer, Inc. Method and apparatus for detecting speech activity using cepstrum vectors
JP3004883B2 (ja) * 1994-10-18 2000-01-31 ケイディディ株式会社 終話検出方法及び装置並びに連続音声認識方法及び装置
AU707896B2 (en) * 1995-02-15 1999-07-22 British Telecommunications Public Limited Company Voice activity detection
DE19942871B4 (de) * 1999-09-08 2013-11-21 Volkswagen Ag Verfahren zum Betrieb einer sprachgesteuerten Befehlseingabeeinheit in einem Kraftfahrzeug
JP4201471B2 (ja) * 2000-09-12 2008-12-24 パイオニア株式会社 音声認識システム
JP2003005897A (ja) * 2001-06-20 2003-01-08 Alpine Electronics Inc 情報入力方法および装置
DE10158583A1 (de) * 2001-11-29 2003-06-12 Philips Intellectual Property Verfahren zum Betrieb eines Barge-In-Dialogsystems
CN1271595C (zh) * 2001-12-17 2006-08-23 旭化成株式会社 语音识别方法
KR100652645B1 (ko) * 2004-07-23 2006-12-06 엘지전자 주식회사 푸시 투 토크형 이동 통신 단말기의 음성 검출 및 인식을이용한 발언권 관리 장치와 방법
JP2007171809A (ja) * 2005-12-26 2007-07-05 Canon Inc 情報処理装置及び情報処理方法
CN101162153A (zh) * 2006-10-11 2008-04-16 丁玉国 一种语音控制的车载gps导航系统及其实现方法
CN101281745B (zh) * 2008-05-23 2011-08-10 深圳市北科瑞声科技有限公司 一种车载语音交互系统
US8762150B2 (en) * 2010-09-16 2014-06-24 Nuance Communications, Inc. Using codec parameters for endpoint detection in speech recognition

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000231398A (ja) * 1999-01-18 2000-08-22 Thomson Multimedia Sa 音声・手動ユーザインタフェースを具備した装置、並びに、この装置の音声命令学習支援方法
JP2003122393A (ja) * 2001-10-19 2003-04-25 Denso Corp 入力装置、プログラム
JP2003150192A (ja) * 2001-11-08 2003-05-23 Denso Corp 音声認識装置
JP2005017932A (ja) * 2003-06-27 2005-01-20 Nissan Motor Co Ltd 音声認識装置および音声認識用プログラム
JP2005182208A (ja) * 2003-12-16 2005-07-07 Canon Inc 情報処理装置およびデータ入力方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015011639A (ja) * 2013-07-02 2015-01-19 三菱電機株式会社 情報処理装置および情報処理方法
JP2015026102A (ja) * 2013-07-24 2015-02-05 シャープ株式会社 電子機器
JP2016018078A (ja) * 2014-07-08 2016-02-01 トヨタ自動車株式会社 音声認識装置及び音声認識システム

Also Published As

Publication number Publication date
CN102867510A (zh) 2013-01-09
US20130013310A1 (en) 2013-01-10

Similar Documents

Publication Publication Date Title
JP2013019958A (ja) 音声認識装置
CN106796786B (zh) 语音识别系统
JP4131978B2 (ja) 音声認識機器制御装置
WO2013014709A1 (ja) ユーザインタフェース装置、車載用情報装置、情報処理方法および情報処理プログラム
JP5637131B2 (ja) 音声認識装置
JP2014142566A (ja) 音声認識システムおよび音声認識方法
JP5464078B2 (ja) 音声認識端末
JP2008203296A (ja) 音声認識装置及びナビゲーション装置
JP5986468B2 (ja) 表示制御装置、表示システム及び表示制御方法
JP2018116130A (ja) 車内音声処理装置および車内音声処理方法
JP2018072599A (ja) 音声認識装置および音声認識方法
US20170301349A1 (en) Speech recognition system
JP6427755B2 (ja) データ入力装置、データ入力方法、プログラム及び車載機
JP2006195576A (ja) 車載音声認識装置
JP2018028733A (ja) 入力装置、入力装置の制御方法、表示装置および入力プログラム
JP5157596B2 (ja) 音声認識装置
JP2016102823A (ja) 情報処理システム、音声入力装置及びコンピュータプログラム
KR102417901B1 (ko) 수동조작을 이용한 음성인식 장치 및 방법
JP2009271835A (ja) 機器操作制御装置及びプログラム
JP4770374B2 (ja) 音声認識装置
JP2010107614A (ja) 音声案内応答方法
JP2004333703A (ja) 音声認識システムおよび音声認識の訂正・学習方法
KR102329888B1 (ko) 음성 인식 장치, 이를 포함하는 차량, 및 음성 인식 장치의 제어방법
JP2008233009A (ja) カーナビゲーション装置及びカーナビゲーション装置用プログラム
JP4983587B2 (ja) 単音節入力装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121217

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130501

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130521

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130718

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130806