[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP5464078B2 - 音声認識端末 - Google Patents

音声認識端末 Download PDF

Info

Publication number
JP5464078B2
JP5464078B2 JP2010149674A JP2010149674A JP5464078B2 JP 5464078 B2 JP5464078 B2 JP 5464078B2 JP 2010149674 A JP2010149674 A JP 2010149674A JP 2010149674 A JP2010149674 A JP 2010149674A JP 5464078 B2 JP5464078 B2 JP 5464078B2
Authority
JP
Japan
Prior art keywords
voice
speaker
recognition
output
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010149674A
Other languages
English (en)
Other versions
JP2012013910A (ja
Inventor
邦雄 横井
一久 鈴木
雅之 高見
直頼 丹澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Corp
Original Assignee
Denso Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Corp filed Critical Denso Corp
Priority to JP2010149674A priority Critical patent/JP5464078B2/ja
Priority to US13/170,284 priority patent/US8706492B2/en
Priority to CN2011101895424A priority patent/CN102314872B/zh
Publication of JP2012013910A publication Critical patent/JP2012013910A/ja
Application granted granted Critical
Publication of JP5464078B2 publication Critical patent/JP5464078B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3605Destination input or retrieval
    • G01C21/3608Destination input or retrieval using speech input, e.g. using speech recognition
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3626Details of the output of route guidance instructions
    • G01C21/3629Guidance using speech or audio output, e.g. text-to-speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Automation & Control Theory (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Telephonic Communication Services (AREA)
  • Navigation (AREA)

Description

本発明は、端末内の処理により音声認識を行うローカル音声認識と、通信接続されたセンタ側の処理により音声認識を行うセンタ音声認識を利用することが可能な音声認識端末に関するものである。
従来、車載ナビゲーション装置のような車載情報端末においては、安全性や利便性向上のために、端末内での音声認識処理(ローカル音声認識処理)を用いたHMI(Human Machine Interface)が多く採用されている。
また、端末内での音声認識機能を有する端末において、通信機器を備え、この通信機器を介してセンタに接続し、このセンタ側での音声認識処理(センタ音声認識処理)により、情報検索等を行うことが可能となったものもある(例えば、特許文献1参照)。
特許第3862169号公報
ところで、音声認識処理では、大量の演算処理やメモリを必要とするため処理性能によって認識可能な語彙数や認識可能な文章の構造等が異なる。
すなわち、車載ナビゲーション装置のような車載情報端末においては演算処理部の処理性能が比較的低いため、ローカル音声認識処理では特定の操作コマンドの認識、電話番号の認識、住所の認識や比較的簡単な単語の認識等に特化して音声認識を行うようになっている。
これに対し、センタ側で実施されるセンタ音声認識処理では、演算処理部の処理性能が高く、認識可能な語彙数も多く比較的複雑な文章でも認識することが可能となっている。
このように、ローカル音声認識処理とセンタ音声認識処理とでは、音声認識の目的、認識可能な語彙の種類や数、認識可能な文章の複雑さ等が異なる。したがって、ローカル音声認識処理とセンタ音声認識処理の両方を利用することが可能な端末では、ユーザがローカル音声認識とセンタ音声認識を使い分けて発声する必要がある。
しかし、従来の車載情報端末では、音声認識機能を利用して発声する際に、ローカル音声認識機能であるかセンタ音声認識機能であるかを容易に区別することができないため、ユーザがローカル音声認識とセンタ音声認識を使い分けて発声することができない場合がある。
例えば、ナビゲーション装置には、メニュー画面に従ってユーザにより電話検索、住所検索、施設検索等のスイッチが操作されるとローカル音声認識が開始され、メニュー画面に従ってユーザにより情報検索、ニュース等のスイッチが操作されるとセンタ音声認識が開始されるようになったものがある。このような構成の装置では、ユーザがローカル音声認識機能であるかセンタ音声認識機能であるかを意識して発声しないと、意図しない動作が開始されてしまうといった状況が発生してしまう。
例えば、センタ音声認識で「渋谷のおいしいラーメン屋」と発声した場合、「渋谷のおいしいラーメン屋」が認識され、「渋谷のおいしいラーメン屋」の検索結果を表示させることができるが、ローカル音声認識処理で「渋谷のおいしいラーメン屋」と発声しても、「渋谷のおいしいラーメン屋」が正確に音声認識されず、例えば、「近くのおにぎり屋」として誤認識され、ユーザの意図しない「近くのおにぎり屋」の検索結果が表示されてしまう。
また、ローカル音声認識で、地図画面の拡大表示を指示する操作コマンドとして「拡大」と発声すると、「拡大」が操作コマンドとして認識され、地図画面を拡大表示させることができるが、センタ音声認識で、地図画面の拡大表示を指示する操作コマンドとして「拡大」と発声すると、「拡大」が操作コマンドと認識されずに、例えば、センタ音声認識では、「拡大」をキーワードにウェブ検索を開始してしまう。このような動作はユーザにとって想定外の動作であり、ユーザに混乱を与えてしまう。
本発明は上記問題に鑑みたもので、ユーザがローカル音声認識とセンタ音声認識を容易に区別できるようにすることを目的とする。
上記目的を達成するため、請求項1に記載の発明は、端末内の処理により音声認識を行うローカル音声認識と、通信接続されたセンタ側の処理により音声認識を行うセンタ音声認識とをユーザ操作にて使い分けて利用することが可能な音声認識端末であって、センタ音声認識に伴ってスピーカより出力させる音声の音声解析を実施して、当該センタ音声認識に伴ってスピーカより出力させる音声の特徴を特定する音声特徴特定手段と、音声特徴特定手段により特定された音声の特徴に基づいて、センタ音声認識に伴ってスピーカより出力させる音声とローカル音声認識に伴ってスピーカより出力させる音声の特徴が区別可能となるようにセンタ音声認識に伴ってスピーカより出力させる音声とローカル音声認識に伴ってスピーカより出力させる音声の少なくとも一方を加工する音声加工手段と、音声加工手段により加工された音声を用いて音声認識に伴う音声をスピーカより出力させる音声出力手段と、を備えたことを特徴としている。
このような構成によれば、センタ音声認識に伴ってスピーカより出力させる音声の音声解析を実施して、当該センタ音声認識に伴ってスピーカより出力させる音声の特徴を特定し、当該音声の特徴に基づいて、センタ音声認識に伴ってスピーカより出力させる音声とローカル音声認識に伴ってスピーカより出力させる音声の特徴が区別可能となるようにセンタ音声認識に伴ってスピーカより出力させる音声とローカル音声認識に伴ってスピーカより出力させる音声の少なくとも一方を加工し、この加工された音声を用いて音声認識に伴う音声がスピーカより出力されるので、ユーザはローカル音声認識とセンタ音声認識を容易に区別することができる。
また、センタ音声認識に伴ってスピーカより出力させる音声の音声解析を実施して、当該センタ音声認識に伴ってスピーカより出力させる音声の特徴を特定し、この特徴に基づいてセンタ音声認識に伴ってスピーカより出力させる音声とローカル音声認識に伴ってスピーカより出力させる音声の少なくとも一方が加工されるので、センタ音声認識に伴ってスピーカより出力させる音声の特徴が変化しても、ユーザはローカル音声認識とセンタ音声認識を容易に区別することができる。
また、請求項2に記載の発明では、音声加工手段は、ローカル音声認識に伴ってスピーカより出力させる音声の質およびセンタ音声認識に伴ってスピーカより出力させる音声の質のいずれか一方を意図的に劣化させることを特徴としている。
このような構成によれば、ローカル音声認識に伴ってスピーカより出力させる音声の質およびセンタ音声認識に伴ってスピーカより出力させる音声の質のいずれか一方が劣化して聞こえる。したがって、ユーザは音声認識に伴ってスピーカより出力させる音声の質によりローカル音声認識とセンタ音声認識を容易に区別することができる。
また、請求項3に記載の発明では、音声加工手段は、センタ音声認識に伴ってスピーカより出力させる音声とローカル音声認識に伴ってスピーカより出力させる音声のいずれか一方にバックグラウンド音を流すことを特徴としている。
このような構成によれば、センタ音声認識に伴ってスピーカより出力させる音声とローカル音声認識に伴ってスピーカより出力させる音声のいずれか一方にバックグラウンド音が流れる。したがって、ユーザは音声認識に伴ってスピーカより流れるバックグラウンド音の有無により、ローカル音声認識とセンタ音声認識を容易に区別することができる。
また、請求項4に記載の発明では、音声加工手段は、センタ音声認識に伴ってスピーカより出力させる音声とローカル音声認識に伴ってスピーカより出力させる音声に、それぞれ異なるバックグラウンド音を流すことを特徴としている。
このような構成によれば、センタ音声認識に伴ってスピーカより出力させる音声とローカル音声認識に伴ってスピーカより出力させる音声に、それぞれ異なるバックグラウンド音が流れる。したがって、ユーザは音声認識に伴ってスピーカより流れるバックグラウンド音により、ローカル音声認識とセンタ音声認識を容易に区別することができる。
また、請求項5に記載の発明は、複数のスピーカより音声を出力させるようになっており、音声加工手段は、センタ音声認識に伴ってスピーカより出力させる音声の位置とローカル音声認識に伴ってスピーカより出力させる音声の位置が異なるように、各スピーカより出力させる音声の音量を異ならせることを特徴としている。
このような構成によれば、センタ音声認識に伴ってスピーカより出力させる音声の位置とローカル音声認識に伴ってスピーカより出力させる音声の位置が異なるように、各スピーカより出力させる音声の音量が聞こえる。したがって、ユーザは音声認識に伴ってスピーカより出力される音声の位置によりローカル音声認識とセンタ音声認識を容易に区別することができる。
また、請求項に記載の発明では、音声特徴特定手段は、センタ音声認識に伴ってスピーカより出力させる音声の性別を特定し、音声加工手段は、音声特徴特定手段により特定されたセンタ音声認識に伴ってスピーカより出力させる音声の性別と異なる性別の音声となるようにローカル音声認識に伴ってスピーカより出力させる音声を加工することを特徴としている。
このような構成によれば、センタ音声認識に伴ってスピーカより出力させる音声の性別を特定し、この音声の性別と異なる性別の音声となるようにローカル音声認識に伴ってスピーカより出力させる音声が加工されるので、ユーザは音声認識に伴ってスピーカより出力される音声の性別により、ローカル音声認識とセンタ音声認識を容易に区別することができる。
また、請求項に記載の発明は、音声特徴特定手段は、センタ音声認識に伴ってスピーカより出力させる音声の口調を特定し、音声加工手段は、音声特徴特定手段により特定されたセンタ音声認識に伴ってスピーカより出力させる音声の口調と異なる口調の音声となるようにローカル音声認識に伴ってスピーカより出力させる音声を加工することを特徴としている。
このように、センタ音声認識に伴ってスピーカより出力させる音声の口調を特定し、この音声の口調と異なる口調の音声となるようにローカル音声認識に伴ってスピーカより出力させる音声が加工されるので、ユーザは音声認識に伴ってスピーカより出力される音声の口調により、ローカル音声認識とセンタ音声認識を容易に区別することができる。
なお、この欄および特許請求の範囲で記載した各手段の括弧内の符号は、後述する実施形態に記載の具体的手段との対応関係を示すものである。
本発明の第1実施形態に係る音声認識端末の構成を示す図である。 第1実施形態に係る制御部のフローチャートである。
(第1実施形態)
本発明の第1実施形態に係る音声認識端末の構成を図1に示す。本音声認識端末は、ナビゲーション端末1の一機能として実現されている。本ナビゲーション端末1は、端末内の処理により音声認識を行うローカル音声認識と、通信接続されたセンタ2側の処理により音声認識を行うセンタ音声認識を利用することが可能となっている。
ナビゲーション端末1は、マイク10、スピーカ11、表示部12、操作部13、通信部14および制御部15を備えている。
マイク10は、ユーザの音声を集音するためのものであり、ユーザの音声に応じた音声信号を制御部15へ送出する。スピーカ11は、制御部15より入力される音声信号に応じた音声を出力する。
表示部12は、液晶等のディスプレイを有し、当該ディスプレイに制御部15より入力される映像信号に応じた映像を表示させる。
操作部13は、表示部12のディスプレイの前面に重ねて配置されたタッチスイッチ、ディスプレイの周囲に配置されたメカニカルスイッチ等により構成され、ユーザのスイッチ操作に応じた信号を制御部15へ送出する。
通信部14は、無線通信網を介して外部機器と通信を行うためのものである。本実施形態では、無線通信網を介してセンタ2に設置されたサーバ20と通信を行うことが可能となっている。
制御部15は、CPU、メモリ、I/O等を備えたコンピュータとして構成されており、CPUはメモリに記憶されたプログラムに従って各種処理を実施する。
本実施形態における制御部15は、音声解析処理を実施することが可能となっている。すなわち、通信部14を介して接続されたセンタ2のサーバ20にて実施されるセンタ音声認識処理に伴ってスピーカ11より出力させる音声(トークバック音声およびガイダンス音声)の音声解析処理を実施し、この解析結果に基づいてセンタ音声認識に伴ってスピーカより出力させる音声の特徴(例えば、性別、口調)を特定する。なお、周波数解析により性別(男性または女性)を特定し、音声の韻律解析により口調(ロボット口調またはオペレータ口調)等を特定することができる。また、音声解析によりバックグラウンド音の有無を特定することもできる。
制御部15は、音声合成部(図示せず)を有しており、当該音声合成部にスピーカ11より出力させる音声の性別、口調(ロボット口調またはオペレータ口調)を指定すると、指定した特徴の音声が音声合成部により生成され、スピーカ11より出力されるようになっている。
本ナビゲーション装置1では、ユーザ操作に応じてメニュー画面を表示させるようになっている。このメニュー画面には、音声入力された電話番号に該当する施設を検索する電話番号検索、音声入力された住所に該当する施設を検索する住所検索、音声入力された楽曲に該当する楽曲を検索する楽曲検索、音声入力された内容に関する情報を検索する情報検索、音声入力されたニュースを検索するニュース検索等がある。
本実施形態では、ユーザにより電話番号検索、住所検索、楽曲検索が指示された場合には、ローカル音声認識による音声認識サービスを実施し、情報検索およびニュース検索が指示された場合には、センタ2側でのセンタ音声認識を利用したサービスを実施するようになっている。
図2に、制御部15のフローチャートを示す。メニュー画面に従ってユーザによる音声認識処理の開始を指示する操作が実施されると、制御部15は図に示す処理を実施する。
まず、センタ音声認識に伴ってスピーカ11より出力させる音声の音声解析を実施して、当該音声の特徴を特定する(S100)。具体的には、周波数解析により性別(男性または女性)を特定し、音声の韻律解析により口調(ロボット口調またはオペレータ口調)を特定する。また、更に、バックグラウンド音の有無についても特定する。なお、ここでは、センタ音声認識に伴ってスピーカ11より出力させる音声の特徴が、女性、オペレータ口調と解析され、バックグラウンド音が有ると判定されたものとする。
次に、メニュー画面に従って、ユーザにより指示された内容に基づき、ローカル音声認識か否かを判定する(S102)。ここで、例えば、ユーザにより電話番号検索が指示された場合、S102の判定はYESとなり、次に、センタ音声認識に伴ってスピーカ11より出力させる音声とローカル音声認識に伴ってスピーカ11より出力させる音声の特徴が区別可能となるようにローカル音声認識に伴ってスピーカ11より出力させる音声の特徴を決定する(S104)。具体的には、ローカル音声認識に伴ってスピーカ11より出力させる音声の特徴として、男性、ロボット口調、バックグラウンド音なしと決定する。
次に、S104にて決定した音声の特徴となるようにガイダンス音声を加工してスピーカ11より流す(S106)。具体的には、バックグラウンド音なしの状態で、男性およびロボット口調となるように加工して、例えば、「電話番号を発声してください」といったガイダンス音声をスピーカ11より音声出力させる。
次に、ローカル音声認識を実施する(S108)。ここで、ユーザが、例えば、「01−2345−6789」と発声すると、この音声を音声認識する。
次に、S104にて決定した音声の特徴となるようにトークバック音声を加工してスピーカ11より流す(S110)。具体的には、バックグラウンド音なしの状態で、男性およびロボット口調となるように加工して、「01−2345−6789ですね」といったトークバック音声をスピーカ11より音声出力させる。
次に、音声認識結果に基づく機能を実行する(S112)。具体的には、認識した電話番号について電話番号検索を実行し、検索結果を表示部12に表示させ、本処理を終了する。
また、メニュー画面に従って、例えば、ユーザにより情報検索が指示された場合、S102の判定はNOとなり、次に、センタ音声認識に伴ってスピーカ11より出力させる音声とローカル音声認識に伴ってスピーカ11より出力させる音声の特徴が区別可能となるようにセンタ音声認識に伴ってスピーカ11より出力させる音声の特徴を決定する(S114)。ここでは、S100にて特定した特徴を、そのままセンタ音声認識に伴ってスピーカ11より出力させる音声の特徴とする。すなわち、女性、オペレータ口調、バックグラウンド音ありと決定する。
次に、S114にて決定した音声の特徴に従ってガイダンス音声をスピーカ11より流す(S116)。具体的には、バックグラウンド音ありの状態で、女性およびオペレータ口調で、例えば、「検索条件を発声してください」といったガイダンスをスピーカ11より音声出力させる。
次に、センタ音声認識を実施する(S118)。ここで、ユーザが、例えば、「渋谷のおいしいラーメン屋」と発声すると、この音声を音声認識する。
次に、S114にて決定した音声の特徴に従ってトークバック音声を発声せる(S120)。具体的には、バックグラウンド音ありの状態で、女性およびオペレータ口調で、例えば、「渋谷のおいしいラーメン屋ですね」といったトークバック音声をスピーカ11より音声出力させる。
次に、音声認識結果に基づく機能を実行する(S112)。具体的には、認識した検索条件について情報検索を実行し、検索結果を表示部12に表示させ、本処理を終了する。
上記した構成によれば、センタ音声認識に伴ってスピーカより出力させる音声とローカル音声認識に伴ってスピーカより出力させる音声の特徴が区別可能となるようにローカル音声認識に伴ってスピーカより出力させる音声を加工し、この加工された音声を用いて音声認識に伴う音声がスピーカより出力されるので、ユーザはローカル音声認識とセンタ音声認識を容易に区別することができる。
また、センタ音声認識に伴ってスピーカより出力させる音声の特徴(性別および口調)を特定し、この特徴に基づいてセンタ音声認識に伴ってスピーカより出力させる音声とローカル音声認識に伴ってスピーカより出力させる音声の特徴が区別可能となるようにローカル音声認識に伴ってスピーカより出力させる音声が加工されるので、センタ音声認識に伴ってスピーカより出力させる音声の特徴が変化しても、ユーザはローカル音声認識とセンタ音声認識を容易に区別することができる。
また、センタ音声認識に伴ってスピーカより出力させる音声にバックグラウンド音が流れるので、ユーザは音声認識に伴ってスピーカより流れるバックグラウンド音の有無により、ローカル音声認識とセンタ音声認識を容易に区別することができる。
また、センタ音声認識に伴ってスピーカより出力させる音声の性別を特定し、この音声の性別と異なる性別の音声となるようにローカル音声認識に伴ってスピーカより出力させる音声が加工されるので、ユーザは音声認識に伴ってスピーカより出力される音声の性別により、ローカル音声認識とセンタ音声認識を容易に区別することができる。
なお、本実施形態では、センタ音声認識に伴ってスピーカ11より出力させる音声とローカル音声認識に伴ってスピーカ11より出力させる音声の特徴が区別可能となるようにローカル音声認識に伴ってスピーカ11より出力させる音声を加工したが、反対に、センタ音声認識に伴ってスピーカ11より出力させる音声を加工するようにしてもよい。この場合、例えば、センタ音声認識に伴ってスピーカ11より出力させる音声が女性の場合、男性の音声に聞こえるように、より低音となるように音声を加工し、反対に、センタ音声認識に伴ってスピーカ11より出力させる音声が男性の場合、女性の音声に聞こえるように、より高音となるように音声を加工すればよい。
また、本実施形態では、センタ音声認識に伴ってスピーカ11より出力させる音声とローカル音声認識に伴ってスピーカ11より出力させる音声の特徴が区別可能となるように、音声の性別、口調およびバックグラウンド音の有無を異ならせたが、これらの少なくとも1つを異ならせるようにしてもよい。また、別々のバックグラウンド音を流すようにしてもよい。
(第2実施形態)
上記第1実施形態では、センタ2のサーバ20にて実施されるセンタ音声認識処理に伴ってスピーカ11より出力させる音声(トークバック音声およびガイダンス音声)の音声解析を実施して、当該音声の特徴(例えば、性別、口調)を特定したが、本実施形態では、センタ音声認識に伴ってスピーカより出力させる音声の特徴を特定するための情報を制御部15のメモリに記憶させておき、このメモリに記憶された情報に基づいてセンタ音声認識に伴ってスピーカより出力させる音声の特徴を特定する。
すなわち、ナビゲーション装置1の基本設定画面に従って、センタ音声認識に伴ってスピーカより出力させる音声の特徴(例えば、性別、口調)およびバックグラウンド音の有無をユーザが指定するようになっており、ユーザが、基本設定画面に従って、過去にセンタ音声認識を実施した際の音声の特徴を指定すると、指定された特徴が制御部15のメモリに記憶されるようになっている。以降、制御部15のメモリに記憶された情報に基づいてセンタ音声認識に伴ってスピーカより出力させる音声の特徴を特定することが可能となる。
(その他の実施形態)
上記実施形態では、本音声認識端末をナビゲーション端末1の一機能として実現したが、このような構成に限定されるものではなく、例えば、ナビゲーション機能を省略した音声認識専用端末として構成することもできる。
また、上記第1、第2実施形態では、音声の性別、口調、バックグラウンド音の有無が異なるように、ローカル音声認識に伴ってスピーカ11より出力させる音声とセンタ音声認識に伴ってスピーカ11より出力させる音声の少なくとも一方を加工する構成を示したが、例えば、音声に雑音を重畳させたり、音声歪みを発声させたり、音量を低下させる等、音声の質を意図的に劣化させるように加工しても良い。
また、複数のスピーカ11を備え、センタ音声認識に伴ってスピーカ11より出力させる音声の位置とローカル音声認識に伴ってスピーカ11より出力させる音声の位置が異なるように、各スピーカ11より出力させる音声の音量を異ならせるようにしてもよい。
また、ローカル音声認識であるかセンタ音声認識であるかを示すメッセージを表示部12に表示させるようにしてもよい。更に、ローカル音声認識であるかセンタ音声認識であるかを示すメッセージをスピーカより音声出力させてもよい。
また、男性の音声を出力させる場合には男性のキャラクターを表示させ、女性の音声を出力させる場合には女性のキャラクターを表示させてもよい。
また、スピーカよりバックグラウンド音を流す場合には、音声認識の認識率が低下することも考えられるため、例えば、入力信号に基づいて自己適応する適応フィルタを用いてバックグラウンド音による認識率の低下を防ぐようにしてもよい。
また、例えば、センタ音声認識の場合にはオートアンテナを伸ばし、ローカル音声認識の場合にはオートアンテナを格納する等、ローカル音声認識であるかセンタ音声認識であるかを車載装備の状態により認識できるようにしてもよい。
なお、上記実施形態における構成と特許請求の範囲の構成との対応関係について説明すると、S104〜S110、S114〜S120が音声加工手段および音声出力手段に相当し、S100が音声特徴特定手段に相当し、制御部15のメモリが記憶手段に相当する。
1 ナビゲーション端末
2 センタ
10 マイク
11 スピーカ
12 表示部
13 操作部
14 通信部
15 制御部
20 サーバ

Claims (7)

  1. 端末内の処理により音声認識を行うローカル音声認識と、通信接続されたセンタ側の処理により音声認識を行うセンタ音声認識とをユーザ操作にて使い分けて利用することが可能な音声認識端末であって、
    前記センタ音声認識に伴ってスピーカより出力させる音声の音声解析を実施し、当該音声解析の解析結果に基づいて前記センタ音声認識に伴ってスピーカより出力させる音声の特徴を特定する音声特徴特定手段と、
    前記音声特徴特定手段により特定された前記音声の特徴に基づいて、前記センタ音声認識に伴ってスピーカより出力させる音声と前記ローカル音声認識に伴って前記スピーカより出力させる音声の特徴が区別可能となるように前記センタ音声認識に伴って前記スピーカより出力させる音声と前記ローカル音声認識に伴って前記スピーカより出力させる音声の少なくとも一方を加工する音声加工手段と、
    前記音声加工手段により加工された前記音声を用いて前記音声認識に伴う音声を前記スピーカより出力させる音声出力手段と、を備えたことを特徴とする音声認識端末。
  2. 前記音声加工手段は、前記ローカル音声認識に伴って前記スピーカより出力させる音声の質および前記センタ音声認識に伴って前記スピーカより出力させる音声の質のいずれか一方を意図的に劣化させることを特徴とする請求項1に記載の音声認識端末。
  3. 前記音声加工手段は、前記センタ音声認識に伴って前記スピーカより出力させる音声と前記ローカル音声認識に伴って前記スピーカより出力させる音声のいずれか一方にバックグラウンド音を流すことを特徴とする請求項1または2に記載の音声認識端末。
  4. 前記音声加工手段は、前記センタ音声認識に伴って前記スピーカより出力させる音声と前記ローカル音声認識に伴って前記スピーカより出力させる音声に、それぞれ異なるバックグラウンド音を流すことを特徴とする請求項1または2に記載の音声認識端末。
  5. 複数の前記スピーカより前記音声を出力させるようになっており、
    前記音声加工手段は、前記センタ音声認識に伴って前記スピーカより出力させる音声の位置と前記ローカル音声認識に伴って前記スピーカより出力させる音声の位置が異なるように、各スピーカより出力させる音声の音量を異ならせることを特徴とする請求項1ないし4のいずれか1つに記載の音声認識端末。
  6. 前記音声特徴特定手段は、前記センタ音声認識に伴って前記スピーカより出力させる音声の性別を特定し、
    前記音声加工手段は、前記音声特徴特定手段により特定された前記センタ音声認識に伴って前記スピーカより出力させる音声の性別と異なる性別の音声となるように前記ローカル音声認識に伴って前記スピーカより出力させる音声を加工することを特徴とする請求項1ないしのいずれか1つに記載の音声認識端末。
  7. 前記音声特徴特定手段は、前記センタ音声認識に伴って前記スピーカより出力させる音声の口調を特定し、
    前記音声加工手段は、前記音声特徴特定手段により特定された前記センタ音声認識に伴って前記スピーカより出力させる音声の口調と異なる口調の音声となるように前記ローカル音声認識に伴って前記スピーカより出力させる音声を加工することを特徴とする請求項1ないしのいずれか1つに記載の音声認識端末。
JP2010149674A 2010-06-30 2010-06-30 音声認識端末 Expired - Fee Related JP5464078B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2010149674A JP5464078B2 (ja) 2010-06-30 2010-06-30 音声認識端末
US13/170,284 US8706492B2 (en) 2010-06-30 2011-06-28 Voice recognition terminal
CN2011101895424A CN102314872B (zh) 2010-06-30 2011-06-29 语音识别终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010149674A JP5464078B2 (ja) 2010-06-30 2010-06-30 音声認識端末

Publications (2)

Publication Number Publication Date
JP2012013910A JP2012013910A (ja) 2012-01-19
JP5464078B2 true JP5464078B2 (ja) 2014-04-09

Family

ID=45400341

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010149674A Expired - Fee Related JP5464078B2 (ja) 2010-06-30 2010-06-30 音声認識端末

Country Status (3)

Country Link
US (1) US8706492B2 (ja)
JP (1) JP5464078B2 (ja)
CN (1) CN102314872B (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101961139B1 (ko) * 2012-06-28 2019-03-25 엘지전자 주식회사 이동 단말기 및 그것의 음성 인식 방법
CN103167174A (zh) * 2013-02-25 2013-06-19 广东欧珀移动通信有限公司 一种移动终端问候语的输出方法、装置及移动终端
JP6281202B2 (ja) * 2013-07-30 2018-02-21 株式会社デンソー 応答制御システム、およびセンター
CN104392720A (zh) * 2014-12-01 2015-03-04 江西洪都航空工业集团有限责任公司 一种智能服务机器人语音交互方法
CN106448656A (zh) * 2016-10-26 2017-02-22 安徽省云逸智能科技有限公司 一种基于自然语言处理的机器人语音识别方法
US11205421B2 (en) * 2017-07-28 2021-12-21 Cerence Operating Company Selection system and method
JP7202916B2 (ja) * 2019-02-08 2023-01-12 シャープ株式会社 音声出力装置、電気機器

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3254994B2 (ja) * 1995-03-01 2002-02-12 セイコーエプソン株式会社 音声認識対話装置および音声認識対話処理方法
JPH08339288A (ja) * 1995-06-14 1996-12-24 Canon Inc 情報処理装置及びその制御方法
US5875427A (en) * 1996-12-04 1999-02-23 Justsystem Corp. Voice-generating/document making apparatus voice-generating/document making method and computer-readable medium for storing therein a program having a computer execute voice-generating/document making sequence
US7031924B2 (en) 2000-06-30 2006-04-18 Canon Kabushiki Kaisha Voice synthesizing apparatus, voice synthesizing system, voice synthesizing method and storage medium
CN1369834B (zh) * 2001-01-24 2010-04-28 松下电器产业株式会社 语音转换设备
JP2002268666A (ja) 2001-03-14 2002-09-20 Ricoh Co Ltd 音声合成装置
JP3980449B2 (ja) 2002-08-28 2007-09-26 本田技研工業株式会社 クライアント/サーバ型車両情報通信システム
JP3862169B2 (ja) 2002-12-05 2006-12-27 オムロン株式会社 音声認識サービス仲介システムと、それに用いる音声認識マスター参照方法
JP2004239963A (ja) * 2003-02-03 2004-08-26 Mitsubishi Electric Corp 車載制御装置
JP2004341033A (ja) * 2003-05-13 2004-12-02 Matsushita Electric Ind Co Ltd 音声媒介起動装置およびその方法
JP5259050B2 (ja) 2005-03-30 2013-08-07 京セラ株式会社 音声合成機能付き文字情報表示装置、およびその音声合成方法、並びに音声合成プログラム

Also Published As

Publication number Publication date
CN102314872A (zh) 2012-01-11
CN102314872B (zh) 2012-11-21
JP2012013910A (ja) 2012-01-19
US20120004908A1 (en) 2012-01-05
US8706492B2 (en) 2014-04-22

Similar Documents

Publication Publication Date Title
JP5464078B2 (ja) 音声認識端末
US10565990B1 (en) Signal processing based on audio context
JP5355591B2 (ja) ナビゲーション装置
JP6501217B2 (ja) 情報端末システム
US20080059191A1 (en) Method, system and apparatus for improved voice recognition
US9123327B2 (en) Voice recognition apparatus for recognizing a command portion and a data portion of a voice input
JP2006504130A (ja) 音声に基づく装置制御
JP2004510239A (ja) ディクテーションとコマンドの区別を向上させる方法
JP5623961B2 (ja) 音声通話装置及び車載装置
JP2017138536A (ja) 音声処理装置
JP2013019958A (ja) 音声認識装置
AU760377B2 (en) A method and a system for voice dialling
JP5500100B2 (ja) 音声案内システム
JP5986468B2 (ja) 表示制御装置、表示システム及び表示制御方法
KR20100081022A (ko) 전화번호부 업데이트 방법 및 이를 이용한 휴대 단말기
JP2002281145A (ja) 電話番号入力装置
JP4292846B2 (ja) 音声対話装置及び音声対話代行装置並びにそれらのプログラム
JP2011180416A (ja) 音声合成装置、音声合成方法およびカーナビゲーションシステム
JP4624825B2 (ja) 音声対話装置および音声対話方法
JP2001005491A (ja) 車載情報装置
JP2006227225A (ja) コンテンツ提供装置及び方法
JP2020183985A (ja) 音声認識システム
JP2005164988A (ja) 周波数切替装置および情報処理装置
JP2012217125A (ja) 車載用ハンズフリー通話装置
JP2006251699A (ja) 音声認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120723

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130426

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130507

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130705

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130730

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131024

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20131101

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131224

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140106

R151 Written notification of patent or utility model registration

Ref document number: 5464078

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees