JP7493875B2

JP7493875B2 - 音声処理装置および音声処理方法

Info

Publication number: JP7493875B2
Application number: JP2020078052A
Authority: JP
Inventors: 信範工藤
Original assignee: Alps Electric Co Ltd; Alps Alpine Co Ltd
Current assignee: Alps Alpine Co Ltd
Priority date: 2020-04-27
Filing date: 2020-04-27
Publication date: 2024-06-03
Anticipated expiration: 2040-04-27
Also published as: JP2021173881A

Description

本発明は、音声処理装置および音声処理方法に関し、特に、マイクにより収音されたユーザの発話音声を処理する音声処理装置および音声処理方法に用いて好適なものである。

従来、マイクにより収音されたユーザの発話音声の音声信号を入力し、入力した音声信号に対してノイズキャンセル処理やエコーキャンセル処理等の処理を施す音声処理装置が存在する。この種の音声処理装置では、複数のマイクから音声信号を入力し、ビームフォーミング処理を施すことによって、出力する音声信号の更なる高品質化を図ったものがある。なお、特許文献１には、マイクが故障したときに、スピーカをマイクの代用として使用し、ハンズフリーフォンシステムの機能を継続する技術が記載されている。

特開２０１７－２１２４８９号公報

ビームフォーミング処理は複数台のマイクが必要となるため、ビームフォーミング処理を実行する機能を新たに音声処理装置に実装する場合、複数台のマイクから音声信号が入力される状態を構築する必要がある。この方法として専用のマイクを増設し、専用のマイクを音声処理装置に接続すること、或いは、専用のマイクを音声処理装置に内蔵することが考えられるが、この場合、専用のマイクを増設する分、コストが増大してしまう。

本発明は、このような問題を解決するために成されたものであり、コストの増大を抑制しつつ、ビームフォーミング処理を実行する機能を音声処理装置に実装できるようにすることを目的としている。

上記した課題を解決するために、本発明は、複数のスピーカが配置された所定の空間に設置された音声処理装置について、複数の音声信号を対象としてビームフォーミング処理を施すビームフォーミング処理部を設け、ユーザにより音声入力がされる場合に、複数のスピーカの音声出力機能を停止し、複数のスピーカをマイクとして機能させ、マイクとして機能する複数のスピーカから音声信号がビームフォーミング処理部に入力されるようにしている。この構成において所定の空間は、車両の車内に形成された車内空間であり、複数のスピーカは、ダッシュボードの両端部に設けられた２台のツイータであってもよい。またこの構成において、音声入力の開始が検出された場合、複数のスピーカの音声出力機能を停止して所定の空間に複数のスピーカから音声の出力がなされない状態を構築し、複数のスピーカをマイクとして機能させ、マイクとして機能する複数のスピーカからビームフォーミング処理部に音声信号を入力させるようにし、複数のスピーカからビームフォーミング処理部に音声信号が入力されている期間、マイクとしてのみ機能する第１マイクからもビームフォーミング処理部に音声信号が入力される状態とされ、音声入力の開始が検出された場合、第１マイクからの音声信号および複数のスピーカのそれぞれからの音声信号を対象としてビームフォーミング処理を施すようにしてもよい。

上記のように構成した本発明によれば、専用のマイクを増設して、音声処理装置に複数のマイクから音声信号が入力されるようにするのではなく、音声処理装置が設置された空間に元々ある複数のスピーカを利用して、音声処理装置に複数の音声信号が入力されるようにすることができるため、コストの増大を抑制しつつ、ビームフォーミング処理を実行する機能を音声処理装置に実装できる。

本発明の一実施形態に係る音声処理装置が車内空間に設けられた様子の一例を示す図である。本発明の一実施形態に係る音声認識システムの構成例を示す図である。本発明の一実施形態に係る音声処理装置のハードウェア構成の一例を示す図である。本発明の一実施形態に係る音声処理装置の制御ユニットの機能の一例を示す機能ブロック図である。本発明の一実施形態に係る音声処理装置の動作例を示すフローチャートである。

以下、本発明の一実施形態を図面に基づいて説明する。図１は、本実施形態に係る音声処理装置１が車両の車内に形成された車内空間２（特許請求の範囲の「所定の空間」に相当）に設けられた様子を示す図である。図１では、車内空間２の前部座席（運転席３＋助手席４）およびダッシュボード５の周辺を単純化して模式的に示している。図１で示すように、ダッシュボード５の中央部には音声処理装置１が設けられている。ただし図１で示す音声処理装置１の設置位置は一例であり、音声処理装置１は任意の位置に設置できる。音声処理装置１には、音声を収音する内蔵マイク６（マイクロフォン）が内蔵されている。ただし図１では内蔵マイク６を誇張して描画している。

図１で示すように、ダッシュボード５の両端部には一対のツイータ７Ｒ、７Ｌ（特許請求の範囲の「複数のスピーカ」「車載スピーカ」に相当）が設けられている。ツイータ７Ｒ、７Ｌは、高音域の音声を音声出力するスピーカであり、音声処理装置１に接続されている。図１における図示は省略したが、車内空間２には、ツイータ７Ｒ、７Ｌ以外に、中音域以下の音声を出力するスピーカ（例えばフルレンジスピーカや、フルレンジスピーカとサブウーファとの組み合わせ等）が設けられており、音声処理装置１と各スピーカとにより車載オーディオシステムが構成されている。なお車載オーディオシステムにおいて、本実施形態のように一対のツイータをダッシュボードの両端部に設けることは、現状、広く行われている。

以下の説明において、音声処理装置１に接続されたスピーカの集まりを「スピーカ群」（ツイータ７Ｒ、７Ｌを含む）という。また、車両の搭乗者を単に「ユーザ」という。

図２は、本実施形態に係る音声処理装置１を含んで構成される音声認識システム９の構成を示す図である。図２で示すように、音声処理装置１は、インターネットや電話網等の通信網を含んで構成されたネットワークＮにアクセス可能であり、ネットワークＮを介してサービス提供サーバ１０と通信可能である。サービス提供サーバ１０は、クライアント端末で収集された音声の音声認識に関するサービスを提供するクラウドサーバである。以下、サービス提供サーバ１０により提供されるサービスを「音声認識サービス」という。音声認識サービスの１つは、クライアント端末で収集された音声を音声認識して、その音声の内容を理解し、その音声の内容に対応する処理を実行するというものである。一例として、サービス提供サーバ１０は、ユーザがクライアント端末に対して何らかの質問を内容とする音声を発話した場合に、その音声を音声認識し、その音声の内容を理解し、質問に対する回答を生成し、クライアント端末に音声として出力させ、これによりユーザとクライアント端末との間で音声対話を実現する。

本実施形態に係る音声処理装置１は、サービス提供サーバ１０に対するクライアント端末として機能し、ユーザは、音声処理装置１を介して音声認識サービスを利用することができる。ユーザは、音声認識サービスの利用に際し、ウェイクワードと呼ばれる予め定められた特定のワードを発話し、ウェイクワードの発話に続けて、何らかの質問や、要求を行うための文言（以下、「リクエスト」という）を発話する。本実施形態では、説明の便宜のため、リクエストの発話の前に必ずウェイクワードの発話がユーザにより行われるものとする。

音声処理装置１は、ユーザによるウェイクワードおよびリクエストの発話に応じて処理要求データを生成し、サービス提供サーバ１０に送信する。処理要求データは、ユーザが発話したウェイクワードに対応する音声データ、および、ユーザが発話したリクエストに対応する音声データを含む音声データ（以下「発話音声データ」という）と、発話音声データに関する必要な参照情報が所定のフォーマット（例えばＪＳＯＮ）に従って記述された制御情報データとを含んでいる。

ここで発話音声データに含まれるリクエストに対応する音声データは、サービス提供サーバ１０における音声認識の対象となるものであり、高品質であることが求められる。これを鑑み、本実施形態に係る音声処理装置１は、入力音声について、エコーキャンセル処理およびノイズキャンセル処理を実行する機能の他、ビームフォーミング処理を実行する機能が実装されている。周知の通り、ある装置においてビームフォーミング処理を実行するためには、その装置に複数台のマイクから音声信号が入力されるようにする必要があるが、本実施形態に係る音声処理装置１は、備え付けのマイクとして、１台の内蔵マイク６のみを備えている。

このような構成の音声処理装置１にビームフォーミング処理を実行する機能を実装するためには、専用のマイクを増設し、その専用のマイクを音声処理装置１に接続すること、或いは、その専用のマイクを音声処理装置１に内蔵することが考えられるが、この場合、専用のマイクを増設する分、コストが増大してしまう。また、専用のマイクを接続するようにした場合、適切な位置に固定的に専用のマイクを取り付ける必要があり、作業の難易度が高く、また、専用のマイクを内蔵するようにした場合、筐体内において専用のマイクを搭載するスペースについての課題や、筐体内の他の電子部品との配置についての課題、デザイン上の課題等の種種の課題を解決する必要がある。以上を踏まえ、本実施形態に係る音声処理装置１は、以下の構成の下、以下の手段でビームフォーミング処理を実行する。以下、音声処理装置１の構成および処理について詳述する。

図３は、音声処理装置１の要部のハードウェア構成例を示すブロック図である。ただし、図３では、制御ユニット１２（後述）を示すブロック内に、制御ユニット１２により実現される機能を示す機能ブロックを描画している。図３で示すように、音声処理装置１は、ハードウェア構成として制御ユニット１２と音声処理ユニット１３とを備えている。

制御ユニット１２は、ＤＳＰ（Digital Signal Processor）およびＤＳＰに付随する各種回路／電子部品を備え、ＤＳＰの機能により各種処理を実行する。ただし、制御ユニット１２はＤＳＰではなく、例えば、汎用のマイクロプロセッサやマイクロコントローラを含んで構成されていてもよい。音声処理ユニット１３は、音声処理に関する各種回路／電子部品を備えている。なお、図３において制御ユニット１２および音声処理ユニット１３を異なるブロックとしているのは説明の便宜上のことであり、当然、制御ユニット１２の機能を実現する各種回路／電子部品および音声処理ユニット１３を実現する各種回路／電子部品が共通する基板上に設けられていてもよい。制御ユニット１２は、音声処理ユニット１３に対して音声信号を出力して音声を放音させる機能、および、音声処理ユニット１３により収音された音声に基づく音声信号を入力し、対応する処理を実行する機能を備えている。

音声処理装置１は、動作モードとして通常モードとビームフォーミングモードとを有している。以下まず、通常モードのときの音声処理ユニット１３の動作、および、ビームフォーミングモードのときの音声処理ユニット１３の動作について、制御ユニット１２が出力する音声信号に基づく音声を放音する点、および、収音した音声に基づく音声信号を制御ユニット１２に出力する点に着目して説明する。

＜通常モード＞
通常モードにおいて、制御ユニット１２がデジタルな音声信号をＤ／Ａコンバータ１４に出力すると、音声信号はＤ／Ａコンバータ１４によりデジタル／アナログ変換され、ボリューム１５により音量レベルが調整され、スピーカアンプ１６により増幅される。通常モードにおいては、セレクタ１７は、スピーカ機能状態とされる。このスピーカ機能状態では、セレクタ１７のスイッチによりスピーカアンプ１６とスピーカ群（ツイータ７Ｒ、７Ｌを含む）とが導通された状態とされる。従って、スピーカアンプ１６により増幅された音声信号はセレクタ１７を介してツイータ７Ｒ、７Ｌに出力され、ツイータ７Ｒ、７Ｌにおいて音声信号に基づく音声が放音される。なお、スピーカ機能状態では、セレクタ１７のスイッチによりツイータ７Ｒ、７Ｌとマイクアンプ１８Ｒ、１８Ｌとの導通状態は停止される。

通常モードにおいて、内蔵マイク６が音声を収音すると、内蔵マイク６が収音した音声に基づく音声信号は、内蔵マイク６からマイクアンプ１９に出力され、マイクアンプ１９により増幅され、Ａ／Ｄコンバータ２０でアナログ／デジタル変換され、エコーキャンセラ２１によりエコーキャンセル処理が施される。通常モードにおいては、ビームフォーミング処理部２２は、オフ状態とされる。このオフ状態では、ビームフォーミング処理部２２は、前段のエコーキャンセラ２１から入力した音声信号について信号処理を施すことなく、後段のノイズキャンセラ２３に出力する。従って、通常モードにおいて、エコーキャンセラ２１によりエコーキャンセル処理が施された音声信号は、ビームフォーミング処理部２２を介してノイズキャンセラ２３に出力され、ノイズキャンセラ２３においてノイズキャンセル処理が施され、制御ユニット１２に出力される。

＜ビームフォーミングモード＞
ビームフォーミングモードでは、セレクタ１７は、マイク機能状態とされる。このマイク機能状態では、セレクタ１７のスイッチによりスピーカアンプ１６とスピーカ群（ツイータ７Ｒ、７Ｌを含む）との導通状態が停止され、スピーカアンプ１６からスピーカ群への音声出力が遮断される。つまり、ツイータ７Ｒ、７Ｌ（複数のスピーカ）の音声出力機能が停止される。そしてビームフォーミングモードでは、ツイータ７Ｒ、７Ｌとマイクアンプ１８Ｒ、１８Ｌとが信号線により導通された状態とされる。

ここでツイータ７Ｒ、７Ｌは、スピーカとして機能するとき、スピーカアンプ１６から入力した音声信号を振動板の振動に変換し音声として出力するが、音声を出力していない状態のときには、周囲で発生した音声を振動板で収音し、振動板の振動を音声信号に変換するマイクとして機能させることができる。特に本実施形態に係るツイータ７Ｒ、７Ｌについては、マイクとして有効に機能することが事前に実証されている。そしてビームフォーミングモードにおいては、ツイータ７Ｒ、７Ｌの音声出力機能が停止された状態で、ツイータ７Ｒ、７Ｌとマイクアンプ１８Ｒ、１８Ｌとが導通するため、ツイータ７Ｒ、７Ｌはマイクとして機能し、ツイータ７Ｒ、７Ｌにより収音された音声に基づく音声信号は、セレクタ１７を介してマイクアンプ１８Ｒ、１８Ｌに出力される。マイクアンプ１８Ｒ、１８Ｌが入力した音声信号は、マイクアンプ１８Ｒ、１８Ｌにて増幅され、Ａ／Ｄコンバータ２４Ｒ、２４Ｌでアナログ／デジタル変換され、エコーキャンセラ２５Ｒ、２５Ｌでエコーキャンセル処理が施され、ビームフォーミング処理部２２に入力される。

一方、ビームフォーミングモードにおいて、内蔵マイク６が収音した音声に基づく音声信号は、マイクアンプ１９による増幅、Ａ／Ｄコンバータ２０によるアナログ／デジタル変換、および、エコーキャンセラ２１によるエコーキャンセル処理を介して、ビームフォーミング処理部２２に入力される。

ビームフォーミングモードではビームフォーミング処理部２２はオン状態とされる。オン状態の場合、ビームフォーミング処理部２２は、エコーキャンセラ２１およびエコーキャンセラ２５Ｒ、２５Ｌのそれぞれから入力する音声信号に基づいてビームフォーミング処理を実行する。周知の通り、ビームフォーミング処理は、音声信号が示す音声について、音声の発生源に向かう方向（内蔵マイク６から音の発生源に向かう方向）に対しての感度を確保しつつ、音声の発生源に向かう方向以外の感度を低下させる処理である。ビームフォーミング処理では、各マイクで検出した信号のレベルと位相差に基づいて、音声の発生源に向かう方向を特定する処理が行われるが、ツイータ７Ｒとツイータ７Ｌとは左右方向に離間して配置されており、各ツイータに対する音声の発生源の距離が相違するときに、位相差と信号のレベルの差とが現出しやすく、ビームフォーミング処理部２２への音声信号の供給元として適している。

なお、ビームフォーミング処理は、ツイータ７Ｒ、７Ｌの配置位置や、内蔵マイク６とツイータ７Ｒ、７Ｌとの位置関係、ツイータ７Ｒ、７Ｌおよび内蔵マイク６の特性等が考慮されて事前に行われたテストやシミュレーションの結果に基づいて設計されたモデルに従って適切に実行される。ビームフォーミング処理部２２によりビームフォーミング処理が施された音声信号は、ノイズキャンセラ２３によりノイズキャンセル処理が施された後、制御ユニット１２に出力される。このように動作モードがビームフォーミングモードのときは、収音された音声についてビームフォーミング処理が施されるため、その点で通常モードのときと比較して制御ユニット１２に出力される音声信号の品質が高い。

図４は、制御ユニット１２の要部の機能を機能ブロックとして表現した機能ブロック図である。図４で示すように、制御ユニット１２は、その機能構成として、音声出力部２６、コンテンツ再生部２７、音声入力部２８、検出部２９、音声認識処理部３０および切替部３１を備えている。上述したように、本実施形態では、各機能ブロック２６～３１の処理はＤＳＰによって実行されるが、各機能ブロック２６～３１は、ＤＳＰに限らず、任意のハードウェア或いは任意のハードウェアと任意のソフトウェアとの組み合わせにより実現可能である。例えば、制御ユニット１２がコンピュータのＣＰＵ、ＲＡＭ、ＲＯＭ等を備えて構成され、制御ユニット１２の各機能ブロック２６～３１は、ＣＰＵがＲＯＭに記憶されたプログラムＲＡＭに読み出して実行することにより各種処理を実行する。以下、制御ユニット１２の各機能ブロック２６～３１の処理の説明を通して、音声処理装置１の動作について説明する。

音声出力部２６は、音声信号をＤ／Ａコンバータ１４に出力し、音声信号に基づく音声を音声処理ユニット１３に放音させる。

コンテンツ再生部２７は、ユーザの指示に応じてコンテンツを再生する。コンテンツは、図示しないコンテンツドライブに挿入されたＣＤやＤＶＤに記録された楽曲や動画（映画などの動画）、記憶領域に記憶されたデータに記録された楽曲や動画、音声処理装置１に接続された外部装置に記憶された楽曲や動画等である。音声出力部２６は、コンテンツ再生部２７により再生されたコンテンツの音声に対応する音声信号を出力する。以下、コンテンツ再生部２７により再生されるコンテンツに対応する音声を特に「コンテンツ音声」という。

音声入力部２８は、ノイズキャンセラ２３から音声信号を入力し、入力した音声信号を音声データとして音声バッファ（不図示）にバッファリングする。この結果、現時点から遡って所定期間の間に音声処理ユニット１３により収音された音声に基づく音声データが音声バッファに記憶された状態となる。以下、音声バッファに記憶された音声データの集合を「入力音声データ」という。

検出部２９は、ユーザによりウェイクワードが発話されたときに、そのことを検出する。詳述すると、検出部２９は、音声入力部２８により音声バッファに累積的に記憶される入力音声データを継続して分析し、入力音声データに記録された音声の音声波形と、あらかじめ登録されたウェイクワードの音声パターンの類似度を継続して算出する。そして、検出部２９は、ウェイクワードの音声パターンと、入力音声データに係る音声波形との類似度が閾値以上となった場合、ユーザがウェイクワードに対応する音声を発話したことを検出する。

なお、ユーザによりウェイクワードが発話されたということは、基本的にはユーザがこれからリクエスト（音声入力）を行うということである。従って検出部２９がユーザによりウェイクワードが発話されたことを検出する処理は、特許請求の範囲の「ユーザにより音声入力が開始されることを検出する」処理に相当する。検出部２９は、ユーザによりウェイクワードが発話されたことを検出した場合、音声認識処理部３０および切替部３１にその旨、通知する。以下この通知を「開始通知」という。

一方、検出部２９は、ユーザによりウェイクワードが発話され、更にリクエストの発話が開始され、その後リクエストの発話が終了したときに、そのことを検出する。詳述すると、検出部２９は、ユーザによるウェイクワードの発話を検出した後、音声入力部２８により音声バッファに累積的に記憶される入力音声データを継続して分析し、音声の音圧レベルが所定値以上の状態となった後、音圧レベルが所定値以下の状態が一定時間以上続いた場合、リクエストの発話が終了したことを検出する。なお、ユーザは、ウェイクワードを発話した後、一定期間内にリクエストの発話を開始し、リクエストの発話が終了すると、発話をしばらくやめると想定されており、音声の音圧レベルが所定値以下の状態が一定時間以上続いた場合、リクエストの発話が終了したとみなすことができる。

なお、検出部２９がユーザによるリクエストの発話の終了を検出する処理は、特許請求の範囲の「ユーザによる音声入力の終了を検出する」処理に相当する。検出部２９は、ユーザによるリクエストの発話の終了を検出した場合、音声認識処理部３０および切替部３１にその旨、通知する。以下この通知を「終了通知」という。

音声認識処理部３０は、検出部２９から開始通知を受け、更にリクエスト終了通知を受けると、音声バッファに格納された音声データに基づいて処理要求データを生成する。音声認識処理部３０は、生成した処理要求データを、ネットワークＮを介してサービス提供サーバ１０に送信する。

サービス提供サーバ１０は、処理要求データを受信し、受信した処理要求データに基づいて、リクエストの内容を認識すると共に、当該内容に対応する処理を実行する。説明の便宜のため、本実施形態では、リクエストの内容は２つのパターンがあるものとする。１つ目は、車内空間２に設けられ、音声処理装置１に接続された機器（例えば空気調和装置）の制御を要求するパターン（以下「機器制御パターン」という）であり、当パターンのリクエストの文言の一例は「エアコンをつけて」というものである。２つ目は、音声対話を要求するパターン（以下「音声対話パターン」という）であり、当パターンのリクエストの文言の一例は「今日の天気は」というものである。

サービス提供サーバ１０は、リクエストの内容が機器制御パターンの場合には、音声処理装置１が機器を制御するための機器制御データを生成し、音声認識処理部３０に応答する。サービス提供サーバ１０は、リクエストの内容が音声対話パターンの場合には、音声処理装置１にリクエストに対応する所定の内容の音声（以下「応答音声」という）を音声出力させるための音声出力制御データを生成し、音声認識処理部３０に応答する。音声出力制御データには、応答音声の音声データが含まれている。

音声認識処理部３０は、サービス提供サーバ１０から機器制御データを受信した場合、機器制御データに基づいて機器を制御する。当処理についての詳細な説明は省略する。音声認識処理部３０は、サービス提供サーバ１０から音声出力制御データを受信した場合、音声出力制御データに基づいて音声出力部２６を制御して、スピーカ群から応答音声を出力させる。後に明らかとなる通り、音声認識処理部３０がサービス提供サーバ１０から音声出力制御データを受信したタイミングでは、音声処理装置１の動作モードは通常モードであり、応答音声の出力は問題なくできる。なお、音声出力部２６がコンテンツを再生中の場合には、音声認識処理部３０は、コンテンツ音声に重畳して応答音声を出力させる。ただし、応答音声の出力中は、コンテンツの再生を一時的に中断したり、コンテンツ音声の音量を小さくしたりするようにしてもよい。

切替部３１は、動作モードが通常モードのときに検出部２９から開始通知を受けた場合、動作モードをビームフォーミングモードに切り替える。動作モードのビームフォーミングモードへの切り替えに応じて、切替部３１は、セレクタ１７に制御信号を出力して、セレクタ１７の状態をスピーカ機能状態からマイク機能状態へと切り替える。更に切替部３１は、ビームフォーミング処理部２２に制御信号を出力して、ビームフォーミング処理部２２の状態をオフ状態からオン状態へと切り替える。

一方、切替部３１は、動作モードがビームフォーミングモードのときに検出部２９から終了通知を受けた場合、動作モードを通常モードに切り替える。動作モードの通常モードへの切り替えに応じて、切替部３１は、セレクタ１７に制御信号を出力して、セレクタ１７の状態をマイク機能状態からスピーカ機能状態へと切り替える。つまり、切替部３１は、ツイータ７Ｒ、７Ｌについてマイクとして機能させることを停止し、音声出力機能の停止を解除する。更に切替部３１は、ビームフォーミング処理部２２に制御信号を出力して、ビームフォーミング処理部２２の状態をオン状態からオフ状態へと切り替える。

以上の処理が行われることにより、例えば以下の態様で音声認識サービスの提供が行われることになる。すなわち、コンテンツ再生部２７によるコンテンツの再生、および、コンテンツの再生に伴うコンテンツ音声の出力が行われている状況であり、音声処理装置１の動作モードが通常モードであるものとする。この状況において、ユーザが車載機器の制御或いは音声対話の実行を所望し、ウェイクワードを発話したとする。すると、音声処理装置１の機能により、動作モードが通常モードからビームフォーミングモードへと移行し、スピーカ群によるコンテンツ音声の出力が停止されると共に、音声処理ユニット１３において入力音声に対してビームフォーミング処理が施される状態となる。

その後ユーザがリクエストを発話すると、リクエストに対応する音声信号はビームフォーミング処理が施された上で制御ユニット１２に出力されることになる。このため、リクエストに対応する音声信号の高品質化、および、これに伴うサービス提供サーバ１０に送信されるリクエストに対応する音声データの高品質化を実現でき、ひいてはサービス提供サーバ１０におけるリクエストについての認識精度の向上を図ることができる。また、リクエストが発話されている間は、スピーカ群によりコンテンツ音声が放音されないため、この点からもリクエストに対応する音声信号の高品質化およびこれに付随する効果を得ることができる。

そして、ユーザによるリクエストの発話が終了すると速やかに動作モードがビームフォーミングモードから通常モードへ移行する。上述の通り、通常モードではスピーカ群（ツイータ７Ｒ、７Ｌを含む）により音声出力が可能な状態となるため、リクエストが音声対話を要求するものである場合、リクエスト対する応答音声を問題なく出力できる。また、スピーカ群によりコンテンツ音声の放音が停止される期間は、ユーザがリクエストを発話した短い時間であり、これによるユーザへの影響は極めて限定的である。

以上詳しく説明したように、本実施形態では、ツイータ７Ｒ、７Ｌ（複数のスピーカ）が配置された車内空間２に設置された音声処理装置１について、複数の音声信号を対象としてビームフォーミング処理を施すビームフォーミング処理部２２を設け、ユーザによりリクエスト（音声入力）がされた場合に、ツイータ７Ｒ、７Ｌの音声出力機能を停止し、ツイータ７Ｒ、７Ｌをマイクとして機能させ、マイクとして機能するツイータ７Ｒ、７Ｌが出力する音声信号がビームフォーミング処理部２２に入力されるようにしている。

以上の構成によれば、専用のマイクを増設して、音声処理装置１に複数のマイクから音声信号が入力されるようにするのではなく、音声処理装置１が設置された空間に元々あるツイータ７Ｒ、７Ｌを利用して、音声処理装置１に複数のマイクから音声信号が入力されるようにすることができるため、コストの増大を抑制しつつ、ビームフォーミング処理を実行する機能を音声処理装置１に実装できる。

次に、音声処理装置１の動作例についてフローチャートを用いて説明する。図５は、音声処理装置１による音声処理方法を示すフローチャートである。図５で示すように、音声処理装置１の検出部２９は、ユーザにより音声入力が開始されることを検出する（ステップＳＡ１）。上述の通り、本実施形態では、検出部２９は、ユーザによりウェイクワードが発話されたことを検出する。次いで、音声処理装置１の切替部３１は、複数のスピーカの音声出力機能を停止し、ツイータ７Ｒ、７Ｌをマイクとして機能させ、マイクとして機能するツイータ７Ｒ、７Ｌからビームフォーミング処理部２２に音声信号を入力させる（ステップＳＡ２）。上述の通り、本実施形態では、検出部２９は、動作モードをビームフォーミングモードへ移行する。

以上、本発明の一実施形態を説明したが、上記実施形態は、本発明を実施するにあたっての具体化の一例を示したものに過ぎず、これによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその要旨、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。

例えば上記実施形態では、本発明が音声認識システム９の音声処理装置１に適用される例を説明したが、本発明が適用される音声処理装置は、本実施形態のようにサーバと協働で音声認識に関するサービスを提供する装置に限られない。すなわち本発明は、収音した音声に基づく音声信号についてビームフォーミング処理を行って品質を向上することが求められる音声処理装置に広く適用可能である。一例として、本発明をハンズフリー通話システムを構成する音声処理装置に適用することができる。

また上記実施形態では、音声処理装置１は車内空間２に設けられていたが、音声処理装置１が設けられる空間は車内空間２に限られない。すなわち、音声処理装置１が設けられる空間は、マイクとして機能させることが可能なスピーカが元々存在する空間であればよい。一例として音声処理装置１は、オフィスや住宅の一室に設けられていてもよい。

また上記実施形態では、検出部２９は、ウェイクワードが発話されたことをもって音声入力（リクエスト）が開始されたことを検出した。また検出部２９は、ウェイクワードの発話を検出した後、音声の音圧レベルが所定値以下の状態が一定時間以上続いた場合、音声入力（リクエスト）が終了したことを検出した。しかしながら、音声入力の開始/終了を検出部２９が検出する方法は実施形態で例示した方法に限られず、ユーザの音声入力が行われる方法に応じた適切な方法が採用される。例えば、ユーザが音声入力の開始時および終了時に所定のスイッチを操作するシステム（音声入力の間、所定のスイッチを押し続けるというシステムでもよい）の場合、所定のスイッチに対する操作に基づいて音声入力の開始／終了を検出部２９が検出してもよい。

また例えば、ユーザと音声処理装置１との間での音声対話において２回目以降のユーザの発話にウェイクワードが含まれない場合に、検出部２９が以下の処理を実行してもよい。すなわち、検出部２９は、音声処理装置１により応答音声が出力された後、ユーザによる発話があるものとして、ユーザの音声入力の開始を検出し、その後、音声の音圧レベルが所定値以下の状態が一定時間以上続いた場合に、音声入力が終了したことを検出する構成でもよい。

また、図３で示す音声処理ユニット１３のハードウェア構成はあくまで一例であり、ハードウェア構成が例示した内容に限られないことは勿論である。例えば、エコーキャンセラ２１がない構成でもよく、エコーキャンセル処理、ノイズキャンセル処理およびビームフォーミング処理が施される順番は例示した順番に限られない。

また、上記実施形態では、音声処理装置１に接続し、マイクとして機能させる複数のスピーカはツイータ７Ｒ、７Ｌであったが、車内空間２に設けられた他のスピーカであってもよい。ただしマイクとして有効に機能するスピーカに限られる。

また、上記実施形態では、切替部３１は、検出部２９から開始通知を受けた後、終了通知を受けるまでの間、セレクタ１７を制御してスピーカ群からの音声出力を停止したが、その際に、コンテンツ再生部２７と連携しコンテンツの再生を一時停止する構成としてもよい。この構成によれば、音声出力が停止している間、コンテンツの再生が進むことを防止できる。

また、上記実施形態で、サービス提供サーバ１０が実行していた処理の一部または全部を音声処理装置１が実行する構成としてもよい。また音声処理装置１が実行していた処理の一部または全部をサービス提供サーバ１０（サービス提供サーバ１０以外の外部装置であってもよい）が実行する構成としてもよい。

１音声処理装置
２車内空間（所定の空間）
５ダッシュボード
７Ｒ、７Ｌツイータ（複数のスピーカ、車載スピーカ）
２２ビームフォーミング処理部
２９検出部
３１切替部

Claims

複数のスピーカが配置された所定の空間に設置された音声処理装置であって、
複数の音声信号を対象としてビームフォーミング処理を施すビームフォーミング処理部と、
ユーザにより音声入力が開始されることを検出する検出部と、
前記検出部により音声入力の開始が検出された場合、前記複数のスピーカの音声出力機能を停止し、前記複数のスピーカをマイクとして機能させ、マイクとして機能する前記複数のスピーカから前記ビームフォーミング処理部に音声信号を入力させる切替部とを備え、
前記所定の空間は、車両の車内に形成された車内空間であり、
前記複数のスピーカは、ダッシュボードの両端部に設けられた２台のツイータである
ことを特徴とする音声処理装置。
前記検出部は、ユーザによる音声入力の終了を検出し、
前記切替部は、前記複数のスピーカをマイクとして機能させた後、前記検出部により音声入力の終了が検出された場合、前記複数のスピーカについてマイクとして機能させることを停止し、音声出力機能の停止を解除する
ことを特徴とする請求項１に記載の音声処理装置。
複数のスピーカが配置された所定の空間に設置された音声処理装置であって、
マイクとしてのみ機能する第１マイクと、
複数の音声信号を対象としてビームフォーミング処理を施すビームフォーミング処理部と、
前記第１マイクにより収音された音声を分析することによってユーザにより音声入力が開始されることを検出する検出部と、
前記検出部により音声入力の開始が検出された場合、前記複数のスピーカの音声出力機能を停止して前記所定の空間に前記複数のスピーカから音声の出力がなされない状態を構築し、前記複数のスピーカをマイクとして機能させ、マイクとして機能する前記複数のスピーカから前記ビームフォーミング処理部に音声信号を入力させる切替部とを備え、
前記複数のスピーカから前記ビームフォーミング処理部に音声信号が入力されている期間、前記第１マイクからも前記ビームフォーミング処理部に音声信号が入力される状態とされ、
前記ビームフォーミング処理部は、前記検出部により音声入力の開始が検出された場合、前記第１マイクからの音声信号および前記複数のスピーカのそれぞれからの音声信号を対象としてビームフォーミング処理を施す
ことを特徴とする音声処理装置。
前記検出部は、ユーザによる音声入力の終了を検出し、
前記切替部は、前記複数のスピーカをマイクとして機能させた後、前記検出部により音声入力の終了が検出された場合、前記複数のスピーカについてマイクとして機能させることを停止し、音声出力機能の停止を解除する
ことを特徴とする請求項３に記載の音声処理装置。
前記所定の空間は、車両の車内に形成された車内空間であり、
前記複数のスピーカは、前記車内空間において、左右方向に離間して配置された車載スピーカであることを特徴とする請求項３または４に記載の音声処理装置。
前記複数のスピーカは、ダッシュボードの両端部に設けられた２台のツイータであることを特徴とする請求項５に記載の音声処理装置。
複数のスピーカが配置された所定の空間に設置され、複数の音声信号を対象としてビームフォーミング処理を施すビームフォーミング処理部が設けられた音声処理装置による音声処理方法であって、
前記音声処理装置の検出部が、ユーザにより音声入力が開始されることを検出するステップと、
前記音声処理装置の切替部が、前記検出部により音声入力の開始が検出された場合、前記複数のスピーカの音声出力機能を停止し、前記複数のスピーカをマイクとして機能させ、マイクとして機能する前記複数のスピーカから前記ビームフォーミング処理部に音声信号を入力させるステップとを含み、
前記所定の空間は、車両の車内に形成された車内空間であり、
前記複数のスピーカは、ダッシュボードの両端部に設けられた２台のツイータである
ことを特徴とする音声処理方法。
複数のスピーカが配置された所定の空間に設置され、複数の音声信号を対象としてビームフォーミング処理を施すビームフォーミング処理部およびマイクとしてのみ機能する第１マイクが設けられた音声処理装置による音声処理方法であって、
前記音声処理装置の検出部が、前記第１マイクにより収音された音声を分析することによってユーザにより音声入力が開始されることを検出するステップと、
前記音声処理装置の切替部が、前記検出部により音声入力の開始が検出された場合、前記複数のスピーカの音声出力機能を停止して前記所定の空間に前記複数のスピーカから音声の出力がなされない状態を構築し、前記複数のスピーカをマイクとして機能させ、マイクとして機能する前記複数のスピーカから前記ビームフォーミング処理部に音声信号を入力させるステップとを含み、
前記複数のスピーカから前記ビームフォーミング処理部に音声信号が入力されている期間、前記第１マイクからも前記ビームフォーミング処理部に音声信号が入力される状態とされ、
前記ビームフォーミング処理部は、前記検出部により音声入力の開始が検出された場合、前記第１マイクからの音声信号および前記複数のスピーカのそれぞれからの音声信号を対象としてビームフォーミング処理を施す
ことを特徴とする音声処理方法。