JP7552481B2

JP7552481B2 - 音声認識プログラム及び音声認識装置

Info

Publication number: JP7552481B2
Application number: JP2021060919A
Authority: JP
Inventors: 正樹中村
Original assignee: Aisin Seiki Co Ltd; Aisin Corp
Current assignee: Aisin Corp
Priority date: 2021-01-29
Filing date: 2021-03-31
Publication date: 2024-09-18
Anticipated expiration: 2041-03-31
Also published as: JP2022117374A; JP7542826B2; JP2022117375A; JP2022117376A

Description

本発明は、音声認識プログラム及び音声認識装置に関するものである。

特許文献１には、ユーザの発話の開始および終了を特定する発話区間を音声データの音量に基づいて特定し、音声データにおける特定された発音区間を音声認識する発話区間検出装置１００が開示されている。具体的に、音声データの音量の最大値に基づいて発話の開始および終了を検出する発話開始しきい値および発話終了しきい値が算出され、これら発話開始しきい値および発話終了しきい値に基づいて音声データにおける発話区間が特定され、特定された発話区間の音声認識が行われる。

特開２００５－３１６３２号公報（例えば、段落０１２６，０１２７、図１０）

しかしながら、特許文献１では、発話開始しきい値および発話終了しきい値が音声データの音量に基づいて設定されるので、発話を周囲の環境音の影響を考慮して特定できる一方で、発話開始しきい値および発話終了しきい値は、音声データの音量の最大値に基づいて設定される。よって、音声データにサイレンやキーボードのタイピング音等の突発的で音量の大きな音が含まれると、その突発的な音の音量が音声データにおける音量の最大値となる。こうなると、発話開始しきい値および発話終了しきい値がその突発的な音の音量に基づいて算出されるので、発話開始しきい値および発話終了しきい値が大きな値となってしまう。

これにより、音声データにおいて実際にはユーザが発話しているにも関わらず、その音量が発話開始しきい値に達しないことで発話区間と特定されず、発話を的確に音声認識ができないという問題点があった。

本発明は、上述した問題点を解決するためになされたものであり、発話を的確に特定し音声認識できる音声認識プログラム及び音声認識装置を提供することを目的としている。

この目的を達成するために本発明の音声認識プログラムは、コンピュータに音声認識処理を実行させるプログラムであって、入力された音声の音量の最頻値である最頻音量を取得する最頻音量取得ステップと、その最頻音量取得ステップで取得された最頻音量から、周囲の環境音と発話との音量差である閾値オフセット値を算出するオフセット算出ステップと、前記最頻音量取得ステップで取得された最頻音量と、前記オフセット算出ステップで算出された閾値オフセット値と、開始感度とを加算した値に基づいて発話の開始を判定する音量である開始判定値を算出する開始判定値算出ステップと、前記最頻音量取得ステップで取得された最頻音量と、前記オフセット算出ステップで算出された閾値オフセット値と、前記開始感度よりも小さい音量である終了感度とを加算した値に基づいて発話の終了を判定する音量である終了判定値を算出する終了判定値算出ステップと、入力された前記音声の音量が前記開始判定値算出ステップで算出された開始判定値を超えた場合に音声認識を開始し、前記音声認識の開始後に入力された前記音声の音量が前記終了判定値算出ステップで算出された終了判定値を下回った場合に音声認識を終了する音声認識ステップと、を備えている。

また本発明の音声認識装置は、音声を入力する音声入力手段と、その音声入力手段で入力された音声の音量の最頻値である最頻音量を取得する最頻音量取得手段と、その最頻音量取得手段で取得された最頻音量から、周囲の環境音と発話との音量差である閾値オフセット値を算出するオフセット算出手段と、前記最頻音量取得手段で取得された最頻音量と、前記オフセット算出手段で算出された閾値オフセット値と、開始感度とを加算した値に基づいて発話の開始を判定する音量である開始判定値を算出する開始判定値算出手段と、前記最頻音量取得手段で取得された最頻音量と、前記オフセット算出手段で算出された閾値オフセット値と、前記開始感度よりも小さい音量である終了感度とを加算した値に基づいて発話の終了を判定する音量である終了判定値を算出する終了判定値算出手段と、入力された前記音声の音量が前記開始判定値算出手段で算出された開始判定値を超えた場合に音声認識を開始し、前記音声認識の開始後に入力された前記音声の音量が前記終了判定値算出手段で算出された終了判定値を下回った場合に音声認識を終了する音声認識手段と、を備えている。

請求項１記載の音声認識プログラムによれば、入力された音声の音量の最頻音量が取得され、その最頻音量から周囲の環境音と発話との音量差である閾値オフセット値が算出され、最頻音量と閾値オフセット値と開始感度とを加算した値に基づいて開始判定値が算出され、最頻音量と閾値オフセット値と開始感度よりも小さい音量である終了感度とを加算した値に基づいて発話の終了を判定する音量である終了判定値が算出される。そして、入力された音声の音量が開始判定値を超えた場合に音声認識が開始され、音声認識の開始後に入力された音声の音量が終了判定値を下回った場合に音声認識が終了される。最頻音量は入力された音量のうちで最も検出される頻度が高い音量なので、その環境で定常的に観測される周囲の環境音の音量と推定できる。よって、その最頻音量に基づき開始判定値および終了判定値が設定されることで、入力された音声が周囲の環境音のみであるものか、又は、発話がされているかを的確に区別することができる。これにより、発話を的確に特定し音声認識できるという効果がある。

請求項２記載の音声認識プログラムによれば、請求項１記載の音声認識プログラムの奏する効果に加え、次の効果を奏する。最頻音量が直近の第１所定時間内に入力された音声の音量から算出されることで、時々刻々と変化する周囲の環境音の大きさに応じた最頻音量を算出できる。これにより、発話をより的確に音声認識できるという効果がある。

請求項３記載の音声認識プログラムによれば、請求項１又は２に記載の音声認識プログラムの奏する効果に加え、次の効果を奏する。最初に音声認識ステップを実行する以前の第２所定時間内に入力される音声の音量に基づいて最頻音量が取得され、その取得された最頻音量に基づいて開始判定値が算出される。これにより、音声が入力された環境に応じた開始判定値による音声認識を、最初の音声認識ステップから行うことができるという効果がある。

請求項４記載の音声認識プログラムによれば、請求項１から３のいずれかに記載の音声認識プログラムの奏する効果に加え、次の効果を奏する。最初に音声認識ステップを実行する以前の第２所定時間内に入力される音声の音量に基づいて最頻音量が取得され、その取得された最頻音量に基づいて終了判定値が算出される。これにより、音声が入力された環境に応じた終了判定値による音声認識を、最初の音声認識ステップから行うことができるという効果がある。

請求項５記載の音声認識プログラムによれば、請求項３又は４に記載の音声認識プログラムの奏する効果に加え、次の効果を奏する。直近の第１所定時間内に入力された前記音声の音量から最頻音量が取得され、第２所定時間が第１所定時間以下の時間とされる。これにより、事前判定値算出ステップの実行時間を短時間とできるので、最初に音声認識ステップが開始されるまでのタイムラグを抑制できる。

請求項６記載の音声認識プログラムによれば、請求項１から５のいずれかに記載の音声認識プログラムの奏する効果に加え、次の効果を奏する。入力された音声の音量の最頻値が音声入力装置の種類に応じて補正した値が最頻音量とされる。これにより、音声が入力される音声入力装置の種類によらず、発話を的確に音声認識できるという効果がある。

請求項７記載の音声認識装置によれば、請求項１記載の音声認識プログラムと同様の効果を奏する。

携帯端末の外観図である。（ａ）は、開始判定値および終了判定値を説明する図であり、（ｂ）は、入力された音声のヒストグラムを表す図である。携帯端末の電気的構成を示すブロック図である。音声処理のフローチャートである。１０ｍｓタイマー処理のフローチャートである。感度処理のフローチャートである。

以下、本発明の好ましい実施形態について、添付図面を参照して説明する。まず、図１を参照して、本実施形態における携帯端末１の構成を説明する。図１は、携帯端末１の外観図である。携帯端末１は、ユーザＨが発する発話を音声認識する情報処理装置（コンピュータ）である。携帯端末１では、音声Ｖが入力可能に構成され、入力された音声Ｖの音量に基づいてユーザＨが発した発話かどうかが判断され、その発話毎に音声認識が実行される。なお、音声認識としては、公知の手法が採用されるが、例えば、音声Ｖを文字列に変換し、変換された文字列を該当する語句に置き換えたものをＬＣＤ１８（図３参照）に表示するものが挙げられる。

かかる音声認識の際、入力された音声Ｖで検出される音量の最頻値である最頻音量Ｖｍが算出され、その最頻音量Ｖｍに基づいて、音声ＶにおいてユーザＨの発話の開始を検出する音量である開始判定値Ｓｔ＿Ａと、ユーザＨの発話の終了を検出する音量である終了判定値Ｅｄ＿Ａとが算出される。算出された開始判定値Ｓｔ＿Ａ及び終了判定値Ｅｄ＿Ａから入力された音声Ｖにおける発話が検出され、検出された発話から音声認識が行われる。図２を参照して、最頻音量Ｖｍ、開始判定値Ｓｔ＿Ａ及び終了判定値Ｅｄ＿Ａの算出を説明する。

図２（ａ）は、開始判定値Ｓｔ＿Ａ及び終了判定値Ｅｄ＿Ａを説明する図である。図２においては横軸に時刻が、縦軸に音声Ｖの音量（ｄＢ）がそれぞれ設定され、入力された音声Ｖの音量の推移がＶｓとされる。本実施形態において音量の最大値が「０ｄＢ」とされ、最小値が「－１２０ｄＢ」とされる。なお、音量の範囲は０ｄＢから－１２０ｄＢまでに限られず、これ以外の範囲でも良い。

本実施形態の携帯端末１では、入力された音声Ｖの音量に基づいてユーザＨが発話しているかどうかが判断される。具体的に、図２（ａ）に示す通り、入力された音声Ｖの音量が開始判定値Ｓｔ＿Ａ以下の状態から開始判定値Ｓｔ＿Ａを超えた場合（時刻ＳｔＴ）にユーザＨの発話が開始したと判断され、音声認識が開始される。

その音声認識の開始後、入力された音声Ｖの音量が終了判定値Ｅｄ＿Ａを下回った場合（時刻ＥｄＴ）に、ユーザＨの発話が終了したと判断され、音声認識が終了される。即ち入力された音声Ｖにおいて時刻ＳｔＴから時刻ＥｄＴまでの発話区間ＶＴで音声認識が行われる。これら開始判定値Ｓｔ＿Ａ及び終了判定値Ｅｄ＿Ａが、入力された音声Ｖの音量の最頻音量Ｖｍに基づいて算出される。

ここで図２（ｂ）を参照して、最頻音量Ｖｍを説明する。図２（ｂ）は、入力された音声Ｖのヒストグラムを表す図である。図２（ｂ）においては横軸に音量が、縦軸に各音量の頻度、即ち各音量が検出された回数がそれぞれ設定される。

本実施形態では、最頻音量Ｖｍが一定時間内（図４で後述の０．５秒間または５秒間）に入力された音声Ｖの音量が計測される。本実施形態において最頻音量Ｖｍの算出に用いられる音量は、１０ｍｓ間に検出された音量のＲＭＳ値（二乗平均平方根値）が用いられる。なお、最頻音量Ｖｍの算出に用いる音量はＲＭＳ値に限られず、１０ｍｓ間に検出された音量の平均値や中央値、最大値や最小値等の値を用いても良い。

そして計測された音量のヒストグラムが算出され、そのヒストグラムから最頻音量Ｖｍが取得される。具体的には、一定時間内に入力された音声Ｖから検出された音量毎の回数を取得してヒストグラムを作成し、そのヒストグラムにおける最頻値の音量が最頻音量Ｖｍとされる。

図２（ａ）に戻る。このように算出された最頻音量Ｖｍに基づいて、開始判定値Ｓｔ＿Ａ及び終了判定値Ｅｄ＿Ａが算出される。まず、最頻音量Ｖｍ及び係数ｔ１，ｔ２から下記の数式１によって閾値オフセット値Ｔｈが算出される。

ここで、係数ｔ１，ｔ２は最頻音量Ｖｍと閾値オフセット値Ｔｈとの音量差を設定するための係数であり、実験やシミュレーションによって取得される。

そして、最頻音量Ｖｍ及び閾値オフセット値Ｔｈと、開始判定値Ｓｔ＿Ａにおける感度に該当する音量である開始感度αとから開始判定値Ｓｔ＿Ａが数式２によって算出される。また、最頻音量Ｖｍ及び閾値オフセット値Ｔｈと、終了判定値Ｅｄ＿Ａにおける感度に該当する音量であって、開始感度αよりも小さな音量である終了感度βとから、数式３によって終了判定値Ｅｄ＿Ａが算出される。

なお、開始感度α及び終了感度βはユーザＨから設定可能に構成されるが、詳細は後述する。

このように、開始判定値Ｓｔ＿Ａ及び終了判定値Ｅｄ＿Ａが最頻音量Ｖｍ及び閾値オフセット値Ｔｈから算出される。最頻音量Ｖｍは、一定時間内に入力された音声Ｖにおいて最も観測される音量なので、その環境で定常的に観測される周囲の環境音の音量と推定できる。また数式２，３において、最頻音量Ｖｍに加算される閾値オフセット値Ｔｈも最頻音量Ｖｍから算出される。

ここで、ユーザＨは自身の声量（音量）を周囲の環境音との音量差を考慮した上で発話を行っている。閾値オフセット値Ｔｈが周囲の環境音の音量とされる最頻音量Ｖｍから算出されることで、その値を周囲の環境音と発話との音量差とすることができる。かかる閾値オフセット値Ｔｈと最頻音量Ｖｍと基づいて開始判定値Ｓｔ＿Ａ及び終了判定値Ｅｄ＿Ａが算出されることで、ユーザＨの発話の声量に対する考慮と同等の考慮を開始判定値Ｓｔ＿Ａ及び終了判定値Ｅｄ＿Ａに組み込むことができる。

このように開始判定値Ｓｔ＿Ａ及び終了判定値Ｅｄ＿Ａが最頻音量Ｖｍ及び閾値オフセット値Ｔｈに基づき設定されることで、入力された音声Ｖが周囲の環境音のみであるものか、又は、発話がされているかを的確に区別することができる。これにより、ユーザＨの発話を的確に特定し、その特定された発話を音声認識することができる。

次に、図３を参照して、携帯端末１の電気的構成を説明する。図３は、携帯端末１の電気的構成を示すブロック図である。図４に示す通り、携帯端末１は、ＣＰＵ１０と、フラッシュＲＯＭ１１と、ＲＡＭ１２とを有し、これらはバスライン１３を介して入出力ポート１４にそれぞれ接続されている。入出力ポート１４には更に、内蔵マイク１５と、マイク入力端子１６と、無線通信装置１７と、音声認識の結果等が表示されるＬＣＤ１８と、ユーザＨからの指示が入力されるタッチパネル１９とが接続される。

ＣＰＵ１０は、バスライン１３により接続された各部を制御する演算装置である。フラッシュＲＯＭ１１は、書き換え可能な不揮発性のメモリであり、音声認識プログラム１１ａが保存される。ＣＰＵ１０によって音声認識プログラム１１ａが実行されると、図４の音声処理が実行される。

ＲＡＭ１２は、ＣＰＵ１０の音声認識プログラム１１ａの実行時に各種のワークデータやフラグ等を書き換え可能に記憶するためのメモリであり、上記した入力された音声Ｖの音量のＲＭＳ値が時系列順に記憶される音量メモリ１２ａと、最頻音量Ｖｍが記憶される最頻音量メモリ１２ｂと、閾値オフセット値Ｔｈが記憶される閾値オフセット値メモリ１２ｃと、開始感度αが記憶される開始感度メモリ１２ｄと、終了感度βが記憶される終了感度メモリ１２ｅと、開始判定値Ｓｔ＿Ａが記憶される開始判定値メモリ１２ｆと、終了判定値Ｅｄ＿Ａが記憶される終了判定値メモリ１２ｇと、音声Ｖの入力に用いられるマイクの情報であるマイク情報が記憶されるマイク情報メモリ１２ｈとが設けられる。

内蔵マイク１５は、携帯端末１に設けられる音声Ｖを入力する入力装置（マイクロフォン）である。マイク入力端子１６は、携帯端末１の外部に設けられる音声Ｖを入力する入力装置である有線マイク２０を接続するための端子である。有線マイク２０は、マイク入力端子１６と図示しないケーブルによって有線で接続され、有線マイク２０から入力された音声Ｖがマイク入力端子１６を介して携帯端末１に入力される。

無線通信装置１７は、他の装置と無線通信するための装置である。本実施形態では、音声Ｖを入力する入力装置である無線マイク２１が無線通信装置１７を介して無線で接続され、その無線マイク２１から入力された音声Ｖが無線通信装置１７を介して携帯端末１に入力される。

これら内蔵マイク１５、有線マイク２０及び無線マイク２１のうちの１つが音声Ｖを入力する入力装置に設定され、その設定された結果のマイク情報がマイク情報メモリ１２ｈに記憶される。

次に、図４～６を参照して、携帯端末１のＣＰＵ１０で実行される処理を説明する。図４は、音声処理のフローチャートである。音声処理は、タッチパネル１９等を介してユーザＨから音声認識プログラム１１ａを実行する指示が入力された場合に実行される処理である。

音声処理はまず、音量メモリ１２ａをクリアする（Ｓ１）。Ｓ１の処理の後、音声Ｖを取得するマイク情報を取得し、マイク情報メモリ１２ｈに保存する（Ｓ２）。具体的には、携帯端末１は、上記した内蔵マイク１５、有線マイク２０及び無線マイク２１のうち、音声Ｖを入力する入力装置をタッチパネル１９を介してユーザＨから設定可能に構成され、ユーザＨが設定した内蔵マイク１５、有線マイク２０及び無線マイク２１のうちのいずれかのマイク情報がタッチパネル１９から取得され、マイク情報メモリ１２ｈに保存される。

なお、マイク情報はユーザＨから取得されるものに限られず、内蔵マイク１５、有線マイク２０及び無線マイク２１の携帯端末１への接続状況に応じて取得しても良い。例えば、内蔵マイク１５、有線マイク２０及び無線マイク２１において、音声Ｖを入力する入力装置とする優先順位を予め設定しておき、携帯端末１に接続されている内蔵マイク１５、有線マイク２０及び無線マイク２１のうち、当該優先順位が最も高いもののマイク情報をマイク情報メモリ１２ｈに保存しても良い。

Ｓ２の処理の後、計測回数に５０を設定する（Ｓ３）。計測回数は、最頻音量Ｖｍの算出に用いられる音量のＲＭＳ値を計測する回数である。Ｓ３の処理の後、１０ｍｓタイマー処理を開始する（Ｓ４）。この処理によって、図４の１０ｍｓタイマー処理の定期的な実行が開始される。ここで図５を参照して、１０ｍｓタイマー処理を説明する。

図５は、１０ｍｓタイマー処理のフローチャートである。１０ｍｓタイマー処理は１０ｍｓ毎に実行される割り込み処理である。本実施形態において１０ｍｓタイマー処理は、上記した図４のＳ４の処理による１０ｍｓタイマー処理を開始指示がされた後に、１０ｍｓ毎に実行される。なお、１０ｍｓタイマー処理が実行される間隔は、１０ｍｓ以上でも１０ｍｓ以下でも良い。

１０ｍｓタイマー処理はまず、内蔵マイク１５、有線マイク２０及び無線マイク２１のうち、マイク情報メモリ１２ｈのマイク情報に該当するものから取得された音声Ｖの音量を計測し、音量メモリ１２ａに追加する（Ｓ２０）。上記した通り、音量メモリ１２ａに追加される音量は、前回の１０ｍｓタイマー処理の実行後から１０ｍｓ間に検出された音声Ｖの音量のＲＭＳ値とされる。かかるＳ２０の処理によって、音声Ｖの音量のＲＭＳ値が時系列順に音量メモリ１２ａに保存される。

Ｓ２０の処理の後、Ｓ２０の処理による音量の計測が、図４のＳ３処理または後述のＳ６の処理で設定された計測回数分、完了したかを確認する（Ｓ２１）。具体的には、Ｓ２０の処理によって音量の計測した回数が、設定された計測回数を超えたかが確認される。

Ｓ２１の処理において、音量を計測した回数が計測回数分完了した場合は（Ｓ２１：Ｙｅｓ）、音量メモリ１２ａに記憶されている音量のうち、現在から計測回数分の音量を取得し、取得された音量から図２（ｂ）で示したヒストグラムを作成する（Ｓ２２）。

具体的に、まず、音量メモリ１２ａに時系列順に記憶されている音量のうち、現在から遡って計測回数分の音量が取得される。例えば、計測回数が５０回の場合は、最新に記憶された音量から遡って５０回分の音量が音量メモリ１２ａから取得される。そして、取得された音量の頻度が取得され、音量と、その音量の頻度とによるヒストグラムが作成される。

なおこの際、図示はしないが「Ｓ２０の処理によって音量の計測した回数」が「１」に再設定される。

Ｓ２２の処理の後、Ｓ２２の処理で作成されたヒストグラムにおいて、最も頻度が高い音量を最頻音量Ｖｍとして最頻音量メモリ１２ｂに保存する（Ｓ２３）。この際、最も頻度が高い音量が、例えば、－６０ｄＢより小さい音量の場合は、－６０ｄＢ以上の音量において最も頻度が高い音量を最頻音量Ｖｍとしても良い。これにより、開始判定値Ｓｔ＿Ａ及び終了判定値Ｅｄ＿Ａが小さな値になり過ぎるのを抑制できるので、例えば、静かな室内での足音等、ユーザＨの発話ではない、小さな物音によって音声認識が開始されてしまうのを抑制できる。

Ｓ２３の処理の後、Ｓ２４の感度処理を実行する。ここで、図６を参照して、感度処理を説明する。

図６は、感度処理のフローチャートである。感度処理はまず、マイク情報メモリのマイク情報を確認する（Ｓ４０）。Ｓ４０の処理において、マイク情報メモリのマイク情報が内蔵マイク１５によるものである場合は（内蔵マイク）、最頻音量メモリ１２ｂの最頻音量Ｖｍから第１補正量を減算する（Ｓ４１）。Ｓ４０の処理において、マイク情報メモリのマイク情報が有線マイク２０によるものである場合は（有線マイク）、最頻音量メモリ１２ｂの最頻音量Ｖｍから第２補正量を減算する（Ｓ４２）。また、Ｓ４０の処理において、マイク情報メモリのマイク情報が無線マイク２１によるものである場合は（有線マイク）、最頻音量メモリ１２ｂの最頻音量Ｖｍから第３補正量を減算する（Ｓ４２）。

ここで、第１補正量、第２補正量および第３補正量は、それぞれ内蔵マイク１５、有線マイク２０及び無線マイク２１の感度や周波数特性等の特性に応じた値であり、実験によって取得される値である。

このように、最頻音量メモリ１２ｂの最頻音量Ｖｍが、音声Ｖが入力される内蔵マイク１５、有線マイク２０及び無線マイク２１に応じた第１～３補正量によって補正される。これにより、内蔵マイク１５、有線マイク２０及び無線マイク２１毎に異なる特性が最頻音量Ｖｍに反映され、その最頻音量Ｖｍから算出される開始判定値および終了判定値にも反映することができる。これにより、音声Ｖが入力される内蔵マイク１５、有線マイク２０及び無線マイク２１によらず、発話を的確に音声認識できる。

Ｓ４１～Ｓ４２の処理の後、タッチパネル１９を介してユーザＨから感度情報、即ち図２（ａ）で上記した開始感度α又は終了感度βが入力されたかを確認する（Ｓ４４）。Ｓ４４の処理において感度情報が入力された場合は（Ｓ４４：Ｙｅｓ）、入力された開始感度α又は終了感度βを開始感度メモリ１２ｄ又は終了感度メモリ１２ｅに保存する（Ｓ４５）。

Ｓ４４の処理において感度情報が入力されていない場合は（Ｓ４４：Ｎｏ）、Ｓ４５の処理をスキップする。なおこの際、音声処理が実行されてから、Ｓ４４の処理までに一度も感度情報が入力されていない場合は、開始感度メモリ１２ｄ及び終了感度メモリ１２ｅには、それぞれの初期値が設定される。これらの初期値として、例えば、開始感度αの初期値として「３ｄＢ」が、終了感度βの初期値として「１ｄＢ」が例示されるが、開始感度αが終了感度βより大きければ、これら以外の値を初期値にしても良い。

Ｓ４４，Ｓ４５の処理の後、感度処理を終了する。

図５に戻る。Ｓ２４の感度処理の後、最頻音量メモリ１２ｂの最頻音量Ｖｍから図２（ａ）で上記した数式１により閾値オフセット値Ｔｈを算出し、閾値オフセット値メモリ１２ｃに保存する（Ｓ２５）。

Ｓ２５の処理の後、最頻音量メモリ１２ｂの最頻音量Ｖｍと、閾値オフセット値メモリ１２ｃの閾値オフセット値Ｔｈと、開始感度メモリ１２ｄの開始感度αとから、図２（ａ）で数式２により開始判定値Ｓｔ＿Ａを算出し、開始判定値メモリ１２ｆに保存する（Ｓ２６）。Ｓ２６の処理の後、最頻音量メモリ１２ｂの最頻音量Ｖｍと、閾値オフセット値メモリ１２ｃの閾値オフセット値Ｔｈと、終了感度メモリ１２ｅの終了感度βとから、図２（ａ）で数式３により終了判定値Ｅｄ＿Ａを算出し、終了判定値メモリ１２ｇに保存する（Ｓ２７）。

Ｓ２１の処理において、音量を計測した回数が計測回数分完了していない場合（Ｓ２１：Ｎｏ）、又はＳ２７の処理の後、１０ｍｓタイマー処理を終了する。

Ｓ４の処理の後、１０ｍｓタイマー処理のＳ２６，Ｓ２７の処理によって、初回の開始判定値Ｓｔ＿Ａ及び終了判定値Ｅｄ＿Ａが算出されたかを確認する（Ｓ５）。即ちＳ４の処理による１０ｍｓタイマー処理の開始後から、開始判定値Ｓｔ＿Ａ及び終了判定値Ｅｄ＿Ａが最初に算出されたかが確認される。

Ｓ５の処理において、初回の開始判定値Ｓｔ＿Ａ及び終了判定値Ｅｄ＿Ａが算出されていない場合は（Ｓ５：Ｎｏ）、Ｓ５の処理を繰り返す。一方でＳ５の処理において、初回の開始判定値Ｓｔ＿Ａ及び終了判定値Ｅｄ＿Ａが算出された場合は（Ｓ５：Ｙｅｓ）、計測回数を５００回に設定する（Ｓ６）。

これにより、音声処理の実行直後には後述のＳ７～Ｓ１０の音声認識処理に先立ち、計測回数を５０回とし、最頻音量Ｖｍを算出するための音量を計測する時間を０．５秒間（即ち１０ｍｓ×５０回）とした場合の開始判定値Ｓｔ＿Ａ及び終了判定値Ｅｄ＿Ａが算出される。一方で、初回の開始判定値Ｓｔ＿Ａ及び終了判定値Ｅｄ＿Ａが算出された後は、最頻音量Ｖｍを算出するための音量を計測する時間を５秒間（即ち１０ｍｓ×５００回）として開始判定値Ｓｔ＿Ａ及び終了判定値Ｅｄ＿Ａが算出される。

Ｓ６の処理の後、入力された音声Ｖの音量が開始判定値メモリ１２ｆの開始判定値Ｓｔ＿Ａを超えたかを確認する（Ｓ７）。Ｓ７の処理において、入力された音声Ｖの音量が開始判定値Ｓｔ＿Ａを超えた場合は（Ｓ７：Ｙｅｓ）、入力された音声Ｖの音声認識を開始する（Ｓ８）。一方で、Ｓ７の処理において、入力された音声Ｖの音量が開始判定値Ｓｔ＿Ａを超えていない場合は（Ｓ７：Ｎｏ）、Ｓ８の処理をスキップする。

Ｓ７，Ｓ８の処理の後、Ｓ８の処理による音声認識の開始後に入力された音声Ｖの音量が終了判定値メモリ１２ｇの終了判定値Ｅｄ＿Ａを下回ったかを確認する（Ｓ９）。Ｓ９の処理において、音声認識の開始後に入力された音声Ｖの音量が終了判定値Ｅｄ＿Ａを下回った場合は（Ｓ９：Ｙｅｓ）、実行している音声認識を終了する（Ｓ１０）。一方で、Ｓ９の処理において、音声認識の開始後に入力された音声Ｖの音量が終了判定値Ｅｄ＿Ａを下回っていない場合は（Ｓ９：Ｎｏ）、Ｓ１０の処理をスキップする。

Ｓ９，Ｓ１０の処理の後、タッチパネル１９を介してユーザＨから音声処理の終了する指示を取得したかを確認する（Ｓ１１）。Ｓ１１の処理において、音声処理の終了の指示を取得しなかった場合は（Ｓ１１：Ｎｏ）、Ｓ７以下の処理を繰り返し、音声処理の終了の指示を取得した場合は（Ｓ１１：Ｙｅｓ）、音声処理を終了する。

以上説明した通り、本実施形態の携帯端末１では、入力された音声Ｖの音量の最頻値である最頻音量Ｖｍが取得される。その最頻音量Ｖｍに基づいて入力された音声ＶにおいてユーザＨの発話の開始を検出する開始判定値Ｓｔ＿Ａと、該発話の終了を検出する音量である終了判定値Ｅｄ＿Ａとが算出される。最頻音量Ｖｍは、その環境で定常的に観測される周囲の環境音の音量と推定できる。このように開始判定値Ｓｔ＿Ａ及び終了判定値Ｅｄ＿Ａが最頻音量Ｖｍに基づき設定されることで、入力された音声Ｖが周囲の環境音のみであるものか、又は、発話がされているかを的確に区別することができる。これにより、ユーザＨの発話を的確に特定し、その特定された発話を音声認識することができる。

最頻音量Ｖｍは、音量メモリ１２ａに時系列順に記憶される音量のうち、最新の音量から一定時間内の計測された音量、即ち直近に計測された音量から算出される。具体的には、音声処理の実行直後は音量の計測回数が５０回に設定され、これによって、音声処理の実行直後から５０回、即ち０．５秒間に計測された音量から最頻音量Ｖｍが算出される。その後は計測回数が５００回に設定され、即ち直近の５秒間に計測された音量から最頻音量Ｖｍが算出される。

このように、直近に計測された音量に基づき最頻音量Ｖｍが算出され、その最頻音量Ｖｍに基づいて開始判定値Ｓｔ＿Ａ及び終了判定値Ｅｄ＿Ａが算出されることで、時々刻々と変化する周囲の環境音の大きさに応じた開始判定値Ｓｔ＿Ａ及び終了判定値Ｅｄ＿Ａとすることができる。

音声処理の実行直後は音量の計測回数が５０回に設定され、その後の計測回数の５００回以下の小さな値とされる。音声処理の実行直後においては、初回の最頻音量Ｖｍの算出と、開始判定値Ｓｔ＿Ａ及び終了判定値Ｅｄ＿Ａの算出とが完了した後に、図４のＳ７～Ｓ１０の処理による音声認識が開始される。これにより、音声Ｖが入力された環境に応じた開始判定値Ｓｔ＿Ａ及び終了判定値Ｅｄ＿Ａによる音声認識を、音声認識の最初から行うことができる。

しかしその一方で、音声処理を実行してから初回の最頻音量Ｖｍ等の算出が完了するまでは、音声認識が行われない。これによって、ユーザＨが音声処理の実行を指示してから初回の最頻音量Ｖｍ等の算出が完了するまでの時間は、音声認識を開始するまでのタイムラグとされる。そこで、音声処理の実行直後の音量の計測回数を５０回とし、その後の計測回数の５００回以下とすることで、該タイムラグの拡大を抑制できる。これにより、ユーザＨの音声認識の開始に対する違和感を抑制できる。

また、開始判定値Ｓｔ＿Ａ及び終了判定値Ｅｄ＿Ａのそれぞれに付与される開始感度α及び終了感度βが、それぞれタッチパネル１９を介してユーザＨから設定される。これにより、ユーザＨは、音声認識の対象となる発話を行うユーザＨの声量や、ユーザＨの好みに応じて開始判定値Ｓｔ＿Ａ及び終了判定値Ｅｄ＿Ａの大小を調節できるので、発話をより的確に音声認識することができる。

以上、実施形態に基づき本発明を説明したが、本発明は上述した実施形態に何ら限定されるものではなく、本発明の趣旨を逸脱しない範囲内で種々の改良変更が可能であることは容易に推察できるものである。

上記実施形態では、開始判定値Ｓｔ＿Ａを最頻音量Ｖｍ、閾値オフセット値Ｔｈ及び開始感度αで算出し、終了判定値Ｅｄ＿Ａを最頻音量Ｖｍ、閾値オフセット値Ｔｈ及び終了感度βで算出した。しかし、これに限られず、開始判定値Ｓｔ＿Ａ及び終了判定値Ｅｄ＿Ａの算出において開始感度α及び終了感度βを省略しても良い。この場合以下の数式４，５のように、開始判定値Ｓｔ＿Ａと終了判定値Ｅｄ＿Ａとの音量差を閾値オフセット値Ｔｈとしても良い。

また、数式６，７のように、開始判定値Ｓｔ＿Ａ及び終了判定値Ｅｄ＿Ａを、開始判定値Ｓｔ＿Ａ及び終了判定値Ｅｄ＿Ａのそれぞれの初期値である開始初期値Ｓｔ＿Ｄ及び終了初期値Ｅｄ＿Ｄと、閾値オフセット値Ｔｈとからそれぞれ算出しても良い。

なお、開始初期値Ｓｔ＿Ｄ及び終了初期値Ｅｄ＿Ｄは、実験によって取得しても良いし、タッチパネル１９を介してユーザＨが設定しても良い。

上記実施形態では、数式１における係数ｔ１，ｔ２を実験で取得したが、これに限られない。タッチパネル１９を介してユーザＨが設定できるようにしても良い。例えば、係数ｔ１，ｔ２を音声認識の対象の発話を行うユーザＨに応じて変更することで、ユーザＨの性別や年齢等に応じた声量の違いを閾値オフセット値Ｔｈに反映できる。

また、開始判定値Ｓｔ＿Ａ及び終了判定値Ｅｄ＿Ａの組み合わせは、上記した数式２及び数式３、数式４及び数式５、数式６及び数式７の各組み合わせに限られない。例えば、数式２及び数式５の組み合わせでも良いし、数式２及び数式７の組み合わせでも良いし、数式４及び数式３の組み合わせでも良いし、数式４及び数式７の組み合わせでも良い。同様に、数式６及び数式３の組み合わせでも良いし、数式６及び数式５の組み合わせでも良い。

また、開始判定値Ｓｔ＿Ａを数式２，４，６のいずれかによる最頻音量Ｖｍに基づくものとし、終了判定値Ｅｄ＿Ａを最頻音量Ｖｍによらない値としても良い。同様に、開始判定値Ｓｔ＿Ａを最頻音量Ｖｍによらない値とし、終了判定値Ｅｄ＿Ａを数式３，５，７のいずれかによる最頻音量Ｖｍに基づくものとしても良い。なお、「最頻音量Ｖｍによらない値」としては、例えば、所定の固定値やタッチパネル１９を介したユーザＨよる設定値等が挙げられる。

上記実施形態では、開始感度α及び終了感度βをタッチパネル１９を介して、ユーザＨが設定したが、これに限られず、例えば、予め実験によって取得された開始感度α及び終了感度βを用いても良い。

上記実施形態では、音声処理の実行直後における音量の計測回数をその後の計測回数以下としたが、これに限られず、計測回数を常に一定にしても良いし、音声処理の実行直後における音量の計測回数をその後の計測回数より大きな値としても良い。また、音声処理の実行直後における音量の計測回数と、その後の計測回数とをタッチパネル１９を介してユーザＨが設定できるようにしても良い。

上記実施形態では、内蔵マイク１５、有線マイク２０又は無線マイク２１から音声Ｖと取得したが、これに限られない。例えば、予めフラッシュＲＯＭ１１に記憶された音声データを音声Ｖとして取得しても良いし、図示しない通信装置を介して他の携帯端末１等から送信された音声データを音声Ｖとして取得しても良い。

上記実施形態では、音声認識プログラム１１ａが組み込まれた携帯端末１を例示したが、これに限られず、パーソナルコンピュータやタブレット端末等の他の情報処理装置（コンピュータ）によって音声認識プログラム１１ａを実行する構成としても良い。また、音声認識プログラム１１ａをＲＯＭやＩＣチップ等に記憶し、音声認識プログラム１１ａのみを実行する専用装置に、本発明を適用しても良い。

１携帯端末（コンピュータ）
１１ａ音声認識プログラム
１５内蔵マイク（音声入力装置の一部、音声入力手段の一部）
２０有線マイク（音声入力装置の一部、音声入力手段の一部）
２１無線マイク（音声入力装置の一部、音声入力手段の一部）
Ｖ音声
Ｖｍ最頻音量
Ｔｈ閾値オフセット値
Ｓｔ＿Ｂ開始判定値
Ｅｄ＿Ｂ終了判定値
Ｓ２２，Ｓ２３最頻音量取得ステップ、最頻音量取得手段
Ｓ２５オフセット算出ステップ
Ｓ２６開始判定値算出ステップ、開始判定値算出手段
Ｓ２７終了判定値算出ステップ、終了判定値算出手段
Ｓ２０，Ｓ４０種類取得ステップ
Ｓ３～Ｓ５事前判定値算出ステップ
Ｓ７～Ｓ１０音声認識ステップ、音声認識手段

Claims

コンピュータに音声認識処理を実行させる音声認識プログラムであって、
入力された音声の音量の最頻値である最頻音量を取得する最頻音量取得ステップと、
その最頻音量取得ステップで取得された最頻音量から、周囲の環境音と発話との音量差である閾値オフセット値を算出するオフセット算出ステップと、
前記最頻音量取得ステップで取得された最頻音量と、前記オフセット算出ステップで算出された閾値オフセット値と、開始感度とを加算した値に基づいて発話の開始を判定する音量である開始判定値を算出する開始判定値算出ステップと、
前記最頻音量取得ステップで取得された最頻音量と、前記オフセット算出ステップで算出された閾値オフセット値と、前記開始感度よりも小さい音量である終了感度とを加算した値に基づいて発話の終了を判定する音量である終了判定値を算出する終了判定値算出ステップと、
入力された前記音声の音量が前記開始判定値算出ステップで算出された開始判定値を超えた場合に音声認識を開始し、前記音声認識の開始後に入力された前記音声の音量が前記終了判定値算出ステップで算出された終了判定値を下回った場合に音声認識を終了する音声認識ステップと、
を備えていることを特徴とする音声認識プログラム。
前記最頻音量取得ステップは、その直近の第１所定時間内に入力された前記音声の音量から最頻音量を取得するものであることを特徴とする請求項１記載の音声認識プログラム。
最初に前記音声認識ステップを実行する以前の第２所定時間内において、前記最頻音量取得ステップによる最頻音量の取得と、その取得された最頻音量に基づく前記開始判定値算出ステップによる開始判定値の算出とを行う事前判定値算出ステップを備え、
前記音声認識ステップは、前記事前判定値算出ステップで算出された開始判定値に基づいて音声認識を行うことを特徴とする請求項１又は２に記載の音声認識プログラム。
最初に前記音声認識ステップを実行する以前の第２所定時間内において、前記最頻音量取得ステップによる最頻音量の取得と、その取得された最頻音量に基づく前記終了判定値算出ステップによる終了判定値の算出とを行う事前判定値算出ステップを備え、
前記音声認識ステップは、前記事前判定値算出ステップで算出された終了判定値に基づいて音声認識を行うことを特徴とする請求項１から３のいずれかに記載の音声認識プログラム。
前記最頻音量取得ステップは、その直近の第１所定時間内に入力された前記音声の音量から最頻音量を取得するものであり、
前記第２所定時間は、前記第１所定時間以下の時間であることを特徴とする請求項３又は４に記載の音声認識プログラム。
前記音声を入力した音声入力装置の種類を取得する種類取得ステップを備え、
前記最頻音量取得ステップは、入力された前記音声の音量の最頻値を、前記種類取得ステップで取得された音声入力装置の種類に応じて補正した値を最頻音量として取得するものであることを特徴とする請求項１から５のいずれかに記載の音声認識プログラム。
音声を入力する音声入力手段と、
その音声入力手段で入力された音声の音量の最頻値である最頻音量を取得する最頻音量取得手段と、
その最頻音量取得手段で取得された最頻音量から、周囲の環境音と発話との音量差である閾値オフセット値を算出するオフセット算出手段と、
前記最頻音量取得手段で取得された最頻音量と、前記オフセット算出手段で算出された閾値オフセット値と、開始感度とを加算した値に基づいて発話の開始を判定する音量である開始判定値を算出する開始判定値算出手段と、
前記最頻音量取得手段で取得された最頻音量と、前記オフセット算出手段で算出された閾値オフセット値と、前記開始感度よりも小さい音量である終了感度とを加算した値に基づいて発話の終了を判定する音量である終了判定値を算出する終了判定値算出手段と、
入力された前記音声の音量が前記開始判定値算出手段で算出された開始判定値を超えた場合に音声認識を開始し、前記音声認識の開始後に入力された前記音声の音量が前記終了判定値算出手段で算出された終了判定値を下回った場合に音声認識を終了する音声認識手段と、を備えていることを特徴とする音声認識装置。