JP2011002534A

JP2011002534A - 音声認識装置

Info

Publication number: JP2011002534A
Application number: JP2009143956A
Authority: JP
Inventors: Kumi Ota; 久美太田
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 2009-06-17
Filing date: 2009-06-17
Publication date: 2011-01-06

Abstract

【課題】各ユーザの発話態様に応じた音声入力手段のゲイン制御を行い、音声認識漏れのない確実な各種処理を行う。
【解決手段】受付端末２０は、音声を入力するためのマイク２０７を有し、マイク２０７を介し入力された音により音情報を取得し、患者に係わる患者ＩＤを取得し、この取得された患者ＩＤに応じて、患者の発話音声に基づき取得された発話音情報に対応した振幅情報と当該患者に対応する患者ＩＤとを予め関連付けてＨＤＤ１５０に記憶した振幅情報データベース１５１０へアクセスし、対応する振幅情報を取得し、この取得された振幅情報の発話振幅値Ａｃに関し、所定の振幅しきい値Ａｔ１，Ａｔ２，Ａｔ３との比較を行い、この比較結果ごとに予め定められた制御態様により、マイク２０７のゲインを増減制御する。
【選択図】図１６

Description

本発明は、ユーザの発話した音声を音声認識して各種処理を行う音声認識装置に関する。

例えば来訪したユーザに対する受付処理を行う受付装置や、現金支払機すなわちいわゆるＡＴＭや、チケット販売機、通行料金支払機等、ユーザの発話した音声を音声認識して種々の処理を自動的に行う音声認識装置が、従来より既に知られている。この音声認識装置においては、ユーザの発話内容をマイク等の音声入力手段により入力し、音声認識を行う。

この音声認識を行う際、入力される音声レベルが小さすぎると誤認識が生じ、入力される音声レベルが大きすぎると音割れにより認識不能となる。ユーザが上記のような音声認識を行う装置を利用する際、原則として（特に要請しない限り）ユーザは同一内容を一度しか発話しないため、上記のような場合は発話内容の認識漏れが生じる。このような認識漏れを防止するためには、上記入力される音声レベルの適正化が必要である。

このような点に配慮した音声認識装置として、例えば、特許文献１に記載のカーナビゲーション装置がある。一般に、ユーザの発話音声のレベルの大小には個人差があり、発話音量の大小はユーザによってばらつく。発話音量が比較的小さい傾向にあるユーザは、音声入力手段に入力される発話音声レベルが小さくなり、そのままでは誤認識が生じる。上記従来技術では、このようなユーザに対しては、カーオーディオの音量を増大させ、いわゆるロンバート効果、すなわち人間は周囲音が大きいと発話音量を無意識に大きくする習性を利用することにより、音声入力手段に入力される音声レベルの増大を図っている。

特開２００５−１９５８９５号公報

しかしながら、上記従来技術では、ユーザの無意識の習性を利用して発話音量の増大を図るものに過ぎず、確実性に乏しかった。このため、どのようなユーザに対しても音声認識漏れのない確実な処理を行うことは困難であった。

本発明の目的は、ユーザごとの発話音量のばらつきに対応し、どのようなユーザに対しても音声認識漏れのない確実な処理を行える音声認識装置を提供することにある。

上記目的を達成するために、第１の発明は、ユーザの発話音声を音声認識して各種処理を行う音声認識装置であって、音声を入力するための音声入力手段と、前記音声入力手段を介し入力された音により、対応する振幅あるいは周波数を含む音情報を取得する音取得手段と、前記ユーザに係わるユーザ識別情報を取得する識別情報取得手段と、前記識別情報取得手段により取得された前記ユーザ識別情報に応じて、前記ユーザの発話音声に基づき前記音取得手段により取得された発話音情報に対応した振幅情報と当該ユーザに対応する前記ユーザ識別情報とを予め関連付けて記憶手段に記憶した振幅情報データベースへアクセスし、対応する前記振幅情報を取得する振幅情報取得手段と、前記振幅情報取得手段により取得された前記振幅情報の発話振幅値に関し、所定の振幅しきい値との比較を行う振幅比較手段と、前記振幅比較手段の比較結果ごとに予め定められた制御態様により、前記音声入力手段のゲインを増減制御する感度制御手段とを有することを特徴とする。

本願第１発明においては、各種処理に伴う音声認識の際には、ユーザ識別情報が、識別情報取得手段によって取得される。このとき、本願第１発明においては、振幅情報データベースが設けられている。すなわち、ユーザの発話音声が音声入力手段により入力され、その発話音声に対応する振幅や周波数を含む発話音情報が音取得手段によって取得される。そして、その取得された発話音情報に対応した発話振幅値を含む振幅情報が、対応するユーザ識別情報と関連付けられて、予め振幅情報データベースに記憶されている。

前述のようにして識別情報取得手段によりユーザ識別情報が取得されると、振幅情報取得手段が振幅情報データベースにアクセスし、そのユーザ識別情報に対応した上記振幅情報を取得する。そして、振幅比較手段が上記取得された振幅情報に含まれる発話振幅値を所定の振幅しきい値と対比させ、その比較結果に応じた制御態様によって感度制御手段が音声入力手段のゲインを増減制御する。

これにより、発話振幅値が比較的大きく発話音量が比較的大きい傾向にあるユーザに対しては、発話音声が比較的大きいレベルで入力されることから音声入力手段のゲインを低くすることが可能となる。逆に、発話振幅値が比較的小さく発話音量が比較的小さい傾向にあるユーザに対しては、発話音声が比較的小さいレベルで入力されることから音声入力手段のゲインを高くすることが可能となる。このように、各ユーザの発話態様に応じ、適切な信号レベルで音情報を取得して処理を行えるので、音声認識漏れのない確実な各種処理を行うことができる。

第２発明は、上記第１発明において、前記振幅情報取得手段は、所定時間間隔において所定の振幅レベルしきい値を超える振幅の零交差数が所定数を超えた、最初の当該所定時間における前記発話振幅値を含む前記振幅情報を取得することを特徴とする。

これにより、ユーザの発話音声のうち、話し始めの発話音声に基づく発話音情報に対応した振幅情報を取得することができるので、ユーザの話し始めの発話音声についても確実に漏れなくゲイン制御を行うことができる。

第３発明は、上記第２発明において、前記振幅情報取得手段は、複数回の発話履歴のそれぞれの回における前記発話振幅値を含む前記振幅情報を取得し、その取得された複数の前記発話振幅値の平均値を算出する平均値算出手段を設け、前記振幅比較手段は、前記平均値算出手段により算出された前記発話振幅値の前記平均値と、前記振幅しきい値との比較を行うことを特徴とする。

本願第３発明においては、ユーザによる複数回の過去の発話履歴における発話振幅値の平均値を算出し、その平均値と振幅しきい値との比較を行う。これにより、各ユーザの発話態様の定性的な傾向を確実に反映した高精度なゲイン制御を行うことができるので、確実に音声認識漏れを防止することができる。

第４発明は、上記第３発明において、前記振幅情報取得手段は、複数回の発話履歴のそれぞれの日時情報を前記発話振幅値と対応付けた前記振幅情報を取得し、その取得された前記振幅情報に含まれる前記発話振幅値に対応する前記日時情報から、前記識別情報取得手段が前記ユーザ識別情報を取得した最新の取得日時までの、第１経過期間の長さに応じた第１重み付けを、各発話振幅値に対して設定する第１重み付け設定手段を設け、前記平均値算出手段は、前記第１重み付け設定手段によりそれぞれ第１重み付けが設定された前記複数の発話振幅値の前記平均値を算出し、前記振幅比較手段は、前記平均値算出手段により算出された、前記第１重み付けを加味した前記平均値と前記振幅しきい値との比較行うことを特徴とする。

これにより、第１重み付け設定手段により、ユーザの過去の発話履歴に含まれる発話振幅値のうち、日付の古いものについては重み付けを軽くし、日付の新しいものについては重み付けを重くして平均値を算出することが可能となる。この結果、最近のユーザの発話傾向をより強く反映させたゲイン制御を行うことができるので、さらに確実に音声認識漏れを防止することができる。

第５発明は、上記第３乃至第４発明において、前記振幅比較手段は、前記平均値算出手段により算出された前記発話振幅値の前記平均値と、所定のモード切替用しきい値との比較を行い、かつ、前記振幅比較手段による前記平均値と前記モード切替用しきい値との比較結果に応じて、前記ユーザの発話音声に基づき前記各種処理を行う第１モードと、前記ユーザの手動操作に基づき前記各種処理を行う第２モードとを切り替えるモード切替手段を有することを特徴とする。

これにより、各ユーザの発話態様に応じたモードに切り替えることができ、発話音量が非常に小さいレベルで入力されるユーザについては、正確な各種処理を優先し、手動操作に基づく各種処理へと確実に切り替えることができる。

第６発明は、上記第１乃至第５発明のいずれかにおいて、前記振幅情報取得手段により取得された前記振幅情報の発話振幅値と、前記振幅しきい値に含まれる、所定の下限振幅値とが前記振幅比較手段により比較された結果、前記振幅情報の発話振幅値が前記下限振幅値よりも小さかった場合、前記音声入力手段への入力方法に関する報知を行う、報知処理手段を有することを特徴とする。

これにより、発話音量が非常に小さい傾向にあり、感度制御手段によるゲイン制御のみでは適切な信号レベルで音情報を取得することが難しいユーザに対し、音声入力手段に近づいたり、大きな声で発話したりすることで信号レベルを増大できるよう促すことができる。この結果、音声認識漏れをさらに確実になくすことができる。

第７発明は、上記第６発明において、前記報知処理手段により前記報知が行われた場合に、当該報知の後に前記ユーザの発話音声に基づき前記音声入力手段を介し前記音取得手段により取得された、発話音情報に対応した振幅情報に含まれる発話振幅値を補正するための第２重み付けを、当該発話振幅値に対して設定する第２重み付け設定手段を有することを特徴とする。

報知処理手段による報知が行われた場合には、その後に音声入力手段を介し取得される発話音情報に基づく発話振幅値は、本来の、すなわち、上記報知が行われなかった場合に音声入力手段を介し取得される発話音情報に基づく発話振幅値と比べて大きくなる。そこで、本願第７発明においては、第２重み付け設定手段が、報知処理手段による報知が行われた場合に、当該報知の後に音声入力手段を介し取得された発話振幅値を補正するための第２重み付けを、当該発話振幅値に対して設定する。これにより、本来よりも大きな発話振幅値を補正して、本来の発話振幅値に近づけることができる。この結果、精度よいゲイン制御を行うことができる。

第８発明は、上記第１乃至第７発明のいずれかにおいて、前記ユーザの発話音声に基づき前記音声入力手段を介し前記音取得手段により取得された発話音情報に対応した振幅情報か、若しくは、前記第２重み付け設定手段により第２重み付けが設定された前記発話振幅値を含む振幅情報を、当該ユーザの前記ユーザ識別情報と対応付けて前記記憶手段に記憶させ、前記振幅情報データベースを更新する振幅情報更新手段を有することを特徴とする。

これにより、音取得手段での取得結果に対応した振幅情報、若しくは、報知処理手段により報知がされた後の音取得手段での取得結果に対し、第２重み付け設定手段により、重み付けがされた振幅情報を、当該ユーザに関する最新の発話履歴としてデータベースに蓄積することができる。この結果、当該ユーザに対する次回の各種処理において、最新の発話傾向を確実に反映させたゲイン制御を行うことができる。

第９発明は、上記第８発明において、前記振幅情報更新手段による最後の前記振幅情報データベースの更新日時から、前記識別情報取得手段が前記ユーザ識別情報を取得した最新の取得日時までの第２経過期間が、所定の更新用しきい値に達したかどうかを判定する更新判定手段をさらに有し、前記振幅情報更新手段は、前記更新判定手段により前記第２経過期間が前記更新用しきい値に達したと判定された場合に、前記振幅情報データベースの前記更新を行うことを特徴とする。

ユーザの発話傾向は個性やクセ等に基づくものであり、短期間にそう大きく変化するものではない場合が多い。これに対応し、本願第９発明においては、音取得手段で新たな発話音情報が取得されるたびに振幅情報データベースを更新するのではなく、最後の更新日時から所定の第２経過期間が過ぎた場合にのみ更新を行うようにする。これにより、あまり意味のない振幅情報データベースの更新を頻繁に行う無駄を避けることができる。逆に、第２経過期間が経過した場合には必ず振幅情報データベースの更新を行うようにすることで、実効的なデータベース更新を確実に実施して精度よいゲイン制御を行うことができる。

本発明によれば、ユーザごとの発話音量のばらつきに対応し、どのようなユーザに対しても、音声認識漏れのない確実な処理を行うことができる。

本発明の一実施の形態の患者受付システムの全体構成の概略構成を表すシステム構成図である。受付端末の外観構造の一例を表す斜視図である。タッチパネルにおける表示画面の一例を表す図である。タッチパネルにおける表示画面の他の例を表す図である。タッチパネルにおける表示画面のさらに他の例を表す図である。受付端末の機能的構成を示す機能ブロック図である。ＤＢサーバの機能的構成を表す機能ブロック図である。振幅情報データベースの記憶内容を表す概念的説明図である。マイクに入力された音に基づく音情報の音波形を表した図である。マイクに入力された音に基づく音情報の音波形を表した図である。発話振幅値の平均値の算出の手法を説明した説明図である。算出された発話振幅値の平均値と、所定のモード切替用しきい値との比較結果、及び、当該比較結果に応じた処理を説明した説明図である。受付処理における各シナリオの一例を概念的に説明した説明図である。受付端末の制御回路部により実行する制御手順を表すフローチャートである。ステップＳ１００の詳細手順を表すフローチャートである。ステップＳ１５０の詳細手順を表すフローチャートである。ステップＳ２００の詳細手順を表すフローチャートである。発話振幅値に重み付けを行う変形例において、各発話振幅値に対する重み付けの手法、及び、それぞれの重み付けされた複数の発話振幅値の平均値の算出の手法を説明した説明図である。ステップＳ１００′の詳細手順を表すフローチャートである。発話音量が非常に小さい傾向にある患者に対して報知を行う変形例において、算出された平均値と、所定の下限振幅値との比較結果、及び、当該比較結果に応じた処理を説明した説明図である。ステップＳ１００″の詳細手順を表すフローチャートである。ステップＳ２００′の詳細手順を表すフローチャートである。

以下、本発明の一実施の形態を図面を参照しつつ説明する。

図１は、本実施形態の患者受付システムの全体構成の概略構成を表すシステム構成図である。図１において、患者受付システム１は、ユーザ、この例では、病院や診療所その他の医療機関へ外来受診するため来訪する患者に対する、受付業務を行うシステムである。この例では病院へ設置されている場合を例にとって説明する。

患者受付システム１は、例えば病院の入口付近に設置され、患者の発話音声を音声認識して各種処理としての受付処理を行う受付端末２０と、周知のコンピュータにより構成されるＤＢサーバ１０と、病院の各診療科などに対応して設けられた複数のプリンタ６０及びＰＣ端末５０とを有し、これらはすべてルータ４０を介して接続されている。受付端末２０が、音声認識装置に相当する。

受付端末２０は、端末本体２０Ａと、この端末本体２０Ａに接続された、タッチパネル２１０、ゲイン可変アンプ２０９、及びスピーカ２０８と、上記ゲイン可変アンプ２０９に接続された、音声入力手段としてのマイク２０７とを有している。

マイク２０７は、入力された音を音情報に変換し、ゲイン可変アンプ２０９へ出力する。

ゲイン可変アンプ２０９は、マイク２０７から入力された音情報を増幅して、端末本体２０Ａへ出力する。この例では、ゲイン可変アンプ２０９は、後述のＣＰＵ２０１からの制御信号によってマイク２０７のゲインが決定される増幅を実行する。上記マイク２０７のゲインとは、入力と出力との比（出力／入力）、すなわち、ＣＰＵ２０１の制御によりゲイン可変アンプ２０９が行う増幅の度合いつまり増幅度のことである。

スピーカ２０８は、端末本体２０Ａから入力された音声信号を報知音や案内音声に変換して出力する。

また、受付端末２０の端末本体２０Ａには、患者それぞれが所持する周知のＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ（ＩＣ）カードである診察券３００（後述の図２参照）に対し、情報読み取りを行うリーダ２１３と、受付票３０１（後述の図２参照）の出力を行うプリンタ２１４とが接続されている。

図２は、受付端末２０の外観構造の一例を表す斜視図である。

図２において、受付端末２０は、上記タッチパネル２１０、上記マイク２０７、及び上記スピーカ２０８を有している。タッチパネル２１０は、水平に設置されるベース２１２に対してアーム２１１を介し支持されている。そして、このタッチパネル２１０は、表示面のなす方向がユーザすなわちこの例では患者の視線の方向に対して直角となるように、当該表示面が斜め上方を向いている。マイク２０７は、ベース２１２に対し先端を患者側へ向けるようにして略円弧状に配置されている。

リーダ２１３は、受付端末２０と例えばＵＳＢケーブル等からなる接続ケーブル２１６を介して接続されている。但し、無線接続でもよい。またリーダ２１３は、ユーザに係わる患者ＩＤを記録した診察券３００の、図示しないＩＣチップに対し、無線通信により患者ＩＤを含む情報の読み取りを行う。そして、ユーザ識別情報としての患者ＩＤを含む情報が読み取られると、受付端末２０に接続ケーブル２１６を介して当該情報が出力される。

プリンタ２１４は、受付端末２０と例えばＵＳＢケーブル等からなる接続ケーブル２１７を介して接続されている。但し、無線接続でもよい。また、プリンタ２１４は、受付処理が正当に終了された場合に、患者に係わる受付情報、例えば患者ＩＤ、氏名、診療科、診察室等を印字した受付票３０１の出力を行う。

図３は、タッチパネル２１０における表示画面の一例を表す図である。図３に示す画面においては、後述の描画プログラムによって生成された仮想人物Ｍが、背景Ｇとともに表示される。図３に示す画面は後述の受付処理が開始されると表示される。また、スピーカ２０８から発話される音声に対応する文章Ｌ（図中では「＊＊＊」で略記している）が併せて表示される。

図４は、タッチパネル２１０における表示画面の他の例を表す図である。図４に示す画面においては、後述の描画プログラムによって生成された、患者が指でタッチすることで操作入力可能な少なくとも１つの操作ボタンＢが背景Ｇ（図示では上記図３とは異なる背景の表示例を示している）とともに表示される。なお、各ボタンＢにはその内容が記載（図中では「＊＊＊」で略記している）されている。

図５は、タッチパネル２１０における表示画面のさらに他の例を表す図である。図５に示す画面においては、後述の描画プログラムによって生成された、患者が指でタッチすることで操作入力可能ないわゆるソフトウェアキーボードＳＢが表示される。ソフトウェアキーボードＳＢには、平仮名五十音をそれぞれ操作入力するためのかなボタンＳＢ１と、誤入力時に訂正するための「訂正」ボタンＳＢ２と、入力内容を確定させる「決定」ボタンＳＢ４と、現在の入力内容を表示する「入力内容」表示欄ＳＢ５とを備えている。

タッチパネル２１０は、上記の例を含む複数の画面を所定の順序で順次切り替えて表示可能となっている。

以上の構成において、例えば受付端末２０の電源がＯＮされた後、患者が診察券３００をリーダ２１３の通信範囲内にかざすことで、受付端末２０はリーダ２１３を介して診察券３００から患者ＩＤを取得して受付処理を開始する。すなわち、患者に対し、予め定められた複数の処理手順であるシナリオに沿って、端末本体２０Ａからの音声信号に基づき、スピーカ２０８から患者に関する所定の質問（詳細は後述）を所定の順序で出力する。またこのときタッチパネル２１０においても、上記スピーカ２０８からの出力に対応した所定の表示を行うようにしてもよい。

上記スピーカ２０８による出力やタッチパネル２１０における表示に応じて、患者が発話すると、受付端末２０は、対応する音声情報を含む音情報をマイク２０７を介して入力し、音声認識を行う。また、上記スピーカ２０８の出力やタッチパネル２１０の表示に応じて、患者がタッチパネル２１０の適宜の画面における各種ボタンを手動操作すると、対応する操作情報を入力する。

そして、受付端末２０は、上記音情報の音声認識結果及び上記操作情報の入力結果に応じて、プリンタ２１４から対応する受付票３０１の出力を行い、さらに患者により決定された診療科に設けられたプリンタ６０から対応する受付票の出力を行う。このときの受付票は、上記受付票３０１と同じでもよいし、別のものでもよい。あるいは、患者により決定された診療科に設けられたＰＣ端末５０に対し、上記受付票３０１と同様の内容の情報を出力するようにしてもよい。又は、両方行うようにしてもよい。このようにして、本実施形態の患者受付システム１は、病院における受付業務を自動的に行うことができる。

図６は、受付端末２０の機能的構成を示す機能ブロック図である。

図６において、受付端末２０の端末本体２０Ａは、制御回路部２００と、入出力（Ｉ／Ｏ）インタフェイス２０４と、ハードディスク装置（ＨＤＤ）２０５と、通信制御部２１５とを有している。

制御回路部２００は、ＣＰＵ２０１と、受付端末２０の基本的な動作に必要なプログラムやそのための設定値を記憶したＲＯＭ２０２と、各種データを一時的に記憶するＲＡＭ２０３とを備えている。ＣＰＵ２０１は、ＲＯＭ２０２や、ＨＤＤ２０５に記憶されたプログラムに従って、受付端末２０全体の動作を制御する。

Ｉ／Ｏインタフェイス２０４には、上記ＣＰＵ２０１と、上記ＨＤＤ２０５と、上記通信制御部２１５と、上記タッチパネル２１０と、上記ゲイン可変アンプ２０９と、上記スピーカ２０８と、上記プリンタ２１４と、ネットワーク（ＮＷ）カード２０６とが接続されている。

ＨＤＤ２０５には、患者による発話の音声認識に使用するための言語モデル記憶エリア２５２、上記言語モデルとともに音声認識に使用される辞書記憶エリア２５３、及びプログラム記憶エリア２５６を含む複数の記憶エリアを備えている。

言語モデル記憶エリア２５２には、患者による発話の認識に使用するための受理可能な文のパターンが、受付端末２０と患者との対話で想定される様々な場面に応じて予め作成され、言語モデルとして記憶されている。場面としては、例えば、受診する診療科をたずねる場面、希望する診察室をたずねる場面等が考えられる。言語モデルは、単語のつながり、すなわち単語間の結びつきに関する制約を定義するものである。代表的な言語モデルとして、例えば、単語間の結びつきを文法で記述する記述文法モデルと、単語間の結びつきを確率で定義する統計モデル（例えば、単語Ｎ−ｇｒａｍ）がある。これらの代表的な言語モデルのうち、記述文法モデルは、想定される文のパターンを、受理可能な文のパターンとして、予め人手で記述して定義するものである。したがって、記述される受理可能な文のパターンの数には限りがあるが、発話が、定義された文のパターンに対応していれば、高精度な音声認識が可能である。

プログラム記憶エリア２５６には、例えば、受付端末２０の各種動作を制御するための複数のプログラムが記憶されている。記憶されているプログラムとしては、例えば、受付端末２０の基本的な動作を制御するシステムプログラム、ＤＢサーバ１０との通信を制御する通信プログラム、タッチパネル２１０に表示する画像を生成する描画プログラム、音声認識を実行する音声認識プログラム、ＤＢサーバ１０のデータベースにアクセスし照合を行うためのＤＢ照合プログラム、音声合成プログラム、対話制御プログラム等がある。

なお、図示はされていないが、ＨＤＤ２０５には、その他、音声認識処理で一般的に使用される周知の音響モデルや、受付処理で使用される設定値等も記憶されている。なお、詳細は説明しないが、音響モデルは、音声の音響的特徴を統計的にモデル化したもので、例えば、母音、子音のそれぞれについて、例えば周波数特性などの音響的特徴と対応する音素とで表現されている。

通信制御部２１５は、上記リーダ２１３に上記接続ケーブル２１６を介して接続され、リーダ２１３により診察券３００に記憶された情報へアクセスすることを可能とする。

ＮＷカード２０６は、上記ルータ４０に接続され、ＤＢサーバ１０などとの間でデータの送受信を可能とするための拡張カードである。

図７は、ＤＢサーバ１０の機能的構成を表す機能ブロック図である。

図７に示すように、ＤＢサーバ１０は、ＣＰＵ１０１と、ＣＰＵ１０１に各々接続されたＲＯＭ１０２及びＲＡＭ１０３と、ＣＰＵ１０１に接続された入出力（Ｉ／Ｏ）インタフェイス１０４と、Ｉ／Ｏインタフェイス１０４にそれぞれ接続された、マウスコントローラ１０６、キーコントローラ１０７、ビデオコントローラ１０８、通信装置１０９、及び記憶手段としてのハードディスク装置（ＨＤＤ）１５０とを有している。

ＲＯＭ１０２は、ＢＩＯＳを含む、ＤＢサーバ１０を動作させるための各種のプログラムを記憶している。ＲＡＭ１０３は、各種データを一時的に記憶する。ＣＰＵ１０１は、ＲＯＭ１０２や、後述するＨＤＤ１５０に記憶されたプログラムに従って、ＤＢサーバ１０の全体の制御を司る。

マウスコントローラ１０６、キーコントローラ１０７、及びビデオコントローラ１０８には、それぞれマウス１１６、キーボード１１７、及びディスプレイ１１８が接続されている。通信装置１０９は、ルータ４０に接続され、受付端末２０等、外部機器との間でデータの送受信を行うことを可能とする。

ＨＤＤ１５０は、振幅情報データベース記憶エリア１５１、例えば患者ＩＤ、氏名、性別、年齢等の患者情報を格納する患者情報データベース記憶エリア１５７、及び、プログラム記憶エリア１５６を含む複数の記憶エリアを備えている。

振幅情報データベース記憶エリア１５１には、複数回の発話履歴における発話履歴情報を蓄積した振幅情報データベース１５１０（後述の図８参照）が記憶されている。詳細を後述するが、発話履歴情報は、音情報である発話音情報に対応した振幅情報を備えている。振幅情報は、この例では、マイク２０７に入力された患者の発話音声に基づき取得された発話振幅値を含む。

プログラム記憶エリア１５６には、システムプログラム、通信プログラム等、受付処理をＤＢサーバ１０に実行させるための各種プログラムが記憶されている。なお、これらのプログラムは、例えばＣＤ−ＲＯＭに記憶されたものが図示しないＣＤ−ＲＯＭドライブを介してインストールされ、プログラム記憶エリア１５６に記憶される。又は、適宜のネットワークを介してシステム外部からダウンロードされたプログラムが記憶されてもよい。

ここで、本実施形態の特徴は、患者の発話音声の振幅情報を上記振幅情報データベース１５１０に蓄積しておくこと；患者の受付処理時に患者ＩＤにより振幅情報データベース１５１０へアクセスし対応する振幅情報を取得すること；取得した振幅情報の発話振幅値Ａｃに関し振幅しきい値との比較を行いマイク２０７のゲインを増減制御すること；である。

（Ｉ）振幅情報データベース
まず、振幅情報データベース１５１０の記憶内容を図８に示す。

図８において、振幅情報データベース１５１０には、受付端末２０の操作履歴がある患者１名ごとに、患者ＩＤと、取得日時と、入力音量と、振幅情報である発話振幅値Ａｃとが、互いに予め対応付けられた発話履歴情報として、記憶されている。なお、図示を省略しているが、患者に関するその他の情報、例えば氏名、性別、年齢等を別途含むようにしてもよい

患者ＩＤは、各患者が所持する診察券３００に記憶された固有の識別情報であり、例えば「Ａ００００１」や「Ａ００００２」などである。

取得日時は、複数回の発話履歴のそれぞれの日時情報である。この例では、上記マイク２０７を介し上記発話音情報が取得された日時、例えば「２００７年４月１日１２時」や「２００７年５月１０日１５時」等となっている。なお、患者ＩＤが取得された日時としてもよい。

入力音量は、複数回の発話履歴のそれぞれの回における音量情報であり、マイク２０７を介し取得された時間平均の音量を表している。この例では、後述の図９に示すような、所定の時間間隔Ｔｃにおける発話音情報に対応した平均パワー、例えば「１」や「２」などの数値が記憶されている。

発話振幅値Ａｃは、複数回の発話履歴のそれぞれの回における患者の発話音声に対応した振幅値であり、マイク２０７を介し取得された時間平均の振幅値を表している。この例では、上記時間間隔Ｔｃにおける発話音情報に対応した平均の振幅値、例えば「５００」や「１０００」などの数値が記憶されている。

（ＩＩ）発話振幅値の算出、蓄積
以下、この発話振幅値Ａｃの算出及びその後の蓄積について説明する。

受付端末２０の受付処理の際、マイク２０７を介し入力された雑音や発話音声などの音は、対応する振幅あるいは周波数を含む音情報に変換される。この音情報は、アナログ信号、すなわち連続信号である。図９に、マイク２０７に入力された音に基づく音情報の音波形の一例を示す。この例では、それぞれ横軸に時間Ｔをとり、縦軸に音情報に対応した振幅値Ａをとった音波形の一例を示している。図示のように、音情報は、時系列で振幅値Ａが変化する連続した音波形で表すことができる。なお、振幅値Ａは例えばマイク２０７の入力電圧に対応している。

ここで、本実施形態では、上記の音情報が（ａ）雑音のみであるか、発話音声が含まれるか；（ｂ）発話音声が含まれる場合には、音声認識可能な振幅レベルに達しているか；を識別する。そして、その識別結果に応じて、発話振幅値Ａｃの取り扱いを区別している（詳細は後述）。

すなわちまず、本実施形態では、雑音の有無を識別するために、予め、マイク２０７に入力される雑音に基づく音情報に対応した振幅値Ａの平均振幅値が算出され、上記識別のためのしきい値として記憶されている。図９に示す例では、例えば、上記雑音の平均振幅値をＡ＝＋１００，−１００と設定している。すると、上記のようにして変換された音情報に対応した振幅値Ａが、上記雑音の平均振幅値Ａ＝＋１００より大きい値か、Ａ＝−１００より小さい値の場合には、上記入力された音に雑音以外の音、すなわち発話音声が含まれていると判断される。そして、このＡ＞１００又はＡ＜−１００となる区間である時間間隔Ｔａが、受付端末２０により発話音情報が取得される区間、言い換えれば、実際に患者が発話した発話区間、すなわち音声区間となる。

ここで、正確な音声認識を精度よく実行するためには、雑音以外の発話音声が認められた上記音声区間の中で、さらにあるレベル以上の振幅値が必要である。そこで本実施形態では、この音声認識可能なレベルの振幅値となる区間（以下適宜、「音声認識可能な区間」と称する）の検出が行われる。すなわち、本実施形態では、発話音情報に対応した振幅値Ａについて、音声認識可能な区間を検出するための所定の振幅値（以下適宜、「認識しきい値」と称する）が、予め記憶されている。図９に示す例では、この認識しきい値をＡ＝＋５００，−５００と設定している。すると、所定時間間隔Ｔ１、例えば０．１秒間において、上記のようにして変換された音情報に対応した振幅値Ａが、上記認識しきい値を超える値、すなわちＡ＝＋５００より大きい値か、Ａ＝−５００より小さい値となる振幅があるかどうかが判断される。上記のような振幅があった場合には、さらに、上記時間間隔Ｔ１において、当該振幅の零交差数Ｃが所定数、例えば６個を超えたかどうかが判断される。

零交差数Ｃとは、所定時間内において、音情報の振幅レベルが正から負及び負から正へと零レベルを交差する回数である。例えば、図９中（時間Ｔ方向）拡大図に示すように、所定の時間間隔Ｔｃにおける振幅の零交差数Ｃは、Ｃ＝８となっている。

そして、上記時間間隔Ｔ１において、音情報に対応した振幅値ＡがＡ＝＋５００より大きい値か、Ａ＝−５００より小さい値となる振幅の零交差数Ｃが、上記所定数を超えた場合には、音声認識可能な振幅値レベルに達していると判断され、その後の時点から、音声認識可能な区間の検出が開始される。図９に示す例では、上記時間間隔Ｔ１において、音情報に対応した振幅値ＡがＡ＝＋５００より大きい値か、Ａ＝−５００より小さい値となる振幅の零交差数Ｃが、上記所定数を超えた、最初の当該時間間隔Ｔ１が、時間間隔Ｔｃである場合を示している。

その後、上述の判断が行われ、音声認識可能な区間の検出が開始された後に、上記時間間隔Ｔ１において、音情報に対応した振幅値ＡがＡ＝＋５００より大きい値か、Ａ＝−５００より小さい値となる振幅がなかった場合、又は、当該振幅があっても、上記時間間隔Ｔ１において、当該振幅の零交差数Ｃが、上記所定数を超えなくなった場合には、音声認識可能な振幅値レベルに達していないと判断され、音声認識可能な区間の検出が終了される。図９に示す例では、音声認識可能な区間の検出が開始された後に、上記のように音声認識可能な振幅値レベルに達していないと判断された、最初の上記時間間隔Ｔ１が、時間間隔Ｔｄである場合を示している。

そして、このようにして検出された、上記時間間隔Ｔｃ以後で、上記時間間隔Ｔ１において、音情報に対応した振幅値ＡがＡ＝＋５００より大きい値か、Ａ＝−５００より小さい値となる振幅の零交差数Ｃが、上記所定数を超えている区間である時間間隔Ｔｂが、受付端末２０により発話音情報の音声認識が実行される区間となる。

このとき、本実施形態では、詳細には、上記時間間隔Ｔ１において、音情報に対応した振幅値ＡがＡ＝＋５００より大きい値か、Ａ＝−５００より小さい値となる振幅の零交差数Ｃが上記所定数を超えたら、その時点で、対応する発話振幅値Ａｃを算出する。具体的には、本実施形態においては、図９に示すように、上記時間間隔Ｔ１において、音情報に対応した振幅値ＡがＡ＝＋５００より大きい値か、Ａ＝−５００より小さい値となる振幅の零交差数Ｃが、上記所定数を超えた、最初の上記時間間隔Ｔ１、すなわち時間間隔Ｔｃにおける振幅値Ａの平均値を、発話振幅値Ａｃとする。なお、この図９に示したように、音声認識可能な区間が検出される場合においては、上記認識しきい値、この例ではＡ＝＋５００，−５００が、所定の振幅レベルしきい値に相当する。

このように発話振幅値Ａｃが算出されると、当該発話振幅値Ａｃを含む振幅情報が、患者ＩＤ、取得日時、及び入力音量と対応付けられて、図８に示した振幅情報データベース１５１０に記憶される。すなわち、その振幅情報が、対応する患者ＩＤに対する新たなデータとして追加され、その追加された態様で振幅情報データベース１５１０が更新されるのである。このようにして、受付端末２０により受付処理が行われるたびに、言い換えれば患者が発話するたびに、振幅情報データベース１５１０に、上記発話振幅値Ａｃを含む振幅情報等の発話履歴情報が記憶、蓄積される。但し、この際、振幅情報データベース１５１０の最後の更新日時から所定の期間（詳細は後述）が経過していない場合には、算出された発話振幅値Ａｃの値は振幅情報データベース１５１０に記憶された最新のデータ内容とほとんど変わらないと見なし、更新は行われない。

ところで、上記図９は、音情報の取得後、音声認識可能な区間の検出ができた場合の音波形の一例である。前述したように、音情報の取得はできたが音声認識可能な区間の検出ができなかった場合の音波形の一例を、図１０に示す。図１０に示すように、上記音声認識可能な区間を検出できない場合は、図９の場合と異なり、取得された音情報のうち、上記時間間隔Ｔ１において、音情報に対応した振幅値Ａが、上記雑音の平均振幅値を超える値、すなわちＡ＝＋１００より大きい値か、Ａ＝−１００より小さい値となる振幅の零交差数Ｃが、上記所定数を超えた、最初の上記時間間隔Ｔ１における振幅値Ａの平均値を、発話振幅値Ａｃとする。この例では、当該最初の時間間隔Ｔ１が、時間間隔Ｔｃ′である場合を示している。なお、図１０中（時間Ｔ方向）拡大図に示すように、この時間間隔Ｔｃ′における振幅の零交差数Ｃは、上記図９に示す時間間隔Ｔｃにおける振幅の零交差数Ｃと同様、Ｃ＝８となっている。また、この図１０に示したように、上記図９と異なり、音声認識可能な区間が検出されない場合においては、上記雑音の平均振幅値、この例ではＡ＝＋１００，−１００が、所定の振幅レベルしきい値に相当する。

但し、この場合は、上記図９の場合と異なり、振幅情報データベース１５１０の最後の更新日時からの経過時間に関係なく、この発話振幅値Ａｃを含む振幅情報が新たなデータとして必ず追加され、振幅情報データベース１５１０が更新される。

（ＩＩＩ）データベースからの発話振幅値の取得、平均値の算出
上記のようにして、過去の来訪時における患者の振幅情報が振幅情報データベース１５１０に既に蓄積された状態で、当該患者が病院に来院し、前述のリーダ２１３の通信範囲内に診察券３００をかざすと、当該診察券３００から情報が読み取られ、患者ＩＤが取得される。これにより、振幅情報データベース１５１０へアクセスされ、振幅情報データベース１５１０内に蓄積された、複数の発話振幅値Ａｃを含む振幅情報が取得される。そしてそれら取得された複数の発話振幅値Ａｃの平均値が算出される。

発話振幅値Ａｃの平均値の算出の手法を図１１により説明する。この図１１では、上記リーダ２１３を介して患者の診察券３００から取得された患者ＩＤが、「Ａ００００１」であった場合を示している。

図１１において、上記のようにして患者ＩＤ（この例では「Ａ００００１」）が取得されると、図８に示す振幅情報データベース１５１０へアクセスされ、当該患者ＩＤをキーとして、振幅情報データベース１５１０内を参照し、対応する複数の、この例では１０個の、発話振幅値Ａｃが取得される。これにより、当該取得された１０個の発話振幅値Ａｃの平均値Ａａｖｅの算出が行われる。

すなわち、この例では、上記平均値Ａａｖｅは、
Ａａｖｅ＝（５００＋１０００＋１２００＋１２００＋１０００＋１０００＋９００＋９００＋１０００＋１０００）／１０＝９７０
と算出される。

（ＩＶ）振幅判定、及び、その判定結果に基づくゲイン制御等
上記のようにして発話振幅値の平均値Ａａｖｅが算出されることにより、当該患者の発話特性、すなわち、発話振幅値が比較的大きく発話音量が比較的大きい傾向にある人か、発話振幅値が比較的小さく発話音量が比較的小さい傾向にある人か、を特定することが可能となる。そして、本実施形態では、まず、算出された発話振幅値の平均値Ａａｖｅを、所定のモード切り替え用しきい値と比較する。

図１２は、上記算出された平均値Ａａｖｅと、所定のモード切替用しきい値との比較結果、及び、当該比較結果に応じた処理を説明した説明図である。

図１２において、上記のような手法により算出された平均値Ａａｖｅと、所定のモード切替用しきい値Ａｔ０とが比較される。この例では、モード切替用しきい値Ａｔ０は、先にＡ＝＋１００，−１００の設定例を示した雑音の平均振幅値よりも少し大きい値となっている。そして、当該比較結果に応じた入力モード、すなわち、音声認識モード又はタッチパネル操作モードのいずれかに切り替えが行われる。

すなわち、上記比較結果が、Ａａｖｅ＞Ａｔ０であった場合、比較的大きな発話音量が期待できることから、上記ゲインの制御を行えば、マイク２０７に入力される発話音声の音声認識によって当該患者からの受付情報を取得できる可能性が高い。したがって、この場合は、入力モードが、患者の発話音声に基づき受付処理を行う第１モードとしての音声認識モードに切り替えられる。そして、上記平均値Ａａｖｅと、後述する所定の振幅しきい値との比較がさらに行われ、その比較結果に応じて、予め定められた制御態様により、上記ゲインが増減制御される（詳細は後述）。このようにゲインが増減制御された音声認識モードにより、後述の各シナリオに沿った受付処理において、スピーカ２０８を介し出力される所定の案内音声や質問に応じた患者の発話音声に基づき、上記受付情報が取得されるのである。

一方、上記比較結果が、Ａａｖｅ≦Ａｔ０であった場合、発話音量が非常に小さく、上記ゲインの制御を行っても音声認識漏れを起こす可能性が高く、上記受付情報を取得できる可能性は低い。したがって、この場合は、入力モードが、患者の手動操作に基づき受付処理を行う第２モードとしてのタッチパネル操作モードに切り替えられる。このタッチパネル操作モードでは、後述の各シナリオに沿った受付処理において、患者がタッチパネル２１０に表示された各種操作ボタンを手動操作することにより、上記受付情報が取得される。

図１３は、以上のようにして実行される受付処理における各シナリオの一例を概念的に説明した説明図である。

図１３において、前述したように、本実施形態における受付処理は、予め定められた複数のシナリオに沿って実行される。この例では、複数のシナリオとして、シナリオ１〜シナリオ５が設けられている場合を示している。これらの複数のシナリオは、シナリオ１（待ち受け画面。初期画面）→シナリオ２→シナリオ３→シナリオ４→シナリオ５の順序で実行される。

「主体」は、各シナリオにおける発話主体又は操作主体を表しており、システム又は患者のどちらかである。主体がシステムである場合には、受付端末２０は、スピーカ２０８を介し所定の案内音声を出力する。なお、さらにタッチパネル２１０に案内音声と同様の内容の表示も行うようにしてもよい。主体が患者である場合には、患者は、上記のスピーカ２０８を介し出力された所定の案内音声に応じて、発話又はタッチパネル２１０を介しての手動操作を行う。

「内容」は、上記主体がシステムの場合は受付端末２０がスピーカ２０８を介し出力する所定の案内音声やタッチパネル２１０における表示の内容の一例を表している。上記主体が患者の場合は、上記のスピーカ２０８を介し出力された所定の案内音声に応じて発話又は手動操作する内容の一例を表している。

なお、この例では、前述した平均値Ａａｖｅの算出、入力モードの切り替え、及びゲインの増減制御は、シナリオ１とシナリオ２との間に行われる（図示せず）。また、この例では、前述の振幅情報データベース１５１０の更新は、シナリオ２とシナリオ３との間、シナリオ３とシナリオ４との間、及びシナリオ４とシナリオ５との間に行われる（図示せず）。

図１４は、以上説明した内容を実現するために、受付端末２０の制御回路部２００により実行する制御手順を表すフローチャートである。なお、このフローに示す処理は、ＨＤＤ２０５のプログラム記憶エリア２５６に記憶された患者受付処理用のプログラム群、すなわち前述のシステムプログラム、通信プログラム、描画プログラム、音声認識プログラム、ＤＢ照合プログラム等に従って、ＣＰＵ２０１が実行するものである。

図１４において、例えば受付端末２０の電源ＯＮによって、このフローが開始される（「ＳＴＡＲＴ」位置）。まずステップＳ５で、タッチパネル２１０に表示信号を出力し、「診察券をタッチしてください」の旨のテキストを含む待ち受け状態の画面、すなわち初期画面を表示させる。

その後、ステップＳ１０で、Ｉ／Ｏインタフェイス２０４、通信制御部２１５、接続ケーブル２１６、及びリーダ２１３を介し、診察券３００に記憶された情報を読み取るための読み取り信号を送信し、情報の読み取りを行う。

そして、ステップＳ１５で、診察券３００から上記ステップＳ１０で送信した読み取り信号に対応する応答（リプライ）信号を、リーダ２１３、接続ケーブル２１６、通信制御部２１５、及びＩ／Ｏインタフェイス２０４を介して受信したかどうかを判定する。診察券３００から応答信号を受信しない場合、すなわち患者により診察券３００がリーダ２１３の通信範囲内にかざされていない場合には、判定が満たされず上記ステップＳ１０に戻り、再び上記読み取り信号の送信を繰り返す。そして、診察券３００から応答信号を受信した場合、すなわち患者により診察券３００がリーダ２１３の通信範囲内にかざされた場合には、判定が満たされてステップＳ２０に移る。

ステップＳ２０では、上記ステップＳ１５で受信した応答信号に基づき、診察券３００に記憶された患者ＩＤを取得する。このステップが、識別情報取得手段として機能する。

その後、ステップＳ２５で、ＤＢサーバ１０の患者情報データベース記憶エリア１５７に記憶された患者情報データベースにアクセスする。そして、上記ステップＳ２０で取得された患者ＩＤをキーとして、患者情報データベース内を参照し、対応する氏名、性別、年齢等の患者情報を取得し、患者が誰であるかを特定する。

そして、ステップＳ１００で、上記入力モードの切り替えを行うモード切替処理（詳細は後述の図１５参照）を実行する。

その後、ステップＳ３０で、上記ステップＳ１００で切り替えられた入力モードが音声認識モードであるかどうかを判定する。音声認識モードである場合には、判定が満たされてステップＳ１５０に移る。

ステップＳ１５０では、所定の判定結果（後述）に応じて上記ゲインの増減制御を行うゲイン制御処理（詳細は後述の図１６参照）を実行する。

そして、ステップＳ３５で、上記音声認識モードに対応し、上述したシナリオに沿う、音声認識を用いた受付処理を開始する。

その後、ステップＳ２００で、上記振幅情報データベース１５１０に情報を記憶させ、更新を行うＤＢ更新処理（詳細は後述の図１７参照）を実行する。

そして、ステップＳ４０で、上記ステップＳ３５で開始された音声認識による受付処理が終了しているかどうかを判定する。まだ受付処理が継続中である場合には、判定が満たされず上記ステップＳ２００に戻り、同様の手順を繰り返し、受付処理が終了したら、判定が満たされて後述のステップＳ６０に移る。

一方、上記ステップＳ３０において、上記ステップＳ１００で切り替えられた入力モードがタッチパネル操作モードであった場合には、ステップＳ３０の判定が満たされずステップＳ４５に移る。

ステップＳ４５では、上記タッチパネル操作モードに対応し、上述したシナリオに沿う、タッチパネル２１０を介しての手動操作に基づく受付処理を開始する。

その後、ステップＳ５０で、ＤＢサーバ１０の振幅情報データベース１５１０にアクセスし、上記ステップＳ２０での患者ＩＤの取得日時、及び、入力モードがタッチパネル操作モードである旨の情報を、当該患者ＩＤと対応付けて記憶させ、振幅情報データベース１５１０を更新する。

そして、ステップＳ５５で、上記ステップＳ４５で開始されたタッチパネル２１０を介しての手動操作による受付処理が終了しているかどうかを判定する。受付処理が継続中である場合には、判定が満たされずループ待機し、受付処理が終了したら、判定が満たされてステップＳ６０に移る。

ステップＳ６０では、所定の終了操作、例えば受付端末２０の電源ＯＦＦ操作が行われたかどうかを判定する。終了操作が行われていない場合には、判定が満たされずステップＳ５に移り、同様の手順を繰り返す。終了操作が行われていた場合には、判定が満たされて、このフローを終了する。

図１５は、上記図１４のステップＳ１００の詳細手順の一例を表すフローチャートである。

図１５において、まずステップＳ１０５では、ＤＢサーバ１０の振幅情報データベース１５１０にアクセスし、振幅情報データベース１５１０内に、上記図１４のステップＳ２０で取得された患者ＩＤに対応する発話履歴情報が記憶されているかどうかを判定する。上記発話履歴情報が記憶されていない場合には、判定が満たされず後述のステップＳ１２５に移る。上記発話履歴情報が記憶されている場合には、判定が満たされてステップＳ１１０に移る。

ステップＳ１１０では、振幅情報データベース１５１０に記憶された、上記図１４のステップＳ２０で取得された患者ＩＤに対応する、複数回の発話履歴のそれぞれの回の発話振幅値Ａｃを含む振幅情報を取得する。このステップが振幅情報取得手段として機能する。

その後、ステップＳ１１５で、先に図１１を用いて説明したように、上記ステップＳ１１０で取得された振幅情報に含まれる複数の発話振幅値Ａｃの平均値Ａａｖｅを算出する。このステップが平均値算出手段として機能する。

そして、ステップＳ１２０で、上記ステップＳ１１５で算出された平均値Ａａｖｅと、上記モード切替用しきい値Ａｔ０とを比較し、Ａａｖｅ＞Ａｔ０であるかどうかを判定する。Ａａｖｅ＞Ａｔ０である場合には、判定が満たされてステップＳ１２５に移り、上記入力モードを音声認識モードに切り替える。その後、このルーチンを終了する。

一方、上記ステップＳ１２０において、Ａａｖｅ≦Ａｔ０であった場合には、ステップＳ１２０の判定が満たされずステップＳ１３０に移り、上記入力モードをタッチパネル操作モードに切り替える。そして、このルーチンを終了する。

図１６は、上記図１４のステップＳ１５０の詳細手順を表すフローチャートである。

図１６において、まずステップＳ１５５では、上記図１５のステップＳ１１５における上記平均値Ａａｖｅの算出の手順が行われていたかどうか、言い換えれば、上記図１５のステップＳ１０５での判定が満たされていたかどうかを判定する。上記ステップＳ１１５における上記平均値Ａａｖｅの算出の手順が行われていなかった場合、すなわちステップＳ１０５の判定が満たされていなかった場合には、ステップＳ１５５の判定が満たされず、このルーチンを終了する。一方、上記ステップＳ１１５における上記平均値Ａａｖｅの算出の手順が行われていた場合、すなわちステップＳ１０５の判定が満たされていた場合には、ステップＳ１５５の判定が満たされてステップＳ１６０に移る。

ステップＳ１６０では、上記図１５のステップＳ１１５で算出された上記平均値Ａａｖｅと、所定の振幅しきい値としての第１振幅しきい値Ａｔ１とを比較し、Ａａｖｅ＜Ａｔ１であるかどうかを判定する。第１振幅しきい値Ａｔ１は、この例では上記モード切替用しきい値Ａｔ０よりも大きく、上記認識しきい値よりも小さい値である。Ａａｖｅ＜Ａｔ１である場合には、判定が満たされてステップＳ１６５に移る。

ステップＳ１６５では、上記ゲインを値Ｇ１に設定する。この例ではＧ１＞１であり、例えばＧ１＝２０である。これにより、マイク２０７に音が入力され音情報に変換されると、当該音情報は、ゲイン可変アンプ２０９によって、上記設定されたゲインの値Ｇ１に基づき、例えば２０倍に増幅される。その後、このルーチンを終了する。

一方、上記ステップＳ１６０において、比較結果が、Ａａｖｅ≧Ａｔ１であった場合には、ステップＳ１６０の判定が満たされずステップＳ１７０に移る。

ステップＳ１７０では、上記図１５のステップＳ１１５で算出された上記平均値Ａａｖｅと、所定の振幅しきい値としての第２振幅しきい値Ａｔ２とを比較し、Ａａｖｅ＜Ａｔ２であるかどうかを判定する。第２振幅しきい値Ａｔ２はこの例では上記第１振幅しきい値Ａｔ１よりも大きく、上記認識しきい値とほぼ同じ大きさの値である。Ａａｖｅ＜Ａｔ２である場合には、判定が満たされてステップＳ１７５に移る。

ステップＳ１７５では、上記ゲインを値Ｇ２に設定する。この例ではＧ１＞Ｇ２＞１であり、例えばＧ２＝１０である。これにより、マイク２０７に音が入力され音情報に変換されると、当該音情報は、ゲイン可変アンプ２０９によって、上記設定されたゲインの値Ｇ２に基づき、例えば１０倍に増幅される。その後、このルーチンを終了する。

一方、上記ステップＳ１７０において、比較結果が、Ａａｖｅ≧Ａｔ２であった場合には、ステップＳ１７０の判定が満たされずステップＳ１８０に移る。

ステップＳ１８０では、上記図１５のステップＳ１１５で算出された上記平均値Ａａｖｅと、上記第２振幅しきい値Ａｔ２とを比較し、Ａａｖｅ＝Ａｔ２であるかどうかを判定する。Ａａｖｅ＝Ａｔ２である場合には、判定が満たされてステップＳ１８５に移る。

ステップＳ１８５では、上記ゲインを１に設定する。これにより、マイク２０７に音が入力され音情報に変換されると、当該音情報は、ゲイン可変アンプ２０９によるゲインの増幅が実質的になされずに、端末本体２０Ａに入力される。その後、このルーチンを終了する。

一方、上記ステップＳ１８０において、比較結果が、Ａａｖｅ＞Ａｔ２であった場合には、ステップＳ１８０の判定が満たされずステップＳ１９０に移る。

ステップＳ１９０では、上記図１５のステップＳ１１５で算出された上記平均値Ａａｖｅと、所定の振幅しきい値としての第３振幅しきい値Ａｔ３とを比較し、Ａａｖｅ＜Ａｔ３であるかどうかを判定する。第３振幅しきい値Ａｔ３はこの例では上記第２振幅しきい値Ａｔ２及び上記認識しきい値よりも大きい値である。比較結果が、Ａａｖｅ＜Ａｔ３である場合には、判定が満たされてステップＳ１９５に移る。

ステップＳ１９５では、上記ゲインを値Ｇ３に設定する。この例では０＜Ｇ３＜１であり、例えばＧ３＝０．１である。これにより、マイク２０７に音が入力され音情報に変換されると、当該音情報は、ゲイン可変アンプ２０９によって、上記設定されたゲインの値Ｇ３に基づき、例えば０．１倍に増幅される。言い換えれば１／１０に減衰される。その後、このルーチンを終了する。

一方、上記ステップＳ１９０において、比較結果が、Ａａｖｅ≧Ａｔ３であった場合には、ステップＳ１９０の判定が満たされずステップＳ１９７に移る。

ステップＳ１９７では、上記ゲインを値Ｇ４に設定する。この例では０＜Ｇ４＜Ｇ３であり、例えばＧ４＝０．０５である。これにより、マイク２０７に音が入力され音情報に変換されると、当該音情報は、ゲイン可変アンプ２０９によって、上記設定されたゲインの値Ｇ４に基づき、例えば０．０５倍に増幅される。言い換えれば１／２０に減衰される。その後、このルーチンを終了する。

図１７は、上記図１４のステップＳ２００の詳細手順を表すフローチャートである。

図１７において、まずステップＳ２０５で、前述の雑音の平均振幅値よりも大きい振幅値Ａを持った音情報、言い換えれば、患者の発話音声に基づく発話音情報が、マイク２０７を介して入力されたかどうかを判定する。図９及び図１０の例では、Ａ＞１００又はＡ＜−１００になる音情報が入力されたかどうかの判定となる。当該音情報がマイク２０７を介し入力されていない場合、すなわち発話音情報が入力されていない場合には、判定が満たされず、このルーチンを終了する。当該音情報がマイク２０７を介し入力された場合、すなわち発話音情報が入力された場合には、判定が満たされてステップＳ２１０に移る。

ステップＳ２１０では、マイク２０７を介し入力された患者の発話音声を含む音により、対応する振幅あるいは周波数を含む発話音情報を取得する。このステップが音取得手段として機能する。

その後、ステップＳ２１５で、前述の図９で説明した手法により、上記ステップＳ２１０で取得された発話音情報に基づき、前述の音声認識可能な区間が検出できたかどうかを判定する。音声認識可能な区間が検出できた場合には判定が満たされ、公知の音声認識処理を実行開始した後、ステップＳ２２０に移る。

ステップＳ２２０では、振幅情報データベース１５１０に記憶された、上記図１４のステップＳ２０で取得された患者ＩＤに係る最新の発話履歴情報の取得日時すなわち最後の更新日時から、上記ステップＳ２０で患者ＩＤを取得した最新の取得日時すなわち今回の受付処理での患者ＩＤの取得日時までの経過期間が、所定の更新用しきい値に達したかどうかを判定する。すなわち図８に示す例では、上記患者ＩＤを「Ａ００００１」とすると、「２００９年４月３日１０時」からの経過期間が、例えば第２経過期間としての２週間に達したかどうかを判定する。このステップが更新判定手段として機能する。上記経過時間が上記更新用しきい値に達していない場合には、判定が満たされず、このルーチンを終了する。上記経過時間が上記更新用しきい値に達していた場合には、判定が満たされてステップＳ２２５に移る。

ステップＳ２２５では、上記ステップＳ２１０で取得された発話音情報に基づき、対応する発話振幅値Ａｃを算出する。具体的には、前述の図９で説明したように、上記ステップＳ２１０で取得された発話音情報のうち、上記時間間隔Ｔ１において、発話音情報に対応した振幅値Ａが上記認識しきい値を超えた振幅の零交差数Ｃが、上記所定数を超えた、最初の上記時間間隔Ｔ１（前述の例では時間間隔Ｔｃ）における発話音情報に対応した振幅値Ａの平均値を算出する。算出された当該最初の上記時間間隔Ｔ１における振幅値Ａの平均値が発話振幅値Ａｃに相当する。その後、後述のステップＳ２３０に移る。

一方、上記ステップＳ２１５において、音声認識可能な区間が検出できなかった場合には、ステップＳ２１５の判定が満たされず、ステップＳ２２６に移る。

ステップＳ２２６では、上記ステップＳ２１０で取得された発話音情報に基づき、対応する発話振幅値Ａｃを算出する。具体的には、前述の図１０で説明したように、上記ステップＳ２１０で取得された発話音情報のうち、上記時間間隔Ｔ１において、発話音情報に対応した振幅値Ａが上記雑音の平均振幅値を超えた振幅の零交差数Ｃが、上記所定数を超えた、最初の上記時間間隔Ｔ１（前述の例では時間間隔Ｔｃ′）における発話音情報に対応した振幅値Ａの平均値を算出する。算出された当該最初の上記時間間隔Ｔ１における振幅値Ａの平均値が発話振幅値Ａｃに相当する。

そして、ステップＳ２３０で、ＤＢサーバ１０の振幅情報データベース１５１０にアクセスし、上記ステップＳ２１０での発話音情報の取得日時、当該発話音情報に対応する音量、及び上記ステップＳ２２５又はステップＳ２２６で算出された発話振幅値Ａｃを、上記図１４のステップＳ２０で取得された患者ＩＤと対応付けて記憶させ、振幅情報データベース１５１０を更新する。その後、このルーチンを終了する。

なお、上記において、図１５のステップＳ１２０と、図１６に示すステップＳ１６０、ステップＳ１７０、ステップＳ１８０、及びステップＳ１９０とが、各請求項記載の振幅比較手段として機能する。また、図１６に示すステップＳ１６５、ステップＳ１７５、ステップＳ１８５、ステップＳ１９５、及びステップＳ１９７が、感度制御手段として機能する。さらに、図１４に示すステップＳ５０及び図１７に示すステップＳ２３０が、振幅情報更新手段として機能し、図１５に示すステップＳ１２５及びステップＳ１３０が、モード切替手段として機能する。

以上説明したように、本実施形態の受付端末２０においては、患者が診察券３００をリーダ２１３の通信範囲内にかざすと、リーダ２１３を介して診察券３００に対し情報読み取りを行い、患者ＩＤを取得する。そして、このようにして患者ＩＤが取得されると、図８の振幅情報データベース１５１０にアクセスし、上記取得した患者ＩＤに対応した上記振幅情報を取得する。そして、この取得された振幅情報に含まれる発話振幅値Ａｃと、所定の振幅しきい値、上記の例では、第１振幅しきい値Ａｔ１、第２振幅しきい値Ａｔ２、及び第３振幅しきい値Ａｔ３とを対比させ、その比較結果に応じた制御態様により、上記ゲインを増減制御する。

これにより、発話振幅値Ａｃが比較的大きく発話音量が比較的大きい傾向にある患者に対しては、発話音声が比較的大きいレベルで入力されることから上記ゲインを前述のＧ３，Ｇ４のように低い値とすることができる。逆に、発話振幅値Ａｃが比較的小さく発話音量が比較的小さい傾向にある患者に対しては、発話音声が比較的小さいレベルで入力されることから上記ゲインを前述のＧ１，Ｇ２のように高い値とすることができる。

このように、各患者の発話態様に応じ、適切な信号レベルで音情報を取得して処理を行えるので、音声認識漏れのない確実な受付処理を行うことができる。

また、本実施形態では特に、上記時間間隔Ｔ１において、所定の振幅レベルしきい値、すなわち上記の例では、上記音声認識可能な区間が検出できた場合には上記認識しきい値、上記音声認識可能な区間が検出できなかった場合には上記雑音の平均振幅値、を超える振幅の零交差数Ｃが所定数を超えた、最初の当該時間間隔Ｔ１における発話振幅値Ａｃを含む振幅情報を取得する。これにより、患者の発話音声のうち、話し始めの発話音声に基づく発話音情報に対応した振幅情報を取得することができるので、患者の話し始めの発話音声についても確実に漏れなくゲイン制御を行うことができる。

また、本実施形態では特に、患者による複数回の過去の発話履歴における発話振幅値Ａｃを含む振幅情報を取得し、その取得された複数の発話振幅値Ａｃの平均値Ａａｖｅを算出し、その算出された平均値Ａａｖｅと、上記振幅しきい値Ａｔ１，Ａｔ２，Ａｔ３との比較を行う。これにより、各患者の発話態様の定性的な傾向を確実に反映した高精度なゲイン制御を行うことができるので、確実に音声認識漏れを防止することができる。

また、本実施形態では特に、患者の発話音声に基づきマイク２０７を介し取得された発話音情報に対応した振幅情報を、当該患者に対応した患者ＩＤと対応付けて記憶させ、振幅情報データベース１５１０を更新する。これにより、患者の発話音声に基づき取得した発話音情報に対応した振幅情報を、当該患者に関する最新の発話履歴として振幅情報データベース１５１０に蓄積することができる。この結果、当該患者に対する次回の受付処理において、最新の発話傾向を確実に反映させたゲイン制御を行うことができる。

ここで、患者の発話傾向は個性やクセ等に基づくものであり、短期間にそう大きく変化するものではない場合が多い。そこで、これに対応して、本実施形態では特に、上記最後の更新日時から、患者の診察券３００よりリーダ２１３を介して患者ＩＤを取得した最新の取得日時までの経過期間が、上記更新用しきい値、前述の例では２週間に達したかどうかをステップＳ２２０で判定する。そして、当該経過期間が上記更新用しきい値に達したと判定された場合に、ステップＳ２２５及びステップＳ２３０において振幅情報データベース１５１０の更新を行う。このように、マイク２０７を介して新たな発話音情報が取得されるたびに振幅情報データベース１５１０を更新するのではなく、振幅情報データベース１５１０に記憶された上記最後の更新日時から所定の経過期間が過ぎた場合にのみ更新を行うようにする。これにより、あまり意味のない振幅情報データベース１５１０の更新を頻繁に行う無駄を避けることができる。逆に、上記経過期間が経過した場合には必ず振幅情報データベース１５１０の更新を行うようにすることで、実効的なデータベース更新を確実に実施して精度よいゲイン制御を行うことができる。

また、本実施形態では特に、上記算出された平均値Ａａｖｅと、所定のモード切替用しきい値Ａｔ０との比較を行い、その比較結果に応じて、上記音声認識モードと、上記タッチパネル操作モードとを切り替える。これにより、各患者の発話態様に応じたモードに切り替えることができ、発話音量が非常に小さいレベルで入力される患者については、正確な受付処理を優先し、手動操作に基づく受付処理へと確実に切り替えることができる。

なお、本発明は、上記実施形態に限られるものではなく、その趣旨及び技術的思想を逸脱しない範囲内で種々の変形が可能である。以下、そのような変形例を順を追って説明する。

（１）発話振幅値に重み付けを設定する場合
上記実施形態では、振幅情報データベース１５１０に記憶された複数の発話振幅値Ａｃをそのまま用いて、上記平均値Ａａｖｅを算出していたが、これに限られない。すなわち、上記複数の発話振幅値Ａｃに対して、振幅情報データベース１５１０を更新してからの経過時間の長さに応じた重み付けをそれぞれ設定して、それぞれの重み付けが設定された複数の発話振幅値Ａｃの平均値を算出するようにしてもよい。

図１８は、各発話振幅値Ａｃに対する上記重み付けの設定の手法、及び、それぞれの重み付けが設定された複数の発話振幅値Ａｃの平均値の算出の手法を説明した説明図である。この図１８は、前述の図１１に対応する図である。この図１８では、上記リーダ２１３を介して患者の診察券３００から取得された患者ＩＤが、「Ａ００００１」であった場合を示している。

図１８において、前述のようにして患者ＩＤ、この例では「Ａ００００１」が取得されると、図８に示す振幅情報データベース１５１０へアクセスされる。そして、当該患者ＩＤをキーとして、振幅情報データベース１５１０内を参照し、対応する複数の、この例では１０個の発話振幅値Ａｃを含む振幅情報が、それぞれに対応する取得日時とともに取得される。

そして、上記取得されたそれぞれの取得日時から上記患者ＩＤが取得された最新の取得日時までの経過時間の長さに応じて、すなわち過去の受付処理での発話音情報の取得日時から今回の受付処理での患者ＩＤの取得日時までの第１経過時間の長さに応じて、対応する発話振幅値Ａｃに対して、それぞれ第１重み付けとしての重み付けＷが設定される。

図１８に示す例では、振幅情報データベース１５１０に記憶され最下段に図示される、最新の取得日時である２００９年４月３日１０時に対応した発話振幅値Ａｃの重み付けＷは、Ｗ＝１と設定されている。また、下から２段目に図示され、２番目に新しい取得日時である２００９年１月７日１５時に対応した発話振幅値Ａｃの重み付けＷは、Ｗ＝０．９と設定されている。以下同様に続き、最上段に図示され、最古の取得日時である２００７年４月１日１２時に対応した発話振幅値Ａｃの重み付けＷは、Ｗ＝０．１と設定されている。

そして、上記各発話振幅値Ａｃに対して設定された重み付けＷは、対応する各発話振幅値Ａｃに対して乗じる形で付与（設定）され、重み付けＷが設定された発話振幅値Ａｃ′が算出される。以下適宜、このような重み付け設定後の発話振幅値を「第１重み付け振幅値Ａｃ′」のように称する。

図１８に示す例では、２００９年４月３日１０時に係る第１重み付け振幅値Ａｃ′はＡｃ′＝１０００×１＝１０００と算出され、２００９年１月７日１５時に係る第１重み付け振幅値Ａｃ′はＡｃ′＝１０００×０．９＝９００と算出され、同様に続き、２００７年４月１日１２時に係る第１重み付け振幅値Ａｃ′はＡｃ′＝５００×０．１＝５０と算出されている。

このようにして、振幅情報データベース１５１０から取得された各発話振幅値Ａｃに対して、それぞれ上記重み付けＷを加味した各第１重み付け振幅値Ａｃ′が算出された後、複数の、この例では１０個の第１重み付け振幅値Ａｃ′の平均値Ａａｖｅ′の算出が行われる。

すなわち、この例では、上記平均値Ａａｖｅ′は、
Ａａｖｅ′＝（５０＋２００＋３６０＋４８０＋５００＋６００＋６３０＋７２０＋９００＋１０００）／（０．１＋０．２＋０．３＋０．４＋０．５＋０．６＋０．７＋０．８＋０．９＋１）＝９８９．１
と算出される。

ここで、本変形例の受付端末２０の制御回路部２００により実行する制御手順において、前述の図１４と異なる点は、ステップＳ１００及びステップＳ１５０であり、その他の手順は図１４の各手順と同様である。以下、図１９を用いて、本変形例におけるステップＳ１００相当のステップＳ１００′の詳細手順を説明する。

図１９は、上記ステップＳ１００′の詳細手順を表すフローチャートである。この図１９は、前述の図１５に対応する図である。図１５と同等の手順には同符号を付し説明を省略する。

図１９において、前述の図１５と異なる点は、ステップＳ１１０、ステップＳ１１５、及びステップＳ１２０に代えて、ステップＳ１１０′、ステップＳ１１５′、及びステップＳ１２０′を設け、さらにステップＳ１１０に代えて設けたステップＳ１１０′と、ステップＳ１１５に代えて設けたステップＳ１１５′との間に、新たにステップＳ１１２及びステップＳ１１４を設けた点である。

すなわち、前述の図１５と同様のステップＳ１０５において、振幅情報データベース１５１０内に、前述の図１４のステップＳ２０で取得された患者ＩＤに対応する発話履歴情報が記憶されているかどうかを判定し、当該発話履歴情報が記憶されている場合には、判定が満たされてステップＳ１１０に代えて設けたステップＳ１１０′に移る。

ステップＳ１１０′では、上記ステップＳ１１０と同様、振幅情報データベース１５１０に記憶された、前述の図１４のステップＳ２０で取得された患者ＩＤに対応する、複数回の発話履歴のそれぞれの回の発話振幅値Ａｃを含む振幅情報を、それぞれ対応する取得日時とともに取得する。このステップが振幅情報取得手段として機能する。

そして、新たに設けたステップＳ１１２で、上記ステップＳ１１０′で取得された取得日時から、前述の図１５のステップＳ２０で取得された最新の取得日時まで、言い換えれば今回の受付処理での患者ＩＤの取得日時まで、の経過時間の長さに応じて、対応する発話振幅値Ａｃに対して、それぞれ重み付けＷを設定する。

その後、新たに設けたステップＳ１１４で、上記ステップＳ１１２で各発話振幅値Ａｃに対して設定された重み付けＷを、対応する各発話振幅値Ａｃに対して乗算して付与し、上記第１重み付け振幅値Ａｃ′を算出する。

そして、ステップＳ１１５に代えて設けたステップＳ１１５′で、図１８を用いて前述したように、上記ステップＳ１１４で算出された複数の第１重み付け振幅値Ａｃ′の平均値Ａａｖｅ′を算出する。このステップが平均値算出手段として機能する。

その後、ステップＳ１２０に代えて設けたステップＳ１２０′で、上記ステップＳ１１５′で算出された上記平均値Ａａｖｅ′と、前述のモード切替用しきい値Ａｔ０とを比較し、Ａａｖｅ′＞Ａｔ０であるかどうかを判定する。なお、このステップも振幅比較手段として機能する。Ａａｖｅ′＞Ａｔ０である場合には、判定が満たされてステップＳ１２５に移り、Ａａｖｅ′≦Ａｔ０である場合には、判定が満たされずステップＳ１３０に移る。

ステップＳ１２５及びステップＳ１３０は、前述の図１５と同様であるので、説明を省略する。

また、本変形例におけるステップＳ１５０の詳細手順は、前述の図１６における平均値Ａａｖｅの記載を、平均値Ａａｖｅ′に置き換えたものとほぼ同様である。

なお、上記において、ステップＳ１１２及びステップＳ１１４が、各請求項記載の第１重み付け設定手段として機能する。

以上説明したように、本変形例においては、振幅情報データベース１５１０に記憶された、過去の受付処理での発話音情報の取得日時を発話振幅値Ａｃと対応付けた振幅情報を、上記取得日時とともに取得する。そして、その取得された取得日時から、今回の受付処理において患者ＩＤを取得した最新の取得日時までの、経過期間の長さに応じた重み付けＷを各発話振幅値Ａｃに対して設定し第１重み付け振幅値Ａｃ′を算出する。そして、重み付けＷを加味した上記平均値Ａａｖｅ′を算出し、その算出された平均値Ａａｖｅ′と前述の振幅しきい値Ａｔ１，Ａｔ２，Ａｔ３との比較を行う。

これにより、患者の過去の発話履歴に含まれる発話振幅値Ａｃのうち、日付の古いものについては重み付けＷを軽くし、日付の新しいものについては重み付けＷを重くして平均値Ａａｖｅ′を算出することができる。この結果、最近の患者の発話傾向をより強く反映させたゲイン制御を行うことができるので、さらに確実に音声認識漏れを防止することができる。

（２）発話音量が非常に小さい傾向にある患者に対して報知を行う場合
すなわち、振幅情報データベース１５１０から取得された発話振幅値Ａｃに基づき、算出された上記平均値Ａａｖｅが、非常に小さい患者に対して、スピーカ２０８やタッチパネル２１０を用いて、マイク２０７への入力方法に関する報知（例えば、「もっと近づいてください」や「もっと大きな声で話してください」など）を行うようにしてもよい。

すなわち、本変形例では、前述した手法により算出された平均値Ａａｖｅと、前述のモード切替用しきい値Ａｔ０とが、Ａａｖｅ＞Ａｔ０であった場合に、さらに、上記平均値Ａａｖｅについて比較が行われる。具体的には、平均値Ａａｖｅが、前述のゲイン増減制御で許容される第１振幅しきい値Ａｔ１と比較される。この第１振幅しきい値Ａｔ１は、振幅しきい値としての下限振幅値に相当している。そして、図２０に示すように、Ａａｖｅ＜Ａｔ１であった場合に、スピーカ２０８やタッチパネル２１０を介して、マイク２０７への入力方法に関する所定の報知が行われる。例としては、マイク２０７への近接を依頼する報知や、マイク２０７への発話音量の増大を依頼する報知などが考えられる。そして、このような報知が行われた後に、前述した入力モードが音声認識モードに切り替えられて、音声認識モードによる受付処理が実行される。

また、一般的に、上記のような報知が行われた場合には、患者は当該報知が行われる前より、例えばマイク２０７へ接近したり、大きな声で発話したりするため、マイク２０７に入力される発話音声は、報知前よりも大きくなる。したがって、上記報知が行われた後にマイク２０７を介して取得される発話音情報に基づき算出された発話振幅値Ａｃは、本来の、すなわち、上記報知が行われなった場合にマイク２０７を介して取得される発話音情報に基づき算出された発話振幅値Ａｃと比べて大きく算出されることになる。

そこで本変形例においては、上記報知が行われた場合には、当該報知の後にマイク２０７を介して取得された発話音情報に基づく発話振幅値Ａｃを補正するための第２重み付けとしての重み付けＷｒが、当該発話振幅値Ａｃに対して付与（設定）される。この例では、上記重み付けＷｒは、０＜Ｗｒ＜１、例えば０、５であり、当該重み付けＷｒが上記発話振幅値Ａｃに対して乗じられる。そして、上記重み付けＷｒが設定された発話振幅値Ａｃ″が算出される。以下適宜、このような重み付け設定後の発話振幅値を「第２重み付け振幅値Ａｃ″」のように称する。

そして、この第２重み付け振幅値Ａｃ″を含む振幅情報が、前述した患者ＩＤ、取得日時、及び入力音量と対応付けられて、前述の振幅情報データベース１５１０に記憶され、振幅情報データベース１５１０が更新される。

ここで、本変形例の受付端末２０の制御回路部２００により実行する制御手順において、前述の図１４と異なる点は、ステップＳ１００及びステップＳ２００であり、その他の手順は図１４の各手順と同様である。以下、図２１及び図２２を用いて、本変形例におけるステップＳ１００に相当するステップＳ１００″、及び、本変形例におけるステップＳ２００に相当するステップＳ２００′の詳細手順を説明する。

図２１は、ステップＳ１００″の詳細手順を表すフローチャートであり、前述の図１５及び図１９に対応する図である。図１５と同等の手順には同符号を付し説明を省略する。

図２１において、前述の図１５と異なる点は、ステップＳ１２０とステップＳ１２５との間に、新たにステップＳ１２２及びステップＳ１２４を設けた点である。

すなわち、ステップＳ１０５、ステップＳ１１０、ステップＳ１１５、及びステップＳ１２０は、前述の図１５と同様である。ステップＳ１２０において、Ａａｖｅ＞Ａｔ０であるかどうかを判定し、Ａａｖｅ≦Ａｔ０である場合には、ステップＳ１３０に移り、Ａａｖｅ＞Ａｔ０である場合には、新たに設けたステップＳ１２２に移る。

ステップＳ１２２では、前述のステップＳ１１５で算出された上記平均値Ａａｖｅと、上記第１振幅しきい値Ａｔ１とを比較し、Ａａｖｅ＜Ａｔ１であるかどうかを判定する。なお、このステップも振幅比較手段として機能する。Ａａｖｅ＜Ａｔ１である場合には、判定が満たされて新たに設けたステップＳ１２４に移る。

ステップＳ１２４では、スピーカ２０８に音声信号を出力し、「もっと近づいてください」というマイク２０７への近接を依頼する台詞を出力させる。あるいは、「いつもよりも大きな声で話してください」というマイク２０７への発話音量の増大を依頼する台詞を出力させるようにしてもよい。そして、このとき、タッチパネル２１０にテキスト表示も行う。又は、スピーカ２０８による出力を行わずタッチパネル２１０による表示のみとしてもよい。なお、このステップＳ１２４が、各請求項記載の報知処理手段として機能する。その後、ステップＳ１２５に移る。

一方、上記ステップＳ１２２において、比較結果が、Ａａｖｅ≧Ａｔ１であった場合には、ステップＳ１２２の判定が満たされず、直接ステップＳ１２５に移る。

図２２は、ステップＳ２００′の詳細手順を表すフローチャートであり、前述の図１７に対応する図である。図１７と同等の手順には同符号を付し説明を省略する。

図２２において、前述の図１７と異なる点は、ステップＳ２２５とステップＳ２３０との間に、新たにステップＳ２２７を設け、さらに新たにステップＳ２２９及びステップＳ２３１を設けた点である。

すなわち、ステップＳ２０５〜ステップＳ２２５及びステップＳ２２６は、前述の図１７と同様である。ステップＳ２２５又はステップＳ２２６において、前述の手法により発話振幅値Ａｃを算出したら、新たに設けたステップＳ２２７に移る。

ステップＳ２２７では、上記図２１のステップＳ１２４の手順（患者に対する報知）が実行されていたかどうかを判定する。上記ステップＳ１２４の手順が実行されていなかった場合には、判定が満たされずステップＳ２３０に移る。

ステップＳ２３０は、前述の図１７と同様であり、上記振幅情報データベース１５１０にアクセスし、発話音情報の取得日時、当該発話音情報に対応する音量、及び発話振幅値Ａｃを、患者ＩＤと対応付けて記憶させ、振幅情報データベース１５１０を更新する。その後、このルーチンを終了する。

一方、上記ステップＳ２２７において、上記図２１のステップＳ１２４の手順が実行されていた場合には、ステップＳ２２７の判定が満たされて、新たに設けたステップＳ２２９に移る。

ステップＳ２２９では、上記重み付けＷｒを、前述のステップＳ２２５又はステップＳ２２６で算出された発話振幅値Ａｃに対して乗算して付与し、上記第２重み付け振幅値Ａｃ″を算出する。このステップが第２重み付け設定手段として機能する。

そして、新たに設けたステップＳ２３１で、ＤＢサーバ１０の振幅情報データベース１５１０にアクセスし、前述したステップＳ２１０での発話音情報の取得日時、当該発話音情報に対応する音量、及び上記ステップＳ２２９で算出された第２重み付け振幅値Ａｃ″を、前述の図１４のステップＳ２０で取得された患者ＩＤと対応付けて記憶させ、振幅情報データベース１５１０を更新する。なお、このステップも振幅情報更新手段として機能する。その後、このルーチンを終了する。

本変形例によれば、振幅情報データベース１５１０より取得された振幅情報の発話振幅値Ａｃと、上記第１振幅しきい値Ａｔ１とが比較された結果、上記発話振幅値Ａｃが、第１振幅しきい値Ａｔ１よりも小さかった場合、マイク２０７への入力方法に関する報知を行う。なお、この例では、複数の発話振幅値Ａｃの平均値Ａａｖｅを用いて上記比較を行っている。これにより、発話音量が非常に小さい傾向にあり、ゲイン制御のみでは適切な信号レベルで音情報を取得することが難しい患者に対し、マイク２０７に近づいたり、大きな声で発話したりすることで信号レベルを増大できるよう促すことができる。この結果、音声認識漏れをさらに確実になくすことができる。

ここで、上記のように患者に対して報知が行われた場合には、その後マイク２０７を介し取得される発話音情報に基づく発話振幅値Ａｃは、本来の、すなわち、上記報知が行われなった場合にマイク２０７を介して取得される発話音情報に基づく発話振幅値Ａｃと比べて大きくなる。そこで、本変形例においては、上記報知が行われた場合に、当該報知の後にマイク２０７を介し取得された発話振幅値Ａｃを補正するための重み付けＷｒを、当該発話振幅値Ａｃに対して設定し、第２重み付け振幅値Ａｃ″を算出する。これにより、本来よりも大きな発話振幅値Ａｃを補正して、本来の発話振幅値Ａｃに近づけることができる。この結果、精度よいゲイン制御を行うことができる。

（３）算出された発話振幅値の平均値の大きさ応じて、ゲインの増減制御を行う場合
以上においては、算出された上記平均値Ａａｖｅ、又は、上記重み付けＷを加味した平均値Ａａｖｅ′と、上記振幅しきい値Ａｔ１，Ａｔ２，Ａｔ３との比較結果に応じて前述の判定を行い、当該判定結果ごとに予め定められた制御態様により、上記ゲインの増減制御を段階的に行っていた。しかしながら、これに限られず、算出された上記平均値Ａａｖｅ、又は、上記重み付けＷを加味した平均値Ａａｖｅ′と、予め固定的に定められた標準振幅値の大きさとの比率を求め、この比率に応じて上記ゲインを設定するようにしてもよい。

（４）患者ＩＤの取得方法
以上においては、周知のＩＣカードである診察券３００に対し、リーダ２１３を介して無線通信を行い患者ＩＤを取得していた。しかしながら、これに限られず、患者ＩＤを記憶させた磁気を備えた磁気カードにより診察券を構成し、この診察券からリーダを介して患者ＩＤを取得するようにしてもよい。又は、患者ＩＤをバーコードに対応させ、このバーコードを備えた診察券からリーダを介して患者ＩＤを取得するようにしてもよい。あるいは、患者による自己の氏名や生年月日等を、例えばタッチパネル２１０に表示されたソフトウェアキーボードＳＢ（図５参照）を介した、手動操作入力によって取得し、これによって患者が誰であるかを特定して、対応する患者ＩＤを取得するようにしてもよい。

（５）システム構成のバリエーション
上記患者受付システム１においては、各種処理が行われる受付端末２０と、ＤＢサーバ１０とは、別個の装置であった。しかしながら、これに限られず、音声入力手段を備えたサーバを病院の入口付近に設置し、サーバのみで、各種処理のすべてを行うようにしてもよい。また、振幅情報データベース１５１０等、ＨＤＤ１５０に記憶されている情報を受付端末２０側のＨＤＤ２０５に記憶するようにしてもよい。この場合、受付端末２０のＨＤＤ２０５が各請求項記載の記憶手段を構成する。さらにはネットワークを介して受付端末２０に接続可能な別個の記憶装置に記憶させておき、受付処理中に、必要な情報を読み出す構成としてもよい。この場合、当該別個の記憶装置が各請求項記載の記憶手段を構成する。これらの場合も上記実施形態と同様の効果を得る。

なお、以上において、図６、図７等の各図中に示す矢印は信号の流れの一例を示すものであり、信号の流れ方向を限定するものではない。

また、図１４、図１５、図１６、図１７等に示すフローチャートは本発明を上記フローに示す手順に限定するものではなく、発明の趣旨及び技術的思想を逸脱しない範囲内で手順の追加・削除又は順番の変更等をしてもよい。

また、以上は本発明の音声認識装置を、受付装置に適用した場合を例にとって説明したが、これに限られない。その他、音声認識により適宜の処理を自動で行う装置、例えば現金支払い機すなわちいわゆるＡＴＭや、チケット販売機、通行料金支払機等に本発明を適用してもよい。

また、以上既に述べた以外にも、上記実施形態や各変形例による手法を適宜組み合わせて利用しても良い。

その他、一々例示はしないが、本発明は、その趣旨を逸脱しない範囲内において、種々の変更が加えられて実施されるものである。

２０受付端末（音声認識装置）
１５０ハードディスク装置（記憶手段）
２０７マイク（音声入力手段）
２０８スピーカ
２１０タッチパネル
２１３リーダ
１５１０振幅情報データベース

Claims

ユーザの発話音声を音声認識して各種処理を行う音声認識装置であって、
音声を入力するための音声入力手段と、
前記音声入力手段を介し入力された音により、対応する振幅あるいは周波数を含む音情報を取得する音取得手段と、
前記ユーザに係わるユーザ識別情報を取得する識別情報取得手段と、
前記識別情報取得手段により取得された前記ユーザ識別情報に応じて、前記ユーザの発話音声に基づき前記音取得手段により取得された発話音情報に対応した振幅情報と当該ユーザに対応する前記ユーザ識別情報とを予め関連付けて記憶手段に記憶した振幅情報データベースへアクセスし、対応する前記振幅情報を取得する振幅情報取得手段と、
前記振幅情報取得手段により取得された前記振幅情報の発話振幅値に関し、所定の振幅しきい値との比較を行う振幅比較手段と、
前記振幅比較手段の比較結果ごとに予め定められた制御態様により、前記音声入力手段のゲインを増減制御する感度制御手段と
を有することを特徴とする音声認識装置。
前記振幅情報取得手段は、
所定時間間隔において所定の振幅レベルしきい値を超える振幅の零交差数が所定数を超えた、最初の当該所定時間間隔における前記発話振幅値を含む前記振幅情報を取得する
ことを特徴とする請求項１記載の音声認識装置。
前記振幅情報取得手段は、複数回の発話履歴のそれぞれの回における前記発話振幅値を含む前記振幅情報を取得し、
その取得された複数の前記発話振幅値の平均値を算出する平均値算出手段を設け、
前記振幅比較手段は、前記平均値算出手段により算出された前記発話振幅値の前記平均値と、前記振幅しきい値との比較を行う
ことを特徴とする請求項２記載の音声認識装置。
前記振幅情報取得手段は、複数回の発話履歴のそれぞれの日時情報を前記発話振幅値と対応付けた前記振幅情報を取得し、
その取得された前記振幅情報に含まれる前記発話振幅値に対応する前記日時情報から、前記識別情報取得手段が前記ユーザ識別情報を取得した最新の取得日時までの、第１経過期間の長さに応じた第１重み付けを、各発話振幅値に対して設定する第１重み付け設定手段を設け、
前記平均値算出手段は、前記第１重み付け設定手段によりそれぞれ第１重み付けが設定された前記複数の発話振幅値の前記平均値を算出し、
前記振幅比較手段は、前記平均値算出手段により算出された、前記第１重み付けを加味した前記平均値と前記振幅しきい値との比較行う
ことを特徴とする請求項３記載の音声認識装置。
前記振幅比較手段は、前記平均値算出手段により算出された前記発話振幅値の前記平均値と、所定のモード切替用しきい値との比較を行い、
かつ、
前記振幅比較手段による前記平均値と前記モード切替用しきい値との比較結果に応じて、前記ユーザの発話音声に基づき前記各種処理を行う第１モードと、前記ユーザの手動操作に基づき前記各種処理を行う第２モードとを切り替えるモード切替手段
を有することを特徴とする請求項３又は請求項４記載の音声認識装置。
前記振幅情報取得手段により取得された前記振幅情報の発話振幅値と、前記振幅しきい値に含まれる、所定の下限振幅値とが前記振幅比較手段により比較された結果、前記振幅情報の発話振幅値が前記下限振幅値よりも小さかった場合、前記音声入力手段への入力方法に関する報知を行う、報知処理手段
を有することを特徴とする請求項１乃至請求項５のいずれか１項記載の音声認識装置。
前記報知処理手段により前記報知が行われた場合に、当該報知の後に前記ユーザの発話音声に基づき前記音声入力手段を介し前記音取得手段により取得された、発話音情報に対応した振幅情報に含まれる発話振幅値を補正するための第２重み付けを、当該発話振幅値に対して設定する第２重み付け設定手段
を有することを特徴とする請求項６記載の音声認識装置。
前記ユーザの発話音声に基づき前記音声入力手段を介し前記音取得手段により取得された発話音情報に対応した振幅情報か、若しくは、前記第２重み付け設定手段により第２重み付けが設定された前記発話振幅値を含む振幅情報を、当該ユーザの前記ユーザ識別情報と対応付けて前記記憶手段に記憶させ、前記振幅情報データベースを更新する振幅情報更新手段
を有することを特徴とする請求項１乃至請求項７のいずれか１項記載の音声認識装置。
前記振幅情報更新手段による最後の前記振幅情報データベースの更新日時から、前記識別情報取得手段が前記ユーザ識別情報を取得した最新の取得日時までの第２経過期間が、所定の更新用しきい値に達したかどうかを判定する更新判定手段をさらに有し、
前記振幅情報更新手段は、
前記更新判定手段により前記第２経過期間が前記更新用しきい値に達したと判定された場合に、前記振幅情報データベースの前記更新を行う
ことを特徴とする請求項８記載の音声認識装置。