[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2011002534A - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP2011002534A
JP2011002534A JP2009143956A JP2009143956A JP2011002534A JP 2011002534 A JP2011002534 A JP 2011002534A JP 2009143956 A JP2009143956 A JP 2009143956A JP 2009143956 A JP2009143956 A JP 2009143956A JP 2011002534 A JP2011002534 A JP 2011002534A
Authority
JP
Japan
Prior art keywords
amplitude
utterance
value
information
patient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009143956A
Other languages
English (en)
Inventor
Kumi Ota
久美 太田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Brother Industries Ltd
Original Assignee
Brother Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Brother Industries Ltd filed Critical Brother Industries Ltd
Priority to JP2009143956A priority Critical patent/JP2011002534A/ja
Publication of JP2011002534A publication Critical patent/JP2011002534A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】各ユーザの発話態様に応じた音声入力手段のゲイン制御を行い、音声認識漏れのない確実な各種処理を行う。
【解決手段】受付端末20は、音声を入力するためのマイク207を有し、マイク207を介し入力された音により音情報を取得し、患者に係わる患者IDを取得し、この取得された患者IDに応じて、患者の発話音声に基づき取得された発話音情報に対応した振幅情報と当該患者に対応する患者IDとを予め関連付けてHDD150に記憶した振幅情報データベース1510へアクセスし、対応する振幅情報を取得し、この取得された振幅情報の発話振幅値Acに関し、所定の振幅しきい値At1,At2,At3との比較を行い、この比較結果ごとに予め定められた制御態様により、マイク207のゲインを増減制御する。
【選択図】図16

Description

本発明は、ユーザの発話した音声を音声認識して各種処理を行う音声認識装置に関する。
例えば来訪したユーザに対する受付処理を行う受付装置や、現金支払機すなわちいわゆるATMや、チケット販売機、通行料金支払機等、ユーザの発話した音声を音声認識して種々の処理を自動的に行う音声認識装置が、従来より既に知られている。この音声認識装置においては、ユーザの発話内容をマイク等の音声入力手段により入力し、音声認識を行う。
この音声認識を行う際、入力される音声レベルが小さすぎると誤認識が生じ、入力される音声レベルが大きすぎると音割れにより認識不能となる。ユーザが上記のような音声認識を行う装置を利用する際、原則として(特に要請しない限り)ユーザは同一内容を一度しか発話しないため、上記のような場合は発話内容の認識漏れが生じる。このような認識漏れを防止するためには、上記入力される音声レベルの適正化が必要である。
このような点に配慮した音声認識装置として、例えば、特許文献1に記載のカーナビゲーション装置がある。一般に、ユーザの発話音声のレベルの大小には個人差があり、発話音量の大小はユーザによってばらつく。発話音量が比較的小さい傾向にあるユーザは、音声入力手段に入力される発話音声レベルが小さくなり、そのままでは誤認識が生じる。上記従来技術では、このようなユーザに対しては、カーオーディオの音量を増大させ、いわゆるロンバート効果、すなわち人間は周囲音が大きいと発話音量を無意識に大きくする習性を利用することにより、音声入力手段に入力される音声レベルの増大を図っている。
特開2005−195895号公報
しかしながら、上記従来技術では、ユーザの無意識の習性を利用して発話音量の増大を図るものに過ぎず、確実性に乏しかった。このため、どのようなユーザに対しても音声認識漏れのない確実な処理を行うことは困難であった。
本発明の目的は、ユーザごとの発話音量のばらつきに対応し、どのようなユーザに対しても音声認識漏れのない確実な処理を行える音声認識装置を提供することにある。
上記目的を達成するために、第1の発明は、ユーザの発話音声を音声認識して各種処理を行う音声認識装置であって、音声を入力するための音声入力手段と、前記音声入力手段を介し入力された音により、対応する振幅あるいは周波数を含む音情報を取得する音取得手段と、前記ユーザに係わるユーザ識別情報を取得する識別情報取得手段と、前記識別情報取得手段により取得された前記ユーザ識別情報に応じて、前記ユーザの発話音声に基づき前記音取得手段により取得された発話音情報に対応した振幅情報と当該ユーザに対応する前記ユーザ識別情報とを予め関連付けて記憶手段に記憶した振幅情報データベースへアクセスし、対応する前記振幅情報を取得する振幅情報取得手段と、前記振幅情報取得手段により取得された前記振幅情報の発話振幅値に関し、所定の振幅しきい値との比較を行う振幅比較手段と、前記振幅比較手段の比較結果ごとに予め定められた制御態様により、前記音声入力手段のゲインを増減制御する感度制御手段とを有することを特徴とする。
本願第1発明においては、各種処理に伴う音声認識の際には、ユーザ識別情報が、識別情報取得手段によって取得される。このとき、本願第1発明においては、振幅情報データベースが設けられている。すなわち、ユーザの発話音声が音声入力手段により入力され、その発話音声に対応する振幅や周波数を含む発話音情報が音取得手段によって取得される。そして、その取得された発話音情報に対応した発話振幅値を含む振幅情報が、対応するユーザ識別情報と関連付けられて、予め振幅情報データベースに記憶されている。
前述のようにして識別情報取得手段によりユーザ識別情報が取得されると、振幅情報取得手段が振幅情報データベースにアクセスし、そのユーザ識別情報に対応した上記振幅情報を取得する。そして、振幅比較手段が上記取得された振幅情報に含まれる発話振幅値を所定の振幅しきい値と対比させ、その比較結果に応じた制御態様によって感度制御手段が音声入力手段のゲインを増減制御する。
これにより、発話振幅値が比較的大きく発話音量が比較的大きい傾向にあるユーザに対しては、発話音声が比較的大きいレベルで入力されることから音声入力手段のゲインを低くすることが可能となる。逆に、発話振幅値が比較的小さく発話音量が比較的小さい傾向にあるユーザに対しては、発話音声が比較的小さいレベルで入力されることから音声入力手段のゲインを高くすることが可能となる。このように、各ユーザの発話態様に応じ、適切な信号レベルで音情報を取得して処理を行えるので、音声認識漏れのない確実な各種処理を行うことができる。
第2発明は、上記第1発明において、前記振幅情報取得手段は、所定時間間隔において所定の振幅レベルしきい値を超える振幅の零交差数が所定数を超えた、最初の当該所定時間における前記発話振幅値を含む前記振幅情報を取得することを特徴とする。
これにより、ユーザの発話音声のうち、話し始めの発話音声に基づく発話音情報に対応した振幅情報を取得することができるので、ユーザの話し始めの発話音声についても確実に漏れなくゲイン制御を行うことができる。
第3発明は、上記第2発明において、前記振幅情報取得手段は、複数回の発話履歴のそれぞれの回における前記発話振幅値を含む前記振幅情報を取得し、その取得された複数の前記発話振幅値の平均値を算出する平均値算出手段を設け、前記振幅比較手段は、前記平均値算出手段により算出された前記発話振幅値の前記平均値と、前記振幅しきい値との比較を行うことを特徴とする。
本願第3発明においては、ユーザによる複数回の過去の発話履歴における発話振幅値の平均値を算出し、その平均値と振幅しきい値との比較を行う。これにより、各ユーザの発話態様の定性的な傾向を確実に反映した高精度なゲイン制御を行うことができるので、確実に音声認識漏れを防止することができる。
第4発明は、上記第3発明において、前記振幅情報取得手段は、複数回の発話履歴のそれぞれの日時情報を前記発話振幅値と対応付けた前記振幅情報を取得し、その取得された前記振幅情報に含まれる前記発話振幅値に対応する前記日時情報から、前記識別情報取得手段が前記ユーザ識別情報を取得した最新の取得日時までの、第1経過期間の長さに応じた第1重み付けを、各発話振幅値に対して設定する第1重み付け設定手段を設け、前記平均値算出手段は、前記第1重み付け設定手段によりそれぞれ第1重み付けが設定された前記複数の発話振幅値の前記平均値を算出し、前記振幅比較手段は、前記平均値算出手段により算出された、前記第1重み付けを加味した前記平均値と前記振幅しきい値との比較行うことを特徴とする。
これにより、第1重み付け設定手段により、ユーザの過去の発話履歴に含まれる発話振幅値のうち、日付の古いものについては重み付けを軽くし、日付の新しいものについては重み付けを重くして平均値を算出することが可能となる。この結果、最近のユーザの発話傾向をより強く反映させたゲイン制御を行うことができるので、さらに確実に音声認識漏れを防止することができる。
第5発明は、上記第3乃至第4発明において、前記振幅比較手段は、前記平均値算出手段により算出された前記発話振幅値の前記平均値と、所定のモード切替用しきい値との比較を行い、かつ、前記振幅比較手段による前記平均値と前記モード切替用しきい値との比較結果に応じて、前記ユーザの発話音声に基づき前記各種処理を行う第1モードと、前記ユーザの手動操作に基づき前記各種処理を行う第2モードとを切り替えるモード切替手段を有することを特徴とする。
これにより、各ユーザの発話態様に応じたモードに切り替えることができ、発話音量が非常に小さいレベルで入力されるユーザについては、正確な各種処理を優先し、手動操作に基づく各種処理へと確実に切り替えることができる。
第6発明は、上記第1乃至第5発明のいずれかにおいて、前記振幅情報取得手段により取得された前記振幅情報の発話振幅値と、前記振幅しきい値に含まれる、所定の下限振幅値とが前記振幅比較手段により比較された結果、前記振幅情報の発話振幅値が前記下限振幅値よりも小さかった場合、前記音声入力手段への入力方法に関する報知を行う、報知処理手段を有することを特徴とする。
これにより、発話音量が非常に小さい傾向にあり、感度制御手段によるゲイン制御のみでは適切な信号レベルで音情報を取得することが難しいユーザに対し、音声入力手段に近づいたり、大きな声で発話したりすることで信号レベルを増大できるよう促すことができる。この結果、音声認識漏れをさらに確実になくすことができる。
第7発明は、上記第6発明において、前記報知処理手段により前記報知が行われた場合に、当該報知の後に前記ユーザの発話音声に基づき前記音声入力手段を介し前記音取得手段により取得された、発話音情報に対応した振幅情報に含まれる発話振幅値を補正するための第2重み付けを、当該発話振幅値に対して設定する第2重み付け設定手段を有することを特徴とする。
報知処理手段による報知が行われた場合には、その後に音声入力手段を介し取得される発話音情報に基づく発話振幅値は、本来の、すなわち、上記報知が行われなかった場合に音声入力手段を介し取得される発話音情報に基づく発話振幅値と比べて大きくなる。そこで、本願第7発明においては、第2重み付け設定手段が、報知処理手段による報知が行われた場合に、当該報知の後に音声入力手段を介し取得された発話振幅値を補正するための第2重み付けを、当該発話振幅値に対して設定する。これにより、本来よりも大きな発話振幅値を補正して、本来の発話振幅値に近づけることができる。この結果、精度よいゲイン制御を行うことができる。
第8発明は、上記第1乃至第7発明のいずれかにおいて、前記ユーザの発話音声に基づき前記音声入力手段を介し前記音取得手段により取得された発話音情報に対応した振幅情報か、若しくは、前記第2重み付け設定手段により第2重み付けが設定された前記発話振幅値を含む振幅情報を、当該ユーザの前記ユーザ識別情報と対応付けて前記記憶手段に記憶させ、前記振幅情報データベースを更新する振幅情報更新手段を有することを特徴とする。
これにより、音取得手段での取得結果に対応した振幅情報、若しくは、報知処理手段により報知がされた後の音取得手段での取得結果に対し、第2重み付け設定手段により、重み付けがされた振幅情報を、当該ユーザに関する最新の発話履歴としてデータベースに蓄積することができる。この結果、当該ユーザに対する次回の各種処理において、最新の発話傾向を確実に反映させたゲイン制御を行うことができる。
第9発明は、上記第8発明において、前記振幅情報更新手段による最後の前記振幅情報データベースの更新日時から、前記識別情報取得手段が前記ユーザ識別情報を取得した最新の取得日時までの第2経過期間が、所定の更新用しきい値に達したかどうかを判定する更新判定手段をさらに有し、前記振幅情報更新手段は、前記更新判定手段により前記第2経過期間が前記更新用しきい値に達したと判定された場合に、前記振幅情報データベースの前記更新を行うことを特徴とする。
ユーザの発話傾向は個性やクセ等に基づくものであり、短期間にそう大きく変化するものではない場合が多い。これに対応し、本願第9発明においては、音取得手段で新たな発話音情報が取得されるたびに振幅情報データベースを更新するのではなく、最後の更新日時から所定の第2経過期間が過ぎた場合にのみ更新を行うようにする。これにより、あまり意味のない振幅情報データベースの更新を頻繁に行う無駄を避けることができる。逆に、第2経過期間が経過した場合には必ず振幅情報データベースの更新を行うようにすることで、実効的なデータベース更新を確実に実施して精度よいゲイン制御を行うことができる。
本発明によれば、ユーザごとの発話音量のばらつきに対応し、どのようなユーザに対しても、音声認識漏れのない確実な処理を行うことができる。
本発明の一実施の形態の患者受付システムの全体構成の概略構成を表すシステム構成図である。 受付端末の外観構造の一例を表す斜視図である。 タッチパネルにおける表示画面の一例を表す図である。 タッチパネルにおける表示画面の他の例を表す図である。 タッチパネルにおける表示画面のさらに他の例を表す図である。 受付端末の機能的構成を示す機能ブロック図である。 DBサーバの機能的構成を表す機能ブロック図である。 振幅情報データベースの記憶内容を表す概念的説明図である。 マイクに入力された音に基づく音情報の音波形を表した図である。 マイクに入力された音に基づく音情報の音波形を表した図である。 発話振幅値の平均値の算出の手法を説明した説明図である。 算出された発話振幅値の平均値と、所定のモード切替用しきい値との比較結果、及び、当該比較結果に応じた処理を説明した説明図である。 受付処理における各シナリオの一例を概念的に説明した説明図である。 受付端末の制御回路部により実行する制御手順を表すフローチャートである。 ステップS100の詳細手順を表すフローチャートである。 ステップS150の詳細手順を表すフローチャートである。 ステップS200の詳細手順を表すフローチャートである。 発話振幅値に重み付けを行う変形例において、各発話振幅値に対する重み付けの手法、及び、それぞれの重み付けされた複数の発話振幅値の平均値の算出の手法を説明した説明図である。 ステップS100′の詳細手順を表すフローチャートである。 発話音量が非常に小さい傾向にある患者に対して報知を行う変形例において、算出された平均値と、所定の下限振幅値との比較結果、及び、当該比較結果に応じた処理を説明した説明図である。 ステップS100″の詳細手順を表すフローチャートである。 ステップS200′の詳細手順を表すフローチャートである。
以下、本発明の一実施の形態を図面を参照しつつ説明する。
図1は、本実施形態の患者受付システムの全体構成の概略構成を表すシステム構成図である。図1において、患者受付システム1は、ユーザ、この例では、病院や診療所その他の医療機関へ外来受診するため来訪する患者に対する、受付業務を行うシステムである。この例では病院へ設置されている場合を例にとって説明する。
患者受付システム1は、例えば病院の入口付近に設置され、患者の発話音声を音声認識して各種処理としての受付処理を行う受付端末20と、周知のコンピュータにより構成されるDBサーバ10と、病院の各診療科などに対応して設けられた複数のプリンタ60及びPC端末50とを有し、これらはすべてルータ40を介して接続されている。受付端末20が、音声認識装置に相当する。
受付端末20は、端末本体20Aと、この端末本体20Aに接続された、タッチパネル210、ゲイン可変アンプ209、及びスピーカ208と、上記ゲイン可変アンプ209に接続された、音声入力手段としてのマイク207とを有している。
マイク207は、入力された音を音情報に変換し、ゲイン可変アンプ209へ出力する。
ゲイン可変アンプ209は、マイク207から入力された音情報を増幅して、端末本体20Aへ出力する。この例では、ゲイン可変アンプ209は、後述のCPU201からの制御信号によってマイク207のゲインが決定される増幅を実行する。上記マイク207のゲインとは、入力と出力との比(出力/入力)、すなわち、CPU201の制御によりゲイン可変アンプ209が行う増幅の度合いつまり増幅度のことである。
スピーカ208は、端末本体20Aから入力された音声信号を報知音や案内音声に変換して出力する。
また、受付端末20の端末本体20Aには、患者それぞれが所持する周知のIntegrated Circuit(IC)カードである診察券300(後述の図2参照)に対し、情報読み取りを行うリーダ213と、受付票301(後述の図2参照)の出力を行うプリンタ214とが接続されている。
図2は、受付端末20の外観構造の一例を表す斜視図である。
図2において、受付端末20は、上記タッチパネル210、上記マイク207、及び上記スピーカ208を有している。タッチパネル210は、水平に設置されるベース212に対してアーム211を介し支持されている。そして、このタッチパネル210は、表示面のなす方向がユーザすなわちこの例では患者の視線の方向に対して直角となるように、当該表示面が斜め上方を向いている。マイク207は、ベース212に対し先端を患者側へ向けるようにして略円弧状に配置されている。
リーダ213は、受付端末20と例えばUSBケーブル等からなる接続ケーブル216を介して接続されている。但し、無線接続でもよい。またリーダ213は、ユーザに係わる患者IDを記録した診察券300の、図示しないICチップに対し、無線通信により患者IDを含む情報の読み取りを行う。そして、ユーザ識別情報としての患者IDを含む情報が読み取られると、受付端末20に接続ケーブル216を介して当該情報が出力される。
プリンタ214は、受付端末20と例えばUSBケーブル等からなる接続ケーブル217を介して接続されている。但し、無線接続でもよい。また、プリンタ214は、受付処理が正当に終了された場合に、患者に係わる受付情報、例えば患者ID、氏名、診療科、診察室等を印字した受付票301の出力を行う。
図3は、タッチパネル210における表示画面の一例を表す図である。図3に示す画面においては、後述の描画プログラムによって生成された仮想人物Mが、背景Gとともに表示される。図3に示す画面は後述の受付処理が開始されると表示される。また、スピーカ208から発話される音声に対応する文章L(図中では「***」で略記している)が併せて表示される。
図4は、タッチパネル210における表示画面の他の例を表す図である。図4に示す画面においては、後述の描画プログラムによって生成された、患者が指でタッチすることで操作入力可能な少なくとも1つの操作ボタンBが背景G(図示では上記図3とは異なる背景の表示例を示している)とともに表示される。なお、各ボタンBにはその内容が記載(図中では「***」で略記している)されている。
図5は、タッチパネル210における表示画面のさらに他の例を表す図である。図5に示す画面においては、後述の描画プログラムによって生成された、患者が指でタッチすることで操作入力可能ないわゆるソフトウェアキーボードSBが表示される。ソフトウェアキーボードSBには、平仮名五十音をそれぞれ操作入力するためのかなボタンSB1と、誤入力時に訂正するための「訂正」ボタンSB2と、入力内容を確定させる「決定」ボタンSB4と、現在の入力内容を表示する「入力内容」表示欄SB5とを備えている。
タッチパネル210は、上記の例を含む複数の画面を所定の順序で順次切り替えて表示可能となっている。
以上の構成において、例えば受付端末20の電源がONされた後、患者が診察券300をリーダ213の通信範囲内にかざすことで、受付端末20はリーダ213を介して診察券300から患者IDを取得して受付処理を開始する。すなわち、患者に対し、予め定められた複数の処理手順であるシナリオに沿って、端末本体20Aからの音声信号に基づき、スピーカ208から患者に関する所定の質問(詳細は後述)を所定の順序で出力する。またこのときタッチパネル210においても、上記スピーカ208からの出力に対応した所定の表示を行うようにしてもよい。
上記スピーカ208による出力やタッチパネル210における表示に応じて、患者が発話すると、受付端末20は、対応する音声情報を含む音情報をマイク207を介して入力し、音声認識を行う。また、上記スピーカ208の出力やタッチパネル210の表示に応じて、患者がタッチパネル210の適宜の画面における各種ボタンを手動操作すると、対応する操作情報を入力する。
そして、受付端末20は、上記音情報の音声認識結果及び上記操作情報の入力結果に応じて、プリンタ214から対応する受付票301の出力を行い、さらに患者により決定された診療科に設けられたプリンタ60から対応する受付票の出力を行う。このときの受付票は、上記受付票301と同じでもよいし、別のものでもよい。あるいは、患者により決定された診療科に設けられたPC端末50に対し、上記受付票301と同様の内容の情報を出力するようにしてもよい。又は、両方行うようにしてもよい。このようにして、本実施形態の患者受付システム1は、病院における受付業務を自動的に行うことができる。
図6は、受付端末20の機能的構成を示す機能ブロック図である。
図6において、受付端末20の端末本体20Aは、制御回路部200と、入出力(I/O)インタフェイス204と、ハードディスク装置(HDD)205と、通信制御部215とを有している。
制御回路部200は、CPU201と、受付端末20の基本的な動作に必要なプログラムやそのための設定値を記憶したROM202と、各種データを一時的に記憶するRAM203とを備えている。CPU201は、ROM202や、HDD205に記憶されたプログラムに従って、受付端末20全体の動作を制御する。
I/Oインタフェイス204には、上記CPU201と、上記HDD205と、上記通信制御部215と、上記タッチパネル210と、上記ゲイン可変アンプ209と、上記スピーカ208と、上記プリンタ214と、ネットワーク(NW)カード206とが接続されている。
HDD205には、患者による発話の音声認識に使用するための言語モデル記憶エリア252、上記言語モデルとともに音声認識に使用される辞書記憶エリア253、及びプログラム記憶エリア256を含む複数の記憶エリアを備えている。
言語モデル記憶エリア252には、患者による発話の認識に使用するための受理可能な文のパターンが、受付端末20と患者との対話で想定される様々な場面に応じて予め作成され、言語モデルとして記憶されている。場面としては、例えば、受診する診療科をたずねる場面、希望する診察室をたずねる場面等が考えられる。言語モデルは、単語のつながり、すなわち単語間の結びつきに関する制約を定義するものである。代表的な言語モデルとして、例えば、単語間の結びつきを文法で記述する記述文法モデルと、単語間の結びつきを確率で定義する統計モデル(例えば、単語N−gram)がある。これらの代表的な言語モデルのうち、記述文法モデルは、想定される文のパターンを、受理可能な文のパターンとして、予め人手で記述して定義するものである。したがって、記述される受理可能な文のパターンの数には限りがあるが、発話が、定義された文のパターンに対応していれば、高精度な音声認識が可能である。
プログラム記憶エリア256には、例えば、受付端末20の各種動作を制御するための複数のプログラムが記憶されている。記憶されているプログラムとしては、例えば、受付端末20の基本的な動作を制御するシステムプログラム、DBサーバ10との通信を制御する通信プログラム、タッチパネル210に表示する画像を生成する描画プログラム、音声認識を実行する音声認識プログラム、DBサーバ10のデータベースにアクセスし照合を行うためのDB照合プログラム、音声合成プログラム、対話制御プログラム等がある。
なお、図示はされていないが、HDD205には、その他、音声認識処理で一般的に使用される周知の音響モデルや、受付処理で使用される設定値等も記憶されている。なお、詳細は説明しないが、音響モデルは、音声の音響的特徴を統計的にモデル化したもので、例えば、母音、子音のそれぞれについて、例えば周波数特性などの音響的特徴と対応する音素とで表現されている。
通信制御部215は、上記リーダ213に上記接続ケーブル216を介して接続され、リーダ213により診察券300に記憶された情報へアクセスすることを可能とする。
NWカード206は、上記ルータ40に接続され、DBサーバ10などとの間でデータの送受信を可能とするための拡張カードである。
図7は、DBサーバ10の機能的構成を表す機能ブロック図である。
図7に示すように、DBサーバ10は、CPU101と、CPU101に各々接続されたROM102及びRAM103と、CPU101に接続された入出力(I/O)インタフェイス104と、I/Oインタフェイス104にそれぞれ接続された、マウスコントローラ106、キーコントローラ107、ビデオコントローラ108、通信装置109、及び記憶手段としてのハードディスク装置(HDD)150とを有している。
ROM102は、BIOSを含む、DBサーバ10を動作させるための各種のプログラムを記憶している。RAM103は、各種データを一時的に記憶する。CPU101は、ROM102や、後述するHDD150に記憶されたプログラムに従って、DBサーバ10の全体の制御を司る。
マウスコントローラ106、キーコントローラ107、及びビデオコントローラ108には、それぞれマウス116、キーボード117、及びディスプレイ118が接続されている。通信装置109は、ルータ40に接続され、受付端末20等、外部機器との間でデータの送受信を行うことを可能とする。
HDD150は、振幅情報データベース記憶エリア151、例えば患者ID、氏名、性別、年齢等の患者情報を格納する患者情報データベース記憶エリア157、及び、プログラム記憶エリア156を含む複数の記憶エリアを備えている。
振幅情報データベース記憶エリア151には、複数回の発話履歴における発話履歴情報を蓄積した振幅情報データベース1510(後述の図8参照)が記憶されている。詳細を後述するが、発話履歴情報は、音情報である発話音情報に対応した振幅情報を備えている。振幅情報は、この例では、マイク207に入力された患者の発話音声に基づき取得された発話振幅値を含む。
プログラム記憶エリア156には、システムプログラム、通信プログラム等、受付処理をDBサーバ10に実行させるための各種プログラムが記憶されている。なお、これらのプログラムは、例えばCD−ROMに記憶されたものが図示しないCD−ROMドライブを介してインストールされ、プログラム記憶エリア156に記憶される。又は、適宜のネットワークを介してシステム外部からダウンロードされたプログラムが記憶されてもよい。
ここで、本実施形態の特徴は、患者の発話音声の振幅情報を上記振幅情報データベース1510に蓄積しておくこと;患者の受付処理時に患者IDにより振幅情報データベース1510へアクセスし対応する振幅情報を取得すること;取得した振幅情報の発話振幅値Acに関し振幅しきい値との比較を行いマイク207のゲインを増減制御すること;である。
(I)振幅情報データベース
まず、振幅情報データベース1510の記憶内容を図8に示す。
図8において、振幅情報データベース1510には、受付端末20の操作履歴がある患者1名ごとに、患者IDと、取得日時と、入力音量と、振幅情報である発話振幅値Acとが、互いに予め対応付けられた発話履歴情報として、記憶されている。なお、図示を省略しているが、患者に関するその他の情報、例えば氏名、性別、年齢等を別途含むようにしてもよい
患者IDは、各患者が所持する診察券300に記憶された固有の識別情報であり、例えば「A00001」や「A00002」などである。
取得日時は、複数回の発話履歴のそれぞれの日時情報である。この例では、上記マイク207を介し上記発話音情報が取得された日時、例えば「2007年4月1日12時」や「2007年5月10日15時」等となっている。なお、患者IDが取得された日時としてもよい。
入力音量は、複数回の発話履歴のそれぞれの回における音量情報であり、マイク207を介し取得された時間平均の音量を表している。この例では、後述の図9に示すような、所定の時間間隔Tcにおける発話音情報に対応した平均パワー、例えば「1」や「2」などの数値が記憶されている。
発話振幅値Acは、複数回の発話履歴のそれぞれの回における患者の発話音声に対応した振幅値であり、マイク207を介し取得された時間平均の振幅値を表している。この例では、上記時間間隔Tcにおける発話音情報に対応した平均の振幅値、例えば「500」や「1000」などの数値が記憶されている。
(II)発話振幅値の算出、蓄積
以下、この発話振幅値Acの算出及びその後の蓄積について説明する。
受付端末20の受付処理の際、マイク207を介し入力された雑音や発話音声などの音は、対応する振幅あるいは周波数を含む音情報に変換される。この音情報は、アナログ信号、すなわち連続信号である。図9に、マイク207に入力された音に基づく音情報の音波形の一例を示す。この例では、それぞれ横軸に時間Tをとり、縦軸に音情報に対応した振幅値Aをとった音波形の一例を示している。図示のように、音情報は、時系列で振幅値Aが変化する連続した音波形で表すことができる。なお、振幅値Aは例えばマイク207の入力電圧に対応している。
ここで、本実施形態では、上記の音情報が(a)雑音のみであるか、発話音声が含まれるか;(b)発話音声が含まれる場合には、音声認識可能な振幅レベルに達しているか;を識別する。そして、その識別結果に応じて、発話振幅値Acの取り扱いを区別している(詳細は後述)。
すなわちまず、本実施形態では、雑音の有無を識別するために、予め、マイク207に入力される雑音に基づく音情報に対応した振幅値Aの平均振幅値が算出され、上記識別のためのしきい値として記憶されている。図9に示す例では、例えば、上記雑音の平均振幅値をA=+100,−100と設定している。すると、上記のようにして変換された音情報に対応した振幅値Aが、上記雑音の平均振幅値A=+100より大きい値か、A=−100より小さい値の場合には、上記入力された音に雑音以外の音、すなわち発話音声が含まれていると判断される。そして、このA>100又はA<−100となる区間である時間間隔Taが、受付端末20により発話音情報が取得される区間、言い換えれば、実際に患者が発話した発話区間、すなわち音声区間となる。
ここで、正確な音声認識を精度よく実行するためには、雑音以外の発話音声が認められた上記音声区間の中で、さらにあるレベル以上の振幅値が必要である。そこで本実施形態では、この音声認識可能なレベルの振幅値となる区間(以下適宜、「音声認識可能な区間」と称する)の検出が行われる。すなわち、本実施形態では、発話音情報に対応した振幅値Aについて、音声認識可能な区間を検出するための所定の振幅値(以下適宜、「認識しきい値」と称する)が、予め記憶されている。図9に示す例では、この認識しきい値をA=+500,−500と設定している。すると、所定時間間隔T1、例えば0.1秒間において、上記のようにして変換された音情報に対応した振幅値Aが、上記認識しきい値を超える値、すなわちA=+500より大きい値か、A=−500より小さい値となる振幅があるかどうかが判断される。上記のような振幅があった場合には、さらに、上記時間間隔T1において、当該振幅の零交差数Cが所定数、例えば6個を超えたかどうかが判断される。
零交差数Cとは、所定時間内において、音情報の振幅レベルが正から負及び負から正へと零レベルを交差する回数である。例えば、図9中(時間T方向)拡大図に示すように、所定の時間間隔Tcにおける振幅の零交差数Cは、C=8となっている。
そして、上記時間間隔T1において、音情報に対応した振幅値AがA=+500より大きい値か、A=−500より小さい値となる振幅の零交差数Cが、上記所定数を超えた場合には、音声認識可能な振幅値レベルに達していると判断され、その後の時点から、音声認識可能な区間の検出が開始される。図9に示す例では、上記時間間隔T1において、音情報に対応した振幅値AがA=+500より大きい値か、A=−500より小さい値となる振幅の零交差数Cが、上記所定数を超えた、最初の当該時間間隔T1が、時間間隔Tcである場合を示している。
その後、上述の判断が行われ、音声認識可能な区間の検出が開始された後に、上記時間間隔T1において、音情報に対応した振幅値AがA=+500より大きい値か、A=−500より小さい値となる振幅がなかった場合、又は、当該振幅があっても、上記時間間隔T1において、当該振幅の零交差数Cが、上記所定数を超えなくなった場合には、音声認識可能な振幅値レベルに達していないと判断され、音声認識可能な区間の検出が終了される。図9に示す例では、音声認識可能な区間の検出が開始された後に、上記のように音声認識可能な振幅値レベルに達していないと判断された、最初の上記時間間隔T1が、時間間隔Tdである場合を示している。
そして、このようにして検出された、上記時間間隔Tc以後で、上記時間間隔T1において、音情報に対応した振幅値AがA=+500より大きい値か、A=−500より小さい値となる振幅の零交差数Cが、上記所定数を超えている区間である時間間隔Tbが、受付端末20により発話音情報の音声認識が実行される区間となる。
このとき、本実施形態では、詳細には、上記時間間隔T1において、音情報に対応した振幅値AがA=+500より大きい値か、A=−500より小さい値となる振幅の零交差数Cが上記所定数を超えたら、その時点で、対応する発話振幅値Acを算出する。具体的には、本実施形態においては、図9に示すように、上記時間間隔T1において、音情報に対応した振幅値AがA=+500より大きい値か、A=−500より小さい値となる振幅の零交差数Cが、上記所定数を超えた、最初の上記時間間隔T1、すなわち時間間隔Tcにおける振幅値Aの平均値を、発話振幅値Acとする。なお、この図9に示したように、音声認識可能な区間が検出される場合においては、上記認識しきい値、この例ではA=+500,−500が、所定の振幅レベルしきい値に相当する。
このように発話振幅値Acが算出されると、当該発話振幅値Acを含む振幅情報が、患者ID、取得日時、及び入力音量と対応付けられて、図8に示した振幅情報データベース1510に記憶される。すなわち、その振幅情報が、対応する患者IDに対する新たなデータとして追加され、その追加された態様で振幅情報データベース1510が更新されるのである。このようにして、受付端末20により受付処理が行われるたびに、言い換えれば患者が発話するたびに、振幅情報データベース1510に、上記発話振幅値Acを含む振幅情報等の発話履歴情報が記憶、蓄積される。但し、この際、振幅情報データベース1510の最後の更新日時から所定の期間(詳細は後述)が経過していない場合には、算出された発話振幅値Acの値は振幅情報データベース1510に記憶された最新のデータ内容とほとんど変わらないと見なし、更新は行われない。
ところで、上記図9は、音情報の取得後、音声認識可能な区間の検出ができた場合の音波形の一例である。前述したように、音情報の取得はできたが音声認識可能な区間の検出ができなかった場合の音波形の一例を、図10に示す。図10に示すように、上記音声認識可能な区間を検出できない場合は、図9の場合と異なり、取得された音情報のうち、上記時間間隔T1において、音情報に対応した振幅値Aが、上記雑音の平均振幅値を超える値、すなわちA=+100より大きい値か、A=−100より小さい値となる振幅の零交差数Cが、上記所定数を超えた、最初の上記時間間隔T1における振幅値Aの平均値を、発話振幅値Acとする。この例では、当該最初の時間間隔T1が、時間間隔Tc′である場合を示している。なお、図10中(時間T方向)拡大図に示すように、この時間間隔Tc′における振幅の零交差数Cは、上記図9に示す時間間隔Tcにおける振幅の零交差数Cと同様、C=8となっている。また、この図10に示したように、上記図9と異なり、音声認識可能な区間が検出されない場合においては、上記雑音の平均振幅値、この例ではA=+100,−100が、所定の振幅レベルしきい値に相当する。
但し、この場合は、上記図9の場合と異なり、振幅情報データベース1510の最後の更新日時からの経過時間に関係なく、この発話振幅値Acを含む振幅情報が新たなデータとして必ず追加され、振幅情報データベース1510が更新される。
(III)データベースからの発話振幅値の取得、平均値の算出
上記のようにして、過去の来訪時における患者の振幅情報が振幅情報データベース1510に既に蓄積された状態で、当該患者が病院に来院し、前述のリーダ213の通信範囲内に診察券300をかざすと、当該診察券300から情報が読み取られ、患者IDが取得される。これにより、振幅情報データベース1510へアクセスされ、振幅情報データベース1510内に蓄積された、複数の発話振幅値Acを含む振幅情報が取得される。そしてそれら取得された複数の発話振幅値Acの平均値が算出される。
発話振幅値Acの平均値の算出の手法を図11により説明する。この図11では、上記リーダ213を介して患者の診察券300から取得された患者IDが、「A00001」であった場合を示している。
図11において、上記のようにして患者ID(この例では「A00001」)が取得されると、図8に示す振幅情報データベース1510へアクセスされ、当該患者IDをキーとして、振幅情報データベース1510内を参照し、対応する複数の、この例では10個の、発話振幅値Acが取得される。これにより、当該取得された10個の発話振幅値Acの平均値Aaveの算出が行われる。
すなわち、この例では、上記平均値Aaveは、
Aave=(500+1000+1200+1200+1000+1000+900+900+1000+1000)/10=970
と算出される。
(IV)振幅判定、及び、その判定結果に基づくゲイン制御等
上記のようにして発話振幅値の平均値Aaveが算出されることにより、当該患者の発話特性、すなわち、発話振幅値が比較的大きく発話音量が比較的大きい傾向にある人か、発話振幅値が比較的小さく発話音量が比較的小さい傾向にある人か、を特定することが可能となる。そして、本実施形態では、まず、算出された発話振幅値の平均値Aaveを、所定のモード切り替え用しきい値と比較する。
図12は、上記算出された平均値Aaveと、所定のモード切替用しきい値との比較結果、及び、当該比較結果に応じた処理を説明した説明図である。
図12において、上記のような手法により算出された平均値Aaveと、所定のモード切替用しきい値At0とが比較される。この例では、モード切替用しきい値At0は、先にA=+100,−100の設定例を示した雑音の平均振幅値よりも少し大きい値となっている。そして、当該比較結果に応じた入力モード、すなわち、音声認識モード又はタッチパネル操作モードのいずれかに切り替えが行われる。
すなわち、上記比較結果が、Aave>At0であった場合、比較的大きな発話音量が期待できることから、上記ゲインの制御を行えば、マイク207に入力される発話音声の音声認識によって当該患者からの受付情報を取得できる可能性が高い。したがって、この場合は、入力モードが、患者の発話音声に基づき受付処理を行う第1モードとしての音声認識モードに切り替えられる。そして、上記平均値Aaveと、後述する所定の振幅しきい値との比較がさらに行われ、その比較結果に応じて、予め定められた制御態様により、上記ゲインが増減制御される(詳細は後述)。このようにゲインが増減制御された音声認識モードにより、後述の各シナリオに沿った受付処理において、スピーカ208を介し出力される所定の案内音声や質問に応じた患者の発話音声に基づき、上記受付情報が取得されるのである。
一方、上記比較結果が、Aave≦At0であった場合、発話音量が非常に小さく、上記ゲインの制御を行っても音声認識漏れを起こす可能性が高く、上記受付情報を取得できる可能性は低い。したがって、この場合は、入力モードが、患者の手動操作に基づき受付処理を行う第2モードとしてのタッチパネル操作モードに切り替えられる。このタッチパネル操作モードでは、後述の各シナリオに沿った受付処理において、患者がタッチパネル210に表示された各種操作ボタンを手動操作することにより、上記受付情報が取得される。
図13は、以上のようにして実行される受付処理における各シナリオの一例を概念的に説明した説明図である。
図13において、前述したように、本実施形態における受付処理は、予め定められた複数のシナリオに沿って実行される。この例では、複数のシナリオとして、シナリオ1〜シナリオ5が設けられている場合を示している。これらの複数のシナリオは、シナリオ1(待ち受け画面。初期画面)→シナリオ2→シナリオ3→シナリオ4→シナリオ5の順序で実行される。
「主体」は、各シナリオにおける発話主体又は操作主体を表しており、システム又は患者のどちらかである。主体がシステムである場合には、受付端末20は、スピーカ208を介し所定の案内音声を出力する。なお、さらにタッチパネル210に案内音声と同様の内容の表示も行うようにしてもよい。主体が患者である場合には、患者は、上記のスピーカ208を介し出力された所定の案内音声に応じて、発話又はタッチパネル210を介しての手動操作を行う。
「内容」は、上記主体がシステムの場合は受付端末20がスピーカ208を介し出力する所定の案内音声やタッチパネル210における表示の内容の一例を表している。上記主体が患者の場合は、上記のスピーカ208を介し出力された所定の案内音声に応じて発話又は手動操作する内容の一例を表している。
なお、この例では、前述した平均値Aaveの算出、入力モードの切り替え、及びゲインの増減制御は、シナリオ1とシナリオ2との間に行われる(図示せず)。また、この例では、前述の振幅情報データベース1510の更新は、シナリオ2とシナリオ3との間、シナリオ3とシナリオ4との間、及びシナリオ4とシナリオ5との間に行われる(図示せず)。
図14は、以上説明した内容を実現するために、受付端末20の制御回路部200により実行する制御手順を表すフローチャートである。なお、このフローに示す処理は、HDD205のプログラム記憶エリア256に記憶された患者受付処理用のプログラム群、すなわち前述のシステムプログラム、通信プログラム、描画プログラム、音声認識プログラム、DB照合プログラム等に従って、CPU201が実行するものである。
図14において、例えば受付端末20の電源ONによって、このフローが開始される(「START」位置)。まずステップS5で、タッチパネル210に表示信号を出力し、「診察券をタッチしてください」の旨のテキストを含む待ち受け状態の画面、すなわち初期画面を表示させる。
その後、ステップS10で、I/Oインタフェイス204、通信制御部215、接続ケーブル216、及びリーダ213を介し、診察券300に記憶された情報を読み取るための読み取り信号を送信し、情報の読み取りを行う。
そして、ステップS15で、診察券300から上記ステップS10で送信した読み取り信号に対応する応答(リプライ)信号を、リーダ213、接続ケーブル216、通信制御部215、及びI/Oインタフェイス204を介して受信したかどうかを判定する。診察券300から応答信号を受信しない場合、すなわち患者により診察券300がリーダ213の通信範囲内にかざされていない場合には、判定が満たされず上記ステップS10に戻り、再び上記読み取り信号の送信を繰り返す。そして、診察券300から応答信号を受信した場合、すなわち患者により診察券300がリーダ213の通信範囲内にかざされた場合には、判定が満たされてステップS20に移る。
ステップS20では、上記ステップS15で受信した応答信号に基づき、診察券300に記憶された患者IDを取得する。このステップが、識別情報取得手段として機能する。
その後、ステップS25で、DBサーバ10の患者情報データベース記憶エリア157に記憶された患者情報データベースにアクセスする。そして、上記ステップS20で取得された患者IDをキーとして、患者情報データベース内を参照し、対応する氏名、性別、年齢等の患者情報を取得し、患者が誰であるかを特定する。
そして、ステップS100で、上記入力モードの切り替えを行うモード切替処理(詳細は後述の図15参照)を実行する。
その後、ステップS30で、上記ステップS100で切り替えられた入力モードが音声認識モードであるかどうかを判定する。音声認識モードである場合には、判定が満たされてステップS150に移る。
ステップS150では、所定の判定結果(後述)に応じて上記ゲインの増減制御を行うゲイン制御処理(詳細は後述の図16参照)を実行する。
そして、ステップS35で、上記音声認識モードに対応し、上述したシナリオに沿う、音声認識を用いた受付処理を開始する。
その後、ステップS200で、上記振幅情報データベース1510に情報を記憶させ、更新を行うDB更新処理(詳細は後述の図17参照)を実行する。
そして、ステップS40で、上記ステップS35で開始された音声認識による受付処理が終了しているかどうかを判定する。まだ受付処理が継続中である場合には、判定が満たされず上記ステップS200に戻り、同様の手順を繰り返し、受付処理が終了したら、判定が満たされて後述のステップS60に移る。
一方、上記ステップS30において、上記ステップS100で切り替えられた入力モードがタッチパネル操作モードであった場合には、ステップS30の判定が満たされずステップS45に移る。
ステップS45では、上記タッチパネル操作モードに対応し、上述したシナリオに沿う、タッチパネル210を介しての手動操作に基づく受付処理を開始する。
その後、ステップS50で、DBサーバ10の振幅情報データベース1510にアクセスし、上記ステップS20での患者IDの取得日時、及び、入力モードがタッチパネル操作モードである旨の情報を、当該患者IDと対応付けて記憶させ、振幅情報データベース1510を更新する。
そして、ステップS55で、上記ステップS45で開始されたタッチパネル210を介しての手動操作による受付処理が終了しているかどうかを判定する。受付処理が継続中である場合には、判定が満たされずループ待機し、受付処理が終了したら、判定が満たされてステップS60に移る。
ステップS60では、所定の終了操作、例えば受付端末20の電源OFF操作が行われたかどうかを判定する。終了操作が行われていない場合には、判定が満たされずステップS5に移り、同様の手順を繰り返す。終了操作が行われていた場合には、判定が満たされて、このフローを終了する。
図15は、上記図14のステップS100の詳細手順の一例を表すフローチャートである。
図15において、まずステップS105では、DBサーバ10の振幅情報データベース1510にアクセスし、振幅情報データベース1510内に、上記図14のステップS20で取得された患者IDに対応する発話履歴情報が記憶されているかどうかを判定する。上記発話履歴情報が記憶されていない場合には、判定が満たされず後述のステップS125に移る。上記発話履歴情報が記憶されている場合には、判定が満たされてステップS110に移る。
ステップS110では、振幅情報データベース1510に記憶された、上記図14のステップS20で取得された患者IDに対応する、複数回の発話履歴のそれぞれの回の発話振幅値Acを含む振幅情報を取得する。このステップが振幅情報取得手段として機能する。
その後、ステップS115で、先に図11を用いて説明したように、上記ステップS110で取得された振幅情報に含まれる複数の発話振幅値Acの平均値Aaveを算出する。このステップが平均値算出手段として機能する。
そして、ステップS120で、上記ステップS115で算出された平均値Aaveと、上記モード切替用しきい値At0とを比較し、Aave>At0であるかどうかを判定する。Aave>At0である場合には、判定が満たされてステップS125に移り、上記入力モードを音声認識モードに切り替える。その後、このルーチンを終了する。
一方、上記ステップS120において、Aave≦At0であった場合には、ステップS120の判定が満たされずステップS130に移り、上記入力モードをタッチパネル操作モードに切り替える。そして、このルーチンを終了する。
図16は、上記図14のステップS150の詳細手順を表すフローチャートである。
図16において、まずステップS155では、上記図15のステップS115における上記平均値Aaveの算出の手順が行われていたかどうか、言い換えれば、上記図15のステップS105での判定が満たされていたかどうかを判定する。上記ステップS115における上記平均値Aaveの算出の手順が行われていなかった場合、すなわちステップS105の判定が満たされていなかった場合には、ステップS155の判定が満たされず、このルーチンを終了する。一方、上記ステップS115における上記平均値Aaveの算出の手順が行われていた場合、すなわちステップS105の判定が満たされていた場合には、ステップS155の判定が満たされてステップS160に移る。
ステップS160では、上記図15のステップS115で算出された上記平均値Aaveと、所定の振幅しきい値としての第1振幅しきい値At1とを比較し、Aave<At1であるかどうかを判定する。第1振幅しきい値At1は、この例では上記モード切替用しきい値At0よりも大きく、上記認識しきい値よりも小さい値である。Aave<At1である場合には、判定が満たされてステップS165に移る。
ステップS165では、上記ゲインを値G1に設定する。この例ではG1>1であり、例えばG1=20である。これにより、マイク207に音が入力され音情報に変換されると、当該音情報は、ゲイン可変アンプ209によって、上記設定されたゲインの値G1に基づき、例えば20倍に増幅される。その後、このルーチンを終了する。
一方、上記ステップS160において、比較結果が、Aave≧At1であった場合には、ステップS160の判定が満たされずステップS170に移る。
ステップS170では、上記図15のステップS115で算出された上記平均値Aaveと、所定の振幅しきい値としての第2振幅しきい値At2とを比較し、Aave<At2であるかどうかを判定する。第2振幅しきい値At2はこの例では上記第1振幅しきい値At1よりも大きく、上記認識しきい値とほぼ同じ大きさの値である。Aave<At2である場合には、判定が満たされてステップS175に移る。
ステップS175では、上記ゲインを値G2に設定する。この例ではG1>G2>1であり、例えばG2=10である。これにより、マイク207に音が入力され音情報に変換されると、当該音情報は、ゲイン可変アンプ209によって、上記設定されたゲインの値G2に基づき、例えば10倍に増幅される。その後、このルーチンを終了する。
一方、上記ステップS170において、比較結果が、Aave≧At2であった場合には、ステップS170の判定が満たされずステップS180に移る。
ステップS180では、上記図15のステップS115で算出された上記平均値Aaveと、上記第2振幅しきい値At2とを比較し、Aave=At2であるかどうかを判定する。Aave=At2である場合には、判定が満たされてステップS185に移る。
ステップS185では、上記ゲインを1に設定する。これにより、マイク207に音が入力され音情報に変換されると、当該音情報は、ゲイン可変アンプ209によるゲインの増幅が実質的になされずに、端末本体20Aに入力される。その後、このルーチンを終了する。
一方、上記ステップS180において、比較結果が、Aave>At2であった場合には、ステップS180の判定が満たされずステップS190に移る。
ステップS190では、上記図15のステップS115で算出された上記平均値Aaveと、所定の振幅しきい値としての第3振幅しきい値At3とを比較し、Aave<At3であるかどうかを判定する。第3振幅しきい値At3はこの例では上記第2振幅しきい値At2及び上記認識しきい値よりも大きい値である。比較結果が、Aave<At3である場合には、判定が満たされてステップS195に移る。
ステップS195では、上記ゲインを値G3に設定する。この例では0<G3<1であり、例えばG3=0.1である。これにより、マイク207に音が入力され音情報に変換されると、当該音情報は、ゲイン可変アンプ209によって、上記設定されたゲインの値G3に基づき、例えば0.1倍に増幅される。言い換えれば1/10に減衰される。その後、このルーチンを終了する。
一方、上記ステップS190において、比較結果が、Aave≧At3であった場合には、ステップS190の判定が満たされずステップS197に移る。
ステップS197では、上記ゲインを値G4に設定する。この例では0<G4<G3であり、例えばG4=0.05である。これにより、マイク207に音が入力され音情報に変換されると、当該音情報は、ゲイン可変アンプ209によって、上記設定されたゲインの値G4に基づき、例えば0.05倍に増幅される。言い換えれば1/20に減衰される。その後、このルーチンを終了する。
図17は、上記図14のステップS200の詳細手順を表すフローチャートである。
図17において、まずステップS205で、前述の雑音の平均振幅値よりも大きい振幅値Aを持った音情報、言い換えれば、患者の発話音声に基づく発話音情報が、マイク207を介して入力されたかどうかを判定する。図9及び図10の例では、A>100又はA<−100になる音情報が入力されたかどうかの判定となる。当該音情報がマイク207を介し入力されていない場合、すなわち発話音情報が入力されていない場合には、判定が満たされず、このルーチンを終了する。当該音情報がマイク207を介し入力された場合、すなわち発話音情報が入力された場合には、判定が満たされてステップS210に移る。
ステップS210では、マイク207を介し入力された患者の発話音声を含む音により、対応する振幅あるいは周波数を含む発話音情報を取得する。このステップが音取得手段として機能する。
その後、ステップS215で、前述の図9で説明した手法により、上記ステップS210で取得された発話音情報に基づき、前述の音声認識可能な区間が検出できたかどうかを判定する。音声認識可能な区間が検出できた場合には判定が満たされ、公知の音声認識処理を実行開始した後、ステップS220に移る。
ステップS220では、振幅情報データベース1510に記憶された、上記図14のステップS20で取得された患者IDに係る最新の発話履歴情報の取得日時すなわち最後の更新日時から、上記ステップS20で患者IDを取得した最新の取得日時すなわち今回の受付処理での患者IDの取得日時までの経過期間が、所定の更新用しきい値に達したかどうかを判定する。すなわち図8に示す例では、上記患者IDを「A00001」とすると、「2009年4月3日10時」からの経過期間が、例えば第2経過期間としての2週間に達したかどうかを判定する。このステップが更新判定手段として機能する。上記経過時間が上記更新用しきい値に達していない場合には、判定が満たされず、このルーチンを終了する。上記経過時間が上記更新用しきい値に達していた場合には、判定が満たされてステップS225に移る。
ステップS225では、上記ステップS210で取得された発話音情報に基づき、対応する発話振幅値Acを算出する。具体的には、前述の図9で説明したように、上記ステップS210で取得された発話音情報のうち、上記時間間隔T1において、発話音情報に対応した振幅値Aが上記認識しきい値を超えた振幅の零交差数Cが、上記所定数を超えた、最初の上記時間間隔T1(前述の例では時間間隔Tc)における発話音情報に対応した振幅値Aの平均値を算出する。算出された当該最初の上記時間間隔T1における振幅値Aの平均値が発話振幅値Acに相当する。その後、後述のステップS230に移る。
一方、上記ステップS215において、音声認識可能な区間が検出できなかった場合には、ステップS215の判定が満たされず、ステップS226に移る。
ステップS226では、上記ステップS210で取得された発話音情報に基づき、対応する発話振幅値Acを算出する。具体的には、前述の図10で説明したように、上記ステップS210で取得された発話音情報のうち、上記時間間隔T1において、発話音情報に対応した振幅値Aが上記雑音の平均振幅値を超えた振幅の零交差数Cが、上記所定数を超えた、最初の上記時間間隔T1(前述の例では時間間隔Tc′)における発話音情報に対応した振幅値Aの平均値を算出する。算出された当該最初の上記時間間隔T1における振幅値Aの平均値が発話振幅値Acに相当する。
そして、ステップS230で、DBサーバ10の振幅情報データベース1510にアクセスし、上記ステップS210での発話音情報の取得日時、当該発話音情報に対応する音量、及び上記ステップS225又はステップS226で算出された発話振幅値Acを、上記図14のステップS20で取得された患者IDと対応付けて記憶させ、振幅情報データベース1510を更新する。その後、このルーチンを終了する。
なお、上記において、図15のステップS120と、図16に示すステップS160、ステップS170、ステップS180、及びステップS190とが、各請求項記載の振幅比較手段として機能する。また、図16に示すステップS165、ステップS175、ステップS185、ステップS195、及びステップS197が、感度制御手段として機能する。さらに、図14に示すステップS50及び図17に示すステップS230が、振幅情報更新手段として機能し、図15に示すステップS125及びステップS130が、モード切替手段として機能する。
以上説明したように、本実施形態の受付端末20においては、患者が診察券300をリーダ213の通信範囲内にかざすと、リーダ213を介して診察券300に対し情報読み取りを行い、患者IDを取得する。そして、このようにして患者IDが取得されると、図8の振幅情報データベース1510にアクセスし、上記取得した患者IDに対応した上記振幅情報を取得する。そして、この取得された振幅情報に含まれる発話振幅値Acと、所定の振幅しきい値、上記の例では、第1振幅しきい値At1、第2振幅しきい値At2、及び第3振幅しきい値At3とを対比させ、その比較結果に応じた制御態様により、上記ゲインを増減制御する。
これにより、発話振幅値Acが比較的大きく発話音量が比較的大きい傾向にある患者に対しては、発話音声が比較的大きいレベルで入力されることから上記ゲインを前述のG3,G4のように低い値とすることができる。逆に、発話振幅値Acが比較的小さく発話音量が比較的小さい傾向にある患者に対しては、発話音声が比較的小さいレベルで入力されることから上記ゲインを前述のG1,G2のように高い値とすることができる。
このように、各患者の発話態様に応じ、適切な信号レベルで音情報を取得して処理を行えるので、音声認識漏れのない確実な受付処理を行うことができる。
また、本実施形態では特に、上記時間間隔T1において、所定の振幅レベルしきい値、すなわち上記の例では、上記音声認識可能な区間が検出できた場合には上記認識しきい値、上記音声認識可能な区間が検出できなかった場合には上記雑音の平均振幅値、を超える振幅の零交差数Cが所定数を超えた、最初の当該時間間隔T1における発話振幅値Acを含む振幅情報を取得する。これにより、患者の発話音声のうち、話し始めの発話音声に基づく発話音情報に対応した振幅情報を取得することができるので、患者の話し始めの発話音声についても確実に漏れなくゲイン制御を行うことができる。
また、本実施形態では特に、患者による複数回の過去の発話履歴における発話振幅値Acを含む振幅情報を取得し、その取得された複数の発話振幅値Acの平均値Aaveを算出し、その算出された平均値Aaveと、上記振幅しきい値At1,At2,At3との比較を行う。これにより、各患者の発話態様の定性的な傾向を確実に反映した高精度なゲイン制御を行うことができるので、確実に音声認識漏れを防止することができる。
また、本実施形態では特に、患者の発話音声に基づきマイク207を介し取得された発話音情報に対応した振幅情報を、当該患者に対応した患者IDと対応付けて記憶させ、振幅情報データベース1510を更新する。これにより、患者の発話音声に基づき取得した発話音情報に対応した振幅情報を、当該患者に関する最新の発話履歴として振幅情報データベース1510に蓄積することができる。この結果、当該患者に対する次回の受付処理において、最新の発話傾向を確実に反映させたゲイン制御を行うことができる。
ここで、患者の発話傾向は個性やクセ等に基づくものであり、短期間にそう大きく変化するものではない場合が多い。そこで、これに対応して、本実施形態では特に、上記最後の更新日時から、患者の診察券300よりリーダ213を介して患者IDを取得した最新の取得日時までの経過期間が、上記更新用しきい値、前述の例では2週間に達したかどうかをステップS220で判定する。そして、当該経過期間が上記更新用しきい値に達したと判定された場合に、ステップS225及びステップS230において振幅情報データベース1510の更新を行う。このように、マイク207を介して新たな発話音情報が取得されるたびに振幅情報データベース1510を更新するのではなく、振幅情報データベース1510に記憶された上記最後の更新日時から所定の経過期間が過ぎた場合にのみ更新を行うようにする。これにより、あまり意味のない振幅情報データベース1510の更新を頻繁に行う無駄を避けることができる。逆に、上記経過期間が経過した場合には必ず振幅情報データベース1510の更新を行うようにすることで、実効的なデータベース更新を確実に実施して精度よいゲイン制御を行うことができる。
また、本実施形態では特に、上記算出された平均値Aaveと、所定のモード切替用しきい値At0との比較を行い、その比較結果に応じて、上記音声認識モードと、上記タッチパネル操作モードとを切り替える。これにより、各患者の発話態様に応じたモードに切り替えることができ、発話音量が非常に小さいレベルで入力される患者については、正確な受付処理を優先し、手動操作に基づく受付処理へと確実に切り替えることができる。
なお、本発明は、上記実施形態に限られるものではなく、その趣旨及び技術的思想を逸脱しない範囲内で種々の変形が可能である。以下、そのような変形例を順を追って説明する。
(1)発話振幅値に重み付けを設定する場合
上記実施形態では、振幅情報データベース1510に記憶された複数の発話振幅値Acをそのまま用いて、上記平均値Aaveを算出していたが、これに限られない。すなわち、上記複数の発話振幅値Acに対して、振幅情報データベース1510を更新してからの経過時間の長さに応じた重み付けをそれぞれ設定して、それぞれの重み付けが設定された複数の発話振幅値Acの平均値を算出するようにしてもよい。
図18は、各発話振幅値Acに対する上記重み付けの設定の手法、及び、それぞれの重み付けが設定された複数の発話振幅値Acの平均値の算出の手法を説明した説明図である。この図18は、前述の図11に対応する図である。この図18では、上記リーダ213を介して患者の診察券300から取得された患者IDが、「A00001」であった場合を示している。
図18において、前述のようにして患者ID、この例では「A00001」が取得されると、図8に示す振幅情報データベース1510へアクセスされる。そして、当該患者IDをキーとして、振幅情報データベース1510内を参照し、対応する複数の、この例では10個の発話振幅値Acを含む振幅情報が、それぞれに対応する取得日時とともに取得される。
そして、上記取得されたそれぞれの取得日時から上記患者IDが取得された最新の取得日時までの経過時間の長さに応じて、すなわち過去の受付処理での発話音情報の取得日時から今回の受付処理での患者IDの取得日時までの第1経過時間の長さに応じて、対応する発話振幅値Acに対して、それぞれ第1重み付けとしての重み付けWが設定される。
図18に示す例では、振幅情報データベース1510に記憶され最下段に図示される、最新の取得日時である2009年4月3日10時に対応した発話振幅値Acの重み付けWは、W=1と設定されている。また、下から2段目に図示され、2番目に新しい取得日時である2009年1月7日15時に対応した発話振幅値Acの重み付けWは、W=0.9と設定されている。以下同様に続き、最上段に図示され、最古の取得日時である2007年4月1日12時に対応した発話振幅値Acの重み付けWは、W=0.1と設定されている。
そして、上記各発話振幅値Acに対して設定された重み付けWは、対応する各発話振幅値Acに対して乗じる形で付与(設定)され、重み付けWが設定された発話振幅値Ac′が算出される。以下適宜、このような重み付け設定後の発話振幅値を「第1重み付け振幅値Ac′」のように称する。
図18に示す例では、2009年4月3日10時に係る第1重み付け振幅値Ac′はAc′=1000×1=1000と算出され、2009年1月7日15時に係る第1重み付け振幅値Ac′はAc′=1000×0.9=900と算出され、同様に続き、2007年4月1日12時に係る第1重み付け振幅値Ac′はAc′=500×0.1=50と算出されている。
このようにして、振幅情報データベース1510から取得された各発話振幅値Acに対して、それぞれ上記重み付けWを加味した各第1重み付け振幅値Ac′が算出された後、複数の、この例では10個の第1重み付け振幅値Ac′の平均値Aave′の算出が行われる。
すなわち、この例では、上記平均値Aave′は、
Aave′=(50+200+360+480+500+600+630+720+900+1000)/(0.1+0.2+0.3+0.4+0.5+0.6+0.7+0.8+0.9+1)=989.1
と算出される。
ここで、本変形例の受付端末20の制御回路部200により実行する制御手順において、前述の図14と異なる点は、ステップS100及びステップS150であり、その他の手順は図14の各手順と同様である。以下、図19を用いて、本変形例におけるステップS100相当のステップS100′の詳細手順を説明する。
図19は、上記ステップS100′の詳細手順を表すフローチャートである。この図19は、前述の図15に対応する図である。図15と同等の手順には同符号を付し説明を省略する。
図19において、前述の図15と異なる点は、ステップS110、ステップS115、及びステップS120に代えて、ステップS110′、ステップS115′、及びステップS120′を設け、さらにステップS110に代えて設けたステップS110′と、ステップS115に代えて設けたステップS115′との間に、新たにステップS112及びステップS114を設けた点である。
すなわち、前述の図15と同様のステップS105において、振幅情報データベース1510内に、前述の図14のステップS20で取得された患者IDに対応する発話履歴情報が記憶されているかどうかを判定し、当該発話履歴情報が記憶されている場合には、判定が満たされてステップS110に代えて設けたステップS110′に移る。
ステップS110′では、上記ステップS110と同様、振幅情報データベース1510に記憶された、前述の図14のステップS20で取得された患者IDに対応する、複数回の発話履歴のそれぞれの回の発話振幅値Acを含む振幅情報を、それぞれ対応する取得日時とともに取得する。このステップが振幅情報取得手段として機能する。
そして、新たに設けたステップS112で、上記ステップS110′で取得された取得日時から、前述の図15のステップS20で取得された最新の取得日時まで、言い換えれば今回の受付処理での患者IDの取得日時まで、の経過時間の長さに応じて、対応する発話振幅値Acに対して、それぞれ重み付けWを設定する。
その後、新たに設けたステップS114で、上記ステップS112で各発話振幅値Acに対して設定された重み付けWを、対応する各発話振幅値Acに対して乗算して付与し、上記第1重み付け振幅値Ac′を算出する。
そして、ステップS115に代えて設けたステップS115′で、図18を用いて前述したように、上記ステップS114で算出された複数の第1重み付け振幅値Ac′の平均値Aave′を算出する。このステップが平均値算出手段として機能する。
その後、ステップS120に代えて設けたステップS120′で、上記ステップS115′で算出された上記平均値Aave′と、前述のモード切替用しきい値At0とを比較し、Aave′>At0であるかどうかを判定する。なお、このステップも振幅比較手段として機能する。Aave′>At0である場合には、判定が満たされてステップS125に移り、Aave′≦At0である場合には、判定が満たされずステップS130に移る。
ステップS125及びステップS130は、前述の図15と同様であるので、説明を省略する。
また、本変形例におけるステップS150の詳細手順は、前述の図16における平均値Aaveの記載を、平均値Aave′に置き換えたものとほぼ同様である。
なお、上記において、ステップS112及びステップS114が、各請求項記載の第1重み付け設定手段として機能する。
以上説明したように、本変形例においては、振幅情報データベース1510に記憶された、過去の受付処理での発話音情報の取得日時を発話振幅値Acと対応付けた振幅情報を、上記取得日時とともに取得する。そして、その取得された取得日時から、今回の受付処理において患者IDを取得した最新の取得日時までの、経過期間の長さに応じた重み付けWを各発話振幅値Acに対して設定し第1重み付け振幅値Ac′を算出する。そして、重み付けWを加味した上記平均値Aave′を算出し、その算出された平均値Aave′と前述の振幅しきい値At1,At2,At3との比較を行う。
これにより、患者の過去の発話履歴に含まれる発話振幅値Acのうち、日付の古いものについては重み付けWを軽くし、日付の新しいものについては重み付けWを重くして平均値Aave′を算出することができる。この結果、最近の患者の発話傾向をより強く反映させたゲイン制御を行うことができるので、さらに確実に音声認識漏れを防止することができる。
(2)発話音量が非常に小さい傾向にある患者に対して報知を行う場合
すなわち、振幅情報データベース1510から取得された発話振幅値Acに基づき、算出された上記平均値Aaveが、非常に小さい患者に対して、スピーカ208やタッチパネル210を用いて、マイク207への入力方法に関する報知(例えば、「もっと近づいてください」や「もっと大きな声で話してください」など)を行うようにしてもよい。
すなわち、本変形例では、前述した手法により算出された平均値Aaveと、前述のモード切替用しきい値At0とが、Aave>At0であった場合に、さらに、上記平均値Aaveについて比較が行われる。具体的には、平均値Aaveが、前述のゲイン増減制御で許容される第1振幅しきい値At1と比較される。この第1振幅しきい値At1は、振幅しきい値としての下限振幅値に相当している。そして、図20に示すように、Aave<At1であった場合に、スピーカ208やタッチパネル210を介して、マイク207への入力方法に関する所定の報知が行われる。例としては、マイク207への近接を依頼する報知や、マイク207への発話音量の増大を依頼する報知などが考えられる。そして、このような報知が行われた後に、前述した入力モードが音声認識モードに切り替えられて、音声認識モードによる受付処理が実行される。
また、一般的に、上記のような報知が行われた場合には、患者は当該報知が行われる前より、例えばマイク207へ接近したり、大きな声で発話したりするため、マイク207に入力される発話音声は、報知前よりも大きくなる。したがって、上記報知が行われた後にマイク207を介して取得される発話音情報に基づき算出された発話振幅値Acは、本来の、すなわち、上記報知が行われなった場合にマイク207を介して取得される発話音情報に基づき算出された発話振幅値Acと比べて大きく算出されることになる。
そこで本変形例においては、上記報知が行われた場合には、当該報知の後にマイク207を介して取得された発話音情報に基づく発話振幅値Acを補正するための第2重み付けとしての重み付けWrが、当該発話振幅値Acに対して付与(設定)される。この例では、上記重み付けWrは、0<Wr<1、例えば0、5であり、当該重み付けWrが上記発話振幅値Acに対して乗じられる。そして、上記重み付けWrが設定された発話振幅値Ac″が算出される。以下適宜、このような重み付け設定後の発話振幅値を「第2重み付け振幅値Ac″」のように称する。
そして、この第2重み付け振幅値Ac″を含む振幅情報が、前述した患者ID、取得日時、及び入力音量と対応付けられて、前述の振幅情報データベース1510に記憶され、振幅情報データベース1510が更新される。
ここで、本変形例の受付端末20の制御回路部200により実行する制御手順において、前述の図14と異なる点は、ステップS100及びステップS200であり、その他の手順は図14の各手順と同様である。以下、図21及び図22を用いて、本変形例におけるステップS100に相当するステップS100″、及び、本変形例におけるステップS200に相当するステップS200′の詳細手順を説明する。
図21は、ステップS100″の詳細手順を表すフローチャートであり、前述の図15及び図19に対応する図である。図15と同等の手順には同符号を付し説明を省略する。
図21において、前述の図15と異なる点は、ステップS120とステップS125との間に、新たにステップS122及びステップS124を設けた点である。
すなわち、ステップS105、ステップS110、ステップS115、及びステップS120は、前述の図15と同様である。ステップS120において、Aave>At0であるかどうかを判定し、Aave≦At0である場合には、ステップS130に移り、Aave>At0である場合には、新たに設けたステップS122に移る。
ステップS122では、前述のステップS115で算出された上記平均値Aaveと、上記第1振幅しきい値At1とを比較し、Aave<At1であるかどうかを判定する。なお、このステップも振幅比較手段として機能する。Aave<At1である場合には、判定が満たされて新たに設けたステップS124に移る。
ステップS124では、スピーカ208に音声信号を出力し、「もっと近づいてください」というマイク207への近接を依頼する台詞を出力させる。あるいは、「いつもよりも大きな声で話してください」というマイク207への発話音量の増大を依頼する台詞を出力させるようにしてもよい。そして、このとき、タッチパネル210にテキスト表示も行う。又は、スピーカ208による出力を行わずタッチパネル210による表示のみとしてもよい。なお、このステップS124が、各請求項記載の報知処理手段として機能する。その後、ステップS125に移る。
一方、上記ステップS122において、比較結果が、Aave≧At1であった場合には、ステップS122の判定が満たされず、直接ステップS125に移る。
ステップS125及びステップS130は、前述の図15と同様であるので、説明を省略する。
図22は、ステップS200′の詳細手順を表すフローチャートであり、前述の図17に対応する図である。図17と同等の手順には同符号を付し説明を省略する。
図22において、前述の図17と異なる点は、ステップS225とステップS230との間に、新たにステップS227を設け、さらに新たにステップS229及びステップS231を設けた点である。
すなわち、ステップS205〜ステップS225及びステップS226は、前述の図17と同様である。ステップS225又はステップS226において、前述の手法により発話振幅値Acを算出したら、新たに設けたステップS227に移る。
ステップS227では、上記図21のステップS124の手順(患者に対する報知)が実行されていたかどうかを判定する。上記ステップS124の手順が実行されていなかった場合には、判定が満たされずステップS230に移る。
ステップS230は、前述の図17と同様であり、上記振幅情報データベース1510にアクセスし、発話音情報の取得日時、当該発話音情報に対応する音量、及び発話振幅値Acを、患者IDと対応付けて記憶させ、振幅情報データベース1510を更新する。その後、このルーチンを終了する。
一方、上記ステップS227において、上記図21のステップS124の手順が実行されていた場合には、ステップS227の判定が満たされて、新たに設けたステップS229に移る。
ステップS229では、上記重み付けWrを、前述のステップS225又はステップS226で算出された発話振幅値Acに対して乗算して付与し、上記第2重み付け振幅値Ac″を算出する。このステップが第2重み付け設定手段として機能する。
そして、新たに設けたステップS231で、DBサーバ10の振幅情報データベース1510にアクセスし、前述したステップS210での発話音情報の取得日時、当該発話音情報に対応する音量、及び上記ステップS229で算出された第2重み付け振幅値Ac″を、前述の図14のステップS20で取得された患者IDと対応付けて記憶させ、振幅情報データベース1510を更新する。なお、このステップも振幅情報更新手段として機能する。その後、このルーチンを終了する。
本変形例によれば、振幅情報データベース1510より取得された振幅情報の発話振幅値Acと、上記第1振幅しきい値At1とが比較された結果、上記発話振幅値Acが、第1振幅しきい値At1よりも小さかった場合、マイク207への入力方法に関する報知を行う。なお、この例では、複数の発話振幅値Acの平均値Aaveを用いて上記比較を行っている。これにより、発話音量が非常に小さい傾向にあり、ゲイン制御のみでは適切な信号レベルで音情報を取得することが難しい患者に対し、マイク207に近づいたり、大きな声で発話したりすることで信号レベルを増大できるよう促すことができる。この結果、音声認識漏れをさらに確実になくすことができる。
ここで、上記のように患者に対して報知が行われた場合には、その後マイク207を介し取得される発話音情報に基づく発話振幅値Acは、本来の、すなわち、上記報知が行われなった場合にマイク207を介して取得される発話音情報に基づく発話振幅値Acと比べて大きくなる。そこで、本変形例においては、上記報知が行われた場合に、当該報知の後にマイク207を介し取得された発話振幅値Acを補正するための重み付けWrを、当該発話振幅値Acに対して設定し、第2重み付け振幅値Ac″を算出する。これにより、本来よりも大きな発話振幅値Acを補正して、本来の発話振幅値Acに近づけることができる。この結果、精度よいゲイン制御を行うことができる。
(3)算出された発話振幅値の平均値の大きさ応じて、ゲインの増減制御を行う場合
以上においては、算出された上記平均値Aave、又は、上記重み付けWを加味した平均値Aave′と、上記振幅しきい値At1,At2,At3との比較結果に応じて前述の判定を行い、当該判定結果ごとに予め定められた制御態様により、上記ゲインの増減制御を段階的に行っていた。しかしながら、これに限られず、算出された上記平均値Aave、又は、上記重み付けWを加味した平均値Aave′と、予め固定的に定められた標準振幅値の大きさとの比率を求め、この比率に応じて上記ゲインを設定するようにしてもよい。
(4)患者IDの取得方法
以上においては、周知のICカードである診察券300に対し、リーダ213を介して無線通信を行い患者IDを取得していた。しかしながら、これに限られず、患者IDを記憶させた磁気を備えた磁気カードにより診察券を構成し、この診察券からリーダを介して患者IDを取得するようにしてもよい。又は、患者IDをバーコードに対応させ、このバーコードを備えた診察券からリーダを介して患者IDを取得するようにしてもよい。あるいは、患者による自己の氏名や生年月日等を、例えばタッチパネル210に表示されたソフトウェアキーボードSB(図5参照)を介した、手動操作入力によって取得し、これによって患者が誰であるかを特定して、対応する患者IDを取得するようにしてもよい。
(5)システム構成のバリエーション
上記患者受付システム1においては、各種処理が行われる受付端末20と、DBサーバ10とは、別個の装置であった。しかしながら、これに限られず、音声入力手段を備えたサーバを病院の入口付近に設置し、サーバのみで、各種処理のすべてを行うようにしてもよい。また、振幅情報データベース1510等、HDD150に記憶されている情報を受付端末20側のHDD205に記憶するようにしてもよい。この場合、受付端末20のHDD205が各請求項記載の記憶手段を構成する。さらにはネットワークを介して受付端末20に接続可能な別個の記憶装置に記憶させておき、受付処理中に、必要な情報を読み出す構成としてもよい。この場合、当該別個の記憶装置が各請求項記載の記憶手段を構成する。これらの場合も上記実施形態と同様の効果を得る。
なお、以上において、図6、図7等の各図中に示す矢印は信号の流れの一例を示すものであり、信号の流れ方向を限定するものではない。
また、図14、図15、図16、図17等に示すフローチャートは本発明を上記フローに示す手順に限定するものではなく、発明の趣旨及び技術的思想を逸脱しない範囲内で手順の追加・削除又は順番の変更等をしてもよい。
また、以上は本発明の音声認識装置を、受付装置に適用した場合を例にとって説明したが、これに限られない。その他、音声認識により適宜の処理を自動で行う装置、例えば現金支払い機すなわちいわゆるATMや、チケット販売機、通行料金支払機等に本発明を適用してもよい。
また、以上既に述べた以外にも、上記実施形態や各変形例による手法を適宜組み合わせて利用しても良い。
その他、一々例示はしないが、本発明は、その趣旨を逸脱しない範囲内において、種々の変更が加えられて実施されるものである。
20 受付端末(音声認識装置)
150 ハードディスク装置(記憶手段)
207 マイク(音声入力手段)
208 スピーカ
210 タッチパネル
213 リーダ
1510 振幅情報データベース

Claims (9)

  1. ユーザの発話音声を音声認識して各種処理を行う音声認識装置であって、
    音声を入力するための音声入力手段と、
    前記音声入力手段を介し入力された音により、対応する振幅あるいは周波数を含む音情報を取得する音取得手段と、
    前記ユーザに係わるユーザ識別情報を取得する識別情報取得手段と、
    前記識別情報取得手段により取得された前記ユーザ識別情報に応じて、前記ユーザの発話音声に基づき前記音取得手段により取得された発話音情報に対応した振幅情報と当該ユーザに対応する前記ユーザ識別情報とを予め関連付けて記憶手段に記憶した振幅情報データベースへアクセスし、対応する前記振幅情報を取得する振幅情報取得手段と、
    前記振幅情報取得手段により取得された前記振幅情報の発話振幅値に関し、所定の振幅しきい値との比較を行う振幅比較手段と、
    前記振幅比較手段の比較結果ごとに予め定められた制御態様により、前記音声入力手段のゲインを増減制御する感度制御手段と
    を有することを特徴とする音声認識装置。
  2. 前記振幅情報取得手段は、
    所定時間間隔において所定の振幅レベルしきい値を超える振幅の零交差数が所定数を超えた、最初の当該所定時間間隔における前記発話振幅値を含む前記振幅情報を取得する
    ことを特徴とする請求項1記載の音声認識装置。
  3. 前記振幅情報取得手段は、複数回の発話履歴のそれぞれの回における前記発話振幅値を含む前記振幅情報を取得し、
    その取得された複数の前記発話振幅値の平均値を算出する平均値算出手段を設け、
    前記振幅比較手段は、前記平均値算出手段により算出された前記発話振幅値の前記平均値と、前記振幅しきい値との比較を行う
    ことを特徴とする請求項2記載の音声認識装置。
  4. 前記振幅情報取得手段は、複数回の発話履歴のそれぞれの日時情報を前記発話振幅値と対応付けた前記振幅情報を取得し、
    その取得された前記振幅情報に含まれる前記発話振幅値に対応する前記日時情報から、前記識別情報取得手段が前記ユーザ識別情報を取得した最新の取得日時までの、第1経過期間の長さに応じた第1重み付けを、各発話振幅値に対して設定する第1重み付け設定手段を設け、
    前記平均値算出手段は、前記第1重み付け設定手段によりそれぞれ第1重み付けが設定された前記複数の発話振幅値の前記平均値を算出し、
    前記振幅比較手段は、前記平均値算出手段により算出された、前記第1重み付けを加味した前記平均値と前記振幅しきい値との比較行う
    ことを特徴とする請求項3記載の音声認識装置。
  5. 前記振幅比較手段は、前記平均値算出手段により算出された前記発話振幅値の前記平均値と、所定のモード切替用しきい値との比較を行い、
    かつ、
    前記振幅比較手段による前記平均値と前記モード切替用しきい値との比較結果に応じて、前記ユーザの発話音声に基づき前記各種処理を行う第1モードと、前記ユーザの手動操作に基づき前記各種処理を行う第2モードとを切り替えるモード切替手段
    を有することを特徴とする請求項3又は請求項4記載の音声認識装置。
  6. 前記振幅情報取得手段により取得された前記振幅情報の発話振幅値と、前記振幅しきい値に含まれる、所定の下限振幅値とが前記振幅比較手段により比較された結果、前記振幅情報の発話振幅値が前記下限振幅値よりも小さかった場合、前記音声入力手段への入力方法に関する報知を行う、報知処理手段
    を有することを特徴とする請求項1乃至請求項5のいずれか1項記載の音声認識装置。
  7. 前記報知処理手段により前記報知が行われた場合に、当該報知の後に前記ユーザの発話音声に基づき前記音声入力手段を介し前記音取得手段により取得された、発話音情報に対応した振幅情報に含まれる発話振幅値を補正するための第2重み付けを、当該発話振幅値に対して設定する第2重み付け設定手段
    を有することを特徴とする請求項6記載の音声認識装置。
  8. 前記ユーザの発話音声に基づき前記音声入力手段を介し前記音取得手段により取得された発話音情報に対応した振幅情報か、若しくは、前記第2重み付け設定手段により第2重み付けが設定された前記発話振幅値を含む振幅情報を、当該ユーザの前記ユーザ識別情報と対応付けて前記記憶手段に記憶させ、前記振幅情報データベースを更新する振幅情報更新手段
    を有することを特徴とする請求項1乃至請求項7のいずれか1項記載の音声認識装置。
  9. 前記振幅情報更新手段による最後の前記振幅情報データベースの更新日時から、前記識別情報取得手段が前記ユーザ識別情報を取得した最新の取得日時までの第2経過期間が、所定の更新用しきい値に達したかどうかを判定する更新判定手段をさらに有し、
    前記振幅情報更新手段は、
    前記更新判定手段により前記第2経過期間が前記更新用しきい値に達したと判定された場合に、前記振幅情報データベースの前記更新を行う
    ことを特徴とする請求項8記載の音声認識装置。
JP2009143956A 2009-06-17 2009-06-17 音声認識装置 Pending JP2011002534A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009143956A JP2011002534A (ja) 2009-06-17 2009-06-17 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009143956A JP2011002534A (ja) 2009-06-17 2009-06-17 音声認識装置

Publications (1)

Publication Number Publication Date
JP2011002534A true JP2011002534A (ja) 2011-01-06

Family

ID=43560552

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009143956A Pending JP2011002534A (ja) 2009-06-17 2009-06-17 音声認識装置

Country Status (1)

Country Link
JP (1) JP2011002534A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012216057A (ja) * 2011-03-31 2012-11-08 Toshiba Corp 音声処理装置、及び音声処理方法
CN105355197A (zh) * 2015-10-30 2016-02-24 百度在线网络技术(北京)有限公司 用于语音识别系统的增益处理方法及装置
CN105427387A (zh) * 2015-11-09 2016-03-23 上海语知义信息技术有限公司 语音控制售票机的系统及方法
CN108630202A (zh) * 2017-03-21 2018-10-09 株式会社东芝 语音识别装置、语音识别方法以及语音识别程序
JP2019053614A (ja) * 2017-09-15 2019-04-04 株式会社オプテック 電子カルテシステム
JP2020003925A (ja) * 2018-06-26 2020-01-09 株式会社日立製作所 対話システムの制御方法、対話システム及びプログラム
JP2020085258A (ja) * 2018-11-15 2020-06-04 東芝ライフスタイル株式会社 冷蔵庫の音声対話装置、および冷蔵庫

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012216057A (ja) * 2011-03-31 2012-11-08 Toshiba Corp 音声処理装置、及び音声処理方法
CN105355197A (zh) * 2015-10-30 2016-02-24 百度在线网络技术(北京)有限公司 用于语音识别系统的增益处理方法及装置
CN105427387A (zh) * 2015-11-09 2016-03-23 上海语知义信息技术有限公司 语音控制售票机的系统及方法
CN108630202A (zh) * 2017-03-21 2018-10-09 株式会社东芝 语音识别装置、语音识别方法以及语音识别程序
CN108630202B (zh) * 2017-03-21 2021-12-03 株式会社东芝 语音识别装置、语音识别方法以及记录介质
JP2019053614A (ja) * 2017-09-15 2019-04-04 株式会社オプテック 電子カルテシステム
JP2020003925A (ja) * 2018-06-26 2020-01-09 株式会社日立製作所 対話システムの制御方法、対話システム及びプログラム
US11068288B2 (en) 2018-06-26 2021-07-20 Hitachi, Ltd. Method of controlling communication system including mode switching between modes for receiving a touch input or an audio input, communication system, and storage medium
JP2020085258A (ja) * 2018-11-15 2020-06-04 東芝ライフスタイル株式会社 冷蔵庫の音声対話装置、および冷蔵庫
JP7220058B2 (ja) 2018-11-15 2023-02-09 東芝ライフスタイル株式会社 冷蔵庫の音声対話装置、および冷蔵庫

Similar Documents

Publication Publication Date Title
JP5075664B2 (ja) 音声対話装置及び支援方法
US10777193B2 (en) System and device for selecting speech recognition model
JP2011002534A (ja) 音声認識装置
JP4588069B2 (ja) 操作者認識装置、操作者認識方法、および、操作者認識プログラム
US8977547B2 (en) Voice recognition system for registration of stable utterances
JP5281659B2 (ja) 音声対話装置、対話制御方法及び対話制御プログラム
JP6897677B2 (ja) 情報処理装置及び情報処理方法
CN108630231B (zh) 信息处理装置、感情识别方法以及存储介质
JP2007310137A (ja) 音声認識装置および音声認識プログラム
US11151995B2 (en) Electronic device for mapping an invoke word to a sequence of inputs for generating a personalized command
US11514890B2 (en) Method for user voice input processing and electronic device supporting same
US11263198B2 (en) System and method for detection and correction of a query
US20200219487A1 (en) Information processing apparatus and information processing method
US7983921B2 (en) Information processing apparatus for speech recognition with user guidance, method and program
JP6696803B2 (ja) 音声処理装置および音声処理方法
CN118803147A (zh) 响应用户语音执行包括呼叫的任务的电子装置及操作方法
JP4854732B2 (ja) 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム
EP3790000A1 (en) System and method for detection and correction of a speech query
WO2021009962A1 (ja) 対話装置
KR20190021088A (ko) 음성 명령을 이용한 동작을 수행하는 전자 장치 및 전자 장치의 동작 방법
JP2010206365A (ja) 対話装置
US12062370B2 (en) Electronic device and method for controlling the electronic device thereof
JP4840149B2 (ja) 発音期間を特定する音信号処理装置およびプログラム
CN117577088B (zh) 人机交互方法及装置
JP2020091435A (ja) 音声認識システム、音声認識システムの通知方法、プログラム、及び移動体搭載機器