JP2000089780A - 音声認識方法および音声認識装置 - Google Patents
音声認識方法および音声認識装置Info
- Publication number
- JP2000089780A JP2000089780A JP10254418A JP25441898A JP2000089780A JP 2000089780 A JP2000089780 A JP 2000089780A JP 10254418 A JP10254418 A JP 10254418A JP 25441898 A JP25441898 A JP 25441898A JP 2000089780 A JP2000089780 A JP 2000089780A
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- voice
- model data
- data
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Abstract
(57)【要約】
【課題】 不特定話者を対象とした音声認識技術を安価
な製品に適用しようとする場合、メモリの容量やCPU
の処理能力の面から考えると、規模の大きい標準話者音
声モデルデータを用いるのは困難である。 【解決手段】 話者の年齢や性別などに基づいて予め設
定した範囲に絞り、その範囲に属する不特定の話者群の
音声データから特定話者者音声モデルデータ92を作成
する。そして、この特定話者者音声モデルデータ92を
用いて音声認識対象とする話者の入力した音声を認識す
る。
な製品に適用しようとする場合、メモリの容量やCPU
の処理能力の面から考えると、規模の大きい標準話者音
声モデルデータを用いるのは困難である。 【解決手段】 話者の年齢や性別などに基づいて予め設
定した範囲に絞り、その範囲に属する不特定の話者群の
音声データから特定話者者音声モデルデータ92を作成
する。そして、この特定話者者音声モデルデータ92を
用いて音声認識対象とする話者の入力した音声を認識す
る。
Description
【0001】
【発明の属する技術分野】本発明は、話者の発話する音
声を音声認識する音声認識方法に係わり、特に、認識対
象話者をある範囲に絞って音声認識を行うようにした音
声認識方法および音声認識装置に関する。
声を音声認識する音声認識方法に係わり、特に、認識対
象話者をある範囲に絞って音声認識を行うようにした音
声認識方法および音声認識装置に関する。
【0002】
【従来の技術】近年、音声認識技術を利用した電子機器
が様々な分野で用いられ、その一つとして、音声時計と
呼ばれる時計がある。この音声時計は、音声によって現
在時刻の設定やアラーム時刻の設定が可能であり、ま
た、装置側からは現在時刻を音声によって知らせること
ができるようになっている。
が様々な分野で用いられ、その一つとして、音声時計と
呼ばれる時計がある。この音声時計は、音声によって現
在時刻の設定やアラーム時刻の設定が可能であり、ま
た、装置側からは現在時刻を音声によって知らせること
ができるようになっている。
【0003】このような音声時計は、実用品としてだけ
でななく、子供向けの玩具として用いられることも多
く、装置自体のコストをできるだけ低く押さえることが
望まれる。このため、使用するCPUの処理能力やメモ
リの容量などには大きな制約があり、その制約のもとで
如何に高性能な機能を持たせるかが重要な課題の一つと
なっている。
でななく、子供向けの玩具として用いられることも多
く、装置自体のコストをできるだけ低く押さえることが
望まれる。このため、使用するCPUの処理能力やメモ
リの容量などには大きな制約があり、その制約のもとで
如何に高性能な機能を持たせるかが重要な課題の一つと
なっている。
【0004】
【発明が解決しようとする課題】従来、この種の音声認
識を用いた装置は、不特定話者を対象とした音声認識を
可能とするものも多いが、この不特定話者を対象とした
音声認識を可能とするには、規模の大きい標準話者音声
モデルデータが必要となり、大容量のROMを必要とし
たり、処理能力の高いCPUが必要となって、結局はコ
ストの高いものとなってしまうのが実情であった。
識を用いた装置は、不特定話者を対象とした音声認識を
可能とするものも多いが、この不特定話者を対象とした
音声認識を可能とするには、規模の大きい標準話者音声
モデルデータが必要となり、大容量のROMを必要とし
たり、処理能力の高いCPUが必要となって、結局はコ
ストの高いものとなってしまうのが実情であった。
【0005】また、不特定話者を対象とするといって
も、装置の種類によっては、実際に使用する年代や男女
の性別などは、ある程度は限られたものとなることも多
く、結果的には、ある範囲に限られた標準話者モデルデ
ータがあれば済むということにもなる。このため、規模
の大きな標準話者音声モデルデータを持っていても無駄
が多く、また、広い範囲の不特定話者に対応できるとい
うことは、逆に言えば、それぞれの範囲の話者に対して
平均的に対応できるということでもあり、認識率の面で
も問題があった。
も、装置の種類によっては、実際に使用する年代や男女
の性別などは、ある程度は限られたものとなることも多
く、結果的には、ある範囲に限られた標準話者モデルデ
ータがあれば済むということにもなる。このため、規模
の大きな標準話者音声モデルデータを持っていても無駄
が多く、また、広い範囲の不特定話者に対応できるとい
うことは、逆に言えば、それぞれの範囲の話者に対して
平均的に対応できるということでもあり、認識率の面で
も問題があった。
【0006】そこで本発明は、メモリの容量やCPUの
処理能力に大きな制約のある装置に音声認識技術を適用
する場合、標準音声モデルデータを小規模なものとし
て、しかも高い認識率で認識を可能とする音声認識方法
及び音声認識装置を提供することを目的としている。
処理能力に大きな制約のある装置に音声認識技術を適用
する場合、標準音声モデルデータを小規模なものとし
て、しかも高い認識率で認識を可能とする音声認識方法
及び音声認識装置を提供することを目的としている。
【0007】
【課題を解決するための手段】前述した目的を達成する
ために、本発明の音声認識方法は、不特定複数話者を認
識対象とし、予め定められた複数の単語を認識可能とす
る音声認識方法において、前記不特定複数話者のうち認
識対象話者を年齢や性別などに基づいて予め設定した範
囲に絞り込み、その範囲に属する不特定複数話者の音声
データから特定話者群音声モデルデータを作成し、この
特定話者群音声モデルデータを用いて前記認識対象話者
の入力した音声を認識するようにしている。
ために、本発明の音声認識方法は、不特定複数話者を認
識対象とし、予め定められた複数の単語を認識可能とす
る音声認識方法において、前記不特定複数話者のうち認
識対象話者を年齢や性別などに基づいて予め設定した範
囲に絞り込み、その範囲に属する不特定複数話者の音声
データから特定話者群音声モデルデータを作成し、この
特定話者群音声モデルデータを用いて前記認識対象話者
の入力した音声を認識するようにしている。
【0008】また、前記認識対象話者は、音声の特徴に
基づく複数の話者群から構成され、それぞれの話者群に
属する不特定複数話者の音声データから前記複数の話者
群対応の特定話者群音声モデルデータを作成するように
している。
基づく複数の話者群から構成され、それぞれの話者群に
属する不特定複数話者の音声データから前記複数の話者
群対応の特定話者群音声モデルデータを作成するように
している。
【0009】また、本発明の音声認識装置は、不特定複
数話者を対象とし、予め定められた複数の単語を認識可
能とする音声認識装置において、少なくとも、話者の発
話して得られた音声を分析する音声分析手段と、前記不
特定複数話者のうち認識対象話者を年齢や性別などに基
づいて予め設定した範囲に絞り込むことによって、その
範囲に属する不特定複数話者の音声データから作成され
た特定話者群音声モデルデータと、この特定話者群音声
モデルデータを用いて前記認識対象話者の入力した音声
を認識する制御手段とを有する構成としている。
数話者を対象とし、予め定められた複数の単語を認識可
能とする音声認識装置において、少なくとも、話者の発
話して得られた音声を分析する音声分析手段と、前記不
特定複数話者のうち認識対象話者を年齢や性別などに基
づいて予め設定した範囲に絞り込むことによって、その
範囲に属する不特定複数話者の音声データから作成され
た特定話者群音声モデルデータと、この特定話者群音声
モデルデータを用いて前記認識対象話者の入力した音声
を認識する制御手段とを有する構成としている。
【0010】また、前記認識対象話者は、音声の特徴に
基づく複数の話者群から構成され、前記特定話者群音声
モデルデータは、それぞれの話者群に属する不特定複数
話者の音声データから作成された前記複数の話者群対応
の特定話者群音声モデルデータで構成されている。
基づく複数の話者群から構成され、前記特定話者群音声
モデルデータは、それぞれの話者群に属する不特定複数
話者の音声データから作成された前記複数の話者群対応
の特定話者群音声モデルデータで構成されている。
【0011】このように、本発明は、メモリの容量やC
PUの処理能力に大きな制約のある装置に適用されるこ
とで大きな効果を発揮するものである。特に、装置の使
用者が、たとえば、主に子供であるとか、主に女性であ
るというようにある範囲に限られている場合に効果を発
揮する。
PUの処理能力に大きな制約のある装置に適用されるこ
とで大きな効果を発揮するものである。特に、装置の使
用者が、たとえば、主に子供であるとか、主に女性であ
るというようにある範囲に限られている場合に効果を発
揮する。
【0012】このように認識対象話者をある範囲に絞る
ことができる場合には、あらゆる範囲の話者に対応でき
る標準話者音声モデルデータを用いても無駄が多く、認
識率もあまり期待できない。そこで、不特定複数話者の
うち認識対象話者を年齢や性別などに基づいて予め設定
した範囲に絞り込み、その範囲に属する複数の話者の音
声データから特定話者群音声モデルデータを作成し、こ
の特定話者群音声モデルデータを用いて前記音声認識対
象話者の入力した音声を認識するようにしている。
ことができる場合には、あらゆる範囲の話者に対応でき
る標準話者音声モデルデータを用いても無駄が多く、認
識率もあまり期待できない。そこで、不特定複数話者の
うち認識対象話者を年齢や性別などに基づいて予め設定
した範囲に絞り込み、その範囲に属する複数の話者の音
声データから特定話者群音声モデルデータを作成し、こ
の特定話者群音声モデルデータを用いて前記音声認識対
象話者の入力した音声を認識するようにしている。
【0013】これにより、ある範囲の話者群に対応する
特定話者群音声モデルデータを持てばよいので、音声モ
デルデータのデータ量を大幅に少なくすることができ
る。これにより、それを保存する記憶手段の記憶容量は
小さいもので済み、また、CPUにかかる認識処理の負
担も少なくすることができる。しかも、特定の話者群に
対応した特定話者群音声モデルデータであるので、認識
性能も大幅に向上する。
特定話者群音声モデルデータを持てばよいので、音声モ
デルデータのデータ量を大幅に少なくすることができ
る。これにより、それを保存する記憶手段の記憶容量は
小さいもので済み、また、CPUにかかる認識処理の負
担も少なくすることができる。しかも、特定の話者群に
対応した特定話者群音声モデルデータであるので、認識
性能も大幅に向上する。
【0014】また、このようなある範囲の話者群に対応
する特定話者群音声モデルデータを、幾つか用意するこ
ともできる。たとえば、成人男性用、成人女性用、子供
用など幾つかの話者群に対応して用意することも可能で
ある。これによれば、1つの装置を家族で使用するよう
な場合にも対応できる。このように、幾つかの話者群対
応の特定話者群音声モデルデータを持ったとしても、あ
らゆる範囲の話者に対応できるように作成された標準話
者音声モデルデータを持つよりは、音声モデルデータの
規模をを小さくでき、しかも、それぞれの話者群に対応
した特定話者群音声モデルデータであるので、認識性能
も大幅に向上する。
する特定話者群音声モデルデータを、幾つか用意するこ
ともできる。たとえば、成人男性用、成人女性用、子供
用など幾つかの話者群に対応して用意することも可能で
ある。これによれば、1つの装置を家族で使用するよう
な場合にも対応できる。このように、幾つかの話者群対
応の特定話者群音声モデルデータを持ったとしても、あ
らゆる範囲の話者に対応できるように作成された標準話
者音声モデルデータを持つよりは、音声モデルデータの
規模をを小さくでき、しかも、それぞれの話者群に対応
した特定話者群音声モデルデータであるので、認識性能
も大幅に向上する。
【0015】
【発明の実施の形態】以下、本発明の実施の形態を図面
を参照しながら説明する。なお、この実施の形態では、
音声認識装置の1つの例として、音声時計装置を例にし
て説明する。この音声時計装置(以下では単に装置と表
現する場合もある)は、現在時刻やアラーム時刻の設定
を話者の発話する音声によって行うことが可能で、か
つ、装置側からの時刻の告知も音声によって行うことが
でき、さらに、話者との間で簡単な内容の会話をも可能
とする玩具的な要素の強い装置であるとする。
を参照しながら説明する。なお、この実施の形態では、
音声認識装置の1つの例として、音声時計装置を例にし
て説明する。この音声時計装置(以下では単に装置と表
現する場合もある)は、現在時刻やアラーム時刻の設定
を話者の発話する音声によって行うことが可能で、か
つ、装置側からの時刻の告知も音声によって行うことが
でき、さらに、話者との間で簡単な内容の会話をも可能
とする玩具的な要素の強い装置であるとする。
【0016】図1は本発明の実施の形態である音声時計
装置を構成するに必要な各構成要素を示すブロック図で
ある。まず、図1に示される構成を概略的に説明し、そ
のあとで、本発明の実施の形態を説明する上で特に必要
な部分について詳細に説明する。
装置を構成するに必要な各構成要素を示すブロック図で
ある。まず、図1に示される構成を概略的に説明し、そ
のあとで、本発明の実施の形態を説明する上で特に必要
な部分について詳細に説明する。
【0017】この音声時計装置は、大きく分けると、音
声入力部としてのマイクロホン1と音声入力用アンプ
(マイクアンプという)2、A/D変換部3、音声分析
部4、各種処理を行う制御部(CPU)5、D/A変換
部6、音声出力部としての音声出力用アンプ7とスピー
カ8、第1の記憶手段としてのROM9、第2の記憶手
段としてのRAM10、ユーザが装置に対して各種の設
定を行うための操作部11、時刻信号を発生する計時手
段12などから構成されている。
声入力部としてのマイクロホン1と音声入力用アンプ
(マイクアンプという)2、A/D変換部3、音声分析
部4、各種処理を行う制御部(CPU)5、D/A変換
部6、音声出力部としての音声出力用アンプ7とスピー
カ8、第1の記憶手段としてのROM9、第2の記憶手
段としてのRAM10、ユーザが装置に対して各種の設
定を行うための操作部11、時刻信号を発生する計時手
段12などから構成されている。
【0018】音声分析部4は、A/D変換された音声信
号を演算機を用いて短時間ごとに分析し、ピッチ周期な
どを得るとともに、音声の特徴を表す特徴データ(LP
Cケプストラム係数が一般的)を時系列データとして出
力する。
号を演算機を用いて短時間ごとに分析し、ピッチ周期な
どを得るとともに、音声の特徴を表す特徴データ(LP
Cケプストラム係数が一般的)を時系列データとして出
力する。
【0019】制御部5は、音声認識、学習、登録、音声
出力など以下に説明する各種の処理を行うもので、これ
らの処理については、のちに行う動作説明のなかで順次
説明する。
出力など以下に説明する各種の処理を行うもので、これ
らの処理については、のちに行う動作説明のなかで順次
説明する。
【0020】ROM9は、出力音声データ91、特定話
者群音声モデルデータ92、この特定話者群音声モデル
データ92を基にして作成されたコードブック(特定話
者群コードブックという)93、さらにはユニバーサル
コードブック94などを格納する。
者群音声モデルデータ92、この特定話者群音声モデル
データ92を基にして作成されたコードブック(特定話
者群コードブックという)93、さらにはユニバーサル
コードブック94などを格納する。
【0021】前記出力音声データ91は装置側から話者
に対しての応答や問いかけを行うための発話内容に対す
る音声データであり、この具体的な内容についても後述
する動作例のなかで説明する。
に対しての応答や問いかけを行うための発話内容に対す
る音声データであり、この具体的な内容についても後述
する動作例のなかで説明する。
【0022】また、特定話者群音声モデルデータ92
は、ある範囲に絞られた認識対象話者に対する標準話者
音声モデルデータである。たとえば、認識対象話者を子
供に絞った場合は、不特定多数の子供の音声データから
作成された標準話者音声モデルデータである。
は、ある範囲に絞られた認識対象話者に対する標準話者
音声モデルデータである。たとえば、認識対象話者を子
供に絞った場合は、不特定多数の子供の音声データから
作成された標準話者音声モデルデータである。
【0023】ただし、この実施の形態では、成人男性、
成人女性、子供の3つの話者群を設定し、成人男性を話
者群A、成人女性を話者群B、子供を話者群Cというよ
うに区分する。そして、話者群Aに属する不特定多数の
成人男性の音声データから作成した第1の特定話者群音
声モデルデータMD1、話者群Bに属する不特定多数の
成人女性の音声データから作成した第2の特定話者群音
声モデルデータMD2、話者群Cに属する不特定多数の
子供の音声データから作成した第3の特定話者群音声モ
デルデータMD3を有しているものとする。
成人女性、子供の3つの話者群を設定し、成人男性を話
者群A、成人女性を話者群B、子供を話者群Cというよ
うに区分する。そして、話者群Aに属する不特定多数の
成人男性の音声データから作成した第1の特定話者群音
声モデルデータMD1、話者群Bに属する不特定多数の
成人女性の音声データから作成した第2の特定話者群音
声モデルデータMD2、話者群Cに属する不特定多数の
子供の音声データから作成した第3の特定話者群音声モ
デルデータMD3を有しているものとする。
【0024】そして、これら第1〜第3の特定話者群音
声モデルデータMD1,MD2,MD3は、予め定めら
れた認識可能単語からなる幾つかの単語セットw1,w
2,w3,・・・からなっており、単語セットw1に格
納されている特定話者群音声モデルデータは、装置との
間で交わされる会話のなかで、特に使用される頻度の高
いと思われる単語(この場合、「おはよう」、「ただい
ま」、「こんにちは」、「おやすみ」、「何時」、「ア
ラーム」といった単語であるとする)に対する特定話者
群音声モデルデータである。この単語セットw1内のそ
れぞれの単語に対する特定話者群音声モデルデータは、
のちに説明する話者学習処理を行うためとしても用いら
れる。
声モデルデータMD1,MD2,MD3は、予め定めら
れた認識可能単語からなる幾つかの単語セットw1,w
2,w3,・・・からなっており、単語セットw1に格
納されている特定話者群音声モデルデータは、装置との
間で交わされる会話のなかで、特に使用される頻度の高
いと思われる単語(この場合、「おはよう」、「ただい
ま」、「こんにちは」、「おやすみ」、「何時」、「ア
ラーム」といった単語であるとする)に対する特定話者
群音声モデルデータである。この単語セットw1内のそ
れぞれの単語に対する特定話者群音声モデルデータは、
のちに説明する話者学習処理を行うためとしても用いら
れる。
【0025】単語セットw2に格納されている特定話者
群音声モデルデータは、ここでは、「1時」、「2
時」、「3時」、・・・、「12時」といった時間の単
位を表す単語に対する特定話者群音声モデルデータで
り、また、単語セットw3に格納されている特定話者群
音声モデルデータは、ここでは、「1分」、「2分」、
「3分」、・・・、「59分」といった分の単位を表す
単語に対する特定話者群音声モデルデータであるとす
る。
群音声モデルデータは、ここでは、「1時」、「2
時」、「3時」、・・・、「12時」といった時間の単
位を表す単語に対する特定話者群音声モデルデータで
り、また、単語セットw3に格納されている特定話者群
音声モデルデータは、ここでは、「1分」、「2分」、
「3分」、・・・、「59分」といった分の単位を表す
単語に対する特定話者群音声モデルデータであるとす
る。
【0026】この他、「はい」や「いいえ」といった肯
定・否定を表す単語や、話者と装置との間で会話を行う
に必要な単語に対する特定話者群音声モデルデータなど
もここでは図示されていない単語セットとして設けられ
ている。
定・否定を表す単語や、話者と装置との間で会話を行う
に必要な単語に対する特定話者群音声モデルデータなど
もここでは図示されていない単語セットとして設けられ
ている。
【0027】また、特定話者群コードブック93は、第
1の特定話者群音声モデルデータMD1に基づいて作成
された第1の特定話者群コードブックCB1、第2の特
定話者群音声モデルデータMD2に基づいて作成された
第2の特定話者群コードブックCB2、第3の特定話者
群音声モデルデータMD3に基づいて作成された第3の
特定話者群コードブックCB3を有している。
1の特定話者群音声モデルデータMD1に基づいて作成
された第1の特定話者群コードブックCB1、第2の特
定話者群音声モデルデータMD2に基づいて作成された
第2の特定話者群コードブックCB2、第3の特定話者
群音声モデルデータMD3に基づいて作成された第3の
特定話者群コードブックCB3を有している。
【0028】ところで、前述の単語セットw1に属する
「おはよう」、「ただいま」、「こんにちは」、「おや
すみ」、「何時」、「アラーム」といった単語は、ここ
では、登録単語としても用いられ、認識対象話者、つま
り、この装置を使用するそれぞれの話者(ここでは、話
者#1、話者#2、話者#3の3人の話者とする)が、
上述の登録単語を発話することによって、それぞれの特
徴データを登録単語データ101としてRAM10に保
存することができるようになっている。
「おはよう」、「ただいま」、「こんにちは」、「おや
すみ」、「何時」、「アラーム」といった単語は、ここ
では、登録単語としても用いられ、認識対象話者、つま
り、この装置を使用するそれぞれの話者(ここでは、話
者#1、話者#2、話者#3の3人の話者とする)が、
上述の登録単語を発話することによって、それぞれの特
徴データを登録単語データ101としてRAM10に保
存することができるようになっている。
【0029】この登録単語データ101は、話者#1用
の登録単語データRD1、話者#2用の登録単語データ
RD2、話者#3用の登録単語データRD3というよう
に、その装置を使用すると思われる各話者ごとに保存さ
れる。
の登録単語データRD1、話者#2用の登録単語データ
RD2、話者#3用の登録単語データRD3というよう
に、その装置を使用すると思われる各話者ごとに保存さ
れる。
【0030】なお、このように、装置を使用すると思わ
れる各話者ごとに、幾つかの単語について登録単語デー
タを作成する機能は、ユーザによって任意に行うことが
できる。したがって、その機能を用いて登録単語データ
を作成して保存することも可能であるが、必ずしも、そ
の機能を用いる必要はない。この機能を実行するには操
作部11によって所定のモード設定を行って登録する
が、その登録方法などについてはのちに説明する。
れる各話者ごとに、幾つかの単語について登録単語デー
タを作成する機能は、ユーザによって任意に行うことが
できる。したがって、その機能を用いて登録単語データ
を作成して保存することも可能であるが、必ずしも、そ
の機能を用いる必要はない。この機能を実行するには操
作部11によって所定のモード設定を行って登録する
が、その登録方法などについてはのちに説明する。
【0031】RAM10にはこの他に、話者#1用とし
て作成された量子化後の入力話者コードブックVQ1、
話者#2用として作成された量子化後の入力話者コード
ブックVQ2、話者#3用として作成された量子化後の
入力話者コードブックVQ3が格納されるが、これらの
各コードブックについてはのちに説明する。
て作成された量子化後の入力話者コードブックVQ1、
話者#2用として作成された量子化後の入力話者コード
ブックVQ2、話者#3用として作成された量子化後の
入力話者コードブックVQ3が格納されるが、これらの
各コードブックについてはのちに説明する。
【0032】本発明の実施の形態における装置の特徴の
一つとして、装置を使用する使用者をある範囲に絞り、
その範囲内に属する不特定多数の話者の音声データから
作った特定話者群音声モデルデータを作成し、その特定
話者群音声モデルデータを用いて装置の使用者の発する
音声を認識処理するということが挙げられる。
一つとして、装置を使用する使用者をある範囲に絞り、
その範囲内に属する不特定多数の話者の音声データから
作った特定話者群音声モデルデータを作成し、その特定
話者群音声モデルデータを用いて装置の使用者の発する
音声を認識処理するということが挙げられる。
【0033】これを実現するために、この実施の形態で
は、使用者を話者群A(成人男性)、話者群B(成人女
性)、話者群C(子供)に分けて、それぞれの話者群に
属する不特定多数の話者の音声データから作った第1〜
第3の特定話者群音声モデルデータMD1,MD2,M
D3を有している。
は、使用者を話者群A(成人男性)、話者群B(成人女
性)、話者群C(子供)に分けて、それぞれの話者群に
属する不特定多数の話者の音声データから作った第1〜
第3の特定話者群音声モデルデータMD1,MD2,M
D3を有している。
【0034】このように、装置を使用する使用者をある
範囲に絞って、その範囲に属する不特定多数の話者の音
声データから作った標準話者音声モデルデータ(この実
施の形態では第1〜第3の特定話者群音声モデルデータ
MD1,MD2,MD3)を用いることにより、あらゆ
る話者を想定した不特定話者用の標準話者音声モデルデ
ータを持つ場合に比べて標準話者音声モデルデータの規
模を大幅に小さくすることができ、ROM9のメモリサ
イズを小さくすることができ、また、制御部(CPU)
5の処理負担を小さくすることができる。
範囲に絞って、その範囲に属する不特定多数の話者の音
声データから作った標準話者音声モデルデータ(この実
施の形態では第1〜第3の特定話者群音声モデルデータ
MD1,MD2,MD3)を用いることにより、あらゆ
る話者を想定した不特定話者用の標準話者音声モデルデ
ータを持つ場合に比べて標準話者音声モデルデータの規
模を大幅に小さくすることができ、ROM9のメモリサ
イズを小さくすることができ、また、制御部(CPU)
5の処理負担を小さくすることができる。
【0035】しかも、それぞれの話者群に対応した特定
話者群音声モデルデータ(第1〜第3の特定話者群音声
モデルデータMD1,MD2,MD3)を用いての音声
認識を行うので、あらゆる話者を想定した不特定話者用
の標準話者音声モデルデータを用いた場合に比べて高い
認識率が得られる。
話者群音声モデルデータ(第1〜第3の特定話者群音声
モデルデータMD1,MD2,MD3)を用いての音声
認識を行うので、あらゆる話者を想定した不特定話者用
の標準話者音声モデルデータを用いた場合に比べて高い
認識率が得られる。
【0036】なお、その時点で発話する話者に対してど
の特定話者群音声モデルデータを選択するかは、たとえ
ば、操作部11に話者群を指定するためのボタンを用意
し、装置の使用者がたとえば子供であれば、話者群Cを
指定するためのボタンを操作してから音声の入力を行う
ようにすることもできる。
の特定話者群音声モデルデータを選択するかは、たとえ
ば、操作部11に話者群を指定するためのボタンを用意
し、装置の使用者がたとえば子供であれば、話者群Cを
指定するためのボタンを操作してから音声の入力を行う
ようにすることもできる。
【0037】このように、話者群の指定操作がなされる
と、制御部5がそれを判断して、対応する特定話者群音
声モデルデータを用いて音声認識を行うようにする。た
とえば、話者群Cを指定するためのボタンが操作された
場合には、制御部5がそれを判断して、特定話者群音声
モデルデータMD3を用いて音声認識を行うようにす
る。
と、制御部5がそれを判断して、対応する特定話者群音
声モデルデータを用いて音声認識を行うようにする。た
とえば、話者群Cを指定するためのボタンが操作された
場合には、制御部5がそれを判断して、特定話者群音声
モデルデータMD3を用いて音声認識を行うようにす
る。
【0038】また、これとは別に、装置の使用者が話者
群の設定操作を行うことなく、入力された音声のピッチ
周期情報(音声分析部4が音声分析する際に得られるピ
ッチ周期情報)を基に、制御部5が入力音声の話者群を
判定して、その判定結果に基づいて対応する特定話者群
音声モデルデータを用いて音声認識を行うようにするこ
とも可能である。
群の設定操作を行うことなく、入力された音声のピッチ
周期情報(音声分析部4が音声分析する際に得られるピ
ッチ周期情報)を基に、制御部5が入力音声の話者群を
判定して、その判定結果に基づいて対応する特定話者群
音声モデルデータを用いて音声認識を行うようにするこ
とも可能である。
【0039】図2はこのように話者に応じた音声モデル
データを用いて音声認識処理を行うフローチャートを示
すもので、話者の発話した音声の入力を行い(ステップ
s1)、音声入力があるか否かを判断し(ステップs
2)、音声入力があれば、音声分析部4によって、入力
音声に対して音声分析を行う(ステップs3)。そし
て、その分析結果に基づき制御部5によって、その音声
がどの話者群に属するかを判定し(ステップs4)、判
定された話者群に対応する音声モデルデータを選択して
(ステップs5)、音声認識処理を行う(ステップs
6)。そして、その認識結果に基づく所定の処理を行う
(ステップs7)。この所定の処理というのは、時刻設
定やアラーム設定などその装置の行うべき様々な処理で
ある。
データを用いて音声認識処理を行うフローチャートを示
すもので、話者の発話した音声の入力を行い(ステップ
s1)、音声入力があるか否かを判断し(ステップs
2)、音声入力があれば、音声分析部4によって、入力
音声に対して音声分析を行う(ステップs3)。そし
て、その分析結果に基づき制御部5によって、その音声
がどの話者群に属するかを判定し(ステップs4)、判
定された話者群に対応する音声モデルデータを選択して
(ステップs5)、音声認識処理を行う(ステップs
6)。そして、その認識結果に基づく所定の処理を行う
(ステップs7)。この所定の処理というのは、時刻設
定やアラーム設定などその装置の行うべき様々な処理で
ある。
【0040】また、この実施の形態では、ある特定の単
語については、その装置を使用する使用者がその特定の
単語を発話してその音声データを登録し、この登録デー
タと前述の特定話者群音声モデルデータを用いて話者学
習処理を行うことも可能としている。以下、これについ
て説明する。
語については、その装置を使用する使用者がその特定の
単語を発話してその音声データを登録し、この登録デー
タと前述の特定話者群音声モデルデータを用いて話者学
習処理を行うことも可能としている。以下、これについ
て説明する。
【0041】この話者学習処理を行うために、この実施
の形態では、特定の単語として、「おはよう」、「ただ
いま」、「こんにちは」、「おやすみ」、「何時」、
「アラーム」といった前述の単語セットw1に属する単
語(これらの単語を登録単語という)を、使用者(話
者)に発話してもらい、話者の発話して得られた各登録
単語に対する音声データによって登録単語データを作成
しそれをRAM10に登録する。このとき、たとえば、
その装置を1つの家族で使用するような場合は、その家
族(たとえば、父親、母親、その子供)が一人ずつ複数
の登録単語について順次発話して得られたそれぞれの音
声データによって登録単語データを作成してそれぞれ登
録する。
の形態では、特定の単語として、「おはよう」、「ただ
いま」、「こんにちは」、「おやすみ」、「何時」、
「アラーム」といった前述の単語セットw1に属する単
語(これらの単語を登録単語という)を、使用者(話
者)に発話してもらい、話者の発話して得られた各登録
単語に対する音声データによって登録単語データを作成
しそれをRAM10に登録する。このとき、たとえば、
その装置を1つの家族で使用するような場合は、その家
族(たとえば、父親、母親、その子供)が一人ずつ複数
の登録単語について順次発話して得られたそれぞれの音
声データによって登録単語データを作成してそれぞれ登
録する。
【0042】具体的には、たとえば、父親(話者#1と
する)が発話して得られた各登録単語に対するそれぞれ
の音声データによって作成された各登録単語対応の登録
単語データは、話者#1用の登録単語データRD1とし
て保存され、母親(話者#2とする)が発話して得られ
た各登録単語に対する音声データによって作成された各
登録単語対応の登録単語データは、話者#2用の登録単
語データRD2として保存され、子供(話者#3とす
る)が発話して得られた各登録単語に対するそれぞれの
音声データによって作成された各登録単語対応の登録単
語データは、話者#3用の登録単語データRD3として
保存される。この登録は次のようにして行う。
する)が発話して得られた各登録単語に対するそれぞれ
の音声データによって作成された各登録単語対応の登録
単語データは、話者#1用の登録単語データRD1とし
て保存され、母親(話者#2とする)が発話して得られ
た各登録単語に対する音声データによって作成された各
登録単語対応の登録単語データは、話者#2用の登録単
語データRD2として保存され、子供(話者#3とす
る)が発話して得られた各登録単語に対するそれぞれの
音声データによって作成された各登録単語対応の登録単
語データは、話者#3用の登録単語データRD3として
保存される。この登録は次のようにして行う。
【0043】まず、操作部11によって登録単語を登録
するためのモード設定を行う。そして、話者#1の指定
を行い、話者#1が前述したそれぞれの登録単語を順次
発話する。そして、この話者#1が発話して得られた各
登録単語に対する音声データによって各登録単語対応の
登録単語データRD1を作成する。そして、この登録単
語データRD1と特定話者群音声モデルデータ(この場
合は、特定話者群音声モデルデータMD1)に基づい
て、話者#1に対する写像関数を作成する。
するためのモード設定を行う。そして、話者#1の指定
を行い、話者#1が前述したそれぞれの登録単語を順次
発話する。そして、この話者#1が発話して得られた各
登録単語に対する音声データによって各登録単語対応の
登録単語データRD1を作成する。そして、この登録単
語データRD1と特定話者群音声モデルデータ(この場
合は、特定話者群音声モデルデータMD1)に基づい
て、話者#1に対する写像関数を作成する。
【0044】続いて、話者#2の指定を行い、話者#2
が前述したそれぞれの登録単語を順次発話する。そし
て、この話者#2が発話して得られた各登録単語に対す
る音声データによって、各登録単語対応の登録単語デー
タRD2を作成する。そして、この登録単語データRD
2と特定話者群音声モデルデータ(この場合は、特定話
者群音声モデルデータMD2)に基づいて、話者#2に
対する写像関数を作成する。
が前述したそれぞれの登録単語を順次発話する。そし
て、この話者#2が発話して得られた各登録単語に対す
る音声データによって、各登録単語対応の登録単語デー
タRD2を作成する。そして、この登録単語データRD
2と特定話者群音声モデルデータ(この場合は、特定話
者群音声モデルデータMD2)に基づいて、話者#2に
対する写像関数を作成する。
【0045】さらに、続いて、話者#3の指定を行い、
話者#3が前述したそれぞれの登録単語を順次発話す
る。そして、この話者#3が発話して得られた各登録単
語に対する音声データによって各登録単語対応の登録単
語データRD1を作成する。そして、この登録単語デー
タRD3と特定話者群音声モデルデータ(この場合は、
特定話者群音声モデルデータMD3)に基づいて、話者
#3に対する写像関数を作成する。
話者#3が前述したそれぞれの登録単語を順次発話す
る。そして、この話者#3が発話して得られた各登録単
語に対する音声データによって各登録単語対応の登録単
語データRD1を作成する。そして、この登録単語デー
タRD3と特定話者群音声モデルデータ(この場合は、
特定話者群音声モデルデータMD3)に基づいて、話者
#3に対する写像関数を作成する。
【0046】このようにして、登録すべき話者の音声デ
ータの登録が終了する。そして、それぞれの写像関数と
第1〜第3の特定話者群コードブックCB1,CB2,
CB3(コードブックサイズはそれぞれ256サイズと
する)を用いて、話者#1、話者#2、話者#3それぞ
れの入力話者コードブックを作成する。このようにして
入力話者コードブックを作成する方法をコードブックマ
ッピングと呼ぶ。
ータの登録が終了する。そして、それぞれの写像関数と
第1〜第3の特定話者群コードブックCB1,CB2,
CB3(コードブックサイズはそれぞれ256サイズと
する)を用いて、話者#1、話者#2、話者#3それぞ
れの入力話者コードブックを作成する。このようにして
入力話者コードブックを作成する方法をコードブックマ
ッピングと呼ぶ。
【0047】この場合、話者#1は父親、話者#2は母
親、話者#3はその子供であるので、父親用の入力話者
コードブック、母親用の入力話者コードブック、子供用
の入力話者コードブックが作成されることになる。な
お、この実施の形態では、さらにこれら入力話者コード
ブックのデータ量を少なくするために、予め用意された
ユニバーサルコードブック94を使用してベクトル量子
化を行う。
親、話者#3はその子供であるので、父親用の入力話者
コードブック、母親用の入力話者コードブック、子供用
の入力話者コードブックが作成されることになる。な
お、この実施の形態では、さらにこれら入力話者コード
ブックのデータ量を少なくするために、予め用意された
ユニバーサルコードブック94を使用してベクトル量子
化を行う。
【0048】このユニバーサルコードブック94は、大
人から子供まで全ての話者を含むような幅広い層の話者
から得られたコードブックであり、たとえば、1024
あるいは2048といった大きなサイズを有しており、
このユニバーサルコードブック94でベクトル量子化
し、そのユニバーサルコードブック94のコード番号の
みによるコードブック(256サイズ)を作成する。
人から子供まで全ての話者を含むような幅広い層の話者
から得られたコードブックであり、たとえば、1024
あるいは2048といった大きなサイズを有しており、
このユニバーサルコードブック94でベクトル量子化
し、そのユニバーサルコードブック94のコード番号の
みによるコードブック(256サイズ)を作成する。
【0049】このように、ユニバーサルコードブック9
4のコード番号のみによるコードブックとすることによ
り、大幅にデータ量の削減が図れる。
4のコード番号のみによるコードブックとすることによ
り、大幅にデータ量の削減が図れる。
【0050】ちなみに、装置に使用されるRAM10と
して32キロバイト程度のRAMを使うとすると、前述
の入力話者コードブックでは、1つのコードブックにつ
いて、256×10(この10はLPCケプストラム係
数の次元数であって、ここでは10次元とした場合であ
る)で、2560個の係数を保存する必要があり、1つ
の係数をショート型で保存した場合、2バイト×256
0の合計約5キロバイトが必要となる。
して32キロバイト程度のRAMを使うとすると、前述
の入力話者コードブックでは、1つのコードブックにつ
いて、256×10(この10はLPCケプストラム係
数の次元数であって、ここでは10次元とした場合であ
る)で、2560個の係数を保存する必要があり、1つ
の係数をショート型で保存した場合、2バイト×256
0の合計約5キロバイトが必要となる。
【0051】したがって、このコードブックを仮りに4
つ作るとなると、それだけで約20キロバイトの容量を
必要とすることになり、RAM10の多くを占有してし
まい、その他の処理に支障をきたすことになる。
つ作るとなると、それだけで約20キロバイトの容量を
必要とすることになり、RAM10の多くを占有してし
まい、その他の処理に支障をきたすことになる。
【0052】これに対処するために、前述したように、
ユニバーサルコードブック94でベクトル量子化して、
そのユニバーサルコードブック94のコード番号のみに
よるベクトル量子化された入力話者コードブックを作成
する。なお、以下では、このベクトル量子化された入力
話者コードブックを量子化コードブックと呼び、話者#
1に対応する量子化されたコードブックを量子化コード
ブックVQ1、話者#2に対応する量子化された入力話
者コードブックを量子化コードブックVQ2、話者#3
に対応する量子化された入力話者コードブックを量子化
コードブックVQ3と呼ぶことにする。
ユニバーサルコードブック94でベクトル量子化して、
そのユニバーサルコードブック94のコード番号のみに
よるベクトル量子化された入力話者コードブックを作成
する。なお、以下では、このベクトル量子化された入力
話者コードブックを量子化コードブックと呼び、話者#
1に対応する量子化されたコードブックを量子化コード
ブックVQ1、話者#2に対応する量子化された入力話
者コードブックを量子化コードブックVQ2、話者#3
に対応する量子化された入力話者コードブックを量子化
コードブックVQ3と呼ぶことにする。
【0053】これによって、ある一人の話者に対する量
子化入力話者コードブック(たとえば、量子化入力話者
コードブックVQ1)は、256個のコード番号を保存
すればよく、各コード番号をショート型で保存させたば
あい、2バイト×256の合計約0.5キロバイトの容量
で済むため、コードブックとして必要なメモリ容量は、
前述した量子化前の入力話者コードブックに比べて1/
10となる。
子化入力話者コードブック(たとえば、量子化入力話者
コードブックVQ1)は、256個のコード番号を保存
すればよく、各コード番号をショート型で保存させたば
あい、2バイト×256の合計約0.5キロバイトの容量
で済むため、コードブックとして必要なメモリ容量は、
前述した量子化前の入力話者コードブックに比べて1/
10となる。
【0054】なお、このユニバーサルコードブック94
は、前述した各入力話者ごとの登録単語データRD1,
RD2,RD3の量子化にも用いることができる。
は、前述した各入力話者ごとの登録単語データRD1,
RD2,RD3の量子化にも用いることができる。
【0055】図3はこの実施の形態である音声時計装置
の外観構成を示すものである。前述したようにこの実施
の形態における音声時計装置は、玩具的な要素の強いも
のであり、実際には、その外観は人気アニメーションの
キャラクタなどが用いられるが、その外観は本発明とは
直接関係しないので、ここでは、単純な形状のもので説
明を行う。
の外観構成を示すものである。前述したようにこの実施
の形態における音声時計装置は、玩具的な要素の強いも
のであり、実際には、その外観は人気アニメーションの
キャラクタなどが用いられるが、その外観は本発明とは
直接関係しないので、ここでは、単純な形状のもので説
明を行う。
【0056】図3において、音声時計装置の筺体50に
は、図1で示されたマイクロホン1、スピーカ8、装置
に対して様々な設定を行ったり、何らかの動作を行うた
めにその都度操作される各種操作ボタン(詳細は後述す
る)を有する操作部11が設けられる。
は、図1で示されたマイクロホン1、スピーカ8、装置
に対して様々な設定を行ったり、何らかの動作を行うた
めにその都度操作される各種操作ボタン(詳細は後述す
る)を有する操作部11が設けられる。
【0057】この操作部11は、たとえば、電源スイッ
チSW、話者群指定ボタンBT1,BT2,BT3、話
者指定ボタンBT11,BT12,BT13、認識モー
ドか登録モードかを切り替えるモード切替スイッチ(機
能については後述する)MSW、装置側からの問いかけ
に対して話者がボタンの操作で肯定(「はい」)または
否定(「いいえ」)の入力が可能な肯定ボタンBT21
と否定ボタンBT22(これの具体的な動作例について
はのちに説明する)、音量調節スイッチVSWなどが設
けられている。
チSW、話者群指定ボタンBT1,BT2,BT3、話
者指定ボタンBT11,BT12,BT13、認識モー
ドか登録モードかを切り替えるモード切替スイッチ(機
能については後述する)MSW、装置側からの問いかけ
に対して話者がボタンの操作で肯定(「はい」)または
否定(「いいえ」)の入力が可能な肯定ボタンBT21
と否定ボタンBT22(これの具体的な動作例について
はのちに説明する)、音量調節スイッチVSWなどが設
けられている。
【0058】なお、話者群指定ボタンBT1,BT2,
BT3は、その装置を使用する使用者の話者群を指定す
るもので、話者群指定ボタンBT1は話者群として成人
男性(話者群A)を指定し、話者群指定ボタンBT2は
話者群として成人女性(話者群B)を指定し、話者群指
定ボタンBT3は話者群として子供(話者群C)を指定
するものである。
BT3は、その装置を使用する使用者の話者群を指定す
るもので、話者群指定ボタンBT1は話者群として成人
男性(話者群A)を指定し、話者群指定ボタンBT2は
話者群として成人女性(話者群B)を指定し、話者群指
定ボタンBT3は話者群として子供(話者群C)を指定
するものである。
【0059】また、話者指定ボタンBT11,BT1
2,BT13は、その装置を使用する使用者を話者とし
て指定するもので、ここでは、3人の使用者(話者#
1、話者#2、話者#3)を指定できるようになってい
る。
2,BT13は、その装置を使用する使用者を話者とし
て指定するもので、ここでは、3人の使用者(話者#
1、話者#2、話者#3)を指定できるようになってい
る。
【0060】なお、図3で示される操作部11には上述
したような各種スイッチや、各種操作ボタンが設けられ
るが、これは、この実施の形態を説明する上で必要なス
イッチ類や操作ボタンをすべて設けた例であるが、これ
らは全て設ける必要はなく、装置の有する機能などに応
じて適宜必要なスイッチや操作ボタンのみを設ければよ
い。また、電源スイッチswなどのスイッチ類は、操作
部11内ではなく、操作ボタン類とは別にして設けるよ
うにしてもよい。
したような各種スイッチや、各種操作ボタンが設けられ
るが、これは、この実施の形態を説明する上で必要なス
イッチ類や操作ボタンをすべて設けた例であるが、これ
らは全て設ける必要はなく、装置の有する機能などに応
じて適宜必要なスイッチや操作ボタンのみを設ければよ
い。また、電源スイッチswなどのスイッチ類は、操作
部11内ではなく、操作ボタン類とは別にして設けるよ
うにしてもよい。
【0061】また、この図3で示される構成は説明を行
う上での一例であって、マイクロホン1やスピーカ8、
操作部11の配置、さらには、操作部11内の各種スイ
ッチ類や操作ボタンなどの配置もこれに限られるもので
はない。
う上での一例であって、マイクロホン1やスピーカ8、
操作部11の配置、さらには、操作部11内の各種スイ
ッチ類や操作ボタンなどの配置もこれに限られるもので
はない。
【0062】ここで、登録モードと認識モードについて
の説明を行う。この登録モードと認識モードのいずれか
のモード設定は、モード切替スイッチMSWによって行
う。
の説明を行う。この登録モードと認識モードのいずれか
のモード設定は、モード切替スイッチMSWによって行
う。
【0063】登録モードは、その装置を使用する各話者
(この場合、話者#1,#2,#3)が予め決められた
複数の登録単語を発話し、それぞれの音声データから作
成した登録単語データを登録単語データRD1,RD
2,RD3として登録するとともに、この登録単語デー
タRD1,RD2,RD3を用いて話者学習処理を行
い、最終的に話者#1用の量子化コードブックVQ1、
話者#2用の量子化コードブックVQ2、話者#3用の
量子化コードブックVQ3の作成を行う。
(この場合、話者#1,#2,#3)が予め決められた
複数の登録単語を発話し、それぞれの音声データから作
成した登録単語データを登録単語データRD1,RD
2,RD3として登録するとともに、この登録単語デー
タRD1,RD2,RD3を用いて話者学習処理を行
い、最終的に話者#1用の量子化コードブックVQ1、
話者#2用の量子化コードブックVQ2、話者#3用の
量子化コードブックVQ3の作成を行う。
【0064】登録モードとした場合の具体的な処理につ
いて説明する。ここでは、前述したように、父親(話者
#1)、母親(話者#2)、その子供(話者#3)がそ
れぞれの登録単語を発話して得られた登録単語データを
登録するものとする。
いて説明する。ここでは、前述したように、父親(話者
#1)、母親(話者#2)、その子供(話者#3)がそ
れぞれの登録単語を発話して得られた登録単語データを
登録するものとする。
【0065】まず、操作部11の話者指定ボタンBT1
1を操作し、話者#1の登録モードとして、話者#1
(父親)が前述した登録単語を順次発話する。これによ
り、話者#1に対する登録単語の登録データRD1が作
成されるとともに、写像関数が作成され、さらに、ユニ
バーサルコードブック94でベクトル量子化され、その
ユニバーサルコードブック94のコード番号による話者
#1の量子化入力話者コードブックVQ1が作成され
る。
1を操作し、話者#1の登録モードとして、話者#1
(父親)が前述した登録単語を順次発話する。これによ
り、話者#1に対する登録単語の登録データRD1が作
成されるとともに、写像関数が作成され、さらに、ユニ
バーサルコードブック94でベクトル量子化され、その
ユニバーサルコードブック94のコード番号による話者
#1の量子化入力話者コードブックVQ1が作成され
る。
【0066】続いて、操作部11の話者指定ボタンBT
12を操作し、話者#2の登録モードとして、話者#2
(母親)が前述した登録単語を順次発話する。これによ
り、話者#2に対する登録単語の登録データRD2が作
成されるとともに、写像関数が作成され、さらに、ユニ
バーサルコードブック94でベクトル量子化され、その
ユニバーサルコードブック94のコード番号による話者
#2の量子化入力話者コードブックVQ2が作成され
る。
12を操作し、話者#2の登録モードとして、話者#2
(母親)が前述した登録単語を順次発話する。これによ
り、話者#2に対する登録単語の登録データRD2が作
成されるとともに、写像関数が作成され、さらに、ユニ
バーサルコードブック94でベクトル量子化され、その
ユニバーサルコードブック94のコード番号による話者
#2の量子化入力話者コードブックVQ2が作成され
る。
【0067】さらに続いて、話者指定ボタンBT13を
操作し、話者#3の登録モードとして、話者#3(子
供)が前述した登録単語を順次発話する。これにより、
話者#3に対する登録単語の登録データRD3が作成さ
れるとともに、写像関数が作成され、さらに、ユニバー
サルコードブック94でベクトル量子化され、そのユニ
バーサルコードブック94のコード番号による話者#3
の量子化入力話者コードブックVQ3が作成される。
操作し、話者#3の登録モードとして、話者#3(子
供)が前述した登録単語を順次発話する。これにより、
話者#3に対する登録単語の登録データRD3が作成さ
れるとともに、写像関数が作成され、さらに、ユニバー
サルコードブック94でベクトル量子化され、そのユニ
バーサルコードブック94のコード番号による話者#3
の量子化入力話者コードブックVQ3が作成される。
【0068】なお、このとき、登録単語データRD1,
RD2,RD3もこのユニバーサルコードブック94を
用いてベクトル量子化され、以下では、登録単語データ
RD1,RD2,RD3も量子化されたデータであると
する。
RD2,RD3もこのユニバーサルコードブック94を
用いてベクトル量子化され、以下では、登録単語データ
RD1,RD2,RD3も量子化されたデータであると
する。
【0069】次に認識モードについて説明する。この認
識モードは、この場合、第1〜第3の特定話者群音声モ
デルデータMD1,MD2,MD3、話者#1〜話者#
3用の登録単語データRD1,RD2,RD3、話者#
1〜話者#3用の量子化コードブックVQ1,VQ2,
VQ3のいずれかを、状況に応じて用いて音声認識する
モードである。
識モードは、この場合、第1〜第3の特定話者群音声モ
デルデータMD1,MD2,MD3、話者#1〜話者#
3用の登録単語データRD1,RD2,RD3、話者#
1〜話者#3用の量子化コードブックVQ1,VQ2,
VQ3のいずれかを、状況に応じて用いて音声認識する
モードである。
【0070】たとえば、モード切替スイッチMSWを認
識モードとした場合、まず、使用する話者がどの話者群
であるかの設定を行う。たとえば、使用する話者がたと
えば話者#3(子供)であれば、話者群Cを指定するた
めの話者群指定ボタンBT3を操作してから音声の入力
を行う。これにより、制御部5では第3の特定話者群音
声モデルデータMD3を用いて音声認識を行う。
識モードとした場合、まず、使用する話者がどの話者群
であるかの設定を行う。たとえば、使用する話者がたと
えば話者#3(子供)であれば、話者群Cを指定するた
めの話者群指定ボタンBT3を操作してから音声の入力
を行う。これにより、制御部5では第3の特定話者群音
声モデルデータMD3を用いて音声認識を行う。
【0071】このように、使用する話者によって話者群
の指定操作がなされると、制御部5がそれを判断して、
対応する特定話者群音声モデルデータを用いて音声認識
を行うことができる。
の指定操作がなされると、制御部5がそれを判断して、
対応する特定話者群音声モデルデータを用いて音声認識
を行うことができる。
【0072】このように、使用者をある特定の話者群に
絞り、その話者群に属する話者の音声データから作った
特定話者群音声モデルデータを用いて音声認識すること
により、あらゆる話者を想定した大規模な標準話者音声
モデルデータを用いて音声認識を行う場合に比べて、高
い認識率での音声認識が可能となる。また、幾つかの話
者群だけの特定話者群音声モデルデータを持てばよいの
で、音声モデルデータそのものの規模を大幅に小さくす
ることができ、ROM9のメモリサイズを小さくするこ
とができ、また、制御部(CPU)5にかかる処理負担
を小さくすることができる。
絞り、その話者群に属する話者の音声データから作った
特定話者群音声モデルデータを用いて音声認識すること
により、あらゆる話者を想定した大規模な標準話者音声
モデルデータを用いて音声認識を行う場合に比べて、高
い認識率での音声認識が可能となる。また、幾つかの話
者群だけの特定話者群音声モデルデータを持てばよいの
で、音声モデルデータそのものの規模を大幅に小さくす
ることができ、ROM9のメモリサイズを小さくするこ
とができ、また、制御部(CPU)5にかかる処理負担
を小さくすることができる。
【0073】また、話者がどの話者群であるかの判定
は、入力音声を音声分析して得られるピッチ周期情報に
より装置側で自動的に知ることが可能であり、さらに、
入力された音声データと登録単語データとのマッチング
をとることにより得られる類似度を用いて話者がどの話
者群であるかの判定を行う方法もある。なお、ここで
は、ピッチ周期情報のみにより話者群を判定する場合に
ついて述べる。
は、入力音声を音声分析して得られるピッチ周期情報に
より装置側で自動的に知ることが可能であり、さらに、
入力された音声データと登録単語データとのマッチング
をとることにより得られる類似度を用いて話者がどの話
者群であるかの判定を行う方法もある。なお、ここで
は、ピッチ周期情報のみにより話者群を判定する場合に
ついて述べる。
【0074】つまり、父親、母親、子供の3人の話者で
考えたとき、子供のピッチ周期が最も短く、次に母親が
短く、父親のピッチ周期はこの3人の中では最も長くな
るのが普通であり、そのピッチ周期情報から、その入力
話者が話者#1、話者#2、話者#3のうちのどの話者
であるかを特定することができる。
考えたとき、子供のピッチ周期が最も短く、次に母親が
短く、父親のピッチ周期はこの3人の中では最も長くな
るのが普通であり、そのピッチ周期情報から、その入力
話者が話者#1、話者#2、話者#3のうちのどの話者
であるかを特定することができる。
【0075】このようにして、たとえば、入力話者が話
者#1であると判定された場合には、その話者#1に対
応する登録単語データRD1や、話者学習処理によって
作成された量子化入力話者コードブックVQ1を用いて
音声認識を行う。つまり、話者#1の発話した単語が登
録単語である場合には、話者#1に対応する登録単語デ
ータRD1によって音声認識され、それ以外の単語につ
いては、量子化入力話者コードブックVQ1を用いて音
声認識される。また、登録単語データが作成されてな
く、話者学習処理がなされていない場合には、 特定話
者群音声モデルデータ92を用いて音声認識する。
者#1であると判定された場合には、その話者#1に対
応する登録単語データRD1や、話者学習処理によって
作成された量子化入力話者コードブックVQ1を用いて
音声認識を行う。つまり、話者#1の発話した単語が登
録単語である場合には、話者#1に対応する登録単語デ
ータRD1によって音声認識され、それ以外の単語につ
いては、量子化入力話者コードブックVQ1を用いて音
声認識される。また、登録単語データが作成されてな
く、話者学習処理がなされていない場合には、 特定話
者群音声モデルデータ92を用いて音声認識する。
【0076】なお、本発明では、装置と話者の間で行わ
れる会話の手順として、最初に、話者が前述した登録単
語のうちいずれかの登録単語を発話するようにしてい
る。つまり、装置側では、最初に、単語セットw1に属
する登録単語を認識するような会話手順が設定されてい
る。このように、本発明では、装置側はその時点の動作
場面に応じ、現時点ではどの単語セットの単語を入力す
る場面かを把握している。そして、そのときの場面にて
入力された単語の認識処理を行う。
れる会話の手順として、最初に、話者が前述した登録単
語のうちいずれかの登録単語を発話するようにしてい
る。つまり、装置側では、最初に、単語セットw1に属
する登録単語を認識するような会話手順が設定されてい
る。このように、本発明では、装置側はその時点の動作
場面に応じ、現時点ではどの単語セットの単語を入力す
る場面かを把握している。そして、そのときの場面にて
入力された単語の認識処理を行う。
【0077】したがって、会話の始まりとして、装置に
対し、たとえば、話者#1がまず登録単語の一つとして
の「アラーム」と発話したとすると、その「アラーム」
についての音声分析を行い、それによって得られるピッ
チ周期情報により装置側では話者の特定を行う。この場
合は、入力話者は話者#1であると判定し、入力音声に
対し話者#1用の登録単語データRD1を用いて音声認
識処理することにより、発話された音声が「アラーム」
であったことが認識される。
対し、たとえば、話者#1がまず登録単語の一つとして
の「アラーム」と発話したとすると、その「アラーム」
についての音声分析を行い、それによって得られるピッ
チ周期情報により装置側では話者の特定を行う。この場
合は、入力話者は話者#1であると判定し、入力音声に
対し話者#1用の登録単語データRD1を用いて音声認
識処理することにより、発話された音声が「アラーム」
であったことが認識される。
【0078】このようにして、入力話者が登録単語を入
力することにより、装置側では、その入力話者がどの話
者であるかを判定し、その登録単語についての認識を行
う。そして、それ以降に入力される音声が登録単語以外
の単語(単語セットw1以外の単語)である場合は、話
者判定を行うことなく音声認識動作を行う。
力することにより、装置側では、その入力話者がどの話
者であるかを判定し、その登録単語についての認識を行
う。そして、それ以降に入力される音声が登録単語以外
の単語(単語セットw1以外の単語)である場合は、話
者判定を行うことなく音声認識動作を行う。
【0079】たとえば、現在の装置側の動作場面が登録
単語を認識する場面であって、この場面において登録単
語の認識処理が終了したあと、次の場面として、単語セ
ットw2やw3などを(単語セットw2とする)認識す
る場面に移るというように設定されていたとすれば、そ
の単語セットw2の認識は、話者適応による音声認識処
理として、話者#1用の量子化コードブックVQ1と第
1の特定話者群コードブックCB1と第1の特定話者群
音声モデルデータMD1(単語セットw2に対応する音
声モデルデータ)を用いて行いての音声認識処理を行
う。
単語を認識する場面であって、この場面において登録単
語の認識処理が終了したあと、次の場面として、単語セ
ットw2やw3などを(単語セットw2とする)認識す
る場面に移るというように設定されていたとすれば、そ
の単語セットw2の認識は、話者適応による音声認識処
理として、話者#1用の量子化コードブックVQ1と第
1の特定話者群コードブックCB1と第1の特定話者群
音声モデルデータMD1(単語セットw2に対応する音
声モデルデータ)を用いて行いての音声認識処理を行
う。
【0080】図4はこれまで説明した話者学習処理を可
能とした音声認識処理の全体的な処理手順を説明するフ
ローチャートである。なお、この図4で示されるフロー
チャートは、話者をある一人の話者に限定した場合の処
理手順を示すものである。
能とした音声認識処理の全体的な処理手順を説明するフ
ローチャートである。なお、この図4で示されるフロー
チャートは、話者をある一人の話者に限定した場合の処
理手順を示すものである。
【0081】図4において、まず、認識モードか登録モ
ードかを判定し(ステップs11)、登録モードである
場合には、話者の発話した登録単語に対する音声入力を
行い(ステップs12)、音声入力があるか否かを判断
し(ステップs13)、音声入力があれば、入力された
音声の音声分析を行い(ステップs14)、入力音声デ
ータを登録単語データとして登録する(ステップs1
5)。
ードかを判定し(ステップs11)、登録モードである
場合には、話者の発話した登録単語に対する音声入力を
行い(ステップs12)、音声入力があるか否かを判断
し(ステップs13)、音声入力があれば、入力された
音声の音声分析を行い(ステップs14)、入力音声デ
ータを登録単語データとして登録する(ステップs1
5)。
【0082】そして、登録すべき単語についての音声デ
ータの入力が終了したか否かを判断し(ステップs1
6)、終了していれば、入力された音声に対する音声デ
ータがどの話者群に属するかを判断し(ステップs1
7)、前述したような話者学習処理(入力話者コードブ
ックを作成し、最終的には量子化コードブックの作成)
を行う(ステップs18)。
ータの入力が終了したか否かを判断し(ステップs1
6)、終了していれば、入力された音声に対する音声デ
ータがどの話者群に属するかを判断し(ステップs1
7)、前述したような話者学習処理(入力話者コードブ
ックを作成し、最終的には量子化コードブックの作成)
を行う(ステップs18)。
【0083】一方、ステップs11において認識モード
であると判定した場合には、話者の発話した音声入力を
行い(ステップs19)、音声入力があるか否かを判断
し(ステップs20)、音声入力があれば、入力された
音声の音声区間を検出して音声分析を行う(ステップs
21)。
であると判定した場合には、話者の発話した音声入力を
行い(ステップs19)、音声入力があるか否かを判断
し(ステップs20)、音声入力があれば、入力された
音声の音声区間を検出して音声分析を行う(ステップs
21)。
【0084】そして、話者学習処理が行われているか否
かを判定し(ステップs22)、話者学習処理が行われ
ていなければ不特定話者音声認識(この実施の形態では
特定話者群音声モデルデータ92(このときの入力話者
に対応して用意された特定話者群音声モデルデータであ
り、入力話者が話者#1であれば第1の特定話者群音声
モデルデータ)よる音声認識処理を行い(ステップs2
3)、話者学習処理が行われていればステップs24以
降の処理を行う。
かを判定し(ステップs22)、話者学習処理が行われ
ていなければ不特定話者音声認識(この実施の形態では
特定話者群音声モデルデータ92(このときの入力話者
に対応して用意された特定話者群音声モデルデータであ
り、入力話者が話者#1であれば第1の特定話者群音声
モデルデータ)よる音声認識処理を行い(ステップs2
3)、話者学習処理が行われていればステップs24以
降の処理を行う。
【0085】ステップs24では入力された音声に対す
る音声データが登録単語データであるか否かを判定し、
登録単語データである場合には登録型の音声認識処理と
してここでは登録単語データ101(このときの入力話
者の音声により作成された登録単語データであり、入力
話者が話者#1であれば話者#1用の登録単語データR
D1)を使用しての音声認識処理を行う(ステップs2
5)。
る音声データが登録単語データであるか否かを判定し、
登録単語データである場合には登録型の音声認識処理と
してここでは登録単語データ101(このときの入力話
者の音声により作成された登録単語データであり、入力
話者が話者#1であれば話者#1用の登録単語データR
D1)を使用しての音声認識処理を行う(ステップs2
5)。
【0086】また、登録単語データでない場合には話者
適応型の音声認識処理として、ここでは当該入力話者の
音声に基づいて作成された量子化コードブック(入力話
者が話者#1であれば話者#1用の量子化コードブック
VQ1)と特定話者群コードブック(入力話者が話者#
1であれば第1の特定話者群コードブックCB1)と特
定話者群音声モデルデータ(入力話者が話者#1であれ
ば第1の特定話者群音声モデルデータMD1)を使用し
ての音声認識処理を行う(ステップs26)。
適応型の音声認識処理として、ここでは当該入力話者の
音声に基づいて作成された量子化コードブック(入力話
者が話者#1であれば話者#1用の量子化コードブック
VQ1)と特定話者群コードブック(入力話者が話者#
1であれば第1の特定話者群コードブックCB1)と特
定話者群音声モデルデータ(入力話者が話者#1であれ
ば第1の特定話者群音声モデルデータMD1)を使用し
ての音声認識処理を行う(ステップs26)。
【0087】ところで、この装置の場合、認識可能な単
語は、前述したように、単語セットw1,w2,w3と
いうように複数の単語セットからなり、前述したよう
に、装置側では、現在、どの単語セットが入力される場
面であるかを把握している。たとえば、単語セットw1
(登録単語)を入力する場面が終わって、現在は、単語
セットw2(「1時」、「2時」など時の単位)を入力
する場面であるというように、現在、どのような場面で
あるかを把握している。
語は、前述したように、単語セットw1,w2,w3と
いうように複数の単語セットからなり、前述したよう
に、装置側では、現在、どの単語セットが入力される場
面であるかを把握している。たとえば、単語セットw1
(登録単語)を入力する場面が終わって、現在は、単語
セットw2(「1時」、「2時」など時の単位)を入力
する場面であるというように、現在、どのような場面で
あるかを把握している。
【0088】したがって、前述のステップs24におい
て、入力された音声に対する音声データが登録単語デー
タであるか否かの判定は、現在、どのような場面である
かにより、登録単語が入力される場面であれば、入力さ
れる単語データは登録単語データであるとして、それに
対応した処理を行う。
て、入力された音声に対する音声データが登録単語デー
タであるか否かの判定は、現在、どのような場面である
かにより、登録単語が入力される場面であれば、入力さ
れる単語データは登録単語データであるとして、それに
対応した処理を行う。
【0089】そして、このように音声認識処理が終了す
るとその認識結果に基づく所定の処理を行う(ステップ
s27)。
るとその認識結果に基づく所定の処理を行う(ステップ
s27)。
【0090】なお、図4で示した処理はある特定の一人
の話者についての処理であったが、たとえば、前述した
ように話者#1、話者#2、話者#3というように複数
の話者が存在する場合には、図5のフローチャートで示
されるように、登録モード時においては、音声入力のス
テップs1の前段に話者指定(たとえば、話者#1、話
者#2、話者#3の指定)を行うステップs28を追加
する。したがって、この場合は、登録単語データは、図
1に示されるように、話者#1〜#3用の登録単語デー
タRD1,RD2,RD3が作成され、量子化コードブ
ックも話者#1〜#3用の量子化コードブックVQ1,
VQ2,VQ3が作成される。
の話者についての処理であったが、たとえば、前述した
ように話者#1、話者#2、話者#3というように複数
の話者が存在する場合には、図5のフローチャートで示
されるように、登録モード時においては、音声入力のス
テップs1の前段に話者指定(たとえば、話者#1、話
者#2、話者#3の指定)を行うステップs28を追加
する。したがって、この場合は、登録単語データは、図
1に示されるように、話者#1〜#3用の登録単語デー
タRD1,RD2,RD3が作成され、量子化コードブ
ックも話者#1〜#3用の量子化コードブックVQ1,
VQ2,VQ3が作成される。
【0091】一方、認識モード時においては、ステップ
s21の音声分析処理の後段に、入力話者がたとえば、
話者#1、話者#2、話者#3のどの話者であるかを判
定する話者判定処理(ステップs29)を追加する。
s21の音声分析処理の後段に、入力話者がたとえば、
話者#1、話者#2、話者#3のどの話者であるかを判
定する話者判定処理(ステップs29)を追加する。
【0092】そして、このときの音声認識処理は、登録
単語の場合には、話者#1、話者#2、話者#3の音声
データを基に作成された話者#1、話者#2、話者#3
用の登録単語データRD1,RD2,RD3のいずれか
を用いて音声認識し、登録単語でない場合には、話者#
1用の量子化コードブックVQ1と第1の特定話者群コ
ードブックCB1と第1の特定話者群音声モデルデータ
MD1、話者#2用の量子化コードブックVQ2と第2
の特定話者群コードブックCB2と第2の特定話者群音
声モデルデータMD2、話者#3用の量子化コードブッ
クVQ3と第3の特定話者群コードブックCB3と第3
の特定話者群音声モデルデータMD3のいずれかの組を
用いて音声認識する。
単語の場合には、話者#1、話者#2、話者#3の音声
データを基に作成された話者#1、話者#2、話者#3
用の登録単語データRD1,RD2,RD3のいずれか
を用いて音声認識し、登録単語でない場合には、話者#
1用の量子化コードブックVQ1と第1の特定話者群コ
ードブックCB1と第1の特定話者群音声モデルデータ
MD1、話者#2用の量子化コードブックVQ2と第2
の特定話者群コードブックCB2と第2の特定話者群音
声モデルデータMD2、話者#3用の量子化コードブッ
クVQ3と第3の特定話者群コードブックCB3と第3
の特定話者群音声モデルデータMD3のいずれかの組を
用いて音声認識する。
【0093】なお、以上説明した認識モードにおける処
理は、登録単語を登録した場合の処理であるが、登録単
語の登録を行わない状態でも同様に認識処理が可能とな
る。この場合は、登録単語データRD101が作成され
ないので、特定話者群音声モデルデータ92を使用して
の音声認識となる。
理は、登録単語を登録した場合の処理であるが、登録単
語の登録を行わない状態でも同様に認識処理が可能とな
る。この場合は、登録単語データRD101が作成され
ないので、特定話者群音声モデルデータ92を使用して
の音声認識となる。
【0094】次に、アラーム時刻の設定を行う際の装置
と話者との会話例を、図6の状態遷移図を参照しながら
説明する。なお、図6において、括弧内の発話内容は装
置を使用する話者の発話する内容である。まず、装置側
からは、「アラーム時刻を、午前、7時、30分という
ように発話して下さい」というように、発話する内容の
一例を挙げて話者に発話を促す(ステップs31)。こ
れにより、話者(ここでは話者#1)が、設定したい時
刻として「午前」、「1時」、「20分」と発話したと
する(ステップs32)。
と話者との会話例を、図6の状態遷移図を参照しながら
説明する。なお、図6において、括弧内の発話内容は装
置を使用する話者の発話する内容である。まず、装置側
からは、「アラーム時刻を、午前、7時、30分という
ように発話して下さい」というように、発話する内容の
一例を挙げて話者に発話を促す(ステップs31)。こ
れにより、話者(ここでは話者#1)が、設定したい時
刻として「午前」、「1時」、「20分」と発話したと
する(ステップs32)。
【0095】ここでの発話内容は、「午前」、「1
時」、「20分」というように、3つの単語を1つのセ
ットとして、各単語間にわずかな間をおいて連続的な発
話がなされる。そして、装置側では、それぞれの単語に
ついて連続的に音声認識を行う。その認識結果として、
装置側から、「午前、1時、20分ですか? ハイかイ
イエで答えて下さい」というように応答する(ステップ
s33)。
時」、「20分」というように、3つの単語を1つのセ
ットとして、各単語間にわずかな間をおいて連続的な発
話がなされる。そして、装置側では、それぞれの単語に
ついて連続的に音声認識を行う。その認識結果として、
装置側から、「午前、1時、20分ですか? ハイかイ
イエで答えて下さい」というように応答する(ステップ
s33)。
【0096】この認識結果が正しければ、話者#1は
「はい」と応答し(ステップs34)、装置側からは、
「アラーム時刻を午前1時20分にセットしました」と
いうような発話内容を発する(ステップs35)。一
方、認識結果が間違っていれば、話者#1は「いいえ」
と応答し(ステップs36)、装置側からは、「それで
は順番に聞きます」というような内容の発話を行う(ス
テップs37)。
「はい」と応答し(ステップs34)、装置側からは、
「アラーム時刻を午前1時20分にセットしました」と
いうような発話内容を発する(ステップs35)。一
方、認識結果が間違っていれば、話者#1は「いいえ」
と応答し(ステップs36)、装置側からは、「それで
は順番に聞きます」というような内容の発話を行う(ス
テップs37)。
【0097】そして、まず、「午前ですか?」というよ
うに「午前」か「午後」かを確かめる内容を発話する
(ステップs38)。
うに「午前」か「午後」かを確かめる内容を発話する
(ステップs38)。
【0098】それに対して、話者#1は、午前でよけれ
ば、「はい」と応答し(ステップs39)、間違ってい
れば(午前でなければ)、「いいえ」と応答する(ステ
ップs40)。この「午前」と「午後」の場合は、二者
択一であるので、もし、話者#1側の応答が「いいえ」
であった場合には、もう一方の単語で確定することがで
きる。つまり、装置側による最初の問いかけが「午前」
であって、話者側が「いいえ」と応答した場合には、
「午後」が確定される。
ば、「はい」と応答し(ステップs39)、間違ってい
れば(午前でなければ)、「いいえ」と応答する(ステ
ップs40)。この「午前」と「午後」の場合は、二者
択一であるので、もし、話者#1側の応答が「いいえ」
であった場合には、もう一方の単語で確定することがで
きる。つまり、装置側による最初の問いかけが「午前」
であって、話者側が「いいえ」と応答した場合には、
「午後」が確定される。
【0099】なお、「午前」と「午後」の他に、たとえ
ば、「正午」が加わって、「午前」、「午後」、「正
午」の3つのうち、いずれかを確定する場合に、たとえ
ば、装置側「午前ですか」、話者側「いいえ」、装置側
「午後ですか」、話者側「いいえ」となって、「正午」
が確定されることになる。このように、3単語程度であ
れば、話者側からの「はい」または「いいえ」の応答を
2〜3回繰り返すことで、短時間に所望の単語の確定を
行うことができる。
ば、「正午」が加わって、「午前」、「午後」、「正
午」の3つのうち、いずれかを確定する場合に、たとえ
ば、装置側「午前ですか」、話者側「いいえ」、装置側
「午後ですか」、話者側「いいえ」となって、「正午」
が確定されることになる。このように、3単語程度であ
れば、話者側からの「はい」または「いいえ」の応答を
2〜3回繰り返すことで、短時間に所望の単語の確定を
行うことができる。
【0100】このようにして、「午前」か「午後」かの
確定が行われると、次に、「時」の単位の確定を行う。
この場合、話者#1の入力した単語は「1時」である。
これに対して、装置側から、たとえば、「1時」に対す
る認識候補の第1位から第n位までのうち、ステップs
41にて第1位候補として「1時ですか」が発話された
とすれば、話者#1は「はい」と応答し(ステップs4
2)、「1時」が確定し、分の単位の確認処理(ステッ
プs51)に入る。
確定が行われると、次に、「時」の単位の確定を行う。
この場合、話者#1の入力した単語は「1時」である。
これに対して、装置側から、たとえば、「1時」に対す
る認識候補の第1位から第n位までのうち、ステップs
41にて第1位候補として「1時ですか」が発話された
とすれば、話者#1は「はい」と応答し(ステップs4
2)、「1時」が確定し、分の単位の確認処理(ステッ
プs51)に入る。
【0101】しかし、ステップs41にて装置側から第
1位候補として、たとえば、「7時」が出力されたとす
れば、話者#1は「いいえ」と応答する(ステップs4
3)。これにより、装置側から、第2位候補が出力され
(ステップs44)、その第2位候補として、たとえ
ば、「8時」が出力されたとすると、それが正しけれ
ば、話者#1は「はい」と応答し(ステップs45)、
間違っていれば、「いいえ」と応答する(ステップs4
6)。
1位候補として、たとえば、「7時」が出力されたとす
れば、話者#1は「いいえ」と応答する(ステップs4
3)。これにより、装置側から、第2位候補が出力され
(ステップs44)、その第2位候補として、たとえ
ば、「8時」が出力されたとすると、それが正しけれ
ば、話者#1は「はい」と応答し(ステップs45)、
間違っていれば、「いいえ」と応答する(ステップs4
6)。
【0102】ここでは、「いいえ」であるので、さら
に、装置側からは第3位候補として、たとえば、「1
時」が出力されたとする(ステップs47)。それが正
しければ、話者#1は「はい」と応答し(ステップs4
8)、間違っていれば、「いいえ」と応答する(ステッ
プs49)。ここでは、話者#1は「はい」と応答する
ので、その時点で「1時」が確定し、分の単位の確認処
理(ステップs51)に入る。
に、装置側からは第3位候補として、たとえば、「1
時」が出力されたとする(ステップs47)。それが正
しければ、話者#1は「はい」と応答し(ステップs4
8)、間違っていれば、「いいえ」と応答する(ステッ
プs49)。ここでは、話者#1は「はい」と応答する
ので、その時点で「1時」が確定し、分の単位の確認処
理(ステップs51)に入る。
【0103】また、もし、第3位候補でも、「いいえ」
であった場合には、装置側から話者#1に対して、たと
えば、「もう一度、何時か言ってください」というよう
に、再度、「時」の単位の音声入力を促すようにする
(ステップs50)。これによって、話者#1は再度、
時の単位の発話(この場合「1時」)を行い、ステップ
41に戻る。
であった場合には、装置側から話者#1に対して、たと
えば、「もう一度、何時か言ってください」というよう
に、再度、「時」の単位の音声入力を促すようにする
(ステップs50)。これによって、話者#1は再度、
時の単位の発話(この場合「1時」)を行い、ステップ
41に戻る。
【0104】なお、再度、「時」の単位について音声入
力を行ってそれを認識するとき、すでに、「いいえ」で
否定された単語(前述の場合、「7時」、「8時」な
ど)は、認識候補から外すようにする。
力を行ってそれを認識するとき、すでに、「いいえ」で
否定された単語(前述の場合、「7時」、「8時」な
ど)は、認識候補から外すようにする。
【0105】また、「分」の単位についても「時」の単
位で説明したステップs31〜s50と同様の処理にて
行うことができる。そして、最終的に確定したら、装置
側からは「アラーム時刻を午前1時20分にセットしま
した」というような発話がなされる(ステップs3
5)。
位で説明したステップs31〜s50と同様の処理にて
行うことができる。そして、最終的に確定したら、装置
側からは「アラーム時刻を午前1時20分にセットしま
した」というような発話がなされる(ステップs3
5)。
【0106】このような処理は、アラーム設定だけでは
なく、現在時刻の設定も同様の処理で行える。
なく、現在時刻の設定も同様の処理で行える。
【0107】なお、前述の処理のなかで第1候補が話者
によって否定された場合、装置側からは、第2候補、第
3候補、・・・というように認識候補順に発話するので
はなく、たとえば、「1時」が否定された場合には、
「2時」、「3時」、・・・というように認識候補順と
は無関係に時刻を表す数字の順番に従って発話すること
もできる。
によって否定された場合、装置側からは、第2候補、第
3候補、・・・というように認識候補順に発話するので
はなく、たとえば、「1時」が否定された場合には、
「2時」、「3時」、・・・というように認識候補順と
は無関係に時刻を表す数字の順番に従って発話すること
もできる。
【0108】このような処理を行うことにより、時刻設
定などを行う際、話者は「午前」、「何時」、「何分」
を1まとまりの音声として連続的に発話することがで
き、これにより、時刻設定のための音声入力操作が簡単
なものとなる。しかも、これらの一連の音声が正しく音
声認識されれば、その時点で時刻設定が終了し、もし、
間違っていた場合は、一つ一つの単語ごとに正否を確か
めながら、正しく認識されるまで、認識動作が行われる
ので、最終的には確実に正しい時刻の設定が行え、利便
性と確実性の両方を兼ね備えた時刻設定が行える。
定などを行う際、話者は「午前」、「何時」、「何分」
を1まとまりの音声として連続的に発話することがで
き、これにより、時刻設定のための音声入力操作が簡単
なものとなる。しかも、これらの一連の音声が正しく音
声認識されれば、その時点で時刻設定が終了し、もし、
間違っていた場合は、一つ一つの単語ごとに正否を確か
めながら、正しく認識されるまで、認識動作が行われる
ので、最終的には確実に正しい時刻の設定が行え、利便
性と確実性の両方を兼ね備えた時刻設定が行える。
【0109】このような連続した単語を認識する処理
は、時刻だけではなく、複数の単語から構成されていて
それぞれの単語間にわずかな間をおいて連続的に発話さ
れるような音声を認識する場合に広く適用できる。
は、時刻だけではなく、複数の単語から構成されていて
それぞれの単語間にわずかな間をおいて連続的に発話さ
れるような音声を認識する場合に広く適用できる。
【0110】図7は、複数の単語として第1番目〜第n
番目までのn個の単語から構成され、それぞれの単語間
にわずかな間をおいて連続的に発話されるような音声を
認識(ここでは連続単語認識という)する際の処理手順
を説明するフローチャートである。この図7に示す処理
手順について簡単に説明する。なお、ここでは、n個か
らなる連続単語として、3つの単語(第1番目の単語、
第2番目の単語、第3番目の単語という)から構成され
ているものとする。また、これら第1番目の単語、第2
番目の単語、第3番目の単語それぞれの認識を行う際、
認識候補は第m位までの認識候補を出力するが、ここで
は、mは1から3までの値をとるものとする。
番目までのn個の単語から構成され、それぞれの単語間
にわずかな間をおいて連続的に発話されるような音声を
認識(ここでは連続単語認識という)する際の処理手順
を説明するフローチャートである。この図7に示す処理
手順について簡単に説明する。なお、ここでは、n個か
らなる連続単語として、3つの単語(第1番目の単語、
第2番目の単語、第3番目の単語という)から構成され
ているものとする。また、これら第1番目の単語、第2
番目の単語、第3番目の単語それぞれの認識を行う際、
認識候補は第m位までの認識候補を出力するが、ここで
は、mは1から3までの値をとるものとする。
【0111】図7において、まず、話者の発話した複数
の単語からなる連続単語について認識を行う(ステップ
s61)。そして、認識結果を出力し(ステップs6
2)、その認識結果に対する話者からの「はい」または
「いいえ」の認識を行う(ステップs63)。ここで、
話者の応答が「はい」であれば(ステップs64)、そ
の認識結果を連続単語全体として確定し(ステップs6
5)、その時点で認識処理は終了する。
の単語からなる連続単語について認識を行う(ステップ
s61)。そして、認識結果を出力し(ステップs6
2)、その認識結果に対する話者からの「はい」または
「いいえ」の認識を行う(ステップs63)。ここで、
話者の応答が「はい」であれば(ステップs64)、そ
の認識結果を連続単語全体として確定し(ステップs6
5)、その時点で認識処理は終了する。
【0112】一方、話者の応答が「いいえ」であれば、
第1番目の単語の認識処理に入る。この第1番目の単語
の認識処理は、まず、第m位候補(ここではm=1)を
出力し(ステップs66)、それに対する話者の「は
い」または「いいえ」を認識する(ステップs67)。
ここで、話者の応答が「はい」であれば(ステップs6
8)、その第1位候補を第1番目の単語として確定し
(ステップs69)、第2番目の単語についての処理に
入る(ステップs70)。
第1番目の単語の認識処理に入る。この第1番目の単語
の認識処理は、まず、第m位候補(ここではm=1)を
出力し(ステップs66)、それに対する話者の「は
い」または「いいえ」を認識する(ステップs67)。
ここで、話者の応答が「はい」であれば(ステップs6
8)、その第1位候補を第1番目の単語として確定し
(ステップs69)、第2番目の単語についての処理に
入る(ステップs70)。
【0113】一方、話者の応答が「いいえ」であれば、
mが設定値(この場合は、設定値はm=3)であるか否
かを判断する(ステップs71)。ここでは、まだ、設
定値でないので、ステップs66に処理が戻り、今度
は、m=2として第2位の候補を出力する。
mが設定値(この場合は、設定値はm=3)であるか否
かを判断する(ステップs71)。ここでは、まだ、設
定値でないので、ステップs66に処理が戻り、今度
は、m=2として第2位の候補を出力する。
【0114】そして、それに対する話者の「はい」また
は「いいえ」を認識する(ステップs67)。ここで、
話者の応答が「はい」であれば(ステップs68)、第
2位候補を第1番目の単語として確定し(ステップs6
9)、第2番目の単語についての処理に入る(ステップ
s70)。また、話者の応答が「いいえ」であれば、ス
テップs71の判断を行う。
は「いいえ」を認識する(ステップs67)。ここで、
話者の応答が「はい」であれば(ステップs68)、第
2位候補を第1番目の単語として確定し(ステップs6
9)、第2番目の単語についての処理に入る(ステップ
s70)。また、話者の応答が「いいえ」であれば、ス
テップs71の判断を行う。
【0115】このように、話者の応答が「はい」であれ
ばその時点における認識候補によって第1番目の単語が
確定されるが、話者の応答が「いいえ」であれば、次の
認識候補について同様の処理を行う。そして、この場
合、第3位の候補でも正しく認識されなかった場合は、
その第1番目の単語をもう一度発話してもらうように話
者に対して要求する(ステップs72)。そして、話者
が、再度、その第1番目の単語を発話した内容につい
て、同様の動作を繰り返す。
ばその時点における認識候補によって第1番目の単語が
確定されるが、話者の応答が「いいえ」であれば、次の
認識候補について同様の処理を行う。そして、この場
合、第3位の候補でも正しく認識されなかった場合は、
その第1番目の単語をもう一度発話してもらうように話
者に対して要求する(ステップs72)。そして、話者
が、再度、その第1番目の単語を発話した内容につい
て、同様の動作を繰り返す。
【0116】なお、前述の図6の例で説明したように、
話者が再度、第1番目の単語を発話してその音声入力を
行い、それを認識するとき、すでに、「いいえ」で否定
された単語は、認識候補から外すようにする。
話者が再度、第1番目の単語を発話してその音声入力を
行い、それを認識するとき、すでに、「いいえ」で否定
された単語は、認識候補から外すようにする。
【0117】このようにして、第1番目の単語について
の認識処理が終了すると、次は、第2番目の単語につい
ての認識処理(ステップs70)に入り、この第2番目
の単語についての認識処理が終了すると、次は、第3番
目の単語についての認識処理(ステップs73)に入
る。なお、これら、第2番目と第3番目の単語について
の認識処理は、第1番目の単語の認識処理と同様である
ので、その説明は省略する。
の認識処理が終了すると、次は、第2番目の単語につい
ての認識処理(ステップs70)に入り、この第2番目
の単語についての認識処理が終了すると、次は、第3番
目の単語についての認識処理(ステップs73)に入
る。なお、これら、第2番目と第3番目の単語について
の認識処理は、第1番目の単語の認識処理と同様である
ので、その説明は省略する。
【0118】ところで、以上のような音声入力操作を行
う際、話者と装置側の音声入力部(マイクロホン)との
距離は、認識性能という面から考えると重要な要素とな
る。そこで、この実施の形態では、話者の音声入力操作
の状況に応じて、音声入力部の音声入力ゲイン、つま
り、マイクアンプ2の音声入力ゲインを切り替える制御
を行う。この制御は、前述した各種処理の制御とともに
制御部5で行う。以下、これについて説明する。
う際、話者と装置側の音声入力部(マイクロホン)との
距離は、認識性能という面から考えると重要な要素とな
る。そこで、この実施の形態では、話者の音声入力操作
の状況に応じて、音声入力部の音声入力ゲイン、つま
り、マイクアンプ2の音声入力ゲインを切り替える制御
を行う。この制御は、前述した各種処理の制御とともに
制御部5で行う。以下、これについて説明する。
【0119】このマイクアンプ2の音声入力ゲイン(以
下では、単にゲインという)制御は、音声入力を行う場
面がどのような場面であるかを判断して、その場面に応
じてゲインを大きくしたり小さくしたりする制御であ
る。
下では、単にゲインという)制御は、音声入力を行う場
面がどのような場面であるかを判断して、その場面に応
じてゲインを大きくしたり小さくしたりする制御であ
る。
【0120】たとえば、装置が動作をなす上で特に高い
認識率を要求される音声が入力される場面か、それ以外
の音声の入力される場面かを判断して、装置が動作をな
す上で特に高い認識率を要求される音声が入力される場
面である場合には、それ以外の音声が入力される場面に
比べて、音声入力ゲインを小さくするというような制御
を行う。
認識率を要求される音声が入力される場面か、それ以外
の音声の入力される場面かを判断して、装置が動作をな
す上で特に高い認識率を要求される音声が入力される場
面である場合には、それ以外の音声が入力される場面に
比べて、音声入力ゲインを小さくするというような制御
を行う。
【0121】具体的には、音声の特徴量が複数の単語間
で相互に類似していて誤認識されやすい単語に対する音
声が入力される場面、単語登録を行う場面、話者学習を
行う場面などが考えられ、このような場面では、音声入
力ゲインを小さくするような制御を行う。
で相互に類似していて誤認識されやすい単語に対する音
声が入力される場面、単語登録を行う場面、話者学習を
行う場面などが考えられ、このような場面では、音声入
力ゲインを小さくするような制御を行う。
【0122】誤認識されやすい単語に対する音声が入力
される場面というのは、この装置の場合、アラーム時刻
や現在時刻の設定時において、時刻入力(午前、何時、
何分)を行う場面が考えられる。このような時刻設定
は、たとえば、「1時」と「7時」などのように、音声
の特徴量が類似していて誤認識され易い音声が多く、し
かも、時刻設定は正確になされることが要求される。
される場面というのは、この装置の場合、アラーム時刻
や現在時刻の設定時において、時刻入力(午前、何時、
何分)を行う場面が考えられる。このような時刻設定
は、たとえば、「1時」と「7時」などのように、音声
の特徴量が類似していて誤認識され易い音声が多く、し
かも、時刻設定は正確になされることが要求される。
【0123】したがって、このような音声入力を行う際
は、マイクアンプ2のゲインを小さくして、話者にマイ
クに近づいて発話してもらう。
は、マイクアンプ2のゲインを小さくして、話者にマイ
クに近づいて発話してもらう。
【0124】一方、装置に対して呼びかけを行ったりす
る場面では、ゲインを大きくして、話者が装置から離れ
たところから音声の入力を可能とする。これは、装置に
対して少し距離を置いた状態で、装置との会話を行うよ
うな場合に便利なものとするためである。
る場面では、ゲインを大きくして、話者が装置から離れ
たところから音声の入力を可能とする。これは、装置に
対して少し距離を置いた状態で、装置との会話を行うよ
うな場合に便利なものとするためである。
【0125】このゲインを大きくする場面は、たとえ
ば、「おはよう」、「ただいま」、「おやすみ」、「何
時」、「アラーム」といった登録されている単語(単語
セットw1に属する単語)などを入力するような場面で
あり、このような場面において入力されるこの種の単語
は、前述の時刻情報(単語セットw2やw1)に比べる
と、同じ単語セットw1に属する他の単語間で誤認識さ
れにくく、認識対象単語数も、この場合、数単語である
ためそれほど多くはない。また、装置に対して気軽に呼
びかけるような内容であることから、ゲインを高くして
装置から離れた位置からでも入力できる法が好ましいも
のとなる。
ば、「おはよう」、「ただいま」、「おやすみ」、「何
時」、「アラーム」といった登録されている単語(単語
セットw1に属する単語)などを入力するような場面で
あり、このような場面において入力されるこの種の単語
は、前述の時刻情報(単語セットw2やw1)に比べる
と、同じ単語セットw1に属する他の単語間で誤認識さ
れにくく、認識対象単語数も、この場合、数単語である
ためそれほど多くはない。また、装置に対して気軽に呼
びかけるような内容であることから、ゲインを高くして
装置から離れた位置からでも入力できる法が好ましいも
のとなる。
【0126】このように、どのような単語が入力される
場面であるかによって、それに適した音声入力ゲインを
設定する。
場面であるかによって、それに適した音声入力ゲインを
設定する。
【0127】前述したように、誤認識されやすい単語に
対する音声が入力される場面、単語登録を行う場面、話
者学習を行う場面などでは、マイクアンプ2のゲインを
小さくし、話者にマイクロホン1の近くで発話させるこ
とによって、話者の口元とマイクロホン1の距離は、話
者によってあまり大きくは変化しないで、ほぼ同じよう
な距離となることが多い。これにより、S/N比がよく
なるとともに、ダイナミックレンジが小さくなり、この
状況での発話内容は高い認識率で認識される。
対する音声が入力される場面、単語登録を行う場面、話
者学習を行う場面などでは、マイクアンプ2のゲインを
小さくし、話者にマイクロホン1の近くで発話させるこ
とによって、話者の口元とマイクロホン1の距離は、話
者によってあまり大きくは変化しないで、ほぼ同じよう
な距離となることが多い。これにより、S/N比がよく
なるとともに、ダイナミックレンジが小さくなり、この
状況での発話内容は高い認識率で認識される。
【0128】このように、音声入力を行うときの状況に
よって、マイクアンプ2のゲインを制御し、それに応じ
た音声入力を行うようにするために、装置側から何らか
の通知を行う。その通知内容としては、たとえば、「も
う少しマイクロホンに近づいて話して下さい」とか「も
う少し大きな声で話して下さい」、あるいは、「もう少
し小さな声で話して下さい」といった内容であり、これ
らの内容を装置側から出力するようにする。
よって、マイクアンプ2のゲインを制御し、それに応じ
た音声入力を行うようにするために、装置側から何らか
の通知を行う。その通知内容としては、たとえば、「も
う少しマイクロホンに近づいて話して下さい」とか「も
う少し大きな声で話して下さい」、あるいは、「もう少
し小さな声で話して下さい」といった内容であり、これ
らの内容を装置側から出力するようにする。
【0129】制御部5は、現在の音声入力がどのような
状況での音声入力であるか(たとえば、話者が単に装置
に呼びかけを行っているのか、登録単語を入力している
のか、時刻設定を行っているのかなど)を把握すること
ができるので、それに応じて、マイクアンプ2のゲイン
を切り替え制御するとともに、話者に対してマイクアン
プ2のゲインに応じた発話を行わせるような内容を出力
することが可能となる。
状況での音声入力であるか(たとえば、話者が単に装置
に呼びかけを行っているのか、登録単語を入力している
のか、時刻設定を行っているのかなど)を把握すること
ができるので、それに応じて、マイクアンプ2のゲイン
を切り替え制御するとともに、話者に対してマイクアン
プ2のゲインに応じた発話を行わせるような内容を出力
することが可能となる。
【0130】たとえば、誤認識されやすい単語に対する
音声が入力される場面、単語登録を行う場面、話者学習
を行う場面などでは、マイクアンプ2のゲインを小さく
するとともに、装置側から、「もう少しマイクロホンに
近づいて話して下さい」といった内容を出力する。これ
により、話者は自然にマイクロホンに近づいて発話する
ようになり、これによってS/N比が良くなるととも
に、ダイナミックレンジが小さくなるので、認識性能を
高めることができる。
音声が入力される場面、単語登録を行う場面、話者学習
を行う場面などでは、マイクアンプ2のゲインを小さく
するとともに、装置側から、「もう少しマイクロホンに
近づいて話して下さい」といった内容を出力する。これ
により、話者は自然にマイクロホンに近づいて発話する
ようになり、これによってS/N比が良くなるととも
に、ダイナミックレンジが小さくなるので、認識性能を
高めることができる。
【0131】図8は以上説明した話者の音声入力操作の
状況に応じてマイクアンプ2のゲインを切り替える制御
を行う例を説明するフローチャートであり、ここでは、
前述の図4の処理を行う際にゲインを切り替える例につ
いて説明する。
状況に応じてマイクアンプ2のゲインを切り替える制御
を行う例を説明するフローチャートであり、ここでは、
前述の図4の処理を行う際にゲインを切り替える例につ
いて説明する。
【0132】図8において、認識モードであるか登録モ
ードであるかの判定を行う(ステップs81)。この判
定において、登録モードである場合、マイクアンプ2の
ゲインを小さくするようにゲイン切り替えを行い(ステ
ップs82)、切り替えられたゲインによって音声入力
を行う(ステップs83)。この音声入力を行うステッ
プs83から話者学習処理までのステップs89は、図
4の音声入力を行うステップs12から話者学習処理ま
でのステップs18と同じであるので、ここではその説
明は省略する。
ードであるかの判定を行う(ステップs81)。この判
定において、登録モードである場合、マイクアンプ2の
ゲインを小さくするようにゲイン切り替えを行い(ステ
ップs82)、切り替えられたゲインによって音声入力
を行う(ステップs83)。この音声入力を行うステッ
プs83から話者学習処理までのステップs89は、図
4の音声入力を行うステップs12から話者学習処理ま
でのステップs18と同じであるので、ここではその説
明は省略する。
【0133】一方、認識モードである場合には、場面に
応じてマイクアンプ2のゲインを切り替える。その切り
替えは、音声入力を行う場面がゲインを大きくする場面
であるか否かを判定し(ステップs90)、ゲインを大
きくする場面であれば、マイクアンプ2のゲインを大き
くするようにゲイン切り替えを行い(ステップs9
1)、ゲインを小さくする場面であれば、マイクアンプ
2のゲインを小さくするようにゲイン切り替えを行う
(ステップs92)。
応じてマイクアンプ2のゲインを切り替える。その切り
替えは、音声入力を行う場面がゲインを大きくする場面
であるか否かを判定し(ステップs90)、ゲインを大
きくする場面であれば、マイクアンプ2のゲインを大き
くするようにゲイン切り替えを行い(ステップs9
1)、ゲインを小さくする場面であれば、マイクアンプ
2のゲインを小さくするようにゲイン切り替えを行う
(ステップs92)。
【0134】なお、ステップs90におけるゲインを大
きくする場面というのは、前述したように、呼びかけを
行うような音声入力を行う場面であり、これに対して、
ゲインを小さくする場面というのは、登録単語を入力す
る際や、アラーム時刻や現在時刻の設定時において、時
刻入力(午前、何時、何分)を行うような誤認識される
可能性が高かったり、特に高い認識率を得ようとする場
合などである。
きくする場面というのは、前述したように、呼びかけを
行うような音声入力を行う場面であり、これに対して、
ゲインを小さくする場面というのは、登録単語を入力す
る際や、アラーム時刻や現在時刻の設定時において、時
刻入力(午前、何時、何分)を行うような誤認識される
可能性が高かったり、特に高い認識率を得ようとする場
合などである。
【0135】そして、このように、そのときの場面に応
じてゲインの設定を行って音声入力を行う(ステップs
93)。この音声入力(ステップs93)から所定の処
理(ステップs101)までは、図4の音声入力(ステ
ップs19)から所定の処理(ステップ27)までと同
じであるので、ここではその説明は省略する。
じてゲインの設定を行って音声入力を行う(ステップs
93)。この音声入力(ステップs93)から所定の処
理(ステップs101)までは、図4の音声入力(ステ
ップs19)から所定の処理(ステップ27)までと同
じであるので、ここではその説明は省略する。
【0136】また、このような音声によるコマンドを装
置が受け付けて、そのコマンドに応じた動作を行うもの
にあって、個々の話者の声質や話し方の特徴によって良
好に認識される話者と認識率が低い話者が存在すること
が多い。
置が受け付けて、そのコマンドに応じた動作を行うもの
にあって、個々の話者の声質や話し方の特徴によって良
好に認識される話者と認識率が低い話者が存在すること
が多い。
【0137】このように、特に認識率の悪い話者のため
に、装置側からは質問形式の発話内容を出力し、話者は
それを聞いて、肯定する場合は肯定を意味するボタンを
操作し、否定する場合は否定を意味するボタンを操作す
ることにより、「はい」または「いいえ」を認識させる
のと同等の動作を行うことを可能とする。
に、装置側からは質問形式の発話内容を出力し、話者は
それを聞いて、肯定する場合は肯定を意味するボタンを
操作し、否定する場合は否定を意味するボタンを操作す
ることにより、「はい」または「いいえ」を認識させる
のと同等の動作を行うことを可能とする。
【0138】すなわち、話者が装置に対して設定したい
情報(設定情報という)に対し、装置側から質問形式で
その設定情報としての候補を1つ1つ順番に出力し、1
つの候補が出力される都度、出力された候補について肯
定を意味するボタンまたは否定を意味するボタンのいず
れかのボタン入力を受け付け、肯定を意味するボタン入
力を受け付けたときは、当該候補を前記設定情報として
確定し、否定を意味するボタン入力を受け付けたとき
は、次の候補を出力する。
情報(設定情報という)に対し、装置側から質問形式で
その設定情報としての候補を1つ1つ順番に出力し、1
つの候補が出力される都度、出力された候補について肯
定を意味するボタンまたは否定を意味するボタンのいず
れかのボタン入力を受け付け、肯定を意味するボタン入
力を受け付けたときは、当該候補を前記設定情報として
確定し、否定を意味するボタン入力を受け付けたとき
は、次の候補を出力する。
【0139】このボタン操作による肯定または否定の入
力を可能とするのは、認識率の悪い話者に対しての助け
とするためであり、これをここではヘルプモードとい
う。以下、このヘルプモードについて説明する。
力を可能とするのは、認識率の悪い話者に対しての助け
とするためであり、これをここではヘルプモードとい
う。以下、このヘルプモードについて説明する。
【0140】装置側の操作部11には、肯定を意味する
肯定ボタンBT21と否定を意味する否定ボタンBT2
2を設ける。つまり、話者によって肯定ボタンBT21
が押されると、制御部5では肯定であると判断し、否定
ボタンBT22が押されると制御部5では否定であると
判断する。
肯定ボタンBT21と否定を意味する否定ボタンBT2
2を設ける。つまり、話者によって肯定ボタンBT21
が押されると、制御部5では肯定であると判断し、否定
ボタンBT22が押されると制御部5では否定であると
判断する。
【0141】そして、ヘルプモードとするには、これま
で説明してきた通常の認識モードにおいて、たとえば、
肯定ボタンBT21と否定ボタンBT22が同時に数秒
(2秒程度)以上押されることにより、制御部5がそれ
を検出してヘルプモードの設定がなされたと判定し、ヘ
ルプモードへの移行を行う。なお、このヘルプモードへ
の移行は、肯定ボタンBT21と否定ボタンBT22が
同時に数秒以上押されるという条件に限られるものでは
なく、他の方法でもよい。
で説明してきた通常の認識モードにおいて、たとえば、
肯定ボタンBT21と否定ボタンBT22が同時に数秒
(2秒程度)以上押されることにより、制御部5がそれ
を検出してヘルプモードの設定がなされたと判定し、ヘ
ルプモードへの移行を行う。なお、このヘルプモードへ
の移行は、肯定ボタンBT21と否定ボタンBT22が
同時に数秒以上押されるという条件に限られるものでは
なく、他の方法でもよい。
【0142】このようにして、ヘルプモードに入ると、
装置側では音声認識動作は行わず、話者によって、肯定
ボタンBT21か否定ボタンBT22のいずれかが押さ
れたことを検知して、それに応じて処理を進行して行
く。
装置側では音声認識動作は行わず、話者によって、肯定
ボタンBT21か否定ボタンBT22のいずれかが押さ
れたことを検知して、それに応じて処理を進行して行
く。
【0143】図9はこのヘルプモードを備えた場合の認
識処理を説明するフローチャートである。図9におい
て、M1は通常の認識モード時における処理手順、M2
はヘルプモード時における処理手順であり、通常の認識
モードM1からヘルプモードM2への移行は肯定ボタン
BT21と否定ボタンBT22が同時に数秒(2秒程
度)以上押されるボタン割り込み(ステップs110)
によって移行する。なお、この図9に示される通常の認
識モードM1における音声入力(ステップs121)か
ら所定の処理(ステップs127)まで処理は、図2で
示したステップs1〜s7までの処理と同様であるので
ここではその説明は省略する。
識処理を説明するフローチャートである。図9におい
て、M1は通常の認識モード時における処理手順、M2
はヘルプモード時における処理手順であり、通常の認識
モードM1からヘルプモードM2への移行は肯定ボタン
BT21と否定ボタンBT22が同時に数秒(2秒程
度)以上押されるボタン割り込み(ステップs110)
によって移行する。なお、この図9に示される通常の認
識モードM1における音声入力(ステップs121)か
ら所定の処理(ステップs127)まで処理は、図2で
示したステップs1〜s7までの処理と同様であるので
ここではその説明は省略する。
【0144】今、通常の認識モードにより認識を行って
いるとし、この通常の認識モードにおいて、肯定ボタン
BT21と否定ボタンBT22による割り込みが発生し
たとする(ステップs110)。
いるとし、この通常の認識モードにおいて、肯定ボタン
BT21と否定ボタンBT22による割り込みが発生し
たとする(ステップs110)。
【0145】これにより、ヘルプモードの設定がなされ
たか否かを判断し(ステップs111)、ヘルプモード
の設定であれば、ヘルプモードであることを話者に通知
する(ステップs112)。なお、ステップs112に
よるヘルプモードの設定か否かは、ここでは、肯定ボタ
ンBT21と否定ボタンBT22が同時に数秒(2秒程
度)以上押されたか否かによって判断する。
たか否かを判断し(ステップs111)、ヘルプモード
の設定であれば、ヘルプモードであることを話者に通知
する(ステップs112)。なお、ステップs112に
よるヘルプモードの設定か否かは、ここでは、肯定ボタ
ンBT21と否定ボタンBT22が同時に数秒(2秒程
度)以上押されたか否かによって判断する。
【0146】このようにして、ヘルプモードM2への移
行がなされると、肯定ボタンBT21または否定ボタン
BT22の入力待ち状態となり(ステップs113)、
肯定ボタンBT21または否定ボタンBT22のいずれ
かが押されたか否かを判断し(ステップs114)、押
されたボタンが肯定ボタンBT21または否定ボタンB
T22のいずれかであるか、あるいは、押された状態が
どの程度継続しているかなどの判断を行い(ステップs
115)、それに対する所定の処理を行う(ステップs
116)。
行がなされると、肯定ボタンBT21または否定ボタン
BT22の入力待ち状態となり(ステップs113)、
肯定ボタンBT21または否定ボタンBT22のいずれ
かが押されたか否かを判断し(ステップs114)、押
されたボタンが肯定ボタンBT21または否定ボタンB
T22のいずれかであるか、あるいは、押された状態が
どの程度継続しているかなどの判断を行い(ステップs
115)、それに対する所定の処理を行う(ステップs
116)。
【0147】たとえば、話者が装置に対して設定したい
情報としての候補を、それでよいかどうかを話者に問い
かける質問形式で装置側から1つ1つ出力し、1つの候
補が出力される都度、出力された候補について肯定ボタ
ンBT21または否定ボタンBT22のいずれかのボタ
ン入力を受け付け、肯定ボタンBT21の入力を受け付
けたときは、当該候補を前記設定情報として確定し、否
定ボタンBT22の入力を受け付けたときは、次の候補
を出力する。なお、この具体的な処理内容についてはの
ちに説明する。
情報としての候補を、それでよいかどうかを話者に問い
かける質問形式で装置側から1つ1つ出力し、1つの候
補が出力される都度、出力された候補について肯定ボタ
ンBT21または否定ボタンBT22のいずれかのボタ
ン入力を受け付け、肯定ボタンBT21の入力を受け付
けたときは、当該候補を前記設定情報として確定し、否
定ボタンBT22の入力を受け付けたときは、次の候補
を出力する。なお、この具体的な処理内容についてはの
ちに説明する。
【0148】そして、ヘルプモードが終了かどうかを判
断し(ステップs117)、終了していなければステッ
プs113に戻り、終了していれば、通常の認識モード
M1に戻る。
断し(ステップs117)、終了していなければステッ
プs113に戻り、終了していれば、通常の認識モード
M1に戻る。
【0149】以下に具体的な操作例について図10の状
態遷移図を参照しながら説明する。なお、図10におい
て、括弧内の操作は話者の行う操作である。
態遷移図を参照しながら説明する。なお、図10におい
て、括弧内の操作は話者の行う操作である。
【0150】装置側からは、まず、「ヘルプモードとな
りました」というように、ヘルプモードとなったことを
話者に知らせる(ステップs131)。つづいて、装置
側からは、「現在時刻の設定ですか」というように、話
者が装置に対して設定したい情報を発話する(ステップ
s132)。この発話内容を話者が肯定する場合は、肯
定ボタンBT21を押し(ステップs133)、それに
よって、現在時刻設定モードに入る(ステップs13
4)。
りました」というように、ヘルプモードとなったことを
話者に知らせる(ステップs131)。つづいて、装置
側からは、「現在時刻の設定ですか」というように、話
者が装置に対して設定したい情報を発話する(ステップ
s132)。この発話内容を話者が肯定する場合は、肯
定ボタンBT21を押し(ステップs133)、それに
よって、現在時刻設定モードに入る(ステップs13
4)。
【0151】また、現在時刻設定でなければ、否定ボタ
ンBT22を押す(ステップs135)。これにより、
装置側からは、「アラーム時刻の設定ですか」というよ
うな内容を発話する(ステップs136)。この発話内
容を話者が肯定する場合は、肯定ボタンBT21を押し
(ステップs137)、それによって、アラーム時刻設
定モードに入る(ステップs138)。また、アラーム
時刻設定でなければ、否定ボタンBT22を押す(ステ
ップs139)。
ンBT22を押す(ステップs135)。これにより、
装置側からは、「アラーム時刻の設定ですか」というよ
うな内容を発話する(ステップs136)。この発話内
容を話者が肯定する場合は、肯定ボタンBT21を押し
(ステップs137)、それによって、アラーム時刻設
定モードに入る(ステップs138)。また、アラーム
時刻設定でなければ、否定ボタンBT22を押す(ステ
ップs139)。
【0152】このように、装置側からの1つ1つの質問
について、話者は「はい」または「いいえ」と応答する
代わりに、肯定ボタンBT21または否定ボタンBT2
2を押す。これにより、装置側では、そのボタン操作に
応じて処理を進めて行く。質問内容は、以上の2つだけ
ではなく、その他にも、たとえば、「登録単語入力を行
いますか」などがあるが、この図10ではこれらの処理
についての図示は省略されている。
について、話者は「はい」または「いいえ」と応答する
代わりに、肯定ボタンBT21または否定ボタンBT2
2を押す。これにより、装置側では、そのボタン操作に
応じて処理を進めて行く。質問内容は、以上の2つだけ
ではなく、その他にも、たとえば、「登録単語入力を行
いますか」などがあるが、この図10ではこれらの処理
についての図示は省略されている。
【0153】また、肯定ボタンBT21と否定ボタンB
T22を誤って操作したときは、肯定ボタンBT21と
否定ボタンBT22を瞬間的に同時操作することによっ
て、1つ前の質問に戻れるようにする。
T22を誤って操作したときは、肯定ボタンBT21と
否定ボタンBT22を瞬間的に同時操作することによっ
て、1つ前の質問に戻れるようにする。
【0154】前述した現在時刻設定モード(ステップs
134)について簡単に説明する。肯定ボタンBT21
または否定ボタンBT22を用いての現在時刻設定は、
まず、装置側から、「午前」か否かを質問する。これに
対して、話者が肯定ボタンBT21を押せば午前が確定
し、否定ボタンBT22を押せば「午後」が確定する。
134)について簡単に説明する。肯定ボタンBT21
または否定ボタンBT22を用いての現在時刻設定は、
まず、装置側から、「午前」か否かを質問する。これに
対して、話者が肯定ボタンBT21を押せば午前が確定
し、否定ボタンBT22を押せば「午後」が確定する。
【0155】午前または午後が確定した後は、装置側か
らは、まず、「1時ですか」と質問し、話者の設定した
い時刻の時間の単位が「1時」であれば、肯定ボタンB
T21を押し、これにより、1時が確定する。また、1
時でなければ否定ボタンBT22を押す。これにより、
装置側から「2時ですか」と質問し、話者の設定したい
時刻の時間の単位が「2時」であれば、肯定ボタンBT
21を押し、これにより、2時が確定する。また、2時
でなければ否定ボタンBT22を押す。
らは、まず、「1時ですか」と質問し、話者の設定した
い時刻の時間の単位が「1時」であれば、肯定ボタンB
T21を押し、これにより、1時が確定する。また、1
時でなければ否定ボタンBT22を押す。これにより、
装置側から「2時ですか」と質問し、話者の設定したい
時刻の時間の単位が「2時」であれば、肯定ボタンBT
21を押し、これにより、2時が確定する。また、2時
でなければ否定ボタンBT22を押す。
【0156】このような手順は時間の単位が確定するま
で行われる。そして、時間の単位が確定すると、次に、
分の単位の処理に入る。
で行われる。そして、時間の単位が確定すると、次に、
分の単位の処理に入る。
【0157】分の単位の動作も基本的には、前述した時
の単位の動作と同じであるのでここではその説明は省略
する。ただし、分の単位は、1分から始まって1分刻み
に59分まですべて発話するのは操作が面倒であるし、
多くの時間がかかる。特に、話者の設定したい分単位に
時刻が分台の終わりの方(たとえば、59分)である
と、多くの時間がかかる。
の単位の動作と同じであるのでここではその説明は省略
する。ただし、分の単位は、1分から始まって1分刻み
に59分まですべて発話するのは操作が面倒であるし、
多くの時間がかかる。特に、話者の設定したい分単位に
時刻が分台の終わりの方(たとえば、59分)である
と、多くの時間がかかる。
【0158】そこで、分の単位の設定モード時おいて
は、否定ボタンBT22が押され続けた場合には、装置
側からは、たとえば、「10分」、(1秒おいて)、
「20分」、(1秒おいて)、「30分」、・・・とい
うように、1秒ごとに、10分単位で音声出力し、装置
側から「50分」と発話したところで、話者が否定ボタ
ンBT22の操作をやめると50分を基点に、通常の動
作に戻り、装置側が「51分」と発話すると、否定ボタ
ンBT22を押して、次に「52分」と発話すると、否
定ボタンBT22を押すという動作を行って、「59
分」で肯定ボタンBT21を押して、59分を設定する
というような設定方法としてもよい。
は、否定ボタンBT22が押され続けた場合には、装置
側からは、たとえば、「10分」、(1秒おいて)、
「20分」、(1秒おいて)、「30分」、・・・とい
うように、1秒ごとに、10分単位で音声出力し、装置
側から「50分」と発話したところで、話者が否定ボタ
ンBT22の操作をやめると50分を基点に、通常の動
作に戻り、装置側が「51分」と発話すると、否定ボタ
ンBT22を押して、次に「52分」と発話すると、否
定ボタンBT22を押すという動作を行って、「59
分」で肯定ボタンBT21を押して、59分を設定する
というような設定方法としてもよい。
【0159】以上のように、時刻設定は、設定に多くの
時間を要する場合もあり、少しでも設定に要する時間を
短縮するために、装置側から音声の出力中にも肯定ボタ
ンBT21、否定ボタンBT22の入力を受け付けるよ
うにする。その他、使い勝手をよくするために、肯定ボ
タンBT21、否定ボタンBT22の押し方(連続押
し、同時押しなど)でそれに対応した機能をなすような
設定としておき、装置側から、音声による使い方の説明
などを行うようにすることもできる。
時間を要する場合もあり、少しでも設定に要する時間を
短縮するために、装置側から音声の出力中にも肯定ボタ
ンBT21、否定ボタンBT22の入力を受け付けるよ
うにする。その他、使い勝手をよくするために、肯定ボ
タンBT21、否定ボタンBT22の押し方(連続押
し、同時押しなど)でそれに対応した機能をなすような
設定としておき、装置側から、音声による使い方の説明
などを行うようにすることもできる。
【0160】このように、話者が装置に対して設定した
い情報(設定情報)を発話したときその設定情報が装置
側で正しく認識されない場合には、ヘルプモードの設定
を可能とすることによって、装置側から質問形式で前記
設定情報としての候補を1つ1つ順番に出力し、1つの
候補が出力される都度、肯定ボタンBT21の入力を受
け付けたときは、当該候補を前記設定情報として確定
し、否定ボタンBT22の入力を受け付けたときは、次
の候補を出力することで、話者が装置に対して設定した
い情報をボタン操作で設定することができる。
い情報(設定情報)を発話したときその設定情報が装置
側で正しく認識されない場合には、ヘルプモードの設定
を可能とすることによって、装置側から質問形式で前記
設定情報としての候補を1つ1つ順番に出力し、1つの
候補が出力される都度、肯定ボタンBT21の入力を受
け付けたときは、当該候補を前記設定情報として確定
し、否定ボタンBT22の入力を受け付けたときは、次
の候補を出力することで、話者が装置に対して設定した
い情報をボタン操作で設定することができる。
【0161】これにより、個々の話者の声質や話し方の
特徴によって良好に認識されない場合でも、時刻設定な
どある程度の情報設定は十分可能となる。また、話すこ
とが不自由な人でも時刻設定などを容易に行うことがで
きる。
特徴によって良好に認識されない場合でも、時刻設定な
どある程度の情報設定は十分可能となる。また、話すこ
とが不自由な人でも時刻設定などを容易に行うことがで
きる。
【0162】ところで、これまで説明したこの実施の形
態における音声時計装置は、現在時刻が話者の設定した
アラーム時刻になったとき、話者が鳴り止めを行うま
で、装置側からは現在時刻を出力し続けるようにする。
たとえば、設定されたアラームが、午前1時20分であ
るとし、その時刻に到達すると、装置側からは、「午前
1時20分です」と発話し、その1分経過後に、「午前
1時21分です」と発話し、さらに、1分経過後に、
「午前1時22分です」というように、1分刻みで現在
時刻を発話する。これを話者が鳴り止め操作を行うまで
続ける。なお、1分刻みでなくてもよく、たとえば10
秒ごとに現在時刻を発話するようにしてもよい。
態における音声時計装置は、現在時刻が話者の設定した
アラーム時刻になったとき、話者が鳴り止めを行うま
で、装置側からは現在時刻を出力し続けるようにする。
たとえば、設定されたアラームが、午前1時20分であ
るとし、その時刻に到達すると、装置側からは、「午前
1時20分です」と発話し、その1分経過後に、「午前
1時21分です」と発話し、さらに、1分経過後に、
「午前1時22分です」というように、1分刻みで現在
時刻を発話する。これを話者が鳴り止め操作を行うまで
続ける。なお、1分刻みでなくてもよく、たとえば10
秒ごとに現在時刻を発話するようにしてもよい。
【0163】さらに、このアラームを発するとき、時刻
だけではなく「早くおきなさい」といった言葉や、言葉
と音楽を合成して出力することも可能である。
だけではなく「早くおきなさい」といった言葉や、言葉
と音楽を合成して出力することも可能である。
【0164】また、話者からの鳴り止め操作としては、
装置から前述したような時刻の発話があったあと、話者
が何らかの音声を発することにより行う方法や、ボタン
を操作する方法などがある。
装置から前述したような時刻の発話があったあと、話者
が何らかの音声を発することにより行う方法や、ボタン
を操作する方法などがある。
【0165】話者が何らかの音声を発することにより鳴
り止めさせるには、話者の入力した音声のレベルが一定
以上あり、しかも、その一定以上のレベルが一定の長さ
の場合に鳴り止めとする。なお、このときは、音声認識
は行わない。また、これとは別に、話者が予め決めたあ
る特定の単語を発話し、それを装置側で認識した場合に
のみ鳴り止めとするということもできる。また、音声を
入力する代わりにボタン操作で鳴り止めを行う際は、専
用のボタンを設けることも可能であるが、前述した肯定
ボタンBT21や否定ボタンBT22で代用することも
できる。
り止めさせるには、話者の入力した音声のレベルが一定
以上あり、しかも、その一定以上のレベルが一定の長さ
の場合に鳴り止めとする。なお、このときは、音声認識
は行わない。また、これとは別に、話者が予め決めたあ
る特定の単語を発話し、それを装置側で認識した場合に
のみ鳴り止めとするということもできる。また、音声を
入力する代わりにボタン操作で鳴り止めを行う際は、専
用のボタンを設けることも可能であるが、前述した肯定
ボタンBT21や否定ボタンBT22で代用することも
できる。
【0166】さらに、音量調節スイッチVSWが設けら
れている場合には、その音量調節スイッチVSWをオフ
とすることによって鳴り止めとすることもできる。
れている場合には、その音量調節スイッチVSWをオフ
とすることによって鳴り止めとすることもできる。
【0167】この音量調節スイッチVSWは、装置側か
らの出力音声の音量を調整するスイッチであり、操作部
11によってこの音量調節スイッチVSWを調節するこ
とにより音声出力用アンプ7が制御され、出力音声の大
きさを設定できる。この音量調節の具体例としては、た
とえば、出力音声を「大」、「中」、「小」というよう
に切替設定することが可能であり、さらに、音声の全く
出ない状態とする「オフ」とすることもできるようにな
っている。
らの出力音声の音量を調整するスイッチであり、操作部
11によってこの音量調節スイッチVSWを調節するこ
とにより音声出力用アンプ7が制御され、出力音声の大
きさを設定できる。この音量調節の具体例としては、た
とえば、出力音声を「大」、「中」、「小」というよう
に切替設定することが可能であり、さらに、音声の全く
出ない状態とする「オフ」とすることもできるようにな
っている。
【0168】このような音声認識機能を有した装置を家
庭内で使用する場合、テレビジョンから発せられる音
声、家庭内の人間の会話などにより、音声時計がいちい
ち反応して、不用意に音声を発するのを防止する役目を
果たしている。なお、音量調節スイッチVSWをオフし
た場合、消費電力を少なくするために、アンプなど周辺
回路への電源供給を停止して、制御部(CPU)5をス
リープ状態とする。そして、音量調節スイッチVSWが
オンとなると、CPU割り込みでCPUを動作させ、周
辺回路への電力供給を行う。
庭内で使用する場合、テレビジョンから発せられる音
声、家庭内の人間の会話などにより、音声時計がいちい
ち反応して、不用意に音声を発するのを防止する役目を
果たしている。なお、音量調節スイッチVSWをオフし
た場合、消費電力を少なくするために、アンプなど周辺
回路への電源供給を停止して、制御部(CPU)5をス
リープ状態とする。そして、音量調節スイッチVSWが
オンとなると、CPU割り込みでCPUを動作させ、周
辺回路への電力供給を行う。
【0169】さらに、本発明の実施の形態では、話者の
入力する音声に対する応答内容は、複数用意し、それを
ランダムに変えて出力することも可能としている。これ
は、ユーザを飽きさせないための配慮であり、たとえ
ば、、話者が「おはよう」と入力したときの装置側から
の応答内容を複数用意しておき、「おはよう」に対する
複数の応答内容のなかからランダムに応答内容を選択し
て出力するようにする。
入力する音声に対する応答内容は、複数用意し、それを
ランダムに変えて出力することも可能としている。これ
は、ユーザを飽きさせないための配慮であり、たとえ
ば、、話者が「おはよう」と入力したときの装置側から
の応答内容を複数用意しておき、「おはよう」に対する
複数の応答内容のなかからランダムに応答内容を選択し
て出力するようにする。
【0170】これにより、ユーザはその装置を長期間使
用していても飽きることが少なくなる。
用していても飽きることが少なくなる。
【0171】なお、本発明は以上説明した実施の形態に
限定されるものではなく、本発明の要旨を逸脱しない範
囲で種々変形実施可能となるものである。たとえば、前
述の実施の形態で示した音声時計は、前述の実施の形態
で説明したような様々な機能を有したものとすることも
勿論可能であるが、これらの機能は、すべて必要なもの
ではない。したがって、操作部11に設けられる各種の
スイッチや操作用のボタンなども、その機能を働かせる
に必要なボタンのみを設ければよい。
限定されるものではなく、本発明の要旨を逸脱しない範
囲で種々変形実施可能となるものである。たとえば、前
述の実施の形態で示した音声時計は、前述の実施の形態
で説明したような様々な機能を有したものとすることも
勿論可能であるが、これらの機能は、すべて必要なもの
ではない。したがって、操作部11に設けられる各種の
スイッチや操作用のボタンなども、その機能を働かせる
に必要なボタンのみを設ければよい。
【0172】また、前述の実施の形態で説明した各種処
理内容は、実施の形態で説明された内容に限られるもの
ではない。たとえば、話者学習処理としては、前述の実
施の形態では、ユニバーサルコードブック94を用いて
量子化コードブックVQ1,VQ2,VQ3を作成し、
認識時にはこの量子化コードブックを用いて話者適応す
るようにしたが、これに限らず、登録単語データRD
1,RD2,RD3と第1〜第3の特定話者群者音声モ
デルデータMD1,MD2.MD3から作成した写像関
数を用いて話者適応することもでき、また、この写像関
数と第1〜第3の特定話者群コードブックCB1,CB
2,CB3により作成された入力話者コードブック(ユ
ニバーサルコードブック94を用いてベクトル量子化す
る前のコードブック)を用いて話者適応することも可能
である。
理内容は、実施の形態で説明された内容に限られるもの
ではない。たとえば、話者学習処理としては、前述の実
施の形態では、ユニバーサルコードブック94を用いて
量子化コードブックVQ1,VQ2,VQ3を作成し、
認識時にはこの量子化コードブックを用いて話者適応す
るようにしたが、これに限らず、登録単語データRD
1,RD2,RD3と第1〜第3の特定話者群者音声モ
デルデータMD1,MD2.MD3から作成した写像関
数を用いて話者適応することもでき、また、この写像関
数と第1〜第3の特定話者群コードブックCB1,CB
2,CB3により作成された入力話者コードブック(ユ
ニバーサルコードブック94を用いてベクトル量子化す
る前のコードブック)を用いて話者適応することも可能
である。
【0173】さらに、前述の実施の形態では、複数の話
者群に属する話者(話者#1、#2、#3)が1つの装
置を使用することを想定した例であるため、特定話者群
音声モデルデータもそれに対応して第1〜第3の特定話
者群音声モデルデータMD1,MD2.MD3を設けた
が、装置の種類によっては、使用者をある1つの話者群
に属する話者(たとえば子供)のみを対象とできる場合
もあり、このような場合には、特定話者群音声モデルデ
ータもそれに対応して1つの特定話者群音声モデルデー
タのみを持てばよく、これによれば、ROM9の容量を
より一層小さくすることができ、制御部5の処理能力も
小さいもので済み、その他、RAM10の容量も小さい
もの出よく、装置全体のコストを大幅に小さく押さえる
ことが可能となる。
者群に属する話者(話者#1、#2、#3)が1つの装
置を使用することを想定した例であるため、特定話者群
音声モデルデータもそれに対応して第1〜第3の特定話
者群音声モデルデータMD1,MD2.MD3を設けた
が、装置の種類によっては、使用者をある1つの話者群
に属する話者(たとえば子供)のみを対象とできる場合
もあり、このような場合には、特定話者群音声モデルデ
ータもそれに対応して1つの特定話者群音声モデルデー
タのみを持てばよく、これによれば、ROM9の容量を
より一層小さくすることができ、制御部5の処理能力も
小さいもので済み、その他、RAM10の容量も小さい
もの出よく、装置全体のコストを大幅に小さく押さえる
ことが可能となる。
【0174】さらに、前述の実施に形態では、各種のモ
ード設定などを操作部に設けられた各種ボタンによって
行う例を示したが、ボタンは全く設けずに、全て音声に
よって設定可能とすることもできる。
ード設定などを操作部に設けられた各種ボタンによって
行う例を示したが、ボタンは全く設けずに、全て音声に
よって設定可能とすることもできる。
【0175】また、以上説明した本発明の処理を行う処
理プログラムは、フロッピィディスク、光ディスク、ハ
ードディスクなどの記録媒体に記録させておくことがで
き、本発明はその記録媒体をも含むものである。また、
ネットワークから処理プログラムを得るようにしてもよ
い。
理プログラムは、フロッピィディスク、光ディスク、ハ
ードディスクなどの記録媒体に記録させておくことがで
き、本発明はその記録媒体をも含むものである。また、
ネットワークから処理プログラムを得るようにしてもよ
い。
【0176】
【発明の効果】以上説明したように本発明では、認識対
象話者を、年齢や性別などに基づいて予め設定した範囲
に絞り込み、当該範囲に属する不特定複数話者の音声デ
ータから特定話者群音声モデルデータを作成して保存
し、この特定話者群音声モデルデータを用いて前記認識
対象話者の入力した音声を認識するようにしている。こ
れにより、ある範囲の話者群に対応する特定話者群音声
モデルデータのみを持てばよいので、従来のあらゆる範
囲の話者に対応できるように作成された標準話者音声モ
デルデータに比べると、そのデータ量を大幅に少なくす
ることができる。したがって、その特定話者群音声モデ
ルデータを保存するメモリ(ROM)の記憶容量は小さ
いもので済み、また、CPUにかかる認識処理の負担も
少なくすることができ、メモリの容量やCPUの処理能
力に大きな制約のある安価な製品に適した音声認識技術
であるといえる。しかも、特定の話者群に対応した特定
話者群音声モデルデータであるので、認識性能も大幅に
向上する。
象話者を、年齢や性別などに基づいて予め設定した範囲
に絞り込み、当該範囲に属する不特定複数話者の音声デ
ータから特定話者群音声モデルデータを作成して保存
し、この特定話者群音声モデルデータを用いて前記認識
対象話者の入力した音声を認識するようにしている。こ
れにより、ある範囲の話者群に対応する特定話者群音声
モデルデータのみを持てばよいので、従来のあらゆる範
囲の話者に対応できるように作成された標準話者音声モ
デルデータに比べると、そのデータ量を大幅に少なくす
ることができる。したがって、その特定話者群音声モデ
ルデータを保存するメモリ(ROM)の記憶容量は小さ
いもので済み、また、CPUにかかる認識処理の負担も
少なくすることができ、メモリの容量やCPUの処理能
力に大きな制約のある安価な製品に適した音声認識技術
であるといえる。しかも、特定の話者群に対応した特定
話者群音声モデルデータであるので、認識性能も大幅に
向上する。
【0177】また、本発明は、このようなある特定の範
囲の話者群に対応する特定話者群音声モデルデータを、
幾つか用意することもできる。たとえば、成人男性用、
成人女性用、子供用など幾つかの話者群に対応して用意
することも可能である。これによれば、1つの装置を家
族で使用するような場合にも対応できる。このように、
幾つかの話者群対応の特定話者群音声モデルデータを持
ったとしても、あらゆる範囲の話者に対応できるように
作成された標準話者音声モデルデータを持つよりは、音
声モデルデータの規模をを小さくでき、しかも、それぞ
れの話者群に対応した音声モデルデータであるので、認
識性能も大幅に向上する。
囲の話者群に対応する特定話者群音声モデルデータを、
幾つか用意することもできる。たとえば、成人男性用、
成人女性用、子供用など幾つかの話者群に対応して用意
することも可能である。これによれば、1つの装置を家
族で使用するような場合にも対応できる。このように、
幾つかの話者群対応の特定話者群音声モデルデータを持
ったとしても、あらゆる範囲の話者に対応できるように
作成された標準話者音声モデルデータを持つよりは、音
声モデルデータの規模をを小さくでき、しかも、それぞ
れの話者群に対応した音声モデルデータであるので、認
識性能も大幅に向上する。
【図1】本発明の音声認識装置の実施の形態を説明する
ブロック図。
ブロック図。
【図2】話者に対応した音声モデルデータ(特定話者群
音声モデルデータ)を用いて音声認識処理を行う例を説
明するフローチャート。
音声モデルデータ)を用いて音声認識処理を行う例を説
明するフローチャート。
【図3】本発明の実施の形態である音声時計装置の外観
を概略的に示す図。
を概略的に示す図。
【図4】話者学習処理を可能とした音声認識処理の全体
的な処理手順を説明するフローチャートであり、特定の
一人の話者に対する処理手順を説明するフローチャート
である。
的な処理手順を説明するフローチャートであり、特定の
一人の話者に対する処理手順を説明するフローチャート
である。
【図5】話者学習処理を可能とした音声認識処理の全体
的な処理手順を説明するフローチャートであり、複数の
話者に対する処理手順を説明するフローチャートであ
る。
的な処理手順を説明するフローチャートであり、複数の
話者に対する処理手順を説明するフローチャートであ
る。
【図6】本発明の実施の形態における連続した3単語
(「午前」、「1時」、「20分」)の認識処理を説明
する状態遷移図。
(「午前」、「1時」、「20分」)の認識処理を説明
する状態遷移図。
【図7】図7で示した3単語の認識処理を一般的な連続
単語認識処理として適用する場合の処理手順を説明する
フローチャート。
単語認識処理として適用する場合の処理手順を説明する
フローチャート。
【図8】話者の音声入力操作の状況に応じてマイクアン
プのゲイン切り替えを含む処理手順を説明するフローチ
ャート。
プのゲイン切り替えを含む処理手順を説明するフローチ
ャート。
【図9】ヘルプモードを備えた音声認識処理手順を説明
するフローチャート。
するフローチャート。
【図10】音声認識処理について本発明の実施の形態に
おけるヘルプモード(肯定ボタンと否定ボタンによる
「はい」または「いいえ」の入力モード)を説明する状
態遷移図。
おけるヘルプモード(肯定ボタンと否定ボタンによる
「はい」または「いいえ」の入力モード)を説明する状
態遷移図。
1 マイクロホン 2 音声入力用アンプ(マイクアンプ) 3 A/D変換部 4 音声分析部 5 制御部(CPU) 6 D/A変換部 7 音声出力用アンプ 8 スピーカ 9 ROM 10 RAM 11 操作部 12 計時手段 91 出力音声データ 92 特定話者群者音声モデルデータ 93 特定話者群コードブック 94 ユニバーサルコードブック 95 標準話者音声モデルデータ 93 標準話者コードブック 101 登録単語データ MD1,MD2,MD3 第1〜第3の特定話者群音声
モデルデータ CB1,CB2,CB3 第1〜第3の特定話者群コー
ドブック RD1,RD2,RD3 話者#1〜話者#3用の登録
単語データ VQ1,VQ2,VQ3 話者#1〜話者#3用の量子
化コードブック
モデルデータ CB1,CB2,CB3 第1〜第3の特定話者群コー
ドブック RD1,RD2,RD3 話者#1〜話者#3用の登録
単語データ VQ1,VQ2,VQ3 話者#1〜話者#3用の量子
化コードブック
───────────────────────────────────────────────────── フロントページの続き (72)発明者 長谷川 浩 長野県諏訪市大和3丁目3番5号 セイコ ーエプソン株式会社内 (72)発明者 池尻 昌久 長野県諏訪市大和3丁目3番5号 セイコ ーエプソン株式会社内 Fターム(参考) 5D015 AA02 GG01
Claims (4)
- 【請求項1】 不特定複数話者を認識対象とし、予め定
められた複数の単語を認識可能とする音声認識方法にお
いて、 前記不特定複数話者のうち認識対象話者を年齢や性別な
どに基づいて予め設定した範囲に絞り込み、その範囲に
属する不特定複数話者の音声データから特定話者群音声
モデルデータを作成し、この特定話者群音声モデルデー
タを用いて前記認識対象話者の入力した音声を認識する
ことを特徴とする音声認識方法。 - 【請求項2】 前記認識対象話者は、音声の特徴に基づ
く複数の話者群から構成され、それぞれの話者群に属す
る不特定複数話者の音声データから前記複数の話者群対
応の特定話者群音声モデルデータを作成することを特徴
とする請求項1記載の音声認識方法。 - 【請求項3】 不特定複数話者を対象とし、予め定めら
れた複数の単語を認識可能とする音声認識装置におい
て、少なくとも、 話者の発話して得られた音声を分析する音声分析手段
と、 前記不特定複数話者のうち認識対象話者を年齢や性別な
どに基づいて予め設定した範囲に絞り込むことによっ
て、その範囲に属する不特定複数話者の音声データから
作成された特定話者群者音声モデルデータと、 この特定話者群音声モデルデータを用いて前記認識対象
話者の入力した音声を認識する制御手段と、 を有することをことを特徴とする音声認識装置。 - 【請求項4】 前記認識対象話者は、音声の特徴に基づ
く複数の話者群から構成され、前記特定話者群音声モデ
ルデータは、それぞれの話者群に属する不特定複数話者
の音声データから作成された前記複数の話者群対応の特
定話者群音声モデルデータでなることを特徴とする請求
項3記載の音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10254418A JP2000089780A (ja) | 1998-09-08 | 1998-09-08 | 音声認識方法および音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10254418A JP2000089780A (ja) | 1998-09-08 | 1998-09-08 | 音声認識方法および音声認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2000089780A true JP2000089780A (ja) | 2000-03-31 |
Family
ID=17264711
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP10254418A Withdrawn JP2000089780A (ja) | 1998-09-08 | 1998-09-08 | 音声認識方法および音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2000089780A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002099785A1 (en) * | 2001-06-06 | 2002-12-12 | Koninklijke Philips Electronics N.V. | Pattern processing system specific to a user group |
JP2005005899A (ja) * | 2003-06-10 | 2005-01-06 | Sharp Corp | 自動応答機能を備えた電話装置 |
KR100533601B1 (ko) * | 2002-12-05 | 2005-12-06 | 베스티안파트너스(주) | 휴대전화의 화자독립형 음성인식을 위한 성별 구분방법 |
JP2010032763A (ja) * | 2008-07-29 | 2010-02-12 | Toshiba Corp | 語学学習を支援する装置および方法 |
CN106373564A (zh) * | 2015-07-22 | 2017-02-01 | 谷歌公司 | 个性化热词检测模型 |
CN111179944A (zh) * | 2020-01-03 | 2020-05-19 | 达闼科技成都有限公司 | 语音唤醒及年龄检测方法、装置及计算机可读存储介质 |
-
1998
- 1998-09-08 JP JP10254418A patent/JP2000089780A/ja not_active Withdrawn
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4837887B2 (ja) * | 2001-06-06 | 2011-12-14 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | ユーザ・グループに固有のパターン処理システム |
JP2004529390A (ja) * | 2001-06-06 | 2004-09-24 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | ユーザ・グループに固有のパターン処理システム |
US9424838B2 (en) | 2001-06-06 | 2016-08-23 | Nuance Communications, Inc. | Pattern processing system specific to a user group |
WO2002099785A1 (en) * | 2001-06-06 | 2002-12-12 | Koninklijke Philips Electronics N.V. | Pattern processing system specific to a user group |
KR100533601B1 (ko) * | 2002-12-05 | 2005-12-06 | 베스티안파트너스(주) | 휴대전화의 화자독립형 음성인식을 위한 성별 구분방법 |
JP2005005899A (ja) * | 2003-06-10 | 2005-01-06 | Sharp Corp | 自動応答機能を備えた電話装置 |
JP2010032763A (ja) * | 2008-07-29 | 2010-02-12 | Toshiba Corp | 語学学習を支援する装置および方法 |
CN106373564A (zh) * | 2015-07-22 | 2017-02-01 | 谷歌公司 | 个性化热词检测模型 |
KR20180010923A (ko) * | 2015-07-22 | 2018-01-31 | 구글 엘엘씨 | 개별화된 핫워드 검출 모델들 |
KR101859708B1 (ko) * | 2015-07-22 | 2018-05-18 | 구글 엘엘씨 | 개별화된 핫워드 검출 모델들 |
US10438593B2 (en) | 2015-07-22 | 2019-10-08 | Google Llc | Individualized hotword detection models |
US10535354B2 (en) | 2015-07-22 | 2020-01-14 | Google Llc | Individualized hotword detection models |
KR102205371B1 (ko) * | 2015-07-22 | 2021-01-20 | 구글 엘엘씨 | 개별화된 핫워드 검출 모델들 |
CN111179944A (zh) * | 2020-01-03 | 2020-05-19 | 达闼科技成都有限公司 | 语音唤醒及年龄检测方法、装置及计算机可读存储介质 |
CN111179944B (zh) * | 2020-01-03 | 2022-11-08 | 达闼机器人股份有限公司 | 语音唤醒及年龄检测方法、装置及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3000999B1 (ja) | 音声認識方法および音声認識装置ならびに音声認識処理プログラムを記録した記録媒体 | |
US20210193176A1 (en) | Context-based detection of end-point of utterance | |
JP3968133B2 (ja) | 音声認識対話処理方法および音声認識対話装置 | |
CN110634483B (zh) | 人机交互方法、装置、电子设备及存储介质 | |
KR102543693B1 (ko) | 전자 장치 및 그의 동작 방법 | |
JP3674990B2 (ja) | 音声認識対話装置および音声認識対話処理方法 | |
JP2019117623A (ja) | 音声対話方法、装置、デバイス及び記憶媒体 | |
US6839670B1 (en) | Process for automatic control of one or more devices by voice commands or by real-time voice dialog and apparatus for carrying out this process | |
US5960393A (en) | User selectable multiple threshold criteria for voice recognition | |
CN112201246B (zh) | 基于语音的智能控制方法、装置、电子设备及存储介质 | |
JP2003202888A (ja) | 無線通信機能付きヘッドセットおよびこれを用いた音声処理システム | |
US10629199B1 (en) | Architectures and topologies for vehicle-based, voice-controlled devices | |
WO2023109129A1 (zh) | 语音数据的处理方法及装置 | |
JP2000089780A (ja) | 音声認識方法および音声認識装置 | |
JP3001000B1 (ja) | 音声認識装置における連続単語認識方法および音声認識装置における連続単語認識処理プログラムを記録した記録媒体 | |
CN109166572A (zh) | 机器人阅读的方法和阅读机器人 | |
JP3050232B2 (ja) | 音声認識方法および音声認識装置ならびに音声認識処理プログラムを記録した記録媒体 | |
KR20050015585A (ko) | 향상된 음성인식 장치 및 방법 | |
JP3045169B2 (ja) | 音声認識装置における連続単語認識方法および音声認識装置における連続単語認識処理プログラムを記録した記録媒体 | |
JPH1138863A (ja) | 言語情報装置 | |
JP3695168B2 (ja) | 音声認識装置、音声入力ゲイン設定方法及び入力ゲイン設定処理プログラムを記録した記憶媒体 | |
JP2000089790A (ja) | 音声認識装置における話者入力情報設定方法および音声認識装置における話者入力情報設定処理プログラムを記録した記録媒体 | |
JP3846500B2 (ja) | 音声認識対話装置および音声認識対話処理方法 | |
CN114822551A (zh) | 一种基于智能耳机的交互方法 | |
JP2003058184A (ja) | 機器制御システム、音声認識装置及び方法、並びにプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20060110 |