JP2005107550A

JP2005107550A - 端末装置、サーバ装置および音声認識方法

Info

Publication number: JP2005107550A
Application number: JP2004357775A
Authority: JP
Inventors: Shinichi Yoshizawa; 伸一芳澤
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2001-09-13
Filing date: 2004-12-10
Publication date: 2005-04-21

Abstract

【課題】端末装置において必要なメモリ容量を小さくする。
【解決手段】ＰＤＡ１１のマイク１１１により入力された、雑音が付加された利用者の音声データが送信部１１２よりサーバ１２に送信される。サーバ１２のデータ蓄積部１２４には複数の音響モデルが事前に蓄えられている。サーバ１２の適応モデル選択部１２３は、受信部１２１によって受信された雑音付加データに最も適合した音響モデルをデータ蓄積部１２４に蓄積されている音響モデルから選択する。選択された適応モデル１３３は送信部１２２によりＰＤＡ１１に送信される。ＰＤＡ１１の受信部１１３はサーバ１２からの適応モデル１３３を受信する。受信された適応モデル１３３はメモリ１１４に蓄積される。音声認識部１１５は、メモリ１１４に蓄積された適応モデルを用いて音声認識を行う。
【選択図】図１

Description

この発明は端末装置、サーバ装置および音声認識方法に関し、さらに詳しくは、それぞれの利用者、それぞれの利用環境に適応化した音声認識処理を行うための端末装置、サーバ装置および音声認識方法に関する。

近年、携帯電話・携帯端末・カーナビゲーションシステム・パーソナルコンピュータなどでは音声認識技術を用いて利用者の利便性を向上させることが期待されている。

音声認識技術は、さまざまな利用者にさまざまな環境で利用される。携帯電話・携帯端末などでは利用環境に応じて背景雑音の種類などが時々刻々と変化する。設置場所が固定された家庭内端末などでもテレビ音声などにより背景雑音の種類は時々刻々と変化する。そのため、このような環境下で発声した利用者の音声にはさまざまな雑音が付加され、認識すべき音声データの音響特性は時々刻々と変化する。また、同一の環境下における同一の利用者においても、健康状態や老化などにより利用者の声の性質が変化するため、認識すべき音声データの音響特性は変化する。また、音声認識装置に取り付けるマイクの種類などによっても認識すべき音声データの音響特性は変化する。

音響特性の異なる音声データの認識率を１００％に近づけるため、さまざまな適応化技術が開発されている。

たとえばＭＬＬＲ法による適応化法として、C.J.Leggetter and P.C.Woodland,"Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models",Computer Speech and Language,1995,Vol.9,No.2,pp.171-186 などが提案されている。ＭＬＬＲ法では、利用者の多くの発声データを利用して適応パラメータの推定を行い、これらの適応パラメータにより音響モデルを変形することで適応を行う。

また、話者クラスタリングによる適応化方法として、加藤恒夫，黒岩眞吾，清水徹，樋口宜男，”多数話者電話音声データベースを用いた話者クラスタリング”，信学技報，ＳＰ２０００−１０，ｐｐ．１−８，２０００などが提案されている。さらに、充足統計量と話者距離を用いた適応化方法として、芳澤伸一，馬場朗，松浪加奈子，米良祐一郎，山田実一，鹿野清宏，”充足統計量と話者距離を用いた音韻モデルの教師なし学習”，信学技報，ＳＰ２０００−８９，ｐｐ．８３−８８，２０００などが提案されている。話者クラスタリングによる方法、充足統計量と話者距離を用いた方法は、基本的に、さまざまな利用環境におけるさまざまな利用者の大量の発声データを事前に蓄積しておき、これらの大量の発声データを用いて事前に音響モデルを構築しておく。そして、適応時に音響モデルを利用して適応を行う。音響モデルを作成するための発声データとして、データベースに蓄積してある利用者の音響特性に近い発声データを利用するため、利用者は大量の発声を行う必要がなく利用者の負担が少ない。また、事前に音響モデルを構築しておくため、適応処理時に音響モデルを構築するための処理時間が不要となり短時間で適応を行うことができる。

また、話者に合わせて音声のスペクトルを周波数軸方向に伸縮する手法（Vocal Tract Normalization）等が提案されている。例えば、Li Lee and Richard C.Rose,"Speaker normalization using efficient frequency warping procedures",ICASSP-96,IEEE International Conference on Acoustics,Speech and Signal Processing,pp.171-186 などが提案されている。特開２０００−２７６１８８号公報の図１には、スペクトル変換を用いて話者適応を行う音声認識装置が開示されている。この音声認識装置では、音声認識を行う利用者の適応化パラメータが蓄積された脱着可能な適応化パラメータ蓄積手段を取り付けて、それらの適応化パラメータにより適応を行う。

ＭＬＬＲ法では、利用者の多くの発声データを利用して音響モデルの適応を行うため、利用者は適応用に多くの文章を読み上げる必要がある。そのため利用者の負担が大きい。

話者クラスタリングによる方法、充足統計量と話者距離を用いた方法では、さまざまな音響特性に対する音声データに対応するために、大量の音響モデルを音声認識装置に蓄積する必要がある。そのため、音声認識装置に膨大なメモリ容量が必要となり、携帯電話やＰＤＡ（Personal Digital Assistant）などのメモリ容量が限られている端末装置では実現が困難である。

話者に合わせて音声のスペクトルを周波数軸方向に伸縮する手法、特開２０００−２７６１８８号公報の図１に開示された技術では、話者性の適応を行っているが、雑音や話者の声の性質の変化などのさまざまな音響特性の変化にスペクトル変換で適応することは困難である。また、特開２０００−２７６１８８号公報に開示された技術では、さまざまな雑音やさまざまな利用者の声の性質などの多くの音響特性に適応するためには、それぞれの適応パラメータを蓄積した膨大な数の脱着可能な適応化パラメータ蓄積手段を用意する必要がある。また、利用者が雑音の種類や現在の声の性質を判断して上記適応化パラメータ蓄積手段を選択し音声認識装置に取り付けなければならない。

この発明の目的は、必要なメモリ容量を小さくすることができる端末装置を提供することである。

この発明の１つの局面に従うと、端末装置は、送信手段と、受信手段と、第１の蓄積手段と、音声認識手段とを備える。送信手段は、利用者が発声した音声と環境雑音とをサーバ装置に送信する。受信手段は、サーバ装置から送信される、上記利用者の音声と上記環境雑音とに適応した音響モデルを受信する。第１の蓄積手段は、受信手段によって受信された音響モデルを蓄積する。音声認識手段は、第１の蓄積手段に蓄積された音響モデルを用いて音声認識を行う。

上記端末装置では、利用者が発声した音声と環境雑音とに適応した音響モデルをサーバ装置から取得して第１の蓄積手段に蓄積するため、遭遇する可能性のある（実際には遭遇しない場合が多い）すべての状況に対応した音響モデルをあらかじめ第１の蓄積手段に蓄積しておく必要がない。したがって、必要なメモリ容量を小さくすることができる。

好ましくは、上記受信手段は、上記利用者が将来利用するであろう音響モデルをサーバ装置からさらに受信する。

好ましくは、上記端末装置はさらに判断手段を備える。判断手段は、上記環境雑音が付加された上記利用者の音声と第１の蓄積手段にすでに蓄積されている音響モデルとの類似度を所定のしきい値と比較する。上記送信手段は、上記類似度が所定のしきい値よりも小さいとき上記利用者の音声および上記環境雑音をサーバ装置に送信する。

上記端末装置では、上記類似度が所定のしきい値以上のときは第１の蓄積手段にすでに蓄積されている音響モデルを利用して音声認識を行うため、サーバ装置への送信／サーバ装置からの受信を減らすことができる。

好ましくは、上記判断手段は、上記類似度が所定のしきい値よりも小さいとき、音響モデルを取得するか否かの判断を上記利用者に促す。上記送信手段は、上記利用者が音響モデルを取得すると判断したとき、上記利用者の音声および上記環境雑音をサーバ装置に送信する。

上記端末装置では、利用者が音響モデルを取得すると判断したときに限り当該利用者の音声および環境雑音をサーバ装置に送信するため、サーバ装置への送信／サーバ装置からの受信を減らすことができる。

好ましくは、上記端末装置はさらに第２の蓄積手段を備える。第２の蓄積手段は、利用者が発声した音声を蓄積する。上記送信手段は、環境雑音が取得されると、当該環境雑音と第２の蓄積手段に蓄積された利用者の音声とをサーバ装置に送信する。

上記端末装置では、周囲雑音がきわめて少ないタイミングで発声した利用者の音声を第２の蓄積手段に蓄積することができる。これによりサーバ装置または端末装置では、より高精度な適応モデルを作成・利用することができる。また、上記端末装置では、静かな環境で発声した音声を複数の人について第２の蓄積手段に蓄積することができる。これにより複数の人が利用する端末装置に対しても高精度の適応モデルを利用することができる。また、利用者の音声を一度蓄積すると、利用者は適応モデルを作成するたびに発声する必要がないため、利用者の負担が少ない。

この発明のもう１つの局面に従うと、端末装置は、送信手段と、受信手段と、第１の蓄積手段と、作成手段と、音声認識手段とを備える。送信手段は、利用者が発声した音声と環境雑音とをサーバ装置に送信する。受信手段は、サーバ装置から送信される、上記利用者の音声と上記環境雑音とに適応した音響モデルを作成するための作成用データを受信する。第１の蓄積手段は、受信手段によって受信された作成用データを蓄積する。作成手段は、上記利用者の音声と上記環境雑音とに適応した音響モデルを第１の蓄積手段に蓄積された作成用データを用いて作成する。音声認識手段は、作成手段によって作成された音響モデルを用いて音声認識を行う。

上記端末装置では、利用者が発声した音声と環境雑音とに適応した音響モデルを作成するための作成用データをサーバ装置から取得して第１の蓄積手段に蓄積するため、遭遇する可能性のある（実際には遭遇しない場合が多い）すべての状況に対応した音響モデルを作成するための作成用データをあらかじめ第１の蓄積手段に蓄積しておく必要がない。したがって、必要なメモリ容量を小さくすることができる。

好ましくは、上記受信手段は、上記利用者が将来利用するであろう作成用データをサーバ装置からさらに受信する。

好ましくは、上記端末装置は、さまざまな環境の中から所望の環境を選択するように利用者に促し、選択された環境における特徴的な音を再生する。

この発明のさらにもう１つの局面に従うと、サーバ装置は、蓄積手段と、受信手段と、選択手段と、送信手段とを備える。蓄積手段は複数の音響モデルを蓄積する。複数の音響モデルの各々は、対応する話者および環境に適応したモデルである。受信手段は、端末装置から送信される、利用者が発声した音声と環境雑音とを受信する。選択手段は、受信手段によって受信された利用者の音声と環境雑音とに適応した音響モデルを蓄積手段から選択する。送信手段は、選択手段によって選択された音響モデルを上記端末装置に送信する。

上記サーバ装置では、複数の音響モデルを蓄積した蓄積手段を設け、端末装置の利用者の音声と環境雑音とに適応した音響モデルを蓄積手段から選択して端末装置に送信するため、端末装置において必要となるメモリ容量を小さくすることができる。

また、利用者の発声データの音響特性に近い大量のデータで作成した音響モデルを蓄積手段に蓄積することができるため、利用者は音響モデルを作成するために大量の発声を行う必要はなく利用者の負担が小さい。

また、利用者の発声データの音響特性に近い音響モデルを事前に作成して蓄積手段に蓄積することができるため、音響モデルを作成するための処理時間は不要となり適応処理時間が短く、短時間に端末装置は適応モデルを獲得することができる。

好ましくは、上記選択手段は、上記端末装置の利用者が将来利用するであろう音響モデルを蓄積手段から選択する。

この発明のさらにもう１つの局面に従うと、サーバ装置は、蓄積手段と、受信手段と、作成手段と、送信手段とを備える。蓄積手段は複数の音響モデルを蓄積する。複数の音響モデルの各々は、対応する話者および環境に適応したモデルである。受信手段は、端末装置から送信される、利用者が発声した音声と環境雑音とを受信する。作成手段は、受信手段によって受信された利用者の音声および環境雑音と蓄積手段に蓄積された複数の音響モデルとに基づいて、上記利用者が発声した音声と上記環境雑音とに適応した音響モデルを作成する。送信手段は、作成手段によって作成された音響モデルを上記端末装置に送信する。

上記サーバ装置では、複数の音響モデルを蓄積した蓄積手段を設け、端末装置の利用者の音声と環境雑音とに適応した音響モデルを作成して端末装置に送信するため、端末装置において必要となるメモリ容量を小さくすることができる。

好ましくは上記作成手段は、上記端末装置の利用者が将来利用するであろう音響モデルを作成する。

この発明のさらにもう１つの局面に従うと、サーバ装置は、蓄積手段と、受信手段と、選択手段と、送信手段とを備える。蓄積手段は複数の音響モデルを蓄積する。複数の音響モデルの各々は、対応する話者および環境に適応したモデルである。受信手段は、端末装置から送信される、利用者が発声した音声と環境雑音とを受信する。選択手段は、受信手段によって受信された利用者の音声と環境雑音とに適応した音響モデルを作成するための作成用データを蓄積手段から選択する。作成用データは、少なくとも２つの音響モデルを含む。送信手段は、選択手段によって選択された作成用データを上記端末装置に送信する。

上記サーバ装置では、端末装置の利用者の音声と環境雑音とに適応した音響モデルを作成するための作成用データを蓄積手段から選択して端末装置に送信するため、端末装置において必要となるメモリ容量を小さくすることができる。

好ましくは、上記選択手段は、上記端末装置の利用者が将来利用するであろう作成用データを蓄積手段から選択する。

好ましくは、上記蓄積手段に蓄積される複数の音響モデルの各々は、対応する話者の声の調子にも適応している。

上記サーバ装置では、話者の声の調子にも適応した音響モデルを蓄積手段に蓄積しているため、端末装置の利用者はより高い認識率を獲得することができる。

好ましくは、上記蓄積手段に蓄積される複数の音響モデルの各々は、当該音響モデルを作成する際に話者が発声した音声を得るための入力手段の特性にも適応している。

上記サーバ装置では、入力手段の特性にも適応した音響モデルを蓄積手段に蓄積しているため、端末装置の利用者はより高い認識率を獲得することができる。

この発明のさらにもう１つの局面に従うと、音声認識方法はステップ（ａ）−（ｃ）を備える。ステップ（ａ）では、複数の音響モデルを用意する。複数の音響モデルの各々は、対応する話者、環境および声の調子に適応したモデルである。ステップ（ｂ）では、利用者が発声した音声および環境雑音と上記複数の音響モデルとに基づいて、上記利用者の音声と上記環境雑音とに適応した音響モデルを獲得する。ステップ（ｃ）では、上記獲得した音響モデルを用いて音声認識を行う。

上記音声認識方法では、話者の声の調子にも適応した音響モデルを用意しているため、利用者はより高い認識率を獲得することができる。

好ましくは、上記複数の音響モデルの各々は、当該音響モデルを作成する際に話者が発声した音声を得るための入力手段の特性にも適応している。

上記音声認識方法では、入力手段の特性にも適応した音響モデルを用意しているため、利用者はより高い認識率を獲得することができる。

以下、この発明の実施の形態を図面を参照して詳しく説明する。なお、図中同一または相当部分には同一の符号を付し、その説明は繰り返さない。

（第１の実施の形態）
＜音声認識システムの構成＞
第１の実施形態による音声認識システムの全体構成を図１に示す。この音声認識システムは、ＰＤＡ（Personal Digital Assistant）１１と、サーバ１２とを備える。ＰＤＡ１１およびサーバ１２は通信路１３１を介して互いにデータのやりとりをする。

ＰＤＡ１１は、マイク１１１と、送信部１１２と、受信部１１３と、メモリ１１４と、音声認識部１１５とを備える。マイク１１１は、ＰＤＡ１１の利用者が発声した音声やＰＤＡ１１の周りの雑音（環境雑音）などの情報を入力するためのデータ入力手段である。送信部１１２は、マイク１１１によって入力されたデータをサーバ１２に送信する。受信部１１３は、サーバ１２から送信された適応モデルを受信する。受信部１１３によって受信された適応モデルはメモリ１１４に蓄積される。音声認識部１１５は、メモリ１１４に蓄積された適応モデルを利用して音声認識を行う。

サーバ１２は、受信部１２１と、送信部１２２と、適応モデル選択部１２３と、データ蓄積部１２４とを備える。データ蓄積部１２４には、複数の音響モデルと複数の選択モデルとが対応づけられて蓄積される。複数の選択モデルは、対応する音響モデルを選択するためのモデルである。受信部１２１は、ＰＤＡ１１から送信されたデータを受信する。適応モデル選択部１２３は、データ蓄積手段１２４に蓄積されている複数の音響モデルの中からＰＤＡ１１の利用環境および／または利用状況に適応化した音響モデルを選択する。ここで利用環境とは、ＰＤＡ１１を利用する場所の周囲雑音などを意味する。また利用状況とは、ＰＤＡ１１の音声認識部１１５による音声認識処理に従って動作させるアプリケーションの用途などを意味する。送信部１２２は、適応モデル選択部１２３によって選択された適応モデルをＰＤＡ１１に送信する。

＜音声認識システムの動作＞
次に、以上のように構成された音声認識システムの動作について図２を参照しつつ説明する。ここでは、利用者が展示会場でＰＤＡ１１を利用する場合を例にして説明する。

［ステップＳＴ１０１０１］
利用者は、ＰＤＡ１１に装着されたマイク１１１を用いて「音響モデルを取得」、「適応してほしいな」、「音声認識」などの音声データを入力する。そのとき利用者の音声データには展示会場での騒音が付加される。

［ステップＳＴ１０１０２］
ＰＤＡ１１は、音響モデルを取得するか否かの判断を利用者に促す。音響モデルを取得すると利用者が判断したときは、ステップＳＴ１０１０１において得られた、雑音が付加された音声データがＰＤＡ１１の送信部１１２によってサーバ１２に送信される。そしてステップＳＴ１０１０３にすすむ。一方、音響モデルを取得しないと利用者が判断したときはサーバ１２への送信は行わずにステップＳＴ１０１０５にすすむ。

［ステップＳＴ１０１０３］
サーバ１２のデータ蓄積部１２４には複数の音響モデルが事前に蓄えられている。複数の音響モデルは、さまざまな雑音環境におけるさまざまな話者・話者のさまざまな声の調子・音響モデルを作成する際に話者が発声した音声を得るために使用したマイクの特性に適応している。データ蓄積部１２４にあらかじめ蓄えられている音響モデルの一例を図３に示す。ここでは、車内・家庭内・展示会場内などの雑音環境においてＡさん・Ｂさん・Ｃさん・Ｚさんなどの話者が普段の声・嗄れ声・鼻声などの声の調子でマイクＡ・マイクＢ・マイクＣ・マイクＤなどを使用して発声した音声データで作成した複数の音響モデル（雑音付加モデル）が蓄えられている。複数の音響モデルの各々は、音素の音響モデル（ＨＭＭ）を複数個含む。各音響モデルに含まれる音素の音響モデルの数・種類は、音声認識の精度（文脈依存、文脈非依存など）、言語（日本語、英語など）、アプリケーションなどにより異なる。また、データ蓄積部１２４には、複数の音響モデルのうちＰＤＡ１１の利用環境および／または利用状況に適応化した音響モデルを適応モデルとして選択するためにＧＭＭ（Gaussian Mixture Model）が事前に蓄えられている。ＧＭＭは、音響モデルを作成するときに利用した音声データを用いて音素を区別しないで作成される。ＧＭＭは音響モデルと対をなしている。ＧＭＭは対応する音響モデルの特徴を表現する単純なモデルである。

サーバ１２の受信部１２１は、ＰＤＡ１１から送信された利用者の雑音付加データを受信する。適応モデル選択部１２３は、受信部１２１によって受信された利用者の雑音付加データを、データ蓄積部１２４に蓄積されている各音響モデルに付随するＧＭＭに入力する。そして、適応モデル選択部１２３は、最も高い尤度をもつＧＭＭに付随する音響モデルを適応モデルとして選択する。選択された音響モデルは、周囲の雑音と話者に最も適合したモデルである。

［ステップＳＴ１０１０４］
サーバ１２の送信部１２２は、適応モデル選択部１２３によって選択された適応モデル１３３をＰＤＡ１１に送信する。

ＰＤＡ１１の受信部１１３は、サーバ１２から送信された適応モデル１３３を受信する。受信部１１３によって受信された適応モデル１３３はメモリ１１４に蓄積される。このとき、以前にメモリ１１４に蓄積された音響モデル（適応モデル）は新たにダウンロードした適応モデルに置き換えられる。

［ステップＳＴ１０１０５］
音声認識部１１５は、メモリ１１４に蓄積された適応モデルを用いて音声認識を行う。ステップＳＴ１０１０２において音響モデルを取得すると利用者が判断した場合には、ステップＳＴ１０１０３においてサーバ１２からダウンロードした適応モデルを用いて音声認識が行われる。ステップＳＴ１０１０２において音響モデルを取得しないと利用者が判断した場合には適応モデルのダウンロードは行わず、すでにメモリ１１４に蓄積されている適応モデルを用いて音声認識が行われる。

＜効果＞
第１の実施形態による音声認識システムでは、サーバ１２で適応を行い、ＰＤＡ１１で認識を行う。サーバ１２の記憶容量は大きいため、複雑なモデルによる適応が行える。これにより認識率を高めることができる。また、サーバ１２のダウン、混線などが起こってもＰＤＡ１１において認識機能を使うことができる。

また、遭遇する可能性のある（実際に遭遇しない場合が多い）すべての状況に対応した適応モデルをＰＤＡ１１のメモリ１１４に蓄積しておく必要はなく、遭遇した状況に適した適応モデルをサーバ１２から獲得してＰＤＡ１１のメモリ１１４に蓄積しておけばよいため、ＰＤＡ１１のメモリ１１４の容量を削減することができる。

また、ＰＤＡ１１の利用者は、ＰＤＡ１１の周囲の雑音・利用者の話者性・利用者の声の調子・マイクの特性に適応化した適応モデルにより音声認識をすることができるため、高い認識率を獲得することができる。

また、サーバ１２のデータ蓄積部１２４には利用者の発声データの音響特性に近い大量のデータで作成した音響モデルが事前に蓄積されているため、利用者は、音響モデルを作成するために大量の発声を行う必要がない。

また、サーバ１２のデータ蓄積部１２４には利用者の発声データの音響特性に近い音声データで作成した音響モデルが事前に蓄積されているため、音響モデルを作成するための処理時間が不要となる。

また、ＰＤＡ１１のメモリ１１４には、以前に利用した適応モデルを蓄積しているため、適応モデルの再利用ができる。

＜変形例＞
なお、ここではサーバ１２からダウンロードした適応モデルをＰＤＡ１１のメモリ１１４に蓄積する際に、すでにメモリ１１４に蓄積されている適応モデルを新たにダウンロードした適応モデルに置き換えている（ＳＴ１０１０３）。これに代えて、すでにメモリ１１４に蓄積されている適応モデルに加えて新たにダウンロードした適応モデルをメモリ１１４に追加するようにしてもよい。この場合、ステップＳＴ１０１０５における音声認識処理は次のようにして行われる。ステップＳＴ１０１０２において音響モデルを取得すると利用者が判断した場合には、ステップＳＴ１０１０３においてサーバ１２からダウンロードした適応モデルを用いて音声認識が行われる。ステップＳＴ１０１０２において音響モデルを取得しないと利用者が判断した場合には適応モデルのダウンロードは行わず、ステップＳＴ１０１０１において入力された音声データに近い適応モデルをすでにメモリ１１４に蓄積されている適応モデルの中から選択し、選択した適応モデルを用いて音声認識が行われる。

また、サーバ１２の適応モデル選択部１２３は、利用状況に応じて音響モデルを選択してもよい。たとえば、セキュリティに関するアプリケーション（音声認識により機密情報を処理するようなアプリケーション、音声認識により自動車の運転操作を行うようなアプリケーションなど）を利用する場合には、より高精度に適応化した音響モデルを選択してもよい。この場合ＰＤＡ１１は、起動しているアプリケーションの情報をサーバ１２の適応モデル選択部１２３へ送信して利用状況（音声認識の重要度）を通知してもよいし、利用者に重要度を入力させその情報（利用状況）をサーバ１２の適応モデル選択部１２３に送信してもよい。

また、音素の音響モデルはＨＭＭに限らない。

また、「音響モデルを取得」などの発声テキストデータをＰＤＡ１１からサーバ１２へ送信してもよい。この場合、一例として、発声テキストに含まれる音韻のみの発声データにより作成された特化したＧＭＭを用いて、上記音韻のみから構成された発声データより適応モデルを選択することができるため、高精度に適応モデルを選択することができる。すべての音韻の発声から話者ごとにＧＭＭを作成した場合、ＧＭＭで表現できる話者性があいまいになる可能性がある。

また、利用者の発声データを変換したケプストラム係数などの特徴量をＰＤＡ１１からサーバ１２へ送信してもよい。

また、サーバ１２のデータ蓄積部１２４にＧＭＭを蓄積せず、適応モデル選択部１２３でＧＭＭの代わりに音響モデルを用いて、音響モデルの尤度が最大の音響モデルを適応モデルとして選択してもよい。

また、ＰＤＡ１１において、ＰＤＡ側の情報１３２を入力するマイクと同一のマイクを用いて音声認識を行ってもよい。その場合、マイク特性を考慮した適応モデルで音声認識を行うことができる。

また、ＰＤＡ１１は、テレビやパソコンやカーナビゲーションシステムなどの据え置き型の端末でもよい。

また、通信路１３１は、電話回線、インターネット回線、ケーブルテレビの回線など有線、通信網、ＢＳ／ＣＳデジタル放送や地上波デジタル放送などの放送網であってもよい。

また、サーバ１２をテレビまたはセットトップボックスとしＰＤＡ１１（端末）をテレビのリモコンとするなどのように、サーバと端末を空間的に近くに存在させてもよい。

（第２の実施形態）
＜音声認識システムの構成＞
第２の実施形態による音声認識システムの全体構成を図４に示す。この音声認識システムは、ＰＤＡ１１と、サーバ４２とを備える。ＰＤＡ１１およびサーバ４２は通信路１３１を介して互いにデータのやりとりをする。

サーバ４２は、受信部１２１と、送信部１２２と、適応モデル選択部１２３と、データ蓄積部１２４と、スケジュールデータベース４２１とを備える。スケジュールデータベース４２１には、ＰＤＡ１１の利用者のスケジュール（行き先、日時など）が格納されている。

＜音声認識システムの動作＞
次に、以上のように構成された音声認識システムの動作について図５を参照しつつ説明する。ここでは、利用者Ｘが展示会場でＰＤＡ１１を利用する場合を例にして説明する。

利用者Ｘは、第１の実施形態において説明したのと同様にして、展示会場の騒音と利用者Ｘの通常の声とに適応した音響モデルおよび当該モデルのＧＭＭをＰＤＡ１１のメモリ１１４にダウンロードする（ＳＴ１０１０１〜ＳＴ１０１０４）。

［ステップＳＴ１０１１１］
ＰＤＡ１１は、将来利用するであろう適応モデルを取得するか否かの判断を利用者Ｘに促す。取得すると利用者Ｘが判断したときはＰＤＡ１１の送信部１１２からサーバ４２に要求信号が送信され、ステップＳＴ１０１１２にすすむ。一方、取得しないと利用者Ｘが判断したときは要求信号は送信されずにステップＳＴ１０１１４にすすむ。ここでは、将来利用するであろう適応モデルを取得すると利用者Ｘが判断したものとする。

［ステップＳＴ１０１１２］
ＰＤＡ１１からの要求信号はサーバ４２の受信部１２１を介して適応モデル選択部１２３に与えられる。要求信号を受けると適応モデル選択部１２３は、利用者Ｘが遭遇する可能性のある状況を予測して当該状況に適応した音響モデルをデータ蓄積部１２４から選択する。具体的には次のようにして選択する。上述のステップＳＴ１０１０１〜ＳＴ１０１０４では展示会場の騒音と利用者Ｘの通常の声とに適応した音響モデルを適応モデルとしてＰＤＡのメモリ１１４にダウンロードしている。これをふまえて適応モデル選択部１２３は、利用者Ｘが今後遭遇する可能性のある状況に適応した音響モデルとして、「展示会場の騒音と利用者Ｘの風邪をひいたときの声とに適応した音響モデル」、「展示会場の騒音と利用者Ｘが早口で話したときの声とに適応した音響モデル」、「展示会場の騒音と利用者Ｘがひそひそ話をしたときの声とに適応した音響モデル」、「展示会場の騒音に音響的に近い会場騒音と利用者Ｘの通常の声とに適応した音響モデル」などを選択する。また、別の選択方法として、スケジュールデータベース４２１に格納されている利用者Ｘのスケジュールを参照して適応モデル選択部１２３は音響モデルを選択する。たとえば利用者Ｘの今後のスケジュールとして、「工事現場でのアルバイト」、「居酒屋での宴会」、「ヨーロッパ旅行（英語圏およびフランス語圏）」がスケジュールデータベース４２１に格納されているものとする。この場合、適応モデル選択部１２３は、利用者Ｘが今後遭遇する可能性のある状況に適応した音響モデルとして、「工事現場の騒音と利用者Ｘの通常の声とに適応した音響モデル」、「居酒屋の騒音と利用者Ｘの通常の声とに適応した音響モデル」、「展示会場の騒音と利用者Ｘの英語での通常の声とに適応した音響モデル」、「展示会場の騒音と利用者Ｘのフランス語での通常の声とに適応した音響モデル」などを選択する。

［ステップＳＴ１０１１３］
上述のようにして選択された音響モデル（適応モデル）と当該モデルに対応するＧＭＭとがサーバ４２の送信部１２２からＰＤＡ１１に送信される。ＰＤＡ１１の受信部１１３は、サーバ４２から送信された適応モデルおよびＧＭＭを受信する。受信部１１３によって受信された適応モデルおよびＧＭＭはメモリ１１４に蓄積される。ここでは、すでにメモリ１１４に蓄積されている音響モデルおよびＧＭＭに加えて新たにダウンロードされた音響モデルおよびＧＭＭがメモリ１１４に追加される。このようにしてメモリ１１４に蓄積された音響モデルおよびＧＭＭの一例を図６に示す。

［ステップＳＴ１０１１４］
音声認識部１１５は、メモリ１１４に蓄積された適応モデルを用いて音声認識を行う。ステップＳＴ１０１０２において音響モデルを取得すると利用者が判断した場合には、ステップＳＴ１０１０３においてサーバ４２からダウンロードした適応モデルを用いて音声認識が行われる。ステップＳＴ１０１０２において音響モデルを取得しないと利用者が判断した場合には、すでにメモリ１１４に蓄積されている適応モデルを用いて音声認識が行われる。

次に利用者Ｘは、アルバイトをしている工事現場で音声認識を利用する。利用者Ｘは、工事現場における利用者Ｘの音声データをＰＤＡ１１のマイク１１１を用いて入力する（ＳＴ１０１０１）。利用者Ｘは適応モデルのダウンロードを要求しない（ＳＴ１０１０２）。音声認識部１１５は、入力された音声データをメモリ１１４に蓄積されている各ＧＭＭに入力し、当該音声データとの尤度が最大のＧＭＭに対応した適応モデルを選択する（ＳＴ１０１１１）。音声認識部１１５は、選択した適応モデルを用いて音声認識を行う（ＳＴ１０１１４）。

次に、利用者Ｘのアルバイト先の友達である利用者ＹがＰＤＡ１１を工事現場で利用する。利用者Ｙは、工事現場における利用者Ｙの音声データをＰＤＡ１１のマイク１１１を用いて入力する（ＳＴ１０１０１）。利用者Ｙは適応モデルのダウンロードを要求する（ＳＴ１０１０２）。工事現場の騒音と利用者Ｙの通常の声とに適応した音響モデル（適応モデル）および当該モデルのＧＭＭがＰＤＡ１１のメモリ１１４にダウンロードされる（ＳＴ１０１０３〜ＳＴ１０１０４）。また、利用者Ｙは、将来必要であろう適応モデルを要求しない（ＳＴ１０１１１）。利用者Ｙは、メモリ１１４にダウンロードした適応モデルを用いて音声認識部１１５により認識を行う（ＳＴ１０１１４）。

＜効果＞
第２の実施形態による音声認識システムによれば、第１の実施形態において得られた効果に加えて以下の効果が得られる。

遭遇する可能性のある状況を予測して当該状況の適応モデルを事前にＰＤＡ１１のメモリ１１４に蓄積するため、ＰＤＡ１１の利用者はサーバ４２に通信することなく適応モデルを利用できる。また、ＰＤＡ１１のメモリ１１４には複数の利用者の適応モデルを蓄積することができるため、ＰＤＡ１１の複数の利用者がサーバに通信することなく適応モデルを利用できる。

＜変形例＞
なお、ここでは、将来利用するであろう適応モデルをＰＤＡ１１の利用者の判断に従って取得したが、サーバ４２の適応モデル選択部１２３に自動的に取得させてもよい。たとえば、スケジュールデータベース４２１に格納されている利用者のスケジュールを参照して次のように取得する。ＰＤＡ１１の利用者Ｘのスケジュールが「１０時から工事現場でのアルバイト」となっている場合を例にする。この場合には、１０時より所定時間前の時刻たとえば９時５０分に適応モデル選択部１２３は、「工事現場の騒音と利用者Ｘの通常の声とに適応した音響モデル」をデータ蓄積部１２４から選択する。選択されたモデルは送信部１２２によってＰＤＡ１１に送信され、メモリ１１４に蓄積される。これにより、アルバイト開始時刻の１０時には「工事現場の騒音と利用者Ｘの通常の声とに適応した音響モデル」を利用した音声認識をＰＤＡ１１で行うことができる。また、ＰＤＡ１１にＧＰＳ機能が搭載されている場合には、ＰＤＡ１１を携帯した利用者Ｘがアルバイト先の工事現場にある程度近づいた時点で適応モデル選択部１２３によって「工事現場の騒音と利用者Ｘの通常の声とに適応した音響モデル」をデータ蓄積部１２４から選択してもよい。

また、ここではスケジュールデータベース４２１をサーバ４２内に設けたがこれをＰＤＡ１１内に設けてもよい。

また、適応モデル選択部１２３によって選択された適応モデルに対応するＧＭＭはＰＤＡ１１にダウンロードせずに、ＰＤＡ１１のメモリ１１４からの適応モデルの選択の際に適応モデルそのものを用いてもよい。

また、ステップＳＴ１０１０１において音声入力を行うときに利用者の名前を入力し、ダウンロードした適応モデルと利用者の名前を対応づけておく。そしてステップＳＴ１０１１４において適応モデルを選択する際に利用者の名前を入力することによって選択してもよい。

また、サーバ４２をテレビまたはセットトップボックスとしＰＤＡ１１（端末）をテレビのリモコンとするなどのように、サーバと端末を空間的に近くに存在させてもよい。

（第３の実施形態）
＜音声認識システムの構成＞
第３の実施形態による音声認識システムの全体構成を図７に示す。この音声認識システムは、携帯電話２１と、サーバ２２とを備える。携帯電話２１およびサーバ２２は通信路２３１を介して互いにデータのやりとりをする。

携帯電話２１は、データ入力部２１１と、送信部２１２と、受信部２１３と、メモリ２１４と、音声認識部２１５とを備える。データ入力部２１１は、携帯電話２１の利用者の音声や携帯電話２１の周りの雑音などの情報を入力するためのものである。データ入力部２１１は、音声発声ボタンと、マイクとを含む。音声発声ボタンは、利用者の音声と環境雑音とを区別して入力するためのボタンである。マイクは、携帯電話２１の利用者の音声や携帯電話２１の周りの雑音などを入力する。送信部２１２は、データ入力部２１１によって入力されたデータをサーバ２２に送信する。受信部２１３は、サーバ２２から送信された適応モデルを受信する。受信部２１３によって受信された適応モデルはメモリ２１４に蓄積される。音声認識部２１５は、メモリ２１４に蓄積された適応モデルを利用して音声認識を行う。

サーバ２２は、受信部２２１と、送信部２２２と、適応モデル作成部２２３と、データ蓄積部２２４と、スケジュールデータベース４２１とを備える。データ蓄積部２２４には適応モデル作成用データが蓄積される。適応モデル作成用データには、複数の音響モデルおよびこれらに対応するＧＭＭと、複数の話者の発声データとが含まれている。受信部２２１は、携帯電話２１から送信されたデータを受信する。適応モデル作成部２２３は、受信部２２１によって受信されたデータおよびデータ蓄積部２２４に蓄積されたデータに基づいて適応モデルを作成する。送信部２２２は、適応モデル作成部２２３によって作成された適応モデルを携帯電話２１に送信する。

＜音声認識システムの動作＞
次に、以上のように構成された音声認識システムの動作について図８を参照しつつ説明する。ここでは、利用者が電車内で携帯電話２１を利用する場合を例にして説明する。

［ステップＳＴ１０２０１］
携帯電話２１の利用者は、携帯電話２１に装着されたマイクおよび音声発声ボタン２１１を利用して、利用者が発声しているときのデータと、発声していないときの周囲雑音のデータとを区別して入力する。利用者は、音声発声ボタンを押しながら発声することで利用者の音声をマイクに入力する。また、音声発声ボタンを押さなければマイクから周囲雑音が入力される。利用者の発声データとして電車が停車時の利用者の音声を入力し、周囲雑音として電車が動いているときの騒音と周りの人の声を入力する。

［ステップＳＴ１０２０２］
携帯電話２１は、音響モデルを取得するか否かの判断を利用者に促す。音響モデルを取得すると利用者が判断したときは、ステップＳＴ１０２０１においてデータ入力部２１１から入力されたデータが携帯電話２１の送信部２１２によってサーバ２２に送信される。そしてステップＳＴ１０２０３にすすむ。一方、音響モデルを取得しないと利用者が判断したときはサーバ２２への送信は行わずにステップＳＴ１０２１４にすすむ。

［ステップＳＴ１０２０３］
サーバ２２の受信部２２１は、携帯電話２１から送信された利用者の音声と周囲雑音とを受信する。

適応モデル作成部２２３は、データ蓄積部２２４に蓄積されている音響モデルのうち少なくとも２個の音響モデルと受信部２２１が受信したデータとに基づいて、携帯電話２１側の利用環境に適応化した適応モデルを作成する。

適応モデル作成部２２３は、環境雑音適応アルゴリズム（山田実一，馬場朗，芳澤伸一，米良祐一郎，李晃伸，猿渡洋，鹿野清宏，”環境雑音アルゴリズムの大語彙連続音声認識による評価”，情報処理学会研究報告書，２０００−ＳＬＰ−３５，ｐｐ．３１−３６，２００１）を利用して適応モデルを作成する。以下、環境雑音適応アルゴリズムを利用した適応モデルの作成について図９を参照しつつ説明する。サーバ２２のデータ蓄積部２２４には、複数の音響モデルと複数の話者の発声データとがあらかじめ蓄積されている。環境雑音適応アルゴリズムでは、発声データにより、充足統計量と話者距離を用いて話者適応を行う。充足統計量と話者距離による適応化方法では、短時間の利用者の発声データに音響的に近い話者の音響モデルをデータ蓄積部２２４より選択し（ＳＴ７３）、選択した音響モデルを用いて充足統計量と話者距離による適応化法により話者適応を行う（ＳＴ７１）。携帯電話２１から受信した雑音を含まない発声データにより話者適応を行うことで、高精度に話者適応を行うことができる。そのあとに、短時間の利用者の発声データに音響的に近い話者の発声データをデータ蓄積部２２４より選択し（ＳＴ７４）、選択された発声データに携帯電話２１から受信した周囲雑音のデータを付加した雑音付加データを生成する。そして雑音付加データによりＭＬＬＲを用いて雑音適応を行う（ＳＴ７２）。このようにして適応モデルが作成される。

［ステップＳＴ１０２０４］
適応モデル作成部２２３によって作成された適応モデル２３３は送信部２２２によって携帯電話２１の受信部２１３に送信される。携帯電話２１の受信部２１３が受信した適応モデル２３３はメモリ２１４に蓄積される。ここでは、すでにメモリ２１４に蓄積されている音響モデルおよびＧＭＭに加えて新たにダウンロードされた音響モデルおよびＧＭＭがメモリ２１４に追加される。

［ステップＳＴ１０２１１］
携帯電話２１は、将来利用するであろう適応モデルを取得するか否かの判断を利用者に促す。取得すると利用者が判断したときは携帯電話２１の送信部２１２からサーバ２２に要求信号が送信され、ステップＳＴ１０２１２にすすむ。一方、取得しないと利用者が判断したときは要求信号は送信されずにステップＳＴ１０２１４にすすむ。

［ステップＳＴ１０２１２］
携帯電話２１からの要求信号を受けると適応モデル作成部２２３は、利用者が遭遇する可能性のある状況を予測して当該状況に適応した音響モデルを作成する。作成すべき音響モデルの選択は、図５に示したステップＳＴ１０１１２において説明したのと同様に行う。モデルの作成は、上述のステップＳＴ１０２０３において説明したのと同様にして行う。

［ステップＳＴ１０２１３］
上述のようにして作成された音響モデル（適応モデル）と当該モデルに対応するＧＭＭとがサーバ２２の送信部２２２から携帯電話２１に送信される。携帯電話２１の受信部２１３は、サーバ２２から送信された適応モデルおよびＧＭＭを受信する。受信部２１３によって受信された適応モデルおよびＧＭＭはメモリ２１４に蓄積される。ここでは、すでにメモリ２１４に蓄積されている音響モデルおよびＧＭＭに加えて新たにダウンロードされた音響モデルおよびＧＭＭがメモリ２１４に追加される。

［ステップＳＴ１０２１４］
音声認識部２１５は、図５に示したステップＳＴ１０１１４において説明したのと同様にして、メモリ２１４に蓄積された適応モデルを用いて音声認識を行う。

＜効果＞
以上説明したように第３の実施形態によれば、遭遇する可能性のある（実際に遭遇しない場合が多い）すべての状況に対応した適応モデルを携帯電話２１のメモリ２１４に蓄積しておく必要はなく、遭遇した状況に適した適応モデルをサーバ２２から獲得して蓄積しておけばよいため、携帯電話２１のメモリ２１４の容量を削減することができる。

また、携帯電話２１の利用者は、携帯電話２１の周囲の雑音・利用者の話者性・利用者の声の性質などに適応化した適応モデルにより音声認識をすることができるため、高い認識率を獲得することができる。

また、サーバ２２において、携帯電話２１側の状況を考慮して適応モデルを作成することができるため、携帯電話２１の利用状況にさらに適応化した適応モデルを携帯電話２１に送信することができる。

＜変形例＞
なお、利用者の音声データと利用者が発声していないときの周囲雑音のデータとを区別する方法として、音声識別モデルと雑音識別モデルとを利用して自動的に行ってもよい。

また、音響モデルはＨＭＭに限らない。

また、適応モデル作成部２２３において、充足統計量と話者距離を用いた方法（芳澤伸一，馬場朗，松浪加奈子，米良祐一郎，山田実一，鹿野清宏，”充足統計量と話者距離を用いた音韻モデルの教師なし学習”，信学技報，ＳＰ２０００−８９，ｐｐ．８３−８８，２０００）に改良を加えて、複数の話者に関する音響モデルの代わりに、複数の話者と雑音に関する音響モデルとそれらの音響モデルに付随するＧＭＭにより適応化を行う方法を利用してもよい。

また、適応モデル作成部２２３において、ＭＡＰ推定やＭＬＬＲの改良法など、音響モデルを利用した他の適応化手法を用いてもよい。

また、携帯電話２１側の情報２３２として、「音響モデルを取得」などの発声テキストデータをサーバ２２に送信して利用してもよい。

また、携帯電話２１側の情報２３２として、発声データを変換したケプストラム係数などの特徴量をサーバ２２に送信してもよい。

また、端末装置としての携帯電話２１に代えて、テレビやパソコンやカーナビゲーションシステムなどの据え置き型の端末などを用いてもよい。

また、通信路は、電話回線、インターネット回線、ケーブルテレビの回線など有線、通信網、ＢＳ／ＣＳデジタル放送や地上波デジタル放送などの放送網であってもよい。

また、サーバ２２をテレビまたはセットトップボックスとし携帯電話２１（端末）をテレビのリモコンとするなどのように、サーバと端末を空間的に近くに存在させてもよい。

（第４の実施の形態）
＜音声認識システムの構成＞
第４の実施形態による音声認識システムの全体構成を図１０に示す。この音声認識システムは、携帯端末３１と、サーバ３２とを備える。携帯端末３１およびサーバ３２は通信路３３１を介して互いにデータのやりとりをする。

携帯端末３１は、データ入力部３１１と、送信部３１２と、受信部３１３と、メモリ３１４と、適応モデル作成部３１６と、音声認識部３１５とを備える。データ入力部３１１は、携帯端末３１の利用者の音声や携帯端末３１の周りの雑音などの情報を入力するためのものである。データ入力部３１１は、マイクと、ウェブブラウザとを含む。マイクは、利用者の音声と環境雑音を入力する。ウェブブラウザは、利用者の音声と環境雑音とに関する情報を入力する。送信部３１２は、データ入力部３１１で入力されたデータをサーバ３２に送信する。受信部３１３は、サーバ３２から送信された適応モデル作成用データを受信する。受信部３１３によって受信された適応モデル作成用データはメモリ３１４に蓄積される。適応モデル作成部３１６は、メモリ３１４に蓄積された適応モデル作成用データを利用して適応モデルを作成する。音声認識部３１５は、適応モデル作成部３１６によって作成された適応モデルを利用して音声認識を行う。また、メモリ３１４には、さまざまな状況（環境）における特徴的な音のデータが記憶されている。たとえば、スーパーマーケットや展示会場などの場所における特徴的な音、自動車・地下鉄などの特徴的な音のデータが記憶されている。これらのデータは、携帯端末３１による音声認識処理を行う前にあらかじめサーバ３２から携帯端末３１のメモリ３１４にダウンロードされている。

サーバ３２は、受信部３２１と、送信部３２２と、選択部３２３と、データ蓄積部３２４と、スケジュールデータベース４２１とを備える。データ蓄積部３２４には、複数の音響モデルと当該音響モデルを選択するための選択モデル（ＧＭＭ）とが蓄積される。受信部３２１は、携帯端末３１から送信されたデータを受信する。選択部３２３は、携帯端末３１の利用環境などに適応化するために必要な適応モデル作成用データをデータ蓄積部３２４から選択する。送信部３２２は、選択部３２３によって選択された適応モデル作成用データを携帯端末３１に送信する。

＜音声認識システムの動作＞
次に、以上のように構成された音声認識システムの動作について図１１を参照しつつ説明する。ここでは、利用者がスーパーマーケットで携帯端末３１を利用する場合を例として説明する。

［ステップＳＴ１０４０１］
携帯端末３１の利用者は、データ入力部３１１のマイクにより「今日の献立は何にしようかな」などの音声データを入力する。データ入力部３１１のウェブブラウザは、図１２に示すように、周囲の状況（環境）・声の調子などの情報の入力を促す画面を携帯端末３１のタッチパネル上に表示する。携帯端末３１の利用者は、ソフトペンなどを用いてタッチパネル上の「スーパーマーケット」の項目と「風邪気味」の項目とにチェックを入れることによって周囲の状況（環境）・声の調子などの情報を入力する。このとき携帯端末３１の利用者が「この音を聴く」の項目にチェックを入れると、チェックを入れた状況（環境）における特徴的な音のデータがメモリ３１４から読み出され再生される。この場合には、スーパーマーケットにおける特徴的な音が再生される。

［ステップＳＴ１０４０２］
携帯端末３１は、作成用データを取得するか否かの判断を利用者に促す。作成用データを取得すると利用者が判断したときは、ステップＳＴ１０４０１において入力された情報３３２が携帯端末３１の送信部３１２によってサーバ３２に送信される。そしてステップＳＴ１０４０３にすすむ。一方、作成用データを取得しないと利用者が判断したときはサーバ３２への送信は行わずにステップＳＴ１０４０８にすすむ。

［ステップＳＴ１０４０３］
サーバ３２のデータ蓄積部３２４には、図３に示したように、複数の音響モデルと複数のＧＭＭとが対応づけられて事前に蓄えられている。

サーバ３２の受信部３２１は、携帯端末３１から送信された携帯端末側の情報３３２を受信する。選択部３２３は、受信された携帯端末側の情報３３２に基づいて、少なくとも２つの音響モデルおよび当該モデルに対応するＧＭＭをデータ蓄積部３２４に蓄積されている音響モデルおよびＧＭＭから選択する。選択部３２３によって選択された音響モデルおよびＧＭＭを「適応モデル作成用データ」とする。ここでは、選択部３２３は、第１の実施の形態における適応モデル選択部１２３と基本的に同様な方法を用いており、短時間の利用者の発声に基づいて適応モデル作成用データを選択する。ただし、携帯端末側の情報３３２のうちタッチパネルによって入力された情報を利用して、選択される音響モデルに制約をかける。なお、ここでいう制約とはフィルタリングの意味である。たとえばタッチパネルによって入力された情報が「風邪気味」と「スーパーマーケット」であれば、「風邪気味」と「スーパーマーケット」に関連する音響モデルに付随するＧＭＭのみを用いて選択を行う。

［ステップＳＴ１０４０４］
送信部３２２は、選択部３２３によって選択された適応モデル作成用データ３３３を携帯端末３１に送信する。

携帯端末３１の受信部３１３によって受信された適応モデル作成用データ３３３はメモリ３１４に蓄積される。ここでは、すでにメモリ３１４に蓄積されている適応モデル作成用データに加えて新たにダウンロードされた適応モデル作成用データがメモリ３１４に追加される。

［ステップＳＴ１０４０５］
携帯端末３１は、将来利用するであろう適応モデルを作成するための適応モデル作成用データを取得するか否かの判断を利用者に促す。取得すると利用者が判断したときは携帯端末３１の送信部３１２からサーバ３２に要求信号が送信され、ステップＳＴ１０４０６にすすむ。一方、取得しないと利用者が判断したときは要求信号は送信されずにステップＳＴ１０４０８にすすむ。

［ステップＳＴ１０４０６］
携帯端末３１からの要求信号を受けると選択部３２３は、利用者が遭遇する可能性のある状況を予測し、当該状況に適応した音響モデルを作成するための適応モデル作成用データ（少なくとも２つの音響モデルおよび当該モデルに対応するＧＭＭ）をデータ蓄積部３２４から選択する。作成すべき音響モデルの選択は、図５に示したステップＳＴ１０１１２において説明したのと同様に行う。適応モデル作成用データの選択は、上述のステップＳＴ１０４０３において説明したのと同様にして行う。

［ステップＳＴ１０４０７］
上述のようにして選択された適応モデル作成用データがサーバ３２の送信部３２２から携帯端末３１に送信される。携帯端末３１の受信部３１３は、サーバ３２から送信された適応モデル作成用データを受信する。受信部３１３によって受信された適応モデル作成用データはメモリ３１４に蓄積される。ここでは、すでにメモリ３１４に蓄積されている適応モデル作成用データに加えて新たにダウンロードされた適応モデル作成用データがメモリ３１４に追加される。

［ステップＳＴ１０４０８］
適応モデル作成部３１６は、現在までにメモリ３１４に蓄積された適応モデル作成用データを用いて適応モデルを作成する。ここでは、充足統計量と話者距離を用いた方法（芳澤伸一，馬場朗，松浪加奈子，米良祐一郎，山田実一，鹿野清宏，”充足統計量と話者距離を用いた音韻モデルの教師なし学習”，信学技報，ＳＰ２０００−８９，ｐｐ．８３−８８，２０００）に基づいて適応モデルを作成する。適応モデル作成部３１６は、サーバ３２の選択部３２３と同様にして、データ入力部３１１のマイクより入力された音声データに基づいてメモリ３１４から複数の音響モデルを選択する。選択された音響モデルは、現在の利用環境における周囲の雑音と話者に最も適合した複数のモデルである。選択された複数の音響モデル（ＨＭＭ）の平均・分散・遷移確率・ＥＭカウントを用いて統計計算により適応モデルを作成する。適応モデルであるＨＭＭの平均・分散・遷移確率は、選択された音響モデル全体でのＨＭＭの各状態の各混合分布の平均・分散と、選択された音響モデル全体での遷移確率となる。具体的な計算方法を以下の数１−数３に示す。適応モデルのＨＭＭの各状態における正規分布の平均，分散をそれぞれ、μ_i ^adp（ｉ＝１，２，・・，Ｎ_mix）、ｖ_i ^adp（ｉ＝１，２，・・，Ｎ_mix）とする。ここでＮ_mixは混合分布数である。また、状態遷移確率をａ^adp［ｉ］［ｊ］（ｉ，ｊ＝１，２，・・・，Ｎ_state）とする。ここでＮ_stateは状態数であり、ａ^adp［ｉ］［ｊ］は状態ｉから状態ｊへの遷移確率を表す。

ここで、Ｎ_selは選択された音響モデルの数であり、
μ_i ^j（ｉ＝１，２，・・・，Ｎ_mix，ｊ＝１，２，・・・，Ｎ_sel）、
ｖ_i ^j（ｉ＝１，２，・・・，Ｎ_mix，ｊ＝１，２，・・・，Ｎ_sel）
はそれぞれの音響モデルの平均，分散である。
また、
Ｃ^j _mix（ｊ＝１，２，・・・，Ｎ_sel）、
Ｃ^k _state［ｉ］［ｊ］（ｋ＝１，２，・・・，Ｎ_sel，ｉ，ｊ＝１，２，・・・，Ｎ_state）
はそれぞれ正規分布におけるＥ−Ｍカウント（度数）、状態遷移に関するＥ−Ｍカウントである。

［ステップＳＴ１０４０９］
音声認識部３１５は、適応モデル作成部３１６によって作成された適応モデルを用いて音声認識を行う。

＜効果＞
以上説明したように第４の実施形態によれば、遭遇する可能性のある（実際に遭遇しない場合が多い）すべての状況に対応した適応モデル作成用データを携帯端末３１のメモリ３１４に蓄積しておく必要はなく、遭遇した状況に適応化するための適応モデル作成用データをサーバ３２から獲得して蓄積しておけばよいため、携帯端末３１のメモリ３１４の容量を削減することができる。

また、携帯端末３１の利用者は、携帯端末３１の周囲の雑音・利用者の話者性・利用者の声の調子などに適応化した適応モデルにより音声認識をすることができるため、高い認識率を獲得することができる。

また、いったん遭遇した状況の適応モデル作成用データを携帯端末３１のメモリ３１４に蓄積するため、同じ環境に遭遇した場合にサーバ３２との通信なしで適応モデルを作成することができる。

＜変形例＞
なお、図１および図４に示したＰＤＡ１１ならびに図７に示した携帯電話２１の内部に適応モデル作成部３１６を設け、メモリ１１４，２１４，３１４に蓄積された音響モデルのうち少なくとも２つを用いて適応モデルを作成してもよい。

また、複数の利用者の作成用データをメモリ３１４に蓄積して適応モデルを作成してもよい。この場合、利用者の音声を入力／利用者の名前を指定して特定の利用者の作成用データを選択して適応モデルを作成する。

また、音響モデルはＨＭＭに限らない。

また、携帯端末３１の情報３３２として、発声データを変換したケプストラム係数などの特徴量をサーバ３２に送信してもよい。

また、適応モデル作成および音声認識に用いる適応化法は、音響モデルを用いる他の適応化法でもよい。

また、適応モデル作成および音声認識に用いる音声データを入力するマイクは、データ入力部３１１のマイクと異なるものを用いてもよい。

また、携帯端末３１に代えて、テレビやパソコンやカーナビゲーションシステムなどの据え置き型の端末を用いてもよい。

また、サーバ３２をテレビまたはセットトップボックスとし携帯端末３１をテレビのリモコンとするなどのように、サーバと端末を空間的に近くに存在させてもよい。

（第５の実施形態）
＜音声認識システムの構成＞
第５の実施形態による音声認識システムは、図１に示したＰＤＡ１１に代えて図１３に示すＰＤＡ６１を備える。その他の構成は図１に示した音声認識システムと同様である。

図１３に示すＰＤＡ６１は、図１に示したＰＤＡ１１の構成に加えてさらに初期設定部６０１と判断部６０２とを備える。また、メモリ１１４には、受信部１１３によってすでに受信された音響モデルおよび当該音響モデルのＧＭＭがｎ組（ｎは正の整数）蓄積されている。初期設定部６０１は、しきい値Ｔｈを判断部６０２に与える。しきい値Ｔｈの値は、初期設定部６０１が自動的に設定したり利用者の指示に従って初期設定部６０１が設定したりする。判断部６０２は、マイク１１１によって得られた環境雑音が付加された利用者の音声を所定の特徴量に変換し、その特徴量とメモリ１１４に蓄積されている各音響モデルのＧＭＭとの尤度を初期設定部６０１からのしきい値Ｔｈと比較する。メモリ１１４に蓄積されているすべての音響モデルについての尤度がしきい値Ｔｈよりも小さいとき、判断部６０２は制御信号を送信部１１２に与える。判断部６０２からの制御信号に応答して送信部１１２は、マイク１１１によって得られた利用者の音声および環境雑音をサーバ１２へ送信する。一方、メモリ１１４に蓄積されているいずれかの音響モデルについての尤度がしきい値Ｔｈ以上のとき、判断部６０２は制御信号を送信部１１２に与えない。また送信部１１２はサーバ１２への送信を行わない。

＜音声認識システムの動作＞
次に、以上のように構成された音声認識システムの動作について図１４を参照しつつ説明する。

上述のとおりＰＤＡ６１のメモリ１１４には、受信部１１３によってすでに受信された音響モデルおよび当該音響モデルのＧＭＭがｎ組（ｎは正の整数）蓄積されている。

そしてＰＤＡ６１の初期設定部６０１によってしきい値Ｔｈが決定され判断部６０２に送信される（ＳＴ７０１）。しきい値Ｔｈは、音声認識を利用するアプリケーションに応じて決定される。たとえば初期設定部６０１は、セキュリティに関するアプリケーション（音声認識により機密情報を処理するようなアプリケーション、音声認識により自動車の運転操作を行うようなアプリケーションなど）を利用する場合にはしきい値Ｔｈを大きく設定し、それ以外のアプリケーションを利用する場合にはしきい値Ｔｈを小さく設定する。初期設定部６０１は、利用するアプリケーションが選択されたときにそのアプリケーションに対応したしきい値Ｔｈを判断部６０２に与える。

次に、環境雑音が付加された利用者の音声がＰＤＡ６１のマイク１１１により入力される（ＳＴ７０２）。

次に、マイク１１１によって得られた環境雑音が付加された利用者の音声がＰＤＡ６１の判断部６０２によって所定の特徴量に変換される。そしてメモリ１１４に蓄積されている各音響モデルのＧＭＭ（ＧＭＭ１−ＧＭＭｎ）にその特徴量が入力され、それぞれの尤度が計算される（ＳＴ７０３）。

次に、ステップＳＴ７０３において計算された尤度の最大値がしきい値Ｔｈよりも小さいか否かが判断部６０２によって判断される（ＳＴ７０４）。

メモリ１１４に蓄積されているすべてのＧＭＭ（ＧＭＭ１−ＧＭＭｎ）についての尤度がしきい値Ｔｈよりも小さいとき（ｙｅｓ）、ステップＳＴ７０５にすすむ。そして判断部６０２は制御信号を送信部１１２に与える。判断部６０２からの制御信号に応答して送信部１１２は、マイク１１１によって得られた利用者の音声および環境雑音をサーバ１２へ送信する（ＳＴ７０５）。サーバ１２は、第１の実施形態におけるのと同様にして、当該利用者の音声および環境雑音に最も適合した音響モデルをＰＤＡ６１に送信する。この音響モデルはＰＤＡ６１の受信部１１３によって受信され、メモリ１１４に蓄積される。そして音声認識部１１５は、メモリ１１４に蓄積されたこの音響モデルを用いて音声認識を行う。

一方、ステップＳＴ７０３において計算された尤度のうちいずれかがしきい値Ｔｈ以上のとき（ｎｏ）、判断部６０２は制御信号を送信部１１２に与えない。したがって送信部１１２はサーバ１２への送信を行わない。そして音声認識部１１５は、ステップＳＴ７０３において計算された尤度が最も高いＧＭＭの音響モデルを用いて音声認識を行う。

＜効果＞
以上のように第５の実施形態による音声認識システムでは、環境雑音が付加された利用者の音声とＰＤＡ６１のメモリ１１４にあらかじめ蓄積されている音響モデルとの尤度が所定のしきい値よりも小さいときに限り、利用者の音声および環境雑音をＰＤＡ６１からサーバ１２へ送信する。これにより、ＰＤＡ６１とサーバ１２との間のデータの送受信を減らすことができる。

＜変形例＞
なお、図７に示した携帯電話２１および図１０に示した携帯端末３１についても同様に初期設定部６０１および判断部６０２を設けてもよい。

また、サーバ１２をテレビまたはセットトップボックスとしＰＤＡ６１（端末）をテレビのリモコンとするなどのように、サーバと端末を空間的に近くに存在させてもよい。

（第６の実施形態）
＜音声認識システムの構成＞
第６の実施形態による音声認識システムは、図１に示したＰＤＡ１１に代えて図１５に示すＰＤＡ８１を備える。その他の構成は図１に示した音声認識システムと同様である。

図１５に示すＰＤＡ８１は、図１に示したＰＤＡ１１の構成に加えてさらに判断部８０１を備える。また、メモリ１１４には、受信部１１３によってすでに受信された音響モデルおよび当該音響モデルのＧＭＭがｎ組（ｎは正の整数）蓄積されている。判断部８０１は、マイク１１１によって得られた環境雑音が付加された利用者の音声を所定の特徴量に変換し、その特徴量とメモリ１１４に蓄積されている各音響モデルのＧＭＭとの尤度を所定のしきい値と比較する。メモリ１１４に蓄積されているすべての音響モデルについての尤度がしきい値よりも小さいとき、判断部８０１は、音響モデルをダウンロードするか否かの判断を利用者に促す。音響モデルをダウンロードすべきであると利用者が判断したとき送信部１１２は、マイク１１１によって得られた利用者の音声および環境雑音をサーバ１２へ送信する。音響モデルをダウンロードすべきではないと利用者が判断したとき送信部１１２はサーバ１２への送信を行わない。また、メモリ１１４に蓄積されているいずれかの音響モデルについての尤度がしきい値以上のときも送信部１１２はサーバ１２への送信を行わない。

＜音声認識システムの動作＞
次に、以上のように構成された音声認識システムの動作について図１６を参照しつつ説明する。

上述のとおりＰＤＡ８１のメモリ１１４には、受信部１１３によってすでに受信された音響モデルおよび当該音響モデルのＧＭＭがｎ組（ｎは正の整数）蓄積されている。

そして、環境雑音が付加された利用者の音声がＰＤＡ８１のマイク１１１により入力される（ＳＴ９０１）。

次に、マイク１１１によって得られた環境雑音が付加された利用者の音声がＰＤＡ８１の判断部８０１によって所定の特徴量に変換される。そしてメモリ１１４に蓄積されている各音響モデルのＧＭＭ（ＧＭＭ１−ＧＭＭｎ）にその特徴量が入力され、それぞれの尤度が計算される（ＳＴ９０２）。

次に、ステップＳＴ９０２において計算された尤度の最大値が所定のしきい値よりも小さいか否かが判断部８０１によって判断される（ＳＴ９０３）。

メモリ１１４に蓄積されているすべてのＧＭＭ（ＧＭＭ１−ＧＭＭｎ）についての尤度がしきい値よりも小さいとき（ｙｅｓ）、ステップＳＴ９０４にすすむ。そして判断部８０１は、音響モデルをダウンロードするか否かの判断を利用者に促す（ＳＴ９０４）。音響モデルをダウンロードすべきであると利用者が判断したとき（ｙｅｓ）、送信部１１２は、マイク１１１によって得られた利用者の音声および環境雑音をサーバ１２へ送信する（ＳＴ９０５）。サーバ１２は、第１の実施形態におけるのと同様にして、当該利用者の音声および環境雑音に最も適合した音響モデルをＰＤＡ８１に送信する。この音響モデルはＰＤＡ８１の受信部１１３によって受信され、メモリ１１４に蓄積される。そして音声認識部１１５は、メモリ１１４に蓄積されたこの音響モデルを用いて音声認識を行う。

一方、ステップＳＴ９０２において計算された尤度のうちいずれかがしきい値以上のとき（ステップＳＴ９０３においてｎｏ）、および、音響モデルをダウンロードすべきではないと利用者が判断したとき（ステップＳＴ９０４においてｎｏ）、送信部１１２はサーバ１２への送信を行わない。そして音声認識部１１５は、ステップＳＴ９０２において計算された尤度が最も高いＧＭＭの音響モデルを用いて音声認識を行う。

＜効果＞
以上のように第６の実施形態による音声認識システムでは、環境雑音が付加された利用者の音声とＰＤＡ８１のメモリ１１４にあらかじめ蓄積されている音響モデルとの尤度が所定のしきい値よりも小さいときであって音響モデルをダウンロードすべきであると利用者が判断したときに限り、利用者の音声および環境雑音をＰＤＡ８１からサーバ１２へ送信する。これにより、ＰＤＡ８１とサーバ１２との間のデータの送受信を減らすことができる。

＜変形例＞
なお、図７に示した携帯電話２１および図１０に示した携帯端末３１についても同様に判断部８０１を設けてもよい。

また、サーバ１２をテレビまたはセットトップボックスとしＰＤＡ８１（端末）をテレビのリモコンとするなどのように、サーバと端末を空間的に近くに存在させてもよい。

（第７の実施形態）
＜音声認識システムの構成＞
第７の実施形態による音声認識システムの構成を図１７に示す。この音声認識システムは、図７に示した携帯電話２１に代えて携帯電話１０１を備える。その他の構成は図７に示した音声認識システムと同様である。

図１７に示す携帯電話１０１は、図７に示した携帯電話２１の構成に加えてさらにメモリ１００１を備える。メモリ１００１には、データ入力部２１１により入力された利用者の音声および環境雑音が蓄積される。送信部２１２は、メモリ１００１に蓄積されている利用者の音声と環境雑音とをサーバ２２へ送信する。

＜音声認識システムの動作＞
次に、以上のように構成された音声認識システムの動作について図１８を参照しつつ説明する。

静かな環境での利用者の音声を利用して適応モデルを作成する場合、雑音が重畳した音声を利用して適応モデルを作成する場合と比較して高精度の適応モデルが作成できる。携帯電話１０１を持ち歩いた場合、多くの時間帯において自動車の騒音・周囲の人の話し声・オフィス内でのファンの音などの雑音が存在する。しかし、公園などで休憩をしている間など、ある時間帯において周囲雑音がきわめて少ない場合がある。そのタイミングで携帯電話１０１の利用者は音声発声ボタンを押しながら発声する。これにより、静かな環境での利用者の音声がメモリ１００１に蓄積される（ＳＴ１１０１）。

利用者が音声認識機能を利用しようとすると、携帯電話１０１は、音響モデルをダウンロードするか否かの判断を利用者に促す（ＳＴ１１０２）。音響モデルをダウンロードすべきであると利用者が判断したとき（ｙｅｓ）、利用者は音声発声ボタンを押さずに環境雑音をマイクにより入力する。マイクにより入力された環境雑音はメモリ１００１に蓄積される（ＳＴ１１０３）。

次に送信部２１２は、メモリ１００１に蓄積された利用者の音声および環境雑音をサーバ２２へ送信する（ＳＴ１１０４）。サーバ２２は、第３の実施形態におけるのと同様にして、当該利用者の音声および環境雑音に最も適合した音響モデルを携帯電話１０１に送信する。この音響モデルは携帯電話１０１の受信部２１３によって受信され、メモリ２１４に蓄積される。そして音声認識部２１５は、メモリ２１４に蓄積されたこの音響モデルを用いて音声認識を行う。

＜効果＞
第７の実施形態による音声認識システムでは、携帯電話１０１にメモリ１００１を設けたため、雑音のより少ない環境での利用者の音声により話者適応を行うことができる。したがって話者適応を高精度に行うことができる。

また、利用者の音声を一度蓄積すると、利用者は適応モデルを作成するたびに発声する必要がないため、利用者の負担が少ない。

＜変形例＞
なお、静かな環境での音声を複数の人についてメモリ１００１に蓄積してもよい。この場合、複数の人の各々について、静かな環境での音声と名前とを対応づけてメモリ１００１に蓄積する。適応モデルを獲得するときには、名前を指定して利用者の音声データを決定して適応モデルを作成する。これにより、テレビの音声リモコンなどのように複数の人が利用する機器に対しても高精度の適応モデルを利用することができる。

また、ここではステップＳＴ１１０４において、メモリ１００１に蓄積されている利用者の音声と環境雑音とをサーバ２２へ送信したが、メモリ１００１に蓄積されている静かな環境での利用者の音声に環境雑音を付加したデータをサーバ２２へ送信してもよい。

また、サーバ２２をテレビまたはセットトップボックスとし携帯電話１０１（端末）をテレビのリモコンとするなどのように、サーバと端末を空間的に近くに存在させてもよい。

この発明の第１の実施形態による音声認識システムの全体構成を示すブロック図である。図１に示した音声認識システムの動作の流れを示すフローチャートである。図１に示したサーバのデータ蓄積部に蓄えられる音響モデルの一例を示す図である。この発明の第２の実施形態による音声認識システムの全体構成を示すブロック図である。図４に示した音声認識システムの動作の流れを示すフローチャートである。ＰＤＡのメモリに蓄積された音響モデルおよびＧＭＭの一例を示す図である。この発明の第３の実施形態による音声認識システムの全体構成を示すブロック図である。図７に示した音声認識システムの動作の流れを示すフローチャートである。環境雑音適応アルゴリズムを利用した適用モデルの作成処理の流れを示す図である。この発明の第４の実施形態による音声認識システムの全体構成を示すブロック図である。図１０に示した音声認識システムの動作の流れを示すフローチャートである。タッチパネル上に表示される画面の一例を示す図である。この発明の第５の実施形態による音声認識システムにおけるＰＤＡの構成を示すブロック図である。この発明の第５の実施形態による音声認識システムの動作を説明するためのフローチャートである。この発明の第６の実施形態による音声認識システムにおける携帯電話の構成を示すブロック図である。この発明の第６の実施形態による音声認識システムの動作を説明するためのフローチャートである。この発明の第７の実施形態による音声認識システムの全体構成を示すブロック図である。図１７に示した音声認識システムの動作を説明するためのフローチャートである。

符号の説明

１１ＰＤＡ（端末装置）
２１携帯電話（端末装置）
３１携帯端末（端末装置）
１１２，２１２，３１２送信部（送信手段）
１１３，２１３，３１３受信部（受信手段）
１１４，２１４，３１４メモリ（第１の蓄積手段）
１１５，２１５，３１５音声認識部（音声認識手段）
３１６適応モデル作成部（作成手段）
６０２，８０１判断部（判断手段）
１１０１メモリ（第２の蓄積手段）
１２，２２，３２サーバ（サーバ装置）
１２１，２２１，３２１送信部（送信手段）
１２２，２２２，３２２受信部（受信手段）
１２３適応モデル選択部（選択手段）
２２３適応モデル作成部（作成手段）
１２４，２２４，３２４データ蓄積部（蓄積手段）
３２３選択部（選択手段）。

Claims

利用者が発声した音声と環境雑音とをサーバ装置に送信する送信手段と、
前記サーバ装置から送信される、前記利用者の音声と前記環境雑音とに基づいて、前記利用者の将来の音声変動および将来の環境雑音変動のうち少なくとも１つを予測して準備された、前記利用者が将来利用するであろう音響モデルを受信する受信手段と、
前記受信手段によって受信された音響モデルを蓄積する蓄積手段と、
前記蓄積手段に蓄積された音響モデルを用いて音声認識を行う音声認識手段とを備える、
ことを特徴とする端末装置。
利用者が発声した音声と環境雑音とをサーバ装置に送信する送信手段と、
前記サーバ装置から送信される、前記利用者の音声と前記環境雑音とに基づいて、前記利用者の将来の音声変動および将来の環境雑音変動のうち少なくとも１つを予測して準備された、前記利用者が将来利用するであろう音響モデルを作成するための作成用データを受信する受信手段と、
前記受信手段によって受信された作成用データを蓄積する蓄積手段と、
前記利用者の音声と前記環境雑音とに適応した音響モデルを前記蓄積手段に蓄積された作成用データを用いて作成する作成手段と、
前記作成手段によって作成された音響モデルを用いて音声認識を行う音声認識手段とを備える、
ことを特徴とする端末装置。
各々が対応する話者および環境に適応した複数の音響モデルを蓄積する蓄積手段と、
端末装置から送信される、利用者が発声した音声と環境雑音とを受信する受信手段と、
前記受信手段によって受信された前記利用者の音声と前記環境雑音とに基づいて、前記利用者の将来の音声変動および将来の環境雑音変動のうち少なくとも１つを予測して、前記利用者が将来利用するであろう音響モデルを前記蓄積手段から選択する選択手段と、
前記選択手段によって選択された音響モデルを前記端末装置に送信する送信手段とを備える、
ことを特徴とするサーバ装置。
各々が対応する話者および環境に適応した複数の音響モデルを蓄積する蓄積手段と、
端末装置から送信される、利用者が発声した音声と環境雑音とを受信する受信手段と、
前記受信手段によって受信された前記利用者の音声および前記環境雑音と前記蓄積手段に蓄積された複数の音響モデルとに基づいて、前記利用者の将来の音声変動および将来の環境雑音変動のうち少なくとも１つを予測して、前記利用者が将来利用するであろう音響モデルを作成する作成手段と、
前記作成手段によって作成された音響モデルを前記端末装置に送信する送信手段とを備える、
ことを特徴とするサーバ装置。
各々が対応する話者および環境に適応した複数の音響モデルを蓄積する蓄積手段と、
端末装置から送信される、利用者が発声した音声と環境雑音とを受信する受信手段と、
前記受信手段によって受信された前記利用者の音声と前記環境雑音とに基づいて、前記利用者の将来の音声変動および将来の環境雑音変動のうち少なくとも１つを予測して、前記利用者が将来利用するであろう音響モデルを作成するための作成用データを前記蓄積手段から選択する選択手段と、
前記選択手段によって選択された作成用データを前記端末装置に送信する送信手段とを備える、
ことを特徴とするサーバ装置。
各々が対応する話者および環境に適応した複数の音響モデルを蓄積する蓄積手段と、
端末装置から送信される、利用者が発声した音声と環境雑音とを受信する受信手段と、
前記受信手段によって受信された前記利用者の音声および前記環境雑音と前記蓄積手段に蓄積された複数の音響モデルとに基づいて、前記利用者の将来の音声変動および将来の環境雑音変動のうち少なくとも１つを予測して、前記利用者が将来利用するであろう音響モデルを作成するための作成用データを作成する作成手段と、
前記作成手段によって作成された作成用データを前記端末装置に送信する送信手段とを備える、
ことを特徴とするサーバ装置。
請求項１において、
前記受信手段は、
スケジュールデータベースおよび現在の時刻に基づいて、前記音響モデルを前記サーバ装置から受信するタイミングを制御する、
ことを特徴とする端末装置。
請求項２において、
前記受信手段は、
スケジュールデータベースおよび現在の時刻に基づいて、前記作成用データを前記サーバ装置から受信するタイミングを制御する、
ことを特徴とする端末装置。
請求項３において、
前記送信手段は、
スケジュールデータベースおよび現在の時刻に基づいて、前記選択手段によって選択された音響モデルを前記端末装置に送信するタイミングを制御する、
ことを特徴とするサーバ装置。
請求項４において、
前記送信手段は、
スケジュールデータベースおよび現在の時刻に基づいて、前記作成手段によって作成された音響モデルを前記端末装置に送信するタイミングを制御する、
ことを特徴とするサーバ装置。
請求項５において、
前記送信手段は、
スケジュールデータベースおよび現在の時刻に基づいて、前記選択手段によって選択された作成用データを前記端末装置に送信するタイミングを制御する、
ことを特徴とするサーバ装置。
請求項６において、
前記送信手段は、
スケジュールデータベースおよび現在の時刻に基づいて、前記作成手段によって作成された作成用データを前記端末装置に送信するタイミングを制御する、
ことを特徴とするサーバ装置。
請求項１において、
前記受信手段は、
スケジュールデータベースおよび前記利用者の現在の位置に基づいて、前記音響モデルを前記サーバ装置から受信するタイミングを制御する、
ことを特徴とする端末装置。
請求項２において、
前記受信手段は、
スケジュールデータベースおよび前記利用者の現在の位置に基づいて、前記作成用データを前記サーバ装置から受信するタイミングを制御する、
ことを特徴とする端末装置。
請求項３において、
前記送信手段は、
スケジュールデータベースおよび前記利用者の現在の位置に基づいて、前記選択手段によって選択された音響モデルを前記端末装置に送信するタイミングを制御する、
ことを特徴とするサーバ装置。
請求項４において、
前記送信手段は、
スケジュールデータベースおよび前記利用者の現在の位置に基づいて、前記作成手段によって作成された音響モデルを前記端末装置に送信するタイミングを制御する、
ことを特徴とするサーバ装置。
請求項５において、
前記送信手段は、
スケジュールデータベースおよび前記利用者の現在の位置に基づいて、前記選択手段によって選択された作成用データを前記端末装置に送信するタイミングを制御する、
ことを特徴とするサーバ装置。
請求項６において、
前記送信手段は、
スケジュールデータベースおよび前記利用者の現在の位置に基づいて、前記作成手段によって作成された作成用データを前記端末装置に送信するタイミングを制御する、
ことを特徴とするサーバ装置。
請求項１または請求項２において、
前記端末装置は、
さまざまな環境の中から所望の環境を選択するように利用者に促し、
選択された環境における特徴的な音を再生する、
ことを特徴とする端末装置。
請求項３から６のいずれか１つにおいて、
前記蓄積手段に蓄積される複数の音響モデルの各々は、対応する話者の声の調子にも適応している、
ことを特徴とするサーバ装置。
請求項３から６のいずれか１つにおいて、
前記蓄積手段に蓄積される複数の音響モデルの各々は、当該音響モデルを作成する際に話者が発声した音声を得るための入力手段の特性にも適応している、
ことを特徴とするサーバ装置。
通信路を介して互いにデータのやりとりを行う端末装置とサーバ装置とを備えたシステムであって、
前記端末装置は、
利用者が発声した音声と環境雑音とを前記サーバ装置に送信する第１の送信手段と、
前記サーバ装置から送信される、前記利用者の音声と前記環境雑音とに基づいて、前記利用者の将来の音声変動および将来の環境雑音変動のうち少なくとも１つを予測して準備された、前記利用者が将来利用するであろう音響モデルを受信する第１の受信手段と、
前記第１の受信手段によって受信された音響モデルを蓄積する第１の蓄積手段と、
前記第１の蓄積手段に蓄積された音響モデルを用いて音声認識を行う音声認識手段とを備え、
前記サーバ装置は、
各々が対応する話者および環境に適応した複数の音響モデルを蓄積する第２の蓄積手段と、
前記端末装置から送信される、利用者が発声した音声と環境雑音とを受信する第２の受信手段と、
前記第２の受信手段によって受信された前記利用者の音声と前記環境雑音とに基づいて、前記利用者の将来の音声変動および将来の環境雑音変動のうち少なくとも１つを予測して、前記利用者が将来利用するであろう音響モデルを前記第２の蓄積手段から選択する選択手段と、
前記選択手段によって選択された音響モデルを前記端末装置に送信する第２の送信手段とを備える、
ことを特徴とする音声認識システム。
通信路を介して互いにデータのやりとりを行う端末装置とサーバ装置とを備えたシステムであって、
前記端末装置は、
利用者が発声した音声と環境雑音とを前記サーバ装置に送信する第１の送信手段と、
前記サーバ装置から送信される、前記利用者の音声と前記環境雑音とに基づいて、前記利用者の将来の音声変動および将来の環境雑音変動のうち少なくとも１つを予測して準備された、前記利用者が将来利用するであろう音響モデルを受信する第１の受信手段と、
前記第１の受信手段によって受信された音響モデルを蓄積する第１の蓄積手段と、
前記第１の蓄積手段に蓄積された音響モデルを用いて音声認識を行う音声認識手段とを備え、
前記サーバ装置は、
各々が対応する話者および環境に適応した複数の音響モデルを蓄積する第２の蓄積手段と、
前記端末装置から送信される、利用者が発声した音声と環境雑音とを受信する第２の受信手段と、
前記第２の受信手段によって受信された前記利用者の音声および前記環境雑音と前記第２の蓄積手段に蓄積された複数の音響モデルとに基づいて、前記利用者の将来の音声変動および将来の環境雑音変動のうち少なくとも１つを予測して、前記利用者が将来利用するであろう音響モデルを作成する作成手段と、
前記作成手段によって作成された音響モデルを前記端末装置に送信する第２の送信手段とを備える、
ことを特徴とする音声認識システム。
通信路を介して互いにデータのやりとりを行う端末装置とサーバ装置とを備えたシステムであって、
前記端末装置は、
利用者が発声した音声と環境雑音とを前記サーバ装置に送信する第１の送信手段と、
前記サーバ装置から送信される、前記利用者の音声と前記環境雑音とに基づいて、前記利用者の将来の音声変動および将来の環境雑音変動のうち少なくとも１つを予測して準備された、前記利用者が将来利用するであろう音響モデルを作成するための作成用データを受信する第１の受信手段と、
前記第１の受信手段によって受信された作成用データを蓄積する第１の蓄積手段と、
前記利用者の音声と前記環境雑音とに適応した音響モデルを前記第１の蓄積手段に蓄積された作成用データを用いて作成する作成手段と、
前記作成手段によって作成された音響モデルを用いて音声認識を行う音声認識手段とを備え、
前記サーバ装置は、
各々が対応する話者および環境に適応した複数の音響モデルを蓄積する第２の蓄積手段と、
前記端末装置から送信される、利用者が発声した音声と環境雑音とを受信する第２の受信手段と、
前記第２の受信手段によって受信された前記利用者の音声と前記環境雑音とに基づいて、前記利用者の将来の音声変動および将来の環境雑音変動のうち少なくとも１つを予測して、前記利用者が将来利用するであろう音響モデルを作成するための作成用データを前記第２の蓄積手段から選択する選択手段と、
前記選択手段によって選択された作成用データを前記端末装置に送信する第２の送信手段とを備える、
ことを特徴とする音声認識システム。
通信路を介して互いにデータのやりとりを行う端末装置とサーバ装置とを備えたシステムであって、
前記端末装置は、
利用者が発声した音声と環境雑音とを前記サーバ装置に送信する第１の送信手段と、
前記サーバ装置から送信される、前記利用者の音声と前記環境雑音とに基づいて、前記利用者の将来の音声変動および将来の環境雑音変動のうち少なくとも１つを予測して準備された、前記利用者が将来利用するであろう音響モデルを作成するための作成用データを受信する第１の受信手段と、
前記第１の受信手段によって受信された作成用データを蓄積する第１の蓄積手段と、
前記利用者の音声と前記環境雑音とに適応した音響モデルを前記第１の蓄積手段に蓄積された作成用データを用いて作成する作成手段と、
前記作成手段によって作成された音響モデルを用いて音声認識を行う音声認識手段とを備え、
前記サーバ装置は、
各々が対応する話者および環境に適応した複数の音響モデルを蓄積する第２の蓄積手段と、
前記端末装置から送信される、利用者が発声した音声と環境雑音とを受信する第２の受信手段と、
前記第２の受信手段によって受信された前記利用者の音声および前記環境雑音と前記第２の蓄積手段に蓄積された複数の音響モデルとに基づいて、前記利用者の将来の音声変動および将来の環境雑音変動のうち少なくとも１つを予測して、前記利用者が将来利用するであろう音響モデルを作成するための作成用データを作成する作成手段と、
前記作成手段によって作成された作成用データを前記端末装置に送信する第２の送信手段とを備える、
ことを特徴とする音声認識システム。
通信路を介して互いにデータのやりとりを行う端末装置とサーバ装置とを用いて行われる音声認識方法であって、
前記端末装置では、
利用者が発声した音声と環境雑音とを前記サーバ装置に送信し、
前記サーバ装置から送信される、前記利用者の音声と前記環境雑音とに基づいて、前記利用者の将来の音声変動および将来の環境雑音変動のうち少なくとも１つを予測して準備された、前記利用者が将来利用するであろう音響モデルを受信し、
受信した音響モデルを第１の蓄積手段に蓄積し、
前記第１の蓄積手段に蓄積された音響モデルを用いて音声認識を行い、
前記サーバ装置では、
各々が対応する話者および環境に適応した複数の音響モデルを第２の蓄積手段に蓄積し、
前記端末装置から送信される、利用者が発声した音声と環境雑音とを受信し、
受信した前記利用者の音声と前記環境雑音とに基づいて、前記利用者の将来の音声変動および将来の環境雑音変動のうち少なくとも１つを予測して、前記利用者が将来利用するであろう音響モデルを前記第２の蓄積手段から選択し、
選択した音響モデルを前記端末装置に送信する、
ことを特徴とする音声認識方法。
通信路を介して互いにデータのやりとりを行う端末装置とサーバ装置とを用いて行われる音声認識方法であって、
前記端末装置では、
利用者が発声した音声と環境雑音とを前記サーバ装置に送信し、
前記サーバ装置から送信される、前記利用者の音声と前記環境雑音とに基づいて、前記利用者の将来の音声変動および将来の環境雑音変動のうち少なくとも１つを予測して準備された、前記利用者が将来利用するであろう音響モデルを受信し、
受信した音響モデルを第１の蓄積手段に蓄積し、
前記第１の蓄積手段に蓄積された音響モデルを用いて音声認識を行い、
前記サーバ装置では、
各々が対応する話者および環境に適応した複数の音響モデルを第２の蓄積手段に蓄積し、
前記端末装置から送信される、利用者が発声した音声と環境雑音とを受信し、
受信した前記利用者の音声および前記環境雑音と前記第２の蓄積手段に蓄積された複数の音響モデルとに基づいて、前記利用者の将来の音声変動および将来の環境雑音変動のうち少なくとも１つを予測して、前記利用者が将来利用するであろう音響モデルを作成し、
作成した音響モデルを前記端末装置に送信する、
ことを特徴とする音声認識方法。
通信路を介して互いにデータのやりとりを行う端末装置とサーバ装置とを用いて行われる音声認識方法であって、
前記端末装置では、
利用者が発声した音声と環境雑音とを前記サーバ装置に送信し、
前記サーバ装置から送信される、前記利用者の音声と前記環境雑音とに基づいて、前記利用者の将来の音声変動および将来の環境雑音変動のうち少なくとも１つを予測して準備された、前記利用者が将来利用するであろう音響モデルを作成するための作成用データを受信し、
受信した作成用データを第１の蓄積手段に蓄積し、
前記利用者の音声と前記環境雑音とに適応した音響モデルを前記第１の蓄積手段に蓄積された作成用データを用いて作成し、
作成した音響モデルを用いて音声認識を行い、
前記サーバ装置では、
各々が対応する話者および環境に適応した複数の音響モデルを第２の蓄積手段に蓄積し、
前記端末装置から送信される、利用者が発声した音声と環境雑音とを受信し、
受信した前記利用者の音声と前記環境雑音とに基づいて、前記利用者の将来の音声変動および将来の環境雑音変動のうち少なくとも１つを予測して、前記利用者が将来利用するであろう音響モデルを作成するための作成用データを前記第２の蓄積手段から選択し、
選択した作成用データを前記端末装置に送信する、
ことを特徴とする音声認識方法。
通信路を介して互いにデータのやりとりを行う端末装置とサーバ装置とを用いて行われる音声認識方法であって、
前記端末装置では、
利用者が発声した音声と環境雑音とを前記サーバ装置に送信し、
前記サーバ装置から送信される、前記利用者の音声と前記環境雑音とに基づいて、前記利用者の将来の音声変動および将来の環境雑音変動のうち少なくとも１つを予測して準備された、前記利用者が将来利用するであろう音響モデルを作成するための作成用データを受信し、
受信した作成用データを第１の蓄積手段に蓄積し、
前記利用者の音声と前記環境雑音とに適応した音響モデルを前記第１の蓄積手段に蓄積された作成用データを用いて作成し、
作成した音響モデルを用いて音声認識を行い、
前記サーバ装置では、
各々が対応する話者および環境に適応した複数の音響モデルを第２の蓄積手段に蓄積し、
前記端末装置から送信される、利用者が発声した音声と環境雑音とを受信し、
受信した前記利用者の音声および前記環境雑音と前記第２の蓄積手段に蓄積された複数の音響モデルとに基づいて、前記利用者の将来の音声変動および将来の環境雑音変動のうち少なくとも１つを予測して、前記利用者が将来利用するであろう音響モデルを作成するための作成用データを作成し、
作成した作成用データを前記端末装置に送信する、
ことを特徴とする音声認識方法。
請求項２６または２７において、
前記端末装置では、
スケジュールデータベースおよび現在の時刻に基づいて、前記音響モデルを受信するタイミングを制御する、
ことを特徴とする音声認識方法。
請求項２８または２９において、
前記端末装置では、
スケジュールデータベースおよび現在の時刻に基づいて、前記作成用データを受信するタイミングを制御する、
ことを特徴とする音声認識方法。
請求項２６において、
前記サーバ装置では、
スケジュールデータベースおよび現在の時刻に基づいて、前記選択した音響モデルを前記端末装置に送信するタイミングを制御する、
ことを特徴とする音声認識方法。
請求項２７において、
前記サーバ装置では、
スケジュールデータベースおよび現在の時刻に基づいて、前記作成した音響モデルを前記端末装置に送信するタイミングを制御する、
ことを特徴とする音声認識方法。
請求項２８において、
前記サーバ装置では、
スケジュールデータベースおよび現在の時刻に基づいて、前記選択した作成用データを前記端末装置に送信するタイミングを制御する、
ことを特徴とする音声認識方法。
請求項２９において、
前記サーバ装置では、
スケジュールデータベースおよび現在の時刻に基づいて、前記作成した作成用データを前記端末装置に送信するタイミングを制御する、
ことを特徴とする音声認識方法。
請求項２６または２７において、
前記端末装置では、
スケジュールデータベースおよび前記利用者の現在の位置に基づいて、前記音響モデルを受信するタイミングを制御する、
ことを特徴とする音声認識方法。
請求項２８または２９において、
前記端末装置では、
スケジュールデータベースおよび前記利用者の現在の位置に基づいて、前記作成用データを受信するタイミングを制御する、
ことを特徴とする音声認識方法。
請求項２６において、
前記サーバ装置では、
スケジュールデータベースおよび前記利用者の現在の位置に基づいて、前記選択した音響モデルを前記端末装置に送信するタイミングを制御する、
ことを特徴とする音声認識方法。
請求項２７において、
前記サーバ装置では、
スケジュールデータベースおよび前記利用者の現在の位置に基づいて、前記作成した音響モデルを前記端末装置に送信するタイミングを制御する、
ことを特徴とする音声認識方法。
請求項２８において、
前記サーバ装置では、
スケジュールデータベースおよび前記利用者の現在の位置に基づいて、前記選択した作成用データを前記端末装置に送信するタイミングを制御する、
ことを特徴とする音声認識方法。
請求項２９において、
前記サーバ装置では、
スケジュールデータベースおよび前記利用者の現在の位置に基づいて、前記作成した作成用データを前記端末装置に送信するタイミングを制御する、
ことを特徴とする音声認識方法。
請求項２６から２９のいずれか１つにおいて、
前記端末装置では、
さまざまな環境の中から所望の環境を選択するように利用者に促し、
選択された環境における特徴的な音を再生する、
ことを特徴とする音声認識方法。
請求項２６から２９のいずれか１つにおいて、
前記第２の蓄積手段に蓄積される複数の音響モデルの各々は、対応する話者の声の調子にも適応している、
ことを特徴とする音声認識方法。
請求項２６から２９のいずれか１つにおいて、
前記第２の蓄積手段に蓄積される複数の音響モデルの各々は、当該音響モデルを作成する際に話者が発声した音声を得るための入力手段の特性にも適応している、
ことを特徴とする音声認識方法。