JP2011064913A

JP2011064913A - 電話システム、端末装置、音声モデル更新装置、および音声モデル更新方法

Info

Publication number: JP2011064913A
Application number: JP2009214928A
Authority: JP
Inventors: Shi Cho; 志鵬張; Chunsen Bun; チュンセンブン
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2009-09-16
Filing date: 2009-09-16
Publication date: 2011-03-31

Abstract

【課題】ユーザに負担をかけなくても、ユーザに特化して音声モデルを更新する。
【解決手段】電話システム１では、複数の端末装置１０間の電話音声のデータが音声モデル更新装置３０に送信され、音声モデル更新装置３０は当該電話音声データを用いて音声モデルを更新し、当該更新後の音声モデルが端末装置１０に送信される。つまり、音声モデルの更新に使われる学習データはユーザの電話音声であり、この電話音声はユーザの通常の電話通信によるものである。言い換えれば、音声モデル更新装置３０は音声モデルの更新のためにわざわざユーザに発話をさせる必要がなく、ユーザの通常の端末装置１０の使用態様からそのユーザ用の音声モデルを更新するための学習データを得ることができる。以上により、ユーザに負担をかけなくても、ユーザの電話音声を用いてユーザに特化した音声モデル更新を行うことができる。
【選択図】図５

Description

本発明は、電話システム、端末装置、音声モデル更新装置、および音声モデル更新方法に関するものである。

例えば非特許文献１に記載されているように、ユーザに特化して音声モデルの更新を行うという、いわゆる話者適応化の技術が知られている。

確率モデルによる音声認識のための話者適応化技術、篠田浩一、電子情報通信学会論文誌、VOL.J87-D2、No.2、pp.371-386、２００４年２月

上記のような話者適応化の技術では、音声モデルのパラメータをそれぞれの話者の特性に合わせて更新する。その方法として、音声認識装置を用いて音声認識を行う前に、ユーザに所定の文章を読み上げさせ、当該読み上げられた音声を利用し、音声モデルに属する音素のモデルパラメータを更新する。読み上げられた文章は既知の内容であるため、当該既知の文章における仮名列と当該読み上げ音声における音素列とをマッチングさせることにより、音声モデルの更新を行うことができる。

例えば、読み上げる文章が“一日中、テニスをした”である場合に、対応する仮名列と音素列は以下となり、各仮名と各音素とをマッチングさせることにより、音声モデルの更新を行う。
仮名列：”いちにちじゅうテニスをした”
音素列：”i ch i n i ch i j y u u t e n i s u o s i t a”

上記の例から分かるように、各文章に出現する音素の種類や頻度は読み上げる文章の内容によって変わる。したがって、音声モデルに属する全ての音素に対してモデルパラメータを更新するためには、大量の学習文章が必要となり、ユーザは全ての学習文章をいちいち読み上げる必要がある。更に、実際の音声認識にて利用される音声モデル中の音素は音素間接続を考慮したtri-phoneであり、その数は数千個以上にも及ぶ莫大な数となる。このため、音声モデルの全ての音素を更新できるほどの学習量を確保するためには、特にtri-phoneを考慮した場合には、ユーザに莫大な量の文章を発話させる必要がある。これはユーザにとって大きな負担となる。

そこで、本発明は上記に鑑みてなされたもので、ユーザに負担をかけなくても、ユーザに特化して音声モデルを更新することが可能な電話システム、端末装置、音声モデル更新装置、および音声モデル更新方法を提供することを目的とする。

上記課題を解決するために、本発明の電話システムは、電話通信を行う複数の端末装置、および音声モデルを更新する音声モデル更新装置を含む電話システムであって、前記音声モデル更新装置は、前記電話通信における電話音声を前記端末装置より受信する音声受信手段と、前記音声モデルを格納するモデル格納手段と、前記モデル格納手段に格納された前記音声モデルに基づき、前記音声受信手段が受信した前記電話音声に対して音声認識処理を行う音声認識手段と、前記音声認識手段の当該音声認識処理結果に基づき、前記モデル格納手段に格納された前記音声モデルを更新するモデル更新手段と、前記モデル更新手段による当該更新後の音声モデルを前記端末装置に送信するモデル送信手段と、を備え、前記端末装置は、前記電話音声を前記音声モデル更新装置に送信する音声送信手段と、前記更新後の音声モデルを前記音声モデル更新装置より受信するモデル受信手段と、ことを特徴とする。

また、本発明の電話システムは、電話通信を行う複数の端末装置、および音声モデルを更新する音声モデル更新装置を含む電話システムであって、前記音声モデル更新装置は、前記端末装置からの電話音声を利用して前記音声モデルを更新する、ことを特徴とする。

また、本発明の音声モデル更新装置は、電話通信を行う複数の端末装置、および音声モデルを更新する音声モデル更新装置を含む電話システムにおける、前記音声モデル更新装置であって、前記電話通信における電話音声を前記端末装置より受信する音声受信手段と、前記音声モデルを格納するモデル格納手段と、前記モデル格納手段に格納された前記音声モデルに基づき、前記音声受信手段が受信した前記電話音声に対して音声認識処理を行う音声認識手段と、前記音声認識手段の当該音声認識処理結果に基づき、前記モデル格納手段に格納された前記音声モデルを更新するモデル更新手段と、前記モデル更新手段による当該更新後の音声モデルを前記端末装置に送信するモデル送信手段と、を備えることを特徴とする。

また、本発明の端末装置は、電話通信を行う複数の端末装置、および音声モデルを更新する音声モデル更新装置を含む電話システムにおける、前記端末装置であって、電話音声を前記音声モデル更新装置に送信する音声送信手段と、更新後の音声モデルを前記音声モデル更新装置より受信するモデル受信手段と、を備えることを特徴とする。

また、本発明の音声モデル更新方法は、電話通信を行う複数の端末装置、および音声モデルを更新する音声モデル更新装置を含む電話システムにおける、音声モデル更新方法であって、前記端末装置の音声送信手段が、前記電話通信における電話音声を前記音声モデル更新装置に送信する音声送信ステップと、前記音声モデル更新装置の音声受信手段が、前記電話音声を前記端末装置より受信する音声受信ステップと、前記音声モデル更新装置の音声認識手段が、前記音声モデル更新装置のモデル格納手段に格納された前記音声モデルに基づき、前記音声受信手段が受信した前記電話音声に対して音声認識処理を行う音声認識ステップと、前記音声モデル更新装置のモデル更新手段が、前記音声認識手段の当該音声認識処理結果に基づき、前記モデル格納手段に格納された前記音声モデルを更新するモデル更新ステップと、前記音声モデル更新装置のモデル送信手段が、前記モデル更新手段による当該更新後の音声モデルを前記端末装置に送信するモデル送信ステップと、前記端末装置のモデル受信手段が、前記更新後の音声モデルを前記音声モデル更新装置より受信するモデル受信ステップと、を備えることを特徴とする。

また、本発明の音声モデル更新方法は、電話通信を行う複数の端末装置、および音声モデルを更新する音声モデル更新装置を含む電話システムにおける、音声モデル更新方法であって、前記音声モデル更新装置が、前記端末装置からの電話音声を利用して前記音声モデルを更新する、ことを特徴とする。

このような本発明の電話システム、端末装置、音声モデル更新装置、および音声モデル更新方法によれば、複数の端末装置間の電話音声のデータが音声モデル更新装置に送信され、音声モデル更新装置は当該電話音声データを用いて音声モデルを更新し、当該更新後の音声モデルが端末装置に送信される。つまり、音声モデルの更新に使われる学習データはユーザの電話音声であり、この電話音声はユーザの通常の電話通信によるものである。言い換えれば、音声モデル更新装置は音声モデルの更新のためにわざわざユーザに発話をさせる必要がなく、ユーザの通常の端末装置の使用態様からそのユーザ用の音声モデルを更新するための学習データを得ることができる。以上により、ユーザに負担をかけなくても、ユーザの電話音声を用いてユーザに特化した音声モデル更新を行うことができる。

また、音声モデルの更新処理は、端末装置側ではなく、音声モデル更新装置側で行われる。このため、音声モデル更新処理の精度を高めることができる。また、端末装置側からみれば、音声モデル更新処理のような負荷の大きい処理に対する処理負担を減らしながらも、高精度で更新された音声モデルを得ることができる。

また、本発明の電話システムにおいて、前記端末装置は、前記電話音声から特徴量を抽出する特徴量抽出手段を更に備え、前記音声送信手段は、前記特徴量抽出手段が抽出した前記特徴量を前記音声モデル更新装置に送信し、前記音声受信手段は、前記特徴量を前記電話音声として前記端末装置より受信し、前記音声認識手段は、前記特徴量に基づき、前記電話音声に対した前記音声認識処理を行う、ことが好ましい。

また、本発明の音声モデル更新装置において、前記音声受信手段は、前記電話音声から抽出された特徴量を前記電話音声として前記端末装置より受信し、前記音声認識手段は、前記特徴量に基づき、前記電話音声に対した前記音声認識処理を行う、ことが好ましい。

また、本発明の端末装置において、前記電話音声から特徴量を抽出する特徴量抽出手段を更に備え、前記音声送信手段は、前記特徴量抽出手段が抽出した前記特徴量を前記音声モデル更新装置に送信する、ことが好ましい。

また、本発明の音声モデル更新方法において、前記端末装置の特徴量抽出手段が、前記電話音声から特徴量を抽出する特徴量抽出ステップを更に備え、前記音声送信ステップでは、前記音声送信手段が、前記特徴量抽出手段が抽出した前記特徴量を前記音声モデル更新装置に送信し、前記音声受信ステップでは、前記音声受信手段が、前記特徴量を前記電話音声として前記端末装置より受信し、前記音声認識ステップでは、前記音声認識手段が、前記特徴量に基づき、前記電話音声に対した前記音声認識処理を行う、ことが好ましい。

このように特徴量の抽出処理を端末装置側で行っても良い。これにより音声データをそのまま送受信する場合に比べて送受信されるデータ量が低減される。

また、本発明の電話システムにおいて、前記端末装置は、前記電話通信の間、前記電話音声を格納する音声格納手段を更に備え、前記特徴量抽出手段は、前記電話通信の終了後に、前記音声格納手段に格納された前記電話音声に対して当該特徴量抽出処理を行う、ことが好ましい。

このように端末装置による電話通信処理と特徴量抽出処理とが異なるタイミングで行われても良い。これにより端末装置に両処理の処理負荷が集中することを防止できる。

また、本発明の電話システムにおいて、前記特徴量抽出手段は、前記電話通信とともに、当該特徴量抽出処理を行う、ことが好ましい。

このように端末装置による電話通信処理と特徴量抽出処理とが同時にまたはある程度の時間差（例えば２〜３秒）を置いて行われても良い。これにより電話音声を格納するための別途の記憶手段を設ける必要がなくなる。または例えば２〜３秒の音声データを一時記憶するための少量の記憶容量で済む。

また、本発明の電話システムにおいて、前記端末装置は、前記特徴量抽出手段が抽出した前記特徴量に対して圧縮処理を行う特徴量圧縮手段を更に備え、前記音声送信手段は、前記特徴量圧縮手段による当該圧縮処理後の特徴量を前記音声モデル更新装置に送信し、前記音声受信手段は、前記圧縮処理後の特徴量を前記端末装置より受信し、前記音声モデル更新装置は、前記圧縮処理後の特徴量に対して展開処理を行う特徴量展開手段を更に備える、ことが好ましい。

また、本発明の音声モデル更新装置において、前記音声受信手段は、圧縮処理後の前記特徴量を前記端末装置より受信し、前記圧縮処理後の特徴量に対して展開処理を行う特徴量展開手段を更に備える、ことが好ましい。

また、本発明の端末装置において、前記特徴量抽出手段が抽出した前記特徴量に対して圧縮処理を行う特徴量圧縮手段を更に備え、前記音声送信手段は、前記特徴量圧縮手段による当該圧縮処理後の特徴量を前記音声モデル更新装置に送信する、ことが好ましい。

また、本発明の音声モデル更新方法において、前記端末装置の特徴量圧縮手段が、前記特徴量抽出手段が抽出した前記特徴量に対して圧縮処理を行う特徴量圧縮ステップを更に備え、前記音声送信ステップでは、前記音声送信手段が、前記特徴量圧縮手段による当該圧縮処理後の特徴量を前記音声モデル更新装置に送信し、前記音声受信ステップでは、前記音声受信手段が、前記圧縮処理後の特徴量を前記端末装置より受信し、前記音声モデル更新装置の特徴量展開手段が、前記圧縮処理後の特徴量に対して展開処理を行う特徴量展開ステップを更に備える、ことが好ましい。

特徴量を圧縮してから送受信することにより、送受信されるデータ量が低減される。

また、本発明の電話システムにおいて、前記音声モデル更新装置は、前記モデル更新手段が更新した前記音声モデルに対して圧縮処理を行うモデル圧縮手段を更に備え、前記モデル送信手段は、前記モデル圧縮手段による当該圧縮処理後の音声モデルを前記端末装置に送信し、前記モデル受信手段は、前記圧縮処理後の音声モデルを前記音声モデル更新装置より受信し、前記端末装置は、前記圧縮処理後の音声モデルに対して展開処理を行うモデル展開手段を更に備える、ことが好ましい。

また、本発明の音声モデル更新装置において、前記モデル更新手段が更新した前記音声モデルに対して圧縮処理を行うモデル圧縮手段を更に備え、前記モデル送信手段は、前記モデル圧縮手段による当該圧縮処理後の音声モデルを前記端末装置に送信する、ことが好ましい。

また、本発明の端末装置において、前記モデル受信手段は、圧縮処理後の音声モデルを前記音声モデル更新装置より受信し、前記圧縮処理後の音声モデルに対して展開処理を行うモデル展開手段を更に備える、ことが好ましい。

また、本発明の音声モデル更新方法において、前記音声モデル更新装置のモデル圧縮手段が、前記モデル更新手段が更新した前記音声モデルに対して圧縮処理を行うモデル圧縮ステップを更に備え、前記モデル送信ステップでは、前記モデル送信手段が、前記モデル圧縮手段による当該圧縮処理後の音声モデルを前記端末装置に送信し、前記モデル受信ステップでは、前記モデル受信手段が、前記圧縮処理後の音声モデルを前記音声モデル更新装置より受信し、前記端末装置のモデル展開手段が、前記圧縮処理後の音声モデルに対して展開処理を行うモデル展開ステップを更に備える、ことが好ましい。

更新後の音声モデルを圧縮してから送受信することにより、送受信されるデータ量が低減される。

また、本発明の電話システムにおいて、前記端末装置は、前記電話音声に対して符号化処理を行う符号化手段を更に備え、前記音声送信手段は、前記符号化手段による当該符号化処理後の電話音声を前記音声モデル更新装置に送信し、前記音声モデル更新装置は、前記符号化処理後の電話音声に対して復号化処理を行う復号化手段と、当該復号化処理後の電話音声から特徴量を計算する特徴量計算手段とを更に備え、前記音声認識手段は、前記特徴量に基づき、前記音声認識処理を行う、ことが好ましい。

また、本発明の音声モデル更新装置において、符号化処理後の電話音声に対して復号化処理を行う復号化手段と、当該復号化処理後の電話音声から特徴量を計算する特徴量計算手段と、を更に備え、前記音声認識手段は、前記特徴量に基づき、前記音声認識処理を行う、ことが好ましい。

また、本発明の端末装置において、前記電話音声に対して符号化処理を行う符号化手段を更に備え、前記音声送信手段は、前記符号化手段による当該符号化処理後の電話音声を前記音声モデル更新装置に送信する、ことが好ましい。

また、本発明の音声モデル更新方法において、前記端末装置の符号化手段が、前記電話音声に対して符号化処理を行う符号化ステップを更に備え、前記音声送信ステップでは、前記音声送信手段が、前記符号化手段による当該符号化処理後の電話音声を前記音声モデル更新装置に送信し、前記音声モデル更新装置の復号化手段が、前記符号化処理後の電話音声に対して復号化処理を行う復号化ステップと、前記音声モデル更新装置の特徴量計算手段が、当該復号化処理後の電話音声から特徴量を計算する特徴量計算ステップとを更に備え、前記音声認識ステップでは、前記音声認識手段が、前記特徴量に基づき、前記音声認識処理を行う、ことが好ましい。

このように特徴量の計算処理（特徴量の抽出処理）を音声モデル更新装置側で行っても良い。これにより、端末装置の処理負担を更に減らすことができる。

本発明によれば、ユーザに負担をかけなくても、ユーザに特化して音声モデルを更新することが可能な電話システム、端末装置、音声モデル更新装置、および音声モデル更新方法を提供することができる。

電話システム１の構成概要図である。端末装置１０および音声モデル更新装置３０のハードウェア構成図である。端末装置１０の機能的構成要素を示すブロック図である。音声モデル更新装置３０の機能的構成要素を示すブロック図である。電話システム１の動作を示すシーケンス図である。本実施形態の他の実施態様における端末装置１０の機能ブロック図である。本実施形態の他の実施態様における音声モデル更新装置３０の機能ブロック図である。本実施形態の更に他の実施態様における端末装置１０の機能ブロック図である。本実施形態の更に他の実施態様における音声モデル更新装置３０の機能ブロック図である。本実施形態の更に他の実施態様において、電話システム１で行われる動作を示すシーケンス図である。

以下、添付図面を参照して本発明にかかる電話システム、端末装置、音声モデル更新装置、および音声モデル更新方法の好適な実施形態を詳細に説明する。なお、図面の説明において同一の要素には同一の符号を付し、重複する説明を省略する。

（電話システム１の全体構成）
まず、本発明の実施形態に係る電話システム１の構成について、図１を参照しながら説明する。図１は、電話システム１の構成概要図である。図１に示すように、電話システム１は、電話通信を行う複数の端末装置１０、複数の端末装置１０間の電話通信を中継する交換機２０、および端末装置１０からの電話音声を利用して音声モデルを更新する音声モデル更新装置３０から構成される。端末装置１０と交換機２０、端末装置１０と音声モデル更新装置３０は通信ネットワーク４０により互いに通信可能に接続されている。なお、図１には端末装置１０として端末装置１０Ａと端末装置１０Ｂが記載されているが、以下の説明において、端末装置１０Ａは発話側のユーザが使用する端末装置であり、端末装置１０Ｂは相手のユーザが使用する端末装置であるとする。端末装置１０は発話側の端末装置１０Ａと相手側の端末装置１０Ｂの総称である。

（端末装置１０の構成）
次に、端末装置１０の構成について詳細に説明する。図２は端末装置１０のハードウェア構成図である。図２に示すように、端末装置１０は、例えば有線または無線の電話機であって、物理的には、ＣＰＵ１１、主記憶装置であるＲＯＭ１２及びＲＡＭ１３、操作ボタンなどの入力デバイス１４、ＬＣＤや有機ＥＬディスプレイ、またはスピーカなどの出力デバイス１５、交換機２０や音声モデル更新装置３０との間でデータの送受信を行う通信モジュール１６、メモリディバイス等の補助記憶装置１７を備えて構成される。後述する端末装置１０の各機能は、ＣＰＵ１１、ＲＯＭ１２、ＲＡＭ１３等のハードウェア上に所定のソフトウェアを読み込ませることにより、ＣＰＵ１１の制御の元で入力デバイス１４、出力デバイス１５、通信モジュール１６を動作させると共に、主記憶装置１２，１３や補助記憶装置１７におけるデータの読み出し及び書き込みを行うことで実現される。

図３は、端末装置１０の機能的構成要素を示すブロック図である。図３に示すように、端末装置１０は、機能的には、コーデック部１１０（特許請求の範囲における「符号化手段」に相当）、音声格納部１２０（特許請求の範囲における「音声格納手段」に相当）、特徴量抽出部１３０（特許請求の範囲における「特徴量抽出手段」に相当）、送信部１４０（特許請求の範囲における「音声送信手段」に相当）、受信部１５０（特許請求の範囲における「モデル受信手段」に相当）、およびモデル保持部１６０を含んで構成されている。

コーデック部１１０は、電話音声に対して符号化処理および復号化処理を行うものである。コーデック部１１０は、自装置のユーザからの入力電話音声に対して例えばＡＭＲ（AdaptiveMulti-Rate）などの符号化処理を行い、当該符号化処理後のデータを送信部１４０に出力する。また、コーデック部１１０は、相手装置から受信部１５０を介して入力された符号化処理後の音声データに対して復号化処理を行う。復号化処理された電話音声は出力装置（図３では図示しないが、例えば図２で示したスピーカ等の出力デバイス）により自装置のユーザが聞ける音声として出力される。

音声格納部１２０は、発話側の端末装置１０Ａと相手側の端末装置１０Ｂ間の電話通信の間、自装置のユーザによる電話音声を入力して格納するものである。音声格納部１２０は、自装置のユーザからの入力電話音声に対して符号化処理を行わないまま格納することが好ましい。

特徴量抽出部１３０は、自装置のユーザからの入力電話音声から特徴量を抽出するものである。特徴量抽出部１３０は、電話通信の終了後に、音声格納部１２０に格納された電話音声に対して当該特徴量抽出処理を行うことが好ましい。または、特徴量抽出部１３０は、電話通信とともに、当該特徴量抽出処理を行っても良い。例えば、電話通信処理と同時に特徴量抽出処理を行っても良く、電話通信処理とある程度の時間差（例えば２〜３秒）を置いて特徴量抽出処理を行っても良い。電話通信処理と同時に特徴量抽出処理を行う場合には、図１に示した音声格納部１２０は不要となる。電話通信処理とある程度の時間差を置いて特徴量抽出処理を行う場合には、音声格納部１２０は当該時間差に相当する音声データを一時保存するためのバッファであれば良い。抽出される特徴量データの種類としては、音声認識で一般的によく利用されている例えばＭＦＣＣ（メル周波数ケプストラム係数）などが挙げられる。特徴量抽出部１３０は、抽出した特徴量データを送信部１４０に出力する。

送信部１４０は、符号化処理後の音声データをコーデック部１１０より入力し、交換機２０に送信するものである。発話側の端末装置１０Ａの送信部１４０により交換機２０に送信された符号化処理後の音声データは、交換機２０の中継により相手側の端末装置１０Ｂに伝達され復号化される。これにより、発話側の端末装置１０Ａと相手側の端末装置１０Ｂとの間の電話通信が成立される。また、送信部１４０は、特徴量抽出部１３０より入力した特徴量データを音声モデル更新装置３０に送信する。

受信部１５０は、相手装置から符号化処理後の音声データを受信し、これをコーデック部１１０に出力することにより、コーデック部１１０に復号化処理をさせるものである。また、受信部１５０は、更新後の音声モデルを音声モデル更新装置３０より受信し、モデル保持部１６０に出力する。

モデル保持部１６０は、更新後の音声モデルを受信部１５０より入力され保持するものである。

なお、図３に図示はしないが、端末装置１０は、交換機２０の中継による相手装置との電話通信を全般的に制御するための制御手段を更に備えても良く、あるいはこの機能を例えば図２で示した通信モジュール１６が行っても良い。また、端末装置１０は自端末のユーザの音声を認識するための音声認識処理を行う手段を更に備えており、この音声認識処理手段はモデル保持部１６０に保持された更新後の音声モデルを用いて当該音声認識処理を行う。また、以上の説明において、発話側の端末装置を端末装置１０Ａ、相手側の端末装置を端末装置１０Ｂとして説明し、更に発話側の端末装置１０Ａを中心にして説明したが、発話側と相手側とが逆になっても良く、端末装置１０Ａと端末装置１０Ｂの構成は基本的には同等である。

（音声モデル更新装置３０の構成）
次に、音声モデル更新装置３０の構成について詳細に説明する。図２は音声モデル更新装置３０のハードウェア構成図である。図２に示すように、音声モデル更新装置３０は、物理的には、ＣＰＵ３１、ＲＯＭ３２及びＲＡＭ３３等の主記憶装置、キーボード及びマウス等の入力デバイス３４、ディスプレイ等の出力デバイス３５、端末装置１０との間でデータの送受信を行うためのネットワークカード等の通信モジュール３６、ハードディスク等の補助記憶装置３７などを含む通常のコンピュータシステムとして構成される。後述する音声モデル更新装置３０の各機能は、ＣＰＵ３１、ＲＯＭ３２、ＲＡＭ３３等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、ＣＰＵ３１の制御の元で入力デバイス３４、出力デバイス３５、通信モジュール３６を動作させると共に、主記憶装置３２，３３や補助記憶装置３７におけるデータの読み出し及び書き込みを行うことで実現される。

図４は、音声モデル更新装置３０の機能的構成要素を示すブロック図である。図４に示すように、音声モデル更新装置３０は、機能的には、音声受信部３１０（特許請求の範囲における「音声受信手段」に相当）、モデル格納部３２０（特許請求の範囲における「モデル格納手段」に相当）、音声認識部３３０（特許請求の範囲における「音声認識手段」に相当）、認識結果保存部３４０、モデル更新部３５０（特許請求の範囲における「モデル更新手段」に相当）、およびモデル送信部３６０（特許請求の範囲における「モデル送信手段」に相当）を含んで構成されている。

音声受信部３１０は、発話側の端末装置１０Ａと相手側の端末装置１０Ｂ間の電話通信の間、音声モデル更新の対象となる端末装置（図１の例では発話側の端末装置１０Ａ）のユーザによる入力電話音声を該端末装置より受信するものである。音声受信部３１０は、電話音声を特徴量データとして受信することが好ましい。音声受信部３１０は、当該受信した特徴量データを音声認識部３３０およびモデル更新部３５０に出力する。また、音声受信部３１０は、電話音声を送信する端末装置の特定情報（例えば電話番号など）を更に受信することが好ましく、この場合には当該特定情報を音声認識部３３０に更に通知することが好ましい。

モデル格納部３２０は、音声受信部３１０により受信された電話音声に対して音声認識部３３０が音声認識処理を行う際に使用する音声モデルを格納するものである。モデル格納部３２０に格納された音声モデルは相応する端末装置の特定情報と関連付けられて格納されていることが好ましい。つまり、端末装置１０Ａ用の音声モデルは端末装置１０Ａの特定情報と結び付けられて格納される。

音声認識部３３０は、音声受信部３１０より入力した電話音声（特徴量データ）に対して、モデル格納部３２０に格納された音声モデルを用いて音声認識処理を行うものである。音声認識部３３０は、音声受信部３１０より音声モデル更新の対象となる端末装置の特定情報を入力し、当該特定情報に関連付けられた音声モデルをモデル格納部３２０より検索して使用する。なお、音声認識の手法そのものは、例えば下記の参考文献１に開示されているように公知の技術であるため、ここでは説明を省略する。音声認識部３３０は、音声認識処理の結果を認識結果保存部３４０に出力する。
参考文献１：音声認識システム、ISBN/ASIN：4274132285、武田一哉、オーム社

認識結果保存部３４０は、音声認識処理の結果を音声認識部３３０より入力し保存するものである。

モデル更新部３５０は、認識結果保存部３４０に保存された音声認識処理の結果および音声受信部３１０より入力した電話音声に基づき、モデル格納部３２０に格納された音声モデルを更新するものである。認識結果保存部３４０は音声認識処理の結果を音声モデル更新の対象となる端末装置の特定情報と関連付けて保存することが好ましく、この場合にモデル更新部３５０は当該特定情報をキーとして相応する音声モデルを更新する。なお、音声認識の結果を用いて音声モデルを更新する手法については、例えば非特許文献１にその詳細が記載されているなど、公知の技術であるため、ここでは説明を省略する。モデル更新部３５０は、更新後の音声モデルをモデル格納部３２０に出力し、端末装置の特定情報と関連付けられて保存されていた既存の音声モデルを書き換えさせる。

モデル送信部３６０は、モデル更新部３５０による当該更新後の音声モデルを音声モデル更新の対象となる端末装置に送信するものである。モデル送信部３６０は、モデル格納部３２０より端末装置の特定情報と更新後の音声モデルを読み出して、当該特定情報で特定される端末装置に当該更新後の音声モデルを送信する。または、モデル更新部３５０の音声モデル更新処理後に、モデル更新部３５０が端末装置の特定情報と更新後の音声モデルをモデル送信部３６０に直接出力し、モデル送信部３６０が当該特定情報の端末装置に当該更新後の音声モデルを送信するようにしても良い。

（電話システム１の動作）
続いて、電話システム１により行われる動作について、図５を参照しながら説明する。図５は、電話システム１の動作を示すシーケンス図である。なお、下記の説明において、音声モデル更新の対象となる端末装置は発話側の端末装置１０Ａである。

最初に、発話側の端末装置１０Ａと相手側の端末装置１０Ｂ間の電話通信が行われる。発話側の端末装置１０Ａから音声発信の要求が通信ネットワーク４０の交換機２０に通知され、通信ネットワーク４０の交換機２０ではこの要求を受け取り、通話の相手を特定し、相手側の端末装置１０Ｂからの許諾があれば、通話を開始する。発話側の端末装置１０Ａのコーデック部１１０は、自装置のユーザからの入力電話音声に対して例えばＡＭＲ（AdaptiveMulti-Rate）などの符号化処理を行い、発話側の端末装置１０Ａの送信部１４０は当該符号化処理後のデータを交換機２０に送信する。発話側の端末装置１０Ａの送信部１４０により交換機２０に送信された符号化処理後の音声データは、交換機２０の中継により相手側の端末装置１０Ｂに伝達され、相手側の端末装置１０Ｂのコーデック部１１０により復号化され、音声として出力される。相手側の端末装置１０Ｂからの音声についても、同様に、符号化され、交換機２０の中継により送受信され、発話側の端末装置１０Ａで復号化される。なお、図１には、送受信される符号化された音声が符号化音声５０として示されている。以上により、発話側の端末装置１０Ａと相手側の端末装置１０Ｂとの間の電話通信が成立される（ステップＳ１１）。

ステップＳ１１の電話通信の間に、発話側の端末装置１０Ａの音声格納部１２０は自装置のユーザによる電話音声を格納する。音声格納部１２０は、自装置のユーザからの入力電話音声に対して符号化処理を行わないまま格納する（ステップＳ１２）。

次に、発話側の端末装置１０Ａの特徴量抽出部１３０が、自装置のユーザからの入力電話音声から特徴量を抽出する。図５のシーケンス図では、特徴量抽出部１３０が、ステップＳ１１の電話通信の終了後に、ステップＳ１２にて音声格納部１２０に格納された電話音声に対して当該特徴量抽出処理を行うことを示している。一方、図示はしないが、特徴量抽出部１３０が、ステップＳ１１の電話通信とともに、すなわち電話通信処理と同時に、または電話通信処理とある程度の時間差（例えば２〜３秒）を置いて特徴量抽出処理を行っても良い。ステップＳ１１の電話通信処理と同時に特徴量抽出処理を行う場合には、ステップＳ１２の音声格納処理は不要となる。電話通信処理とある程度の時間差を置いて特徴量抽出処理を行う場合には、ステップＳ１２の音声格納処理では、音声格納部１２０がバッファとして当該時間差に相当する音声データを一時保存する（ステップＳ１３、特許請求の範囲の「特徴量抽出ステップ」に相当）。

次に、発話側の端末装置１０Ａの送信部１４０が、特徴量抽出部１３０が抽出した特徴量データを音声モデル更新装置３０に送信する。なお、図１には、送信される特徴量データが音声特徴量６０として示されている（ステップＳ１４、特許請求の範囲の「音声送信ステップ」に相当）。

次に、音声モデル更新装置３０の音声受信部３１０が特徴量データを受信する（ステップＳ１５、特許請求の範囲の「音声受信ステップ」に相当）。

次に、音声モデル更新装置３０の音声認識部３３０が、ステップＳ１５にて受信した特徴量データに対して、モデル格納部３２０に格納された音声モデルを用いて音声認識処理を行う。認識結果の文字列は認識結果保存部３４０に保存される（ステップＳ１６、特許請求の範囲の「音声認識ステップ」に相当）。

次に、音声モデル更新装置３０のモデル更新部３５０が、認識結果保存部３４０に保存された音声認識処理の結果および音声受信部３１０より入力した電話音声に基づき、モデル格納部３２０に格納された音声モデルを更新する（ステップＳ１７、特許請求の範囲の「モデル更新ステップ」に相当）。

次に、音声モデル更新装置３０のモデル送信部３６０が、ステップＳ１７にてモデル更新部３５０により更新された音声モデルを端末装置１０Ａに送信する。なお、図１には、送信される更新後の音声モデルが音声モデル７０として示されている（ステップＳ１８、特許請求の範囲の「モデル送信ステップ」に相当）。

次に、端末装置１０Ａの受信部１５０が、ステップＳ１８にて送信される更新後の音声モデルを受信し、モデル保持部１６０に保持させる（ステップＳ１９、特許請求の範囲の「モデル受信ステップ」に相当）。

（他の実施態様、その１）
続いて、本実施形態の他の実施態様について説明する。記載を簡潔にするため、重複する部分については説明を省略する。図６は本実施態様における端末装置１０の機能ブロック図であり、図７は本実施態様における音声モデル更新装置３０の機能ブロック図である。

図６に示すように、端末装置１０は、特徴量抽出部１３０が抽出した特徴量データに対して圧縮処理を行う特徴量圧縮部１７０（特許請求の範囲における「特徴量圧縮手段」、「特徴量圧縮ステップ」に相当）を更に備える。送信部１４０は、特徴量圧縮部１７０による当該圧縮処理後の特徴量データを音声モデル更新装置３０に送信する。一方、図７に示すように、音声モデル更新装置３０は、圧縮処理後の特徴量データに対して展開処理を行う特徴量展開部３７０（特許請求の範囲における「特徴量展開手段」、「特徴量展開ステップ」に相当）を更に備える。音声モデル更新装置３０の音声受信部３１０は、圧縮処理後の特徴量データを端末装置１０より受信し特徴量展開部３７０に出力する。なお、端末装置１０の特徴量圧縮部１７０による圧縮処理では、例えばベクトル量子化などの手法が用いられる。

また、図７に示すように、音声モデル更新装置３０は、モデル更新部３５０が更新した音声モデルに対して圧縮処理を行うモデル圧縮部３８０（特許請求の範囲における「モデル圧縮手段」、「モデル圧縮ステップ」に相当）を更に備える。モデル送信部３６０は、モデル圧縮部３８０による当該圧縮処理後の音声モデルを端末装置１０に送信する。一方、図６に示すように、端末装置１０は、圧縮処理後の音声モデルに対して展開処理を行うモデル展開部１８０（特許請求の範囲における「モデル展開手段」、「モデル展開ステップ」に相当）を更に備える。端末装置１０の受信部１５０は、圧縮処理後の音声モデルを音声モデル更新装置３０より受信しモデル展開部１８０に出力する。

（他の実施態様、その２）
続いて、本実施形態の更に他の実施態様について説明する。図８は本実施態様における端末装置１０の機能ブロック図であり、図９は本実施態様における音声モデル更新装置３０の機能ブロック図である。

図８に示すように、端末装置１０に音声格納部１２０と特徴量抽出部１３０とが存在しない。特徴量計算（特徴量抽出）を音声モデル更新装置３０側で行うからである。一方、端末装置１０のコーデック部１１０は、符号化処理後の音声データを送信部１４０に出力し交換機２０および音声モデル更新装置３０に送信させる。

音声モデル更新装置３０は、図９に示すように、符号化処理後の電話音声に対して復号化処理を行う復号化部３９０（特許請求の範囲における「復号化手段」に相当）と、当該復号化処理後の電話音声から特徴量を計算する特徴量計算部３９１（特許請求の範囲における「特徴量計算手段」に相当）とを更に備える。そして、音声認識部３３０は、特徴量計算部３９１が計算した特徴量データに基づき、音声認識処理を行う。

図１０は、本実施態様において、電話システム１で行われる動作を示すシーケンス図である。図５のシーケンス図と比べると、ステップＳ１２の電話音声格納処理、およびステップＳ１３の特徴量抽出処理が実行されない。また、ステップＳ１４の特徴量送信処理の代わりに、ステップＳ２１にて、符号化された音声データが音声モデル更新装置３０に送信される。なお、符号化処理は、ステップＳ１１にて既に行われている（特許請求の範囲における「符号化ステップ」に相当）。音声モデル更新装置３０側では、復号化部３９０による復号化処理（ステップＳ２２、特許請求の範囲における「復号化ステップ」に相当）、および特徴量計算部３９１による特徴量計算処理（ステップＳ２３、特許請求の範囲における「特徴量計算ステップ」に相当）が行われる。その他の処理については、図５のシーケンス図の場合と同等である。

（電話システム１の作用及び効果）
続いて、本実施形態にかかる電話システム１の作用及び効果について説明する。本実施形態の電話システム１によれば、複数の端末装置１０間の電話音声のデータが音声モデル更新装置３０に送信され、音声モデル更新装置３０は当該電話音声データを用いて音声モデルを更新し、当該更新後の音声モデルが端末装置１０に送信される。つまり、音声モデルの更新に使われる学習データはユーザの電話音声であり、この電話音声はユーザの通常の電話通信によるものである。言い換えれば、音声モデル更新装置３０は音声モデルの更新のためにわざわざユーザに発話をさせる必要がなく、ユーザの通常の端末装置１０の使用態様からそのユーザ用の音声モデルを更新するための学習データを得ることができる。以上により、ユーザに負担をかけなくても、ユーザの電話音声を用いてユーザに特化した音声モデル更新を行うことができる。

また、音声モデルの更新処理は、端末装置１０側ではなく、音声モデル更新装置３０側で行われる。このため、音声モデル更新処理の精度を高めることができる。また、端末装置１０側からみれば、音声モデル更新処理のような負荷の大きい処理に対する処理負担を減らしながらも、高精度で更新された音声モデルを得ることができる。特に、音声モデル更新装置３０側で、大規模な言語モデルを利用することが可能な場合には、高精度で発話内容を推定することができるので、更新される音声モデルの精度が更に高くなる。

本実施形態において、特徴量の抽出処理を端末装置１０側で行っても良い。これにより音声データをそのまま送受信する場合に比べて送受信されるデータ量が低減される。

本実施形態において、端末装置１０による電話通信処理と特徴量抽出処理とが異なるタイミングで行われても良い。これにより端末装置１０に両処理の処理負荷が集中することを防止できる。

本実施形態において、端末装置１０による電話通信処理と特徴量抽出処理とが同時にまたはある程度の時間差を置いて行われても良い。これにより電話音声を格納するための別途の記憶手段（音声格納部１２０）を設ける必要がなくなる。または例えば２〜３秒の音声データを一時記憶するための少量の記憶容量で済む。

本実施形態において、特徴量を圧縮してから送受信することにより、送受信されるデータ量が低減される。

本実施形態において、更新後の音声モデルを圧縮してから送受信することにより、送受信されるデータ量が低減される。

本実施形態において、特徴量の計算処理を音声モデル更新装置３０側で行っても良い。これにより、端末装置１０の処理負担を更に減らすことができる。

以上、本発明の実施形態について説明したが、以上の説明は本発明の一側面に過ぎず、本発明が上記例に限定されないことは言うまでもない。例えば、上記例においては、音声モデル更新の対象となる端末装置を発話側の端末装置１０Ａとしたが、これに限らず、相手側の端末装置１０Ｂであっても良い。この場合には、相手側の端末装置１０Ｂの方から特徴量データを音声モデル更新装置３０に送信し、音声モデル更新装置３０は端末装置１０Ｂ用の音声モデルを更新して端末装置１０Ｂに送り返す。また、端末装置１０が無線通信を行う場合には、電話システム１は図示しない無線基地局を更に備え、端末装置１０は無線基地局を経由し交換機２０に接続することが好ましい。

更に、以上の説明では、例えば図１に示したように端末装置１０と音声モデル更新装置３０とが別の装置として構成され通信ネットワーク４０を通じてデータ通信を行うように構成されていたが、本発明の思想がこのような構成態様に限られないことは言うまでもない。例えば、音声モデル更新装置３０が、ユーザの電話通信上の発話を利用して音声モデルを更新する例えば一つの機能モジュールとして、端末装置１０内に組み込まれて構成されていても良い。つまり、音声モデルの更新処理が端末装置１０内で行われても良い。この場合には、端末装置１０と音声モデル更新装置３０との間の通信ネットワーク４０を通じた音声データ送受信処理や更新後モデルの送受信処理が不要となる。

１…電話システム、１０，１０Ａ，１０Ｂ…端末装置、２０…交換機、３０…音声モデル更新装置、４０…通信ネットワーク、１１０…コーデック部、１２０…音声格納部、１３０…特徴量抽出部、１４０…送信部、１５０…受信部、１６０…モデル保持部、１７０…特徴量圧縮部、１８０…モデル展開部、３１０…音声受信部、３２０…モデル格納部、３３０…音声認識部、３４０…認識結果保存部、３５０…モデル更新部、３６０…モデル送信部、３７０…特徴量展開部、３８０…モデル圧縮部、３９０…復号化部、３９１…特徴量計算部。

Claims

電話通信を行う複数の端末装置、および音声モデルを更新する音声モデル更新装置を含む電話システムであって、
前記音声モデル更新装置は、
前記電話通信における電話音声を前記端末装置より受信する音声受信手段と、
前記音声モデルを格納するモデル格納手段と、
前記モデル格納手段に格納された前記音声モデルに基づき、前記音声受信手段が受信した前記電話音声に対して音声認識処理を行う音声認識手段と、
前記音声認識手段の当該音声認識処理結果に基づき、前記モデル格納手段に格納された前記音声モデルを更新するモデル更新手段と、
前記モデル更新手段による当該更新後の音声モデルを前記端末装置に送信するモデル送信手段と、
を備え、
前記端末装置は、
前記電話音声を前記音声モデル更新装置に送信する音声送信手段と、
前記更新後の音声モデルを前記音声モデル更新装置より受信するモデル受信手段と、
ことを特徴とする電話システム。
前記端末装置は、前記電話音声から特徴量を抽出する特徴量抽出手段を更に備え、
前記音声送信手段は、前記特徴量抽出手段が抽出した前記特徴量を前記音声モデル更新装置に送信し、
前記音声受信手段は、前記特徴量を前記電話音声として前記端末装置より受信し、
前記音声認識手段は、前記特徴量に基づき、前記電話音声に対した前記音声認識処理を行う、
ことを特徴とする請求項１に記載の電話システム。
前記端末装置は、前記電話通信の間、前記電話音声を格納する音声格納手段を更に備え、
前記特徴量抽出手段は、前記電話通信の終了後に、前記音声格納手段に格納された前記電話音声に対して当該特徴量抽出処理を行う、
ことを特徴とする請求項２に記載の電話システム。
前記特徴量抽出手段は、前記電話通信とともに、当該特徴量抽出処理を行う、
ことを特徴とする請求項２に記載の電話システム。
前記端末装置は、前記特徴量抽出手段が抽出した前記特徴量に対して圧縮処理を行う特徴量圧縮手段を更に備え、
前記音声送信手段は、前記特徴量圧縮手段による当該圧縮処理後の特徴量を前記音声モデル更新装置に送信し、
前記音声受信手段は、前記圧縮処理後の特徴量を前記端末装置より受信し、
前記音声モデル更新装置は、前記圧縮処理後の特徴量に対して展開処理を行う特徴量展開手段を更に備える、
ことを特徴とする請求項２〜４の何れか１項に記載の電話システム。
前記音声モデル更新装置は、前記モデル更新手段が更新した前記音声モデルに対して圧縮処理を行うモデル圧縮手段を更に備え、
前記モデル送信手段は、前記モデル圧縮手段による当該圧縮処理後の音声モデルを前記端末装置に送信し、
前記モデル受信手段は、前記圧縮処理後の音声モデルを前記音声モデル更新装置より受信し、
前記端末装置は、前記圧縮処理後の音声モデルに対して展開処理を行うモデル展開手段を更に備える、
ことを特徴とする請求項１〜５の何れか１項に記載の電話システム。
前記端末装置は、前記電話音声に対して符号化処理を行う符号化手段を更に備え、
前記音声送信手段は、前記符号化手段による当該符号化処理後の電話音声を前記音声モデル更新装置に送信し、
前記音声モデル更新装置は、前記符号化処理後の電話音声に対して復号化処理を行う復号化手段と、当該復号化処理後の電話音声から特徴量を計算する特徴量計算手段とを更に備え、
前記音声認識手段は、前記特徴量に基づき、前記音声認識処理を行う、
ことを特徴とする請求項１に記載の電話システム。
電話通信を行う複数の端末装置、および音声モデルを更新する音声モデル更新装置を含む電話システムであって、
前記音声モデル更新装置は、前記端末装置からの電話音声を利用して前記音声モデルを更新する、
ことを特徴とする電話システム。
電話通信を行う複数の端末装置、および音声モデルを更新する音声モデル更新装置を含む電話システムにおける、前記音声モデル更新装置であって、
前記電話通信における電話音声を前記端末装置より受信する音声受信手段と、
前記音声モデルを格納するモデル格納手段と、
前記モデル格納手段に格納された前記音声モデルに基づき、前記音声受信手段が受信した前記電話音声に対して音声認識処理を行う音声認識手段と、
前記音声認識手段の当該音声認識処理結果に基づき、前記モデル格納手段に格納された前記音声モデルを更新するモデル更新手段と、
前記モデル更新手段による当該更新後の音声モデルを前記端末装置に送信するモデル送信手段と、
を備えることを特徴とする音声モデル更新装置。
前記音声受信手段は、前記電話音声から抽出された特徴量を前記電話音声として前記端末装置より受信し、
前記音声認識手段は、前記特徴量に基づき、前記電話音声に対した前記音声認識処理を行う、
ことを特徴とする請求項９に記載の音声モデル更新装置。
前記音声受信手段は、圧縮処理後の前記特徴量を前記端末装置より受信し、
前記圧縮処理後の特徴量に対して展開処理を行う特徴量展開手段を更に備える、
ことを特徴とする請求項１０に記載の音声モデル更新装置。
前記モデル更新手段が更新した前記音声モデルに対して圧縮処理を行うモデル圧縮手段を更に備え、
前記モデル送信手段は、前記モデル圧縮手段による当該圧縮処理後の音声モデルを前記端末装置に送信する、
ことを特徴とする請求項９〜１１の何れか１項に記載の音声モデル更新装置。
符号化処理後の電話音声に対して復号化処理を行う復号化手段と、
当該復号化処理後の電話音声から特徴量を計算する特徴量計算手段と、
を更に備え、
前記音声認識手段は、前記特徴量に基づき、前記音声認識処理を行う、
ことを特徴とする請求項９に記載の音声モデル更新装置。
電話通信を行う複数の端末装置、および音声モデルを更新する音声モデル更新装置を含む電話システムにおける、前記端末装置であって、
電話音声を前記音声モデル更新装置に送信する音声送信手段と、
更新後の音声モデルを前記音声モデル更新装置より受信するモデル受信手段と、
を備えることを特徴とする端末装置。
前記電話音声から特徴量を抽出する特徴量抽出手段を更に備え、
前記音声送信手段は、前記特徴量抽出手段が抽出した前記特徴量を前記音声モデル更新装置に送信する、
ことを特徴とする請求項１４に記載の端末装置。
前記特徴量抽出手段が抽出した前記特徴量に対して圧縮処理を行う特徴量圧縮手段を更に備え、
前記音声送信手段は、前記特徴量圧縮手段による当該圧縮処理後の特徴量を前記音声モデル更新装置に送信する、
ことを特徴とする請求項１５に記載の端末装置。
前記モデル受信手段は、圧縮処理後の音声モデルを前記音声モデル更新装置より受信し、
前記圧縮処理後の音声モデルに対して展開処理を行うモデル展開手段を更に備える、
ことを特徴とする請求項１４〜１６の何れか１項に記載の端末装置。
前記電話音声に対して符号化処理を行う符号化手段を更に備え、
前記音声送信手段は、前記符号化手段による当該符号化処理後の電話音声を前記音声モデル更新装置に送信する、
ことを特徴とする請求項１４に記載の端末装置。
電話通信を行う複数の端末装置、および音声モデルを更新する音声モデル更新装置を含む電話システムにおける、音声モデル更新方法であって、
前記端末装置の音声送信手段が、前記電話通信における電話音声を前記音声モデル更新装置に送信する音声送信ステップと、
前記音声モデル更新装置の音声受信手段が、前記電話音声を前記端末装置より受信する音声受信ステップと、
前記音声モデル更新装置の音声認識手段が、前記音声モデル更新装置のモデル格納手段に格納された前記音声モデルに基づき、前記音声受信手段が受信した前記電話音声に対して音声認識処理を行う音声認識ステップと、
前記音声モデル更新装置のモデル更新手段が、前記音声認識手段の当該音声認識処理結果に基づき、前記モデル格納手段に格納された前記音声モデルを更新するモデル更新ステップと、
前記音声モデル更新装置のモデル送信手段が、前記モデル更新手段による当該更新後の音声モデルを前記端末装置に送信するモデル送信ステップと、
前記端末装置のモデル受信手段が、前記更新後の音声モデルを前記音声モデル更新装置より受信するモデル受信ステップと、
を備えることを特徴とする音声モデル更新方法。
前記端末装置の特徴量抽出手段が、前記電話音声から特徴量を抽出する特徴量抽出ステップを更に備え、
前記音声送信ステップでは、前記音声送信手段が、前記特徴量抽出手段が抽出した前記特徴量を前記音声モデル更新装置に送信し、
前記音声受信ステップでは、前記音声受信手段が、前記特徴量を前記電話音声として前記端末装置より受信し、
前記音声認識ステップでは、前記音声認識手段が、前記特徴量に基づき、前記電話音声に対した前記音声認識処理を行う、
ことを特徴とする請求項１９に記載の音声モデル更新方法。
前記端末装置の特徴量圧縮手段が、前記特徴量抽出手段が抽出した前記特徴量に対して圧縮処理を行う特徴量圧縮ステップを更に備え、
前記音声送信ステップでは、前記音声送信手段が、前記特徴量圧縮手段による当該圧縮処理後の特徴量を前記音声モデル更新装置に送信し、
前記音声受信ステップでは、前記音声受信手段が、前記圧縮処理後の特徴量を前記端末装置より受信し、
前記音声モデル更新装置の特徴量展開手段が、前記圧縮処理後の特徴量に対して展開処理を行う特徴量展開ステップを更に備える、
ことを特徴とする請求項２０に記載の音声モデル更新方法。
前記音声モデル更新装置のモデル圧縮手段が、前記モデル更新手段が更新した前記音声モデルに対して圧縮処理を行うモデル圧縮ステップを更に備え、
前記モデル送信ステップでは、前記モデル送信手段が、前記モデル圧縮手段による当該圧縮処理後の音声モデルを前記端末装置に送信し、
前記モデル受信ステップでは、前記モデル受信手段が、前記圧縮処理後の音声モデルを前記音声モデル更新装置より受信し、
前記端末装置のモデル展開手段が、前記圧縮処理後の音声モデルに対して展開処理を行うモデル展開ステップを更に備える、
ことを特徴とする請求項１９〜２１の何れか１項に記載の音声モデル更新方法。
前記端末装置の符号化手段が、前記電話音声に対して符号化処理を行う符号化ステップを更に備え、
前記音声送信ステップでは、前記音声送信手段が、前記符号化手段による当該符号化処理後の電話音声を前記音声モデル更新装置に送信し、
前記音声モデル更新装置の復号化手段が、前記符号化処理後の電話音声に対して復号化処理を行う復号化ステップと、前記音声モデル更新装置の特徴量計算手段が、当該復号化処理後の電話音声から特徴量を計算する特徴量計算ステップとを更に備え、
前記音声認識ステップでは、前記音声認識手段が、前記特徴量に基づき、前記音声認識処理を行う、
ことを特徴とする請求項１９に記載の音声モデル更新方法。
電話通信を行う複数の端末装置、および音声モデルを更新する音声モデル更新装置を含む電話システムにおける、音声モデル更新方法であって、
前記音声モデル更新装置が、前記端末装置からの電話音声を利用して前記音声モデルを更新する、
ことを特徴とする音声モデル更新方法。