JP2011064913A - 電話システム、端末装置、音声モデル更新装置、および音声モデル更新方法 - Google Patents
電話システム、端末装置、音声モデル更新装置、および音声モデル更新方法 Download PDFInfo
- Publication number
- JP2011064913A JP2011064913A JP2009214928A JP2009214928A JP2011064913A JP 2011064913 A JP2011064913 A JP 2011064913A JP 2009214928 A JP2009214928 A JP 2009214928A JP 2009214928 A JP2009214928 A JP 2009214928A JP 2011064913 A JP2011064913 A JP 2011064913A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- model
- telephone
- feature amount
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】ユーザに負担をかけなくても、ユーザに特化して音声モデルを更新する。
【解決手段】電話システム1では、複数の端末装置10間の電話音声のデータが音声モデル更新装置30に送信され、音声モデル更新装置30は当該電話音声データを用いて音声モデルを更新し、当該更新後の音声モデルが端末装置10に送信される。つまり、音声モデルの更新に使われる学習データはユーザの電話音声であり、この電話音声はユーザの通常の電話通信によるものである。言い換えれば、音声モデル更新装置30は音声モデルの更新のためにわざわざユーザに発話をさせる必要がなく、ユーザの通常の端末装置10の使用態様からそのユーザ用の音声モデルを更新するための学習データを得ることができる。以上により、ユーザに負担をかけなくても、ユーザの電話音声を用いてユーザに特化した音声モデル更新を行うことができる。
【選択図】図5
【解決手段】電話システム1では、複数の端末装置10間の電話音声のデータが音声モデル更新装置30に送信され、音声モデル更新装置30は当該電話音声データを用いて音声モデルを更新し、当該更新後の音声モデルが端末装置10に送信される。つまり、音声モデルの更新に使われる学習データはユーザの電話音声であり、この電話音声はユーザの通常の電話通信によるものである。言い換えれば、音声モデル更新装置30は音声モデルの更新のためにわざわざユーザに発話をさせる必要がなく、ユーザの通常の端末装置10の使用態様からそのユーザ用の音声モデルを更新するための学習データを得ることができる。以上により、ユーザに負担をかけなくても、ユーザの電話音声を用いてユーザに特化した音声モデル更新を行うことができる。
【選択図】図5
Description
本発明は、電話システム、端末装置、音声モデル更新装置、および音声モデル更新方法に関するものである。
例えば非特許文献1に記載されているように、ユーザに特化して音声モデルの更新を行うという、いわゆる話者適応化の技術が知られている。
確率モデルによる音声認識のための話者適応化技術、篠田浩一、電子情報通信学会論文誌、VOL.J87-D2、No.2、pp.371-386、2004年2月
上記のような話者適応化の技術では、音声モデルのパラメータをそれぞれの話者の特性に合わせて更新する。その方法として、音声認識装置を用いて音声認識を行う前に、ユーザに所定の文章を読み上げさせ、当該読み上げられた音声を利用し、音声モデルに属する音素のモデルパラメータを更新する。読み上げられた文章は既知の内容であるため、当該既知の文章における仮名列と当該読み上げ音声における音素列とをマッチングさせることにより、音声モデルの更新を行うことができる。
例えば、読み上げる文章が“一日中、テニスをした”である場合に、対応する仮名列と音素列は以下となり、各仮名と各音素とをマッチングさせることにより、音声モデルの更新を行う。
仮名列:”いちにちじゅうテニスをした”
音素列:”i ch i n i ch i j y u u t e n i s u o s i t a”
仮名列:”いちにちじゅうテニスをした”
音素列:”i ch i n i ch i j y u u t e n i s u o s i t a”
上記の例から分かるように、各文章に出現する音素の種類や頻度は読み上げる文章の内容によって変わる。したがって、音声モデルに属する全ての音素に対してモデルパラメータを更新するためには、大量の学習文章が必要となり、ユーザは全ての学習文章をいちいち読み上げる必要がある。更に、実際の音声認識にて利用される音声モデル中の音素は音素間接続を考慮したtri-phoneであり、その数は数千個以上にも及ぶ莫大な数となる。このため、音声モデルの全ての音素を更新できるほどの学習量を確保するためには、特にtri-phoneを考慮した場合には、ユーザに莫大な量の文章を発話させる必要がある。これはユーザにとって大きな負担となる。
そこで、本発明は上記に鑑みてなされたもので、ユーザに負担をかけなくても、ユーザに特化して音声モデルを更新することが可能な電話システム、端末装置、音声モデル更新装置、および音声モデル更新方法を提供することを目的とする。
上記課題を解決するために、本発明の電話システムは、電話通信を行う複数の端末装置、および音声モデルを更新する音声モデル更新装置を含む電話システムであって、前記音声モデル更新装置は、前記電話通信における電話音声を前記端末装置より受信する音声受信手段と、前記音声モデルを格納するモデル格納手段と、前記モデル格納手段に格納された前記音声モデルに基づき、前記音声受信手段が受信した前記電話音声に対して音声認識処理を行う音声認識手段と、前記音声認識手段の当該音声認識処理結果に基づき、前記モデル格納手段に格納された前記音声モデルを更新するモデル更新手段と、前記モデル更新手段による当該更新後の音声モデルを前記端末装置に送信するモデル送信手段と、を備え、前記端末装置は、前記電話音声を前記音声モデル更新装置に送信する音声送信手段と、前記更新後の音声モデルを前記音声モデル更新装置より受信するモデル受信手段と、ことを特徴とする。
また、本発明の電話システムは、電話通信を行う複数の端末装置、および音声モデルを更新する音声モデル更新装置を含む電話システムであって、前記音声モデル更新装置は、前記端末装置からの電話音声を利用して前記音声モデルを更新する、ことを特徴とする。
また、本発明の音声モデル更新装置は、電話通信を行う複数の端末装置、および音声モデルを更新する音声モデル更新装置を含む電話システムにおける、前記音声モデル更新装置であって、前記電話通信における電話音声を前記端末装置より受信する音声受信手段と、前記音声モデルを格納するモデル格納手段と、前記モデル格納手段に格納された前記音声モデルに基づき、前記音声受信手段が受信した前記電話音声に対して音声認識処理を行う音声認識手段と、前記音声認識手段の当該音声認識処理結果に基づき、前記モデル格納手段に格納された前記音声モデルを更新するモデル更新手段と、前記モデル更新手段による当該更新後の音声モデルを前記端末装置に送信するモデル送信手段と、を備えることを特徴とする。
また、本発明の端末装置は、電話通信を行う複数の端末装置、および音声モデルを更新する音声モデル更新装置を含む電話システムにおける、前記端末装置であって、電話音声を前記音声モデル更新装置に送信する音声送信手段と、更新後の音声モデルを前記音声モデル更新装置より受信するモデル受信手段と、を備えることを特徴とする。
また、本発明の音声モデル更新方法は、電話通信を行う複数の端末装置、および音声モデルを更新する音声モデル更新装置を含む電話システムにおける、音声モデル更新方法であって、前記端末装置の音声送信手段が、前記電話通信における電話音声を前記音声モデル更新装置に送信する音声送信ステップと、前記音声モデル更新装置の音声受信手段が、前記電話音声を前記端末装置より受信する音声受信ステップと、前記音声モデル更新装置の音声認識手段が、前記音声モデル更新装置のモデル格納手段に格納された前記音声モデルに基づき、前記音声受信手段が受信した前記電話音声に対して音声認識処理を行う音声認識ステップと、前記音声モデル更新装置のモデル更新手段が、前記音声認識手段の当該音声認識処理結果に基づき、前記モデル格納手段に格納された前記音声モデルを更新するモデル更新ステップと、前記音声モデル更新装置のモデル送信手段が、前記モデル更新手段による当該更新後の音声モデルを前記端末装置に送信するモデル送信ステップと、前記端末装置のモデル受信手段が、前記更新後の音声モデルを前記音声モデル更新装置より受信するモデル受信ステップと、を備えることを特徴とする。
また、本発明の音声モデル更新方法は、電話通信を行う複数の端末装置、および音声モデルを更新する音声モデル更新装置を含む電話システムにおける、音声モデル更新方法であって、前記音声モデル更新装置が、前記端末装置からの電話音声を利用して前記音声モデルを更新する、ことを特徴とする。
このような本発明の電話システム、端末装置、音声モデル更新装置、および音声モデル更新方法によれば、複数の端末装置間の電話音声のデータが音声モデル更新装置に送信され、音声モデル更新装置は当該電話音声データを用いて音声モデルを更新し、当該更新後の音声モデルが端末装置に送信される。つまり、音声モデルの更新に使われる学習データはユーザの電話音声であり、この電話音声はユーザの通常の電話通信によるものである。言い換えれば、音声モデル更新装置は音声モデルの更新のためにわざわざユーザに発話をさせる必要がなく、ユーザの通常の端末装置の使用態様からそのユーザ用の音声モデルを更新するための学習データを得ることができる。以上により、ユーザに負担をかけなくても、ユーザの電話音声を用いてユーザに特化した音声モデル更新を行うことができる。
また、音声モデルの更新処理は、端末装置側ではなく、音声モデル更新装置側で行われる。このため、音声モデル更新処理の精度を高めることができる。また、端末装置側からみれば、音声モデル更新処理のような負荷の大きい処理に対する処理負担を減らしながらも、高精度で更新された音声モデルを得ることができる。
また、本発明の電話システムにおいて、前記端末装置は、前記電話音声から特徴量を抽出する特徴量抽出手段を更に備え、前記音声送信手段は、前記特徴量抽出手段が抽出した前記特徴量を前記音声モデル更新装置に送信し、前記音声受信手段は、前記特徴量を前記電話音声として前記端末装置より受信し、前記音声認識手段は、前記特徴量に基づき、前記電話音声に対した前記音声認識処理を行う、ことが好ましい。
また、本発明の音声モデル更新装置において、前記音声受信手段は、前記電話音声から抽出された特徴量を前記電話音声として前記端末装置より受信し、前記音声認識手段は、前記特徴量に基づき、前記電話音声に対した前記音声認識処理を行う、ことが好ましい。
また、本発明の端末装置において、前記電話音声から特徴量を抽出する特徴量抽出手段を更に備え、前記音声送信手段は、前記特徴量抽出手段が抽出した前記特徴量を前記音声モデル更新装置に送信する、ことが好ましい。
また、本発明の音声モデル更新方法において、前記端末装置の特徴量抽出手段が、前記電話音声から特徴量を抽出する特徴量抽出ステップを更に備え、前記音声送信ステップでは、前記音声送信手段が、前記特徴量抽出手段が抽出した前記特徴量を前記音声モデル更新装置に送信し、前記音声受信ステップでは、前記音声受信手段が、前記特徴量を前記電話音声として前記端末装置より受信し、前記音声認識ステップでは、前記音声認識手段が、前記特徴量に基づき、前記電話音声に対した前記音声認識処理を行う、ことが好ましい。
このように特徴量の抽出処理を端末装置側で行っても良い。これにより音声データをそのまま送受信する場合に比べて送受信されるデータ量が低減される。
また、本発明の電話システムにおいて、前記端末装置は、前記電話通信の間、前記電話音声を格納する音声格納手段を更に備え、前記特徴量抽出手段は、前記電話通信の終了後に、前記音声格納手段に格納された前記電話音声に対して当該特徴量抽出処理を行う、ことが好ましい。
このように端末装置による電話通信処理と特徴量抽出処理とが異なるタイミングで行われても良い。これにより端末装置に両処理の処理負荷が集中することを防止できる。
また、本発明の電話システムにおいて、前記特徴量抽出手段は、前記電話通信とともに、当該特徴量抽出処理を行う、ことが好ましい。
このように端末装置による電話通信処理と特徴量抽出処理とが同時にまたはある程度の時間差(例えば2〜3秒)を置いて行われても良い。これにより電話音声を格納するための別途の記憶手段を設ける必要がなくなる。または例えば2〜3秒の音声データを一時記憶するための少量の記憶容量で済む。
また、本発明の電話システムにおいて、前記端末装置は、前記特徴量抽出手段が抽出した前記特徴量に対して圧縮処理を行う特徴量圧縮手段を更に備え、前記音声送信手段は、前記特徴量圧縮手段による当該圧縮処理後の特徴量を前記音声モデル更新装置に送信し、前記音声受信手段は、前記圧縮処理後の特徴量を前記端末装置より受信し、前記音声モデル更新装置は、前記圧縮処理後の特徴量に対して展開処理を行う特徴量展開手段を更に備える、ことが好ましい。
また、本発明の音声モデル更新装置において、前記音声受信手段は、圧縮処理後の前記特徴量を前記端末装置より受信し、前記圧縮処理後の特徴量に対して展開処理を行う特徴量展開手段を更に備える、ことが好ましい。
また、本発明の端末装置において、前記特徴量抽出手段が抽出した前記特徴量に対して圧縮処理を行う特徴量圧縮手段を更に備え、前記音声送信手段は、前記特徴量圧縮手段による当該圧縮処理後の特徴量を前記音声モデル更新装置に送信する、ことが好ましい。
また、本発明の音声モデル更新方法において、前記端末装置の特徴量圧縮手段が、前記特徴量抽出手段が抽出した前記特徴量に対して圧縮処理を行う特徴量圧縮ステップを更に備え、前記音声送信ステップでは、前記音声送信手段が、前記特徴量圧縮手段による当該圧縮処理後の特徴量を前記音声モデル更新装置に送信し、前記音声受信ステップでは、前記音声受信手段が、前記圧縮処理後の特徴量を前記端末装置より受信し、前記音声モデル更新装置の特徴量展開手段が、前記圧縮処理後の特徴量に対して展開処理を行う特徴量展開ステップを更に備える、ことが好ましい。
特徴量を圧縮してから送受信することにより、送受信されるデータ量が低減される。
また、本発明の電話システムにおいて、前記音声モデル更新装置は、前記モデル更新手段が更新した前記音声モデルに対して圧縮処理を行うモデル圧縮手段を更に備え、前記モデル送信手段は、前記モデル圧縮手段による当該圧縮処理後の音声モデルを前記端末装置に送信し、前記モデル受信手段は、前記圧縮処理後の音声モデルを前記音声モデル更新装置より受信し、前記端末装置は、前記圧縮処理後の音声モデルに対して展開処理を行うモデル展開手段を更に備える、ことが好ましい。
また、本発明の音声モデル更新装置において、前記モデル更新手段が更新した前記音声モデルに対して圧縮処理を行うモデル圧縮手段を更に備え、前記モデル送信手段は、前記モデル圧縮手段による当該圧縮処理後の音声モデルを前記端末装置に送信する、ことが好ましい。
また、本発明の端末装置において、前記モデル受信手段は、圧縮処理後の音声モデルを前記音声モデル更新装置より受信し、前記圧縮処理後の音声モデルに対して展開処理を行うモデル展開手段を更に備える、ことが好ましい。
また、本発明の音声モデル更新方法において、前記音声モデル更新装置のモデル圧縮手段が、前記モデル更新手段が更新した前記音声モデルに対して圧縮処理を行うモデル圧縮ステップを更に備え、前記モデル送信ステップでは、前記モデル送信手段が、前記モデル圧縮手段による当該圧縮処理後の音声モデルを前記端末装置に送信し、前記モデル受信ステップでは、前記モデル受信手段が、前記圧縮処理後の音声モデルを前記音声モデル更新装置より受信し、前記端末装置のモデル展開手段が、前記圧縮処理後の音声モデルに対して展開処理を行うモデル展開ステップを更に備える、ことが好ましい。
更新後の音声モデルを圧縮してから送受信することにより、送受信されるデータ量が低減される。
また、本発明の電話システムにおいて、前記端末装置は、前記電話音声に対して符号化処理を行う符号化手段を更に備え、前記音声送信手段は、前記符号化手段による当該符号化処理後の電話音声を前記音声モデル更新装置に送信し、前記音声モデル更新装置は、前記符号化処理後の電話音声に対して復号化処理を行う復号化手段と、当該復号化処理後の電話音声から特徴量を計算する特徴量計算手段とを更に備え、前記音声認識手段は、前記特徴量に基づき、前記音声認識処理を行う、ことが好ましい。
また、本発明の音声モデル更新装置において、符号化処理後の電話音声に対して復号化処理を行う復号化手段と、当該復号化処理後の電話音声から特徴量を計算する特徴量計算手段と、を更に備え、前記音声認識手段は、前記特徴量に基づき、前記音声認識処理を行う、ことが好ましい。
また、本発明の端末装置において、前記電話音声に対して符号化処理を行う符号化手段を更に備え、前記音声送信手段は、前記符号化手段による当該符号化処理後の電話音声を前記音声モデル更新装置に送信する、ことが好ましい。
また、本発明の音声モデル更新方法において、前記端末装置の符号化手段が、前記電話音声に対して符号化処理を行う符号化ステップを更に備え、前記音声送信ステップでは、前記音声送信手段が、前記符号化手段による当該符号化処理後の電話音声を前記音声モデル更新装置に送信し、前記音声モデル更新装置の復号化手段が、前記符号化処理後の電話音声に対して復号化処理を行う復号化ステップと、前記音声モデル更新装置の特徴量計算手段が、当該復号化処理後の電話音声から特徴量を計算する特徴量計算ステップとを更に備え、前記音声認識ステップでは、前記音声認識手段が、前記特徴量に基づき、前記音声認識処理を行う、ことが好ましい。
このように特徴量の計算処理(特徴量の抽出処理)を音声モデル更新装置側で行っても良い。これにより、端末装置の処理負担を更に減らすことができる。
本発明によれば、ユーザに負担をかけなくても、ユーザに特化して音声モデルを更新することが可能な電話システム、端末装置、音声モデル更新装置、および音声モデル更新方法を提供することができる。
以下、添付図面を参照して本発明にかかる電話システム、端末装置、音声モデル更新装置、および音声モデル更新方法の好適な実施形態を詳細に説明する。なお、図面の説明において同一の要素には同一の符号を付し、重複する説明を省略する。
(電話システム1の全体構成)
まず、本発明の実施形態に係る電話システム1の構成について、図1を参照しながら説明する。図1は、電話システム1の構成概要図である。図1に示すように、電話システム1は、電話通信を行う複数の端末装置10、複数の端末装置10間の電話通信を中継する交換機20、および端末装置10からの電話音声を利用して音声モデルを更新する音声モデル更新装置30から構成される。端末装置10と交換機20、端末装置10と音声モデル更新装置30は通信ネットワーク40により互いに通信可能に接続されている。なお、図1には端末装置10として端末装置10Aと端末装置10Bが記載されているが、以下の説明において、端末装置10Aは発話側のユーザが使用する端末装置であり、端末装置10Bは相手のユーザが使用する端末装置であるとする。端末装置10は発話側の端末装置10Aと相手側の端末装置10Bの総称である。
まず、本発明の実施形態に係る電話システム1の構成について、図1を参照しながら説明する。図1は、電話システム1の構成概要図である。図1に示すように、電話システム1は、電話通信を行う複数の端末装置10、複数の端末装置10間の電話通信を中継する交換機20、および端末装置10からの電話音声を利用して音声モデルを更新する音声モデル更新装置30から構成される。端末装置10と交換機20、端末装置10と音声モデル更新装置30は通信ネットワーク40により互いに通信可能に接続されている。なお、図1には端末装置10として端末装置10Aと端末装置10Bが記載されているが、以下の説明において、端末装置10Aは発話側のユーザが使用する端末装置であり、端末装置10Bは相手のユーザが使用する端末装置であるとする。端末装置10は発話側の端末装置10Aと相手側の端末装置10Bの総称である。
(端末装置10の構成)
次に、端末装置10の構成について詳細に説明する。図2は端末装置10のハードウェア構成図である。図2に示すように、端末装置10は、例えば有線または無線の電話機であって、物理的には、CPU11、主記憶装置であるROM12及びRAM13、操作ボタンなどの入力デバイス14、LCDや有機ELディスプレイ、またはスピーカなどの出力デバイス15、交換機20や音声モデル更新装置30との間でデータの送受信を行う通信モジュール16、メモリディバイス等の補助記憶装置17を備えて構成される。後述する端末装置10の各機能は、CPU11、ROM12、RAM13等のハードウェア上に所定のソフトウェアを読み込ませることにより、CPU11の制御の元で入力デバイス14、出力デバイス15、通信モジュール16を動作させると共に、主記憶装置12,13や補助記憶装置17におけるデータの読み出し及び書き込みを行うことで実現される。
次に、端末装置10の構成について詳細に説明する。図2は端末装置10のハードウェア構成図である。図2に示すように、端末装置10は、例えば有線または無線の電話機であって、物理的には、CPU11、主記憶装置であるROM12及びRAM13、操作ボタンなどの入力デバイス14、LCDや有機ELディスプレイ、またはスピーカなどの出力デバイス15、交換機20や音声モデル更新装置30との間でデータの送受信を行う通信モジュール16、メモリディバイス等の補助記憶装置17を備えて構成される。後述する端末装置10の各機能は、CPU11、ROM12、RAM13等のハードウェア上に所定のソフトウェアを読み込ませることにより、CPU11の制御の元で入力デバイス14、出力デバイス15、通信モジュール16を動作させると共に、主記憶装置12,13や補助記憶装置17におけるデータの読み出し及び書き込みを行うことで実現される。
図3は、端末装置10の機能的構成要素を示すブロック図である。図3に示すように、端末装置10は、機能的には、コーデック部110(特許請求の範囲における「符号化手段」に相当)、音声格納部120(特許請求の範囲における「音声格納手段」に相当)、特徴量抽出部130(特許請求の範囲における「特徴量抽出手段」に相当)、送信部140(特許請求の範囲における「音声送信手段」に相当)、受信部150(特許請求の範囲における「モデル受信手段」に相当)、およびモデル保持部160を含んで構成されている。
コーデック部110は、電話音声に対して符号化処理および復号化処理を行うものである。コーデック部110は、自装置のユーザからの入力電話音声に対して例えばAMR(AdaptiveMulti-Rate)などの符号化処理を行い、当該符号化処理後のデータを送信部140に出力する。また、コーデック部110は、相手装置から受信部150を介して入力された符号化処理後の音声データに対して復号化処理を行う。復号化処理された電話音声は出力装置(図3では図示しないが、例えば図2で示したスピーカ等の出力デバイス)により自装置のユーザが聞ける音声として出力される。
音声格納部120は、発話側の端末装置10Aと相手側の端末装置10B間の電話通信の間、自装置のユーザによる電話音声を入力して格納するものである。音声格納部120は、自装置のユーザからの入力電話音声に対して符号化処理を行わないまま格納することが好ましい。
特徴量抽出部130は、自装置のユーザからの入力電話音声から特徴量を抽出するものである。特徴量抽出部130は、電話通信の終了後に、音声格納部120に格納された電話音声に対して当該特徴量抽出処理を行うことが好ましい。または、特徴量抽出部130は、電話通信とともに、当該特徴量抽出処理を行っても良い。例えば、電話通信処理と同時に特徴量抽出処理を行っても良く、電話通信処理とある程度の時間差(例えば2〜3秒)を置いて特徴量抽出処理を行っても良い。電話通信処理と同時に特徴量抽出処理を行う場合には、図1に示した音声格納部120は不要となる。電話通信処理とある程度の時間差を置いて特徴量抽出処理を行う場合には、音声格納部120は当該時間差に相当する音声データを一時保存するためのバッファであれば良い。抽出される特徴量データの種類としては、音声認識で一般的によく利用されている例えばMFCC(メル周波数ケプストラム係数)などが挙げられる。特徴量抽出部130は、抽出した特徴量データを送信部140に出力する。
送信部140は、符号化処理後の音声データをコーデック部110より入力し、交換機20に送信するものである。発話側の端末装置10Aの送信部140により交換機20に送信された符号化処理後の音声データは、交換機20の中継により相手側の端末装置10Bに伝達され復号化される。これにより、発話側の端末装置10Aと相手側の端末装置10Bとの間の電話通信が成立される。また、送信部140は、特徴量抽出部130より入力した特徴量データを音声モデル更新装置30に送信する。
受信部150は、相手装置から符号化処理後の音声データを受信し、これをコーデック部110に出力することにより、コーデック部110に復号化処理をさせるものである。また、受信部150は、更新後の音声モデルを音声モデル更新装置30より受信し、モデル保持部160に出力する。
モデル保持部160は、更新後の音声モデルを受信部150より入力され保持するものである。
なお、図3に図示はしないが、端末装置10は、交換機20の中継による相手装置との電話通信を全般的に制御するための制御手段を更に備えても良く、あるいはこの機能を例えば図2で示した通信モジュール16が行っても良い。また、端末装置10は自端末のユーザの音声を認識するための音声認識処理を行う手段を更に備えており、この音声認識処理手段はモデル保持部160に保持された更新後の音声モデルを用いて当該音声認識処理を行う。また、以上の説明において、発話側の端末装置を端末装置10A、相手側の端末装置を端末装置10Bとして説明し、更に発話側の端末装置10Aを中心にして説明したが、発話側と相手側とが逆になっても良く、端末装置10Aと端末装置10Bの構成は基本的には同等である。
(音声モデル更新装置30の構成)
次に、音声モデル更新装置30の構成について詳細に説明する。図2は音声モデル更新装置30のハードウェア構成図である。図2に示すように、音声モデル更新装置30は、物理的には、CPU31、ROM32及びRAM33等の主記憶装置、キーボード及びマウス等の入力デバイス34、ディスプレイ等の出力デバイス35、端末装置10との間でデータの送受信を行うためのネットワークカード等の通信モジュール36、ハードディスク等の補助記憶装置37などを含む通常のコンピュータシステムとして構成される。後述する音声モデル更新装置30の各機能は、CPU31、ROM32、RAM33等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、CPU31の制御の元で入力デバイス34、出力デバイス35、通信モジュール36を動作させると共に、主記憶装置32,33や補助記憶装置37におけるデータの読み出し及び書き込みを行うことで実現される。
次に、音声モデル更新装置30の構成について詳細に説明する。図2は音声モデル更新装置30のハードウェア構成図である。図2に示すように、音声モデル更新装置30は、物理的には、CPU31、ROM32及びRAM33等の主記憶装置、キーボード及びマウス等の入力デバイス34、ディスプレイ等の出力デバイス35、端末装置10との間でデータの送受信を行うためのネットワークカード等の通信モジュール36、ハードディスク等の補助記憶装置37などを含む通常のコンピュータシステムとして構成される。後述する音声モデル更新装置30の各機能は、CPU31、ROM32、RAM33等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、CPU31の制御の元で入力デバイス34、出力デバイス35、通信モジュール36を動作させると共に、主記憶装置32,33や補助記憶装置37におけるデータの読み出し及び書き込みを行うことで実現される。
図4は、音声モデル更新装置30の機能的構成要素を示すブロック図である。図4に示すように、音声モデル更新装置30は、機能的には、音声受信部310(特許請求の範囲における「音声受信手段」に相当)、モデル格納部320(特許請求の範囲における「モデル格納手段」に相当)、音声認識部330(特許請求の範囲における「音声認識手段」に相当)、認識結果保存部340、モデル更新部350(特許請求の範囲における「モデル更新手段」に相当)、およびモデル送信部360(特許請求の範囲における「モデル送信手段」に相当)を含んで構成されている。
音声受信部310は、発話側の端末装置10Aと相手側の端末装置10B間の電話通信の間、音声モデル更新の対象となる端末装置(図1の例では発話側の端末装置10A)のユーザによる入力電話音声を該端末装置より受信するものである。音声受信部310は、電話音声を特徴量データとして受信することが好ましい。音声受信部310は、当該受信した特徴量データを音声認識部330およびモデル更新部350に出力する。また、音声受信部310は、電話音声を送信する端末装置の特定情報(例えば電話番号など)を更に受信することが好ましく、この場合には当該特定情報を音声認識部330に更に通知することが好ましい。
モデル格納部320は、音声受信部310により受信された電話音声に対して音声認識部330が音声認識処理を行う際に使用する音声モデルを格納するものである。モデル格納部320に格納された音声モデルは相応する端末装置の特定情報と関連付けられて格納されていることが好ましい。つまり、端末装置10A用の音声モデルは端末装置10Aの特定情報と結び付けられて格納される。
音声認識部330は、音声受信部310より入力した電話音声(特徴量データ)に対して、モデル格納部320に格納された音声モデルを用いて音声認識処理を行うものである。音声認識部330は、音声受信部310より音声モデル更新の対象となる端末装置の特定情報を入力し、当該特定情報に関連付けられた音声モデルをモデル格納部320より検索して使用する。なお、音声認識の手法そのものは、例えば下記の参考文献1に開示されているように公知の技術であるため、ここでは説明を省略する。音声認識部330は、音声認識処理の結果を認識結果保存部340に出力する。
参考文献1:音声認識システム、ISBN/ASIN:4274132285、武田一哉、オーム社
参考文献1:音声認識システム、ISBN/ASIN:4274132285、武田一哉、オーム社
認識結果保存部340は、音声認識処理の結果を音声認識部330より入力し保存するものである。
モデル更新部350は、認識結果保存部340に保存された音声認識処理の結果および音声受信部310より入力した電話音声に基づき、モデル格納部320に格納された音声モデルを更新するものである。認識結果保存部340は音声認識処理の結果を音声モデル更新の対象となる端末装置の特定情報と関連付けて保存することが好ましく、この場合にモデル更新部350は当該特定情報をキーとして相応する音声モデルを更新する。なお、音声認識の結果を用いて音声モデルを更新する手法については、例えば非特許文献1にその詳細が記載されているなど、公知の技術であるため、ここでは説明を省略する。モデル更新部350は、更新後の音声モデルをモデル格納部320に出力し、端末装置の特定情報と関連付けられて保存されていた既存の音声モデルを書き換えさせる。
モデル送信部360は、モデル更新部350による当該更新後の音声モデルを音声モデル更新の対象となる端末装置に送信するものである。モデル送信部360は、モデル格納部320より端末装置の特定情報と更新後の音声モデルを読み出して、当該特定情報で特定される端末装置に当該更新後の音声モデルを送信する。または、モデル更新部350の音声モデル更新処理後に、モデル更新部350が端末装置の特定情報と更新後の音声モデルをモデル送信部360に直接出力し、モデル送信部360が当該特定情報の端末装置に当該更新後の音声モデルを送信するようにしても良い。
(電話システム1の動作)
続いて、電話システム1により行われる動作について、図5を参照しながら説明する。図5は、電話システム1の動作を示すシーケンス図である。なお、下記の説明において、音声モデル更新の対象となる端末装置は発話側の端末装置10Aである。
続いて、電話システム1により行われる動作について、図5を参照しながら説明する。図5は、電話システム1の動作を示すシーケンス図である。なお、下記の説明において、音声モデル更新の対象となる端末装置は発話側の端末装置10Aである。
最初に、発話側の端末装置10Aと相手側の端末装置10B間の電話通信が行われる。発話側の端末装置10Aから音声発信の要求が通信ネットワーク40の交換機20に通知され、通信ネットワーク40の交換機20ではこの要求を受け取り、通話の相手を特定し、相手側の端末装置10Bからの許諾があれば、通話を開始する。発話側の端末装置10Aのコーデック部110は、自装置のユーザからの入力電話音声に対して例えばAMR(AdaptiveMulti-Rate)などの符号化処理を行い、発話側の端末装置10Aの送信部140は当該符号化処理後のデータを交換機20に送信する。発話側の端末装置10Aの送信部140により交換機20に送信された符号化処理後の音声データは、交換機20の中継により相手側の端末装置10Bに伝達され、相手側の端末装置10Bのコーデック部110により復号化され、音声として出力される。相手側の端末装置10Bからの音声についても、同様に、符号化され、交換機20の中継により送受信され、発話側の端末装置10Aで復号化される。なお、図1には、送受信される符号化された音声が符号化音声50として示されている。以上により、発話側の端末装置10Aと相手側の端末装置10Bとの間の電話通信が成立される(ステップS11)。
ステップS11の電話通信の間に、発話側の端末装置10Aの音声格納部120は自装置のユーザによる電話音声を格納する。音声格納部120は、自装置のユーザからの入力電話音声に対して符号化処理を行わないまま格納する(ステップS12)。
次に、発話側の端末装置10Aの特徴量抽出部130が、自装置のユーザからの入力電話音声から特徴量を抽出する。図5のシーケンス図では、特徴量抽出部130が、ステップS11の電話通信の終了後に、ステップS12にて音声格納部120に格納された電話音声に対して当該特徴量抽出処理を行うことを示している。一方、図示はしないが、特徴量抽出部130が、ステップS11の電話通信とともに、すなわち電話通信処理と同時に、または電話通信処理とある程度の時間差(例えば2〜3秒)を置いて特徴量抽出処理を行っても良い。ステップS11の電話通信処理と同時に特徴量抽出処理を行う場合には、ステップS12の音声格納処理は不要となる。電話通信処理とある程度の時間差を置いて特徴量抽出処理を行う場合には、ステップS12の音声格納処理では、音声格納部120がバッファとして当該時間差に相当する音声データを一時保存する(ステップS13、特許請求の範囲の「特徴量抽出ステップ」に相当)。
次に、発話側の端末装置10Aの送信部140が、特徴量抽出部130が抽出した特徴量データを音声モデル更新装置30に送信する。なお、図1には、送信される特徴量データが音声特徴量60として示されている(ステップS14、特許請求の範囲の「音声送信ステップ」に相当)。
次に、音声モデル更新装置30の音声受信部310が特徴量データを受信する(ステップS15、特許請求の範囲の「音声受信ステップ」に相当)。
次に、音声モデル更新装置30の音声認識部330が、ステップS15にて受信した特徴量データに対して、モデル格納部320に格納された音声モデルを用いて音声認識処理を行う。認識結果の文字列は認識結果保存部340に保存される(ステップS16、特許請求の範囲の「音声認識ステップ」に相当)。
次に、音声モデル更新装置30のモデル更新部350が、認識結果保存部340に保存された音声認識処理の結果および音声受信部310より入力した電話音声に基づき、モデル格納部320に格納された音声モデルを更新する(ステップS17、特許請求の範囲の「モデル更新ステップ」に相当)。
次に、音声モデル更新装置30のモデル送信部360が、ステップS17にてモデル更新部350により更新された音声モデルを端末装置10Aに送信する。なお、図1には、送信される更新後の音声モデルが音声モデル70として示されている(ステップS18、特許請求の範囲の「モデル送信ステップ」に相当)。
次に、端末装置10Aの受信部150が、ステップS18にて送信される更新後の音声モデルを受信し、モデル保持部160に保持させる(ステップS19、特許請求の範囲の「モデル受信ステップ」に相当)。
(他の実施態様、その1)
続いて、本実施形態の他の実施態様について説明する。記載を簡潔にするため、重複する部分については説明を省略する。図6は本実施態様における端末装置10の機能ブロック図であり、図7は本実施態様における音声モデル更新装置30の機能ブロック図である。
続いて、本実施形態の他の実施態様について説明する。記載を簡潔にするため、重複する部分については説明を省略する。図6は本実施態様における端末装置10の機能ブロック図であり、図7は本実施態様における音声モデル更新装置30の機能ブロック図である。
図6に示すように、端末装置10は、特徴量抽出部130が抽出した特徴量データに対して圧縮処理を行う特徴量圧縮部170(特許請求の範囲における「特徴量圧縮手段」、「特徴量圧縮ステップ」に相当)を更に備える。送信部140は、特徴量圧縮部170による当該圧縮処理後の特徴量データを音声モデル更新装置30に送信する。一方、図7に示すように、音声モデル更新装置30は、圧縮処理後の特徴量データに対して展開処理を行う特徴量展開部370(特許請求の範囲における「特徴量展開手段」、「特徴量展開ステップ」に相当)を更に備える。音声モデル更新装置30の音声受信部310は、圧縮処理後の特徴量データを端末装置10より受信し特徴量展開部370に出力する。なお、端末装置10の特徴量圧縮部170による圧縮処理では、例えばベクトル量子化などの手法が用いられる。
また、図7に示すように、音声モデル更新装置30は、モデル更新部350が更新した音声モデルに対して圧縮処理を行うモデル圧縮部380(特許請求の範囲における「モデル圧縮手段」、「モデル圧縮ステップ」に相当)を更に備える。モデル送信部360は、モデル圧縮部380による当該圧縮処理後の音声モデルを端末装置10に送信する。一方、図6に示すように、端末装置10は、圧縮処理後の音声モデルに対して展開処理を行うモデル展開部180(特許請求の範囲における「モデル展開手段」、「モデル展開ステップ」に相当)を更に備える。端末装置10の受信部150は、圧縮処理後の音声モデルを音声モデル更新装置30より受信しモデル展開部180に出力する。
(他の実施態様、その2)
続いて、本実施形態の更に他の実施態様について説明する。図8は本実施態様における端末装置10の機能ブロック図であり、図9は本実施態様における音声モデル更新装置30の機能ブロック図である。
続いて、本実施形態の更に他の実施態様について説明する。図8は本実施態様における端末装置10の機能ブロック図であり、図9は本実施態様における音声モデル更新装置30の機能ブロック図である。
図8に示すように、端末装置10に音声格納部120と特徴量抽出部130とが存在しない。特徴量計算(特徴量抽出)を音声モデル更新装置30側で行うからである。一方、端末装置10のコーデック部110は、符号化処理後の音声データを送信部140に出力し交換機20および音声モデル更新装置30に送信させる。
音声モデル更新装置30は、図9に示すように、符号化処理後の電話音声に対して復号化処理を行う復号化部390(特許請求の範囲における「復号化手段」に相当)と、当該復号化処理後の電話音声から特徴量を計算する特徴量計算部391(特許請求の範囲における「特徴量計算手段」に相当)とを更に備える。そして、音声認識部330は、特徴量計算部391が計算した特徴量データに基づき、音声認識処理を行う。
図10は、本実施態様において、電話システム1で行われる動作を示すシーケンス図である。図5のシーケンス図と比べると、ステップS12の電話音声格納処理、およびステップS13の特徴量抽出処理が実行されない。また、ステップS14の特徴量送信処理の代わりに、ステップS21にて、符号化された音声データが音声モデル更新装置30に送信される。なお、符号化処理は、ステップS11にて既に行われている(特許請求の範囲における「符号化ステップ」に相当)。音声モデル更新装置30側では、復号化部390による復号化処理(ステップS22、特許請求の範囲における「復号化ステップ」に相当)、および特徴量計算部391による特徴量計算処理(ステップS23、特許請求の範囲における「特徴量計算ステップ」に相当)が行われる。その他の処理については、図5のシーケンス図の場合と同等である。
(電話システム1の作用及び効果)
続いて、本実施形態にかかる電話システム1の作用及び効果について説明する。本実施形態の電話システム1によれば、複数の端末装置10間の電話音声のデータが音声モデル更新装置30に送信され、音声モデル更新装置30は当該電話音声データを用いて音声モデルを更新し、当該更新後の音声モデルが端末装置10に送信される。つまり、音声モデルの更新に使われる学習データはユーザの電話音声であり、この電話音声はユーザの通常の電話通信によるものである。言い換えれば、音声モデル更新装置30は音声モデルの更新のためにわざわざユーザに発話をさせる必要がなく、ユーザの通常の端末装置10の使用態様からそのユーザ用の音声モデルを更新するための学習データを得ることができる。以上により、ユーザに負担をかけなくても、ユーザの電話音声を用いてユーザに特化した音声モデル更新を行うことができる。
続いて、本実施形態にかかる電話システム1の作用及び効果について説明する。本実施形態の電話システム1によれば、複数の端末装置10間の電話音声のデータが音声モデル更新装置30に送信され、音声モデル更新装置30は当該電話音声データを用いて音声モデルを更新し、当該更新後の音声モデルが端末装置10に送信される。つまり、音声モデルの更新に使われる学習データはユーザの電話音声であり、この電話音声はユーザの通常の電話通信によるものである。言い換えれば、音声モデル更新装置30は音声モデルの更新のためにわざわざユーザに発話をさせる必要がなく、ユーザの通常の端末装置10の使用態様からそのユーザ用の音声モデルを更新するための学習データを得ることができる。以上により、ユーザに負担をかけなくても、ユーザの電話音声を用いてユーザに特化した音声モデル更新を行うことができる。
また、音声モデルの更新処理は、端末装置10側ではなく、音声モデル更新装置30側で行われる。このため、音声モデル更新処理の精度を高めることができる。また、端末装置10側からみれば、音声モデル更新処理のような負荷の大きい処理に対する処理負担を減らしながらも、高精度で更新された音声モデルを得ることができる。特に、音声モデル更新装置30側で、大規模な言語モデルを利用することが可能な場合には、高精度で発話内容を推定することができるので、更新される音声モデルの精度が更に高くなる。
本実施形態において、特徴量の抽出処理を端末装置10側で行っても良い。これにより音声データをそのまま送受信する場合に比べて送受信されるデータ量が低減される。
本実施形態において、端末装置10による電話通信処理と特徴量抽出処理とが異なるタイミングで行われても良い。これにより端末装置10に両処理の処理負荷が集中することを防止できる。
本実施形態において、端末装置10による電話通信処理と特徴量抽出処理とが同時にまたはある程度の時間差を置いて行われても良い。これにより電話音声を格納するための別途の記憶手段(音声格納部120)を設ける必要がなくなる。または例えば2〜3秒の音声データを一時記憶するための少量の記憶容量で済む。
本実施形態において、特徴量を圧縮してから送受信することにより、送受信されるデータ量が低減される。
本実施形態において、更新後の音声モデルを圧縮してから送受信することにより、送受信されるデータ量が低減される。
本実施形態において、特徴量の計算処理を音声モデル更新装置30側で行っても良い。これにより、端末装置10の処理負担を更に減らすことができる。
以上、本発明の実施形態について説明したが、以上の説明は本発明の一側面に過ぎず、本発明が上記例に限定されないことは言うまでもない。例えば、上記例においては、音声モデル更新の対象となる端末装置を発話側の端末装置10Aとしたが、これに限らず、相手側の端末装置10Bであっても良い。この場合には、相手側の端末装置10Bの方から特徴量データを音声モデル更新装置30に送信し、音声モデル更新装置30は端末装置10B用の音声モデルを更新して端末装置10Bに送り返す。また、端末装置10が無線通信を行う場合には、電話システム1は図示しない無線基地局を更に備え、端末装置10は無線基地局を経由し交換機20に接続することが好ましい。
更に、以上の説明では、例えば図1に示したように端末装置10と音声モデル更新装置30とが別の装置として構成され通信ネットワーク40を通じてデータ通信を行うように構成されていたが、本発明の思想がこのような構成態様に限られないことは言うまでもない。例えば、音声モデル更新装置30が、ユーザの電話通信上の発話を利用して音声モデルを更新する例えば一つの機能モジュールとして、端末装置10内に組み込まれて構成されていても良い。つまり、音声モデルの更新処理が端末装置10内で行われても良い。この場合には、端末装置10と音声モデル更新装置30との間の通信ネットワーク40を通じた音声データ送受信処理や更新後モデルの送受信処理が不要となる。
1…電話システム、10,10A,10B…端末装置、20…交換機、30…音声モデル更新装置、40…通信ネットワーク、110…コーデック部、120…音声格納部、130…特徴量抽出部、140…送信部、150…受信部、160…モデル保持部、170…特徴量圧縮部、180…モデル展開部、310…音声受信部、320…モデル格納部、330…音声認識部、340…認識結果保存部、350…モデル更新部、360…モデル送信部、370…特徴量展開部、380…モデル圧縮部、390…復号化部、391…特徴量計算部。
Claims (24)
- 電話通信を行う複数の端末装置、および音声モデルを更新する音声モデル更新装置を含む電話システムであって、
前記音声モデル更新装置は、
前記電話通信における電話音声を前記端末装置より受信する音声受信手段と、
前記音声モデルを格納するモデル格納手段と、
前記モデル格納手段に格納された前記音声モデルに基づき、前記音声受信手段が受信した前記電話音声に対して音声認識処理を行う音声認識手段と、
前記音声認識手段の当該音声認識処理結果に基づき、前記モデル格納手段に格納された前記音声モデルを更新するモデル更新手段と、
前記モデル更新手段による当該更新後の音声モデルを前記端末装置に送信するモデル送信手段と、
を備え、
前記端末装置は、
前記電話音声を前記音声モデル更新装置に送信する音声送信手段と、
前記更新後の音声モデルを前記音声モデル更新装置より受信するモデル受信手段と、
ことを特徴とする電話システム。 - 前記端末装置は、前記電話音声から特徴量を抽出する特徴量抽出手段を更に備え、
前記音声送信手段は、前記特徴量抽出手段が抽出した前記特徴量を前記音声モデル更新装置に送信し、
前記音声受信手段は、前記特徴量を前記電話音声として前記端末装置より受信し、
前記音声認識手段は、前記特徴量に基づき、前記電話音声に対した前記音声認識処理を行う、
ことを特徴とする請求項1に記載の電話システム。 - 前記端末装置は、前記電話通信の間、前記電話音声を格納する音声格納手段を更に備え、
前記特徴量抽出手段は、前記電話通信の終了後に、前記音声格納手段に格納された前記電話音声に対して当該特徴量抽出処理を行う、
ことを特徴とする請求項2に記載の電話システム。 - 前記特徴量抽出手段は、前記電話通信とともに、当該特徴量抽出処理を行う、
ことを特徴とする請求項2に記載の電話システム。 - 前記端末装置は、前記特徴量抽出手段が抽出した前記特徴量に対して圧縮処理を行う特徴量圧縮手段を更に備え、
前記音声送信手段は、前記特徴量圧縮手段による当該圧縮処理後の特徴量を前記音声モデル更新装置に送信し、
前記音声受信手段は、前記圧縮処理後の特徴量を前記端末装置より受信し、
前記音声モデル更新装置は、前記圧縮処理後の特徴量に対して展開処理を行う特徴量展開手段を更に備える、
ことを特徴とする請求項2〜4の何れか1項に記載の電話システム。 - 前記音声モデル更新装置は、前記モデル更新手段が更新した前記音声モデルに対して圧縮処理を行うモデル圧縮手段を更に備え、
前記モデル送信手段は、前記モデル圧縮手段による当該圧縮処理後の音声モデルを前記端末装置に送信し、
前記モデル受信手段は、前記圧縮処理後の音声モデルを前記音声モデル更新装置より受信し、
前記端末装置は、前記圧縮処理後の音声モデルに対して展開処理を行うモデル展開手段を更に備える、
ことを特徴とする請求項1〜5の何れか1項に記載の電話システム。 - 前記端末装置は、前記電話音声に対して符号化処理を行う符号化手段を更に備え、
前記音声送信手段は、前記符号化手段による当該符号化処理後の電話音声を前記音声モデル更新装置に送信し、
前記音声モデル更新装置は、前記符号化処理後の電話音声に対して復号化処理を行う復号化手段と、当該復号化処理後の電話音声から特徴量を計算する特徴量計算手段とを更に備え、
前記音声認識手段は、前記特徴量に基づき、前記音声認識処理を行う、
ことを特徴とする請求項1に記載の電話システム。 - 電話通信を行う複数の端末装置、および音声モデルを更新する音声モデル更新装置を含む電話システムであって、
前記音声モデル更新装置は、前記端末装置からの電話音声を利用して前記音声モデルを更新する、
ことを特徴とする電話システム。 - 電話通信を行う複数の端末装置、および音声モデルを更新する音声モデル更新装置を含む電話システムにおける、前記音声モデル更新装置であって、
前記電話通信における電話音声を前記端末装置より受信する音声受信手段と、
前記音声モデルを格納するモデル格納手段と、
前記モデル格納手段に格納された前記音声モデルに基づき、前記音声受信手段が受信した前記電話音声に対して音声認識処理を行う音声認識手段と、
前記音声認識手段の当該音声認識処理結果に基づき、前記モデル格納手段に格納された前記音声モデルを更新するモデル更新手段と、
前記モデル更新手段による当該更新後の音声モデルを前記端末装置に送信するモデル送信手段と、
を備えることを特徴とする音声モデル更新装置。 - 前記音声受信手段は、前記電話音声から抽出された特徴量を前記電話音声として前記端末装置より受信し、
前記音声認識手段は、前記特徴量に基づき、前記電話音声に対した前記音声認識処理を行う、
ことを特徴とする請求項9に記載の音声モデル更新装置。 - 前記音声受信手段は、圧縮処理後の前記特徴量を前記端末装置より受信し、
前記圧縮処理後の特徴量に対して展開処理を行う特徴量展開手段を更に備える、
ことを特徴とする請求項10に記載の音声モデル更新装置。 - 前記モデル更新手段が更新した前記音声モデルに対して圧縮処理を行うモデル圧縮手段を更に備え、
前記モデル送信手段は、前記モデル圧縮手段による当該圧縮処理後の音声モデルを前記端末装置に送信する、
ことを特徴とする請求項9〜11の何れか1項に記載の音声モデル更新装置。 - 符号化処理後の電話音声に対して復号化処理を行う復号化手段と、
当該復号化処理後の電話音声から特徴量を計算する特徴量計算手段と、
を更に備え、
前記音声認識手段は、前記特徴量に基づき、前記音声認識処理を行う、
ことを特徴とする請求項9に記載の音声モデル更新装置。 - 電話通信を行う複数の端末装置、および音声モデルを更新する音声モデル更新装置を含む電話システムにおける、前記端末装置であって、
電話音声を前記音声モデル更新装置に送信する音声送信手段と、
更新後の音声モデルを前記音声モデル更新装置より受信するモデル受信手段と、
を備えることを特徴とする端末装置。 - 前記電話音声から特徴量を抽出する特徴量抽出手段を更に備え、
前記音声送信手段は、前記特徴量抽出手段が抽出した前記特徴量を前記音声モデル更新装置に送信する、
ことを特徴とする請求項14に記載の端末装置。 - 前記特徴量抽出手段が抽出した前記特徴量に対して圧縮処理を行う特徴量圧縮手段を更に備え、
前記音声送信手段は、前記特徴量圧縮手段による当該圧縮処理後の特徴量を前記音声モデル更新装置に送信する、
ことを特徴とする請求項15に記載の端末装置。 - 前記モデル受信手段は、圧縮処理後の音声モデルを前記音声モデル更新装置より受信し、
前記圧縮処理後の音声モデルに対して展開処理を行うモデル展開手段を更に備える、
ことを特徴とする請求項14〜16の何れか1項に記載の端末装置。 - 前記電話音声に対して符号化処理を行う符号化手段を更に備え、
前記音声送信手段は、前記符号化手段による当該符号化処理後の電話音声を前記音声モデル更新装置に送信する、
ことを特徴とする請求項14に記載の端末装置。 - 電話通信を行う複数の端末装置、および音声モデルを更新する音声モデル更新装置を含む電話システムにおける、音声モデル更新方法であって、
前記端末装置の音声送信手段が、前記電話通信における電話音声を前記音声モデル更新装置に送信する音声送信ステップと、
前記音声モデル更新装置の音声受信手段が、前記電話音声を前記端末装置より受信する音声受信ステップと、
前記音声モデル更新装置の音声認識手段が、前記音声モデル更新装置のモデル格納手段に格納された前記音声モデルに基づき、前記音声受信手段が受信した前記電話音声に対して音声認識処理を行う音声認識ステップと、
前記音声モデル更新装置のモデル更新手段が、前記音声認識手段の当該音声認識処理結果に基づき、前記モデル格納手段に格納された前記音声モデルを更新するモデル更新ステップと、
前記音声モデル更新装置のモデル送信手段が、前記モデル更新手段による当該更新後の音声モデルを前記端末装置に送信するモデル送信ステップと、
前記端末装置のモデル受信手段が、前記更新後の音声モデルを前記音声モデル更新装置より受信するモデル受信ステップと、
を備えることを特徴とする音声モデル更新方法。 - 前記端末装置の特徴量抽出手段が、前記電話音声から特徴量を抽出する特徴量抽出ステップを更に備え、
前記音声送信ステップでは、前記音声送信手段が、前記特徴量抽出手段が抽出した前記特徴量を前記音声モデル更新装置に送信し、
前記音声受信ステップでは、前記音声受信手段が、前記特徴量を前記電話音声として前記端末装置より受信し、
前記音声認識ステップでは、前記音声認識手段が、前記特徴量に基づき、前記電話音声に対した前記音声認識処理を行う、
ことを特徴とする請求項19に記載の音声モデル更新方法。 - 前記端末装置の特徴量圧縮手段が、前記特徴量抽出手段が抽出した前記特徴量に対して圧縮処理を行う特徴量圧縮ステップを更に備え、
前記音声送信ステップでは、前記音声送信手段が、前記特徴量圧縮手段による当該圧縮処理後の特徴量を前記音声モデル更新装置に送信し、
前記音声受信ステップでは、前記音声受信手段が、前記圧縮処理後の特徴量を前記端末装置より受信し、
前記音声モデル更新装置の特徴量展開手段が、前記圧縮処理後の特徴量に対して展開処理を行う特徴量展開ステップを更に備える、
ことを特徴とする請求項20に記載の音声モデル更新方法。 - 前記音声モデル更新装置のモデル圧縮手段が、前記モデル更新手段が更新した前記音声モデルに対して圧縮処理を行うモデル圧縮ステップを更に備え、
前記モデル送信ステップでは、前記モデル送信手段が、前記モデル圧縮手段による当該圧縮処理後の音声モデルを前記端末装置に送信し、
前記モデル受信ステップでは、前記モデル受信手段が、前記圧縮処理後の音声モデルを前記音声モデル更新装置より受信し、
前記端末装置のモデル展開手段が、前記圧縮処理後の音声モデルに対して展開処理を行うモデル展開ステップを更に備える、
ことを特徴とする請求項19〜21の何れか1項に記載の音声モデル更新方法。 - 前記端末装置の符号化手段が、前記電話音声に対して符号化処理を行う符号化ステップを更に備え、
前記音声送信ステップでは、前記音声送信手段が、前記符号化手段による当該符号化処理後の電話音声を前記音声モデル更新装置に送信し、
前記音声モデル更新装置の復号化手段が、前記符号化処理後の電話音声に対して復号化処理を行う復号化ステップと、前記音声モデル更新装置の特徴量計算手段が、当該復号化処理後の電話音声から特徴量を計算する特徴量計算ステップとを更に備え、
前記音声認識ステップでは、前記音声認識手段が、前記特徴量に基づき、前記音声認識処理を行う、
ことを特徴とする請求項19に記載の音声モデル更新方法。 - 電話通信を行う複数の端末装置、および音声モデルを更新する音声モデル更新装置を含む電話システムにおける、音声モデル更新方法であって、
前記音声モデル更新装置が、前記端末装置からの電話音声を利用して前記音声モデルを更新する、
ことを特徴とする音声モデル更新方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009214928A JP2011064913A (ja) | 2009-09-16 | 2009-09-16 | 電話システム、端末装置、音声モデル更新装置、および音声モデル更新方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009214928A JP2011064913A (ja) | 2009-09-16 | 2009-09-16 | 電話システム、端末装置、音声モデル更新装置、および音声モデル更新方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011064913A true JP2011064913A (ja) | 2011-03-31 |
Family
ID=43951230
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009214928A Pending JP2011064913A (ja) | 2009-09-16 | 2009-09-16 | 電話システム、端末装置、音声モデル更新装置、および音声モデル更新方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011064913A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017515395A (ja) * | 2014-04-30 | 2017-06-08 | クアルコム,インコーポレイテッド | 音声プロファイルの管理および発話信号の生成 |
US10607597B2 (en) | 2017-09-18 | 2020-03-31 | Samsung Electronics Co., Ltd. | Speech signal recognition system and method |
US11200904B2 (en) | 2018-05-25 | 2021-12-14 | Samsung Electronics Co., Ltd. | Electronic apparatus, controlling method and computer readable medium |
WO2022092539A1 (ko) * | 2020-10-27 | 2022-05-05 | 삼성전자 주식회사 | 사용자 모델을 관리하는 전자 장치 및 이의 동작 방법 |
US11929079B2 (en) | 2020-10-27 | 2024-03-12 | Samsung Electronics Co., Ltd | Electronic device for managing user model and operating method thereof |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002091477A (ja) * | 2000-09-14 | 2002-03-27 | Mitsubishi Electric Corp | 音声認識システム、音声認識装置、音響モデル管理サーバ、言語モデル管理サーバ、音声認識方法及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2003140690A (ja) * | 2001-11-06 | 2003-05-16 | Denso Corp | 情報システム、電子機器、プログラム |
JP2003241788A (ja) * | 2002-02-20 | 2003-08-29 | Ntt Docomo Inc | 音声認識装置及び音声認識システム |
JP2005107550A (ja) * | 2001-09-13 | 2005-04-21 | Matsushita Electric Ind Co Ltd | 端末装置、サーバ装置および音声認識方法 |
-
2009
- 2009-09-16 JP JP2009214928A patent/JP2011064913A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002091477A (ja) * | 2000-09-14 | 2002-03-27 | Mitsubishi Electric Corp | 音声認識システム、音声認識装置、音響モデル管理サーバ、言語モデル管理サーバ、音声認識方法及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2005107550A (ja) * | 2001-09-13 | 2005-04-21 | Matsushita Electric Ind Co Ltd | 端末装置、サーバ装置および音声認識方法 |
JP2003140690A (ja) * | 2001-11-06 | 2003-05-16 | Denso Corp | 情報システム、電子機器、プログラム |
JP2003241788A (ja) * | 2002-02-20 | 2003-08-29 | Ntt Docomo Inc | 音声認識装置及び音声認識システム |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017515395A (ja) * | 2014-04-30 | 2017-06-08 | クアルコム,インコーポレイテッド | 音声プロファイルの管理および発話信号の生成 |
US10607597B2 (en) | 2017-09-18 | 2020-03-31 | Samsung Electronics Co., Ltd. | Speech signal recognition system and method |
US11200904B2 (en) | 2018-05-25 | 2021-12-14 | Samsung Electronics Co., Ltd. | Electronic apparatus, controlling method and computer readable medium |
WO2022092539A1 (ko) * | 2020-10-27 | 2022-05-05 | 삼성전자 주식회사 | 사용자 모델을 관리하는 전자 장치 및 이의 동작 방법 |
US11929079B2 (en) | 2020-10-27 | 2024-03-12 | Samsung Electronics Co., Ltd | Electronic device for managing user model and operating method thereof |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3728177B2 (ja) | 音声処理システム、装置、方法及び記憶媒体 | |
US10607600B2 (en) | System and method for mobile automatic speech recognition | |
US20200312329A1 (en) | Performing speech recognition using a local language context including a set of words with descriptions in terms of components smaller than the words | |
CN102543071B (zh) | 用于移动设备的语音识别系统和方法 | |
US8898065B2 (en) | Configurable speech recognition system using multiple recognizers | |
JP4902617B2 (ja) | 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム | |
JP2003044091A (ja) | 音声認識システム、携帯情報端末、音声情報処理装置、音声情報処理方法および音声情報処理プログラム | |
Cohen | Embedded speech recognition applications in mobile phones: Status, trends, and challenges | |
JP2015011170A (ja) | ローカルな音声認識を行なう音声認識クライアント装置 | |
KR102687184B1 (ko) | Wfst 디코딩 시스템, 이를 포함하는 음성 인식 시스템 및 wfst 데이터 저장 방법 | |
JP2011064913A (ja) | 電話システム、端末装置、音声モデル更新装置、および音声モデル更新方法 | |
JP3969908B2 (ja) | 音声入力端末器、音声認識装置、音声通信システム及び音声通信方法 | |
CN107104994A (zh) | 语音识别方法、电子装置及语音识别系统 | |
JP2002268681A (ja) | 音声認識システム及び方法及び該システムに用いる情報処理装置とその方法 | |
JP5050175B2 (ja) | 音声認識機能付情報処理端末 | |
JP6549009B2 (ja) | 通信端末及び音声認識システム | |
JP5510069B2 (ja) | 翻訳装置 | |
JP2002049390A (ja) | 音声認識方法およびサーバならびに音声認識システム | |
JP2002169750A (ja) | ブラウザ搭載装置 | |
KR101165906B1 (ko) | 음성-텍스트 변환 중계 장치 및 그 제어방법 | |
JP2003241796A (ja) | 音声認識システムおよびその制御方法 | |
JP4445371B2 (ja) | 認識語彙の登録装置と音声認識装置および方法 | |
KR20110021439A (ko) | 음성 스트림 변환 장치 및 방법 | |
KR20060063420A (ko) | 휴대단말기에서의 음성인식방법 및 이를 구비한 휴대단말기 | |
JP2003308083A (ja) | 音声合成処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120228 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121119 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121127 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130319 |