JP7423056B2

JP7423056B2 - 推論器および推論器の学習方法

Info

Publication number: JP7423056B2
Application number: JP2020059962A
Authority: JP
Inventors: 勝李; シュガンルー; 恒河井
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2024-01-29
Anticipated expiration: 2040-03-30
Also published as: JP2021157145A

Description

本技術は、音声認識および音声合成が可能な推論器、ならびに、その学習方法に関する。

音声認識（ＡＳＲ：automatic speech recognition；以下「ＡＳＲ」と略称することもある。）および音声合成（ＴＴＳ：text-to-speech；以下「ＴＴＳ」と略称することもある。）は、いずれもヒューマンマシンインターフェイスのコア技術である。これらの技術は、パーソナルコンピュータやスマートフォンに実装される音声アシスタント機能や、スマートスピーカなどのように、音声による情報検索サービスなどに利用されている。また、これらの技術は、音声翻訳機などにも利用されている。

概略すると、ＡＳＲは、発話された音声シーケンスをワードシーケンスにマッピングするものであり、ＴＴＳは、ＡＳＲとは逆方向に、ワードシーケンスを音声シーケンスにマッピングするものである。

機械学習で用いられる統計的フレームワークにおいて、ＡＳＲおよびＴＴＳは、隠れマルコフモデル（ＨＭＭ：hidden Markov model）にガウス混合分布（ＧＭＭ：Gaussian Mixture Model）を結合したＧＭＭ－ＨＭＭや、深層ニューラルネットワーク（ＤＮＮ：deep neural network）にガウス混合分布（ＧＭＭ）を結合したＤＮＮ－ＨＭＭなどのように、ハイブリッドモデルが用いられてきた。これらのハイブリッドモデルは、独立して最適化された他のコンポーネントとパイプラインされて、システムを構成することになる。

ＡＳＲには、音響モデルおよび言語モデルが必要となる。ＴＴＳには、合成波形を生成するためのソースフィルタモデルのボコーダが必要となる。パイプラインを簡素化するために、ＡＳＲについては、音響モデルと言語モデルとを統合したＥ２Ｅ（end-to-end）モデルが提案されており、ＴＴＳについては、ＷａｖｅＮｅｔを用いたＥ２Ｅモデルが提案されている。

上述したように、ＡＳＲとＴＴＳとは、技術的に異なったものであるが、これを統合しようとする研究がなされている。

例えば、サイクル一貫性学習（cycle-consistency training）やオートエンコーダを用いて、ＡＳＲおよびＴＴＳを一緒に学習させることで、ＡＳＲの性能を向上できることが報告されている（例えば、非特許文献１および２など参照）。また、ＡＳＲ用のデータ拡張（data augmentation）学習方法がＴＴＳの性能向上には有効であると報告されている（非特許文献３など参照）。また、ＡＳＲとＴＴＳとを結合したモデルによりマシン音声チェーンを半教師あり学習できること、および、互いにペアとはならないデータのみを用いて学習することで、ＡＳＲとＴＴＳとを結合したモデルの性能を向上できることが報告されている（非特許文献４および５など参照）。さらに、構造化カリキュラム学習によって、音声から音声に直接翻訳するシステムも提案されている（非特許文献６など参照）。

T. Hori and et al., "Cycle-consistency training for end-to-end speech recognition," in Proc. IEEE-ICASSP, 2019. S. Karita and et al., "Semi-supervised end-to-end speech recognition using text-to-speech and autoencoders," in Proc. IEEE-ICASSP, 2019. S.Ueno and et al., "Multi-speaker sequence-to-sequence speech synthesis for data augmentation in acoustic-to-word speech recognition," in Proc. IEEE-ICASSP, 2019. A. Tjandra and et al., "Listening while speaking: Speech chain by deep learning," in Proc. ASRU, 2017. A. Tjandra and et al., "Machine speech chain with one-shot speaker adaptation," in Proc. INTERSPEECH, 2018. T. Kano, S. Sakti, and S. Nakamura, "Structure based curriculum learning for end-to-end English-Japanese speech translation," in Proc. INTERSPEECH, 2017. M. Alzantot and et al., "Did you hear that? adversarial examples against automatic speech recognition," NIPS 2017 Machine Deception workshop, 2017. M. Cisse and et al., "Houdini: Fooling deep structured visual and speech recognition models with adversarial examples," in Proc. NIPS, pp. 6977-6987. 2017. G. Zhang and et al., "Dolphinattack: Inaudible voice commands," in ACM Conference on Computer and Communications Security (CCS). ACM, 2017, pp. 103-117. N. Carlini and et al., "Hidden voice commands," in Proc. USENIX, 2016, pp. 513-530. H. Abdullah and et al., "Practical hidden voice attacks against speech and speaker recognition systems," NDSS, 2019. Steve Young, Gunnar Evermann, Mark Gales, Thomas Hain, Dan Kershaw, Xunying (Andrew) Liu, Gareth Moore, Julian Odell, Dave Ollason, Dan Povey, Valtcho Valtchev, and Phil Woodland, "The HTK book" version 3.4.1., In Tutorial Books, 2009. Vijayaditya Peddinti, Daniel Povey, and Sanjeev Khudanpur, "A time delay neural network architecture for efficient modeling of long temporal contexts," In Proc. INTERSPEECH, 2015.

上述した先行技術においては、ＡＳＲとＴＴＳとを完全に統合するところまでは至っていない。本発明者らは、新たなアイデアに基づいて鋭意研究の結果、先行技術には何ら開示されていない、ＡＳＲとＴＴＳとを統合可能な新たなフレームワークに想到した。

ある実施の形態に従う推論器は、音声信号の入力に対して、当該音声信号に含まれる音要素を示す状態シーケンスを出力する学習済の音響モデルと、入力された音声信号を変換して出力する学習済の音声変換モデルとを含む。音響モデルは、音声信号と対応する状態シーケンスとの組を第１の教師データとして用いて学習されたものである。音声変換モデルは、音響モデルから目的の状態シーケンスが出力されるように、音響モデルに入力する音声信号を繰り返し更新することで決定された敵対的音声と、当該目的の状態シーケンスに対応する音声信号との組を第２の教師データとして用いて学習されたものである。

敵対的音声は、目的の状態シーケンスと、音響モデルに入力された音声信号に対応して出力される状態シーケンスと、の誤差に応じた損失の勾配に基づいて、音声信号を更新することで決定されてもよい。

決定された敵対的音声のうち、予め定められた評価基準を満たしている敵対的音声が第２の教師データに採用されてもよい。

敵対的音声は、音声信号を予め定められた回数に亘って更新することで決定されてもよい。

推論器は、任意の音声信号が音響モデルに入力されることで出力される状態シーケンスを対応するテキストに復元する言語モデルをさらに含んでいてもよい。

推論器は、任意のテキストに対して、当該テキストに対応する状態シーケンスを出力する状態シーケンス生成モジュールと、状態シーケンス生成モジュールが出力した状態シーケンスと同じ状態シーケンスが音響モデルから出力されるように、音響モデルに入力する音声信号を繰り返し更新することで敵対的音声を決定する敵対的音声生成モジュールとをさらに含んでいてもよい。音声変換モデルは、敵対的音声生成モジュールにより決定された敵対的音声が入力されることで、任意のテキストに対応する音声を出力するようにしてもよい。

別の実施の形態に従えば、推論器の学習方法が提供される。推論器は、音声信号の入力に対して、当該音声信号に含まれる音要素を示す状態シーケンスを出力する音響モデルと、入力された音声信号を変換して出力する音声変換モデルとを含む。学習方法は、音声信号と対応する状態シーケンスとの組からなる第１の教師データを用意するステップと、第１の教師データを用いて、音響モデルを学習するステップと、音響モデルから目的の状態シーケンスが出力されるように、音響モデルに入力する音声信号を繰り返し更新することで敵対的音声を決定するステップと、決定された敵対的音声と対応する音声信号との組からなる第２の教師データを用意するステップと、第２の教師データを用いて、音声変換モデルを学習するステップとを含む。

さらに別の実施の形態に従えば、コンピュータに上記の学習方法を実行させるための学習プログラムが提供される。

本技術によれば、ＡＳＲとＴＴＳとを統合可能な新たなフレームワークを提供できる。

ＡＳＲおよびＴＴＳを含む応用例である音声翻訳機を説明するための図である。一般的な音声翻訳機の実装例を示す模式図である。本技術を応用した音声翻訳機の実装例を示す模式図である。一般的な音声認識（ＡＳＲ）モデルの学習方法を示す模式図である。本実施の形態に従うＡＳＲ／ＴＴＳシステムのＴＴＳタスクの処理方法を示す模式図である。本実施の形態に従うＡＳＲ／ＴＴＳシステムにおける学習フェーズおよびテストフェーズの処理概要を示す模式図である。本実施の形態に従うＡＳＲ／ＴＴＳシステムに用いられる音響モデルのネットワーク構造の一例を示す模式図である。本実施の形態に従うＡＳＲ／ＴＴＳシステムの評価に用いた信号のスペクトルの一例を示す図である。本実施の形態に従うＡＳＲ／ＴＴＳシステムの運用フェーズにおける実装例を示す模式図である。本実施の形態に従うＡＳＲ／ＴＴＳシステムを実現するハードウェア構成の一例を示す模式図である。本実施の形態に従うＡＳＲ／ＴＴＳシステムの学習フェーズの手順を示すフローチャートである。本実施の形態に従うＡＳＲ／ＴＴＳシステムの運用フェーズの手順を示すフローチャートである。

本発明の実施の形態について、図面を参照しながら詳細に説明する。なお、図中の同一または相当部分については、同一符号を付してその説明は繰り返さない。

［Ａ．基本的なアイデア］
ＤＮＮを用いた画像識別などの画像分野において、敵対的サンプル（adversarial example）についての研究が進んでいる。対象モデルのパラメータが既知である場合、対象モデルの識別誤差を最大化する敵対的勾配（adversarial gradient）に従って、入力画像に対する摂動（perturbation）を適用することで、敵対的サンプルを生成できる。例えば、信号識別器を誤認識させる敵対的ステッカーや、顔認識器を誤認識させる敵対的メガネフレームなどが知られている。

音声タスクにおいても、遺伝的アルゴリズムまたは確率的損失関数の最適化によって、ＡＳＲシステムに対する音声の敵対的サンプルを生成できることが報告されている（非特許文献７および８など参照）。但し、これらの試みは、モデルが敵対的音声を何らかのテキスト列に誤って翻訳することのみを狙った特定の目的を有さない攻撃である。

一方、非特許文献９に開示されるようなDolphinAttackは、モデルが攻撃者の意図に合致した特定のテキスト列を誤って出力するような敵対的超音波信号を生成する、特定の目的を有している攻撃である。さらに、音声による命令を人間にとっては意味のない音にしか聞こえないノイズの形に偽装することもできることが報告されている（非特許文献１０および１１など参照）。また、パラメータが既知の環境において、音声波形を直接摂動することで、特定の目的を有さない攻撃を、Ｅ２Ｅの深層音声モデルに対する特定の目的を有している攻撃にまで拡張できることも示唆されている。このように、攻撃者が意図した任意のテキスト列をＤＮＮモデル（パラメータは既知）に誤出力させるような敵対的音声を生成できる。

パラメータが既知のＤＮＮモデルから任意のテキスト列を出力するための敵対的音声を生成できるということは、既知のＤＮＮモデルの双方向において、入力と出力との関係を学習できることを意味する。すなわち、既知のＤＮＮモデルを双方向に利用し得ることを意味する。本願発明者らは、このような敵対的サンプルのアイデアを応用して、ＡＳＲとＴＴＳとを統合可能な新たなフレームワークに想到した。

［Ｂ．応用例］
先に、ＡＳＲとＴＴＳとを統合可能な新たなフレームワークを提供可能なＡＳＲおよびＴＴＳを含む応用例について説明する。

図１は、ＡＳＲおよびＴＴＳを含む応用例である音声翻訳機を説明するための図である。図１（Ａ）を参照して、例えば、ユーザＵＳＲは、携帯端末１０に対して、「どこに駅がありますか？」という日本語で発話すると、携帯端末１０は、マイクロフォンなどによりその発話に対応する音声信号を取得する。

図１（Ｂ）に示すように、携帯端末１０では音声翻訳アプリケーションによるアプリケーション画面１２が提供されている。取得された音声信号に対するＡＳＲの認識結果（テキスト）は、アプリケーション画面１２の認識結果欄１４に表示される。そして、認識結果欄１４に表示される日本語のテキストから指定された言語のテキストに翻訳される。翻訳結果（この例では、英語のテキスト）は、アプリケーション画面１２の翻訳結果欄１６に表示される。なお、アプリケーション画面１２においては、翻訳結果欄１６に表示された翻訳結果を逆翻訳した結果が逆翻訳結果欄１８に表示されてもよい。

最終的に、認識結果欄１４に表示されたテキストをＴＴＳに入力し、ＴＴＳで生成される音声信号が携帯端末１０から出力される。すなわち、携帯端末１０は、「どこに駅がありますか？」という日本語に対応する、「Where is the station ?」という英語の音声を出力する。

なお、ＡＳＲおよびＴＴＳは、携帯端末１０に実装されてもよいし、サーバ上に実装されてもよい。また、一部が携帯端末１０に実装され、残りがサーバ上に実装されてもよい。

図２は、一般的な音声翻訳機の実装例を示す模式図である。図２を参照して、音声翻訳機は、パイプラインされた、ＡＳＲモジュール２２と、機械翻訳モジュール２４と、ＴＴＳモジュール２６とを含む。発話された入力音声２０がＡＳＲモジュール２２に入力されてテキストが出力される。機械翻訳モジュール２４は、出力されたテキストを指定された言語のテキストに翻訳する。ＴＴＳモジュール２６は、翻訳されたテキストから合成音声２８を出力する。

図３は、本技術を応用した音声翻訳機の実装例を示す模式図である。図３に示す実装例においては、ＡＳＲモジュール２２およびＴＴＳモジュール２６の機能を有する統合モジュール３０が採用されている。すなわち、統合モジュール３０は、入力音声２０の入力に対してテキストを出力可能であるとともに、テキストの入力に対して合成音声２８を出力可能である。本技術は、このようなテキストと音声信号との双方向の変換が可能となる統合モジュール３０を提供することを目的とする。

［Ｃ．ＡＳＲ／ＴＴＳシステムの主要処理］
次に、本実施の形態に従うＡＳＲとＴＴＳとを統合可能な新たなフレームワーク（以下、「ＡＳＲ／ＴＴＳシステム」とも称す。）を実現するための主要処理について説明する。ＡＳＲ／ＴＴＳシステムは、後述するような学習済モデルを含む推論器の一例である。

図４は、一般的な音声認識（ＡＳＲ）モデルの学習方法を示す模式図である。図４を参照して、一般的なＡＳＲモデルにおいては、教師データセットとして、音声５４と対応するテキスト５６との組が予め用意されている。音声５４とテキスト５６との組を用いて、ＡＳＲモデル４０のパラメータが最適化される。

このように、一般的には、ＡＳＲモデル４０が最適化の対象となる。これに対して、本実施の形態に従うＡＳＲ／ＴＴＳシステムでは、ＡＳＲモデル４０がＡＳＲタスクにおいて、最適化されることに変わりはないが、ＴＴＳタスクの処理においては、入力される音声信号が最適化の対象となる。すなわち、上述したような敵対的サンプルのアイデアと同様に、学習済の推論モデルであるＡＳＲモデル４０から目的のテキストが出力されるように、ＡＳＲモデル４０に入力される音声信号を繰り返し更新処理により、最適化する。このとき、入力される音声信号がもつ時間波形そのものが特徴として用いられることになる。

図５は、本実施の形態に従うＡＳＲ／ＴＴＳシステムのＴＴＳタスクの処理方法を示す模式図である。図５を参照して、予めパラメータが最適化されたＡＳＲモデル４０から目的のテキスト５６が出力されるように、ＡＳＲモデル４０に入力される音声信号が最適化される。典型的には、ランダムノイズ６２と波形誤差とを合成した音声信号がＡＳＲモデル４０に入力される。ＡＳＲモデル４０から目的のテキスト５６が出力されるように、波形誤差が最適化される。波形誤差の最適化には、ＡＳＲモデル４０を逆伝播して得られる入力側の誤差が用いられる。

このような波形誤差の最適化が繰り返されることによって、ランダムノイズ６２と最適化された波形誤差とが合成された敵対的音声６４が得られる。敵対的音声６４は、ＡＳＲモデル４０から目的のテキスト５６を出力させるための「敵対的サンプル」に相当する。敵対的音声６４の時間波形は、合成された機械発話を意味する。敵対的音声６４をフレームレベルで変換することで、変換後の人間の発話に相当する合成音声６６を得ることができる。このフレームレベルの変換は、音声変換モデル６０（後述する）により行われる。

音声変換モデル６０は、通常の機械学習の方法により学習が行われる。教師データとしては、多数のテキスト５６に基づき作成された敵対的音声６４とそのテキストに対応する音声信号が用いられる。この教師データを用いて、敵対的音声６４を合成音声６６に変換するための音声変換モデル６０を学習できる。このような手法により学習された学習済モデルを用いることで、ＡＳＲおよびＴＴＳのいずれとしても機能できるシステムを実現できる。以下、より具体的には、実装例について説明する。

図６は、本実施の形態に従うＡＳＲ／ＴＴＳシステムにおける学習フェーズおよびテストフェーズの処理概要を示す模式図である。図６を参照して、学習フェーズは、（ａ）状態シーケンス生成、（ｂ）敵対的音声生成、（ｃ１）音声変換モデルの学習の３つの基本処理を含む。テストフェーズは、（ａ）状態シーケンス生成、（ｂ）敵対的音声生成、（ｃ２）音声合成の３つの基本処理を含む。

次に、図６に示す推論モデルにおける学習フェーズおよびテストフェーズに含まれる基本処理の詳細について説明する。

（ａ）状態シーケンス生成
フレームレベルでの合成音声と人間の自然発話との類似性を最大化するために、人間の自然発話の状態を示す状態シーケンスを定義する。状態シーケンスは、入力された音声信号に含まれる音要素（例えば、音素など）を示すことになる。

本実施の形態においては、フレームレベルの状態シーケンスを正解ラベルｙ’＝［ｓ１，ｓ２，ｓ３，・・・，ｓｍ］（但し、ｍはシーケンス内のフレーム番号）として用いる。典型的には、状態シーケンスとして、状態共有トライフォンが用いられてもよい。この場合、正解ラベルｙ’の各要素ｓｉ（１≦ｉ≦ｍ）は、各時点の発話がいずれの状態値であるかを示す状態ＩＤとなる。フレームの時間間隔は、例えば、１０ｍｓｅｃとしてもよい。

図６に示される音響モデル５０は、音声信号の入力に対して、当該音声信号に含まれる状態シーケンスを出力する学習済モデルである。また、音声５４とテキスト５６とを対応付けた教師データセット５８も用意されているとする。音響モデル５０は、音声信号と対応する状態シーケンスとの組を教師データとして用いて予め学習されている。

学習フェーズにおいては、教師データセット５８（音声５４およびテキスト５６）から状態レベルのForced alignment（非特許文献１２など参照）を状態シーケンスとして取得する。また、教師データセット５８に含まれるそれぞれの音声５４の長さを取得し、同じ長さのランダムノイズを入力するシード音声ｘとして利用する。

テストフェーズにおいては、教師データセット５８に含まれる任意の状態シーケンスを予測ラベルｙ’として利用する。シード音声ｘ（ランダムノイズ）の長さは、予測ラベルｙ’の長さと同じである。

（ｂ）敵対的音声生成
敵対的音声生成においては、各フレームの状態シーケンスを正解ラベルとして、繰り返し演算処理することで、敵対的サンプルを決定する。図４および図５を参照して説明したように、本実施の形態においては、音響モデル５０のパラメータは変更されず、音響モデル５０に入力される音声信号（時間波形）の更新が繰り返される。音響モデル５０に入力される音声信号ｘｉと、音声信号ｘｉに対応して音響モデル５０から出力される推論結果ｙｉとの関係は、以下の（１）式のように示すことができる。

損失関数ｌ（ｙｉ，ｙ’）を用いて、音響モデル５０から出力される推論結果ｙｉと正解ラベルｙ’との誤差が算出される。ここで、ｉは、現在の繰り返し回数を示す。損失関数ｌ（ｙｉ，ｙ’）としては、以下の（２）式に示すようなクロスエントロピーを用いることができる。

損失の勾配∇ｘｉは、以下の（３）式に示すように、音響モデル５０に入力された音声信号ｘｉを逆伝播させることで算出できる。

音響モデル５０に入力される音声信号ｘｉは、勾配∇ｘｉおよび学習レートαに従って、以下の（４）式に示すように更新される。

このように、敵対的音声ｘｎ（ｎ≧１００）は、目的の状態シーケンスと、音響モデル５０に入力された音声信号に対応して出力される状態シーケンスと、の誤差に応じた損失の勾配に基づいて、音声信号を更新することで決定される。

音声信号ｘｉを更新する処理は、予め定められた回数（例えば、１００回以上）繰り返される。予め定められた回数（ｎ回）の更新がなされた後の音声信号ｘｎが敵対的音声となる。すなわち、敵対的音声は、音響モデル５０に入力される音声信号を予め定められた回数に亘って更新することで決定される。

但し、敵対的音声を決定するまでの更新の繰り返し回数については、固定値ではなく、状況に応じて動的に決定するようにしてもよい。

（ｃ）音声変換モデルの学習／音声合成
音声変換モデル６０は、入力された音声信号を変換して出力する学習済モデルである。音声変換モデル６０としては、ＲＮＮ（recurrent neural network）ベースの変換モデルを採用してもよい。ＲＮＮベースの変換モデルを用いることで、入力される音声信号をフレーム毎の周波数マッピングにより人間の自然発話に相当する音声に変換できる。

図５を参照して説明したように、上述したｎ回の更新処理により得られた敵対的音声ｘｎ（ｎ≧１００）は、人間の発話する音声とは異なったものとなっている。そのため、敵対的音声ｘｎを人間の自然発話に相当する音声に変換するための音声変換モデル６０を学習により構築する。

敵対的音声ｘｎは、教師データセット５８に基づき生成される。そのため、教師データセット５８に含まれるテキスト５６の各々について、生成された敵対的音声ｘｎと対応する音声５４（正解音声ｘ’）との組を用意できる。より具体的には、音声変換モデル６０は、音響モデル５０から目的の状態シーケンスが出力されるように、音響モデル５０に入力する音声信号を繰り返し更新することで決定された敵対的音声ｘｎと、当該目的の状態シーケンスに対応する音声信号（正解音声ｘ’）との組を教師データとして用いて学習される。

両者の誤差を反映した損失関数を用いて、音声変換モデル６０のパラメータを最適化する。このような損失関数として、正解と推論結果との誤差の絶対値の総和である、平均絶対誤差（ＭＡＥ：mean absolute error）を用いてもよい。

対数ドメインにおけるＭＡＥ判定基準は、人間の聴覚機能とより整合するものとなる。最急降下法（gradient descendent）アルゴリズムは、以下の（５）式に示すように、複数のエポックによるミニバッチで実行されることで、学習の収束を改善できる。

ここで、ＬＥは、平均絶対誤差（ＭＡＥ）を示し、ＹｎｄおよびＸｎｄは、サンプルインデックスｎにおける対数スペクトル特徴のｄ次元目の拡張化およびクリーン化された周波数ビンを示す。また、Ｎは、ミニバッチサイズを示し、Ｄは、対数スペクトル特徴ベクトルのサイズを示す。

［Ｄ．実装例および実験例］
次に、上述したＡＳＲ／ＴＴＳシステムの具体的な実装例について説明する。

（ｄ１：音響モデル５０を含むＡＳＲシステムの構築）
音響モデル５０としては、例えば、フレームレベルの状態共有トライフォンを出力する時間遅延ニューラルネットワーク（ＴＤＮＮ：time delay neural network）を用いることができる（非特許文献１３など参照）（以下、「ＴＤＮＮモデル」とも称す。）。

ＴＤＮＮは、再帰構造を有していないので順伝播および逆伝播の処理を高速に実行でき、処理遅延の発生が少ない。また、ＴＤＮＮモデルは、タイムスタンプの再現性をより高めた敵対的音声を生成できる。

図７は、本実施の形態に従うＡＳＲ／ＴＴＳシステムに用いられる音響モデル５０のネットワーク構造の一例を示す模式図である。図７を参照して、音響モデル５０は、ＴＤＮＮネットワーク構造を有する上位層５１０と、入力信号から特徴を抽出するための下位層５２０とを有する。

下位層５２０は、入力信号から対数スペクトル特徴を抽出する。より具体的には、下位層５２０は、前処理層５２２と、ＦＦＴ層５２４と、絶対値化層５２６と、対数化層５２８とを含む。

前処理層５２２は、入力信号に対して強調などの信号処理を行うとともに、予め定められた時間幅のウィンドウを設定し、設定したウィンドウに含まれる時間波形を抽出する。ＦＦＴ層５２４は、前処理層５２２により抽出された時間波形を周波数スペクトルに変換する。絶対値化層５２６は、ＦＦＴ層５２４により変換された周波数スペクトルを絶対値化する。対数化層５２８は、絶対値化された周波数スペクトルの対数を算出する。

上位層５１０は、異なるタイムスタンプに対応する成分を合成して、状態シーケンスを推定する。上位層５１０は、例えば、ｐノルム非線形をもつ４層のＴＤＮＮネットワーク構造を採用してもよい。

音響モデル５０を直接学習するのではなく、先に、ＧＭＭ－ＨＭＭモデルを学習により構築した上で、この構築されたＧＭＭ－ＨＭＭモデルを用いて、音響モデル５０（ＴＤＮＮモデル）を学習する。音響モデル５０の学習には、ＡＳＲコーパスの１つである「LibriSpeech」を所定時間分用いることができる。

まず、ＧＭＭ－ＨＭＭモデルの学習には、線形判別分析（ＬＤＡ：linear discriminant analysis）、最尤線形変換（ＭＬＬＴ：maximum likelihood linear transform）、および話者適応学習（ＳＡＴ：speaker adaptive training）に基づく最尤線形回帰（ｆＭＬＬＬＲ：feature space maximum likelihood linear regression）とともに、ＭＦＣＣ（メル周波数ケプストラム係数）特徴を用いることができる。

続いて、音響モデル５０の学習には、一例として、各層が２０４８個の隠れノード数をそれぞれ有している４つの隠れ層を用いた。音響モデル５０の出力層は、学習済のＧＭＭ－ＨＭＭモデルから出力される状態共有トライフォンに対応させたノード数（例えば、３４５６ノード）を有するように構成される。

音響モデル５０を学習するための正解ラベルとして、学習済のＧＭＭ－ＨＭＭモデルから出力される状態アライメントを用いる。音響モデル５０の学習においては、ＭＦＣＣではなく、音声信号（例えば、２５６次元の信号波形（１６０００ｋＨｚ，１６ビット，モノラル））が用いられる。学習に用いられる音声信号は、話者毎にケプストラム平均値正規化（ＣＭＮ：cepstral mean normalization）されていてもよい。

音響モデル５０の学習には、クロスエントロピー損失の判定基準に基づく自然確率的勾配降下法（ＮＳＧＤ：natural stochastic gradient descent）を用いることができる。

なお、上述した各アルゴリズムは、Kaldiツールキットを利用して実装できる。
（ｄ２：音声変換モデル６０）
音声変換モデル６０の学習に用いる敵対的音声は、上述した手順によって構築される学習済の音響モデル５０を用いて生成される。より具体的には、ＡＳＲコーパスである「LibriSpeech」の状態レベルのForced alignment（非特許文献１２など参照）を用いる。

更新処理を予め定められた回数（例えば、１００回）だけ繰り返して得られた敵対的音声の各々を音響モデル５０に入力して出力される推論結果を、対応するテキスト５６に対するＷＥＲ（Word Error Rate）に基づいて評価する。生成された敵対的音声のうち、ＷＥＲが予め定められた基準（例えば、５０％）を満たしているものが音声変換モデル６０の教師データ（生成された敵対的音声と対応するオリジナル音声（人間の発話））として採用される。このように、決定された敵対的音声のうち、予め定められた評価基準を満たしている敵対的音声が教師データに採用されるようにしてもよい。

なお、生成された敵対的音声および対応するオリジナル音声は、例えば、１６ｋＨｚにダウンサンプリングした上で、３２ｍｓｅｃのフレーム（５１２サンプル）に分割される。この場合、フレームに対しては、１６ｍｓｅｃ（２５６サンプル）のシフト量を与えてもよい。そして、１２９次元の対数パワースペクトル特徴が抽出される。フレーム列から７フレーム分のコンテキストウィンドウ（左側３フレーム、中央１フレーム、右側３フレーム）を設定してもよい。音声変換モデル６０の損失関数には、平均絶対誤差（ＭＡＥ）が用いられる。

（ｄ３：実験例）
実験例においては、まず男性および女性のそれぞれについて性別依存の復元モデルを構築するとともに、既知のForced alignmentの状態シーケンスを用いて、敵対的音声および人間の音声を生成した。テストデータには、ＡＳＲコーパスである「LibriSpeech」のうち「LibriSpeech-Dev」を用いた。

図８は、本実施の形態に従うＡＳＲ／ＴＴＳシステムの評価に用いた信号のスペクトルの一例を示す図である。図８に示すように、音声変換モデル６０から出力される（Ｃ）合成音声は、（Ａ）オリジナル音声（人間の発話）と類似したスペクトルを示しており、オリジナル音声を精度よく復元できることが分かる。

また、（Ｂ）敵対的音声と（Ｃ）合成音声とのスペクトルは大きく異なっており、このことは、音声変換モデル６０が（Ｂ）敵対的音声に含まれる発話の特徴を抽出して、（Ｃ）合成音声に変換していると言える。

［Ｅ．運用フェーズ］
次に、本実施の形態に従うＡＳＲ／ＴＴＳシステム１の運用フェーズにおける実装例について説明する。

図９は、本実施の形態に従うＡＳＲ／ＴＴＳシステム１の運用フェーズにおける実装例を示す模式図である。図９（Ａ）は、ＡＳＲとして利用する場合の動作を示し、図９（Ｂ）は、ＴＴＳとして利用する場合の動作を示す。

図９を参照して、ＡＳＲ／ＴＴＳシステム１は、上述の音響モデル５０および音声変換モデル６０に加えて、敵対的音声生成モジュール７０と、言語モデル７２と、状態シーケンス生成モジュール７４とを含む。

図９（Ａ）を参照して、ＡＳＲとして動作する場合には、任意の音声が入力されて、対応するテキストが出力される。具体的には、音響モデル５０に音声信号が入力されて、対応する状態シーケンスが推定結果として出力される。出力された状態シーケンスは、言語モデル７２に入力されて、対応するテキストに復元される。

言語モデル７２は、状態シーケンス（上述の例では、状態共有トライフォン）とテキストとの対応関係を保持している。このように、言語モデル７２は、任意の音声信号が音響モデル５０に入力されることで出力される状態シーケンスを対応するテキストに復元する。状態シーケンスとテキストとの対応関係は、静的なデータベースまたは機械学習により実現されてもよい。なお、状態シーケンス生成モジュール７４および敵対的音声生成モジュール７０は、ＡＳＲとして動作する場合には利用されない。

図９（Ｂ）を参照して、ＴＴＳとして動作する場合には、任意のテキストが入力されて、対応する音声が出力される。具体的には、状態シーケンス生成モジュール７４にテキストが入力されて、対応する状態シーケンスが出力される。すなわち、状態シーケンス生成モジュール７４は、任意のテキストに対して、当該テキストに対応する状態シーケンスを出力する。

一方で、敵対的音声生成モジュール７０は、音響モデル５０への音声信号（初期値は、ランダムノイズ６２）の入力、および、音響モデル５０から出力される状態シーケンス（推論結果）と状態シーケンス生成モジュール７４から出力される状態シーケンスとの誤差に基づく音声信号の更新を予め定められた回数だけ繰り返すことで、敵対的音声を決定する。このように、敵対的音声生成モジュール７０は、状態シーケンス生成モジュール７４が出力した状態シーケンスと同じ状態シーケンスが音響モデル５０から出力されるように、音響モデル５０に入力する音声信号を繰り返し更新することで敵対的音声を決定する。

最終的に、決定された敵対的音声は、音声変換モデル６０に入力されて合成音声が出力される。すなわち、音声変換モデル６０は、敵対的音声生成モジュール７０により決定された敵対的音声が入力されることで、任意のテキストに対応する音声を出力する。

このように、同一の音響モデル５０および音声変換モデル６０を用いて、ＡＳＲとしても利用でき、ＴＴＳとしても利用できるシステムを実現できる。

［Ｆ．ハードウェア構成］
次に、本実施の形態に従うＡＳＲ／ＴＴＳシステムを実現するためのハードウェア構成の一例について説明する。

図１０は、本実施の形態に従うＡＳＲ／ＴＴＳシステムを実現するハードウェア構成の一例を示す模式図である。本実施の形態に従うＡＳＲ／ＴＴＳシステムは、典型的には、コンピュータの一例である情報処理装置３００を用いて実現される。

図１０を参照して、情報処理装置３００は、主要なハードウェアコンポーネントとして、ＣＰＵ（central processing unit）３０２と、ＧＰＵ（graphics processing unit）３０４と、主メモリ３０６と、ディスプレイ３０８と、ネットワークインターフェイス（Ｉ／Ｆ：interface）３１０と、二次記憶装置３１２と、入力デバイス３２２と、光学ドライブ３２４とを含む。これらのコンポーネントは、内部バス３２８を介して互いに接続される。

ＣＰＵ３０２および／またはＧＰＵ３０４は、本実施の形態に従うＡＳＲ／ＴＴＳシステムの実現に必要な処理を実行するプロセッサである。ＣＰＵ３０２およびＧＰＵ３０４は、複数個配置されてもよいし、複数のコアを有していてもよい。

主メモリ３０６は、プロセッサ（ＣＰＵ３０２および／またはＧＰＵ３０４）が処理を実行するにあたって、プログラムコードやワークデータなどを一時的に格納（あるいは、キャッシュ）する記憶領域であり、例えば、ＤＲＡＭ（dynamic random access memory）やＳＲＡＭ（static random access memory）などの揮発性メモリデバイスなどで構成される。

ディスプレイ３０８は、処理に係るユーザインターフェイスや処理結果などを出力する表示部であり、例えば、ＬＣＤ（liquid crystal display）や有機ＥＬ（electroluminescence）ディスプレイなどで構成される。

ネットワークインターフェイス３１０は、インターネット上またはイントラネット上の任意の情報処理装置などとの間でデータを遣り取りする。ネットワークインターフェイス３１０としては、例えば、イーサネット（登録商標）、無線ＬＡＮ（local area network）、Ｂｌｕｅｔｏｏｔｈ（登録商標）などの任意の通信方式を採用できる。

入力デバイス３２２は、ユーザからの指示や操作などを受け付けるデバイスであり、例えば、キーボード、マウス、タッチパネル、ペンなどで構成される。また、入力デバイス３２２は、学習およびデコーディングに必要な音声信号を収集するための集音デバイスを含んでいてもよいし、集音デバイスにより収集された音声信号の入力を受け付けるためのインターフェイスを含んでいてもよい。

光学ドライブ３２４は、ＣＤ－ＲＯＭ（compact disc read only memory）、ＤＶＤ（digital versatile disc）などの光学ディスク３２６に格納されている情報を読出して、内部バス３２８を介して他のコンポーネントへ出力する。光学ディスク３２６は、非一過的（non-transitory）な記録媒体の一例であり、任意のプログラムを不揮発的に格納した状態で流通する。光学ドライブ３２４が光学ディスク３２６からプログラムを読み出して、二次記憶装置３１２などにインストールすることで、コンピュータが情報処理装置３００として機能するようになる。したがって、本発明の主題は、二次記憶装置３１２などにインストールされたプログラム自体、または、本実施の形態に従う機能や処理を実現するためのプログラムを格納した光学ディスク３２６などの記録媒体でもあり得る。

図１０には、非一過的な記録媒体の一例として、光学ディスク３２６などの光学記録媒体を示すが、これに限らず、フラッシュメモリなどの半導体記録媒体、ハードディスクまたはストレージテープなどの磁気記録媒体、ＭＯ（magneto-optical disk）などの光磁気記録媒体を用いてもよい。

二次記憶装置３１２は、コンピュータを情報処理装置３００として機能させるために必要なプログラムおよびデータを格納する。例えば、ハードディスク、ＳＳＤ（solid state drive）などの不揮発性記憶装置で構成される。

より具体的には、二次記憶装置３１２は、図示しないＯＳ（operating system）の他、学習フェーズにおける処理を実現する学習プログラム３１４と、モデルの構造を定義するネットワーク定義３１６と、モデルを規定するパラメータセット３１８と、運用フェーズにおける処理を実現する推論プログラム３２０と、教師データセット５８とを格納している。

学習プログラム３１４は、プロセッサ（ＣＰＵ３０２および／またはＧＰＵ３０４）により実行されることで、パラメータセット３１８を決定するための学習処理を実現する。パラメータセット３１８に含まれる各パラメータは、学習プログラム３１４の実行により最適化される。推論プログラム３２０は、プロセッサ（ＣＰＵ３０２および／またはＧＰＵ３０４）により実行されることで、決定されたパラメータセット３１８を反映したモデルを用いた推論処理を実現する。なお、学習プログラム３１４および推論プログラム３２０を一体化したプログラムを採用してもよいし、さらに細分化してもよい。

プロセッサ（ＣＰＵ３０２および／またはＧＰＵ３０４）がプログラムを実行する際に必要となるライブラリや機能モジュールの一部を、ＯＳが標準で提供するライブラリまたは機能モジュールにより代替してもよい。この場合には、プログラム単体では、対応する機能を実現するために必要なプログラムモジュールのすべてを含むものにはならないが、ＯＳの実行環境下にインストールされることで、目的の処理を実現できる。このような一部のライブラリまたは機能モジュールを含まないプログラムであっても、本発明の技術的範囲に含まれ得る。

また、これらのプログラムは、上述したようないずれかの記録媒体に格納されて流通するだけでなく、インターネットまたはイントラネットを介してサーバ装置などからダウンロードすることで配布されてもよい。

図１０には、単一のコンピュータを用いて情報処理装置３００を構成する例を示すが、これに限らず、コンピュータネットワークを介して接続された複数のコンピュータが明示的または黙示的に連携して、本実施の形態に従うＡＳＲ／ＴＴＳシステムを実現するようにしてもよい。

プロセッサ（ＣＰＵ３０２および／またはＧＰＵ３０４）がプログラムを実行することで実現される機能の全部または一部を、ＡＳＩＣ（application specific integrated circuit）やＦＰＧＡ（field-programmable gate array）などのハードワイヤード論理回路（hard-wired logic circuit）を用いて実現してもよい。

当業者であれば、本発明が実施される時代に応じた技術を適宜用いて、本実施の形態に従う情報処理装置３００を実現できるであろう。

説明の便宜上、同一の情報処理装置３００を用いて、学習処理および推論処理を実行する例を示すが、学習処理および推論処理を異なるハードウェアを用いて実現してもよい。

［Ｇ．処理手順］
次に、本実施の形態に従うＡＳＲ／ＴＴＳシステムにおける処理手順について説明する。

（ｇ１：学習フェーズ）
図１１は、本実施の形態に従うＡＳＲ／ＴＴＳシステムの学習フェーズの手順を示すフローチャートである。図１１に示す主要なステップは、典型的には、情報処理装置３００のプロセッサ（ＣＰＵ３０２および／またはＧＰＵ３０４）が学習プログラム３１４を実行することで実現される。

図１１を参照して、音声５４と対応するテキスト５６との組からなる教師データセット５８が用意される（ステップＳ１００）。

まず、ＧＭＭ－ＨＭＭモデルを構築する処理が実行される。具体的には、情報処理装置３００は、予め定められたネットワーク構造を有するＧＭＭ－ＨＭＭモデルを構成し（ステップＳ１０２）、構成したＧＭＭ－ＨＭＭモデルのパラメータを初期化する（ステップＳ１０４）。情報処理装置３００は、教師データセット５８を用いて、ＧＭＭ－ＨＭＭモデルのパラメータを最適化する（ステップＳ１０６）。

続いて、音響モデル５０を構築する処理が実行される。具体的には、情報処理装置３００は、先に構築したＧＭＭ－ＨＭＭモデルに教師データセット５８に含まれるテキスト５６を入力して、対応する状態シーケンスを算出することで、音響モデル５０用の教師データセットを生成する（ステップＳ１０８）。すなわち、音声信号と対応する状態シーケンスとの組からなる、音響モデル５０用の教師データが用意される。

情報処理装置３００は、予め定められたネットワーク構造を有する音響モデル５０を構成し（ステップＳ１１０）、構成した音響モデル５０のパラメータを初期化する（ステップＳ１１２）。そして、情報処理装置３００は、ステップＳ１０８において生成した音響モデル５０用の教師データセットを用いて、音響モデル５０のパラメータを最適化する（ステップＳ１１４）。このように、音響モデル５０用の教師データを用いて音響モデル５０を学習する処理が実行される。

続いて、教師データセット５８に対応する敵対的音声を生成する処理が実行される。具体的には、情報処理装置３００は、教師データセット５８に含まれる音声５４とテキスト５６との組のうち１つを選択する（ステップＳ１１６）。情報処理装置３００は、選択した教師データセット５８に含まれる音声５４とテキスト５６との組に対応する状態シーケンス（正解ラベル）を取得し（ステップＳ１１８）、当該選択した組の音声５４の長さと同じ長さのランダムノイズを初期値の音声信号として定義する（ステップＳ１２０）。

情報処理装置３００は、現在の音声信号を音響モデル５０に入力して出力される状態シーケンス（推定結果）を算出し（ステップＳ１２２）、ステップＳ１１８において取得した状態シーケンス（正解ラベル）と、ステップＳ１２２において算出した状態シーケンス（推定結果）との誤差に基づいて、音声信号を更新する（ステップＳ１２４）。

情報処理装置３００は、ステップＳ１２４の音声信号の更新が予め定められた回数だけ実行されたか否かを判断する（ステップＳ１２６）。ステップＳ１２４の音声信号の更新が予め定められた回数だけ実行されていなければ（ステップＳ１２６においてＮＯ）、情報処理装置３００は、ステップＳ１２２以下の処理を繰り返す。

ステップＳ１２４の音声信号の更新が予め定められた回数だけ実行されていれば（ステップＳ１２６においてＹＥＳ）、情報処理装置３００は、現在の音声信号を敵対的音声として決定する（ステップＳ１２８）。

このように、音響モデル５０から目的の状態シーケンスが出力されるように、音響モデル５０に入力する音声信号を繰り返し更新することで敵対的音声を決定する処理が実行される。

情報処理装置３００は、教師データセット５８に含まれる音声５４とテキスト５６との組を予め定められた数だけ処理したか否かを判断する（ステップＳ１３０）。教師データセット５８に含まれる音声５４とテキスト５６との組を予め定められた数だけ処理していなければ（ステップＳ１３０においてＮＯ）、情報処理装置３００は、ステップＳ１１６以下の処理を繰り返す。

教師データセット５８に含まれる音声５４とテキスト５６との組を予め定められた数だけ処理していれば（ステップＳ１３０においてＹＥＳ）、音声変換モデル６０を構築する処理が実行される。

具体的には、情報処理装置３００は、ステップＳ１２８において決定した敵対的音声のうち、予め定められた評価基準（例えば、ＷＥＲに基づく評価）を満たしているものを抽出し（ステップＳ１３２）、抽出した敵対的音声と対応する教師データセット５８に含まれる音声５４との組を音声変換モデル６０用の教師データセットとして生成する（ステップＳ１３４）。すなわち、決定された敵対的音声と対応する音声信号との組からなる音声変換モデル６０用の教師データが用意される。

情報処理装置３００は、予め定められたネットワーク構造を有する音声変換モデル６０を構成し（ステップＳ１３６）、構成した音声変換モデル６０のパラメータを初期化する（ステップＳ１３８）。そして、情報処理装置３００は、ステップＳ１３４において生成した音声変換モデル６０用の教師データセットを用いて、音声変換モデル６０のパラメータを最適化する（ステップＳ１４０）。このように、音声変換モデル６０用の教師データを用いて音声変換モデル６０を学習する処理が実行される。

以上の手順により、音響モデル５０および音声変換モデル６０を構築できる。
（ｇ２：運用フェーズ）
図１２は、本実施の形態に従うＡＳＲ／ＴＴＳシステムの運用フェーズの手順を示すフローチャートである。図１２に示す主要なステップは、典型的には、情報処理装置３００のプロセッサ（ＣＰＵ３０２および／またはＧＰＵ３０４）が推論プログラム３２０を実行することで実現される。

図１２を参照して、情報処理装置３００は、入力された情報に応じて、音声認識（ＡＳＲ）および音声合成（ＴＴＳ）のいずれで動作すべきかを判断する（ステップＳ２００）。音声認識（ＡＳＲ）で動作すべきと判断された場合（ステップＳ２００において「ＡＳＲ」）、情報処理装置３００は、入力された音声信号を音響モデル５０に入力して、状態シーケンス（推論結果）を算出する（ステップＳ２１０）。情報処理装置３００は、算出した状態シーケンス（推論結果）を言語モデル７２に入力して、テキストを取得する（ステップＳ２１２）。そして、情報処理装置３００は、取得したテキストを認識結果として出力する（ステップＳ２１４）。

一方、音声合成（ＴＴＳ）で動作すべきと判断された場合（ステップＳ２００において「ＴＴＳ」）、情報処理装置３００は、入力されたテキストに対応する状態シーケンスを算出する（ステップＳ２２０）。

情報処理装置３００は、所定長さのランダムノイズを初期値の音声信号として定義する（ステップＳ２２２）。

情報処理装置３００は、現在の音声信号を音響モデル５０に入力して出力される状態シーケンス（推定結果）を算出し（ステップＳ２２４）、ステップＳ１２０において算出した状態シーケンス（正解ラベル）と、ステップＳ２２４において算出した状態シーケンス（推定結果）との誤差に基づいて、音声信号を更新する（ステップＳ２２６）。

情報処理装置３００は、ステップＳ２２６の音声信号の更新が予め定められた回数だけ実行されたか否かを判断する（ステップＳ２２８）。ステップＳ２２６の音声信号の更新が予め定められた回数だけ実行されていなければ（ステップＳ２２８においてＮＯ）、情報処理装置３００は、ステップＳ２２６以下の処理を繰り返す。

ステップＳ２２６の音声信号の更新が予め定められた回数だけ実行されていれば（ステップＳ２２８においてＹＥＳ）、情報処理装置３００は、現在の音声信号を敵対的音声として決定する（ステップＳ２３０）。

そして、情報処理装置３００は、ステップＳ２３０において決定した敵対的音声を音声変換モデル６０に入力して、合成音声（推論結果）を算出する（ステップＳ２３２）。情報処理装置３００は、算出した合成音声（推論結果）を出力する（ステップＳ２３４）。

以上の手順により、ＡＳＲおよびＴＴＳの両方の動作を実現できる。
［Ｈ．変形例］
上述した敵対的サンプルのアイデアを用いた音声認識（ＡＳＲ）および音声合成（ＴＴＳ）のモデルの構築および相互利用を用いることで、例えば、音声とテキストとを対応付けたコーパスを増大させることもできる。

また、敵対的サンプルのアイデアを用いることで、劣化した音声信号を復元するようなこともできる。

［Ｉ．まとめ］
本実施の形態に従うＡＳＲ／ＴＴＳシステムによれば、一連の学習処理により、音声認識（ＡＳＲ）および音声合成（ＴＴＳ）のいずれにも用いることができる推論器（学習済モデル）を構成できるので、学習処理に要する時間を短縮化でき、また、ネットワークサイズの増大も抑制できる。

また、同じモデルを両方向に利用できるため、音声認識および音声合成を含む、様々な音声関連アプリケーションに応用できる。

今回開示された実施の形態は、すべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記した実施の形態の説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

１ＡＳＲ／ＴＴＳシステム、１０携帯端末、１２アプリケーション画面、１４認識結果欄、１６翻訳結果欄、１８逆翻訳結果欄、２０入力音声、２２ＡＳＲモジュール、２４機械翻訳モジュール、２６ＴＴＳモジュール、２８，６６合成音声、３０統合モジュール、４０ＡＳＲモデル、５０音響モデル、５４音声、５６テキスト、５８教師データセット、６０音声変換モデル、６２ランダムノイズ、６４敵対的音声、７０敵対的音声生成モジュール、７２言語モデル、７４状態シーケンス生成モジュール、３００情報処理装置、３０２ＣＰＵ、３０４ＧＰＵ、３０６主メモリ、３０８ディスプレイ、３１０ネットワークインターフェイス、３１２二次記憶装置、３１４学習プログラム、３１６ネットワーク定義、３１８パラメータセット、３２０推論プログラム、３２２入力デバイス、３２４光学ドライブ、３２６光学ディスク、３２８内部バス、５１０上位層、５２０下位層、５２２前処理層、５２４ＦＦＴ層、５２６絶対値化層、５２８対数化層、ＵＳＲユーザ。

Claims

音声信号の入力に対して、当該音声信号に含まれる音要素を示す状態シーケンスを出力する学習済の音響モデルと、
入力された音声信号を変換して出力する学習済の音声変換モデルとを備え、
前記音響モデルは、音声信号と対応する状態シーケンスとの組を第１の教師データとして用いて学習されたものであり、
前記音声変換モデルは、前記音響モデルから目的の状態シーケンスが出力されるように、前記音響モデルに入力する音声信号を繰り返し更新することで決定された敵対的音声と、当該目的の状態シーケンスに対応する音声信号との組を第２の教師データとして用いて学習されたものである、推論器。
前記敵対的音声は、前記目的の状態シーケンスと、前記音響モデルに入力された前記音声信号に対応して出力される状態シーケンスと、の誤差に応じた損失の勾配に基づいて、前記音声信号を更新することで決定される、請求項１に記載の推論器。
前記決定された敵対的音声のうち、予め定められた評価基準を満たしている敵対的音声が前記第２の教師データに採用される、請求項１または２に記載の推論器。
任意の音声信号が前記音響モデルに入力されることで出力される状態シーケンスを対応するテキストに復元する言語モデルをさらに備える、請求項１～３のいずれか１項に記載の推論器。
任意のテキストに対して、当該テキストに対応する状態シーケンスを出力する状態シーケンス生成モジュールと、
前記状態シーケンス生成モジュールが出力した状態シーケンスと同じ状態シーケンスが前記音響モデルから出力されるように、前記音響モデルに入力する音声信号を繰り返し更新することで敵対的音声を決定する敵対的音声生成モジュールとをさらに備え、
前記音声変換モデルは、前記敵対的音声生成モジュールにより決定された敵対的音声が入力されることで、前記任意のテキストに対応する音声を出力する、請求項１～４のいずれか１項に記載の推論器。
推論器の学習方法であって、前記推論器は、音声信号の入力に対して、当該音声信号に含まれる音要素を示す状態シーケンスを出力する音響モデルと、入力された音声信号を変換して出力する音声変換モデルとを備え、前記学習方法は、
音声信号と対応する状態シーケンスとの組からなる第１の教師データを用意するステップと、
前記第１の教師データを用いて、前記音響モデルを学習するステップと、
前記音響モデルから目的の状態シーケンスが出力されるように、前記音響モデルに入力する音声信号を繰り返し更新することで敵対的音声を決定するステップと、
前記決定された敵対的音声と対応する音声信号との組からなる第２の教師データを用意するステップと、
前記第２の教師データを用いて、前記音声変換モデルを学習するステップとを備える、推論器の学習方法。