JP7205839B2

JP7205839B2 - データ生成モデル学習装置、潜在変数生成モデル学習装置、翻訳データ生成装置、データ生成モデル学習方法、潜在変数生成モデル学習方法、翻訳データ生成方法、プログラム

Info

Publication number: JP7205839B2
Application number: JP2021522681A
Authority: JP
Inventors: 邦夫柏野; 翔太井川
Original assignee: Nippon Telegraph and Telephone Corp; University of Tokyo NUC
Current assignee: Nippon Telegraph and Telephone Corp; University of Tokyo NUC
Priority date: 2019-05-24
Filing date: 2020-04-08
Publication date: 2023-01-17
Anticipated expiration: 2040-04-08
Also published as: US20220222450A1; US12131129B2; WO2020241072A1; JPWO2020241072A1

Description

特許法第３０条第２項適用発行日２０１８年８月２９日刊行物一般社団法人日本音響学会２０１８年秋季研究発表会講演論文集講演要旨・講演論文ＣＤ－ＲＯＭ２－２－１

特許法第３０条第２項適用ウェブサイト掲載日２０１９年５月２７日ウェブサイトのアドレス日本電信電話株式会社ニュースリリースウェブサイトｈｔｔｐｓ：／／ｗｗｗ．ｎｔｔ．ｃｏ．ｊｐ／ｎｅｗｓ２０１９／１９０５／１９０５２７ｂ．ｈｔｍｌ

特許法第３０条第２項適用開催日２０１９年５月３０日～２０１９年５月３１日（公知日：２０１９年５月３０日、３１日）集会名、開催場所ＮＴＴコミュニケーション科学基礎研究所オープンハウス２０１９ｈｔｔｐ：／／ｗｗｗ．ｋｅｃｌ．ｎｔｔ．ｃｏ．ｊｐ／ｏｐｅｎｈｏｕｓｅ／２０１９／ｉｎｄｅｘ．ｈｔｍｌ主催：日本電信電話株式会社ＮＴＴコミュニケーション科学基礎研究所開催場所京都府相楽郡精華町光台２－４（けいはんな学研都市）ＮＴＴ京阪奈ビルＢ棟３階大会議室

特許法第３０条第２項適用開催日２０１９年１０月２５日～２０１９年１０月２６日（公知日２０１９年１０月２５日）集会名ＤＣＡＳＥＷｏｒｋｓｈｏｐ（予稿集）ｈｔｔｐ：／／ｄｃａｓｅ．ｃｏｍｍｕｎｉｔｙ／ａｒｔｉｃｌｅｓ／ｄｃａｓｅ２０１９－ｂｅｓｔ－ｐａｐｅｒ－ａｗａｒｄｓ

本発明は、ある言語の文などの自然言語表現を別の言語の自然言語表現に翻訳する技術に関する。

ある言語（例えば、英語）で書かれた文を別の言語（例えば、日本語）で書かれた文に翻訳する翻訳サービスがインターネット上で提供されている。例えば、非特許文献１にあるGoogle翻訳がその一例である。このような翻訳サービスを実現するためには、ある言語Aの文を入力とし、別の言語Bの文を出力する翻訳モデルが必要になる。この翻訳モデルは、基本的に、言語Aの文と当該文に対応する言語Bの文の組を学習データとして教師あり学習により学習する。

Google翻訳, [online], ［平成３１年３月４日検索］, インターネット<URL: https://translate.google.co.jp/?hl=ja>

従来の翻訳モデルの学習では、言語Aと言語Bの対応に加えて、感覚データ、例えば音を利用することは困難であった。音を翻訳モデルの学習に利用するためには、音を翻訳する（音をテキストとして表現する）必要があるが、音の翻訳では、その音が何の音であるかについては翻訳することはできても、その音がどんな音であるかなどの、詳細な描写を含めた翻訳は困難であったためと考えられる。そして、このような事情から、音を利用して、一定程度の精度を有する翻訳を実現することは難しかった。

そこで本発明では、音を用いて、ある言語の自然言語表現を別の言語の自然言語表現に翻訳する翻訳技術を提供することを目的とする。

本発明の一態様は、L₁、L₂を互いに異なる言語とし、言語L₁の自然言語表現から、言語L₁エンコーダを用いて、前記言語L₁の自然言語表現に対応する潜在変数を生成する潜在変数生成部と、前記言語L₁の自然言語表現から、前記言語L₁の自然言語表現に対する指標を計算する指標計算部と、前記潜在変数と前記言語L₁の自然言語表現に対する指標から、言語L₂デコーダを用いて、前記言語L₁の自然言語表現に対応する言語L₂の自然言語表現を生成する自然言語表現生成部と、を含む。

本発明によれば、音を用いて精度のよい翻訳が可能となる。

SCGを説明する図である。文の詳細度を説明する図である。文の詳細度を説明する図である。 CSCGを説明する図である。実験結果を示す図である。実験結果を示す図である。実験結果を示す図である。実験結果を示す図である。データ生成モデルの概要を示す図である。データ生成モデル学習装置１００の構成を示すブロック図である。データ生成モデル学習装置１００の動作を示すフローチャートである。言語L_i生成モデル（i=1, 2）の概要を示す図である。データ生成モデル学習装置２００／５００の構成を示すブロック図である。データ生成モデル学習装置２００／５００の動作を示すフローチャートである。データ生成モデル学習装置２５０／５５０の構成を示すブロック図である。データ生成モデル学習装置２５０／５５０の動作を示すフローチャートである。潜在変数生成モデル学習装置３００／６００の構成を示すブロック図である。潜在変数生成モデル学習装置３００／６００の動作を示すフローチャートである。翻訳データ生成装置４００／７００の構成を示すブロック図である。翻訳データ生成装置４００／７００の動作を示すフローチャートである。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

各実施形態の説明に先立って、この明細書における表記方法について説明する。

^（キャレット）は上付き添字を表す。例えば、x^{y^z}はy^zがxに対する上付き添字であり、x_y^zはy^zがxに対する下付き添字であることを表す。また、_（アンダースコア）は下付き添字を表す。例えば、x^y_zはy_zがxに対する上付き添字であり、x_{y_z}はy_zがxに対する下付き添字であることを表す。

ある文字xに対する^xや~xのような上付き添え字の”^”や”~”は、本来”x”の真上に記載されるべきであるが、明細書の記載表記の制約上、^xや~xと記載しているものである。

＜技術的背景＞
本発明の実施形態では、音響信号から、当該音響信号に対応する文を生成する際、文生成モデルを用いる。ここで、文生成モデルとは、音響信号を入力とし、対応する文を出力する関数のことである。また、音響信号に対応する文とは、例えば、当該音響信号がどのような音であるのかを説明する文（当該音響信号の説明文）のことである。

まず、文生成モデルの一例としてSCG (Sequence-to-sequence Caption Generator)と呼ぶモデルについて説明する。

《SCG》
SCGは、図１に示すように、デコーダに参考非特許文献１に記載のRLM(Recurrent Language Model)を採用したエンコーダ－デコーダモデルである。
（参考非特許文献１：T. Mikolov, M. Karafiat, L. Burget, J. Cernock`y, and S. Khudanpur, “Recurrent neural network based language model”, In INTERSPEECH 2010, pp.1045-1048, 2010.）

図１を参照して、SCGを説明する。SCGは、以下のステップにより、入力された音響信号から、当該音響信号に対応する文を生成し、出力する。なお、音響信号の代わりに、音響信号から抽出された音響特徴量(Acoustic features)、例えば、メル周波数ケプストラム係数（MFCC）の系列を用いてもよい。また、テキストデータである文は、単語の列である。
（１）SCGは、エンコーダによって、音響信号から音の分散表現である潜在変数(Latent variable)zを抽出する。潜在変数zは、所定の次元（例えば、128次元）のベクトルとして表現される。この潜在変数zは、文生成のための十分な情報を含んだ音響信号の要約特徴量であるといえる。したがって、潜在変数zは音響信号と文の双方の特徴を有する固定長ベクトルであるともいえる。
（２）SCGは、デコーダによって、潜在変数zから、時刻t(t=1, 2, …)における単語w_tを出力していくことにより、文を生成する。デコーダの出力層(Output layer)は、時刻tにおける単語の生成確率p_t(w)から、次式により時刻tにおける単語w_tを出力する。

図１は、時刻t=1における単語w₁が”Birds”、時刻t=2における単語w₂が”are”、時刻t=3における単語w₃が”singing”であり、文”Birds are singing”が生成されることを表している。なお、図１中の<BOS>、<EOS>はそれぞれ開始記号、終端記号である。

SCGを構成するエンコーダとデコーダには、時系列データを処理することができる任意のニューラルネットワークを用いることができる。例えば、RNN(Recurrent Neural Network)やLSTM(Long Short-Term Memory)を用いることができる。なお、図１中のBLSTM、layered LSTMはそれぞれ双方向LSTM(Bi-directional LSTM)、多層LSTMを表す。

SCGは、音響信号と当該音響信号に対応する文（この文のことを教師データという）の組を教師あり学習データとして用いる教師あり学習により学習される。時刻tにおいてデコーダが出力する単語と、教師データの文に含まれる、時刻tにおける単語とのクロスエントロピーの総和を誤差関数L_SCGとして、誤差逆伝播法によりSCGを学習する。

上記学習により得られるSCGの出力である文は、その記述の詳細さにおいて、ばらつきが生じてしまう。これは、以下のような理由による。１つの音響信号に対して正しい文は１つではない。言い換えると、１つの音響信号に対して記述の詳細さが様々に異なる多数の“正しい文”が存在しうる。例えば、“低い音が鳴る”、“楽器をしばらく鳴らしている”、“弦楽器を低い音で鳴らし始めて、その後ゆっくりと音量が下がっていく”のように、１つの音響信号に対してその音響信号の様子を記述する正しい文は複数ありえ、これらの文の中でどの文が好ましいのかは場面によって異なる。例えば、端的な記述が欲しい場面もあれば、詳しい記述が欲しい場面もある。そのため、記述の詳細さが異なる文を区別せずにSCGの学習を実行すると、SCGは、生成する文の傾向を制御することができなくなる。

《詳細度》
上記ばらつきの問題を解決するために、文の詳細さの程度を示す指標である詳細度(Specificity)を定義する。n個の単語の列[w₁, w₂, …, w_n]である文sの詳細度I_sを次式により定義する。

ただし、I_{w_t}は単語w_tの出現確率p_{w_t}に基づき定まる単語w_tの情報量である。例えば、I_{w_t}=-log(p_{w_t})とするとよい。ここで、単語w_tの出現確率p_{w_t}は、例えば、説明文データベースを用いて求めることができる。説明文データベースとは、複数の音響信号に対して各々の音響信号を説明する文を１以上格納したデータベースであり、説明文データベースに含まれる文に含まれる単語ごとにその出現頻度を求め、当該単語の出現頻度をすべての単語の出現頻度の和で割ることにより、単語の出現確率を求めることができる。

このように定義した詳細度は、以下のような特徴を有する。
（１）具体的な物体や動作を表す単語を用いた文は詳細度が高くなる（図２参照）。

これは、このような単語は出現頻度が低く、情報量が大きくなるためである。
（２）使用する単語数が多い文は詳細度が高くなる（図３参照）。

詳細度の最適値は、対象とする音の性質や用途により異なる。例えば、より詳しく音を描写したい場合は、文の詳細度は高い方が好ましいし、端的な説明が欲しい場合は、文の詳細度は低い方が好ましい。また、詳細度が高い文は不正確になりやすいという問題もある。したがって、音響信号の記述に求められる情報の粒度に応じて、詳細度を自由に制御して、音響信号に対応する文を生成できることが重要になる。このような文生成を可能とするモデルとして、CSCG (Conditional Sequence-to-sequence Caption Generator)を説明する。

《CSCG》
CSCGは、SCGと同様、デコーダにRLMを採用したエンコーダ－デコーダモデルである。ただし、CSCGでは、デコーダに条件付けを行うことにより、生成される文の詳細度(Specificity of the sentence)を制御する（図４参照）。条件付けは、文の詳細度に関する条件(Specificitical Condition)をデコーダの入力とすることにより行う。ここで、文の詳細度に関する条件とは、生成される文の詳細度に関する条件を指定するものである。

図４を参照して、CSCGを説明する。CSCGは、以下のステップにより、入力された音響信号と文の詳細度に関する条件から、当該音響信号に対応する文を生成し、出力する。
（１）CSCGは、エンコーダによって、音響信号から音の分散表現である潜在変数zを抽出する。
（２）CSCGは、デコーダによって、潜在変数zと文の詳細度に関する条件Cから、時刻t(t=1, 2, …)における単語を出力していくことにより、文を生成する。生成された文は文の詳細度に関する条件Cに近い詳細度を持つ文となる。図４は、生成された文s=”Birds are singing”の詳細度I_sが文の詳細度に関する条件Cに近いものとなることを示している。

CSCGは、音響信号と当該音響信号に対応する文の組である学習データ（以下、第１学習データという）を用いる教師あり学習（以下、第１学習という）により学習することができる。また、CSCGは、第１学習データを用いる第１学習と、文の詳細度と当該詳細度に対応する文の組である学習データ（以下、第２学習データという）を用いる教師あり学習（以下、第２学習という）とにより学習することもできる。この場合、例えば、第１学習と第２学習を１エポックずつ交互に実行することにより、CSCGは学習される。また、例えば、第１学習と第２学習を所定の方法で混在させながら両学習を実行することにより、CSCGは学習される。このとき、第１学習の実行回数と第２学習の実行回数は異なる値となってもよい。

（１）第１学習
音響信号に対応する文（つまり、教師データの要素である文）は、人手により付与されたものを用いる。第１学習では、音響信号に対応する文の詳細度を求めて教師データに含める。第１学習では、生成された文と教師データの文の誤差であるL_SCGと詳細度に関する誤差であるL_spの最小化を同時に達成するように学習する。誤差関数L_CSCGには、２つの誤差L_SCGとL_spを用いて定義されるものを用いることができる。例えば、誤差関数L_CSCGとして、次式のような２つの誤差の線形和を用いることができる。

ここで、λは所定の定数である。

なお、誤差L_spの具体的な定義については後述する。

（２）第２学習
第１学習データの数が少ない場合、第１学習のみによりCSCGを学習すると、CSCGが第１学習データの要素である音響信号に過剰に適合してしまい、詳細度が適切に反映されにくくなることも考えられる。そこで、第１学習データを用いる第１学習に加えて、第２学習データを用いる第２学習により、CSCGを構成するデコーダを学習する。

第２学習では、学習中のデコーダを用いて、第２学習データの要素である詳細度cに対応する文を生成し、第２学習データの要素である文を当該生成された文に対する教師データとして、誤差L_spを最小化するようにデコーダを学習する。なお、第２学習データの要素である詳細度cは、例えば、乱数生成のように、所定の方法で生成されたものを用いればよい。また、第２学習データの要素である文は、詳細度cと近い（つまり、詳細度cとの差が所定の閾値より小さいあるいは以下である）詳細度を持つ文である。

具体的には、生成された文と詳細度cと近い詳細度を持つ文の誤差であるL_SCGを用いて正則化する。

ここで、λ’はλ’<1を満たす定数である。

第１学習に加えて、第２学習を実行することにより、CSCGの汎化性能を向上させることができる。

誤差L_spは、第１学習の場合は、生成された文の詳細度と教師データの文の詳細度との差、第２学習の場合は、生成された文の詳細度と教師データとして与える詳細度との差として定義することもできるが、このように誤差L_spを定義すると、時刻tにおける出力を得る時点で１つの単語への離散化を行うため、誤差を逆伝播することができない。そこで、誤差逆伝播法による学習を可能とするため、生成された文の詳細度の代わりに、その推定値を用いることが有効である。例えば、生成された文sの推定詳細度^I_sとして、次式で定義されるものを用いることができる。

ただし、時刻tにおけるデコーダの出力層のユニットjの値p(w_t,j)は、ユニットjに対応する単語w_t,jの生成確率、I_{w_t,j}は単語w_t,jの生成確率p_{w_t,j}に基づき定まる単語w_t,jの情報量である。

そして、誤差L_spを、第１学習の場合、推定詳細度^I_sと教師データの文の詳細度との差、第２学習の場合、推定詳細度^I_sと教師データとして与える詳細度との差として定義する。

《実験》
ここでは、CSCGによる文生成の効果を確認する実験の結果について説明する。実験は、以下の２つを目的として行った。
（１）詳細度による制御可能性の検証
（２）受容可能性(acceptability)に関する主観評価による生成された文の品質の評価

まず、実験に用いたデータについて、説明する。楽器音や音声などの音響イベントを収録した（6秒以内の）音響信号から、説明文付き音源（教師あり学習データ）を392個、説明文のない音源（教師なし学習データ）を579個生成した。なお、説明文付き音源を生成する際、各音源に1～4個の説明文を付与することした。ここで、付与された説明文の総数は1113個である。また、これらの説明文は、被験者に各音源を聞いてもらいどのような音であるか説明する文を書いてもらうことにより、生成したものである。さらに、上記1113個の説明文に対して、部分的な削除や置換を行うことより、説明文を21726個に増加させ、21726個の説明文を用いて説明文データベースを構成した。

以下、実験結果について説明する。実験結果は、SCGとCSCGの比較という形で評価することとした。実験では、学習済みのSCGと、学習済みのCSCGとを用いて、文を生成した。

まず、目的（１）に関する実験結果について説明する。図５は、音源に対してSCGやCSCGによりどのような文が生成されたかを示す表である。例えば、指を鳴らした音源に対して、SCGにより“軽やかな音が一瞬だけ鳴る”という文（Generated caption）が生成され、詳細度を20としてCSCGにより“指が鳴らされる”という文が生成されたことを示す。また、図６は、各モデルの詳細度の平均と標準偏差を示す表である。これらの統計量は29個の音源をテストデータとして文を生成した結果から算出したものである。図６の表から、詳細度に関して以下のことがわかる。
（１）SCGは、詳細度の標準偏差はとても大きい。
（２）CSCGは、入力した詳細度cの値に応じた詳細度を持つ文を生成しており、標準偏差もSCGのそれと比較して小さい。ただし、入力した詳細度cが大きくなるにつれて標準偏差が大きくなる。これは、入力した詳細度cに近い詳細度を持ちつつ音に当てはまる説明文がないためばらつきが大きくなるものと考えられる。

CSCGは、生成した文の詳細度のばらつきを抑制し、詳細度に応じた文を生成できていることがわかる。

次に、目的（２）に関する実験結果について説明する。まず、SCGを用いて生成した文が主観的に受け入れられるどうかを4段階評価した。次に、SCGを用いて生成した文とCSCGを用いて生成した文とを比較評価した。

4段階評価では、29の音源をテストデータとして用い、すべてのテストデータに対して41名の被験者が回答する形を採用した。図７にその結果を示す。平均値は1.45、分散は1.28であった。このことから、SCGを用いて生成した文は平均的に”部分的に当てはまる”より高い評価を獲得していることがわかる。

また、比較評価では、c=20, 50, 80, 100の4通りの条件でCSCGを用いて生成した文とSCGを用いて生成した文とを比較評価し、4通りの比較評価のうち最もCSCGを高く評価した回答を選択・集計した。図８にその結果を示す。100の音源をテストデータとして、19名の被験者に回答してもらったものであり、CSCGは有意水準を1%として有意にSCGより高い評価を獲得した。なお、平均値は0.80、分散は1.07であった。

《詳細度のバリエーション》
詳細度は、生成される文の持つ性質（具体的には情報量）を制御するための補助的な入力である。生成される文の持つ性質を制御することができるものであれば、詳細度は、単一の数値（スカラー値）であっても、数値の組（ベクトル）であってもよい。以下、いくつか例を挙げる。

（例１）N個の単語の系列である単語N-gramの出現頻度に基づく方法
単語1個での出現頻度の代わりに、単語の系列の出現頻度を用いる方法である。この方法は、単語の順序を考慮することができるため、より適切に生成される文の持つ性質を制御できる可能性がある。単語の出現確率と同様、説明文データベースを用いて、単語N-gramの出現確率を計算することができる。また、説明文データベースの代わりに、その他利用可能なコーパスを用いてもよい。

（例２）単語の数に基づく方法
詳細度を文に含まれる単語の数とする方法である。なお、単語の数の代わりに、文字の数を用いてもよい。

（例３）ベクトルを用いる方法
例えば、これまでに説明した、単語の出現確率、単語N-gramの出現確率、単語の数を組とする３次元ベクトルを詳細度とすることができる。また、例えば、政治、経済、科学のように単語を分類する分野（トピック）を設け、分野ごとに次元を割り当て、各分野の単語の出現確率の組をベクトルとして詳細度を定義してもよい。これにより、各分野に特有の言い回しの反映を図ることが可能になると考えられる。

《応用例》
SCG/CSCGの学習やSCG/CSCGを用いた文の生成の枠組みは、図５に例示した音源のように比較的単純な音以外に、例えば音楽のようにより複雑な音や、音以外のメディアに対しても適用することができる。音以外のメディアには、例えば絵画、イラスト、クリップアートのような画像や、動画がある。また、工業デザインや、味覚であってもよい。

SCG/CSCG同様、これらのデータと当該データに対応する文を対応づけるモデルを学習し、当該モデルを用いて文を生成することも可能である。例えば、味覚の場合、味覚センサからの信号を入力として、ワインや農作物等についての記述／論評である文を生成することも可能になる。この場合、味覚センサ以外に嗅覚センサ、触覚センサ、カメラからの信号もあわせて入力とするようにしてもよい。

なお、非時系列データを扱う場合は、例えば、CNN(Convolutional Neural Network)のようなニューラルネットワークを用いて、エンコーダやデコーダを構成するようにすればよい。

＜第１実施形態＞
《データ生成モデル学習装置１００》
データ生成モデル学習装置１００は、学習データを用いて、学習対象となるデータ生成モデルを学習する。ここで、学習データには、音響信号と当該音響信号に対応する自然言語表現の組である第１学習データと自然言語表現に対する指標と当該指標に対応する自然言語表現の組である第２学習データがある。また、データ生成モデルは、音響信号と自然言語表現に対する指標（例えば、文の詳細度）に関する条件を入力とし、当該音響信号に対応する自然言語表現を生成し、出力する関数のことであり、音響信号から音響信号に対応する潜在変数を生成するエンコーダと、潜在変数と自然言語表現に対する指標に関する条件から音響信号に対応する自然言語表現を生成するデコーダとの組として構成される（図９参照）。自然言語表現に対する指標に関する条件とは、生成される自然言語表現に要求される指標のことであり、要求される指標は一つの数値で指定してもよいし、範囲をもって指定してもよい。なお、エンコーダ、デコーダには、時系列データを処理することができる任意のニューラルネットワークを用いることができる。また、自然言語表現の例として、＜技術的背景＞で説明した文の他に、主語と述語を伴わない２つ以上の単語からなる句や、擬音語（オノマトペ）がある。

以下、図１０～図１１を参照してデータ生成モデル学習装置１００を説明する。図１０は、データ生成モデル学習装置１００の構成を示すブロック図である。図１１は、データ生成モデル学習装置１００の動作を示すフローチャートである。図１０に示すようにデータ生成モデル学習装置１００は、学習モード制御部１１０と、学習部１２０と、終了条件判定部１３０と、記録部１９０を含む。記録部１９０は、データ生成モデル学習装置１００の処理に必要な情報を適宜記録する構成部である。記録部１９０は、例えば、学習データを学習開始前に記録しておく。

図１１に従いデータ生成モデル学習装置１００の動作について説明する。データ生成モデル学習装置１００は、第１学習データと当該第１学習データの要素である自然言語表現に対する指標と第２学習データとを入力とし、データ生成モデルを出力する。なお、第１学習データの要素である自然言語表現に対する指標については、入力とする代わりに、学習部１２０において、第１学習データの要素である自然言語表現から求めるようにしてもよい。

Ｓ１１０において、学習モード制御部１１０は、第１学習データと、当該第１学習データの要素である自然言語表現に対する指標と、第２学習データとを入力とし、学習部１２０を制御するための制御信号を生成し、出力する。ここで、制御信号は、第１学習と第２学習のいずれかを実行するように学習モードを制御する信号である。制御信号は、例えば、第１学習と第２学習を交互に実行するように学習モードを制御する信号とすることができる。また、制御信号は、例えば、第１学習と第２学習を所定の方法で混在させながら両学習を実行するように学習モードを制御する信号とすることができる。この場合、第１学習の実行回数と第２学習の実行回数は、異なる値となってもよい。

Ｓ１２０において、学習部１２０は、第１学習データと、当該第１学習データの要素である自然言語表現に対する指標と、第２学習データと、Ｓ１１０において出力された制御信号とを入力とし、制御信号が指定する学習が第１学習である場合は、第１学習データと当該第１学習データの要素である自然言語表現に対する指標を用いて、音響信号から音響信号に対応する潜在変数を生成するエンコーダと、潜在変数と自然言語表現に対する指標に関する条件から音響信号に対応する自然言語表現を生成するデコーダとを学習し、制御信号が指定する学習が第２学習である場合は、第２学習データを用いてデコーダを学習し、エンコーダとデコーダの組であるデータ生成モデルを、終了条件判定部１３０が終了条件を判定するために必要な情報（例えば、学習を行った回数）とともに出力する。学習部１２０は、実行する学習が第１学習、第２学習のいずれであっても、１エポックを単位として学習を実行する。また、学習部１２０は、誤差関数L_CSCGを用いて誤差逆伝播法によりデータ生成モデルを学習する。誤差関数L_CSCGは、実行する学習が第１学習である場合、λを所定の定数として、次式により定義され、

実行する学習が第２学習である場合、λ’をλ’<1を満たす定数として、次式により定義される。

ただし、自然言語表現に関する誤差L_SCGは、実行する学習が第１学習である場合、第１学習データの要素である音響信号に対するデータ生成モデルの出力である自然言語表現と当該第１学習データの要素である自然言語表現とから計算されるクロスエントロピー、実行する学習が第２学習である場合、第２学習データの要素である指標に対するデコーダの出力である自然言語表現と当該第２学習データの要素である自然言語表現とから計算されるクロスエントロピーとする。

なお、誤差関数L_CSCGは、２つの誤差L_SCGとL_spを用いて定義されるものであればよい。

また、自然言語表現が文である場合、＜技術的背景＞で説明した通り、自然言語表現に対する指標として、文の詳細度を用いることができる。この場合、文の詳細度は、少なくとも所定の単語データベースを用いて定義される文に含まれる単語の出現確率や単語N-gramの出現確率、文に含まれる単語の数、文に含まれる文字の数のうち、少なくとも１つを用いて定義されるものである。例えば、文の詳細度は、I_sをn個の単語の列[w₁, w₂, …, w_n]である文sの詳細度として、次式により定義してもよい。

（ただし、I_{w_t}は単語w_tの出現確率p_{w_t}に基づき定まる単語w_tの情報量である。）

なお、詳細度I_sは、情報量I_{w_t}(1≦t≦n)を用いて定義されるものであればよい。

また、単語データベースは、文に含まれる単語に対して当該単語の出現確率や、文に含まれる単語N-gramに対して当該単語N-gramの出現確率を定義できるものであれば、どのようなものであってもよい。単語データベースとして、例えば、＜技術的背景＞で説明した説明文データベースを用いることができる。

また、デコーダの出力である文sの推定詳細度^I_sを、

（ただし、時刻tにおけるデコーダの出力層のユニットjの値p(w_t,j)は、ユニットjに対応する単語w_t,jの生成確率、I_{w_t,j}は単語w_t,jの生成確率p_{w_t,j}に基づき定まる単語w_t,jの情報量である）とし、文の詳細度に関する誤差L_spは、実行する学習が第１学習である場合、推定詳細度^I_sと第１学習データの要素である文の詳細度との差、実行する学習が第２学習である場合、推定詳細度^I_sと第２学習データの要素である詳細度との差とする。

なお、句に対しても、文と同様、詳細度を定義することができる。

Ｓ１３０において、終了条件判定部１３０は、Ｓ１２０において出力されたデータ生成モデルと終了条件を判定するために必要な情報とを入力とし、学習の終了に関する条件である終了条件が満たされている（例えば、学習を行った回数が所定の繰り返し回数に達している）か否かを判定し、終了条件が満たされている場合は、データ生成モデルを出力して、処理を終了する一方、終了条件が満たされていない場合は、Ｓ１１０の処理に戻る。

本発明の実施形態によれば、自然言語表現に対する指標を補助入力とし、音響信号から、当該音響信号に対応する自然言語表現を生成するデータ生成モデルを学習することが可能となる。

＜第２実施形態＞
ここでは、日本語、英語、フランス語などの言語を言語L_i(i=1, 2, …, N、ただしNは2以上の整数)と表すことにする。なお、i≠jの場合、L_i≠L_j、つまり、言語L₁と言語L₂は互いに異なる言語であるものとする。

以下、N=2として、説明する。

《データ生成モデル学習装置２００》
データ生成モデル学習装置２００は、学習データを用いて、学習対象となる言語L_i生成モデル（i=1, 2）を学習する。ここで、学習データには、音響信号と当該音響信号に対応する言語L₁の自然言語表現と当該音響信号に対応する言語L₂の自然言語表現の組である第１学習データと自然言語表現に対する指標と当該指標に対応する言語L_iの自然言語表現（i=1, 2）の組である第２学習データがある。なお、１つの音響信号に対応する言語L₁の自然言語表現と言語L₂の自然言語表現は、互いに翻訳された自然言語表現であるという関係にある。また、言語L_i生成モデル（i=1, 2）は、音響信号と自然言語表現に対する指標に関する条件を入力とし、当該音響信号に対応する言語L_iの自然言語表現を生成し、出力する関数のことであり、音響信号から音響信号に対応する潜在変数を生成する音響信号エンコーダと、潜在変数と自然言語表現に対する指標に関する条件から音響信号に対応する言語L_iの自然言語表現を生成する言語L_iデコーダとの組である（図１２参照）。自然言語表現に対する指標に関する条件とは、生成される自然言語表現に要求される指標のことであり、要求される指標は一つの数値で指定してもよいし、範囲をもって指定してもよい。なお、音響信号エンコーダ、言語L_iデコーダには、時系列データを処理することができる任意のニューラルネットワークを用いることができる。

以下、図１３～図１４を参照してデータ生成モデル学習装置２００を説明する。図１３は、データ生成モデル学習装置２００の構成を示すブロック図である。図１４は、データ生成モデル学習装置２００の動作を示すフローチャートである。図１３に示すようにデータ生成モデル学習装置２００は、学習モード制御部２１０と、学習部２２０と、終了条件判定部２３０と、記録部２９０を含む。記録部２９０は、データ生成モデル学習装置２００の処理に必要な情報を適宜記録する構成部である。記録部２９０は、例えば、学習データを学習開始前に記録しておく。

図１４に従いデータ生成モデル学習装置２００の動作について説明する。データ生成モデル学習装置２００は、第１学習データと当該第１学習データの要素である言語L_i（i=1,2）の自然言語表現に対する指標と第２学習データとを入力とし、言語L_i生成モデル（i=1, 2）を出力する。なお、第１学習データの要素である言語L_i（i=1, 2）の自然言語表現に対する指標については、入力とする代わりに、学習部２２０において、第１学習データの要素である言語L_i（i=1, 2）の自然言語表現から求めるようにしてもよい。

Ｓ２１０において、学習モード制御部２１０は、第１学習データと、当該第１学習データの要素である言語L_i（i=1, 2）の自然言語表現に対する指標と、第２学習データとを入力とし、学習部２２０を制御するための制御信号を生成し、出力する。ここで、制御信号は、第１学習と第２学習のいずれかを実行するように学習モードを制御する信号である。制御信号は、例えば、第１学習と第２学習を交互に実行するように学習モードを制御する信号とすることができる。また、制御信号は、例えば、第１学習と第２学習を所定の方法で混在させながら両学習を実行するように学習モードを制御する信号とすることができる。この場合、第１学習の実行回数と第２学習の実行回数は、異なる値となってもよい。

Ｓ２２０において、学習部２２０は、第１学習データと、当該第１学習データの要素である言語L_i（i=1, 2）の自然言語表現に対する指標と、第２学習データと、Ｓ２１０において出力された制御信号とを入力とし、制御信号が指定する学習が第１学習である場合は、第１学習データと当該第１学習データの要素である言語L_i（i=1, 2）の自然言語表現に対する指標を用いて、音響信号から音響信号に対応する潜在変数を生成する音響信号エンコーダと、潜在変数と言語L_i（i=1, 2）の自然言語表現に対する指標に関する条件から音響信号に対応する言語L_i（i=1, 2）の自然言語表現を生成する言語L_iデコーダ（i=1, 2）とを学習し、制御信号が指定する学習が第２学習である場合は、第２学習データを用いて言語L_iデコーダ（i=1, 2）を学習し、音響信号エンコーダと言語L_iデコーダ（i=1, 2）の組である言語L_i生成モデル（i=1, 2）を、終了条件判定部２３０が終了条件を判定するために必要な情報（例えば、学習を行った回数）とともに出力する。学習部２２０は、実行する学習が第１学習、第２学習のいずれであっても、１エポックを単位として学習を実行する。また、学習部２２０は、データ生成モデル学習装置１００で用いた誤差関数L_CSCGと同様に定義される誤差関数L_CSCG ⁽ⁱ⁾（i=1, 2）を用いて誤差逆伝播法により言語L_i生成モデル（i=1, 2）を学習する。ここで、誤差関数L_CSCG ⁽ⁱ⁾は、言語L_i生成モデルの学習に用いられる誤差関数である。

Ｓ２３０において、終了条件判定部２３０は、Ｓ２２０において出力された言語L_i生成モデル（i=1, 2）と終了条件を判定するために必要な情報とを入力とし、学習の終了に関する条件である終了条件が満たされている（例えば、学習を行った回数が所定の繰り返し回数に達している）か否かを判定し、終了条件が満たされている場合は、言語L_i生成モデル（i=1, 2）を出力して、処理を終了する一方、終了条件が満たされていない場合は、Ｓ２１０の処理に戻る。

《データ生成モデル学習装置２５０》
データ生成モデル学習装置２５０は、学習データを用いて、学習対象となる言語L_i生成モデル（i=1, 2）を学習する。データ生成モデル学習装置２５０は、第１学習データを用いる第１学習のみを実行する点において、データ生成モデル学習装置２００と異なる。

以下、図１５～図１６を参照してデータ生成モデル学習装置２５０を説明する。図１５は、データ生成モデル学習装置２５０の構成を示すブロック図である。図１６は、データ生成モデル学習装置２５０の動作を示すフローチャートである。図１５に示すようにデータ生成モデル学習装置２５０は、学習部２２０と、終了条件判定部２３０と、記録部２９０を含む。記録部２９０は、データ生成モデル学習装置２５０の処理に必要な情報を適宜記録する構成部である。

図１６に従いデータ生成モデル学習装置２５０の動作について説明する。データ生成モデル学習装置２５０は、第１学習データと当該第１学習データの要素である言語L_i（i=1,2）の自然言語表現に対する指標とを入力とし、言語L_i生成モデル（i=1, 2）を出力する。なお、第１学習データの要素である言語L_i（i=1, 2）の自然言語表現に対する指標については、入力とする代わりに、学習部２２０において、第１学習データの要素である言語L_i（i=1, 2）の自然言語表現から求めるようにしてもよい。

Ｓ２２０において、学習部２２０は、第１学習データと、当該第１学習データの要素である言語L_i（i=1, 2）の自然言語表現に対する指標とを入力とし、第１学習データと当該第１学習データの要素である言語L_i（i=1, 2）の自然言語表現に対する指標を用いて、音響信号エンコーダと言語L_iデコーダ（i=1, 2）を学習し、音響信号エンコーダと言語L_iデコーダ（i=1, 2）の組である言語L_i生成モデル（i=1, 2）を、終了条件判定部２３０が終了条件を判定するために必要な情報（例えば、学習を行った回数）とともに出力する。学習部２２０は、例えば、１エポックを単位として学習を実行する。また、学習部２２０は、誤差関数L_CSCG ⁽ⁱ⁾を用いて誤差逆伝播法により言語L_i生成モデルを学習する。

Ｓ２３０において、終了条件判定部２３０は、Ｓ２２０において出力された言語L_i生成モデル（i=1, 2）と終了条件を判定するために必要な情報とを入力とし、学習の終了に関する条件である終了条件が満たされている（例えば、学習を行った回数が所定の繰り返し回数に達している）か否かを判定し、終了条件が満たされている場合は、言語L_i生成モデル（i=1, 2）を出力して、処理を終了する一方、終了条件が満たされていない場合は、Ｓ２２０の処理に戻る。

《潜在変数生成モデル学習装置３００》
潜在変数生成モデル学習装置３００は、学習データを用いて、学習対象となる潜在変数生成モデルを学習する。ここで、学習データは、データ生成モデル学習装置２００またはデータ生成モデル学習装置２５０を用いて学習した言語L_i生成モデル（i=1, 2）を用いて、音響信号から生成した、当該音響信号に対応する言語L_i（i=1, 2）の自然言語表現と当該音響信号に対応する潜在変数との組（以下、教師あり学習データという）である。また、潜在変数生成モデルは、言語L_i（i=1, 2）の自然言語表現から言語L_i（i=1, 2）の自然言語表現に対応する潜在変数を生成する言語L_iエンコーダ（i=1, 2）である。なお、言語L_iエンコーダには、時系列データを処理することができる任意のニューラルネットワークを用いることができる。

以下、図１７～図１８を参照して潜在変数生成モデル学習装置３００を説明する。図１７は、潜在変数生成モデル学習装置３００の構成を示すブロック図である。図１８は、潜在変数生成モデル学習装置３００の動作を示すフローチャートである。図１７に示すように潜在変数生成モデル学習装置３００は、学習部３２０と、終了条件判定部３３０と、記録部３９０を含む。記録部３９０は、潜在変数生成モデル学習装置３００の処理に必要な情報を適宜記録する構成部である。記録部３９０は、例えば、教師あり学習データを学習開始前に記録しておく。

図１８に従い潜在変数生成モデル学習装置３００の動作について説明する。潜在変数生成モデル学習装置３００は、教師あり学習データを入力とし、潜在変数生成モデルを出力する。入力された教師あり学習データは、上述の通り、例えば、記録部３９０に記録しておく。

Ｓ３２０において、学習部３２０は、記録部３９０に記録した教師あり学習データを入力とし、当該教師あり学習データを用いた教師あり学習により、言語L_i（i=1, 2）の自然言語表現から言語L_iの自然言語表現に対応する潜在変数を生成する言語L_iエンコーダ（i=1, 2）を潜在変数生成モデルとして学習し、言語L_iエンコーダ（i=1, 2）を、終了条件判定部３３０が終了条件を判定するために必要な情報（例えば、学習を行った回数）とともに出力する。学習部３２０は、例えば、１エポックを単位として学習を実行する。また、学習部３２０は、所定の誤差関数L⁽ⁱ⁾を用いて誤差逆伝播法により言語L_iエンコーダ（i=1, 2）を潜在変数生成モデルとして学習する。

Ｓ３３０において、終了条件判定部３３０は、Ｓ３２０において出力された言語L_iエンコーダ（i=1, 2）と終了条件を判定するために必要な情報とを入力とし、学習の終了に関する条件である終了条件が満たされている（例えば、学習を行った回数が所定の繰り返し回数に達している）か否かを判定し、終了条件が満たされている場合は、潜在変数生成モデル（つまり、言語L₁エンコーダと言語L₂エンコーダの組）を出力して、処理を終了する一方、終了条件が満たされていない場合は、Ｓ３２０の処理に戻る。

《翻訳データ生成装置４００》
翻訳データ生成装置４００は、潜在変数生成モデル学習装置３００を用いて学習した言語L₁エンコーダと、データ生成モデル学習装置２００またはデータ生成モデル学習装置２５０を用いて学習した言語L₂デコーダとを用いて、言語L₁の自然言語表現から、言語L₂の自然言語表現を生成する。つまり、翻訳データ生成装置４００は言語L₁の自然言語表現を言語L₂の自然言語表現に翻訳する。ここで、潜在変数生成モデル学習装置３００を用いて学習した言語L₁エンコーダを学習済み言語L₁エンコーダともいう。また、データ生成モデル学習装置２００またはデータ生成モデル学習装置２５０を用いて学習した言語L₂デコーダを学習済み言語L₂デコーダともいう。なお、潜在変数生成モデル学習装置３００以外の潜在変数生成モデル学習装置を用いて学習した言語L₁エンコーダや、データ生成モデル学習装置２００、データ生成モデル学習装置２５０以外のデータ生成モデル学習装置を用いて学習した言語L₂デコーダを用いてもよいのはもちろんである。

以下、図１９～図２０を参照して翻訳データ生成装置４００を説明する。図１９は、翻訳データ生成装置４００の構成を示すブロック図である。図２０は、翻訳データ生成装置４００の動作を示すフローチャートである。図１９に示すように翻訳データ生成装置４００は、潜在変数生成部４１０と、指標計算部４２０と、自然言語表現生成部４３０と、記録部４９０を含む。記録部４９０は、翻訳データ生成装置４００の処理に必要な情報を適宜記録する構成部である。記録部４９０は、例えば、学習済み言語L₁エンコーダ、学習済み言語L₂デコーダを事前に記録しておく。

図２０に従い翻訳データ生成装置４００の動作について説明する。翻訳データ生成装置４００は、言語L₁の自然言語表現を入力とし、言語L₂の自然言語表現を出力する。

Ｓ４１０において、潜在変数生成部４１０は、言語L₁の自然言語表現を入力とし、言語L₁の自然言語表現から、言語L₁エンコーダを用いて、言語L₁の自然言語表現に対応する潜在変数を生成し、出力する。

Ｓ４２０において、指標計算部４２０は、言語L₁の自然言語表現を入力とし、言語L₁の自然言語表現から、言語L₁の自然言語表現に対する指標を計算し、出力する。自然言語表現に対する指標には、第１実施形態で説明したそれを用いるとよい。

Ｓ４３０において、自然言語表現生成部４３０は、Ｓ４１０において出力された潜在変数とＳ４２０において出力された言語L₁の自然言語表現に対する指標を入力とし、潜在変数と言語L₁の自然言語表現に対する指標から、言語L₂デコーダを用いて、言語L₁の自然言語表現に対応する言語L₂の自然言語表現を生成し、出力する。

以上の議論は、Nを3以上の整数としても成り立つものである。したがって、言語L_iエンコーダと言語L_jデコーダ（ただし、i≠j）とを用いると、言語L_iの自然言語表現から、言語L_jの自然言語表現を生成する翻訳データ生成装置を構成することができる。これにより、任意の言語間の翻訳が可能になる。

本発明の実施形態によれば、自然言語表現に対する指標を補助入力とし、音響信号から、当該音響信号に対応する言語L_iの自然言語表現を生成する言語L_i生成モデルを学習することが可能となる。本発明の実施形態によれば、言語L_iの自然言語表現から言語L_iの自然言語表現に対応する潜在変数を生成する言語L_iエンコーダを学習することが可能となる。本発明の実施形態によれば、音を用いて精度のよい翻訳が可能となる。

＜変形例＞
データ生成モデル学習装置２００、データ生成モデル学習装置２５０、潜在変数生成モデル学習装置３００、翻訳データ生成装置４００では音響信号を用いたが、音響信号の代わりに、例えば、画像を用いることもできる。さらに言えば、人間の五感、つまり、聴覚、視覚、味覚、嗅覚、触覚に相当するセンサを用いて得られた信号（以下、感覚情報に基づく信号という）を用いて、翻訳データ生成装置を構成することができる。

以下、感覚情報に基づく信号を用いるデータ生成モデル学習装置、潜在変数生成モデル学習装置、翻訳データ生成装置について説明する。

《データ生成モデル学習装置５００》
データ生成モデル学習装置５００は、学習データを用いて、学習対象となる言語L_i生成モデル（i=1, 2）を学習する。ここで、学習データには、感覚情報に基づく信号と当該信号に対応する言語L₁の自然言語表現と当該信号に対応する言語L₂の自然言語表現の組である第１学習データと自然言語表現に対する指標と当該指標に対応する言語L_iの自然言語表現（i=1, 2）の組である第２学習データがある。なお、１つの感覚情報に基づく信号に対応する言語L₁の自然言語表現と言語L₂の自然言語表現は、互いに翻訳された自然言語表現であるという関係にある。また、言語L_i生成モデル（i=1, 2）は、感覚情報に基づく信号と自然言語表現に対する指標に関する条件を入力とし、当該信号に対応する言語L_iの自然言語表現を生成し、出力する関数のことであり、感覚情報に基づく信号から感覚情報に基づく信号に対応する潜在変数を生成する信号エンコーダと、潜在変数と自然言語表現に対する指標に関する条件から感覚情報に基づく信号に対応する言語L_iの自然言語表現を生成する言語L_iデコーダとの組である。なお、信号エンコーダ、言語L_iデコーダには、感覚情報に基づく信号を処理することができる任意のニューラルネットワークを用いることができる。

以下、図１３～図１４を参照してデータ生成モデル学習装置５００を説明する。図１３は、データ生成モデル学習装置５００の構成を示すブロック図である。図１４は、データ生成モデル学習装置５００の動作を示すフローチャートである。図１３に示すようにデータ生成モデル学習装置５００は、学習モード制御部５１０と、学習部５２０と、終了条件判定部５３０と、記録部５９０を含む。記録部５９０は、データ生成モデル学習装置５００の処理に必要な情報を適宜記録する構成部である。記録部５９０は、例えば、学習データを学習開始前に記録しておく。

図１４に従いデータ生成モデル学習装置５００の動作について説明する。データ生成モデル学習装置５００は、第１学習データと当該第１学習データの要素である言語L_i（i=1,2）の自然言語表現に対する指標と第２学習データとを入力とし、言語L_i生成モデル（i=1, 2）を出力する。なお、第１学習データの要素である言語L_i（i=1, 2）の自然言語表現に対する指標については、入力とする代わりに、学習部５２０において、第１学習データの要素である言語L_i（i=1, 2）の自然言語表現から求めるようにしてもよい。

Ｓ５１０において、学習モード制御部５１０は、第１学習データと、当該第１学習データの要素である言語L_i（i=1, 2）の自然言語表現に対する指標と、第２学習データとを入力とし、学習部５２０を制御するための制御信号を生成し、出力する。

Ｓ５２０において、学習部５２０は、第１学習データと、当該第１学習データの要素である言語L_i（i=1, 2）の自然言語表現に対する指標と、第２学習データと、Ｓ５１０において出力された制御信号とを入力とし、制御信号が指定する学習が第１学習である場合は、第１学習データと当該第１学習データの要素である言語L_i（i=1, 2）の自然言語表現に対する指標を用いて、感覚情報に基づく信号から感覚情報に基づく信号に対応する潜在変数を生成する信号エンコーダと、潜在変数と言語L_i（i=1, 2）の自然言語表現に対する指標に関する条件から感覚情報に基づく信号に対応する言語L_i（i=1, 2）の自然言語表現を生成する言語L_iデコーダ（i=1, 2）とを学習し、制御信号が指定する学習が第２学習である場合は、第２学習データを用いて言語L_iデコーダ（i=1, 2）を学習し、信号エンコーダと言語L_iデコーダ（i=1, 2）の組である言語L_i生成モデル（i=1, 2）を、終了条件判定部５３０が終了条件を判定するために必要な情報（例えば、学習を行った回数）とともに出力する。

Ｓ５３０において、終了条件判定部５３０は、Ｓ５２０において出力された言語L_i生成モデル（i=1, 2）と終了条件を判定するために必要な情報とを入力とし、学習の終了に関する条件である終了条件が満たされている（例えば、学習を行った回数が所定の繰り返し回数に達している）か否かを判定し、終了条件が満たされている場合は、言語L_i生成モデル（i=1, 2）を出力して、処理を終了する一方、終了条件が満たされていない場合は、Ｓ５１０の処理に戻る。

《データ生成モデル学習装置５５０》
データ生成モデル学習装置５５０は、学習データを用いて、学習対象となる言語L_i生成モデル（i=1, 2）を学習する。データ生成モデル学習装置５５０は、第１学習データを用いる第１学習のみを実行する点において、データ生成モデル学習装置５００と異なる。

以下、図１５～図１６を参照してデータ生成モデル学習装置５５０を説明する。図１５は、データ生成モデル学習装置５５０の構成を示すブロック図である。図１６は、データ生成モデル学習装置５５０の動作を示すフローチャートである。図１５に示すようにデータ生成モデル学習装置５５０は、学習部５２０と、終了条件判定部５３０と、記録部５９０を含む。記録部５９０は、データ生成モデル学習装置５５０の処理に必要な情報を適宜記録する構成部である。

図１６に従いデータ生成モデル学習装置５５０の動作について説明する。データ生成モデル学習装置５５０は、第１学習データと当該第１学習データの要素である言語L_i（i=1,2）の自然言語表現に対する指標とを入力とし、言語L_i生成モデル（i=1, 2）を出力する。なお、第１学習データの要素である言語L_i（i=1, 2）の自然言語表現に対する指標については、入力とする代わりに、学習部５２０において、第１学習データの要素である言語L_i（i=1, 2）の自然言語表現から求めるようにしてもよい。

Ｓ５２０において、学習部５２０は、第１学習データと、当該第１学習データの要素である言語L_i（i=1, 2）の自然言語表現に対する指標とを入力とし、第１学習データと当該第１学習データの要素である言語L_i（i=1, 2）の自然言語表現に対する指標を用いて、信号エンコーダと言語L_iデコーダ（i=1, 2）を学習し、信号エンコーダと言語L_iデコーダ（i=1, 2）の組である言語L_i生成モデル（i=1, 2）を、終了条件判定部５３０が終了条件を判定するために必要な情報（例えば、学習を行った回数）とともに出力する。

Ｓ５３０において、終了条件判定部５３０は、Ｓ５２０において出力された言語L_i生成モデル（i=1, 2）と終了条件を判定するために必要な情報とを入力とし、学習の終了に関する条件である終了条件が満たされている（例えば、学習を行った回数が所定の繰り返し回数に達している）か否かを判定し、終了条件が満たされている場合は、言語L_i生成モデル（i=1, 2）を出力して、処理を終了する一方、終了条件が満たされていない場合は、Ｓ５２０の処理に戻る。

《潜在変数生成モデル学習装置６００》
潜在変数生成モデル学習装置６００は、学習データを用いて、学習対象となる潜在変数生成モデルを学習する。ここで、学習データは、データ生成モデル学習装置５００またはデータ生成モデル学習装置５５０を用いて学習した言語L_i生成モデル（i=1, 2）を用いて、感覚情報に基づく信号から生成した、当該信号に対応する言語L_i（i=1, 2）の自然言語表現と当該信号に対応する潜在変数との組（以下、教師あり学習データという）である。また、潜在変数生成モデルは、言語L_i（i=1, 2）の自然言語表現から言語L_i（i=1, 2）の自然言語表現に対応する潜在変数を生成する言語L_iエンコーダ（i=1, 2）である。なお、言語L_iエンコーダには、感覚情報に基づく信号を処理することができる任意のニューラルネットワークを用いることができる。

以下、図１７～図１８を参照して潜在変数生成モデル学習装置６００を説明する。図１７は、潜在変数生成モデル学習装置６００の構成を示すブロック図である。図１８は、潜在変数生成モデル学習装置６００の動作を示すフローチャートである。図１７に示すように潜在変数生成モデル学習装置６００は、学習部６２０と、終了条件判定部６３０と、記録部６９０を含む。記録部６９０は、潜在変数生成モデル学習装置６００の処理に必要な情報を適宜記録する構成部である。記録部６９０は、例えば、教師あり学習データを学習開始前に記録しておく。

図１８に従い潜在変数生成モデル学習装置６００の動作について説明する。潜在変数生成モデル学習装置６００は、教師あり学習データを入力とし、潜在変数生成モデルを出力する。入力された教師あり学習データは、上述の通り、例えば、記録部６９０に記録しておく。

Ｓ６２０において、学習部６２０は、記録部６９０に記録した教師あり学習データを入力とし、当該教師あり学習データを用いた教師あり学習により、言語L_i（i=1, 2）の自然言語表現から言語L_iの自然言語表現に対応する潜在変数を生成する言語L_iエンコーダ（i=1, 2）を潜在変数生成モデルとして学習し、言語L_iエンコーダ（i=1, 2）を、終了条件判定部６３０が終了条件を判定するために必要な情報（例えば、学習を行った回数）とともに出力する。

Ｓ６３０において、終了条件判定部６３０は、Ｓ６２０において出力された言語L_iエンコーダ（i=1, 2）と終了条件を判定するために必要な情報とを入力とし、学習の終了に関する条件である終了条件が満たされている（例えば、学習を行った回数が所定の繰り返し回数に達している）か否かを判定し、終了条件が満たされている場合は、潜在変数生成モデル（つまり、言語L₁エンコーダと言語L₂エンコーダの組）を出力して、処理を終了する一方、終了条件が満たされていない場合は、Ｓ６２０の処理に戻る。

《翻訳データ生成装置７００》
翻訳データ生成装置７００は、潜在変数生成モデル学習装置６００を用いて学習した言語L₁エンコーダと、データ生成モデル学習装置５００またはデータ生成モデル学習装置５５０を用いて学習した言語L₂デコーダとを用いて、言語L₁の自然言語表現から、言語L₂の自然言語表現を生成する。つまり、翻訳データ生成装置７００は言語L₁の自然言語表現を言語L₂の自然言語表現に翻訳する。ここで、潜在変数生成モデル学習装置６００を用いて学習した言語L₁エンコーダを学習済み言語L₁エンコーダともいう。また、データ生成モデル学習装置５００またはデータ生成モデル学習装置５５０を用いて学習した言語L₂デコーダを学習済み言語L₂デコーダともいう。なお、潜在変数生成モデル学習装置６００以外の潜在変数生成モデル学習装置を用いて学習した言語L₁エンコーダや、データ生成モデル学習装置５００、データ生成モデル学習装置５５０以外のデータ生成モデル学習装置を用いて学習した言語L₂デコーダを用いてもよいのはもちろんである。

以下、図１９～図２０を参照して翻訳データ生成装置７００を説明する。図１９は、翻訳データ生成装置７００の構成を示すブロック図である。図２０は、翻訳データ生成装置７００の動作を示すフローチャートである。図１９に示すように翻訳データ生成装置７００は、潜在変数生成部７１０と、指標計算部７２０と、自然言語表現生成部７３０と、記録部７９０を含む。記録部７９０は、翻訳データ生成装置７００の処理に必要な情報を適宜記録する構成部である。記録部７９０は、例えば、学習済み言語L₁エンコーダ、学習済み言語L₂デコーダを事前に記録しておく。

図２０に従い翻訳データ生成装置７００の動作について説明する。翻訳データ生成装置７００は、言語L₁の自然言語表現を入力とし、言語L₂の自然言語表現を出力する。

Ｓ７１０において、潜在変数生成部７１０は、言語L₁の自然言語表現を入力とし、言語L₁の自然言語表現から、言語L₁エンコーダを用いて、言語L₁の自然言語表現に対応する潜在変数を生成し、出力する。

Ｓ７２０において、指標計算部７２０は、言語L₁の自然言語表現を入力とし、言語L₁の自然言語表現から、言語L₁の自然言語表現に対する指標を計算し、出力する。

Ｓ７３０において、自然言語表現生成部７３０は、Ｓ７１０において出力された潜在変数とＳ７２０において出力された言語L₁の自然言語表現に対する指標を入力とし、潜在変数と言語L₁の自然言語表現に対する指標から、言語L₂デコーダを用いて、言語L₁の自然言語表現に対応する言語L₂の自然言語表現を生成し、出力する。

本発明の実施形態によれば、自然言語表現に対する指標を補助入力とし、感覚情報に基づく信号から、当該信号に対応する言語L_iの自然言語表現を生成する言語L_i生成モデルを学習することが可能となる。本発明の実施形態によれば、言語L_iの自然言語表現から言語L_iの自然言語表現に対応する潜在変数を生成する言語L_iエンコーダを学習することが可能となる。本発明の実施形態によれば、感覚情報に基づく信号を用いて精度のよい翻訳が可能となる。

＜補記＞
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ－ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（上記、…部、…手段などと表した各構成部）を実現する。

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

既述のように、上記実施形態において説明したハードウェアエンティティ（本発明の装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ－ＲＡＭ（Random Access Memory）、ＣＤ－ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ－Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ－ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

上述の本発明の実施形態の記載は、例証と記載の目的で提示されたものである。網羅的であるという意思はなく、開示された厳密な形式に発明を限定する意思もない。変形やバリエーションは上述の教示から可能である。実施形態は、本発明の原理の最も良い例証を提供するために、そして、この分野の当業者が、熟考された実際の使用に適するように本発明を色々な実施形態で、また、色々な変形を付加して利用できるようにするために、選ばれて表現されたものである。すべてのそのような変形やバリエーションは、公正に合法的に公平に与えられる幅にしたがって解釈された添付の請求項によって定められた本発明のスコープ内である。

Claims

音響信号と当該音響信号に対応する言語L₁の自然言語表現と当該音響信号に対応する言語L₂の自然言語表現の組である第１学習データと、当該第１学習データの要素である言語L₁の自然言語表現に対する指標と、当該第１学習データの要素である言語L₂の自然言語表現に対する指標とを用いて、言語L_i生成モデル（i=1, 2）を学習する学習部と、
を含むデータ生成モデル学習装置であって、
前記言語L_i生成モデル（i=1, 2）は、音響信号から前記音響信号に対応する潜在変数を生成する音響信号エンコーダと、前記潜在変数と言語L_i（i=1, 2）の自然言語表現に対する指標に関する条件から前記音響信号に対応する言語L_i（i=1, 2）の自然言語表現を生成する言語L_iデコーダ（i=1, 2）との組である
データ生成モデル学習装置。
音響信号から前記音響信号に対応する潜在変数を生成する音響信号エンコーダと、前記潜在変数と言語L_i（i=1, 2）の自然言語表現に対する指標に関する条件から前記音響信号に対応する言語L_i（i=1, 2）の自然言語表現を生成する言語L_iデコーダ（i=1, 2）との組である言語L_i生成モデル（i=1, 2）を用いて、音響信号から生成した、当該音響信号に対応する言語L_i（i=1, 2）の自然言語表現と当該音響信号に対応する潜在変数との組を教師あり学習データとして用いる教師あり学習により、言語L_i（i=1, 2）の自然言語表現から前記言語L_iの自然言語表現に対応する潜在変数を生成する言語L_iエンコーダ（i=1, 2）を潜在変数生成モデルとして学習する学習部と、
を含む潜在変数生成モデル学習装置。
感覚情報に基づく信号と当該信号に対応する言語L₁の自然言語表現と当該信号に対応する言語L₂の自然言語表現の組である第１学習データと、当該第１学習データの要素である言語L₁の自然言語表現に対する指標と、当該第１学習データの要素である言語L₂の自然言語表現に対する指標とを用いて、言語L_i生成モデル（i=1, 2）を学習する学習部と、
を含むデータ生成モデル学習装置であって、
前記言語L_i生成モデル（i=1, 2）は、感覚情報に基づく信号から前記感覚情報に基づく信号に対応する潜在変数を生成する信号エンコーダと、前記潜在変数と言語L_i（i=1, 2）の自然言語表現に対する指標に関する条件から前記感覚情報に基づく信号に対応する言語L_i（i=1, 2）の自然言語表現を生成する言語L_iデコーダ（i=1, 2）との組である
データ生成モデル学習装置。
感覚情報に基づく信号から前記感覚情報に基づく信号に対応する潜在変数を生成する信号エンコーダと、前記潜在変数と言語L_i（i=1, 2）の自然言語表現に対する指標に関する条件から前記感覚情報に基づく信号に対応する言語L_i（i=1, 2）の自然言語表現を生成する言語L_iデコーダ（i=1, 2）との組である言語L_i生成モデル（i=1, 2）を用いて、感覚情報に基づく信号から生成した、当該信号に対応する言語L_i（i=1, 2）の自然言語表現と当該信号に対応する潜在変数との組を教師あり学習データとして用いる教師あり学習により、言語L_i（i=1, 2）の自然言語表現から前記言語L_iの自然言語表現に対応する潜在変数を生成する言語L_iエンコーダ（i=1, 2）を潜在変数生成モデルとして学習する学習部と、
を含む潜在変数生成モデル学習装置。
L₁、L₂を互いに異なる言語とし、
言語L₁の自然言語表現から、言語L₁エンコーダを用いて、前記言語L₁の自然言語表現に対応する潜在変数を生成する潜在変数生成部と、
前記言語L₁の自然言語表現から、前記言語L₁の自然言語表現に対する指標を計算する指標計算部と、
前記潜在変数と前記言語L₁の自然言語表現に対する指標から、言語L₂デコーダを用いて、前記言語L₁の自然言語表現に対応する言語L₂の自然言語表現を生成する自然言語表現生成部と、
を含む翻訳データ生成装置。
データ生成モデル学習装置が、音響信号と当該音響信号に対応する言語L₁の自然言語表現と当該音響信号に対応する言語L₂の自然言語表現の組である第１学習データと、当該第１学習データの要素である言語L₁の自然言語表現に対する指標と、当該第１学習データの要素である言語L₂の自然言語表現に対する指標とを用いて、言語L_i生成モデル（i=1, 2）を学習する学習ステップと、
を含むデータ生成モデル学習方法であって、
前記言語L_i生成モデル（i=1, 2）は、音響信号から前記音響信号に対応する潜在変数を生成する音響信号エンコーダと、前記潜在変数と言語L_i（i=1, 2）の自然言語表現に対する指標に関する条件から前記音響信号に対応する言語L_i（i=1, 2）の自然言語表現を生成する言語L_iデコーダ（i=1, 2）との組である
データ生成モデル学習方法。
潜在変数生成モデル学習装置が、音響信号から前記音響信号に対応する潜在変数を生成する音響信号エンコーダと、前記潜在変数と言語L_i（i=1, 2）の自然言語表現に対する指標に関する条件から前記音響信号に対応する言語L_i（i=1, 2）の自然言語表現を生成する言語L_iデコーダ（i=1, 2）との組である言語L_i生成モデル（i=1, 2）を用いて、音響信号から生成した、当該音響信号に対応する言語L_i（i=1, 2）の自然言語表現と当該音響信号に対応する潜在変数との組を教師あり学習データとして用いる教師あり学習により、言語L_i（i=1, 2）の自然言語表現から前記言語L_iの自然言語表現に対応する潜在変数を生成する言語L_iエンコーダ（i=1, 2）を潜在変数生成モデルとして学習する学習ステップと、
を含む潜在変数生成モデル学習方法。
データ生成モデル学習装置が、感覚情報に基づく信号と当該信号に対応する言語L₁の自然言語表現と当該信号に対応する言語L₂の自然言語表現の組である第１学習データと、当該第１学習データの要素である言語L₁の自然言語表現に対する指標と、当該第１学習データの要素である言語L₂の自然言語表現に対する指標とを用いて、言語L_i生成モデル（i=1,2）を学習する学習ステップと、
を含むデータ生成モデル学習方法であって、
前記言語L_i生成モデル（i=1, 2）は、感覚情報に基づく信号から前記感覚情報に基づく信号に対応する潜在変数を生成する信号エンコーダと、前記潜在変数と言語L_i（i=1, 2）の自然言語表現に対する指標に関する条件から前記感覚情報に基づく信号に対応する言語L_i（i=1, 2）の自然言語表現を生成する言語L_iデコーダ（i=1, 2）との組である
データ生成モデル学習方法。
潜在変数生成モデル学習装置が、感覚情報に基づく信号から前記感覚情報に基づく信号に対応する潜在変数を生成する信号エンコーダと、前記潜在変数と言語L_i（i=1, 2）の自然言語表現に対する指標に関する条件から前記感覚情報に基づく信号に対応する言語L_i（i=1, 2）の自然言語表現を生成する言語L_iデコーダ（i=1, 2）との組である言語L_i生成モデル（i=1, 2）を用いて、感覚情報に基づく信号から生成した、当該信号に対応する言語L_i（i=1, 2）の自然言語表現と当該信号に対応する潜在変数との組を教師あり学習データとして用いる教師あり学習により、言語L_i（i=1, 2）の自然言語表現から前記言語L_iの自然言語表現に対応する潜在変数を生成する言語L_iエンコーダ（i=1, 2）を潜在変数生成モデルとして学習する学習ステップと、
を含む潜在変数生成モデル学習方法。
L₁、L₂を互いに異なる言語とし、
翻訳データ生成装置が、言語L₁の自然言語表現から、言語L₁エンコーダを用いて、前記言語L₁の自然言語表現に対応する潜在変数を生成する潜在変数生成ステップと、
前記翻訳データ生成装置が、前記言語L₁の自然言語表現から、前記言語L₁の自然言語表現に対する指標を計算する指標計算ステップと、
前記翻訳データ生成装置が、前記潜在変数と前記言語L₁の自然言語表現に対する指標から、言語L₂デコーダを用いて、前記言語L₁の自然言語表現に対応する言語L₂の自然言語表現を生成する自然言語表現生成ステップと、
を含む翻訳データ生成方法。
請求項１または３に記載のデータ生成モデル学習装置、請求項２または４に記載の潜在変数生成モデル学習装置、請求項５に記載の翻訳データ生成装置のいずれかとしてコンピュータを機能させるためのプログラム。