JP7205839B2 - データ生成モデル学習装置、潜在変数生成モデル学習装置、翻訳データ生成装置、データ生成モデル学習方法、潜在変数生成モデル学習方法、翻訳データ生成方法、プログラム - Google Patents
データ生成モデル学習装置、潜在変数生成モデル学習装置、翻訳データ生成装置、データ生成モデル学習方法、潜在変数生成モデル学習方法、翻訳データ生成方法、プログラム Download PDFInfo
- Publication number
- JP7205839B2 JP7205839B2 JP2021522681A JP2021522681A JP7205839B2 JP 7205839 B2 JP7205839 B2 JP 7205839B2 JP 2021522681 A JP2021522681 A JP 2021522681A JP 2021522681 A JP2021522681 A JP 2021522681A JP 7205839 B2 JP7205839 B2 JP 7205839B2
- Authority
- JP
- Japan
- Prior art keywords
- language
- learning
- natural language
- generation model
- expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000013016 learning Effects 0.000 title claims description 404
- 238000013519 translation Methods 0.000 title claims description 46
- 238000000034 method Methods 0.000 title claims description 39
- 230000014509 gene expression Effects 0.000 claims description 177
- 230000001953 sensory effect Effects 0.000 claims description 32
- 230000006870 function Effects 0.000 claims description 21
- 230000005236 sound signal Effects 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 description 31
- 230000008569 process Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 15
- 238000013528 artificial neural network Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 230000015654 memory Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 206010024796 Logorrhoea Diseases 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 208000030470 Trigger Finger disease Diseases 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 230000003750 conditioning effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010422 painting Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
- G06F40/56—Natural language generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Description
本発明の実施形態では、音響信号から、当該音響信号に対応する文を生成する際、文生成モデルを用いる。ここで、文生成モデルとは、音響信号を入力とし、対応する文を出力する関数のことである。また、音響信号に対応する文とは、例えば、当該音響信号がどのような音であるのかを説明する文(当該音響信号の説明文)のことである。
SCGは、図1に示すように、デコーダに参考非特許文献1に記載のRLM(Recurrent Language Model)を採用したエンコーダ-デコーダモデルである。
(参考非特許文献1:T. Mikolov, M. Karafiat, L. Burget, J. Cernock`y, and S. Khudanpur, “Recurrent neural network based language model”, In INTERSPEECH 2010, pp.1045-1048, 2010.)
(1)SCGは、エンコーダによって、音響信号から音の分散表現である潜在変数(Latent variable)zを抽出する。潜在変数zは、所定の次元(例えば、128次元)のベクトルとして表現される。この潜在変数zは、文生成のための十分な情報を含んだ音響信号の要約特徴量であるといえる。したがって、潜在変数zは音響信号と文の双方の特徴を有する固定長ベクトルであるともいえる。
(2)SCGは、デコーダによって、潜在変数zから、時刻t(t=1, 2, …)における単語wtを出力していくことにより、文を生成する。デコーダの出力層(Output layer)は、時刻tにおける単語の生成確率pt(w)から、次式により時刻tにおける単語wtを出力する。
上記ばらつきの問題を解決するために、文の詳細さの程度を示す指標である詳細度(Specificity)を定義する。n個の単語の列[w1, w2, …, wn]である文sの詳細度Isを次式により定義する。
(1)具体的な物体や動作を表す単語を用いた文は詳細度が高くなる(図2参照)。
(2)使用する単語数が多い文は詳細度が高くなる(図3参照)。
CSCGは、SCGと同様、デコーダにRLMを採用したエンコーダ-デコーダモデルである。ただし、CSCGでは、デコーダに条件付けを行うことにより、生成される文の詳細度(Specificity of the sentence)を制御する(図4参照)。条件付けは、文の詳細度に関する条件(Specificitical Condition)をデコーダの入力とすることにより行う。ここで、文の詳細度に関する条件とは、生成される文の詳細度に関する条件を指定するものである。
(1)CSCGは、エンコーダによって、音響信号から音の分散表現である潜在変数zを抽出する。
(2)CSCGは、デコーダによって、潜在変数zと文の詳細度に関する条件Cから、時刻t(t=1, 2, …)における単語を出力していくことにより、文を生成する。生成された文は文の詳細度に関する条件Cに近い詳細度を持つ文となる。図4は、生成された文s=”Birds are singing”の詳細度Isが文の詳細度に関する条件Cに近いものとなることを示している。
音響信号に対応する文(つまり、教師データの要素である文)は、人手により付与されたものを用いる。第1学習では、音響信号に対応する文の詳細度を求めて教師データに含める。第1学習では、生成された文と教師データの文の誤差であるLSCGと詳細度に関する誤差であるLspの最小化を同時に達成するように学習する。誤差関数LCSCGには、2つの誤差LSCGとLspを用いて定義されるものを用いることができる。例えば、誤差関数LCSCGとして、次式のような2つの誤差の線形和を用いることができる。
第1学習データの数が少ない場合、第1学習のみによりCSCGを学習すると、CSCGが第1学習データの要素である音響信号に過剰に適合してしまい、詳細度が適切に反映されにくくなることも考えられる。そこで、第1学習データを用いる第1学習に加えて、第2学習データを用いる第2学習により、CSCGを構成するデコーダを学習する。
ここでは、CSCGによる文生成の効果を確認する実験の結果について説明する。実験は、以下の2つを目的として行った。
(1)詳細度による制御可能性の検証
(2)受容可能性(acceptability)に関する主観評価による生成された文の品質の評価
(1)SCGは、詳細度の標準偏差はとても大きい。
(2)CSCGは、入力した詳細度cの値に応じた詳細度を持つ文を生成しており、標準偏差もSCGのそれと比較して小さい。ただし、入力した詳細度cが大きくなるにつれて標準偏差が大きくなる。これは、入力した詳細度cに近い詳細度を持ちつつ音に当てはまる説明文がないためばらつきが大きくなるものと考えられる。
詳細度は、生成される文の持つ性質(具体的には情報量)を制御するための補助的な入力である。生成される文の持つ性質を制御することができるものであれば、詳細度は、単一の数値(スカラー値)であっても、数値の組(ベクトル)であってもよい。以下、いくつか例を挙げる。
単語1個での出現頻度の代わりに、単語の系列の出現頻度を用いる方法である。この方法は、単語の順序を考慮することができるため、より適切に生成される文の持つ性質を制御できる可能性がある。単語の出現確率と同様、説明文データベースを用いて、単語N-gramの出現確率を計算することができる。また、説明文データベースの代わりに、その他利用可能なコーパスを用いてもよい。
詳細度を文に含まれる単語の数とする方法である。なお、単語の数の代わりに、文字の数を用いてもよい。
例えば、これまでに説明した、単語の出現確率、単語N-gramの出現確率、単語の数を組とする3次元ベクトルを詳細度とすることができる。また、例えば、政治、経済、科学のように単語を分類する分野(トピック)を設け、分野ごとに次元を割り当て、各分野の単語の出現確率の組をベクトルとして詳細度を定義してもよい。これにより、各分野に特有の言い回しの反映を図ることが可能になると考えられる。
SCG/CSCGの学習やSCG/CSCGを用いた文の生成の枠組みは、図5に例示した音源のように比較的単純な音以外に、例えば音楽のようにより複雑な音や、音以外のメディアに対しても適用することができる。音以外のメディアには、例えば絵画、イラスト、クリップアートのような画像や、動画がある。また、工業デザインや、味覚であってもよい。
《データ生成モデル学習装置100》
データ生成モデル学習装置100は、学習データを用いて、学習対象となるデータ生成モデルを学習する。ここで、学習データには、音響信号と当該音響信号に対応する自然言語表現の組である第1学習データと自然言語表現に対する指標と当該指標に対応する自然言語表現の組である第2学習データがある。また、データ生成モデルは、音響信号と自然言語表現に対する指標(例えば、文の詳細度)に関する条件を入力とし、当該音響信号に対応する自然言語表現を生成し、出力する関数のことであり、音響信号から音響信号に対応する潜在変数を生成するエンコーダと、潜在変数と自然言語表現に対する指標に関する条件から音響信号に対応する自然言語表現を生成するデコーダとの組として構成される(図9参照)。自然言語表現に対する指標に関する条件とは、生成される自然言語表現に要求される指標のことであり、要求される指標は一つの数値で指定してもよいし、範囲をもって指定してもよい。なお、エンコーダ、デコーダには、時系列データを処理することができる任意のニューラルネットワークを用いることができる。また、自然言語表現の例として、<技術的背景>で説明した文の他に、主語と述語を伴わない2つ以上の単語からなる句や、擬音語(オノマトペ)がある。
ここでは、日本語、英語、フランス語などの言語を言語Li(i=1, 2, …, N、ただしNは2以上の整数)と表すことにする。なお、i≠jの場合、Li≠Lj、つまり、言語L1と言語L2は互いに異なる言語であるものとする。
データ生成モデル学習装置200は、学習データを用いて、学習対象となる言語Li生成モデル(i=1, 2)を学習する。ここで、学習データには、音響信号と当該音響信号に対応する言語L1の自然言語表現と当該音響信号に対応する言語L2の自然言語表現の組である第1学習データと自然言語表現に対する指標と当該指標に対応する言語Liの自然言語表現(i=1, 2)の組である第2学習データがある。なお、1つの音響信号に対応する言語L1の自然言語表現と言語L2の自然言語表現は、互いに翻訳された自然言語表現であるという関係にある。また、言語Li生成モデル(i=1, 2)は、音響信号と自然言語表現に対する指標に関する条件を入力とし、当該音響信号に対応する言語Liの自然言語表現を生成し、出力する関数のことであり、音響信号から音響信号に対応する潜在変数を生成する音響信号エンコーダと、潜在変数と自然言語表現に対する指標に関する条件から音響信号に対応する言語Liの自然言語表現を生成する言語Liデコーダとの組である(図12参照)。自然言語表現に対する指標に関する条件とは、生成される自然言語表現に要求される指標のことであり、要求される指標は一つの数値で指定してもよいし、範囲をもって指定してもよい。なお、音響信号エンコーダ、言語Liデコーダには、時系列データを処理することができる任意のニューラルネットワークを用いることができる。
データ生成モデル学習装置250は、学習データを用いて、学習対象となる言語Li生成モデル(i=1, 2)を学習する。データ生成モデル学習装置250は、第1学習データを用いる第1学習のみを実行する点において、データ生成モデル学習装置200と異なる。
潜在変数生成モデル学習装置300は、学習データを用いて、学習対象となる潜在変数生成モデルを学習する。ここで、学習データは、データ生成モデル学習装置200またはデータ生成モデル学習装置250を用いて学習した言語Li生成モデル(i=1, 2)を用いて、音響信号から生成した、当該音響信号に対応する言語Li(i=1, 2)の自然言語表現と当該音響信号に対応する潜在変数との組(以下、教師あり学習データという)である。また、潜在変数生成モデルは、言語Li(i=1, 2)の自然言語表現から言語Li(i=1, 2)の自然言語表現に対応する潜在変数を生成する言語Liエンコーダ(i=1, 2)である。なお、言語Liエンコーダには、時系列データを処理することができる任意のニューラルネットワークを用いることができる。
翻訳データ生成装置400は、潜在変数生成モデル学習装置300を用いて学習した言語L1エンコーダと、データ生成モデル学習装置200またはデータ生成モデル学習装置250を用いて学習した言語L2デコーダとを用いて、言語L1の自然言語表現から、言語L2の自然言語表現を生成する。つまり、翻訳データ生成装置400は言語L1の自然言語表現を言語L2の自然言語表現に翻訳する。ここで、潜在変数生成モデル学習装置300を用いて学習した言語L1エンコーダを学習済み言語L1エンコーダともいう。また、データ生成モデル学習装置200またはデータ生成モデル学習装置250を用いて学習した言語L2デコーダを学習済み言語L2デコーダともいう。なお、潜在変数生成モデル学習装置300以外の潜在変数生成モデル学習装置を用いて学習した言語L1エンコーダや、データ生成モデル学習装置200、データ生成モデル学習装置250以外のデータ生成モデル学習装置を用いて学習した言語L2デコーダを用いてもよいのはもちろんである。
データ生成モデル学習装置200、データ生成モデル学習装置250、潜在変数生成モデル学習装置300、翻訳データ生成装置400では音響信号を用いたが、音響信号の代わりに、例えば、画像を用いることもできる。さらに言えば、人間の五感、つまり、聴覚、視覚、味覚、嗅覚、触覚に相当するセンサを用いて得られた信号(以下、感覚情報に基づく信号という)を用いて、翻訳データ生成装置を構成することができる。
データ生成モデル学習装置500は、学習データを用いて、学習対象となる言語Li生成モデル(i=1, 2)を学習する。ここで、学習データには、感覚情報に基づく信号と当該信号に対応する言語L1の自然言語表現と当該信号に対応する言語L2の自然言語表現の組である第1学習データと自然言語表現に対する指標と当該指標に対応する言語Liの自然言語表現(i=1, 2)の組である第2学習データがある。なお、1つの感覚情報に基づく信号に対応する言語L1の自然言語表現と言語L2の自然言語表現は、互いに翻訳された自然言語表現であるという関係にある。また、言語Li生成モデル(i=1, 2)は、感覚情報に基づく信号と自然言語表現に対する指標に関する条件を入力とし、当該信号に対応する言語Liの自然言語表現を生成し、出力する関数のことであり、感覚情報に基づく信号から感覚情報に基づく信号に対応する潜在変数を生成する信号エンコーダと、潜在変数と自然言語表現に対する指標に関する条件から感覚情報に基づく信号に対応する言語Liの自然言語表現を生成する言語Liデコーダとの組である。なお、信号エンコーダ、言語Liデコーダには、感覚情報に基づく信号を処理することができる任意のニューラルネットワークを用いることができる。
データ生成モデル学習装置550は、学習データを用いて、学習対象となる言語Li生成モデル(i=1, 2)を学習する。データ生成モデル学習装置550は、第1学習データを用いる第1学習のみを実行する点において、データ生成モデル学習装置500と異なる。
潜在変数生成モデル学習装置600は、学習データを用いて、学習対象となる潜在変数生成モデルを学習する。ここで、学習データは、データ生成モデル学習装置500またはデータ生成モデル学習装置550を用いて学習した言語Li生成モデル(i=1, 2)を用いて、感覚情報に基づく信号から生成した、当該信号に対応する言語Li(i=1, 2)の自然言語表現と当該信号に対応する潜在変数との組(以下、教師あり学習データという)である。また、潜在変数生成モデルは、言語Li(i=1, 2)の自然言語表現から言語Li(i=1, 2)の自然言語表現に対応する潜在変数を生成する言語Liエンコーダ(i=1, 2)である。なお、言語Liエンコーダには、感覚情報に基づく信号を処理することができる任意のニューラルネットワークを用いることができる。
翻訳データ生成装置700は、潜在変数生成モデル学習装置600を用いて学習した言語L1エンコーダと、データ生成モデル学習装置500またはデータ生成モデル学習装置550を用いて学習した言語L2デコーダとを用いて、言語L1の自然言語表現から、言語L2の自然言語表現を生成する。つまり、翻訳データ生成装置700は言語L1の自然言語表現を言語L2の自然言語表現に翻訳する。ここで、潜在変数生成モデル学習装置600を用いて学習した言語L1エンコーダを学習済み言語L1エンコーダともいう。また、データ生成モデル学習装置500またはデータ生成モデル学習装置550を用いて学習した言語L2デコーダを学習済み言語L2デコーダともいう。なお、潜在変数生成モデル学習装置600以外の潜在変数生成モデル学習装置を用いて学習した言語L1エンコーダや、データ生成モデル学習装置500、データ生成モデル学習装置550以外のデータ生成モデル学習装置を用いて学習した言語L2デコーダを用いてもよいのはもちろんである。
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD-ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
Claims (11)
- 音響信号と当該音響信号に対応する言語L1の自然言語表現と当該音響信号に対応する言語L2の自然言語表現の組である第1学習データと、当該第1学習データの要素である言語L1の自然言語表現に対する指標と、当該第1学習データの要素である言語L2の自然言語表現に対する指標とを用いて、言語Li生成モデル(i=1, 2)を学習する学習部と、
を含むデータ生成モデル学習装置であって、
前記言語Li生成モデル(i=1, 2)は、音響信号から前記音響信号に対応する潜在変数を生成する音響信号エンコーダと、前記潜在変数と言語Li(i=1, 2)の自然言語表現に対する指標に関する条件から前記音響信号に対応する言語Li(i=1, 2)の自然言語表現を生成する言語Liデコーダ(i=1, 2)との組である
データ生成モデル学習装置。 - 音響信号から前記音響信号に対応する潜在変数を生成する音響信号エンコーダと、前記潜在変数と言語Li(i=1, 2)の自然言語表現に対する指標に関する条件から前記音響信号に対応する言語Li(i=1, 2)の自然言語表現を生成する言語Liデコーダ(i=1, 2)との組である言語Li生成モデル(i=1, 2)を用いて、音響信号から生成した、当該音響信号に対応する言語Li(i=1, 2)の自然言語表現と当該音響信号に対応する潜在変数との組を教師あり学習データとして用いる教師あり学習により、言語Li(i=1, 2)の自然言語表現から前記言語Liの自然言語表現に対応する潜在変数を生成する言語Liエンコーダ(i=1, 2)を潜在変数生成モデルとして学習する学習部と、
を含む潜在変数生成モデル学習装置。 - 感覚情報に基づく信号と当該信号に対応する言語L1の自然言語表現と当該信号に対応する言語L2の自然言語表現の組である第1学習データと、当該第1学習データの要素である言語L1の自然言語表現に対する指標と、当該第1学習データの要素である言語L2の自然言語表現に対する指標とを用いて、言語Li生成モデル(i=1, 2)を学習する学習部と、
を含むデータ生成モデル学習装置であって、
前記言語Li生成モデル(i=1, 2)は、感覚情報に基づく信号から前記感覚情報に基づく信号に対応する潜在変数を生成する信号エンコーダと、前記潜在変数と言語Li(i=1, 2)の自然言語表現に対する指標に関する条件から前記感覚情報に基づく信号に対応する言語Li(i=1, 2)の自然言語表現を生成する言語Liデコーダ(i=1, 2)との組である
データ生成モデル学習装置。 - 感覚情報に基づく信号から前記感覚情報に基づく信号に対応する潜在変数を生成する信号エンコーダと、前記潜在変数と言語Li(i=1, 2)の自然言語表現に対する指標に関する条件から前記感覚情報に基づく信号に対応する言語Li(i=1, 2)の自然言語表現を生成する言語Liデコーダ(i=1, 2)との組である言語Li生成モデル(i=1, 2)を用いて、感覚情報に基づく信号から生成した、当該信号に対応する言語Li(i=1, 2)の自然言語表現と当該信号に対応する潜在変数との組を教師あり学習データとして用いる教師あり学習により、言語Li(i=1, 2)の自然言語表現から前記言語Liの自然言語表現に対応する潜在変数を生成する言語Liエンコーダ(i=1, 2)を潜在変数生成モデルとして学習する学習部と、
を含む潜在変数生成モデル学習装置。 - L1、L2を互いに異なる言語とし、
言語L1の自然言語表現から、言語L1エンコーダを用いて、前記言語L1の自然言語表現に対応する潜在変数を生成する潜在変数生成部と、
前記言語L1の自然言語表現から、前記言語L1の自然言語表現に対する指標を計算する指標計算部と、
前記潜在変数と前記言語L1の自然言語表現に対する指標から、言語L2デコーダを用いて、前記言語L1の自然言語表現に対応する言語L2の自然言語表現を生成する自然言語表現生成部と、
を含む翻訳データ生成装置。 - データ生成モデル学習装置が、音響信号と当該音響信号に対応する言語L1の自然言語表現と当該音響信号に対応する言語L2の自然言語表現の組である第1学習データと、当該第1学習データの要素である言語L1の自然言語表現に対する指標と、当該第1学習データの要素である言語L2の自然言語表現に対する指標とを用いて、言語Li生成モデル(i=1, 2)を学習する学習ステップと、
を含むデータ生成モデル学習方法であって、
前記言語Li生成モデル(i=1, 2)は、音響信号から前記音響信号に対応する潜在変数を生成する音響信号エンコーダと、前記潜在変数と言語Li(i=1, 2)の自然言語表現に対する指標に関する条件から前記音響信号に対応する言語Li(i=1, 2)の自然言語表現を生成する言語Liデコーダ(i=1, 2)との組である
データ生成モデル学習方法。 - 潜在変数生成モデル学習装置が、音響信号から前記音響信号に対応する潜在変数を生成する音響信号エンコーダと、前記潜在変数と言語Li(i=1, 2)の自然言語表現に対する指標に関する条件から前記音響信号に対応する言語Li(i=1, 2)の自然言語表現を生成する言語Liデコーダ(i=1, 2)との組である言語Li生成モデル(i=1, 2)を用いて、音響信号から生成した、当該音響信号に対応する言語Li(i=1, 2)の自然言語表現と当該音響信号に対応する潜在変数との組を教師あり学習データとして用いる教師あり学習により、言語Li(i=1, 2)の自然言語表現から前記言語Liの自然言語表現に対応する潜在変数を生成する言語Liエンコーダ(i=1, 2)を潜在変数生成モデルとして学習する学習ステップと、
を含む潜在変数生成モデル学習方法。 - データ生成モデル学習装置が、感覚情報に基づく信号と当該信号に対応する言語L1の自然言語表現と当該信号に対応する言語L2の自然言語表現の組である第1学習データと、当該第1学習データの要素である言語L1の自然言語表現に対する指標と、当該第1学習データの要素である言語L2の自然言語表現に対する指標とを用いて、言語Li生成モデル(i=1,2)を学習する学習ステップと、
を含むデータ生成モデル学習方法であって、
前記言語Li生成モデル(i=1, 2)は、感覚情報に基づく信号から前記感覚情報に基づく信号に対応する潜在変数を生成する信号エンコーダと、前記潜在変数と言語Li(i=1, 2)の自然言語表現に対する指標に関する条件から前記感覚情報に基づく信号に対応する言語Li(i=1, 2)の自然言語表現を生成する言語Liデコーダ(i=1, 2)との組である
データ生成モデル学習方法。 - 潜在変数生成モデル学習装置が、感覚情報に基づく信号から前記感覚情報に基づく信号に対応する潜在変数を生成する信号エンコーダと、前記潜在変数と言語Li(i=1, 2)の自然言語表現に対する指標に関する条件から前記感覚情報に基づく信号に対応する言語Li(i=1, 2)の自然言語表現を生成する言語Liデコーダ(i=1, 2)との組である言語Li生成モデル(i=1, 2)を用いて、感覚情報に基づく信号から生成した、当該信号に対応する言語Li(i=1, 2)の自然言語表現と当該信号に対応する潜在変数との組を教師あり学習データとして用いる教師あり学習により、言語Li(i=1, 2)の自然言語表現から前記言語Liの自然言語表現に対応する潜在変数を生成する言語Liエンコーダ(i=1, 2)を潜在変数生成モデルとして学習する学習ステップと、
を含む潜在変数生成モデル学習方法。 - L1、L2を互いに異なる言語とし、
翻訳データ生成装置が、言語L1の自然言語表現から、言語L1エンコーダを用いて、前記言語L1の自然言語表現に対応する潜在変数を生成する潜在変数生成ステップと、
前記翻訳データ生成装置が、前記言語L1の自然言語表現から、前記言語L1の自然言語表現に対する指標を計算する指標計算ステップと、
前記翻訳データ生成装置が、前記潜在変数と前記言語L1の自然言語表現に対する指標から、言語L2デコーダを用いて、前記言語L1の自然言語表現に対応する言語L2の自然言語表現を生成する自然言語表現生成ステップと、
を含む翻訳データ生成方法。 - 請求項1または3に記載のデータ生成モデル学習装置、請求項2または4に記載の潜在変数生成モデル学習装置、請求項5に記載の翻訳データ生成装置のいずれかとしてコンピュータを機能させるためのプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019097309 | 2019-05-24 | ||
JP2019097309 | 2019-05-24 | ||
PCT/JP2020/015793 WO2020241072A1 (ja) | 2019-05-24 | 2020-04-08 | データ生成モデル学習装置、潜在変数生成モデル学習装置、翻訳データ生成装置、データ生成モデル学習方法、潜在変数生成モデル学習方法、翻訳データ生成方法、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2020241072A1 JPWO2020241072A1 (ja) | 2020-12-03 |
JP7205839B2 true JP7205839B2 (ja) | 2023-01-17 |
Family
ID=73552323
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021522681A Active JP7205839B2 (ja) | 2019-05-24 | 2020-04-08 | データ生成モデル学習装置、潜在変数生成モデル学習装置、翻訳データ生成装置、データ生成モデル学習方法、潜在変数生成モデル学習方法、翻訳データ生成方法、プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US12131129B2 (ja) |
JP (1) | JP7205839B2 (ja) |
WO (1) | WO2020241072A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7381020B2 (ja) * | 2019-05-24 | 2023-11-15 | 日本電信電話株式会社 | データ生成モデル学習装置、データ生成装置、データ生成モデル学習方法、データ生成方法、プログラム |
WO2021204370A1 (en) * | 2020-04-08 | 2021-10-14 | Huawei Technologies Co., Ltd. | A device and method for generating language |
CN112396182B (zh) * | 2021-01-19 | 2021-04-16 | 腾讯科技(深圳)有限公司 | 脸部驱动模型的训练和脸部口型动画的生成方法 |
CN113362810B (zh) * | 2021-05-28 | 2024-02-09 | 平安科技(深圳)有限公司 | 语音处理模型的训练方法、装置、设备及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8045054B2 (en) * | 2006-09-13 | 2011-10-25 | Nortel Networks Limited | Closed captioning language translation |
US8706474B2 (en) * | 2008-02-23 | 2014-04-22 | Fair Isaac Corporation | Translation of entity names based on source document publication date, and frequency and co-occurrence of the entity names |
KR102069692B1 (ko) * | 2017-10-26 | 2020-01-23 | 한국전자통신연구원 | 신경망 기계번역 방법 및 장치 |
US10891951B2 (en) * | 2018-10-17 | 2021-01-12 | Ford Global Technologies, Llc | Vehicle language processing |
-
2020
- 2020-04-08 JP JP2021522681A patent/JP7205839B2/ja active Active
- 2020-04-08 WO PCT/JP2020/015793 patent/WO2020241072A1/ja active Application Filing
- 2020-04-08 US US17/613,067 patent/US12131129B2/en active Active
Non-Patent Citations (3)
Title |
---|
CALIXTO, Iacer et al.,"Latent Variable Model for Multi-modal Translation",arXiv.org [online],arXiv:1811.00357v2,Cornell University,2019年05月19日,[検索日 2020.06.04], インターネット:<URL:https://arxiv.org/pdf/1811.00357v2> |
DROSSOS, Konstantinos et al.,"Automated Audio Captioning with Recurrent Neural Networks",arXiv.org [online],arXiv:1706.10006v2,Cornell University,2017年,[検索日 2020.06.04], インターネット:<URL:https://arxiv.org/pdf/1706.10006v2> |
KIKUCHI, Yuta et al.,"Controlling Output Length in Neural Encoder-Decoders",arXiv.org [online],1609.09552v1,Cornell University,2016年,[検索日 2020.06.04], インターネット:<URL:https://arxiv.org/pdf/1609.09552v1> |
Also Published As
Publication number | Publication date |
---|---|
US20220222450A1 (en) | 2022-07-14 |
US12131129B2 (en) | 2024-10-29 |
WO2020241072A1 (ja) | 2020-12-03 |
JPWO2020241072A1 (ja) | 2020-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tucker et al. | The massive auditory lexical decision (MALD) database | |
JP7205839B2 (ja) | データ生成モデル学習装置、潜在変数生成モデル学習装置、翻訳データ生成装置、データ生成モデル学習方法、潜在変数生成モデル学習方法、翻訳データ生成方法、プログラム | |
Kheddar et al. | Deep transfer learning for automatic speech recognition: Towards better generalization | |
Cortese et al. | Imageability and age of acquisition effects in disyllabic word recognition | |
Pimentel et al. | Phonotactic complexity and its trade-offs | |
Wu et al. | Research on business English translation framework based on speech recognition and wireless communication | |
JP7515811B2 (ja) | データ生成モデル学習装置、データ生成装置、データ生成モデル学習方法、データ生成方法、プログラム | |
Wang et al. | Augmenting dialogue response generation with unstructured textual knowledge | |
King et al. | Greater early disambiguating information for less-probable words: The lexicon is shaped by incremental processing | |
Murugaiyan et al. | Aspect-based sentiment analysis of customer speech data using deep convolutional neural network and bilstm | |
Portelance et al. | Predicting age of acquisition for children's early vocabulary in five languages using language model surprisal | |
Nasr et al. | End-to-end speech recognition for arabic dialects | |
JP7283718B2 (ja) | 音響信号検索装置、音響信号検索方法、データ検索装置、データ検索方法、プログラム | |
Victor et al. | Application of extractive text summarization algorithms to speech-to-text media | |
JP2023071785A (ja) | 音響信号検索装置、音響信号検索方法、データ検索装置、データ検索方法、プログラム | |
KR102418260B1 (ko) | 고객 상담 기록 분석 방법 | |
Jarosz et al. | The richness of distributional cues to word boundaries in speech to young children | |
Yang | [Retracted] Design of Service Robot Based on User Emotion Recognition and Environmental Monitoring | |
Calix et al. | Actor level emotion magnitude prediction in text and speech | |
JP7327647B2 (ja) | 発話生成装置、発話生成方法、プログラム | |
JP2024530968A (ja) | データを変換、分析、および可視化するためにテキスト分析を使用するためのシステムおよび方法 | |
Tejedor-García et al. | Towards an Open-Source Dutch Speech Recognition System for the Healthcare Domain | |
US11995120B1 (en) | Apparatus and method for generation of an integrated data file | |
RU2814808C1 (ru) | Способ и система перефразирования текста | |
Tumpalan et al. | English-filipino speech topic tagger using automatic speech recognition modeling and topic modeling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211117 |
|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A801 Effective date: 20211117 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20211117 |
|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20211117 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221220 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221221 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7205839 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |