JP7120433B2 - 回答生成装置、回答学習装置、回答生成方法、及び回答生成プログラム - Google Patents
回答生成装置、回答学習装置、回答生成方法、及び回答生成プログラム Download PDFInfo
- Publication number
- JP7120433B2 JP7120433B2 JP2021501617A JP2021501617A JP7120433B2 JP 7120433 B2 JP7120433 B2 JP 7120433B2 JP 2021501617 A JP2021501617 A JP 2021501617A JP 2021501617 A JP2021501617 A JP 2021501617A JP 7120433 B2 JP7120433 B2 JP 7120433B2
- Authority
- JP
- Japan
- Prior art keywords
- answer
- sentence
- basis
- model
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 60
- 239000013598 vector Substances 0.000 claims description 289
- 238000000605 extraction Methods 0.000 claims description 174
- 230000014509 gene expression Effects 0.000 claims description 89
- 238000012545 processing Methods 0.000 claims description 47
- 239000000284 extract Substances 0.000 claims description 19
- 239000011159 matrix material Substances 0.000 description 43
- 238000006243 chemical reaction Methods 0.000 description 26
- 230000006870 function Effects 0.000 description 25
- 238000013528 artificial neural network Methods 0.000 description 21
- 230000008569 process Effects 0.000 description 21
- 238000004364 calculation method Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 13
- 230000009466 transformation Effects 0.000 description 13
- 238000004458 analytical method Methods 0.000 description 12
- 238000013136 deep learning model Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 9
- 238000002474 experimental method Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 5
- 230000002457 bidirectional effect Effects 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 239000000047 product Substances 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000012733 comparative method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 125000000391 vinyl group Chemical group [H]C([*])=C([H])[H] 0.000 description 1
- 229920002554 vinyl polymer Polymers 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Electrically Operated Instructional Devices (AREA)
Description
処理をコンピュータに実行させるための回答生成プログラムであって、前記符号化モデル及び前記抽出モデルは、前記符号化モデルを用いて変換された前記ベクトル表現系列に基づいて、前記文章における前記回答の根拠となる範囲である根拠範囲を抽出する探索モデル、及び前記ベクトル表現系列に基づいて、前記文章における前記質問文に対する回答の正解である回答種別を判断する判断モデルを更に含む複数のモデルのマルチタスク学習により予め学習されたものである。
第1の実施形態は、入力された質問に対し、テキストに書いていない形式で答えを出力する新しいタスク設定として、「Yes又はNo等の極性で回答することができる質問に対してYes又はNo等の極性で回答する」タスクを提案する。本実施形態では、回答の極性がYes又はNoである場合を例に説明する。このYes又はNoで回答するタスクは、既存研究の存在しない全く新しいタスクである。
[参考文献1]Tri Nguyen, Mir Rosenberg, Xia Song, Jianfeng Gao, Saurabh Tiwary, Rangan Majumder, Li Deng, ”MS MARCO: A Human Generated MAchine Reading COmprehension Dataset”, 2016.
[参考文献2]Chuanqi Tan, Furu Weiz, Nan Yang, Bowen Du, Weifeng Lv, Ming Zhouz, ”S-NET: FROM ANSWER EXTRACTION TO ANSWER GENERATION FOR MACHINE READING COMPREHENSION”, 2017.
図1を参照して、第1の実施形態に係る回答学習装置10の構成について説明する。図1は、第1の実施形態に係る回答学習装置10の構成を示すブロック図である。
[参考文献3]Yoon Kim, Yacine Jernite, David Sontag, Alexander M. Rush, ”Character-Aware Neural Language Models”, arXiv:1508.06615, 2016.
である。
は、LP次元のベクトルであり、そのi番目の要素(1≦i≦LP)は、アテンション行列Aのi番目のベクトルの最大値(j方向のmax値)である。softmaxiは、i方向にsoftmaxを用いるという意味である。
、及びアテンションベクトル
に基づいて、アテンションの結果を表現する長さLPの読解行列Bを求める。例えば、読解行列
である。ただし、”,”は、ベクトル・行列を横に結合する演算子である。
[参考文献4]Qian Chen, Xiaodan Zhu, Zhenhua Ling, Si Wei, Hui Jiang, Diana Inkpen, ”Enhanced LSTM for Natural Language Inference”, arXiv:1609.06038, 2017.
図2は、第1の実施形態に係る回答学習処理ルーチンを示すフローチャートである。また、以下では本実施形態に係る回答学習装置が、ミニバッチを用いて学習する場合について説明するが、一般的なニューラルネットワークの学習方法を用いてもよい。なお、簡便のため、ミニバッチのサイズを1とする。
図3を参照して、第1の実施形態に係る回答生成装置20の構成について説明する。図3は、第1の実施形態に係る回答生成装置20の構成を示すブロック図である。なお、上述の回答学習装置10と同様の構成については、同一の符号を付して詳細な説明は省略する。
図4は、第1の実施形態に係る回答生成処理ルーチンを示すフローチャートである。なお、第1の実施形態に係る回答学習処理ルーチンと同様の処理については、同一の符号を付して詳細な説明は省略する。
人間が自然言語を理解して回答する場合は、自身のもつ経験、常識、及び世界知識を踏まえて、理解した質問に対して回答を推論することができる。例えば、人間が文章を読んでその文章に対する質問に回答をする場合には、文章からだけでなく、自分のもつ経験等から回答を見つけている。しかし、AIの場合は質問の対象となっている文章に含まれている情報だけから回答を推論する必要がある。
図5を参照して、第2の実施形態に係る回答学習装置30の構成について説明する。図5は、第2の実施形態に係る回答学習装置30の構成を示すブロック図である。なお、上述の第1の実施形態に係る回答学習装置10と同様の構成については、同一の符号を付して詳細な説明は省略する。
を抽出モデルのRNNに入力することにより、状態ztを生成する。ただし、st-1は時刻t-1に抽出された根拠文の添字である。また、時刻tまでに抽出された文stの集合をStとする。
[参考文献5]O. Vinyals, S. Bengio and M. Kudlur, “Order matters: Sequence to sequence for sets”, ICLR (2016).
を定める。
として、このM’を後段の処理におけるMの代わりに用いてもよい。なお、上記では、読解行列Mを利用する場合を例に説明したが、読解行列Bなど別の行列を利用してもよい。また、上記の根拠探索部216の説明で用いたiやjといった変数は、ここの説明に限るものである。
[参考文献6]A. See, P. J. Liu and C. D. Manning, “Get to the point: ummarization with pointer-generator networks”, ACL, 2017, pp.1073-1083.
は、正解の根拠情報として与えられた根拠文の集合Stの中で時刻tの抽出確率P(δ;St-1)が最小の文sとし、ctは、coverageベクトルであり、
である。Tは終了時刻である。すなわち、t=Tが学習の終了条件となる。このcoverageにより、抽出結果を質問全体に対応する内容を包含させることが可能となる。ただし、抽出の終了条件を学習するために、抽出終了ベクトル
を学習可能なパラメータとする。文の意味を表すベクトルの系列Hに抽出終了ベクトル
を加え、文章Pの文数mを実際の文数+1とする。Tも真の根拠文の数+1とし、学習時は時刻T-1までに全ての根拠文を出力した後、時刻Tに抽出終了ベクトル
を抽出するように学習を行う。テスト時は、抽出終了ベクトルを出力した時点で抽出を終了する。
図6は、第2の実施形態に係る回答学習処理ルーチンを示すフローチャートである。また、以下では本実施形態に係る回答学習装置が、ミニバッチを用いて学習する場合について説明するが、一般的なニューラルネットワークの学習方法を用いてもよい。なお、簡便のため、ミニバッチのサイズを1とする。なお、上述の第1の実施形態に係る回答学習処理ルーチンと同様の構成については、同一の符号を付して詳細な説明は省略する。
図8を参照して、第2の実施形態に係る回答生成装置40の構成について説明する。図8は、第2の実施形態に係る回答生成装置40の構成を示すブロック図である。なお、上述の回答学習装置30と同様の構成については、同一の符号を付して詳細な説明は省略する。回答生成装置40は、CPUと、RAMと、後述する回答生成処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。図8に示すように、第2の実施形態に係る回答生成装置40は、入力部400と、解析部600と、出力部800とを備えて構成される。
図9は、第2の実施形態に係る回答生成処理ルーチンを示すフローチャートである。なお、第1の実施形態に係る回答生成処理ルーチン及び第2の実施形態に係る回答学習処理ルーチンと同様の処理については、同一の符号を付して詳細な説明は省略する。
次に、第2の実施形態に係る回答生成装置の実施例について説明する。本実施例では、回答生成装置の各部の構成として、図10に示した構成を用いる。具体的には、判断部220は、RNNと線形変換とを用いて構成され、Yes/No/抽出型の回答の何れかで答えるかを判断し、Yes/No/抽出型の回答の3値の何れかを出力とする。また、根拠探索部216は、RNNと線形変換との組を2つ用いて構成され、一方の組は回答の終点、他方の組は回答の始点を出力とする。根拠抽出部617は、RNNと抽出モデル617Aとを用いて構成される。第2文脈符号化部215は、RNNとセルフアテンションとを用いて構成され、アテンション部214は、双方向アテンションにより構成される。
[参考文献7]Y.C. Chen and M. Bansal, “Fast abstractive summarization with reinforce-selected sentence rewriting”, ACL, 2018, pp.675-686.
次に、第2の実施形態に係る回答生成装置の実施例における実験結果について説明する。
実験はGPUに、”NVIDIA Tesla P100(株式会社エルザジャパン製)”を4枚用いて行った。実装にはPytorchを用いた。Bi-RNNの出力の次元をd=300で統一した。dropoutのkeep ratioは0.8とした。バッチサイズを72、学習率を0.001とした。上記以外の設定はベースラインモデルと同じ設定である。抽出モデル617AはRNNにGRUを用いた、ベクトルの初期化を正規分布で、行列の初期化をxavier normal分布で行った。デコード時のbeam sizeを2とした。
[参考文献8]Z. Yang, P. Qi, S. Zhang, Y. Bengio, W. W. Cohen, R. Salakhutdinov and C. D. Manning, “HotpotQA: A dataset for diverse, explainable multi-hop question answering”, EMNLP, 2018, pp.2369-2380.
テストデータにおける実験結果は、distractor設定の結果を表1に、fullwiki設定の結果を表2に示す。
上記第2の実施形態では、質問文に対する回答を出力するとき、回答の根拠として、根拠となる範囲と、文の集合である根拠情報を出力することで、回答結果をユーザーが解釈しやすい形にしていた。
図12を参照して、第3の実施形態に係る回答学習装置50の構成について説明する。図12は、第3の実施形態に係る回答学習装置50の構成を示すブロック図である。なお、上述の第2の実施形態に係る回答学習装置30と同様の構成については、同一の符号を付して詳細な説明は省略する。
を抽出モデルのRNNに入力することにより、状態ztを生成する。ただし、st-1は時刻t-1に抽出された根拠段落の添字である。また、時刻tまでに抽出された段落stの集合をStとする。
図13を参照して、本開示の第3の実施形態に係る回答生成装置60の構成について説明する。図13は、本開示の第3の実施形態に係る回答生成装置60の構成を示すブロック図である。なお、上述の第3の実施形態に係る回答学習装置50と同様の構成については、同一の符号を付して詳細な説明は省略する。
文章Pが文ではなく、文章であるので、文ペア分類タスクに比べて系列の長さLPが大きくなってしまう。この問題に対処するため、max pooling、average poolingをより長い系列向きの手法に置き換える。
文ペア分類タスクに比べて、上記実施形態の分類対象となるベクトルの系列P3は、文章Pの情報だけでなく、質問文Qの情報も豊富に含んでいる傾向がある。そのため、スコア計算部222においてベクトルの系列Q3を用いず、ベクトルの系列P3のみを用いてベクトルJを求めてもよい。
メモリと、
前記メモリに接続された少なくとも1つのプロセッサと、
を含み、
前記プロセッサは、
入力された、文章の分割単位である複数のスパンに分割された文章及び質問文に基づいて、入力文を入力文の意味を表すベクトル表現系列に変換するための予め学習された符号化モデルを用いて、前記スパン及び前記質問文の意味を表すベクトル表現系列に変換し、
前記ベクトル表現系列に基づいて、前記回答を抽出する根拠に適しているスパンを抽出する予め学習された抽出モデルを用いて、前記回答を抽出する根拠に適しているスパンである根拠情報を推定し、
前記ベクトル表現系列と、前記根拠情報とに基づいて、前記文章における前記回答の根拠となる範囲である根拠範囲を抽出する予め学習された探索モデルを用いて、前記根拠範囲を推定し、
前記ベクトル表現系列と、前記根拠情報とに基づいて、前記文章における前記質問文に対する回答の正解である回答種別を判断する予め学習された判断モデルを用いて、前記質問文に対する回答種別を判断する、
回答生成装置。
メモリと、
前記メモリに接続された少なくとも1つのプロセッサと、
を含み、
前記プロセッサは、
入力された、文章の分割単位である複数のスパンに分割された文章及び質問文に基づいて、入力文を入力文の意味を表すベクトル表現系列に変換するための予め学習された符号化モデルを用いて、前記スパン及び前記質問文の意味を表すベクトル表現系列に変換し、
前記ベクトル表現系列に基づいて、前記スパンが前記回答を抽出する根拠に適している度合いを示す根拠スコアを算出するための予め学習された抽出モデルを用いて、前記スパンの各々の根拠スコアを推定する、
回答生成装置であって、
前記符号化モデル及び前記抽出モデルは、
前記符号化モデルを用いて変換された前記ベクトル表現系列に基づいて、前記文章における前記回答の根拠となる範囲である根拠範囲を抽出する探索モデル、及び
前記ベクトル表現系列に基づいて、前記文章における前記質問文に対する回答の正解である回答種別を判断する判断モデル
を更に含む複数のモデルのマルチタスク学習により予め学習されたものである
回答生成装置。
(付記項3)
メモリと、
前記メモリに接続された少なくとも1つのプロセッサと、
を含み、
前記プロセッサは、
文章の分割単位である複数のスパンに分割された文章と、質問文と、前記文章における前記質問文に対する回答の正解である回答種別と、前記文章における前記回答の根拠となる範囲である根拠範囲と、前記文章における前記回答の根拠となるスパンである根拠情報とを含む学習データの入力を受け付け、
複数のスパンに分割した前記文章と、前記質問文とを、入力文を入力文の意味を表すベクトル表現系列に変換するための符号化モデルを用いて、前記スパン及び前記質問文の意味を表すベクトル表現系列に変換し、
前記ベクトル表現系列に基づいて、前記根拠情報を抽出する抽出モデルを用いて、前記根拠情報を推定し、
前記ベクトル表現系列と、前記学習データの前記根拠情報とに基づいて、前記根拠範囲を抽出する探索モデルを用いて、前記根拠範囲を推定し、
前記ベクトル表現系列と、前記学習データの前記根拠情報とに基づいて、前記質問文に対する回答種別を判断する判断モデルを用いて、前記質問文に対する回答種別を判断し、
前記抽出された前記根拠情報が前記学習データの前記根拠情報と一致し、前記推定された前記根拠範囲が前記学習データの前記根拠範囲と一致し、前記判断された前記回答種別が前記学習データの前記回答種別と一致するように、前記符号化モデル、前記抽出モデル、前記探索モデル、及び前記判断モデルのパラメータを学習する、
回答学習装置。
(付記項4)
回答生成処理を実行するようにコンピュータによって実行可能なプログラムを記憶した非一時的記憶媒体であって、
前記回答生成処理は、
入力された、文章の分割単位である複数のスパンに分割された文章及び質問文に基づいて、入力文を入力文の意味を表すベクトル表現系列に変換するための予め学習された符号化モデルを用いて、前記スパン及び前記質問文の意味を表すベクトル表現系列に変換し、
前記ベクトル表現系列に基づいて、前記回答を抽出する根拠に適しているスパンを抽出する予め学習された抽出モデルを用いて、前記回答を抽出する根拠に適しているスパンである根拠情報を推定し、
前記ベクトル表現系列と、前記根拠情報とに基づいて、前記文章における前記回答の根拠となる範囲である根拠範囲を抽出する予め学習された探索モデルを用いて、前記根拠範囲を推定し、
前記ベクトル表現系列と、前記根拠情報とに基づいて、前記文章における前記質問文に対する回答の正解である回答種別を判断する予め学習された判断モデルを用いて、前記質問文に対する回答種別を判断する、
非一時的記憶媒体。
(付記項5)
回答生成処理を実行するようにコンピュータによって実行可能なプログラムを記憶した非一時的記憶媒体であって、
前記回答生成処理は、
入力された、文章の分割単位である複数のスパンに分割された文章及び質問文に基づいて、入力文を入力文の意味を表すベクトル表現系列に変換するための予め学習された符号化モデルを用いて、前記スパン及び前記質問文の意味を表すベクトル表現系列に変換し、
前記ベクトル表現系列に基づいて、前記スパンが前記回答を抽出する根拠に適している度合いを示す根拠スコアを算出するための予め学習された抽出モデルを用いて、前記スパンの各々の根拠スコアを推定し、
前記符号化モデル及び前記抽出モデルは、
前記符号化モデルを用いて変換された前記ベクトル表現系列に基づいて、前記文章における前記回答の根拠となる範囲である根拠範囲を抽出する探索モデル、及び
前記ベクトル表現系列に基づいて、前記文章における前記質問文に対する回答の正解である回答種別を判断する判断モデル
を更に含む複数のモデルのマルチタスク学習により予め学習されたものである、
非一時的記憶媒体。
(付記項6)
回答学習処理を実行するようにコンピュータによって実行可能なプログラムを記憶した非一時的記憶媒体であって、
前記回答学習処理は、
文章の分割単位である複数のスパンに分割された文章と、質問文と、前記文章における前記質問文に対する回答の正解である回答種別と、前記文章における前記回答の根拠となる範囲である根拠範囲と、前記文章における前記回答の根拠となるスパンである根拠情報とを含む学習データの入力を受け付け、
複数のスパンに分割した前記文章と、前記質問文とを、入力文を入力文の意味を表すベクトル表現系列に変換するための符号化モデルを用いて、前記スパン及び前記質問文の意味を表すベクトル表現系列に変換し、
前記ベクトル表現系列に基づいて、前記根拠情報を抽出する抽出モデルを用いて、前記根拠情報を推定し、
前記ベクトル表現系列と、前記学習データの前記根拠情報とに基づいて、前記根拠範囲を抽出する探索モデルを用いて、前記根拠範囲を推定し、
前記ベクトル表現系列と、前記学習データの前記根拠情報とに基づいて、前記質問文に対する回答種別を判断する判断モデルを用いて、前記質問文に対する回答種別を判断し、
前記抽出された前記根拠情報が前記学習データの前記根拠情報と一致し、前記推定された前記根拠範囲が前記学習データの前記根拠範囲と一致し、前記判断された前記回答種別が前記学習データの前記回答種別と一致するように、前記符号化モデル、前記抽出モデル、前記探索モデル、及び前記判断モデルのパラメータを学習する、
非一時的記憶媒体。
20、40、60 回答生成装置
100 入力部
200、600、900 解析部
210、610 機械読解部
211 単語符号化部
213 第1文脈符号化部
214 アテンション部
215 第2文脈符号化部
216 根拠探索部
220 判断部
221 入力変換部
222 スコア計算部
300、700 パラメータ学習部
400 入力部
500、800 出力部
617 根拠抽出部
910 符号化部
Claims (8)
- 入力された、文章の分割単位である複数のスパンに分割された文章及び質問文に基づいて、入力文を入力文の意味を表すベクトル表現系列に変換するための予め学習された符号化モデルを用いて、前記スパン及び前記質問文の意味を表すベクトル表現系列に変換する符号化部と、
前記ベクトル表現系列に基づいて、前記質問文に対する回答を抽出する根拠に適しているスパンを抽出する予め学習された抽出モデルを用いて、前記回答を抽出する根拠に適しているスパンである根拠情報を推定する根拠抽出部と、
前記ベクトル表現系列と、前記根拠情報とに基づいて、前記文章における前記回答の根拠となる範囲である根拠範囲を抽出する予め学習された探索モデルを用いて、前記根拠範囲を推定する根拠探索部と、
前記ベクトル表現系列と、前記根拠情報とに基づいて、前記文章における前記質問文に対する回答の正解である回答種別を判断する予め学習された判断モデルを用いて、前記質問文に対する回答種別を判断する判断部と、
を備えることを特徴とする回答生成装置。 - 前記回答種別は、前記質問文に対する回答の極性、又は前記文章から回答を抽出することであり、
前記判断部が判断した前記回答種別が、前記文章から回答を抽出することである場合、前記根拠探索部により得られた前記根拠範囲に含まれる文字列を、前記質問文に対する回答として出力する出力部
を更に備えることを特徴とする請求項1記載の回答生成装置。 - 入力された、文章の分割単位である複数のスパンに分割された文章及び質問文に基づいて、入力文を入力文の意味を表すベクトル表現系列に変換するための予め学習された符号化モデルを用いて、前記スパン及び前記質問文の意味を表すベクトル表現系列に変換する符号化部と、
前記ベクトル表現系列に基づいて、前記スパンが前記質問文に対する回答を抽出する根拠に適している度合いを示す根拠スコアを算出するための予め学習された抽出モデルを用いて、前記スパンの各々の根拠スコアを推定する根拠抽出部と、
を備え、
前記符号化モデル及び前記抽出モデルは、
前記符号化モデルを用いて変換された前記ベクトル表現系列に基づいて、前記文章における前記回答の根拠となる範囲である根拠範囲を抽出する探索モデル、及び
前記ベクトル表現系列に基づいて、前記文章における前記質問文に対する回答の正解である回答種別を判断する判断モデル
を更に含む複数のモデルのマルチタスク学習により予め学習されたものである
ことを特徴とする回答生成装置。 - 文章の分割単位である複数のスパンに分割された文章と、質問文と、前記文章における前記質問文に対する回答の正解である回答種別と、前記文章における前記回答の根拠となる範囲である根拠範囲と、前記文章における前記回答の根拠となるスパンである根拠情報とを含む学習データの入力を受け付ける入力部と、
複数のスパンに分割した前記文章と、前記質問文とを、入力文を入力文の意味を表すベクトル表現系列に変換するための符号化モデルを用いて、前記スパン及び前記質問文の意味を表すベクトル表現系列に変換する符号化部と、
前記ベクトル表現系列に基づいて、前記根拠情報を抽出する抽出モデルを用いて、前記根拠情報を推定する根拠抽出部と、
前記ベクトル表現系列と、前記学習データの前記根拠情報とに基づいて、前記根拠範囲を抽出する探索モデルを用いて、前記根拠範囲を推定する根拠探索部と、
前記ベクトル表現系列と、前記学習データの前記根拠情報とに基づいて、前記質問文に対する回答種別を判断する判断モデルを用いて、前記質問文に対する回答種別を判断する判断部と、
前記根拠抽出部により抽出された前記根拠情報が前記学習データの前記根拠情報と一致し、前記根拠探索部により推定された前記根拠範囲が前記学習データの前記根拠範囲と一致し、前記判断部により判断された前記回答種別が前記学習データの前記回答種別と一致するように、前記符号化モデル、前記抽出モデル、前記探索モデル、及び前記判断モデルのパラメータを学習するパラメータ学習部と、
を備えることを特徴とする回答学習装置。 - 符号化部が、入力された、文章の分割単位である複数のスパンに分割された文章及び質問文に基づいて、入力文を入力文の意味を表すベクトル表現系列に変換するための予め学習された符号化モデルを用いて、前記スパン及び前記質問文の意味を表すベクトル表現系列に変換し、
根拠抽出部が、前記ベクトル表現系列に基づいて、前記質問文に対する回答を抽出する根拠に適しているスパンを抽出する予め学習された抽出モデルを用いて、前記回答を抽出する根拠に適しているスパンである根拠情報を推定し、
根拠探索部が、前記ベクトル表現系列と、前記根拠情報とに基づいて、前記文章における前記回答の根拠となる範囲である根拠範囲を抽出する予め学習された探索モデルを用いて、前記根拠範囲を推定し、
判断部が、前記ベクトル表現系列と、前記根拠情報とに基づいて、前記文章における前記質問文に対する回答の正解である回答種別を判断する予め学習された判断モデルを用いて、前記質問文に対する回答種別を判断する
ことを特徴とする回答生成方法。 - 符号化部が、入力された、文章の分割単位である複数のスパンに分割された文章及び質問文に基づいて、入力文を入力文の意味を表すベクトル表現系列に変換するための予め学習された符号化モデルを用いて、前記スパン及び前記質問文の意味を表すベクトル表現系列に変換し、
根拠抽出部が、前記ベクトル表現系列に基づいて、前記スパンが前記質問文に対する回答を抽出する根拠に適している度合いを示す根拠スコアを算出するための予め学習された抽出モデルを用いて、前記スパンの各々の根拠スコアを推定する
回答生成方法であって、
前記符号化モデル及び前記抽出モデルは、
前記符号化モデルを用いて変換された前記ベクトル表現系列に基づいて、前記文章における前記回答の根拠となる範囲である根拠範囲を抽出する探索モデル、及び
前記ベクトル表現系列に基づいて、前記文章における前記質問文に対する回答の正解である回答種別を判断する判断モデル
を更に含む複数のモデルのマルチタスク学習により予め学習されたものである
ことを特徴とする回答生成方法。 - 入力された、文章の分割単位である複数のスパンに分割された文章及び質問文に基づいて、入力文を入力文の意味を表すベクトル表現系列に変換するための予め学習された符号化モデルを用いて、前記スパン及び前記質問文の意味を表すベクトル表現系列に変換し、
前記ベクトル表現系列に基づいて、前記質問文に対する回答を抽出する根拠に適しているスパンを抽出する予め学習された抽出モデルを用いて、前記回答を抽出する根拠に適しているスパンである根拠情報を推定し、
前記ベクトル表現系列と、前記根拠情報とに基づいて、前記文章における前記回答の根拠となる範囲である根拠範囲を抽出する予め学習された探索モデルを用いて、前記根拠範囲を推定し、
前記ベクトル表現系列と、前記根拠情報とに基づいて、前記文章における前記質問文に対する回答の正解である回答種別を判断する予め学習された判断モデルを用いて、前記質問文に対する回答種別を判断する
処理をコンピュータに実行させるための回答生成プログラム。 - 入力された、文章の分割単位である複数のスパンに分割された文章及び質問文に基づいて、入力文を入力文の意味を表すベクトル表現系列に変換するための予め学習された符号化モデルを用いて、前記スパン及び前記質問文の意味を表すベクトル表現系列に変換し、
前記ベクトル表現系列に基づいて、前記スパンが前記質問文に対する回答を抽出する根拠に適している度合いを示す根拠スコアを算出するための予め学習された抽出モデルを用いて、前記スパンの各々の根拠スコアを推定する
処理をコンピュータに実行させるための回答生成プログラムであって、
前記符号化モデル及び前記抽出モデルは、
前記符号化モデルを用いて変換された前記ベクトル表現系列に基づいて、前記文章における前記回答の根拠となる範囲である根拠範囲を抽出する探索モデル、及び
前記ベクトル表現系列に基づいて、前記文章における前記質問文に対する回答の正解である回答種別を判断する判断モデル
を更に含む複数のモデルのマルチタスク学習により予め学習されたものである
回答生成プログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019032127A JP2019220142A (ja) | 2018-06-18 | 2019-02-25 | 回答学習装置、回答学習方法、回答生成装置、回答生成方法、及びプログラム |
JP2019032127 | 2019-02-25 | ||
PCT/JP2019/049385 WO2020174826A1 (ja) | 2019-02-25 | 2019-12-17 | 回答生成装置、回答学習装置、回答生成方法、及び回答生成プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2020174826A1 JPWO2020174826A1 (ja) | 2021-11-25 |
JP7120433B2 true JP7120433B2 (ja) | 2022-08-17 |
Family
ID=72265353
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021501617A Active JP7120433B2 (ja) | 2019-02-25 | 2019-12-17 | 回答生成装置、回答学習装置、回答生成方法、及び回答生成プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220043972A1 (ja) |
JP (1) | JP7120433B2 (ja) |
WO (1) | WO2020174826A1 (ja) |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019220142A (ja) * | 2018-06-18 | 2019-12-26 | 日本電信電話株式会社 | 回答学習装置、回答学習方法、回答生成装置、回答生成方法、及びプログラム |
US20230034414A1 (en) * | 2019-12-12 | 2023-02-02 | Nippon Telegraph And Telephone Corporation | Dialogue processing apparatus, learning apparatus, dialogue processing method, learning method and program |
US20210383199A1 (en) * | 2020-06-03 | 2021-12-09 | Google Llc | Object-Centric Learning with Slot Attention |
US20220083859A1 (en) * | 2020-09-11 | 2022-03-17 | Actapio, Inc. | Learning apparatus, learning method, and a non-transitory computer-readable storage medium |
CN112184178A (zh) * | 2020-10-14 | 2021-01-05 | 深圳壹账通智能科技有限公司 | 邮件内容提取方法、装置、电子设备及存储介质 |
WO2022079826A1 (ja) * | 2020-10-14 | 2022-04-21 | 日本電信電話株式会社 | 学習装置、情報処理装置、学習方法、情報処理方法及びプログラム |
CN112288058B (zh) * | 2020-11-05 | 2022-07-01 | 杭州师范大学 | 一种基于增强现实的答案智能填写方法 |
KR102379660B1 (ko) * | 2020-11-30 | 2022-03-29 | 주식회사 티맥스에이아이 | 딥러닝 기반 의미역 분석을 활용하는 방법 |
US11755570B2 (en) * | 2020-12-09 | 2023-09-12 | Adobe, Inc. | Memory-based neural network for question answering |
CN112560501B (zh) * | 2020-12-25 | 2022-02-25 | 北京百度网讯科技有限公司 | 语义特征的生成方法、模型训练方法、装置、设备及介质 |
CN112686263B (zh) * | 2020-12-29 | 2024-04-16 | 科大讯飞股份有限公司 | 文字识别方法、装置、电子设备及存储介质 |
CN112860863A (zh) * | 2021-01-30 | 2021-05-28 | 云知声智能科技股份有限公司 | 一种机器阅读理解方法及装置 |
JP7410066B2 (ja) * | 2021-02-18 | 2024-01-09 | Lineヤフー株式会社 | 情報提供装置、情報提供方法および情報提供プログラム |
CN112863627B (zh) * | 2021-03-12 | 2023-11-03 | 云知声智能科技股份有限公司 | 医疗质控信息检测方法、系统以及存储介质 |
CN112966499A (zh) * | 2021-03-17 | 2021-06-15 | 中山大学 | 一种基于自适应融合多注意力网络的问题和答案匹配方法 |
CN113159187B (zh) * | 2021-04-23 | 2024-06-14 | 北京金山数字娱乐科技有限公司 | 分类模型训练方法及装置、目标文本确定方法及装置 |
CN113282722B (zh) * | 2021-05-07 | 2024-03-29 | 中国科学院深圳先进技术研究院 | 机器阅读理解方法、电子设备及存储介质 |
CN113434657B (zh) * | 2021-07-21 | 2023-04-07 | 广州华多网络科技有限公司 | 电商客服应答方法及其相应的装置、设备、介质 |
US11720615B2 (en) | 2021-07-30 | 2023-08-08 | DSilo Inc. | Self-executing protocol generation from natural language text |
CN113704437B (zh) * | 2021-09-03 | 2023-08-11 | 重庆邮电大学 | 一种融合多头注意力机制和相对位置编码的知识库问答方法 |
CN113821600B (zh) * | 2021-09-26 | 2023-12-19 | 欧冶云商股份有限公司 | 基于语义理解的加工委托信息提取方法和装置 |
CN114372458B (zh) * | 2022-01-20 | 2023-04-07 | 北京零点远景网络科技有限公司 | 一种基于政务工单的突发事件检测方法 |
CN114912419B (zh) * | 2022-04-19 | 2024-09-06 | 中国人民解放军国防科技大学 | 基于重组对抗的统一机器阅读理解方法 |
US20230359820A1 (en) * | 2022-05-03 | 2023-11-09 | Sap Se | Natural language processing to extract skills characterization |
CN114996513B (zh) * | 2022-05-11 | 2024-06-28 | 湖南大学 | 基于跨模态提示学习的视频问答方法与系统 |
CN114970563B (zh) * | 2022-07-28 | 2022-10-25 | 山东大学 | 融合内容和形式多样性的中文问题生成方法和系统 |
CN115168548B (zh) * | 2022-09-05 | 2022-11-22 | 吉奥时空信息技术股份有限公司 | 一种基于召回-排序的地址匹配方法 |
CN115879440A (zh) * | 2022-10-04 | 2023-03-31 | 阿里巴巴(中国)有限公司 | 自然语言处理、模型训练方法、装置、设备及存储介质 |
CN115563283B (zh) * | 2022-10-20 | 2023-04-25 | 北京大学 | 一种基于提示学习的文本分类方法 |
WO2024197740A1 (zh) * | 2023-03-30 | 2024-10-03 | 中山大学 | 一种低资源场景下的常识型课后习题生成方法和装置 |
CN118227771B (zh) * | 2024-05-27 | 2024-08-06 | 北京搜狐新媒体信息技术有限公司 | 一种知识问答处理方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008282366A (ja) | 2007-05-14 | 2008-11-20 | Nippon Telegr & Teleph Corp <Ntt> | 質問応答装置、質問応答方法、質問応答プログラム並びにそのプログラムを記録した記録媒体 |
JP2013254420A (ja) | 2012-06-08 | 2013-12-19 | Nippon Telegr & Teleph Corp <Ntt> | 質問応答装置、モデル学習装置、方法、及びプログラム |
JP2015011426A (ja) | 2013-06-27 | 2015-01-19 | 独立行政法人情報通信研究機構 | ノン・ファクトイド型質問応答システム及びコンピュータプログラム |
JP2018060273A (ja) | 2016-10-03 | 2018-04-12 | エヌ・ティ・ティ レゾナント株式会社 | 情報処理装置、情報処理方法、及びプログラム |
WO2019012908A1 (ja) | 2017-07-13 | 2019-01-17 | 国立研究開発法人情報通信研究機構 | ノン・ファクトイド型質問応答装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8666983B2 (en) * | 2003-06-13 | 2014-03-04 | Microsoft Corporation | Architecture for generating responses to search engine queries |
US10762438B1 (en) * | 2016-06-30 | 2020-09-01 | Facebook, Inc. | Extracting questions and answers |
US10726206B2 (en) * | 2018-01-30 | 2020-07-28 | Disney Enterprises, Inc. | Visual reference resolution using attention memory for visual dialog |
US11227218B2 (en) * | 2018-02-22 | 2022-01-18 | Salesforce.Com, Inc. | Question answering from minimal context over documents |
-
2019
- 2019-12-17 JP JP2021501617A patent/JP7120433B2/ja active Active
- 2019-12-17 WO PCT/JP2019/049385 patent/WO2020174826A1/ja active Application Filing
- 2019-12-17 US US17/433,096 patent/US20220043972A1/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008282366A (ja) | 2007-05-14 | 2008-11-20 | Nippon Telegr & Teleph Corp <Ntt> | 質問応答装置、質問応答方法、質問応答プログラム並びにそのプログラムを記録した記録媒体 |
JP2013254420A (ja) | 2012-06-08 | 2013-12-19 | Nippon Telegr & Teleph Corp <Ntt> | 質問応答装置、モデル学習装置、方法、及びプログラム |
JP2015011426A (ja) | 2013-06-27 | 2015-01-19 | 独立行政法人情報通信研究機構 | ノン・ファクトイド型質問応答システム及びコンピュータプログラム |
JP2018060273A (ja) | 2016-10-03 | 2018-04-12 | エヌ・ティ・ティ レゾナント株式会社 | 情報処理装置、情報処理方法、及びプログラム |
WO2019012908A1 (ja) | 2017-07-13 | 2019-01-17 | 国立研究開発法人情報通信研究機構 | ノン・ファクトイド型質問応答装置 |
Non-Patent Citations (1)
Title |
---|
前田 英作、外5名,質問応答システム:SAIQA-何でも答える物知り博士,NTT R&D 第52巻 第2号,日本,社団法人電気通信協会,2003年02月10日,第52巻,第2号,p.122-133 |
Also Published As
Publication number | Publication date |
---|---|
WO2020174826A1 (ja) | 2020-09-03 |
US20220043972A1 (en) | 2022-02-10 |
JPWO2020174826A1 (ja) | 2021-11-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7120433B2 (ja) | 回答生成装置、回答学習装置、回答生成方法、及び回答生成プログラム | |
JP7247878B2 (ja) | 回答学習装置、回答学習方法、回答生成装置、回答生成方法、及びプログラム | |
CN108875074B (zh) | 基于交叉注意力神经网络的答案选择方法、装置和电子设备 | |
JP7139626B2 (ja) | フレーズ生成関係性推定モデル学習装置、フレーズ生成装置、方法、及びプログラム | |
CN110704601A (zh) | 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法 | |
KR102361616B1 (ko) | 문맥 정보를 고려한 개체명 인식 방법 및 장치 | |
US11481560B2 (en) | Information processing device, information processing method, and program | |
WO2020170881A1 (ja) | 質問応答装置、学習装置、質問応答方法及びプログラム | |
WO2019229931A1 (ja) | 情報処理装置、制御方法、及びプログラム | |
JP2019191827A (ja) | 質問応答装置、質問応答方法及びプログラム | |
CN113505583A (zh) | 基于语义决策图神经网络的情感原因子句对提取方法 | |
Thomas et al. | Chatbot using gated end-to-end memory networks | |
WO2019244803A1 (ja) | 回答学習装置、回答学習方法、回答生成装置、回答生成方法、及びプログラム | |
CN114492451B (zh) | 文本匹配方法、装置、电子设备及计算机可读存储介质 | |
JP7452623B2 (ja) | 学習装置、情報処理装置、学習方法、情報処理方法及びプログラム | |
CN114282592A (zh) | 一种基于深度学习的行业文本匹配模型方法及装置 | |
CN114332565A (zh) | 一种基于分布估计的条件生成对抗网络文本生成图像方法 | |
CN110633363B (zh) | 一种基于nlp和模糊多准则决策的文本实体推荐方法 | |
CN113779190A (zh) | 事件因果关系识别方法、装置、电子设备与存储介质 | |
CN110287396B (zh) | 文本匹配方法及装置 | |
JP7055848B2 (ja) | 学習装置、学習方法、学習プログラム、及び請求項マップ作成装置 | |
JPWO2018203551A1 (ja) | 信号検索装置、方法、及びプログラム | |
JP7444625B2 (ja) | 質問回答装置 | |
CN113407664A (zh) | 语义匹配方法、装置和介质 | |
JP7375919B2 (ja) | オントロジー生成プログラム、オントロジー生成装置およびオントロジー生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210510 |
|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A801 Effective date: 20210511 |
|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20210511 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220705 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220718 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7120433 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |