JP2021524623A

JP2021524623A - 質問応答としてのマルチタスク学習

Info

Publication number: JP2021524623A
Application number: JP2020564520A
Authority: JP
Inventors: マッキャン，ブライアン; シリスケスカー，ニティーシュ; ション，ツァイミン; ソシエール，リチャード
Original assignee: セールスフォースドットコムインコーポレイティッド
Priority date: 2018-05-18
Filing date: 2019-05-14
Publication date: 2021-09-13
Anticipated expiration: 2039-05-14
Also published as: WO2019222206A1; CA3097224A1; US20190355270A1; US11600194B2; EP3794469A1; JP7408574B2

Abstract

自然言語処理のためのアプローチは、コンテキストからのワードおよび質問からのワードを並列して符号化するための多層符号化器と、符号化されたコンテキストと符号化された質問を復号するための多層復号器と、復号器からの出力に基づいて、コンテキストからのワード、質問からのワード、および語彙のワードに対する分布を生成するためのポインタ生成器と、スイッチと、を含む。スイッチは、コンテキストからの第１のワードに対する分布、質問からの第２のワードに対する分布、および語彙の第３のワードに対する分布の重みを生成し、コンテキストからの第１のワードに対する分布、質問からの第２のワードに対する分布、および語彙の第３のワードに対する分布の重みに基づいて、複合分布を生成し、複合分布を使用して、答えに含めるワードを選択する。

Description

本出願は、２０１７年５月１８日に出願された「ＭｕｌｔｉｔａｓｋＬｅａｒｎｉｎｇＡｓＱｕｅｓｔｉｏｎＡｎｓｗｅｒｉｎｇ」と題する米国特許仮出願第６２／６７３，６０６号、および２０１８年６月１２日に出願された「ＭｕｌｔｉｔａｓｋＬｅａｒｎｉｎｇＡｓＱｕｅｓｔｉｏｎＡｎｓｗｅｒｉｎｇ」と題する米国特許出願第１６／００６，６９１号の優先権を主張し、それらの全体が参照により本明細書に組み込まれる。

本開示は、一般に、自然言語処理に関し、より具体的には、自然言語コンテキストに関する自然言語質問に答えることに関する。

自然言語処理と、自然言語のサンプルの内容に関する自然言語質問に答えるシステムの能力は、自然言語形式で提供される情報に関するコンテキスト特有の推論についてテストするためのベンチマークである。これは複雑な作業となる可能性がある。なぜなら、質問され得る自然言語質問には多くの異なるタイプがあり、その答えには異なるタイプの推論および／または異なるタイプの分析が必要になることがあるためである。

従って、異なるタイプの自然言語質問に同時に答えることができるように統一されたシステムおよび方法を有することが有利であろう。

いくつかの実施形態による質問応答として特徴付けられる自然言語処理タスクタイプの例の簡略図である。いくつかの実施形態による計算デバイスの簡略図である。いくつかの実施形態による符号化器の簡略図である。いくつかの実施形態によるアテンションネットワークの簡略図である。いくつかの実施形態によるアテンションベースのトランスフォーマネットワークのための層の簡略図である。いくつかの実施形態による復号器の簡略図である。いくつかの実施形態によるマルチタスク学習方法の簡略図である。いくつかの実施形態による訓練セットの要約の簡略図である。いくつかの実施形態によるシングルタスクおよびマルチタスク学習からの結果の簡略図である。いくつかの実施形態による異なる訓練戦略のための結果の簡略図である。いくつかの実施形態による答えのためのワード選択のためのソースの簡略図である。いくつかの実施形態による異なる訓練アプローチからの結果の簡略図である。いくつかの実施形態による異なる訓練アプローチからの結果の簡略図である。

図において、同じ称呼有する要素は、同じまたは類似の機能を有する。

自然言語情報の内容に関するコンテキスト特有の推論を含むコンテキスト特有の推論は、機械インテリジェンスおよび学習アプリケーションにおいて重要な問題である。コンテキスト特有の推論は、自然言語テキストの解釈に使用するための貴重な情報を提供することがあり、自然言語テキストの内容に関する質問への答え、言語翻訳、意味内容分析など、異なるタスクを含むことができる。しかしながら、これらの異なるタイプの自然言語処理タスクの各々は、異なるタイプの分析および／または異なるタイプの期待される答えを伴うことが多い。

自然言語処理におけるマルチタスク学習は、タスクタイプが類似しているときに進展した。しかしながら、言語翻訳、質問応答および分類のような異なるタイプのタスクに取り組むときに、パラメータ共有は、ワードベクトルまたはパラメータのサブセットに制限されることが多い。最終的なアーキテクチャは、典型的には、各タスクタイプに対して高度に最適化され、設計されて、タスクタイプを横断的に一般化する能力を制限している。

しかしながら、これらのタスクタイプの多くは、シングルタイプのタスクとしてフレーム化されるときに、同じアーキテクチャおよびモデルによって処理され得る。例えば、すべてではないが多くの自然言語処理タスクを、質問応答タスクとして処理することが可能である。例えば、質問応答、機械翻訳、文書要約、データベースクエリ生成、感情分析、自然言語推論、意味役割ラベル付け、関係抽出、目標指向対話、および代名詞解決のタスクタイプは、質問応答タスクとしてフレーム化されてもよい。図１は、いくつかの実施形態による質問応答として特徴付けられる自然言語処理タスクタイプの例の簡略図である。図１の各例は、質問、コンテキスト、および正解を備えた３つの列形式で示される。実施例１０５は、質問応答タスクの例であり、ここで、質問が、コンテキストの内容に関して尋ねられている。実施例１１０は、英語からドイツ語への機械翻訳タスクの例であり、ここで、質問が「ｗｈａｔｉｓｔｈｅｔｒａｎｓｌａｔｉｏｎ．．．」の形式で提示されている。実施例１１５は、文書要約タスクの例であり、ここで、質問が「ｗｈａｔｉｓｔｈｅｓｕｍｍａｒｙ？」として提示されている。実施例１２０は、自然言語推論タスクの例であり、ここで、仮説と、その仮説がコンテキストに伴意するか、矛盾するか、または中立であるかについての問いとを使用して提示されている。実施例１２５は、感情分析タスクの例であり、ここで、コンテキストが肯定的か否定的かについて質問が提示されている。実施例１３０は、意味役割ラベル付けタスクの例であり、ここで、どのエンティティがコンテキストにおいて指示された役割を演じるかについて質問が提示されている。実施例１３５は、関係抽出タスクの例であり、ここで、コンテキストにおいて言及されたエンティティのうちの１つの関係に関して質問が提示されている。実施例１４０は、目標指向対話タスクの例であり、ここで、コンテキストから学習され得る知識に関して質問が提示されている。実施例１４５は、データベースクエリ生成タスクの例であり、ここで、質問が、データベースクエリ言語（例えば、ＳＱＬ）への変換を要求している。実施例１５０は、代名詞解決タスクの例であり、ここで、質問が、コンテキスト中に現れる代名詞に関する質問に答えることに指向されている。

図２は、いくつかの実施形態による計算デバイス２００の簡略図である。図２に示すように、計算デバイス２００は、メモリ２２０に結合されたプロセッサ２１０を含む。計算デバイス２００の動作は、プロセッサ２１０によって制御される。また、計算デバイス２００は、１つのプロセッサ２１０のみで示されているが、プロセッサ２１０は、計算デバイス２００内の１つ以上の中央処理ユニット、マルチコアプロセッサ、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、グラフィクス処理ユニット（ＧＰＵ）などを代表するものであってもよいと理解される。計算デバイス２００は、スタンドアロン型のサブシステムとして、計算デバイスに追加されたボードとして、および／または仮想マシンとして実装されてもよい。

メモリ２２０は、計算デバイス２００および／または計算デバイス２００の動作中に使用される１つ以上のデータ構造によって実行されるソフトウェアを記憶するために使用されてもよい。メモリ２２０は、１つ以上のタイプの機械可読媒体を含んでもよい。機械可読媒体のいくつかの一般的な形態は、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、他の任意の磁気媒体、ＣＤ−ＲＯＭ、他の任意の光学媒体、パンチカード、紙テープ、穴のパターンを有する他の任意の物理媒体、ＲＡＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＦＬＡＳＨ−ＥＰＲＯＭ、他の任意のメモリチップまたはカートリッジ、および／またはプロセッサまたはコンピュータが読むように適合される他の任意の媒体を含んでもよい。

プロセッサ２１０および／またはメモリ２２０は、任意の適切な物理的配置で配置されてもよい。いくつかの実施形態において、プロセッサ２１０および／またはメモリ２２０は、同じボード、同じパッケージ（例えば、システム・イン・パッケージ）、同じチップ（例えば、システム・オン・チップ）などの上に実装されてもよい。いくつかの実施形態において、プロセッサ２１０および／またはメモリ２２０は、分散、仮想化、および／またはコンテナ化された計算リソースを含んでもよい。そのような実施形態と一致して、プロセッサ２１０および／またはメモリ２２０は、１つ以上のデータセンタおよび／またはクラウド計算施設に位置してもよい。

図示のように、メモリ２２０は、本明細書でさらに説明される質問応答システムおよびモデルを実装および／またはエミュレートするために、および／または本明細書でさらに説明される任意の方法を実装するために使用され得る質問応答モジュール２３０を含む。いくつかの例において、質問応答モジュール２３０は、自然言語コンテキストに関する自然言語質問に答えるために使用されてもよい。いくつかの例において、質問応答モジュール２３０はまた、自然言語コンテキストに関する自然言語質問に答えるために使用される質問応答システムまたはモデルの反復訓練および／または評価を処理してもよい。いくつかの例において、メモリ２２０は、１つ以上のプロセッサ（例えば、プロセッサ２１０）によって実行されるときに、１つ以上のプロセッサが本明細書にさらに詳細に説明される計数方法を行うようにし得る実行可能コードを含む、非一時的、有形、機械可読媒体を含んでもよい。いくつかの例において、質問応答モジュール２３０は、ハードウェア、ソフトウェア、および／またはハードウェアとソフトウェアの組み合わせを使用して実装されてもよい。図示のように、計算デバイス２００は、自然言語コンテキスト２４０および自然言語コンテキスト２４０に関する自然言語質問２５０を受信し、これらは質問応答モジュール２３０に提供され、質問応答モジュール２３０は、次に、自然言語コンテキスト２４０の内容に基づいて、自然言語質問２５０に対する自然言語応答２６０を生成する。

図３は、いくつかの実施形態による符号化器３００の簡略図である。符号化器３００は、自然言語コンテキストｃおよび自然言語質問ｑを受信し、これらは、各々、英語、フランス語、ドイツ語、スペイン語などのような自然言語で順序付けられたワードのシーケンスからなる。コンテキストｃおよび質問ｑの両方は、それぞれの符号化層３１０および３１５を用いて、行列形式に符号化され、ここで、行列のｉ番目の行は、式１に従って示されるように、シーケンス中のｉ番目のトークンまたはワードに対するｄ_ｅｍｂ次元埋め込みに対応し、ここで、ｌは、コンテキスト中のワードまたはトークンの数に対応し、ｍは、質問中のワードまたはトークンの数に対応する。いくつかの例において、各ワードの符号化は、Ｇｌｏｖｅ符号化に基づき、ここで、各ワードが
［外１］

の要素として符号化される。いくつかの例において、各ワードの符号化は、文字ｎ−ｇｒａｍ符号化に基づき、ここで、各ワードが
［外２］

の要素として符号化される。いくつかの例において、各ワードの符号化はＧｌｏＶｅ符号化と文字のｎ−ｇｒａｍ符号化の連結に基づく。いくつかの例において、ワードに対してＧｌｏＶｅおよび／または文字ｎ−ｇｒａｍ符号化がないとき（例えば、ワードが英語でないとき）に、ランダム符号化は、ＧｌｏＶｅ符号化と同じ平均および標準偏差（例えば、平均ゼロおよび標準偏差０．４）を有する正規分布から選択され、そのランダム符号化がそれぞれのワードの各出現に対して一貫して使用される。いくつかの例において、ワードに対してＧｌｏＶｅおよび／または文字ｎ−ｇｒａｍ符号化が存在しないとき（例えば、ワードが英語でないとき）に、ゼロの値が使用される。いくつかの例において、訓練中に、正解は、式１にも示されるように、同様に符号化され、ここで、ｎは、正解におけるワードまたはトークンの数に対応する。

独立表現いくつかの例において、符号化されたコンテキストおよび質問に対する独立表現Ｃ_ｐｒｏｊおよびＱ_ｐｒｏｊは、それぞれ、式２に従ってそれぞれの線形ネットワーク３２０および３２５を使用して生成される。いくつかの例において、それぞれの線形ネットワーク３２０および３２５は、符号化されたコンテキストおよび質問の次元をｄに減らしてもよい。いくつかの例において、次元数ｄは２００である。式２に示されるように、線形ネットワーク３２０および３２５の両方は、同じ重み行列Ｗ_１および同じバイアスｂ_１を使用するため、独立表現Ｃ_ｐｒｏｊおよびＱ_ｐｒｏｊは、ｄ次元空間に一貫して投影される。いくつかの例において、バイアスｂ_１は任意選択であり、省略されてもよい。いくつかの例において、重み行列Ｗ_１およびバイアスｂ_１は、符号化器３００の残りの部分と共に訓練される。

コンテキストＣ_ｐｒｏｊおよび質問Ｑ_ｐｒｏｊのための投影表現は、式３に従ってＣ_ｉｎｄおよびＱ_ｉｎｄを形成するために、共有された１層の双方向長短期記憶ネットワーク（ＢｉＬＳＴＭ：ｂｉｄｉｒｅｃｔｉｏｎａｌＬｏｎｇＳｈｏｒｔ−ＴｅｒｍＭｅｍｏｒｙＮｅｔｗｏｒｋ）３３０に渡される。

ＢｉＬＳＴＭ３３０は、式４に従って、
［外３］

および
［外４］

の連結としてｈ_ｉとしての各時間ステップｉにおいて出力を生成し、ここで、ｘは、ｂｉＬＳＴＭ３３０への入力であり、ＬＳＴＭは、長短期記憶ネットワークに対応する。いくつかの例において、ＢｉＬＳＴＭ３３０は、入力に対して０．２のドロップアウトを使用する。

アライメントｂｉＬＳＴＭ３３０の出力Ｃ_ｉｎｄおよびＱ_ｉｎｄは、コアテンションネットワーク（Ｃｏａｔｔｅｎｔｉｏｎｎｅｔｗｏｒｋ）３４０を使用して、コアテンド表示（ｃｏａｔｔｅｎｄｅｄｒｅｐｒｅｓｅｎｔａｔｉｏｎ）Ｃ_ｐｒｏｊ、Ｑ_ｐｒｏｊ、Ｃ_ｓｕｍ、Ｑ_ｓｕｍ、Ｃ_ｃｏａおよびＱ_ｃｏａを生成するために使用される。コアテンションネットワーク３４０は、まず、コンテキストおよび質問のシークエンスの符号化表現を整列する。いくつかの例において、質問またはコンテキストのシーケンスからのいくつかのトークンは、質問とコンテキストシーケンスの他のものにおけるいかなるトークンともうまく整合しないことがあるため、別々に訓練されたダミー埋め込みがＣ_ｉｎｄおよびＱ_ｉｎｄの各々に追加され、これらは、
［外５］

および
［外６］

にある。

コアテンションネットワーク３４０は、次に、式５に従って、質問およびコンテキストに対する符号化トークンの各々の間の正規化されたドット積類似性スコアを生成し、ここで、ｓｏｆｔｍａｘ（Ｘ）は、行列Ｘの各列を正規化し、合計が１になるようにエントリを有する列ごとのソフトマックスを示す。

デュアルコアテンション次いで、コアテンションネットワーク３４０は、正規化されたドット積類似性スコアＳ_ｃｑおよびＳ_ｑｃを重みとして使用し、式６に従って、コンテキストおよび質問のシーケンスから、コンテキストおよび質問のシーケンスの他方において各トークンに関連する情報の要約を決定する。

次いで、コアテンションネットワーク３４０は、式７に従って、正規化されたドット積類似性スコアＳ_ｃｑおよびＳ_ｑｃの使用と共にコアテンド表示Ｃ_ｓｕｍおよびＱ_ｓｕｍを使用して、アライメントから得られた情報を元のシークエンスに戻すように伝達する。

コアテンド表示Ｃ_ｃｏａとＱ_ｃｏａの第１の列は、以前に追加されたダミー埋め込みに対応する。この情報は必要とされないため、コアテンションネットワーク３４０は、行列のその列をドロップして、
［外７］

および
［外８］

を得る。

圧縮２つのｂｉＬＳＴＭ３５０および３５５が、２つの別々のグループにあるコアテンションネットワーク３４０からの出力を圧縮するために使用される。コアテンションネットワーク３４０からの出力は、２つのグループに連結され、各グループは、式８および式９に従って、それぞれ、ｂｉＬＳＴＭ３５０および３５５によって処理される。いくつかの例において、ＢｉＬＳＴＭ３５０および３５５は、入力に対して０．２のドロップアウトを使用する。

セルフアテンションｂｉＬＳＴＭ３５０および３５５の出力Ｃ_ｃｏｍおよびＱ_ｃｏｍは、次に、それぞれの多層セルフアテンションベースのトランスフォーマの符号化器部分に渡される。より具体的には、ｂｉＬＳＴＭ３５０の出力Ｃ_ｃｏｍはセルフアテンション符号化器３６０に渡され、セルフアテンション符号化器３６０の出力Ｃ_{ｓｅｌｆ１}はセルフアテンション符号化器３７０に渡されて、出力Ｃ_{ｓｅｌｆ２}を生成する。並列に、ｂｉＬＳＴＭ３５５の出力Ｑ_ｃｏｍはセルフアテンション符号化器３６５に渡され、セルフアテンション符号化器３６５の出力Ｑ_{ｓｅｌｆ１}はセルフアテンション符号化器３７５に渡されて、出力Ｃ_{ｓｅｌｆ２}を生成する。いくつかの例において、セルフアテンション符号化器３６０および３７０は、コンテキスト内の長距離依存性を捕捉し、セルフアテンション符号化器３６５および３７５は、質問内の長距離依存性を捕捉する。また、符号化器３００は、コンテキストおよび質問の各々について、２つのセルフアテンション符号化器とともに示されているが、符号化器３００は、コンテキストおよび質問の一方または両方について、１つのセルフアテンション符号化器のみまたは３つ以上のセルフアテンション符号化器を含んでもよい。各セルフアテンション符号化器３６０、３６５、３７０、および３７５は、位置ごとに完全に接続されたフィードフォワードネットワークに続いて、図４および図５に関して以下にさらに詳細に説明されるように、レジデュアルコネクション（ｒｅｓｉｄｕａｌｃｏｎｎｅｃｔｉｏｎ）および層正規化と共に、マルチヘッドセルフアテンション機構を含む。

図４は、いくつかの実施形態によるアテンションネットワーク４００の簡略図である。図４に示されるように、アテンションネットワーク４００は、クエリ
［外９］

、キー
［外１０］

、および値
［外１１］

を受信する。ｑ、ｋ、およびｖの各々は、式１０に従って、それぞれの重みＷ^Ｑ４１０、Ｗ^Ｋ４２０、およびＷ^Ｖ４３０に従う。重みＷ^Ｑ４１０、Ｗ^Ｋ４２０、およびＷ^Ｖ４３０は、逆伝播を使用して訓練中に変更される。

得られたＱベクトル、Ｋベクトル、およびＶベクトルは、ＱとＫのドット積を生成するアテンション伝達関数４４０を通過し、次に、式１１に従ってＶに適用される。

次に、追加および正規化モジュール４５０を使用して、クエリｑをアテンション伝達関数からの出力と組み合わせて、アテンションネットワーク４００による学習速度を改善するレジデュアルコネクションを提供する。加算および正規化モジュール４５０は、式１２を実装し、ここで、μおよびσは、それぞれ、入力ベクトルの平均および標準偏差であり、ｇ_ｉは、層の正規化をスケーリングするための利得パラメータである。加算および正規化モジュール４５０からの出力は、アテンションネットワーク４００の出力である。

アテンションネットワーク４００は、しばしば２つの変形形態で使用される。第１の変形形態は、マルチヘッドアテンションネットワークであり、ここで、アテンションネットワーク４００と一致する複数のアテンションネットワークが並列に実装され、マルチヘッドアテンションネットワークの「ヘッド」の各々は、それ自身の重みＷ^Ｑ４１０、Ｗ^Ｋ４２０、およびＷ^Ｖ４３０を有し、これらは、異なる値に初期化され、異なる符号化を学習するように訓練される。次に、ヘッドの各々からの出力は、一緒に連結され、マルチヘッドアテンションネットワークの出力を形成する。第２の変形形態は、マルチヘッドアテンションネットワークであるセルフアテンションネットワークであり、ここで、ｑ、ｋ、およびｖの入力はアテンションネットワークの各ヘッドに対して同じである。

セルフアテンションベースの層は、さらに、２０１７年６月１２日に提出された、Ｖａｓｗａｎｉらによる“ＡｔｔｅｎｔｉｏｎｉｓＡｌｌＹｏｕＮｅｅｄ，” ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１７０６．０３７６２に説明されており、その全体が参照により本明細書に組み込まれる。

図５は、いくつかの実施形態によるアテンションベースのトランスフォーマネットワークのための層５００の簡略図である。図５に示されるように、層５００は、符号化器５１０および復号器５２０を含む。

符号化器５１０は、層入力（例えば、符号化スタック内の第１の層のための入力ネットワークから、または符号化スタックの他のすべての層のための次の最下位の層の層出力から）を受信し、マルチヘッドアテンションネットワーク５１１の３つの全ての入力にそれを提供する。したがって、マルチヘッドアテンションネットワーク５１１は、セルフアテンションネットワークとして構成されている。マルチヘッドアテンションネットワーク５１１の各ヘッドは、アテンションネットワーク４００と一致する。いくつかの例において、マルチヘッドアテンションネットワーク５１１は、３つのヘッドを含むが、２つ、または３つより多い数などの他の数のヘッドが可能である。いくつかの例において、各アテンションネットワークは、寸法が２００で、隠れたサイズが１２８である。マルチヘッドアテンションネットワーク５１１の出力は、フィードフォワードネットワーク５１２に提供され、フィードフォワードネットワーク５１２の入力および出力の両方が、符号化器５１０のための層出力を生成する加算および正規化モジュール５１３に提供される。いくつかの例において、フィードフォワードネットワーク５１２は、正規化線形ユニット（ＲｅＬＵ）活性化を備えた２層パーセプトロンネットワークであり、これは、式１３を実装し、ここで、γはフィードフォワードネットワーク５１２への入力であり、Ｍｉおよびｂｉは、パーセプトロンネットワーク内の各層の重みおよびバイアスである。いくつかの例において、加算および正規化モジュール５１３は、加算および正規化モジュール４５０と実質的に類似している。

復号器５２０は、層入力を（例えば、復号スタック内の第１の層のための入力ネットワークから、または復号スタックの他のすべての層のための次の最下位の層の層出力から）受信し、マルチヘッドアテンションネットワーク５２１の３つの全ての入力にそれを提供する。したがって、マルチヘッドアテンションネットワーク５２１は、セルフアテンションネットワークとして構成されている。マルチヘッドアテンションネットワーク５２１の各ヘッドは、アテンションネットワーク４００と一致する。いくつかの例において、マルチヘッドアテンションネットワーク５２１は、３つのヘッドを含むが、２つ、または３つより多い数などの他の数のヘッドが可能である。マルチヘッドアテンションネットワーク５２１の出力は、別のマルチヘッドアテンションネットワーク５２２への入力ｑとして提供され、マルチヘッドアテンションネットワーク５２２の入力ｋおよびｖは、符号化器からの出力で提供される。マルチヘッドアテンションネットワーク５２１の各ヘッドは、アテンションネットワーク４００と一致する。いくつかの例において、マルチヘッドアテンションネットワーク５２２は、３つのヘッドを含むが、２つ、または３つより多い数などの他の数のヘッドが可能である。いくつかの例において、各アテンションネットワークは、寸法が２００で、隠れたサイズが１２８である。マルチヘッドアテンションネットワーク５２２の出力は、フィードフォワードネットワーク５２３に提供され、フィードフォワードネットワーク５２３の入力および出力の両方が、符号化器５１０のための層出力を生成する加算および正規化モジュール５２４に提供される。いくつかの例において、フィードフォワードネットワーク５２３および追加および正規化モジュール５２４は、それぞれフィードフォワードネットワーク５１２および追加および正規化モジュール５１３と実質的に類似している。

図３に戻って参照すると、セルフアテンション符号化器３６０、３６５、３７０、および／または３７５の各々は、符号化器５１０と一致し、式１４に従ってセルフアテンションベースの符号化を生成し、ここで、ＳＡＥｎｃｏｄｅ（Ｘ）は、符号化器５１０によって行われる符号化に対応し、Ｘは、マルチヘッドアテンションネットワーク５１１によって受信される入力に対応する。

最終符号化コンテキストのための最後の符号化が、次に、式１５に従ってＢｉＬＳＴＭ３８０を使用して、コンテキスト情報を経時的に統合することによって、セルフアテンション符号化器３７０からの出力Ｃ_{ｓｅｌｆ２}から生成される。同様に、質問のための最後の符号化が、次に、式１５に従ってＢｉＬＳＴＭ３８５を使用して、質問情報を経時的に統合することによって、セルフアテンション符号化器３７５からの出力Ｑ_{ｓｅｌｆ２}出力から生成される。いくつかの例において、ＢｉＬＳＴＭ３８０および３８５は、入力に対して０．２のドロップアウトを使用する。

図６は、いくつかの実施形態による復号器の簡略図である。復号器６００は、反復アプローチを使用して、一度に単一のワードまたはトークンを生成する。図６は、答えの生成においてどの反復が参照されているかを示す下付き文字を使用する時間的／位置的関係を表す。（例えば、Ｘ_ｔはｔ回目の反復からのＸの値を参照し、Ｘ_ｔ−１は（ｔ−１）回目の反復、つまりｔ回目の反復の前の反復からのＸの値を参照する）。式１に関して上述したように、復号器６００が訓練中に使用されるときに、正解は、コンテキストおよび質問に対して使用されるのと同じ符号化を使用して、最初に符号化される。

答え表現埋め込みおよび符号化器６１０は、部分的に形成された答えを、式１６に従ってコンテキストおよび質問に対する埋め込みと同様のｄ次元空間に投影するために使用される。

答え内のワードまたはトークンは、再帰および畳み込みの両方を欠くため、位置符号化ＰＥは、式１７に従ってＡ_ｐｒｏｊに加算される。

マルチヘッド復号器アテンション埋め込みおよび符号化器６１０の出力は、次に、セルフアテンション復号器６２０に渡され、その出力は、次に、式１８に従ってセルフアテンション復号器６３０に渡されてＡＳＥＬＦを生成し、ここで、ＳＡＤｅｃｏｄｅ（Ａ，Ｂ）は、復号器５２０によって行われる復号に対応し、Ａは、マルチヘッドアテンションネットワーク５２１によって受信される層入力に対応し、Ｂは、マルチヘッドアテンションネットワーク５２２によって受信される符号化入力に対応する。セルフアテンションが使用されて、復号器６００が、答えに追加される次のワードまたはトークンに備えるために、コンテキストに対する前の出力およびアテンションを認識するようにする。しかしながら、訓練中、および復号器が段階的に動作するため、埋め込みおよび符号化された正解の適切なエントリは、式１８を適用するときに復号器６００が将来の時間ステップを見ることを防止するために、大きな負の数に設定される。

中間復号器状態ＬＳＴＭ６４０は、式１９に従って、前の答えワードまたはトークンＡＳＥＬＦ_ｔ−１、前の反復からのコンテキスト復号器状態
［外１２］

、および前の反復からの中間状態ｈ_ｔ−１を使用して、現在の反復の中間状態ｈ_ｔを生成する。いくつかの例において、ＬＳＴＭ６４０は、入力に対して０．２のドロップアウトを使用する。

コンテキストおよび質問アテンションＬＳＴＭ６４０からの中間状態ｈ_ｔは、コンテキストおよび質問アテンションネットワーク６５０に提供される、すなわち、式２０に従って、最初に、コンテキストＣ_ｆｉｎの最終符号化および質問Ｑ_ｆｉｎの最終符号化に対して、それぞれ、アテンション重みα_Ｃｔおよびα_Ｑｔを生成し、ここで、Ｗ_２およびＷ_３は、訓練可能な重み行列である。いくつかの例において、コンテキストおよび質問アテンションネットワーク６５０は、式２０内に訓練可能なバイアスｂ_２およびｂ_３を任意選択で含めてもよい。アテンション重みにより、復号器６００が各反復ｔに関連する符号化情報に焦点を合わせることを可能にする。

再帰コンテキスト状態コンテキストおよび質問アテンションネットワーク６５０は、次に、アテンション重みα_Ｃｔおよびα_Ｑｔによってそれぞれ重み付けされたコンテキストＣ_ｆｉｎの最終符号化および質問Ｑ_ｆｉｎの最終符号化を、式２１に従って隠れ状態ｈ_ｔと組み合わせて、コンテキスト表現
［外１３］

および質問表現
［外１４］

を生成し、ここで、Ｗ_４およびＷ_５は、訓練可能な重みであり、ｔａｎｈは、双曲線正接伝達関数である。いくつかの例において、コンテキストおよび質問アテンションネットワーク６５０は、式２１内に訓練可能なバイアスｂ_４およびｂ_５を任意選択で含めてもよい。いくつかの例において、他の非線形伝達関数が式２１と共に使用され得る。

マルチポインタ生成器ポインタ生成器６６０は、コンテキスト内のワードまたはトークンおよび質問内のワードまたはトークンに対する分布だけではなく、生成語彙からのワードまたはトークンｖに対する分布も生成するために使用される。分布は、コンテキスト、質問、および語彙からのワードまたはトークンの各々が、現在の反復ｔにおいて復号器６００によって選択される次のワードまたはトークンである可能性を割り当てる。分布は、式２２に従って生成され、ここで、Ｗ^Ｖは、訓練可能な重み行列である。いくつかの例において、ポインタ生成器６６０は、式２２内の生成語彙に対する分布ｐｖを生成するために、式２２内に訓練可能なバイアスｂｖを任意選択で含めてもよい。

次いで、ポインタ生成器６６０は、各部分ｐ_ｃ、ｐ_ｑ、ｐ_ｖが
［外１５］

にあるように、各分布における欠落エントリを０に設定することによって、コンテキスト、質問、および生成語彙におけるトークンの結合に対して分布ｐ_ｃ、ｐ_ｑ、およびｐ_ｖを拡張する。

スイッチ６７０が、次に、式２３に従って、現在の反復に対する次のワードまたはトークンを決定する際のコンテキストおよび質問の重要性を決定するために使用し、ここで、σは、ｌｏｇｓｉｇ、ｔａｎｓｉｇなどのシグモイド伝達関数である。

スイッチ６７０は、式２４に従って合成分布を生成し、現在の反復に対する次のワードまたはトークンが、最大の可能性を有する合成分布からのワードまたはトークンに基づいて選択される。選択されたワードまたはトークンが、次に、答えに追加され、埋め込みおよび符号化器６１０にフィードバックされ、ここで、復号器６００の別の反復が開始される。復号器６００は、最大の数、ワードまたはトークンが選択されるまで、および／または答えの終わりを示すセンチネルワードまたはトークンが選択されるまで、反復し続ける。

いくつかの実施形態によれば、訓練中に、符号化器３００および復号器６００は、式２５に従って、各時間ステップにわたってトークンレベルの負の対数尤度損失関数Ｌを使用して、逆伝播によって訓練され、ここで、ａ_ｔは、答え内のｔ番目のワードまたはトークンに対応する。

図３〜図６のネットワークは、複数のタスク（例えば、質問応答、機械翻訳、文書要約、データベースクエリ生成、感情分析、自然言語推論、意味役割ラベル付け、関係抽出、目標指向対話、代名詞解決）に使用され、各タスクタイプを横断する様々な層およびネットワークに対するそのパラメータを共有するため、注意深く訓練されない場合、破滅的な忘却の影響を受けやすいかもしれない。これに対処するために、いくつかの実施形態では、図３〜図６のネットワークは、修正ジョイント戦略に従って訓練されてもよく、ここで、図３〜図６のネットワークは、訓練サンプルが提示される順序を用いて訓練され、図３〜図６のネットワークを、タスクタイプの各々のバランスのとれた混合に対して同時に訓練する。すなわち、図３〜６のネットワークに訓練サンプルが提示される順序は、異なるタスクタイプから連続訓練サンプルまたは連続する小グループ（例えば、２〜１０程度）の訓練サンプルを選択する。いくつかの例において、ジョイント戦略は、訓練の各反復に伴うタスクタイプの異なる１つから訓練サンプル（コンテキストｃ、質問ｑ、および正解ａ）を選択することを含む。ジョイント戦略の目標は、別のタスクタイプに対してあるタスクタイプに重点を置きすぎることなく、タスクタイプの各々に対して同時に訓練することである。

図７は、いくつかの実施形態によるマルチタスク学習方法の簡略図である。方法７００の７１０〜７８０のうちの１つ以上は、少なくとも部分的に、１つ以上のプロセッサによって動作されるときに、１つ以上のプロセッサがプロセス７１０〜７８０のうちの１つ以上を行うようにし得る、非一時的な有形の機械可読媒体に記憶された実行可能コードの形態で実装されてもよい。いくつかの実施形態において、方法７００は、図３〜図６のネットワークを訓練するためのハイブリッド訓練戦略として使用され得るが、方法７００は、図３〜図６のネットワーク以外の他のマルチタスクシステムを訓練するためにも使用され得る。いくつかの例において、方法７００は、カリキュラム（ｃｕｒｒｉｃｕｌｕｍ）および／または反カリキュラム（ａｎｔｉ−ｃｕｒｒｉｃｕｌｕｍ）戦略と一致してもよい。いくつかの実施形態において、方法７００によって訓練されるタスクタイプは、質問応答、機械翻訳、文書要約、データベースクエリ生成、感情分析、自然言語推論、意味役割ラベル付け、関係抽出、目標指向対話、代名詞解決などの様々な自然言語処理タスクタイプのいずれかを含んでもよい。

プロセス７１０では、訓練サンプルは、第１の訓練戦略に従って選択される。いくつかの実施形態では、第１の訓練戦略は、訓練サンプルが、ネットワークが訓練されているタスクタイプのサブセットから選択されるジョイント訓練戦略である。いくつかの例において、タスクタイプのサブセットは、タスクタイプの完全セットから選択されてもよい。いくつかの例において、タスクタイプの完全セットは、質問応答、機械翻訳、文書要約、データベース質問生成、感情分析、自然言語推論、意味的役割ラベリング、関係抽出、目標指向対話、代名詞解決などから選択された１つ以上のタスクタイプを含んでもよい。

いくつかの実施形態において、タスクタイプのサブセットは、カリキュラム戦略に従って選択されてもよく、ここで、訓練サンプルは、訓練が比較的少数の訓練反復で収束するタスクタイプから選択される。いくつかの例において、カリキュラム訓練のためのタスクタイプのサブセットは、データベースクエリ生成、感情分析、意味役割ラベル付け、関係抽出、目標指向対話、代名詞解決などから選択された１つ以上のタスクタイプを含んでもよい。

いくつかの実施形態において、タスクタイプのサブセットは、反カリキュラム戦略に従って選択されてもよく、ここで、訓練サンプルは、より学習困難である、より長い答えシーケンスを有する、および／または異なるタイプの復号を含むと特徴付けられるタスクタイプから選択される。いくつかの例において、反カリキュラム訓練のためのタスクタイプのサブセットは、質問応答、要約、機械翻訳、および／または自然言語推論から選択された１つ以上のタスクタイプを含んでもよい。

いくつかの例において、選択された訓練サンプルは、コンテキストおよび質問にそれぞれ対応する自然言語コンテキストおよび自然言語質問、ならびに正解自然言語答えを含む。

プロセス７２０では、選択された訓練サンプルがシステムに提示される。いくつかの例において、システムは、符号化器３００および復号器６００を含む。訓練サンプルがシステムに適用されるときに、現在訓練されているパラメータ（例えば、重みおよびバイアス）に従って、訓練サンプルはシステムの種々の層を通ってフィードフォワードされ、答えが生成される。いくつかの例において、答えは自然言語句である。

プロセス７３０では、システムは誤差に基づいて調整される。プロセス７２０中にシステムによって生成された答えが、選択された訓練サンプルについての正解と比較され、選択された訓練サンプルについての誤差が決定される。誤差は、次に、層の様々なパラメータ（例えば、重みおよびバイアス）を更新するために、逆伝播を使用してシステムにフィードバックされてもよい。いくつかの例において、逆伝播は、確率勾配降下（ＳＧＤ）訓練アルゴリズム、適応モーメント推定（ＡＤＡＭ）訓練アルゴリズムなどを使用して行われてもよい。いくつかの例において、ＡＤＡＭのメタパラメータは
［外１６］

に設定される。いくつかの例において、学習速度は、ｋ^−１／２で減衰される前の最初の８００回の反復で、０から２．５ｘ１０^−３まで直線的に増加され、ここで、ｋは反復カウントである。いくつかの例において、逆伝播に使用される勾配は、１．０にクリップされてもよい。

プロセス７４０では、タスクタイプのサブセットに基づく訓練から、タスクタイプの完全セットに基づく訓練に切り替えるかどうかが決定される。いくつかの例において、所定の数の訓練サンプルが提示された後に、タスクタイプの完全なセットに切り替える決定が発生する。いくつかの例において、所定の数の訓練サンプルは３００，０００であってもよいが、他の所定の数の訓練サンプルが可能である。いくつかの例において、タスクタイプのサブセット内のタスクタイプの各々に対する訓練サンプルの各々が、所定の回数だけ選択された後に、タスクタイプの完全セットに切り替える決定が発生する。いくつかの例において、所定の回数は５回であってもよいが、３回、４回、および／または６回以上のような任意の他の回数も使用されてもよい。いくつかの例において、１つ以上の他のファクタが使用されて、タスクタイプの完全セットを使用して訓練にいつ切り替えるかに関する決定をなしてもよい。いくつかの例において、１つまたは他のファクタは、訓練サンプルを通した各パスを伴うタスクタイプのサブセット内のタスクタイプの各々に対するパフォーマンスメトリックの変化を監視することと、各パス後のパフォーマンスメトリックの各々における改善が閾値量よりも小さく改善されたときに切り替えをなすことと、を含んでもよい。タスクタイプの完全セットに対する訓練に切り替えないと決定されたときに、方法７００は、プロセス７１０に戻り、ここで、訓練サンプルは、タスクタイプのサブセットから選択され続ける。タスクタイプの完全セットから訓練に切り替えることが決定されるときに、訓練サンプルの選択は、プロセス７５０で開始するタスクタイプの完全セットを使用して発生する。

プロセス７５０では、訓練サンプルは、タスクタイプの完全なセットから選択される。いくつかの例において、タスクタイプの完全セットは、質問応答、機械翻訳、文書要約、データベースクエリ生成、感情分析、自然言語推論、意味役割ラベル付け、関係抽出、目標指向対話、代名詞解決などから選択される１つ以上のタスクを含む。

プロセス７６０では、選択された訓練サンプルは、プロセス７２０と実質的に同じプロセスを使用してシステムに提示される。

プロセス７７０では、システムは、プロセス７３０と実質的に同じプロセスを使用して誤差に基づいて調整される。

プロセス７８０では、訓練が完了しているかどうかが決定される。いくつかの例において、所定の数の訓練サンプルが提示された後に訓練が完了する。いくつかの例において、訓練は、完全セットのタスクタイプ内のタスクタイプの各々に対する訓練サンプルが所定の回数システムに提示された後に完了する。いくつかの例において、所定の回数は８回であってもよいが、２〜７回および／または９回以上のような任意の他の回数も使用されてもよい。いくつかの例において、１つ以上の他のファクタが、訓練が完了したときに関する決定をなすために使用されてもよい。いくつかの例において、１つまたは他のファクタは、訓練サンプルを通した各パスを伴うタスクタイプの各々に対するパフォーマンスメトリックの変化を監視することと、各パス後のパフォーマンスメトリックの各々における改善が閾値量よりも小さく改善されたときになにもないことと、を含んでもよい。訓練が完了していないと決定されたときに、方法７００は、プロセス７４０に戻り、ここで、訓練サンプルは、タスクタイプの完全なセットから選択され続ける。訓練が完了したと決定されたときに、方法７００は終了し、訓練されたシステムは、訓練されたタスクのいずれに対しても使用され得る。

訓練が完了した後、訓練されたシステムは、プロセス７２０および／または７６０と実質的に同様のプロセスを使用して、タスクタイプのいずれに対しても使用されてもよく、ここで、コンテキストｃおよび質問ｑは、システムに提示され、方法７００に従って訓練されたパラメータ（例えば、重みおよびバイアス）に従って、システムの様々な層を通ってフィードフォワードされてもよい。生成された答えは、提示されたコンテキストｃおよび質問ｑへの答えに対応する。

図８は、いくつかの実施形態による訓練セットの要約の簡略図である。より具体的には、図８は、各タスクタイプ、使用したデータセット、データセット中の訓練サンプル数、データセット中の開発／検証サンプル中のサンプル数、データセット中の試験サンプル数、および使用したパフォーマンス測定基準を示す。

質問応答（ＱｕｅｓｔｉｏｎＡｎｓｗｅｒｉｎｇ）タスクタイプに対する訓練サンプルは、Ｗｉｋｉｐｅｄｉａ記事のパラグラフサンプルに関連する質問に基づく訓練サンプルを含む、ＳｔａｎｆｏｒｄＱｕｅｓｔｉｏｎＡｎｓｗｅｒｉｎｇＤａｔａｓｅｔ（ＳＱｕＡＤ）に基づく。質問応答タスクタイプに使用されるパフォーマンス測定基準は、正規化Ｆ１（ｎＦ１）スコアである。

機械翻訳（ＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎ）タスクタイプに対する訓練サンプルは、ＴＥＤトークから転記された文対を含む、英語からドイツ語への音声言語翻訳についての国際ワークショップ（ＩＷＳＬＴＥＮ−＞ＤＥ）訓練セットに基づく。機械翻訳タスクタイプに使用されるパフォーマンス測定基準は、ＢＬＥＵスコアである。

要約（Ｓｕｍｍａｒｉｚａｔｉｏｎ）タスクタイプに対する訓練サンプルは、ＣＮＮ日報（ＣＮＮ／ＤＭ）訓練セットから選択される。要約タスクタイプに使用されるパフォーマンス測定基準は、ＲＯＵＧＥスコアである。

自然言語推論（ＮａｔｕｒａｌＬａｎｇｕａｇｅＩｎｆｅｒｅｎｃｅ）タスクタイプに対する訓練サンプルは、Ｍｕｌｔｉ−ｇｅｎｒｅＮａｔｕｒａｌＬａｎｇｕａｇｅＩｎｆｅｒｅｎｃｅＣｏｒｐｕｓ（ＭＮＬＩ）訓練セットから選択される。自然言語推論タスクタイプに使用されるパフォーマンス測定基準は、正規化Ｆ１（ｎＦ１）スコアである。

感情分析（ＳｅｎｔｉｍｅｎｔＡｎａｌｙｓｉｓ）タスクタイプに対する訓練サンプルは、ＳｔａｎｆｏｒｄＳｅｎｔｉｍｅｎｔＴｒｅｅｂａｎｋ（ＳＳＴ）に基づく。ＳＳＴは、映画レビューと彼らの感情に基づいた訓練サンプルを含む。感情分類タスクタイプに使用されるパフォーマンス測定基準は、正規化Ｆ１（ｎＦ１）スコアである。

意味役割ラベル付け（ＳｅｍａｎｔｉｃＲｏｌｅＬａｂｅｌｉｎｇ）タスクタイプに対する訓練サンプルは、Ｑｕｅｓｔｉｏｎ−ＡｎｓｗｅｒＳｅｍａｎｔｉｃＲｏｌｅＬａｂｅｌｉｎｇ（ＱＡ‐ＳＲＬ）訓練セットから選択される。意味役割ラベル付けタスクタイプに使用されるパフォーマンス測定基準は、正規化Ｆ１（ｎＦ１）スコアである。

関係抽出（ＲｅｌａｔｉｏｎｓｈｉｐＥｘｔｒａｃｔｉｏｎ）タスクタイプに対する訓練サンプルは、Ｑｕｅｓｔｉｏｎ−ＡｎｓｗｅｒＺｅｒｏ−ｓｈｏｔＲｅｌａｔｉｏｎＥｘｔｒａｃｔｉｏｎ（ＱＡ−ＺＲＥ）訓練セットから選択される。関係抽出タスクタイプに使用されるパフォーマンス測定基準は、Ｆ１スコアです。

目標指向対話（Ｇｏａｌ−ＯｒｉｅｎｔｅｄＤｉａｌｏｇ）タスクタイプに対する訓練サンプルは、ＷｉｚａｒｄｏｆＯｚ（ＷＯＺ）訓練セットから選択される。目標指向対話タスクタイプに使用されるパフォーマンス測定基準は、完全一致（ＥＭ）スコアである。

データベースクエリ生成（ＤａｔａｂａｓｅＱｕｅｒｙＧｅｎｅｒａｔｉｏｎ）タスクタイプに対する訓練サンプルは、ＷｉｋｉＳＱＬ訓練セットから選択される。データベースクエリ生成タスクタイプに使用されるパフォーマンス測定基準は、完全一致（ＥＭ）スコアである。

代名詞解決（ＰｒｏｎｏｕｎＲｅｓｏｌｕｔｉｏｎ）タスクタイプに対する訓練サンプルは、ＭｏｄｉｆｉｅｄＷｉｎｏｇｒａｄＳｃｈｅｍａＣｈａｌｌｅｎｇｅ（ＭＷＳＣ）訓練セットから選択される。代名詞解決タスクタイプに使用されるパフォーマンス測定基準は、正規化Ｆ１（ｎＦ１）スコアである。

図９は、いくつかの実施形態によるシングルタスクおよびマルチタスク学習からの結果の簡略図である。より具体的には、図８は、質問応答、機械翻訳、文書要約、データベースクエリ生成、感情分析、自然言語推論、意味役割ラベル付け、関係抽出、目標指向対話、代名詞解決を含む様々なタスクタイプに対する、符号化器３００および復号器６００などの訓練システムの結果を示す。

訓練の結果は、複合ＤｅｃａｔｈｌｏｎＳｃｏｒｅ（ｄｅｃａＳｃｏｒｅ）に従ってさらに評価される。ｄｅｃａＳｃｏｒｅは、タスク固有のパフォーマンス測定基準の加算的な組み合わせを含む。個々のパフォーマンス測定基準は各々０〜１００の間にあるため、１０タイプのタスクにわたる複合パフォーマンススコアのｄｅｃａＳｃｏｒｅは０〜１０００の間にある。

図９のシングルタスク訓練列は、Ｓｅｅらの“ＧｅｔｔｏｔｈｅＰｏｉｎｔ：ＳｕｍｍａｒｉｚａｔｉｏｎｗｉｔｈＰｏｉｎｔｅｒ−ｇｅｎｅｒａｔｏｒＮｅｔｗｏｒｋｓ，” ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１７０４．０４３６８，２０１７のポインタ生成器ｓｅｑｕｅｎｃｅ−ｔｏ−ｓｅｑｕｅｎｃｅｍｏｄｅｌ（Ｓ２Ｓ）、Ｖａｓｗａｎｉらの“ＡｔｔｅｎｔｉｏｎｉｓＡｌｌＹｏｕＮｅｅｄ，” ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１７０６．０３７６２，２０１７のＳ２Ｓの下位層がセルフアテンション符号化器および符号器層に置換されたＳ２Ｓのバージョン（ｗ／ＳＡｔｔ）、コンテキストおよび質問の両方の表現を別々にビルドし、その２つがどのように相互作用するかを明示的にモデル化するコアテンションメカニズムで強化されたＳ２Ｓのバージョン（＋ＣＡｔｔ）、および質問ポインタが追加された＋ＣＡｔｔのバリエーション（＋ＱＰｔｒ）を使用して分離して訓練されたときに、それぞれのパフォーマンス測定基準に対するタスクタイプの各々についてのベースライン結果を示す。

図９のマルチタスク訓練カラムは、さらに、訓練を通してタスクタイプの各々から訓練サンプルが選択されるジョイント訓練戦略を使用したモデルの各々の訓練の結果を示す。符号化器３００および復号器６００の訓練のさらなる結果（＋ＡＣｕｒｒ）は、方法７００の訓練の反カリキュラムバージョンを使用し、ここで、タスクタイプの初期サブセットは、質問応答（ＳＱｕＡＤ）訓練セットからの訓練サンプルのみを含む。図８が示すように、符号化器３００および復号器６００を使用する方法７００の反カリキュラム訓練は、これらのモデルの各々について、より良い全体的な複合結果（デカスコアによって測定されるように）をもたらす。

図１０は、いくつかの実施形態に従った、異なる訓練戦略に関する結果の簡略図である。より具体的には、図１０は、完全ジョイント（ＦｕｌｌｙＪｏｉｎｔ）戦略の使用、タスクタイプのサブセットがデータベースクエリ生成、感情分析、意味役割ラベル付け、関係抽出、目標指向対話、および代名詞解決に限定されるカリキュラムベースのアプローチ（Ｃｕｒｒｉｃｕｌｕｍ）を採用する方法７００の使用、タスクタイプのサブセットが質問応答に限定されたもの（ＳＱｕＡＤ）、質問応答、機械翻訳、および要約に限定されたもの（＋ＩＷＳＬＴ＋ＣＮＮ／ＤＭ）、質問応答、機械翻訳、要約、および自然言語推論に限定されたもの（＋ＭＮＬＩ）である反カリキュラムベースのアプローチ（ａｎｔｉ−ｃｕｒｒｉｃｕｌｕｍ）を採用する方法７００の使用での訓練符号化器３００と復号器６００との差異を示す。図に示すように、カリキュラムベースの方法７００のバリエーションは、完全ジョイント戦略ほどには機能しなかった。しかし、初期サブセットにおける質問応答訓練サンプルのみを使用した反カリキュラムアプローチ（ＳＱｕＡＤ）を有する方法７００の使用は、完全ジョイント戦略に対して全体的な改善を示し、タスクタイプの各々に対する改善またはわずかな劣化を示した。タスクタイプのサブセットが、他の作業タイプの訓練サンプルを含むように拡張されたときに、パフォーマンスの全体的な改善は発生しなかった。

図１１は、いくつかの実施形態による答えのためのワード選択のためのソースの簡略図である。より具体的には、図１１は、タスクタイプの各々について、コンテキスト、質問、または生成語彙のうち、どれがスイッチ６７０によって選択され、式２３および式２４で使用されるγ値およびλ値に基づいて、答えのために選択されるワードまたはトークンのソースとなる可能性がより高いかを示す。図示されるように、感情分析（ＳＳＴ）、自然言語推論（ＭＮＬＩ）、および代名詞解決（ＭＷＳＣ）タスクタイプは、質問が答えの分類オプションを含む傾向があるため、質問からのワードまたはトークンを好む。機械翻訳（ＩＷＳＬＴ）および目標指向対話（ＷＯＺ）タスクタイプは、コンテキストも質問も答えに望ましいワードを含まない傾向があるため、語彙からのワードまたはトークンを好む。

図１２Ａは、いくつかの実施形態による、新しい機械翻訳タスクタイプのための異なる訓練アプローチからの結果の簡略図である。より具体的には、図１２Ａは、ＩＷＳＬＴ英語からチェコへの訓練サンプルのみに対してランダムスタートから訓練された符号化器３００と復号器６００（曲線１２１０）と比較して、方法７００に従って予備訓練された符号化器３００と復号器６００を使用するＩＷＳＬＴ英語からチェコへの（ＩＷＳＬＴＥＮ−＞Ｃｓ）訓練セットからの訓練サンプルを使用する新しい機械翻訳タスクタイプに対する訓練の結果を示す。

図１２Ｂは、いくつかの実施形態による新しい分類タスクのための異なる訓練アプローチからの結果の簡略図である。より具体的には、図１２Ｂは、ＮＥＲ訓練サンプルのみに対してランダムスタートから訓練された符号化器３００と復号器６００（曲線１２４０）と比較して、方法７００に従って予備訓練された符号化器３００と復号器６００を使用する固有表現抽出（ＮＥＲ）タスクタイプ訓練サンプルに対する訓練の結果を示す。

図示されるように、方法７００（曲線１２１０および１２３０）を使用する予備訓練は、シングルタスク訓練（曲線１２２０および１２４０）よりも良好なパフォーマンス結果を提示し、方法７００のマルチタスク訓練を使用して、自然言語処理タスクの予備訓練を行い、追加的に、符号化器３００および復号器６００に基づく既に訓練されたネットワークを新たなタスクに対して適合させる利点を提示している。

計算デバイス２００のような計算デバイスのいくつかの例は、１つ以上のプロセッサ（例えば、プロセッサ２１０）によって動作されるとき、１つ以上のプロセッサが方法７００のプロセスを行う、および／または図３〜６の構造をエミュレートし得る実行可能コードを含む、非一時的な有形の機械可読媒体を含んでもよい。方法７００のプロセスおよび図３〜６のエミュレーションを含み得る機械可読媒体のいくつかの一般的な形態は、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、他の任意の磁気媒体、ＣＤ−ＲＯＭ、他の任意の光学媒体、パンチカード、紙テープ、穴のパターンを有する他の任意の物理媒体、ＲＡＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＦＬＡＳＨ−ＥＰＲＯＭ、他の任意のメモリチップまたはカートリッジ、および／またはプロセッサまたはコンピュータが読むように適合される任意の他の媒体を含んでもよい。

発明の態様、実施形態、実装、または用途を例示するこの説明および添付の図面は、限定的なものとして解釈されるべきではない。様々な機械的、組成的、構造的、電気的、および動作上の変更は、この説明および特許請求の範囲の精神および範囲から逸脱することなくなされてもよい。いくつかの例において、本開示の実施形態を不明瞭にしないために、周知の回路、構造、または技術が詳細に示されていないか、または説明されていない。２つ以上の図の同様の数字は、同じまたは類似の要素を表す。

この説明では、本開示と矛盾しないいくつかの実施形態を説明する特定の詳細が記載される。実施形態の完全な理解を提供するために、多数の具体的な詳細が記載される。しかしながら、いくつかの実施形態が、これらの特定の詳細の一部または全部なしに実施され得ることは、当業者には明らかであろう。本明細書に開示される特定の実施形態は、例示的であるが、限定的ではないことを意味する。当業者は、本明細書に具体的に説明されていないが、本開示の範囲および精神内にある他の要素を認識してもよい。追加的に、不必要な繰り返しを避けるために、１つの実施形態に関連して示され説明された１つ以上の特徴は、具体的に述べられていない限り、または１つ以上の特徴が実施形態を非機能的にする場合を除いて、他の実施形態に組み込まれてもよい。

例示的な実施形態が示され説明されたが、広範囲の修正、変更および置換が、前述の開示において考えられ、いくつかの例において、実施形態のいくつかの特徴は、他の特徴の対応する使用なしに使用され得る。当業者であれば、多くのバリエーション、代替案、および修正を認識するであろう。したがって、本発明の範囲は、以下の特許請求の範囲によってのみ限定されるべきであり、特許請求の範囲は、本明細書に開示された実施形態の範囲と一致する方式で広く解釈されることが適切である。

Claims

自然言語処理のためのシステムであって、
コンテキストからの第１のワードと質問からの第２のワードを並列して符号化するための多層符号化器と、
符号化された前記コンテキストおよび符号化された前記質問を復号するための多層復号器と、
前記復号器からの出力に基づいて、前記コンテキストからの前記第１のワード、前記質問からの前記第２のワード、および語彙の第３のワードに対する分布を生成するためのポインタ生成器と、
スイッチであって、
前記コンテキストからの前記第１のワードに対する前記分布、前記質問からの前記第２のワードに対する前記分布、および前記語彙の前記第３のワードに対する前記分布の重みを生成し、
前記コンテキストからの前記第１のワードに対する前記分布、前記質問からの前記第２のワードに対する前記分布、および前記語彙の前記第３のワードに対する前記分布の前記重みに基づいて、複合分布を生成し、
前記複合分布を使用して、答えに含めるワードを選択するためのスイッチと、を含む、システム。
前記コンテキストおよび前記質問は、質問応答、機械翻訳、文書要約、データベースクエリ生成、感情分析、自然言語推論、意味役割ラベル付け、関係抽出、目標指向対話、および代名詞解決から選択される自然言語処理タスクタイプに対応する、請求項１に記載のシステム。
前記多層符号化器は、
前記コンテキスト内の前記第１のワードと前記質問内の前記第２のワードとの間のコアテンションを決定するためのコアテンションネットワークと、
前記コアテンションネットワークからの出力を圧縮するための並列双方向長短期記憶と、を含む、請求項１または２に記載のシステム。
前記多層符号化器は、
前記コンテキストにわたるアテンションと前記質問にわたるアテンションを並列して生成するための並列セルフアテンション符号化器と、
生成された前記アテンションに基づいて、前記コンテキストおよび前記質問の最終符号化を並列して生成するための並列双方向長短期記憶と、を含む、請求項１〜３のいずれか一項に記載のシステム。
前記多層符号化器は、
前記コンテキストからの前記第１のワードと前記質問からの前記第２のワードを並列して符号化するための並列符号化層と、
前記コンテキストからの前記第１のワードと前記質問からの前記第２のワードの前記符号化を並列して投影するための並列線形ネットワークと、
前記符号化の前記投影をさらに符号化するための双方向長短期記憶と、を含む、請求項１〜４のいずれか一項に記載のシステム。
前記多層復号器は、
前記答えの中間バージョンを符号化し埋め込むための符号化および埋め込み層と、
前記答えの符号化および埋め込まれた前記中間バージョンと前記コンテキストの最終符号化との間のアテンションを生成するためのセルフアテンション復号器と、
前記セルフアテンション復号器の出力から中間復号器状態を生成するための長短期記憶と、
前記コンテキストの最終符号化、前記質問の最終符号化、および前記中間復号器状態に基づいて、コンテキストおよび質問復号器状態を生成するためのコンテキストおよび質問アテンションネットワークと、を含む、請求項１〜５のいずれか一項に記載のシステム。
前記システムは、前記システムが処理するように設計されたタスクタイプの完全セットに対して訓練される前に、タスクタイプのサブセットに対して訓練される、請求項１〜６のいずれか一項に記載のシステム。
前記タスクタイプの前記サブセットは、カリキュラム戦略に従って選択される、請求項７に記載のシステム。
前記タスクタイプの前記サブセットは、反カリキュラム戦略に従って選択される、請求項７に記載のシステム。
自然言語処理のための方法であって、
多層符号化器を使用して、コンテキストからの第１のワードと質問からの第２のワードを並列して符号化することと、
多層復号器を使用して、符号化された前記コンテキストおよび符号化された前記質問を復号することと、
前記復号器からの出力に基づいて、前記コンテキストからの前記第１のワード、前記質問からの前記第２のワード、および語彙の第３のワードに対する分布を生成することと、
前記コンテキストからの前記第１のワードに対する前記分布、前記質問からの前記第２のワードに対する前記分布、および前記語彙の前記第３のワードに対する前記分布の重みを生成することと、
前記コンテキストからの前記第１のワードに対する前記分布、前記質問からの前記第２のワードに対する前記分布、および前記語彙の前記第３のワードに対する前記分布の前記重みに基づいて、複合分布を生成することと、
前記複合分布を使用して、答えに含めるワードを選択することと、を含む、方法。
前記コンテキストおよび前記質問は、質問応答、機械翻訳、文書要約、データベースクエリ生成、感情分析、自然言語推論、意味役割ラベル付け、関係抽出、目標指向対話、および代名詞解決から選択される自然言語処理タスクタイプに対応する、請求項１０に記載の方法。
前記コンテキスト内の前記第１のワードと前記質問内の前記第２のワードとの間のコアテンションを決定することをさらに含む、請求項１０または１１に記載の方法。
前記コンテキストにわたるアテンションと前記質問にわたるアテンションを並列して生成することと、
前記アテンションに基づいて、前記コンテキストおよび前記質問の最終符号化を並列して生成することと、をさらに含む、請求項１０〜１２のいずれか一項に記載の方法。
前記コンテキストからの前記第１のワードと前記質問からの前記第２のワードを並列して符号化することと、
前記コンテキストからの前記第１のワードと前記質問からの前記第２のワードの前記符号化を並列して投影することと、
前記符号化の前記投影をさらに符号化することと、をさらに含む、請求項１０〜１３のいずれか一項に記載の方法。
前記答えの中間バージョンを符号化し埋め込むことと、
前記答えの符号化および埋め込まれた前記中間バージョンと前記コンテキストの最終符号化との間のアテンションを生成することと、
生成された前記出力から中間復号器状態を生成することと、
前記コンテキストの最終符号化、前記質問の最終符号化、および前記中間復号器状態に基づいて、コンテキストおよび質問復号器状態を生成することと、をさらに含む、請求項１０〜１４のいずれか一項に記載の方法。
前記多層符号化器および前記多層復号器をタスクタイプの完全セットに対して訓練する前に、前記多層符号化器および前記多層復号器をタスクタイプのサブセットに対して訓練することをさらに含む、請求項１０〜１５のいずれか一項に記載の方法。
前記タスクタイプのサブセットは、カリキュラム戦略に従って選択される、請求項１６に記載の方法。
前記タスクタイプのサブセットは、反カリキュラム戦略に従って選択される、請求項１６に記載の方法。
コンピュータデバイスに関連付けられた１つ以上のプロセッサによって実行されるときに、前記１つ以上のプロセッサが方法を行うように適合された実行可能コードを含む非一時的な機械可読媒体であって、前記方法は、
多層符号化器を使用して、コンテキストからの第１のワードと質問からの第２のワードを並列して符号化することと、
多層復号器を使用して、符号化された前記コンテキストおよび符号化された前記質問を復号することと、
前記復号器からの出力に基づいて、前記コンテキストからの前記第１のワード、前記質問からの前記第２のワード、および語彙の第３のワードに対する分布を生成することと、
前記コンテキストからの前記第１のワードに対する前記分布、前記質問からの前記第２のワードに対する前記分布、および前記語彙の前記第３のワードに対する前記分布の重みを生成することと、
前記コンテキストからの前記第１のワードに対する前記分布、前記質問からの前記第２のワードに対する前記分布、および前記語彙の前記第３のワードに対する前記分布の前記重みに基づいて、複合分布を生成することと、
前記複合分布を使用して、答えに含めるワードを選択することと、を含む、非一時的な機械可読媒体。
前記コンテキストおよび前記質問は、質問応答、機械翻訳、文書要約、データベースクエリ生成、感情分析、自然言語推論、意味役割ラベル付け、関係抽出、目標指向対話、および代名詞解決から選択される自然言語処理タスクタイプに対応する、請求項１９に記載の非一時的な機械可読媒体。