[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

2023-05-02

メモ

https://arxiv.org/pdf/2305.00833.pdf

Learning to Reason and Memorize with Self-Notes

大規模な言語モデルは、限られたコンテキスト メモリと多段階の推論に苦労することが示されています

モデル自己メモを取ることを可能にすることにより、これらの問題の両方を解決するための簡単方法提案します。

->セルフメモってなんだ?

最近スクラッチパッド アプローチとは異なり、モデルはいつでも入力コンテキストから逸脱して明示的に考えることができます

これにより、モデルコンテキストを読み取りながら情報を想起し、オンザフライで推論を実行できるため、メモリ拡張され、複数ステップの推論が可能になります

複数タスクに関する私たち実験は、推論時に自己メモを取ることにより、トレーニング設定からより長く複雑なインスタンス私たち方法がうまく一般化できることを示しています.

1. イントロダクション

Transformers (Vaswani et al., 2017) および同様のバリアントは、シーケンスベースタスクで印象的な結果を示しています

特にGPT-3 (Brown et al., 2020) などの大規模な言語モデル (LM) はトランスフォーマー使用し、質問応答 (QA) などのさまざまな NLP タスク解決できます

LM を QA タスク使用すると、図 1 (上) に示すように、事実情報質問を含むコンテキスト プロンプトが与えられ、モデルが直接回答を生成します。 ただし、この自己回帰の「ワンステップ」アプローチは、複数ステップの推論タスクと格闘します (Austin et al., 2021; Press et al., 2022a; Creswell et al., 2023)。 これは、バニラ LM が各トークンに対して固定された計算を行い、現在コンテキストに応じてさらに「考える」オプションがないという事実から生じると主張します。 (2021) 図 1 (中央) に示すように、モデル質問に答える前に推論トークンを生成できるようにするスクラッチパッドの使用提案しましたが、完全なコンテキスト質問を読み取った後です。 同様に、一連の思考を促す方法 (Wei et al., 2022; Zelikman*Equal Contributor 1Meta AI. への対応: JackLanchantin <jacklanchantin@meta.com>, Sainbayar Sukhbaatar<sainbar@meta.com>.et al., 2022; Huang et al., 2022) は、モデルをプッシュして、一度に 1 ステップずつ答えを説明し、より首尾一貫した最終的な答えに導きます非線形タスク (Fan et al., 2020)、LSTM (Hochreiter and Schmidhuber, 1997) などの再帰型先行モデルが十分に備えられているもの。 Fan et al., 2020; Ju et al., 2022; Hutchins et al., 2022)、しかし、それでも与えられたプロンプトに対して一定量計算使用します。 推論と状態追跡メモリがより扱いやすくなります私たち方法である「Self-Notes」により、LM はオンザフライコンテキスト プロンプトから逸脱し、明示的な推論トークンを生成できます。 図 1 (下) に示すように、スクラッチパッドとは異なり、モデルは生成されたトークン入力コンテキストインターリーブできます。 このようなセルフ ノートは、明示的な中間推論ステップ状態追跡用のメモリの両方として機能します。 具体的には、推論ステップで 2 つの事実を組み合わせる必要がある場合、結果として得られる推論をセルフ ノートに書き込んで、将来の推論に使用することができます。したがって、中間推論ステップとして機能します。 たとえば、「アリスは箱を持っています」と「アリス公園にいます」が与えられた場合、「箱は公園にある」と推測してそれを自己メモに書き、将来のステートメント「鍵は in the box」で「鍵は公園にある」と結論付ける。 さらに、コンテキストトラバースしながらモデルエンティティの最新の状態を新しいトークンとして書き込むことができるため、SelfNoteワーキング メモリ形式として機能できます。 たとえば、プログラミング環境では、最初に x=5 を想定し、次に x を 1 ずつ増やします。モデルが x=6 をセルフ ノートとして正しく記述していると仮定すると、元の x=5 ステートメントをそのコンテキストから安全に削除できますモデルが x の値について問い合わせられた場合モデルは既に答えを持っています

私たち提案した方法と、スクラッチパッド (Nye et al., 2021)、思考連鎖 (Wei et al., 2022)、または内部独白 (Huang et al., 2022) などの以前の研究との主な違いは、モデル許可することです。 各コンテキストステートメントを順番に読み取るときに、複数メモを明示的に書き出す。 InarXiv:2305.00833v1 [cs.LG] 2023 年 5 月 1 日図 1: (上) ベースライン バニラ LM は、コンテキスト (C) と質問 (Q) が与えられると、回答 (A) を直接生成します。 (中央)スクラッチパッドを使用すると、モデル質問に答える前に中間推論トークンを生成できますが、コンテキストが表示された後です。 (下) 私たちの Self-Notes メソッドにより、モデルはいつでも推論してメモを取るために入力コンテキストから逸脱することができます。言い換えれば、私たちアプローチは、将来の推論に役立つ可能性のある情報コンテキストを補強するスクラッチパッドのインライン形式です。 私たちはこれを、人間が読む方法と同様に、明示的に述べられていない情報を推測するための行間の読み取り (および書き込み) の形式と見なします (van den Broek et al., 2009)。 以前の方法では、モデルが完全なコンテキストを読み取った後に反芻することができ、読み取っている間ではなく、最後に大量の推論を行うように強制されます

さらに、そのようなポストコンテキスト推論は、推論が開始される前に以前のコンテキストトークンモデルコンテキストウィンドウからすでに出ている可能性があるため、メモリとして機能できません。 たとえば、数週間または数か月の対話履歴を持つインテリジェント エージェントを考えてみましょう。 直観的には、最初から考え直すことなく、以前の対話で行った推論ステップ使用できることは理にかなっています自己メモを生成するようにモデルに教えるために、トレーニング中に、入力の一部としてグラウンド トゥルー自己メモ言語モデル提供することを検討します。 コンテクスト。 推論中に、トレーニング中に学習した特別トークンを生成する場合モデルコンテキストから逸脱し、SelfNote を生成できますモデルが Self-Note の生成を完了すると、元のコンテキスト トークンが引き続き供給されます。 これにより、モデル最後だけでなく、入力トークンの処理中にメモリを推論および作成できます。 また、Self-Notes をトレーニングするための半教師ありおよび教師なしの方法提案します。多段階の推論と状態追跡を評価するように設計された 5 つのテキスト データセットでこの方法テストします。 , 2020; Anil et al., 2022)、および 2 つの現実世界チェス ゲーム タスク (Toshniwal et al., 2022)。 私たち方法は、明示的なメモ取りを行わない微調整された言語モデルスクラッチパッドのベースラインの両方よりも優れています.2. 方法シーケンス内の次のトークン予測する自己回帰変換モデル M を考えてみましょう

記事への反応(ブックマークコメント)

ログイン ユーザー登録
ようこそ ゲスト さん