マイクロソフトAI と清華大学の研究者が、Differential Transformer (DIFF Transformer) という大規模言語モデルの性能向上を目的とした新しいアーキテクチャを発表した。同モデルでは、モデルによるコンテキスト処理の微調整や無関係な情報によるハルシネーションを最小限化することで、アテンション・メカニズムが向上している。
DIFF Transformerの主な特徴は、その差分アテンション・メカニズムである。2つの別々のアテンションマップを比較してアテンションコンピューティングを行うことで、モデルが関連する入力部分により効果的にフォーカスできるようになっている。こうした調整により、質問応答やテキスト要約のようなタスクにおいて特に精度が向上している。
また、このアーキテクチャでスケーラビリティが向上し、少ない学習リソースでも大型モデルと同等の性能が実現した。この効率化はより長いシーケンスデータを処理に効果的で、一度に大量の情報処理を必要とするタスクに適したモデルとなっている。
実験によると、DIFF Transformerは、言語モデリングや情報検索などのタスクにおいて、一貫して従来のTransformerを凌駕しており、大規模言語モデル(LLM)の性能と効率の向上を実現している。DIFF Transformerの設計で、ロングコンテキストモデリング、キー情報検索、ハルシネーションの軽減、文脈内学習などの実用面が強化されると同時に、アクティベーションの外れ値も減少している。こうした改善により、多様なデータセットにおける精度が向上し、また入力順序の変化に対する堅牢制も高まるため、DIFF Transformerはリソースの限られた環境により適したモデルとなっている。
下記の表では、DIFF TransformerのゼロショットモデルとOpenLLaMA-3B-v2、StableLM-base-alpha-3B-v2、StableLM-3B-4E1TなどのTransformerの学習済みモデルとで性能を比較した。今回の実験では、DIFF Transformerが他の学習済みモデルを上回るか同等の結果を出している。
愛好家や専門家は、実世界での応用に関心を示しており、特に予測精度確保のために計算資源の増大が見込まれるシナリオへ注目が集まっている。
Data ScienceのKuldeep Singh氏は、Xに以下のように投稿している。
Google社のTransformerが "Attention is All You Need(注意こそはすべて)"と喧伝されたのに対し、Microsoft社と精華大学はDIFF Transformerを"Sparse-Attention is all you need(注意の効率化こそはすべて)"と打ち出しています。
AI研究者のManu Otel氏は、以下のように述べているいる。
ただ、Diff Transformerには小さなトレードオフがあります。キーヘッドが2倍になるのです。
Diff Transformerを巡る議論で、コンピューティングコストと予測精度のトレードオフが浮き彫りになっている。このモデルでは、アテンション処理を2回行う必要から学習と推論の両方で遅れが生じる可能性がある。だが、2回の処理を経ることで、より少ない反復学習やデータからでも良い結果が得られるかについては、推測が飛び交っている。