[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

【お知らせ】プログラミング記事の投稿はQiitaに移行しました。

AIで論文を読む: DeepSeek-V3

DeepSeek-V3 に関する論文を Gemini Paper Summarizer で要約しました。

【注意】AI の説明には誤りが含まれる可能性があり、正確さは保証できません。詳細は原論文を確認してください。

DeepSeek の要約シリーズです。

  1. AIで論文を読む: DeepSeek LLM
  2. AIで論文を読む: DeepSeek-V2
  3. AIで論文を読む: DeepSeek-Coder-V2
  4. AIで論文を読む: DeepSeek-V3 ← この記事

目次

Abstract

我々はDeepSeek-V3を発表する。これは、トークンごとに37Bが活性化される671Bの総パラメータを持つ強力な混合エキスパート(MoE)言語モデルである。効率的な推論と費用対効果の高いトレーニングを実現するために、DeepSeek-V3は、DeepSeek-V2で徹底的に検証されたマルチヘッド潜在アテンション(MLA)およびDeepSeekMoEアーキテクチャを採用している。さらに、DeepSeek-V3は、負荷分散のための補助損失フリー戦略を先駆けて採用し、より強力なパフォーマンスのためにマルチトークン予測トレーニング目標を設定している。我々は、14.8兆の多様で高品質なトークンでDeepSeek-V3を事前トレーニングし、その後、その能力を最大限に引き出すために教師ありファインチューニングと強化学習の段階を経る。包括的な評価により、DeepSeek-V3は他のオープンソースモデルを凌駕し、主要なクローズドソースモデルに匹敵するパフォーマンスを達成することが明らかになった。その優れたパフォーマンスにもかかわらず、DeepSeek-V3の完全なトレーニングに必要なのはわずか278.8万H800 GPU時間である。さらに、そのトレーニングプロセスは非常に安定している。トレーニングプロセス全体を通して、回復不能な損失スパイクやロールバックは発生しなかった。モデルのチェックポイントは、https://github.com/deepseek-ai/DeepSeek-V3 で入手可能である。

概要

DeepSeek-V3は、671Bパラメータを持つMoEモデルで、効率的な推論とコスト効率の高い学習のためにMLAとDeepSeekMoEアーキテクチャを採用し、補助損失なしの負荷分散戦略とマルチトークン予測訓練目標を導入し、14.8Tトークンで事前学習後、教師ありファインチューニングと強化学習を行い、オープンソースモデルを凌駕し、クローズドソースモデルに匹敵する性能を達成した。

問題意識

本論文は、大規模言語モデル(LLM)の性能向上とコスト効率化という2つの課題に取り組むことを目的としている。具体的には、以下の点に焦点を当てている。

  1. モデルアーキテクチャの効率化:

    • 推論効率を向上させるためのMulti-head Latent Attention (MLA) の採用
    • コスト効率の高い学習のためのDeepSeekMoEアーキテクチャの採用
    • 負荷分散のための補助損失なし戦略の導入
    • モデル性能を向上させるためのマルチトークン予測学習目標の設定
  2. 学習効率の向上:

    • FP8混合精度学習フレームワークの設計と検証
    • ノード間MoE学習における通信ボトルネックの克服
    • メモリフットプリントの最適化による大規模モデル学習の実現
  3. モデルの能力向上:

    • 大量の高品質なトークンを用いた事前学習
    • コンテキスト長拡張技術の導入
    • 教師ありファインチューニング(SFT)と強化学習(RL)によるモデルの調整
    • DeepSeek-R1モデルからの推論能力の蒸留
  4. モデル評価:

これらの課題に取り組むことで、本論文は、高性能でありながらコスト効率の高い、オープンソースのLLMであるDeepSeek-V3を開発することを目指す。

手法

本論文では、DeepSeek-V3という大規模言語モデル(LLM)を提案しており、そのアーキテクチャ、学習インフラ、事前学習、および事後学習について詳しく説明する。主な提案手法は以下の通りである。

  1. アーキテクチャ:

    • Multi-head Latent Attention (MLA) を採用し、効率的な推論を実現。
    • DeepSeekMoE アーキテクチャを導入し、コスト効率の高い学習を可能に。
    • 補助損失なしの負荷分散戦略を導入し、負荷分散によるモデル性能の低下を抑制。
    • マルチトークン予測(MTP)を学習目標として設定し、モデル性能を向上。
  2. 学習インフラ:

    • DualPipe アルゴリズムを設計し、効率的なパイプライン並列処理を実現。
    • クロスノード全対全通信カーネルを開発し、InfiniBand(IB)とNVLinkの帯域幅を最大限に活用。
    • FP8混合精度学習フレームワークを設計し、大規模モデルでのFP8学習の有効性を検証。
    • メモリフットプリントを最適化し、テンソル並列処理を使用せずにDeepSeek-V3を学習。
  3. 事前学習:

    • 14.8兆トークンの高品質で多様なデータセットでDeepSeek-V3を事前学習。
    • 2段階のコンテキスト長拡張を実施し、最大コンテキスト長を128Kに拡張。
  4. 事後学習:

    • 教師ありファインチューニング(SFT)と強化学習(RL)を実施し、モデルを人間選好に合わせ、潜在能力を解放。
    • DeepSeek-R1シリーズのモデルから推論能力を蒸留し、モデルの性能を向上。

これらの手法を組み合わせることで、DeepSeek-V3は既存のオープンソースモデルを凌駕し、主要なクローズドソースモデルに匹敵する性能を達成する。また、学習コストも経済的であり、効率的な学習を実現する。

新規性

DeepSeek-V3論文の新規性は以下の通りである。

  1. アーキテクチャにおける革新的な負荷分散戦略と学習目標:

    • DeepSeek-V2の効率的なアーキテクチャを基盤とし、負荷分散のための補助損失を必要としない戦略を導入。これにより、負荷分散によるモデル性能の低下を抑制する。
    • 複数トークン予測(MTP)学習目標を導入し、モデル性能の向上を実証。MTPは推論の高速化のための投機的デコーディングにも利用可能。
  2. 究極の学習効率の追求:

    • FP8混合精度学習フレームワークを設計し、大規模モデルでのFP8学習の実現可能性と有効性を検証。
    • アルゴリズムフレームワーク、ハードウェアの協調設計により、ノード間MoE学習における通信ボトルネックを克服し、ほぼ完全な計算と通信のオーバーラップを達成。これにより学習効率を大幅に向上させ、モデルサイズをさらに拡大することが可能になった。
    • 266.4万H800 GPU時間という経済的なコストで、14.8TトークンでのDeepSeek-V3の事前学習を完了し、現在最も強力なオープンソースのベースモデルを生成。事前学習後の追加学習段階では、0.1M GPU時間しか必要としない。
  3. DeepSeek-R1からの知識蒸留:

    • DeepSeek-R1シリーズのモデルから、特にChain-of-Thought(CoT)モデルから推論能力を蒸留する革新的な方法論を導入。このパイプラインは、DeepSeek-V3にR1の検証と反省パターンを組み込み、推論性能を向上させる。同時に、DeepSeek-V3の出力スタイルと長さを制御。

これらの新規性により、DeepSeek-V3は、オープンソースモデルの能力を大きく前進させ、クローズドソースモデルに匹敵する性能を達成している。また、学習コストを大幅に削減し、より大規模なモデルの開発を可能にしている。

章構成

  • 1 Introduction
  • 2 Architecture
    • 2.1 Basic Architecture
      • 2.1.1 Multi-Head Latent Attention
      • 2.1.2 DeepSeekMoE with Auxiliary-Loss-Free Load Balancing
    • 2.2 Multi-Token Prediction
  • 3 Infrastructures
    • 3.1 Compute Clusters
    • 3.2 Training Framework
      • 3.2.1 DualPipe and Computation-Communication Overlap
      • 3.2.2 Efficient Implementation of Cross-Node All-to-All Communication
      • 3.2.3 Extremely Memory Saving with Minimal Overhead
    • 3.3 FP8 Training
      • 3.3.1 Mixed Precision Framework
      • 3.3.2 Improved Precision from Quantization and Multiplication
      • 3.3.3 Low-Precision Storage and Communication
    • 3.4 Inference and Deployment
      • 3.4.1 Prefilling
      • 3.4.2 Decoding
    • 3.5 Suggestions on Hardware Design
      • 3.5.1 Communication Hardware
      • 3.5.2 Compute Hardware
  • 4 Pre-Training
    • 4.1 Data Construction
    • 4.2 Hyper-Parameters
    • 4.3 Long Context Extension
    • 4.4 Evaluations
      • 4.4.1 Evaluation Benchmarks
      • 4.4.2 Evaluation Results
    • 4.5 Discussion
      • 4.5.1 Ablation Studies for Multi-Token Prediction
      • 4.5.2 Ablation Studies for the Auxiliary-Loss-Free Balancing Strategy
      • 4.5.3 Batch-Wise Load Balance VS. Sequence-Wise Load Balance
  • 5 Post-Training
    • 5.1 Supervised Fine-Tuning
    • 5.2 Reinforcement Learning
      • 5.2.1 Reward Model
      • 5.2.2 Group Relative Policy Optimization
    • 5.3 Evaluations
      • 5.3.1 Evaluation Settings
      • 5.3.2 Standard Evaluation
      • 5.3.3 Open-Ended Evaluation
      • 5.3.4 DeepSeek-V3 as a Generative Reward Model
    • 5.4 Discussion
      • 5.4.1 Distillation from DeepSeek-R1
      • 5.4.2 Self-Rewarding
      • 5.4.3 Multi-Token Prediction Evaluation
  • 6 Conclusion, Limitations, and Future Directions
  • A Contributions and Acknowledgments
  • B Ablation Studies for Low-Precision Training
    • B.1 FP8 v.s. BF16 Training
    • B.2 Discussion About Block-Wise Quantization
  • C Expert Specialization Patterns of the 16B Aux-Loss-Based and Aux-Loss-Free Models

1 Introduction

近年、大規模言語モデル(LLM)は急速な反復と進化を遂げ、人工汎用知能(AGI)へのギャップを縮めている。クローズドソースモデルに加え、DeepSeekシリーズ、LLaMAシリーズ、Qwenシリーズ、Mistralシリーズなどのオープンソースモデルも著しい進歩を遂げ、クローズドソースモデルとの差を埋めようとしている。オープンソースモデルの能力をさらに向上させるため、DeepSeek-V3を導入する。これは、トークンごとに37Bがアクティブ化される671Bパラメータの混合エキスパート(MoE)モデルである。

DeepSeek-V3は、効率的な推論のためにMulti-head Latent Attention(MLA)を、費用対効果の高いトレーニングのためにDeepSeekMoEアーキテクチャを採用している。これらのアーキテクチャはDeepSeek-V2で検証されており、効率的なトレーニングと推論を実現しながら、堅牢なモデルパフォーマンスを維持できることが示されている。さらに、DeepSeek-V3は、ロードバランシングのための補助損失なし戦略と、評価ベンチマークで全体的なパフォーマンスを向上させるマルチトークン予測トレーニング目標を導入している。

効率的なトレーニングを実現するため、FP8混合精度トレーニングをサポートし、トレーニンフレームワークの包括的な最適化を実施している。低精度トレーニングは効率的なトレーニングのための有望なソリューションであり、ハードウェア機能の進歩と密接に関連している。本研究では、FP8混合精度トレーニンフレームワークを導入し、大規模モデルでその有効性を検証する。FP8計算とストレージのサポートにより、トレーニングの高速化とGPUメモリ使用量の削減を実現する。トレーニンフレームワークとして、効率的なパイプライン並列処理のためのDualPipeアルゴリズムを設計し、計算と通信のオーバーラップにより、トレーニング中のほとんどの通信を隠蔽する。さらに、InfiniBand(IB)とNVLinkの帯域幅を最大限に活用する効率的なクロスノード全対全通信カーネルを開発し、メモリフットプリントを綿密に最適化し、高価なテンソル並列処理を使用せずにDeepSeek-V3をトレーニングすることを可能にする。

DeepSeek-V3は、14.8Tの高品質で多様なトークンで事前トレーニングされる。トレーニングプロセスは非常に安定しており、回復不能な損失スパイクやロールバックは発生しなかった。次に、DeepSeek-V3のコンテキスト長を2段階で拡張する。最初の段階では、最大コンテキスト長を32Kに拡張し、2番目の段階では128Kに拡張する。その後、DeepSeek-V3のベースモデルに対して、教師ありファインチューニング(SFT)と強化学習(RL)を含むポストトレーニングを実施し、人間の好みに合わせ、その潜在能力をさらに引き出す。ポストトレーニング段階では、DeepSeek-R1シリーズのモデルから推論能力を蒸留し、モデルの精度と出力スタイル、長さを慎重に維持する。

DeepSeek-V3のトレーニングコストは、H800 GPUのレンタル価格を1時間あたり2ドルと仮定すると、合計で557.6万ドルとなる。このコストには、DeepSeek-V3の公式トレーニングのみが含まれており、アーキテクチャアルゴリズム、データに関する事前の研究やアブレーション実験に関連するコストは含まれていない。

主な貢献は以下の通りである。

  • 効率的なロードバランシングのための補助損失なし戦略の導入。
  • モデルのパフォーマンスを向上させるマルチトークン予測(MTP)目標の調査。
  • 大規模モデルでのFP8トレーニングの実現可能性と有効性の検証。
  • アルゴリズムフレームワーク、ハードウェアの共同設計による、クロスノードMoEトレーニングにおける通信ボトルネックの克服。
  • 14.8TトークンでDeepSeek-V3の事前トレーニングを完了し、最強のオープンソースベースモデルを生成。
  • DeepSeek-R1から推論能力を蒸留する革新的な方法論の導入。

DeepSeek-V3は、一連のベンチマークで評価され、特にコードと数学において、現在利用可能な最強のオープンソースベースモデルとして浮上している。チャットバージョンも、他のオープンソースモデルを上回り、GPT-4oやClaude-3.5-Sonnetなどの主要なクローズドソースモデルに匹敵するパフォーマンスを達成している。

2 Architecture

2.1 基本アーキテクチャ

DeepSeek-V3は、Transformerアーキテクチャを基盤とし、効率的な推論のためにMulti-head Latent Attention (MLA)を、費用対効果の高い学習のためにDeepSeekMoEを採用する。DeepSeek-V2で検証済みのこれらのアーキテクチャに加え、DeepSeek-V3では補助損失なしの負荷分散を導入する。

2.1.1 Multi-Head Latent Attention (MLA)

MLAは、注意機構におけるキーと値のキャッシュを削減するために、低ランクの結合圧縮を利用する。具体的には、キーと値の圧縮された潜在ベクトルを導入し、キャッシュに必要なメモリを削減する。クエリについても同様の低ランク圧縮を行い、学習中の活性化メモリを削減する。最終的に、注意クエリ、キー、値が組み合わされて、最終的な注意出力を生成する。

2.1.2 DeepSeekMoE with Auxiliary-Loss-Free Load Balancing

DeepSeekMoEアーキテクチャは、Feed-Forward Networks (FFNs)に適用され、より細かい粒度のエキスパートを使用し、一部のエキスパートを共有するように分離する。負荷分散のために、補助損失なしの負荷分散戦略が導入され、各エキスパートにバイアス項を追加し、負荷が過剰または不足している場合にバイアス項を調整する。これにより、純粋な補助損失による負荷分散よりも優れた性能を実現する。さらに、シーケンスごとの補助損失も導入し、単一シーケンス内の極端な不均衡を防ぐ。

2.2 Multi-Token Prediction

DeepSeek-V3は、Multi-Token Prediction (MTP)目標を採用し、各位置で複数の未来のトークンを予測する。MTPモジュールは、連続した予測を行い、各予測深度で完全な因果関係を維持する。MTPモジュールは、埋め込み層、出力ヘッド、Transformerブロック、射影行列で構成される。MTPのトレーニングでは、クロスエントロピー損失を使用し、最終的なトレーニング目標として、各予測深度にわたるMTP損失の平均を使用する。推論時には、MTPモジュールは破棄されるが、推論の高速化のために投機的デコーディングに使用できる。

3 Infrastructures

3.1 コンピューティングクラスタ

DeepSeek-V3 は、2048 個の NVIDIA H800 GPU を搭載したクラスタで学習される。各ノードは 8 個の GPU を NVLink および NVSwitch で接続し、ノード間は InfiniBand (IB) で接続される。

3.2 学習フレームワーク

DeepSeek-V3 の学習は、効率的かつ軽量な HAI-LLM フレームワークによってサポートされる。16-way パイプライン並列処理 (PP)、64-way エキスパート並列処理 (EP)、および ZeRO-1 データ並列処理 (DP) を適用する。

3.2.1 DualPipe と計算・通信のオーバーラップ

DualPipe アルゴリズムは、パイプラインバブルを減らし、フォワードとバックワードの計算・通信フェーズをオーバーラップさせることで、クロスノードのエキスパート並列処理による通信オーバーヘッドを解消する。

3.2.2 クロスノード All-to-All 通信の効率的な実装

効率的なクロスノード All-to-All 通信カーネルを開発し、IB および NVLink の帯域幅を最大限に活用し、通信専用のストリーミングマルチプロセッサ (SM) を節約する。

3.2.3 最小限のオーバーヘッドでのメモリ節約

RMSNorm および MLA アッププロジェクションの再計算、CPU での指数移動平均 (EMA) の保持、マルチトークン予測のための埋め込みと出力ヘッドの共有など、トレーニング中のメモリフットプリントを削減する。

3.3 FP8 トレーニン

FP8 データ形式を利用した、きめ細かい混合精度フレームワークを提案する。

3.3.1 混合精度フレームワーク

計算密度の高い GEMM 演算を FP8 精度で実行し、一部の演算を元のデータ形式で保持することで、トレーニング効率と数値安定性のバランスを取る。マスターウェイト、ウェイト勾配、およびオプティマイザ状態を高精度で格納する。

3.3.2 量子化と乗算による精度の向上

量子化エラーを軽減するため、きめ細かい量子化手法を提案する。また、FP8 GEMM の精度を向上させるため、CUDA コアへのプロモーション戦略を採用する。さらに、より高い精度を得るために、すべてのテンソルで E4M3 形式を採用する。

3.3.3 低精度ストレージと通信

キャッシュされたアクティベーションオプティマイザの状態を低精度形式に圧縮することで、メモリ消費量と通信オーバーヘッドを削減する。

3.4 推論とデプロイメント

オンラインサービスと高スループットの両方を確保するため、プリフィルとデコードの段階を分離するデプロイメント戦略を採用する。

3.4.1 プリフィル

プリフィル段階では、4 ノード 32 GPU を最小デプロイメントユニットとし、TP4 と SP を組み合わせた DP8 を使用する。MoE 部分には 32-way EP を使用する。また、冗長エキスパートのデプロイメント戦略を導入し、負荷分散を実現する。

3.4.2 デコード

デコード段階では、共有エキスパートをルーティングされたものとして扱い、各トークンは 9 つのエキスパートを選択する。40 ノード 320 GPU を最小デプロイメントユニットとし、TP4 と SP を組み合わせた DP80 を使用する。MoE 部分には EP320 を使用し、各 GPU は 1 つのエキスパートのみをホストする。

3.5 ハードウェア設計に関する提案

All-to-All 通信と FP8 トレーニングの実装に基づいて、AI ハードウェアベンダーへのチップ設計に関する提案を行う。

3.5.1 通信ハードウェア

SM から通信タスクをオフロードし、IB と NVLink のネットワークを統合するハードウェアを開発することを推奨する。

3.5.2 コンピューティングハードウェア

テンソルコアでの FP8 GEMM の累積精度を向上させ、タイルおよびブロック単位の量子化をサポートし、オンライン量子化をサポートし、転置された GEMM 操作をサポートすることを推奨する。

4 Pre-Training

DeepSeek-V3 の事前学習に関するセクションでは、データ構築、ハイパーパラメータ、長文脈拡張、評価、およびアブレーション研究について詳述する。

4.1 データ構築

DeepSeek-V2 と比較して、数学とプログラミングのサンプル比率を向上させ、英語と中国語以外の多言語対応を拡大した。データ処理パイプラインを洗練し、冗長性を最小限に抑えつつ多様性を維持した。Ding らの手法に触発され、データ整合性を保つためにドキュメントパッキングを実装したが、学習中にサンプル間の注意マスクは組み込まなかった。DeepSeek-V3 の学習コーパスは、トークナイザーにおいて 14.8T の高品質で多様なトークンで構成される。

DeepSeekCoder-V2 の学習プロセスで観察された、Fill-in-Middle (FIM) 戦略が次トークン予測能力を損なうことなく、文脈的手がかりに基づいて中間テキストを正確に予測することを可能にすることから、DeepSeek-V3 の事前学習にも FIM 戦略を組み込んだ。具体的には、Prefix-Suffix-Middle (PSM) フレームワークを使用して、データを <|fim_begin|>fpre<|fim_hole|>fsuf<|fim_end|>fmiddle<|eos_token|> のように構造化した。この構造は、ドキュメントレベルでプリパッキングプロセスの一部として適用され、FIM 戦略は PSM フレームワークと一貫して 0.1 の割合で適用される。

DeepSeek-V3 のトークナイザーは、拡張された 128K トークン語彙を持つバイトレベル BPE を採用している。トークナイザーのプリトークナイザーと学習データは、多言語圧縮効率を最適化するために修正された。さらに、DeepSeek-V2 と比較して、新しいプリトークナイザーは句読点と改行を組み合わせたトークンを導入している。ただし、この手法は、特に few-shot 評価プロンプトの場合、終端の改行なしで複数行のプロンプトを処理する際にトークン境界バイアスを引き起こす可能性がある。この問題に対処するために、学習中にそのような結合トークンの一部をランダムに分割し、モデルをより広範囲の特殊ケースにさらし、このバイアスを軽減する。

4.2 ハイパーパラメータ

Transformer レイヤー数は 61、隠れ次元は 7168 に設定した。学習可能なパラメータはすべて、標準偏差 0.006 でランダムに初期化される。MLA では、注意ヘッド数 $n_h$ を 128、ヘッドごとの次元 $d_h$ を 128 に設定する。KV 圧縮次元 $d_c$ は 512、クエリ圧縮次元 $d_c'$ は 1536 に設定する。分離されたクエリとキーについて、ヘッドごとの次元 $d_r$ を 64 に設定する。最初の 3 つのレイヤーを除くすべての FFN を MoE レイヤーに置き換える。各 MoE レイヤーは、1 つの共有エキスパートと 256 のルーティングされたエキスパートで構成され、各エキスパートの中間隠れ次元は 2048 である。ルーティングされたエキスパートの中で、各トークンに対して 8 つのエキスパートがアクティブになり、各トークンは最大 4 つのノードに送信される。マルチトークン予測の深さ D は 1 に設定する。DeepSeek-V2 と同様に、DeepSeek-V3 は圧縮された潜在ベクトルの後に RMSNorm レイヤーを追加で採用し、幅のボトルネックで追加のスケーリング係数を乗算する。この構成では、DeepSeek-V3 は合計 671B のパラメータで構成され、そのうち 37B が各トークンに対してアクティブになる。

AdamW オプティマイザーを使用し、ハイパーパラメータを $\beta_1 = 0.9$, $\beta_2 = 0.95$, weight_decay = 0.1 に設定する。事前学習中の最大シーケンス長は 4K に設定し、DeepSeek-V3 を 14.8T トークンで事前学習する。学習率のスケジューリングでは、最初の 2K ステップで 0 から $2.2 \times 10^{-4}$ まで線形に増加させる。その後、モデルが 10T の学習トークンを消費するまで $2.2 \times 10^{-4}$ の一定学習率を維持する。その後、コサイン減衰曲線に従って、学習率を 4.3T トークンで $2.2 \times 10^{-5}$ まで徐々に減衰させる。最後の 500B トークンの学習中には、最初の 333B トークンで $2.2 \times 10^{-5}$ の一定学習率を維持し、残りの 167B トークンで $7.3 \times 10^{-6}$ の別の一定学習率に切り替える。勾配クリッピングノルムは 1.0 に設定する。バッチサイズスケジューリング戦略を採用し、最初の 469B トークンの学習ではバッチサイズを 3072 から 15360 まで徐々に増やし、残りの学習では 15360 を維持する。パイプライン並列処理を利用して、モデルの異なるレイヤーを異なる GPU に展開し、各レイヤーについて、ルーティングされたエキスパートを 8 つのノードに属する 64 個の GPU に均等に展開する。ノード制限ルーティングでは、各トークンは最大 4 つのノード (つまり、M = 4) に送信される。補助損失なしの負荷分散では、最初の 14.3T トークンに対してバイアス更新速度 $\gamma$ を 0.001 に設定し、残りの 500B トークンに対しては 0.0 に設定する。バランス損失では、極端な不均衡を回避するために、$\alpha$ を 0.0001 に設定する。MTP 損失の重み $\lambda$ は、最初の 10T トークンでは 0.3 に設定し、残りの 4.8T トークンでは 0.1 に設定する。

4.3 長文脈拡張

DeepSeek-V2 と同様のアプローチを採用し、DeepSeek-V3 で長文脈機能を有効化する。事前学習段階の後、YaRN を適用して文脈拡張を行い、4K から 32K、そして 128K へと文脈ウィンドウを段階的に拡張するために、それぞれ 1000 ステップで構成される 2 つの追加学習フェーズを実行する。YaRN の構成は DeepSeek-V2 で使用されたものと一貫しており、分離された共有キー $k_r$ にのみ適用される。ハイパーパラメータは両方のフェーズで同一であり、スケール $s = 40$, $\alpha = 1$, $\beta = 32$, スケーリング係数 $\sqrt{t} = 0.1 \text{ In } s + 1$ とする。最初のフェーズでは、シーケンス長を 32K に設定し、バッチサイズを 1920 にする。2 番目のフェーズでは、シーケンス長を 128K に増やし、バッチサイズを 480 に減らす。両方のフェーズの学習率は $7.3 \times 10^{-6}$ に設定し、事前学習段階の最終学習率と一致させる。

4.4 評価

DeepSeek-V3 のベースモデルは、英語と中国語が大部分を占める多言語コーパスで事前学習されているため、主に英語と中国語、および多言語ベンチマークでその性能を評価する。評価は、HAI-LLM フレームワークに統合された内部評価フレームワークに基づいており、考慮されるベンチマークは、多肢選択、言語理解と推論、閉じた質問応答、読解、参照曖昧性解消、言語モデリング、中国語の理解と文化、数学、コード、標準化された試験に分類される。

4.4.1 評価ベンチマーク

多肢選択データセットには、MMLU、MMLU-Redux、MMLU-Pro、MMMLU、C-Eval、CMMLU が含まれる。言語理解と推論データセットには、HellaSwag、PIQA、ARC、BigBench Hard (BBH) が含まれる。閉じた質問応答データセットには、TriviaQA と NaturalQuestions が含まれる。読解データセットには、RACE、DROP、C3、CMRC が含まれる。参照曖昧性解消データセットには、CLUEWSC と WinoGrande が含まれる。言語モデリングデータセットには、Pile が含まれる。中国語の理解と文化データセットには、CCPM が含まれる。数学データセットには、GSM8K、MATH、MGSM、CMath が含まれる。コードデータセットには、HumanEval、LiveCodeBench-Base、MBPP、CRUXEval が含まれる。標準化された試験には、AGIEval が含まれる。

以前の研究に倣い、HellaSwag、PIQA、WinoGrande、RACE-Middle、RACE-High、MMLU、MMLU-Redux、MMLU-Pro、MMMLU、ARC-Easy、ARC-Challenge、C-Eval、CMMLU、C3、CCPM などのデータセットには、perplexity ベースの評価を採用し、TriviaQA、NaturalQuestions、DROP、MATH、GSM8K、MGSM、HumanEval、MBPP、LiveCodeBench-Base、CRUXEval、BBH、AGIEval、CLUEWSC、CMRC、CMath には、生成ベースの評価を採用する。さらに、Pile-test には言語モデリングベースの評価を行い、異なるトークナイザーを使用するモデル間で公平な比較を保証するために、Bits-Per-Byte (BPB) をメトリックとして使用する。

4.4.2 評価結果

DeepSeek-V3 ベースモデルは、DeepSeek-V2-Base、Qwen2.5 72B Base、LLaMA-3.1 405B Base などの最先端のオープンソースベースモデルと比較して、ほとんどのベンチマークで優れた性能を発揮し、特にコードタスクと数学タスクで最も高いスコアを達成した。DeepSeek-V3-Base は、DeepSeek-V2-Base と Qwen2.5 72B Base を総合的に上回り、LLaMA-3.1 405B Base を大部分のベンチマークで上回り、事実上最強のオープンソースモデルとなった。

DeepSeek-V3-Base は、DeepSeek-V2-Base と比較して、モデルアーキテクチャ、モデルサイズと学習トークンのスケールアップ、データ品質の向上により、期待どおり大幅に優れたパフォーマンスを達成した。最先端の中国語オープンソースモデルである Qwen2.5 72B Base と比較して、DeepSeek-V3-Base は、英語、多言語、コード、数学のベンチマークで目覚ましい優位性を示した。中国語ベンチマークでは、中国語の複数科目多肢選択タスクである CMMLU を除いて、DeepSeek-V3-Base は Qwen2.5 72B よりも優れたパフォーマンスを示した。LLaMA-3.1 405B Base と比較すると、DeepSeek-V3-Base は、多言語、コード、数学のベンチマークで大幅に優れたパフォーマンスを示した。英語と中国語の言語ベンチマークでは、DeepSeek-V3-Base は競争力のある、またはより優れたパフォーマンスを示し、特に BBH、MMLU シリーズ、DROP、C-Eval、CMMLU、CCPM で優れている。

効率的なアーキテクチャと包括的なエンジニアリング最適化により、DeepSeek-V3 は非常に高い学習効率を達成し、各兆トークンで 180K H800 GPU 時間しか必要とせず、72B または 405B の密なモデルを学習するよりもはるかに安価である。

4.5 考察

4.5.1 マルチトークン予測に関するアブレーション研究

MTP 戦略のアブレーション結果を示す。具体的には、異なるスケールで 2 つのベースラインモデルの上で MTP 戦略を検証する。小規模では、1.33T トークンで 15.7B の総パラメータで構成されるベースライン MoE モデルを学習する。大規模では、540B トークンで 228.7B の総パラメータで構成されるベースライン MoE モデルを学習する。これらのモデルの上に、学習データとその他のアーキテクチャを同じに保ちながら、1 深さの MTP モジュールを追加し、比較のために MTP 戦略を使用した 2 つのモデルを学習する。推論中には、MTP モジュールを直接破棄するため、比較モデルの推論コストはまったく同じである。表から、MTP 戦略がほとんどの評価ベンチマークでモデルの性能を一貫して向上させることがわかる。

4.5.2 補助損失なしの負荷分散戦略に関するアブレーション研究

補助損失なしの負荷分散戦略のアブレーション結果を示す。異なるスケールで 2 つのベースラインモデルの上でこの戦略を検証する。小規模では、1.33T トークンで 15.7B の総パラメータで構成されるベースライン MoE モデルを学習する。大規模では、578B トークンで 228.7B の総パラメータで構成されるベースライン MoE モデルを学習する。両方のベースラインモデルは、負荷分散を促すために補助損失のみを使用し、top-K アフィニティ正規化を使用したシグモイドゲーティング関数を使用する。補助損失の強さを制御するためのハイパーパラメータは、それぞれ DeepSeek-V2-Lite および DeepSeek-V2 と同じである。これらの 2 つのベースラインモデルの上で、学習データとその他のアーキテクチャを同じに保ちながら、すべての補助損失を削除し、比較のために補助損失なしの負荷分散戦略を導入する。表から、補助損失なしの戦略が、ほとんどの評価ベンチマークでモデルのパフォーマンスを一貫して向上させることがわかる。

4.5.3 バッチ単位の負荷分散とシーケンス単位の負荷分散

補助損失なしの負荷分散とシーケンス単位の補助損失の主な違いは、バランシング範囲にある。シーケンス単位の補助損失と比較して、バッチ単位のバランシングは、各シーケンスでドメイン内バランスを強制しないため、より柔軟な制約を課す。この柔軟性により、エキスパートはさまざまなドメインでより専門化できる。これを検証するために、Pile テストセットのさまざまなドメインで、16B の補助損失ベースラインと 16B の補助損失なしモデルのエキスパート負荷を記録および分析する。図 9 に示すように、補助損失なしモデルは、予想どおり、より優れたエキスパート専門化パターンを示す。

この柔軟性とモデルパフォーマンスの利点との相関関係をさらに調査するために、各シーケンスではなく、各学習バッチで負荷分散を促すバッチ単位の補助損失を設計および検証する。実験結果から、同様のレベルのバッチ単位の負荷分散を達成した場合、バッチ単位の補助損失も、補助損失なしの方法と同様のモデルパフォーマンスを達成できることがわかる。具体的には、1B MoE モデルを使用した実験では、検証損失は、2.258 (シーケンス単位の補助損失を使用)、2.253 (補助損失なしの方法を使用)、2.253 (バッチ単位の補助損失を使用) である。

5 Post-Training

DeepSeek-V3のベースモデルを、人間の好みとより合致させ、性能を最大限に引き出すために、教師ありファインチューニング(SFT)と強化学習(RL)によるポストトレーニングを実施した。

5.1 教師ありファインチューニング(SFT)

多様なドメインをカバーする150万件のインスタンスからなるインストラクションチューニングデータセットを作成した。各ドメインでは、特定の要件に合わせて異なるデータ作成方法を採用した。

  • 推論データ: 数学、コードコンペティションの問題、論理パズルなどの推論関連データセットについては、内部のDeepSeek-R1モデルを活用してデータを生成した。R1生成データは高い精度を示す一方、過剰な思考、不適切なフォーマット、長文といった問題があるため、R1生成データの高精度と、簡潔で明確なフォーマットとのバランスを取ることを目指した。
  • 非推論データ: クリエイティブライティング、ロールプレイ、簡単な質問応答などの非推論データについては、DeepSeek-V2.5を使用して応答を生成し、人間のアノテーターが精度と正しさを検証した。

SFT設定では、DeepSeek-V3-BaseをSFTデータセットで2エポックファインチューニングした。学習率はコサイン減衰スケジュールに従い、初期値5 × 10^-6から最終値1 × 10^-6まで徐々に減少させた。トレーニング中、各シーケンスは複数のサンプルからパックされるが、サンプルマスキング戦略を採用し、サンプルが互いに分離され、不可視となるようにした。

5.2 強化学習(RL)

RLプロセスでは、ルールベースの報酬モデル(RM)とモデルベースのRMを使用した。

  • ルールベースRM: 特定のルールで検証可能な質問に対しては、ルールベースの報酬システムを採用した。例えば、数学の問題では、指定されたフォーマットで最終的な答えを提供する必要があり、ルールを適用して正しさを検証できる。LeetCodeの問題では、テストケースに基づいたフィードバックをコンパイラを使用して生成できる。ルールベース検証を可能な限り活用することで、操作や悪用に対する耐性を高めることができた。
  • モデルベースRM: 自由形式の正解を持つ質問については、報酬モデルを用いて、応答が期待される正解と一致するかどうかを判断した。創造的なライティングなど、明確な正解がない質問については、報酬モデルに質問と対応する回答に基づいてフィードバックを提供するよう指示した。報酬モデルは、DeepSeek-V3 SFTチェックポイントからトレーニングした。信頼性を高めるために、最終的な報酬だけでなく、報酬につながる思考の連鎖も含む選好データを作成した。

5.2.2 グループ相対ポリシー最適化(GRPO)

DeepSeek-V2と同様に、ポリシーモデルと同じサイズの批評モデルを必要とせず、グループスコアからベースラインを推定するグループ相対ポリシー最適化(GRPO)を採用した。具体的には、各質問qに対して、古いポリシーモデルπθoldから出力{o1, o2, ..., og}のグループをサンプリングし、次の目的関数を最大化することでポリシーモデルπθを最適化した。

$I_{GRPO}(\theta) = E[q \sim P(Q), \{o_i\}_{i=1}^G \sim \pi_{\theta_{old}}(O|q)] \frac{1}{G} \sum_{i=1}^G \min(\frac{\pi_\theta(o_i|q)}{\pi_{\theta_{old}}(o_i|q)}A_i, \text{clip}(\frac{\pi_\theta(o_i|q)}{\pi_{\theta_{old}}(o_i|q)}, 1-\epsilon, 1+\epsilon)A_i) - \beta D_{KL}(\pi_\theta||\pi_{ref})$

ここで、εとβはハイパーパラメータ、πrefは参照モデル、Aiは各グループ内の出力に対応する報酬{r1, r2, ..., rg}から導出されるアドバンテージである。 RLプロセスでは、コーディング、数学、ライティング、ロールプレイ、質問応答など、多様なドメインのプロンプトを組み込んだ。このアプローチは、モデルを人間の好みに近づけるだけでなく、SFTデータが限られているシナリオでベンチマークのパフォーマンスを向上させた。

5.3 評価

ベースモデルのテストに使用したベンチマークに加えて、指示モデルをIFEval、FRAMES、LongBench v2、GPQA、SimpleQA、C-SimpleQA、SWE-Bench Verified、Aider、LiveCodeBench、Codeforces、中国全国高校数学オリンピック(CNMO 2024)、アメリカ招待数学試験2024(AIME 2024)で評価した。

  • 比較ベースライン: DeepSeek-V2-0506、DeepSeek-V2.5-0905、Qwen2.5 72B Instruct、LLaMA-3.1 405B Instruct、Claude-Sonnet-3.5-1022、GPT-4o-0513と比較した。
  • 詳細な評価構成: MMLU、DROP、GPQA、SimpleQAなどの標準的なベンチマークについては、simple-evalsフレームワークの評価プロンプトを採用した。その他のデータセットについては、データセット作成者が提供するデフォルトのプロンプトと元の評価プロトコルに従った。コードと数学のベンチマークについては、HumanEval-Mulデータセットには、PythonJava、Cpp、C#JavaScript、TypeScript、PHPBashの8つの主流プログラミング言語が含まれている。LiveCodeBenchでは、CoTと非CoTの両方の方法を使用してモデルのパフォーマンスを評価し、データは2024年8月から11月にかけて収集した。Codeforcesデータセットは、競合他社の割合を使用して測定した。SWE-Bench verifiedは、エージェントレスフレームワークを使用して評価した。数学的評価については、AIMEとCNMO 2024は温度0.7で評価し、結果を16回の実行で平均した。MATH-500では、貪欲なデコーディングを使用した。すべてのモデルに、ベンチマークごとに最大8192トークンを出力させた。

5.3.2 標準評価

DeepSeek-V3は、最高のオープンソースモデルとしての地位を確立し、GPT-4oやClaude-3.5-Sonnetなどの最先端のクローズドソースモデルと競合している。

  • 英語ベンチマーク: MMLUでは、DeepSeek-V3はLLaMA-3.1-405B、GPT-4o、Claude-Sonnet 3.5などのトップレベルのモデルと同等のパフォーマンスを示し、Qwen2.5 72Bを大幅に上回った。MMLU-Proでは、Claude-Sonnet 3.5に僅差で迫った。MMLU-Reduxでは、DeepSeek-V3が競合モデルを上回った。GPQA-Diamondでは、DeepSeek-V3はClaude 3.5 Sonnetの次にランクインし、他のすべての競合モデルを大幅に上回った。
  • 長文理解ベンチマーク: DROP、LongBench v2、FRAMESでは、DeepSeek-V3はトップレベルのモデルとしての地位を維持した。DROPでは、91.6のF1スコアを達成し、他のすべてのモデルを上回った。FRAMESでは、DeepSeek-V3はGPT-4oに僅差で迫り、他のすべてのモデルを大幅に上回った。LongBench v2では、DeepSeek-V3はクラス最高のパフォーマンスを示した。
  • 事実知識ベンチマーク: SimpleQAでは、DeepSeek-V3はGPT-4oとClaude-Sonnetに劣るものの、C-SimpleQAでは優れたパフォーマンスを示した。
  • 指示追従ベンチマーク: DeepSeek-V3は、前モデルであるDeepSeek-V2シリーズを大幅に上回り、ユーザー定義のフォーマット制約を理解し、遵守する能力が向上した。

5.3.3 オープンエンド評価

DeepSeek-V3は、Arena-Hardベンチマークで86%を超える勝率を達成し、GPT-4o-0314を上回り、Claude-Sonnet-3.5-1022などのトップレベルモデルと同等のパフォーマンスを示した。また、オープンソースモデルとして初めてArena-Hardベンチマークで85%を超え、オープンソースモデルとクローズドソースモデルの性能差を大幅に縮めた。AlpacaEval 2.0では、DeepSeek-V3はクローズドソースモデルとオープンソースモデルの両方を上回った。

5.3.4 生成報酬モデルとしてのDeepSeek-V3

DeepSeek-V3の判断能力をGPT-4oとClaude-3.5と比較したところ、DeepSeek-V3はGPT-4o-0806とClaude-3.5-Sonnet-1022の最高のバージョンと同等のパフォーマンスを示し、他のバージョンを上回った。さらに、DeepSeek-V3の判断能力は投票技術で強化することもできる。

5.4 考察

5.4.1 DeepSeek-R1からの蒸留

DeepSeek-V2.5に基づいてDeepSeek-R1からの蒸留の貢献を評価した。蒸留により、LiveCodeBenchとMATH-500の両方のベンチマークで大幅な改善が見られた。蒸留はパフォーマンスを向上させる一方で、平均応答長も大幅に増加した。

5.4.2 自己報酬

報酬はRLにおいて重要な役割を果たし、最適化プロセスを誘導する。コーディングや数学のシナリオなど、外部ツールによる検証が簡単なドメインでは、RLは優れた効果を発揮する。より一般的なシナリオでは、ハードコーディングによるフィードバックメカニズムの構築は非現実的であるため、DeepSeek-V3の開発では、DeepSeek-V3自体の投票評価結果をフィードバックソースとして活用する構成的AIアプローチを採用した。この方法により、主観的な評価においてDeepSeek-V3の性能が大幅に向上した。

5.4.3 マルチトークン予測の評価

DeepSeek-V3は、MTP技術により次の1つのトークンだけでなく、次の2つのトークンを予測する。推測デコーディングのフレームワークと組み合わせることで、モデルのデコード速度を大幅に向上させることができる。評価によると、2番目のトークン予測の受理率は、さまざまな生成トピックで85%から90%の範囲であり、安定した信頼性を示した。この高い受理率により、DeepSeek-V3はデコード速度が大幅に向上し、1.8倍のTPS(トークン/秒)を実現した。

6 Conclusion, Limitations, and Future Directions

本稿では、671Bの総パラメータと37Bのアクティブパラメータを持つ大規模MoE言語モデルであるDeepSeek-V3を紹介した。MLAとDeepSeekMoEアーキテクチャに加え、負荷分散のための補助損失なし戦略と、より強力なパフォーマンスのためのマルチトークン予測トレーニング目標を導入した。FP8トレーニングと綿密なエンジニアリング最適化により、DeepSeek-V3のトレーニングはコスト効率が高い。また、DeepSeek-R1シリーズのモデルから推論能力を蒸留することにも成功した。包括的な評価により、DeepSeek-V3は現在利用可能な最強のオープンソースモデルとして登場し、GPT-4oやClaude-3.5-Sonnetのような最先端のクローズドソースモデルに匹敵するパフォーマンスを達成したことが実証された。その強力なパフォーマンスにもかかわらず、トレーニングコストも経済的であり、事前トレーニング、コンテキスト長拡張、事後トレーニングを含むフルトレーニングにはわずか2.788M H800 GPU時間しか必要としない。

強力なパフォーマンスとコスト効率を認めつつも、特にデプロイメントにおいてDeepSeek-V3にはいくつかの制限があることも認識している。まず、効率的な推論を確保するために、DeepSeek-V3の推奨デプロイメントユニットは比較的大きく、小規模なチームにとっては負担となる可能性がある。次に、DeepSeek-V3のデプロイメント戦略はDeepSeek-V2の2倍以上のエンドツーエンド生成速度を達成しているものの、さらなる改善の余地がある。幸いなことに、これらの制限は、より高度なハードウェアの開発によって自然に解決されると予想される。

DeepSeekは、長期主義を掲げたオープンソースモデルの道を常に遵守し、AGI(人工汎用知能)の究極の目標に着実に近づくことを目指している。今後、以下の分野に戦略的に投資していく予定である。

  • モデルアーキテクチャを継続的に研究・改良し、トレーニングと推論の両方の効率をさらに向上させ、無限のコンテキスト長を効率的にサポートすることを目指す。また、Transformerのアーキテクチャ上の制約を打ち破り、モデリング能力の限界を押し広げる。
  • レーニングデータの量と質を継続的に反復し、追加のトレーニング信号源の組み込みを検討し、より包括的な範囲の次元にわたるデータスケーリングを推進する。
  • モデルの深い思考能力を継続的に検討・反復し、推論の長さと深さを拡張することで、知能と問題解決能力を強化する。
  • 研究中に固定されたベンチマークの最適化に偏る傾向を防ぐため、より包括的で多次元的なモデル評価方法を検討し、モデルの能力に関する誤解を招くような印象を避け、基盤的な評価を改善する。

A Contributions and Acknowledgments

DeepSeek-V3の開発に貢献した研究者とエンジニア、およびデータアノテーション、ビジネスとコンプライアンスに関わった個人が列挙されている。

B Ablation Studies for Low-Precision Training

B.1. FP8 vs BF16 トレーニン

FP8混合精度フレームワークを検証するために、異なるスケールの2つのベースラインモデルでBF16トレーニングと比較する。小スケールでは、約160億のパラメータを持つMoEモデルを1.33Tトークンでトレーニングする。大規模スケールでは、約2300億のパラメータを持つMoEモデルを約0.9Tトークンでトレーニングする。図10に示すトレーニング曲線から、高精度な累積と微調整された量子化戦略により、相対誤差が0.25%未満に維持されていることがわかる。

B.2. ブロック単位量子化に関する考察

タイル単位の微調整された量子化は、特徴量外れ値によって導入される誤差を効果的に軽減するが、活性化量子化には異なるグループ化が必要である。すなわち、順方向パスでは1x128、逆方向パスでは128x1である。同様のプロセスが活性化勾配にも必要である。単純な戦略は、モデルの重みを量子化するのと同じように、128x128要素ごとにブロック単位で量子化を適用することである。これにより、逆方向パスに必要な転置のみが必要になる。したがって、Dgradに関連するすべてのテンソルをブロック単位で量子化する実験を行う。結果は、活性化勾配を計算し、チェーン状に浅いレイヤーに逆伝播するDgrad演算が、精度に非常に敏感であることを明らかにしている。具体的には、活性化勾配のブロック単位量子化は、約160億のパラメータを持つMoEモデルで発散につながる。これは、活性化勾配がトークン間で非常に不均衡であり、トークン相関外れ値が発生するためであると仮定する。これらの外れ値は、ブロック単位の量子化アプローチでは効果的に管理できない。

C Expert Specialization Patterns of the 16B Aux-Loss-Based and Aux-Loss-Free Models

DeepSeek-V3の16Bパラメータモデルにおいて、補助損失に基づくモデルと補助損失なしのモデルの専門家特化パターンをPileテストセットで比較した結果、補助損失なしのモデルが全層にわたってより高い専門家特化を示すことが明らかになった。この結果は、補助損失なしのモデルが、より柔軟な制約の中で、異なるドメインに特化した専門家をより効果的に活用できる可能性を示唆している。