DeepSeek-R1-Distill-Qwen-1.5Bとは 「DeepSeek-R1-Distill-Qwen-1.5B」の前に、まず「DeepSeek-R1」について簡単に紹介します。DeepSeek-R1は、DeepSeekによって開発されたオープンで高性能な大規模言語モデル(LLM)です。 DeepSeek-R1はパラメータ数が671Bの巨大なモデルですが、モデル圧縮手法の1つである蒸留を用いて小型化されたモデルも公開されています。 蒸留 (Distillation)とは、大規模な「教師モデル」の知識をより軽量な「生徒モデル」に移行することでモデルの圧縮をする手法です。深層学習モデルを軽量化するために使われています。 DeepSeek-R1の蒸留モデルは、既存のモデルであるQwenやLlamaをベースにDeepSeek-R1の推論パターンを学習させているようです。公開されてる6個