DeepSeek-V3 はその性能と訓練効率により注目を集めています。Web 版を試してみました。
目次
DeepSeek-V3
DeepSeek-V3 は、総パラメータ数 671B の強力な MoE (Mixture-of-Experts) 言語モデルです。効率的な推論とコスト効果の高いトレーニングを実現するため、DeepSeek-V3 は MLA (Multi-head Latent Attention) とDeepSeekMoE アーキテクチャを採用しています。
モデルデータが公開されています。
あまりにも巨大なため、一般的な PC で動かすことは不可能です。
※ Mac mini (RAM 64GB) 8 台で 5 tps 程度の速度で動くようです。
MacMiniが8台でDeepSeek-v3が5tpsって想像以上にマトモな速度出るんだな…とは思ったものの、Llama3.1-405Bだとたったの0.88tpsしか出ない(これだとクソ遅くて実用性無い)んだって。そんなに違う事ある?つまりMacにMoEアーキテクチャがあまりにもぶっ刺さっているという。というのもMacは超高速メモ… pic.twitter.com/cpfDe8OxhN
— うみゆき@AI研究 (@umiyuki_ai) December 27, 2024
Web 版
Web 版が無料で利用可能なため、本記事ではこちらを試します。
【注意】入出力がサービス改善に利用されるため、機密情報の入力は避けてください。
利用規約から入出力に関する箇所を引用して翻訳します。
4.2 In order to fulfill the requirements stipulated by laws and regulations or provide the Services specified in these Terms, and under the premise of secure encryption technology processing, strict de-identification rendering, and irreversibility to identify specific individuals, we may, to a minimal extent, use Inputs and Outputs to provide, maintain, operate, develop or improve the Services or the underlying technologies supporting the Services. Please be aware that unless we obtain your separate consent, we will not use the aforementioned data and content for any purposes unrelated to the Services.
日本語訳
4.2 法律や規制で定められた要件を満たすため、または本規約で指定されたサービスを提供するために、安全な暗号化技術処理、厳格な非識別化レンダリング、および特定の個人を識別できないようにすることを前提として、当社は、最小限の範囲で入力と出力を使用して、サービスまたはサービスを支える基盤技術の提供、維持、運営、開発、または改善を行う場合があります。なお、別途同意を得ない限り、当社は前述のデータやコンテンツをサービスに関連しない目的で使用することはありません。
テスト
数学的な内容を質問します。DeepThink や Search などのモードがあるため、個別に確認します。
ここで質問しているメビウス変換については、以下の記事を参照してください。
通常
チャットのタイトルは中国語で自動生成されます:莫比乌斯变换的矩阵表示原因
プロンプト:
メビウス変換が行列表現できる理由
回答:
メビウス変換が行列表現できる理由は、複素平面における一次分数変換が2×2の複素行列と対応しているためです。以下にその詳細を説明します。
メビウス変換の定義
メビウス変換は、複素平面上の一次分数変換として定義されます。具体的には、複素数 $z$
に対して次のように表されます:
f(z) = \frac{az + b}{cz + d}
ここで、$a, b, c, d$
は複素数の定数であり、$ad - bc \neq 0$
を満たします。
行列表現
この変換は、次の2×2の複素行列 $M$
と対応させることができます:
M = \begin{pmatrix} a & b \\ c & d \end{pmatrix}
メビウス変換 $f(z)$
は、行列 $M$
を用いて次のように表現されます:
f(z) = \frac{az + b}{cz + d} = \frac{(a, b) \cdot (z, 1)}{(c, d) \cdot (z, 1)}
ここで、$(z, 1)$
はベクトルとして扱われます。
行列の作用
行列 $M$
がベクトル $(z, 1)$
に作用すると、新しいベクトル $(az + b, cz + d)$
が得られます。このベクトルの成分の比を取ることで、メビウス変換 $f(z)$
が得られます。
行列の性質
行列 $M$
の行列式 $\det(M) = ad - bc$
がゼロでない場合、行列 $M$
は正則であり、逆行列を持ちます。これにより、メビウス変換も逆変換を持つことが保証されます。
まとめ
メビウス変換が行列表現できる理由は、一次分数変換が2×2の複素行列と対応しており、行列の作用によって変換が記述できるためです。この対応関係により、メビウス変換の性質や操作を行列の理論を用いて解析することが可能になります。
\boxed{\text{メビウス変換は、一次分数変換が2×2の複素行列と対応しているため、行列表現できる。}}
DeepThink
英語で思考が開始され(👉参考)、回答も英語になります。そのため日本語への翻訳を指示します。
プロンプト:
メビウス変換が行列表現できる理由
(回答略)
プロンプト:
日本語に翻訳してください。
回答:
メビウス変換が行列表現できる理由は、複素解析と線形代数の深い結びつきにあり、射影幾何学に根ざしています。以下にその要点を簡潔にまとめます:
メビウス変換:
メビウス変換は、$f(z) = \frac{az + b}{cz + d}$
の形で表される関数です。ここで、$a, b, c, d$
は複素数であり、$ad - bc \neq 0$
を満たします。この変換は、拡張された複素平面(リーマン球面)をそれ自身に写します。行列表現:
メビウス変換は、2x2行列で表現できます:M = \begin{pmatrix} a & b \\ c & d \end{pmatrix}この表現は、同次座標(homogeneous coordinates)を用いており、複素平面の点$z$
は$(z, 1)$
として表されます。同次座標への作用:
行列$M$
は、点$(z, 1)$
の同次座標に次のように作用します:M \begin{pmatrix} z \\ 1 \end{pmatrix} = \begin{pmatrix} az + b \\ cz + d \end{pmatrix}これは、メビウス変換$f(z) = \frac{az + b}{cz + d}$
に対応します。射影幾何学:
同次座標を使用することで、メビウス変換は射影平面における線形変換として見ることができます。ここでは、点はスカラー倍を除いて表されます。可逆性と行列式:
条件$ad - bc \neq 0$
は、行列が可逆であることを保証し、メビウス変換の可逆性に対応します。変換の合成:
2つのメビウス変換の合成は、それらの行列の積に対応しますが、順序は逆になります:g(f(z)) \leftrightarrow M_g M_f群構造:
メビウス変換の集合は、合成に関して群をなし、射影線形群$PGL(2, \mathbb{C})$
と同型です。不動点と固有値:
変換の不動点は行列の固有ベクトルに対応し、行列のトレースは変換の分類(楕円的、放物的、双曲的)に役立ちます。
要するに、行列表現は、非線形なメビウス変換と2x2行列の線形代数との間の橋渡しを提供し、線形代数のツールを用いてこれらの変換を研究・解析することを可能にします。
Search
明示的に検索を指示する必要があるようです。実際の回答では参照元が明示されますが、コピーには反映されないため、本記事では省略しています。
プロンプト:
メビウス変換が行列表現できる理由(検索してください)
回答:
メビウス変換が行列表現できる理由は、その変換が2×2の複素正則行列と密接に関連しているためです。以下にその理由を詳しく説明します。
1. メビウス変換の定義と行列の関係
メビウス変換は、複素数 $z$
に対して次の形で定義されます:
f(z) = \frac{az + b}{cz + d}
ここで、$a, b, c, d$
は複素数であり、$ad - bc \neq 0$
を満たします。この条件は、変換が定数関数にならないことを保証します。
この変換は、2×2の複素正則行列
A = \begin{pmatrix} a & b \\ c & d \end{pmatrix}
と関連付けることができます。行列 $A$
の行列式 $\det(A) = ad - bc$
がゼロでない場合、$A$
は正則であり、対応するメビウス変換も正則(全単射)となります。
2. 行列の積とメビウス変換の合成
メビウス変換の合成は、対応する行列の積に対応します。つまり、行列 $A$
と $B$
に対応するメビウス変換 $\mu_A$
と $\mu_B$
の合成 $\mu_A \circ \mu_B$
は、行列の積 $AB$
に対応するメビウス変換 $\mu_{AB}$
と一致します。
この性質は、メビウス変換全体が群(メビウス群)を形成することを示しています。メビウス群は、一般射影線型群 $\text{PGL}(2, \mathbb{C})$
と同型です。
行列 $A$
を非ゼロの複素数 $\lambda$
倍しても、対応するメビウス変換は変わりません。つまり、
\mu_A = \mu_{\lambda A}
が成り立ちます。このため、メビウス変換は行列のスカラー倍を除いて一意に決定されます。
4. 行列式の正規化
行列 $A$
の行列式を $1$
に正規化することで、メビウス変換を特殊線型群 $\text{SL}(2, \mathbb{C})$
と関連付けることができます。この場合、メビウス群は $\text{PSL}(2, \mathbb{C}) = \text{SL}(2, \mathbb{C}) / \{ \pm I \}$
と同型となります。
5. 幾何学的な解釈
メビウス変換は、複素射影直線 $\mathbb{CP}^1$
上の射影変換としても解釈できます。行列 $A$
は、$\mathbb{CP}^1$
上の点を別の点に写す変換を定義します。この対応は、リーマン球面(拡張複素平面)上の共形変換としても理解できます。
まとめ
メビウス変換が行列表現できる理由は、その変換が2×2の複素正則行列と一対一に対応し、行列の積が変換の合成に対応するためです。さらに、行列のスカラー倍を除いて一意に決定されることや、行列式の正規化を通じて特殊線型群と関連付けられることも重要なポイントです。
感想
通常の回答は比較的簡潔ですが、DeepThink では詳しくなり、Search では専門的な内容が加えられるようです。