【dlshogi】自動生成された定跡を強化学習に活用する

dlshogi コンピュータ将棋

将棋AIの大会では、2年ほど前から定跡により勝敗が高い確率で決まるという状況になっている。相手の準備していない定跡で嵌めたり、相手が準備した定跡に嵌らないようにするという盤外の戦術が必要になっており、AIの技術的な要素とは別の戦いになっている。…

2024-12-16

【dlshogi】入玉特徴量その３

dlshogi コンピュータ将棋

前回、入玉宣言に関する特徴量を加えたモデルの強さを測定したが、入玉宣言勝ちした棋譜がなく入玉の精度が測定できていなかった。NNUE系を相手にして連続対局を行い測定しなおした。強さ NNUE系を相手に互角局面から連続対局を行った結果は以下の通り。 NN…

2024-12-15

【dlshogi】入玉特徴量その２

dlshogi コンピュータ将棋

前回は、入玉宣言に関する入力特徴量を追加して、入玉宣言した棋譜に対する評価精度が向上することを確認した。今回は、入力特徴量の宣言までの残り点数を前回10点未満にしたところを、20点未満にした場合で比較した。また、入力特徴量を増やしたことでNPS…

2024-12-08

【dlshogi】入玉特徴量

dlshogi コンピュータ将棋

現在のdlshogiの入力特徴量には、入玉宣言に関連する特徴量を含んでいない。入玉宣言の精度を上げるため、入玉宣言に関する特徴量を加えることを検討する。現在の入力特徴量現在の入力特徴量：盤上の駒駒の種類ごとの効き効き数持ち駒王手持ち駒は…

2024-12-02

第5回世界将棋AI電竜戦結果報告

電竜戦コンピュータ将棋 dlshogi

11/30、12/1に開催された文部科学大臣杯第5回世界将棋AI電竜戦にdlshogiとして参加しました。結果予選を1位で通過し、決勝リーグでは、1位と0.8勝差で準優勝という結果になりました。dlshogiは、第2回から4年連続準優勝です。今大会の感想優勝した氷彗が…

2024-11-25

Gumbel AlphaZeroの論文を読むその４

Gumbel AlphaZero

前回の続き探索の内部処理探索の処理は、searchに書かれている。引数 params: ルートおよび再帰関数に渡されるパラメータ。 rng_key: 乱数生成器の状態。 root: ルートノードの初期状態で、事前確率、価値、埋め込みを含む。 recurrent_fn: 葉ノードおよ…

2024-11-17

Gumbel AlphaZeroの論文を読むその３

Gumbel AlphaZero

前回に続き、examples/visualization_demo.py のソースを解説する。探索探索の処理は、gumbel_muzero_policyに書かれている。引数は、以下の通り。 params: ルートおよび再帰関数に渡されるパラメータ。 rng_key: 乱数生成器の状態。 root: (prior_logits,…

2024-11-16

Gumbel AlphaZeroの論文を読むその２

Gumbel AlphaZero

前回、Gumbel AlphaZeroの論文の概要と、公式実装の環境構築について記載した。今回は、公式実装のサンプルプログラム examples/visualization_demo.py のソースを調べながらGumbel AlphaZeroのアルゴリズムを理解する。 visualization_demo.pyの概要 visual…

2024-11-14

Gumbel AlphaZeroの論文を読む

dlshogiにGumbel AlphaZeroの強化学習を導入したいと思って、Gumbel AlphaZeroの論文を読んでいるが、理論がなかなか難しいため公式実装を確認しながら理解する。 Gumbel AlphaZero AlphaZeroの強化学習は、自己対局でUCTで探索した際の訪問回数を目標の確率…

2024-11-09

【dlshogi】方策のみで指した場合のfloodgateでのレーティング

dlshogi コンピュータ将棋

前回、dlshogiの最新モデルで方策のみで連続対局した場合の強さを測定した。結果、第2回世界将棋AI電竜戦エキシビジョンバージョンと比べて方策がR+395.1だけ強くなっていることわかった。今回は、floodgateに放流して、レーティングを測定した。測定条件 …

2024-11-07

【dlshogi】最新モデルが公開バージョンからどれくらい強くなっているか

dlshogi コンピュータ将棋

前回書いた通り、方策の強さを手軽に測定できるようになったので、公開している第2回世界将棋AI電竜戦エキシビジョンバージョンから最新モデルがどれくらい強くなっているか測定した。以前に、WCSC32版dlshogiと探索ありで比較したときは、互角局面集を使用…

2024-11-06

【dlshogi】ラージカーネル+TransformerモデルのPolicy Elo

dlshogi コンピュータ将棋

先日学習したラージカーネル+Transformerモデルの方策のみの強さ(Policy Elo)を測定した。これまで、同一持ち時間や固定ノード数で計測も行ったが、方策のみの連続対局を行うことで、短時間で直接方策の強さを測ることができる。floodgateのテストデータでの…

2024-10-26

【読書ノート】Debugging: The 9 Indispensable Rules for Finding Even the Most Elusive Software and Hardware Problems

読書ノートデバッグ

「Debugging: The 9 Indispensable Rules for Finding Even the Most Elusive Software and Hardware Problems」を読んだので内容をまとめる。以下の内容は、ほとんどClaude3.5 Sonnet v2を使用して作成している。この書籍は、ソフトウェアやハードウェアの…

2024-10-20

【dlshogi】ラージカーネル+Transformerモデルの学習

dlshogi コンピュータ将棋

以前に検証したラージカーネルのモデルにTransformerを組み合わせたモデルの学習を行った。実験段階では20ブロック256フィルタのモデルを使用したが、今回は11月末に行われる電竜戦向けに40ブロック512フィルタのモデルを学習した。モデル構造 20ブロック25…

2024-10-09

Rectified Flowで画像生成するその４(CIFAR-10とFID)

Flow Maching 画像生成

前回まではMNISTデータセットでRectified Flowを学習したが、今回はCIFAR-10データセットで学習する。後で、Stable Diffusion 3で使われている時刻サンプラーの効果を測りたいため、基準としてFIDを計測する。 CIFAR-10 CIFAR-10は、10クラスの32x32のカラ…

2024-10-02

Rectified Flowで画像生成するその３(テキスト条件付け)

Flow Maching 画像生成

前回、Rectified Flowをスクラッチで実装してMNISTデータセットの学習を試した。画像生成は条件を指定しないで生成していたため、0から9の文字がランダムに出力されていた。今回は、0から9を表す1文字を条件として与えて、条件付けされた画像が生成できるか…

2024-09-29

Rectified Flowで画像生成するその２(スクラッチ実装でMNISTを学習)

Flow Maching 画像生成

前回、Rectified Flowの公式実装で、CIFAR10の学習を試した。今回は、公式実装を参考に、基本的な部分のみをスクラッチで実装して、MNISTデータセットの学習を試す。実装の全体像実装は、以下の3つパートに分かれる。1. Conditional U-Netの実装 2. Rectif…

2024-09-21

Rectified Flowで画像生成する

画像生成 Flow Maching

画像生成モデルは、Stable Diffusionが出てきた頃は、Diffusionモデルが主流であったが、最近のStable Diffusion 3やFlux.1では、Flow Machingのモデルが使用されている。Flow Machingにもいくつかの訓練方法がある。 Rectified Flowは比較的シンプルでスケ…

2024-09-01

【Tips】ChatGPT 4oで日本語の数式を含む文書画像をOCRしてMarkdownで出力する

ChatGPT Tips

ChatGPTに日本語を含むの画像を添付して、例えば「画像からテキストを抽出し、Markdown形式で出力」のような指示でテキスト化しようとすると、 It seems that the required Japanese language data for optical character recognition (OCR) is not availabl…

2024-09-01

【読書ノート】深層ニューラルネットワークの高速化

読書ノート

書籍「深層ニューラルネットワークの高速化」を読んだので内容をまとめる。以下の内容は、ほとんどClaude3.5 Sonnetを使用して作成している。目次第1章はじめに 1.1 高速化の意義 1.2 高速化の理論的背景 1.3 用語の整理第2章高速化手法の概要 2.1 量子…

2024-08-25

【読書ノート】意識の脳科学　「デジタル不老不死」の扉を開く

読書ノート

書籍「意識の脳科学「デジタル不老不死」の扉を開く」を読んだので内容をまとめる。意識のアップロードについて研究されている渡辺正峰先生の著書である。前著「脳の意識機械の意識脳神経科学の挑戦」と重複する内容も多いが、最近のChatGPTの話題につい…

2024-08-25

【dlshogi】位置エンコーディング（その２入玉局面）

コンピュータ将棋 dlshogi

前回、ResNetベースのモデルにおける位置エンコーディングの効果について測定した。結果、位置エンコーディング有無による差は、ほぼなかった。入玉の局面においては、差がある可能性があるため、追加で検証した。実験条件評価データとして、 NNUE系1000…

2024-08-18

【dlshogi】位置エンコーディング

コンピュータ将棋 dlshogi

Ryfamateが採用しているモデル構造の工夫の一つである位置エンコーディングについて検証する。位置エンコーディング畳み込みニューラルネットワークは、位置不変性という特性を持っており、画像の位置をずらした場合でも同じように認識される。将棋では、…

2024-08-03

【dlshogi】ラージカーネルの効果その４（位置情報続き）

前回、Ryfamateと同様の9x1と1x9カーネルを並列にしたブロックは、位置情報が失われているという仮説を立てて、1x1カーネルを加えることで精度を向上できるか検証した。結果、精度が上がることが確かめられたが、単にパラメータ数が増えた効果なのか、位置情…

2024-07-26

【dlshogi】ラージカーネルの効果その３（位置情報）

コンピュータ将棋 dlshogi

前回、Ryfamateと同様の9x1と1x9カーネルを並列にしたブロックが、精度と推論速度の両方でメリットがあることを実験で確認した。【dlshogi】ラージカーネルの効果 - TadaoYamaokaの開発日記【dlshogi】ラージカーネルの効果その２（推論速度） - TadaoYama…

2024-07-20

【dlshogi】ラージカーネルの効果その２（推論速度）

コンピュータ将棋 dlshogi

前回、dlshogiにおけるラージカーネルの精度と訓練速度を測定した。推論については、測定していなかったので、追加で測定した。dlshogiで、Ryfamate Cross Network (RyfcNet)の実験をしていただいたようです。C-Layerは、paddingを行わず、通常のConvolution…

2024-07-18

【dlshogi】ラージカーネルの効果

コンピュータ将棋 dlshogi

dlshogiは昨年はほぼ定跡の自動生成しか行っておらず、モデルの改善は後回しにしていた。定跡の自動生成については、手法がほぼ確立できたので、最近はモデルの改善を行っている。学習データの質と量を増やして、モデルサイズを大きくすれば強くなっていく…

2024-06-27

【読書ノート】The Singularity Is Nearer

読書ノートシンギュラリティ

レイ・カーツワイルの新刊「The Singularity Is Nearer」を読んだので内容をまとめる。著者のレイ・カーツワイルは、技術的特異点が近い将来に到来し、それが人類の進化や生活に革命的な変化をもたらすと主張している。この書籍は、技術の急速な進歩がどのよ…

2024-06-23

【読書ノート】ブルー・オーシャン戦略

読書ノートビジネス

競争を避けながら持続的な成長を実現するビジネス戦略に関する名著「ブルー・オーシャン戦略」を読んだので内容をまとめる。以下の内容は、ほとんどClaude3.5 Sonnetを使用して作成している。目次第１部ブルー・オーシャン戦略とは第１章ブルー・オーシ…

2024-06-22

【読書ノート】Designing Interfaces: Patterns for Effective Interaction Design

読書ノート UI/UX

インターフェースデザインのベストプラクティスとパターンをまとめた「Designing Interfaces: Patterns for Effective Interaction Design」を読んだので内容をまとめる。Jenifer Tidwell著のこの書籍は、効果的なインタラクションデザインを実現するための…