[go: up one dir, main page]
More Web Proxy on the site http://driver.im/



パスワードを忘れた? アカウント作成

こちらは、qem_moriokaさんのユーザページですよ。 アナウンス:スラドとOSDNは受け入れ先を募集中です。

13437474 comment

qem_moriokaのコメント: Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!・・・」 (スコア 1) 119

その原典をもう少し調べて、と私は書きましたが提示された論文「Mastering the Game of Go without Human Knowledge」は
AlphaGo Zeroの論文であってAlphaGo 無印の論文ではありませんでした。

私がAlphaGO無印についての認識が間違ってるという話なのにZeroについての
論文を提示されたようですが、そこの論文に書いてある言葉を何度かググって
AlphaGO無印についての論文にたどり着いたので、それを読み解いてます。

Mastering the Game of Go with Deep Neural Networks and Tree Search

fast rollout policyが高速(評価)ネットワークですね。

13436612 comment

qem_moriokaのコメント: Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!・・・」 (スコア 1) 119

ありがとうございます。AlphaGoが盤面の評価をしていないというのが
間違いだったんですね。

その原典をもう少し調べて読み解くと、学習そして実戦までに
3つのニューラルネットを使っていました。

  (1)既存棋譜の学習によって推論する方針ネットワーク
  (2)局面においてどちらが勝つかを推論する評価値ネットワーク
  (3)方針ネットワークは計算に時間がかかるので高速評価のための高速ネットワーク

方針ネットワークは評価値ネットワークの強化学習のために
学習段階で使いますが、実戦時の探索中にまったく新しいルートを
評価するときに使用するぐらいで、評価値ネットワークの学習が終わった後は
ほとんど使用していません。

実戦の時は評価値ネットワークの結果を高速ネットワークを使って
勝敗が決するまで手をすすめて(プレイアウト)評価しています。

調整とか微調整だとか言っているのは、評価値ネットワークの学習段階で、
自己対戦による強化学習の後、もう一度方針ネットワークと対戦させて
その予測の違いをパラメーター調整しているので、そのことを指しているのだと
思います。

まだなんか理解がまちがってるところってありますか?

13436505 comment

qem_moriokaのコメント: Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!・・・」 (スコア 1) 119

AlphaGO無印は学習の初期段階で棋譜を使っていました。これは教師あり学習で
間違い無いですか?

それに対して今回のZeroは初期段階でも棋譜を使いませんでした。

ただ、無印は棋譜で学習した後で、Zeroはいきなり最初から、
自己対戦を繰り返して学習していますが、これは教師あり/なしとかは関係なく
強化学習ですよね?

そちらの認識だと強化学習をしているなら教師あり学習だということですが?

13436327 comment

qem_moriokaのコメント: Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!・・・」 (スコア 1) 119

モンテカルロ木探索がゲーム木探索であることを覚えろ。ゲーム木探索だから可能手を子節点に持つ。ルールを知らなければ子節点を一つも作れない。

モンテカルロ木探索はゲーム木探索じゃないですよ。
可能手を子節点にしているのは棋譜による初期学習の結果です。
そこから先はランダムに選んだ手を最後勝敗がつくまでシミュレートします。

http://pug.raph.free.fr/files/PowerOfForgetting.pdf

でも全ての手についてシミュレートするのは時間的に不可能ですし、より強い手を
選び出すために何らかの方針が必要となってきます。
そこに畳み込みニューラルネットワークをつかってより有望な手を絞り込んでるんですが
どこが微調整なんでしょう?

13436324 comment

qem_moriokaのコメント: Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!・・・」 (スコア 0) 119

強化学習だけでしたらAlphaGO無印も自己対戦による強化学習を数千万回行ってます。
その前に棋譜よる初期学習を必要としたAlphaGo無印と、それが不要になった今回のZero
という話なんですが、どこが明らかな間違いなのでしょう。

あとは…目指す目標が教師なし学習のAIというのは事実を言ってるわけでも無く
これが一般認識だと宣言しているわけでもなく、単純に個人の意見として言ってるんですが
AIが目指す目標はそれとは違うというのなら、そちらの意見を上げるべきでしょう。

13436304 comment

qem_moriokaのコメント: Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!・・・」 (スコア 1) 119

一つ覚えたな。これからはウソ書くなよ。

覚えたけど、その根拠となるウソじゃない記事あるいは論文ってどこにあります?

13436303 comment

qem_moriokaのコメント: Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!・・・」 (スコア 1) 119

コウとられた直後って盤面だけみりゃ取り返すのが最善手なんだし。

その場その場の評価によって次の手を決めるのはAIを導入する前、なかなか
囲碁ソフトが強くなれなかった頃のことです。盤面の評価って人によって様々で
正確な評価が行える数式モデルを作り出せなかったんですよ。

あと学習しているのはあくまで勝利している棋譜ですから、負けていた棋譜を
学習させてもそのような打ち筋はしなくなるだけですよね。

13436286 comment

qem_moriokaのコメント: Re:このプロジェクトが失敗すると (スコア 1) 76

君、最近よくコメントしてるけど趣旨のとらえにくい(趣旨の無い?)コメントばかりだね。
もう少しよく考えてからコメントしたらどう?

アンドロメダ病原体

# 君が知らないのも無理は無い。小説は1969年、映画は71年だ。

13436092 comment

qem_moriokaのコメント: Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!・・・」 (スコア 1, 荒らし) 119

もはやあなたの考えの中には、ディープニューラルネットさえ無いのな。かわいそうなalphaGoとzero.....

その横文字がどういう意味か良く分からないんで説明してくれませんかね。
モンテカルロ木探索だって使いたくなかった言葉なのにー

typodupeerror

開いた括弧は必ず閉じる -- あるプログラマー

読み込み中...