qem_moriokaのページ

qem_moriokaのコメント: Re:このプロジェクトが失敗すると (スコア 1) 76

by qem_morioka 2017年10月22日 22時47分 (#3300025) ネタ元: Microsoftが進める「Andromeda」と呼ばれるプロジェクト

知らない事を素直に知らないって言えないのは私も貴方も同じなんですね、わかります

qem_moriokaのコメント: Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!･･･」 (スコア 1) 119

by qem_morioka 2017年10月22日 22時46分 (#3300024) ネタ元: 新たな囲碁AI「AlphaGo Zero」、人間の対局データを使わないことでさらなる強さを獲得

その原典をもう少し調べて、と私は書きましたが提示された論文「Mastering the Game of Go without Human Knowledge」は
AlphaGo Zeroの論文であってAlphaGo 無印の論文ではありませんでした。

私がAlphaGO無印についての認識が間違ってるという話なのにZeroについての
論文を提示されたようですが、そこの論文に書いてある言葉を何度かググって
AlphaGO無印についての論文にたどり着いたので、それを読み解いてます。

Mastering the Game of Go with Deep Neural Networks and Tree Search

fast rollout policyが高速(評価)ネットワークですね。

qem_moriokaのコメント: Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!･･･」 (スコア 1) 119

by qem_morioka 2017年10月21日 14時37分 (#3299497) ネタ元: 新たな囲碁AI「AlphaGo Zero」、人間の対局データを使わないことでさらなる強さを獲得

ありがとうございます。AlphaGoが盤面の評価をしていないというのが
間違いだったんですね。

その原典をもう少し調べて読み解くと、学習そして実戦までに
3つのニューラルネットを使っていました。

(1)既存棋譜の学習によって推論する方針ネットワーク
(2)局面においてどちらが勝つかを推論する評価値ネットワーク
(3)方針ネットワークは計算に時間がかかるので高速評価のための高速ネットワーク

方針ネットワークは評価値ネットワークの強化学習のために
学習段階で使いますが、実戦時の探索中にまったく新しいルートを
評価するときに使用するぐらいで、評価値ネットワークの学習が終わった後は
ほとんど使用していません。

実戦の時は評価値ネットワークの結果を高速ネットワークを使って
勝敗が決するまで手をすすめて(プレイアウト)評価しています。

調整とか微調整だとか言っているのは、評価値ネットワークの学習段階で、
自己対戦による強化学習の後、もう一度方針ネットワークと対戦させて
その予測の違いをパラメーター調整しているので、そのことを指しているのだと
思います。

まだなんか理解がまちがってるところってありますか?

qem_moriokaのコメント: Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!･･･」 (スコア 1) 119

by qem_morioka 2017年10月21日 10時41分 (#3299419) ネタ元: 新たな囲碁AI「AlphaGo Zero」、人間の対局データを使わないことでさらなる強さを獲得

AlphaGO無印は学習の初期段階で棋譜を使っていました。これは教師あり学習で
間違い無いですか?

それに対して今回のZeroは初期段階でも棋譜を使いませんでした。

ただ、無印は棋譜で学習した後で、Zeroはいきなり最初から、
自己対戦を繰り返して学習していますが、これは教師あり/なしとかは関係なく
強化学習ですよね?

そちらの認識だと強化学習をしているなら教師あり学習だということですが?

qem_moriokaのコメント: Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!･･･」 (スコア 1) 119

by qem_morioka 2017年10月21日 0時48分 (#3299322) ネタ元: 新たな囲碁AI「AlphaGo Zero」、人間の対局データを使わないことでさらなる強さを獲得

モンテカルロ木探索がゲーム木探索であることを覚えろ。ゲーム木探索だから可能手を子節点に持つ。ルールを知らなければ子節点を一つも作れない。

モンテカルロ木探索はゲーム木探索じゃないですよ。
可能手を子節点にしているのは棋譜による初期学習の結果です。
そこから先はランダムに選んだ手を最後勝敗がつくまでシミュレートします。

http://pug.raph.free.fr/files/PowerOfForgetting.pdf

でも全ての手についてシミュレートするのは時間的に不可能ですし、より強い手を
選び出すために何らかの方針が必要となってきます。
そこに畳み込みニューラルネットワークをつかってより有望な手を絞り込んでるんですが
どこが微調整なんでしょう?

qem_moriokaのコメント: Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!･･･」 (スコア 0) 119

by qem_morioka 2017年10月21日 0時34分 (#3299319) ネタ元: 新たな囲碁AI「AlphaGo Zero」、人間の対局データを使わないことでさらなる強さを獲得

強化学習だけでしたらAlphaGO無印も自己対戦による強化学習を数千万回行ってます。
その前に棋譜よる初期学習を必要としたAlphaGo無印と、それが不要になった今回のZero
という話なんですが、どこが明らかな間違いなのでしょう。

あとは…目指す目標が教師なし学習のAIというのは事実を言ってるわけでも無く
これが一般認識だと宣言しているわけでもなく、単純に個人の意見として言ってるんですが
AIが目指す目標はそれとは違うというのなら、そちらの意見を上げるべきでしょう。

qem_moriokaのコメント: Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!･･･」 (スコア 1) 119

by qem_morioka 2017年10月21日 0時01分 (#3299300) ネタ元: 新たな囲碁AI「AlphaGo Zero」、人間の対局データを使わないことでさらなる強さを獲得

一つ覚えたな。これからはウソ書くなよ。

覚えたけど、その根拠となるウソじゃない記事あるいは論文ってどこにあります?

qem_moriokaのコメント: Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!･･･」 (スコア 1) 119

by qem_morioka 2017年10月20日 23時58分 (#3299299) ネタ元: 新たな囲碁AI「AlphaGo Zero」、人間の対局データを使わないことでさらなる強さを獲得

コウとられた直後って盤面だけみりゃ取り返すのが最善手なんだし。

その場その場の評価によって次の手を決めるのはAIを導入する前、なかなか
囲碁ソフトが強くなれなかった頃のことです。盤面の評価って人によって様々で
正確な評価が行える数式モデルを作り出せなかったんですよ。

あと学習しているのはあくまで勝利している棋譜ですから、負けていた棋譜を
学習させてもそのような打ち筋はしなくなるだけですよね。

qem_moriokaのコメント: Re:このプロジェクトが失敗すると (スコア 1) 76

by qem_morioka 2017年10月20日 23時36分 (#3299284) ネタ元: Microsoftが進める「Andromeda」と呼ばれるプロジェクト

君、最近よくコメントしてるけど趣旨のとらえにくい（趣旨の無い？）コメントばかりだね。
もう少しよく考えてからコメントしたらどう？

つアンドロメダ病原体

# 君が知らないのも無理は無い。小説は1969年、映画は71年だ。

qem_moriokaのコメント: Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!･･･」 (スコア 1, 荒らし) 119

by qem_morioka 2017年10月20日 18時54分 (#3299118) ネタ元: 新たな囲碁AI「AlphaGo Zero」、人間の対局データを使わないことでさらなる強さを獲得

もはやあなたの考えの中には、ディープニューラルネットさえ無いのな。かわいそうなalphaGoとzero.....

その横文字がどういう意味か良く分からないんで説明してくれませんかね。
モンテカルロ木探索だって使いたくなかった言葉なのにー