アカウント名:
パスワード:
AlphaGO→囲碁のルールは実装していない。ひたすら勝てる手を効率よく捜すことに特化。強化学習も何が正しいか(つまり人間が作った勝てる棋譜)を初期学習させる必要がある。AI「囲碁?何の事か分かりませんが、勝つと言われる状態になる確率が一番高いのはこの手です」
AlphaGO Zero→囲碁のルールを実装している。いわば「教師なし学習」で、AIが目指すひとつの目標。自己学習で強化されるが、初期学習に人の手(棋譜)を使わないのが特徴。AI「俺の経験だと、この手が一番強い」
暫くスラドを見てなかったので、コメントを書く時期を逃してしまいました。
qem_moriokaさんの言葉が不十分で総叩きに合っていますが、基本的にはqem_moriokaさんのおっしゃっている事は納得できます。
Zeroではない方のAlphaGo (AlphaGo Lee) のポリシーネットワークは、与えられた局面から次に指す手を予測するように、人間の棋譜から教師あり学習をさせて作られています。
このネットワークの入力になる「与えられた局面」というのは、碁盤の黒石、白石の配置やルール上打てない点、次に敵に打たれると石が取られる点、等を別々に分解して作られる48枚の19x19の画像です。
まず bubon 氏が擁護している qem_morioka 氏についての指摘をまとめておきます.先週の平日5日間に70近いコメントをしているので,考えてコメントを書けない (#3300037 [srad.jp])事実と意見を書き分けられない (#3299332 [srad.jp])自分の間違いは認めない,間違っていても反論するのが良いと考えている (#3299495 [srad.jp])自分の間違いを認めないので,読み手を誤解させて自分が正しいと思わせようと,事実を曲げてコメントを書く (#3300402 [srad.jp])
bubon 氏のコメントも,擁護している qem_morioka 氏と同じく,確かめられる情報を出さず,要点をまとめられずに自分の主張だけを書くスタイルなのは趣深いです.
漠然と「基本的に」といって具体的な個所を示していただけないのは残念です.読む人を誤解させるためでしょうか.その後で qem_morioka 氏の言っていない新しい話題に移ると,なお理解が難しいですね.
そもそも AlphaGo, AlphaGo Zero において,プログラム側が囲碁のルールを知っているかどうかは重要ではありません.ルールについて qem_morioka 氏が以前書いたコメントの不十分さを,taka2 氏に極端だと指摘された [srad.jp]のが,qem_morioka 氏にはしゃくに触ったものの,その指摘が理解できなかったのでしょう.今回 AlphaGo が再び話題になったので,同じ間違いを繰り返し,反論できないので,話を反らしては間違いの上塗りを重ねた結果が qem_morioka 氏の一連のコメントでしょう.
qem_morioka 氏が
AlphaGO→囲碁のルールは実装していない。ひたすら勝てる手を効率よく捜すことに特化。強化学習も何が正しいか(つまり人間が作った勝てる棋譜)を初期学習させる必要がある。
と強化学習と書いたのに対して,
のように強化学習に触れない,という食い違いがあります.自分の書いていることと食い違うコメントに納得できるのは,なかなか味わい深いですね.
そして,
AlphaGo Zeroの方は、全く人間の棋譜なしで、自分自身で対戦しながら自分を鍛えたので、碁のルールを実装している、という言葉を使っているのだと思います。
において,棋譜なしの自己対戦から碁のルールの実装へはつながりません.qem_morioka 氏以外がわかるのは素晴らしいですね.
あなたの納得はさておき,ほかの読み手が誤解しないように,AC でスコア0 に沈んでいる, qem_morioka 氏の基本的な間違いへの指摘をまとめておきます.
教師なし学習という用語を理解せずに使う: #3299023 [srad.jp] by qem_morioka
AlphaGO Zero→囲碁のルールを実装している。いわば「教師なし学習」で、AIが目指すひとつの目標。
AlphaGo Zero は教師なし学習を使っていない(#3299279 [srad.jp], #3299332 [srad.jp])
AlphaGo での強化学習の役割を誤解している: #3299117 by qem_morioka
AlphaGO無印って初期学習は棋譜使ってるけど、強化学習は微調整程度だったとは知りませんでしたよ。
方針ネットワークは,まず棋士の棋譜を正確に予測するように教師付き学習を行う.そのあと,方針勾配強化学習により,その方針ネットワークを調整している (#3299476 [srad.jp])
相手の指摘が違うというために,細かな違いを大げさに取り上げる: [srad.jp] by qem_morioka
その原典をもう少し調べて読み解くと、学習そして実戦までに3つのニューラルネットを使っていました。(省略)(3)方針ネットワークは計算に時間がかかるので高速評価のための高速ネットワーク
(3) は方針ネットワークと同じ種類の関数で,概要を理解するために区別する必要のない,細かい部分 (#2200402 [srad.jp])
元情報をたどれない,意味不明の訳語を使う: #3300024 [srad.jp] by qem_morioka
fast rollout policyが高速(評価)ネットワークですね。
fast は説明の単語で rollout policy が正しい用語.rollout policy には,高速/評価/ネットワークのどの意味も入っていない,通じない訳語 () [srad.jp]
使っているネットワークを使っていないと間違える: #3299497 [srad.jp] by qem_morioka
方針ネットワークは評価値ネットワークの強化学習のために学習段階で使いますが、実戦時の探索中にまったく新しいルートを評価するときに使用するぐらいで、評価値ネットワークの学習が終わった後はほとんど使用していません。
(3) 実際の棋士との対戦手順を説明している, 前論文12ページの図5では,ステップ d で方針ネットワークが指し手を選ぶ手順に組み込まれている (#3300402 [srad.jp])
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
ナニゲにアレゲなのは、ナニゲなアレゲ -- アレゲ研究家
AI「今度の俺は囲碁に詳しいから知ってるんだッ!!・・・」 (スコア:0)
AlphaGO
→囲碁のルールは実装していない。ひたすら勝てる手を効率よく捜すことに特化。
強化学習も何が正しいか(つまり人間が作った勝てる棋譜)を初期学習させる必要がある。
AI「囲碁?何の事か分かりませんが、勝つと言われる状態になる確率が一番高いのはこの手です」
AlphaGO Zero
→囲碁のルールを実装している。いわば「教師なし学習」で、AIが目指すひとつの目標。
自己学習で強化されるが、初期学習に人の手(棋譜)を使わないのが特徴。
AI「俺の経験だと、この手が一番強い」
Re: (スコア:1)
暫くスラドを見てなかったので、コメントを書く時期を逃してしまいました。
qem_moriokaさんの言葉が不十分で総叩きに合っていますが、基本的にはqem_moriokaさんのおっしゃっている事は納得できます。
Zeroではない方のAlphaGo (AlphaGo Lee) のポリシーネットワークは、与えられた局面から次に指す手を予測するように、
人間の棋譜から教師あり学習をさせて作られています。
このネットワークの入力になる「与えられた局面」というのは、碁盤の黒石、白石の配置やルール上打てない点、次に敵に打たれると石が取られる点、等を
別々に分解して作られる48枚の19x19の画像です。
Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!・・・」 (スコア:1)
まず bubon 氏が擁護している qem_morioka 氏についての指摘をまとめておきます.
先週の平日5日間に70近いコメントをしているので,考えてコメントを書けない (#3300037 [srad.jp])
事実と意見を書き分けられない (#3299332 [srad.jp])
自分の間違いは認めない,間違っていても反論するのが良いと考えている (#3299495 [srad.jp])
自分の間違いを認めないので,読み手を誤解させて自分が正しいと思わせようと,事実を曲げてコメントを書く (#3300402 [srad.jp])
bubon 氏のコメントも,擁護している qem_morioka 氏と同じく,確かめられる情報を出さず,
要点をまとめられずに自分の主張だけを書くスタイルなのは趣深いです.
qem_moriokaさんの言葉が不十分で総叩きに合っていますが、基本的にはqem_moriokaさんのおっしゃっている事は納得できます。
漠然と「基本的に」といって具体的な個所を示していただけないのは残念です.
読む人を誤解させるためでしょうか.
その後で qem_morioka 氏の言っていない新しい話題に移ると,なお理解が難しいですね.
そもそも AlphaGo, AlphaGo Zero において,
プログラム側が囲碁のルールを知っているかどうかは重要ではありません.
ルールについて qem_morioka 氏が以前書いたコメントの不十分さを,taka2 氏に極端だと指摘された [srad.jp]のが,
qem_morioka 氏にはしゃくに触ったものの,その指摘が理解できなかったのでしょう.
今回 AlphaGo が再び話題になったので,同じ間違いを繰り返し,反論できないので,
話を反らしては間違いの上塗りを重ねた結果が qem_morioka 氏の一連のコメントでしょう.
qem_morioka 氏が
AlphaGO
→囲碁のルールは実装していない。ひたすら勝てる手を効率よく捜すことに特化。
強化学習も何が正しいか(つまり人間が作った勝てる棋譜)を初期学習させる必要がある。
と強化学習と書いたのに対して,
Zeroではない方のAlphaGo (AlphaGo Lee) のポリシーネットワークは、与えられた局面から次に指す手を予測するように、
人間の棋譜から教師あり学習をさせて作られています。
のように強化学習に触れない,という食い違いがあります.
自分の書いていることと食い違うコメントに納得できるのは,なかなか味わい深いですね.
そして,
AlphaGo Zeroの方は、全く人間の棋譜なしで、自分自身で対戦しながら自分を鍛えたので、碁のルールを実装している、という言葉を使っているのだと思います。
において,棋譜なしの自己対戦から碁のルールの実装へはつながりません.
qem_morioka 氏以外がわかるのは素晴らしいですね.
あなたの納得はさておき,ほかの読み手が誤解しないように,
AC でスコア0 に沈んでいる, qem_morioka 氏の基本的な間違いへの指摘をまとめておきます.
教師なし学習という用語を理解せずに使う: #3299023 [srad.jp] by qem_morioka
AlphaGO Zero→囲碁のルールを実装している。いわば「教師なし学習」で、AIが目指すひとつの目標。
AlphaGo Zero は教師なし学習を使っていない(#3299279 [srad.jp], #3299332 [srad.jp])
AlphaGo での強化学習の役割を誤解している: #3299117 by qem_morioka
AlphaGO無印って初期学習は棋譜使ってるけど、強化学習は微調整程度だったとは知りませんでしたよ。
方針ネットワークは,まず棋士の棋譜を正確に予測するように教師付き学習を行う.
そのあと,方針勾配強化学習により,その方針ネットワークを調整している (#3299476 [srad.jp])
相手の指摘が違うというために,細かな違いを大げさに取り上げる: [srad.jp] by qem_morioka
その原典をもう少し調べて読み解くと、学習そして実戦までに3つのニューラルネットを使っていました。
(省略)
(3)方針ネットワークは計算に時間がかかるので高速評価のための高速ネットワーク
(3) は方針ネットワークと同じ種類の関数で,概要を理解するために区別する必要のない,細かい部分 (#2200402 [srad.jp])
元情報をたどれない,意味不明の訳語を使う: #3300024 [srad.jp] by qem_morioka
fast rollout policyが高速(評価)ネットワークですね。
fast は説明の単語で rollout policy が正しい用語.
rollout policy には,高速/評価/ネットワークのどの意味も入っていない,
通じない訳語 () [srad.jp]
使っているネットワークを使っていないと間違える: #3299497 [srad.jp] by qem_morioka
方針ネットワークは評価値ネットワークの強化学習のために
学習段階で使いますが、実戦時の探索中にまったく新しいルートを
評価するときに使用するぐらいで、評価値ネットワークの学習が終わった後は
ほとんど使用していません。
(3) 実際の棋士との対戦手順を説明している, 前論文12ページの図5では,
ステップ d で方針ネットワークが指し手を選ぶ手順に組み込まれている (#3300402 [srad.jp])