パスワードを忘れた? アカウント作成
13435793 story
Google

新たな囲碁AI「AlphaGo Zero」、人間の対局データを使わないことでさらなる強さを獲得 119

ストーリー by hylom
人間をやめた方が強い 部門より

Google傘下のDeepMindが、囲碁AI「AlphaGo Zero」を発表した。DeepMindの囲碁AIといえば、囲碁のトップ棋士を相次いで破ったAlphaGoが有名だが、AlphaGo Zeroはわずか3日間の学習でAlphaGoに圧勝したという(ZDNet JapanWIREDITmediaNature誌掲載論文)。

AlphaGo Zeroは人間の対局データをまったく使用せず、AI同士による対局だけで学習を行わせたのが特徴。そのため、初期は完全にランダムな打ち手を選ぶが、数千万回もの自己対局を行った後には人間が行ったことのないような動きを見せるようになったという。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by asanagi (22217) on 2017年10月20日 16時55分 (#3299014) 日記

    二人零和有限確定完全情報ゲームはもうどんな仕組みでも人間の負けは確定ですかね?
    この3日で使ったGCP換算コストも発表してほしい

    • いっそのこと、AIじゃなくて完全解析(全ての手のデーターベース化)を目指すのはどうだろう?

      8×8のオセロ [wikipedia.org]でさえ、まだ完全解析では無いようですが。

      親コメント
    • by Anonymous Coward

      そうかもね。次は複数人数不完全情報ゲーム・・・といっても一番有名なポーカーは手垢がつきまくっているから、麻雀やコントラクトブリッジに挑戦して欲しい。
      麻雀の方はあまり詳しくないが、コントラクトブリッジの商用ソフトはいまだに低級アマチュア並のプレイしかしてくれなくてイライラする。せめて、私みたいなド素人では接待モードにしないとほぼ勝てないくらいのレベルにしてくれ。

      • by Anonymous Coward

        コントラクトブリッジって、競技ルールだと偶然性がなく、割とガチガチなイメージですがそうでもないのですか。

        ポーカーにせよ麻雀にせよ、突き詰めると最後は確率論の分野になりそう。

        • by Anonymous Coward

          趣味でやってるぐらいですがガチガチです

          そもビッドは「私たちはこういうシステムでビッドしますよ」というのを宣言しないといけません。そうでないと通しが使えちゃうので。だから自動です。

          プレイも大方セオリーが決まってます。ここでどのテクニックを使うか? が楽しみではありますが、一か八かというより、もっともよさそうなプレイというのはだいたい一意に決まるらしいです。上級者だと
          我々レベルだと大混乱ですがw

          • by Anonymous Coward

            そこでサイキックの出番だ
            というか、コンピューターどおしの1000万ディールプレイしたペアが作成した人口知能ビッディングシステムとかでプレイされたら、情報公開とか何とかあったもんじゃない気がする。
            「今のビッディングの意味を教えて」って聞いたら、100ページくらいの詳細な条件分岐テーブルとテラバイトの深層学習マップが渡されたりしそう。コントラクトブリッジは練習以外でコンピューターと遊ぶゲームじゃない気がする。

    • by Anonymous Coward

      乱戦になればなるほど、互角に近づく可能性は高いと思う。

      なので、たとえば進める方向の組み合わせが増えるとか,コマを取った時の選択肢が増えるとか、
      コマの種類が増える、コマがスタックできてその順序が戦闘に影響するなどすれば、変わるかもしんない。

      (必ずしも完全情報じゃないけど)「ギレンの野望」シリーズとかにも、けっこういろんな
      「定石」と呼ばれる物があったけど、ああいうのも演繹や帰納といった推論抜きの単純な総当たりの
      試行錯誤だけで作り出すのは難しいかもしれない。
      https://www14.atwiki.jp/imperatorgirenv/pages [atwiki.jp]

      • by Anonymous Coward on 2017年10月20日 17時39分 (#3299054)

        >特定の機体を入れたり入れなかったりするだけで、ほぼシャッフルされちゃって、それがその後の
        >ゲーム進行をガラリと変えてしまうから。
        機械オンリー学習の怖い所は、それすら幾らでも総当たりで実践学習できるって所だろ。

        親コメント
        • by Anonymous Coward

          挙句、試行に人間であることに拠る時間ロスが無い。
          機械の速度からすると、思考どころか決めた一手を指すための時間ですら、長大な時間だ。
          分担して並列化ってのも幾らでも出来る。

    • by Anonymous Coward

      全うなルール通りにやるなら、もう人間の負けですね。
      イカサマをやることを想定した場合はどうなんだろう?
      イカサマの手法はともかくとして、やってる可能性や、イカサマをする/しないのリスクとかも数字で計上されちゃうんだよね。

  • by PEEK (27419) on 2017年10月20日 17時07分 (#3299026) 日記

    遺失工学の塊の自動人形であるノエルも囲碁を趣味にしていたが人間相手で学習していたな。
    イレインと二人で学習させれば同じようなことになるのかな?

    --
    らじゃったのだ
  • AIに創造性があるのではなくて、人間に抜けがあるということなのではなかろうかね。
    結局、今の深層学習がやってることって全パターン評価して最高点を探すという作業であって、論理立てて解法を見つけているわけじゃあないでしょ。

    ゲームみたいに勝ち負けの判断基準がはっきりしていればそれでまったく問題ないだろうし、そこから先はもう単なるパワーゲームになるんじゃないかな。

    • by Anonymous Coward

      これは別に創造性が有るって話ではないよ。
      最初はランダムだって言って居る様に単に勝利のパターンを探すための試行が時間的に効率良く、
      既に無印よりもZEROの方が多くの手をポケットに持って居るってだけだろう。

      • 考えてみると、人間の「創造性」と言われるものも似たようなものじゃなかろうか
        個体レベルではなく群体レベルで

        最初はランダムに行動または「教師付き学習」して、
        成功したものは名声と金を得てさらなる行動すなわち強化学習し、
        そうでないものは「いい歳してxxxなんかして...」と社会的落伍もしくは(時代によっては)餓死して生物的落伍する

        親コメント
  • AlphaGO
    →囲碁のルールは実装していない。ひたすら勝てる手を効率よく捜すことに特化。
    強化学習も何が正しいか(つまり人間が作った勝てる棋譜)を初期学習させる必要がある。
    AI「囲碁?何の事か分かりませんが、勝つと言われる状態になる確率が一番高いのはこの手です」

    AlphaGO Zero
    →囲碁のルールを実装している。いわば「教師なし学習」で、AIが目指すひとつの目標。
    自己学習で強化されるが、初期学習に人の手(棋譜)を使わないのが特徴。
    AI「俺の経験だと、この手が一番強い」

    • by Anonymous Coward on 2017年10月20日 18時22分 (#3299094)

      あなたの人工知能の解釈、以前からウソだらけ。
      だれか彼を教育する学習法を開発してくれ。俺には思いつかん。

      1行目の囲碁のルールは実装していないって、なんだそりゃ。
      一度に百石置く場合とかから学習しているのか?ケッサクだな。
      ちなみに囲碁のルールって、一石ごと交互に置く以外はコウと自死ぐらいしかないのくらいは
      いい加減そろそろ調べて覚えてくれ。

      親コメント
      • 本論はわからんけど囲碁のルールって細かいところは難しいよ
        隅のマガリ四目はそういうもんだとは覚えているけどちゃんと説明するのはでけん
        あと中国ルールだと半目勝ちなのに日本ルールだと半目負けとか

        親コメント
        • 隅のマガリ四目は日本ルールだと「ルールの一部」になっているけど、
          中国ルールでは、ルールの一部ではなく、「ルールから導ける帰結」
          だから、コウ付き隅のマガリ四目とか、コウ材が消せない場合も含めて、
          双方の対局者が納得する結果になるよ。トラズ三目も同様。

          その点で、中国ルールの方が優れている。個人的には、中国ルールの
          偶数ダメの問題を修正した台湾ルールが最も美しいと思う。

          親コメント
      • 一度に百石置く場合とかから学習しているのか?ケッサクだな。

        人間が与えた棋譜がそういうものであれば、そう学習する、そういうものです。
        もちろん食わせた棋譜は勝ったという実績のある棋譜ですから、それには
        囲碁のルールも内包してます。でもそれは棋譜に含まれてるというだけで
        AI自身はルールを持っていない、それがAlphaGO(今回のZeroじゃない方)です。

        なので教師つき学習というのは初期学習をどのようにすればより早くより強くなるのか
        そのAIチューナーみたいな技能が・・・と思っていたらその教師すら不要となったよ
        というのが今回の話。

        安心してください、今回のZeroはちゃんと囲碁のルールを知ってますよwwwww

    • 囲碁のルールを実装していなかったら、ルール違反の手を置いてしまうのでは。

      親コメント
      • ルール違反の手は即座に負けと判定されて、それを学習するので、実戦ではそういう手はもう打たなくなるだけかと。

        AlphaGoはコードだけでは成り立たたず、学習データとセットで評価すべきでしょうから、いわば「コードとしてはルールは記述していないけど、データとしてルールを読み込んでいる」状態といえるでしょう。
        そういうものを「ルールは実装していない」って言うのは極論じゃね、って話は以前にも書きました [srad.jp]

        親コメント
    • 暫くスラドを見てなかったので、コメントを書く時期を逃してしまいました。

      qem_moriokaさんの言葉が不十分で総叩きに合っていますが、基本的にはqem_moriokaさんのおっしゃっている事は納得できます。

      Zeroではない方のAlphaGo (AlphaGo Lee) のポリシーネットワークは、与えられた局面から次に指す手を予測するように、
      人間の棋譜から教師あり学習をさせて作られています。

      このネットワークの入力になる「与えられた局面」というのは、碁盤の黒石、白石の配置やルール上打てない点、次に敵に打たれると石が取られる点、等を
      別々に分解して作られる48枚の19x19の画像です。
      また、教師として与える情報は、その局面から人間がどの点に打ったかという情報です。
      そして、ネットワークの出力は、19x19の各点に対して割り振られた、その点に打つべき確率になっています。

      入力として与える48枚の画像は、碁のルールを踏まえて前処理で生成されていますが、ニューラルネットはこれをただの画像と考えているので、
      そういう意味では、ネットワークは碁のルールを実装していません。また、出力として出て来る確率も、
      ルール上打ってはいけない場所の確率がほとんど0と言うだけです。学習の初期段階では、打ってはいけない所の確率も他に比べて低くはないはずです。

      これに対し、AlphaGo Zeroの方は、全く人間の棋譜なしで、自分自身で対戦しながら自分を鍛えたので、碁のルールを実装している、という言葉を使っているのだと思います。
      そうは言っても、ニューラルネットそのものは、ただの画像を処理して出力する、という意味では AlphaGo Leeと同じくルールを知りません。
      ただし、AlphaGo Zeroのネットワークの入力画像は、AlphaGo Leeよりもずっと単純で、黒石と白石の8手前までの配置と自分の手番が黒か白か、
      という17枚の19x19の画像だけで、ルール上打てない場所などが入っていません。

      また、モンテカルロ木探索に関しては、AlphaGo Lee, Zeroどちらも行っていて、これは碁のルールに基いて行われます。

      親コメント
      • まず bubon 氏が擁護している qem_morioka 氏についての指摘をまとめておきます.
        先週の平日5日間に70近いコメントをしているので,考えてコメントを書けない (#3300037 [srad.jp])
        事実と意見を書き分けられない (#3299332 [srad.jp])
        自分の間違いは認めない,間違っていても反論するのが良いと考えている (#3299495 [srad.jp])
        自分の間違いを認めないので,読み手を誤解させて自分が正しいと思わせようと,事実を曲げてコメントを書く (#3300402 [srad.jp])

        bubon 氏のコメントも,擁護している qem_morioka 氏と同じく,確かめられる情報を出さず,
        要点をまとめられずに自分の主張だけを書くスタイルなのは趣深いです.

        qem_moriokaさんの言葉が不十分で総叩きに合っていますが、基本的にはqem_moriokaさんのおっしゃっている事は納得できます。

        漠然と「基本的に」といって具体的な個所を示していただけないのは残念です.
        読む人を誤解させるためでしょうか.
        その後で qem_morioka 氏の言っていない新しい話題に移ると,なお理解が難しいですね.

        そもそも AlphaGo, AlphaGo Zero において,
        プログラム側が囲碁のルールを知っているかどうかは重要ではありません.
        ルールについて qem_morioka 氏が以前書いたコメントの不十分さを,taka2 氏に極端だと指摘された [srad.jp]のが,
        qem_morioka 氏にはしゃくに触ったものの,その指摘が理解できなかったのでしょう.
        今回 AlphaGo が再び話題になったので,同じ間違いを繰り返し,反論できないので,
        話を反らしては間違いの上塗りを重ねた結果が qem_morioka 氏の一連のコメントでしょう.

        qem_morioka 氏が

        AlphaGO
        →囲碁のルールは実装していない。ひたすら勝てる手を効率よく捜すことに特化。
        強化学習も何が正しいか(つまり人間が作った勝てる棋譜)を初期学習させる必要がある。

        と強化学習と書いたのに対して,

        Zeroではない方のAlphaGo (AlphaGo Lee) のポリシーネットワークは、与えられた局面から次に指す手を予測するように、
        人間の棋譜から教師あり学習をさせて作られています。

        のように強化学習に触れない,という食い違いがあります.
        自分の書いていることと食い違うコメントに納得できるのは,なかなか味わい深いですね.

        そして,

        AlphaGo Zeroの方は、全く人間の棋譜なしで、自分自身で対戦しながら自分を鍛えたので、碁のルールを実装している、という言葉を使っているのだと思います。

        において,棋譜なしの自己対戦から碁のルールの実装へはつながりません.
        qem_morioka 氏以外がわかるのは素晴らしいですね.

        あなたの納得はさておき,ほかの読み手が誤解しないように,
        AC でスコア0 に沈んでいる, qem_morioka 氏の基本的な間違いへの指摘をまとめておきます.

        教師なし学習という用語を理解せずに使う: #3299023 [srad.jp] by qem_morioka

        AlphaGO Zero→囲碁のルールを実装している。いわば「教師なし学習」で、AIが目指すひとつの目標。

        AlphaGo Zero は教師なし学習を使っていない(#3299279 [srad.jp], #3299332 [srad.jp])

        AlphaGo での強化学習の役割を誤解している: #3299117 by qem_morioka

        AlphaGO無印って初期学習は棋譜使ってるけど、強化学習は微調整程度だったとは知りませんでしたよ。

        方針ネットワークは,まず棋士の棋譜を正確に予測するように教師付き学習を行う.
        そのあと,方針勾配強化学習により,その方針ネットワークを調整している (#3299476 [srad.jp])

        相手の指摘が違うというために,細かな違いを大げさに取り上げる: [srad.jp] by qem_morioka

        その原典をもう少し調べて読み解くと、学習そして実戦までに3つのニューラルネットを使っていました。
        (省略)
        (3)方針ネットワークは計算に時間がかかるので高速評価のための高速ネットワーク

        (3) は方針ネットワークと同じ種類の関数で,概要を理解するために区別する必要のない,細かい部分 (#2200402 [srad.jp])

        元情報をたどれない,意味不明の訳語を使う: #3300024 [srad.jp] by qem_morioka

        fast rollout policyが高速(評価)ネットワークですね。

        fast は説明の単語で rollout policy が正しい用語.
        rollout policy には,高速/評価/ネットワークのどの意味も入っていない,
        通じない訳語 () [srad.jp]

        使っているネットワークを使っていないと間違える: #3299497 [srad.jp] by qem_morioka

        方針ネットワークは評価値ネットワークの強化学習のために
        学習段階で使いますが、実戦時の探索中にまったく新しいルートを
        評価するときに使用するぐらいで、評価値ネットワークの学習が終わった後は
        ほとんど使用していません。

        (3) 実際の棋士との対戦手順を説明している, 前論文12ページの図5では,
        ステップ d で方針ネットワークが指し手を選ぶ手順に組み込まれている (#3300402 [srad.jp])

        親コメント
    • by Anonymous Coward

      「教師なし学習」はクラスタリング問題のための学習ですよね.
      動的計画法をベースとする狭義の強化学習は,何と呼ぶんでしょう?報酬あり学習?

    • by Anonymous Coward

      AlphaGO
      →囲碁のルールは実装していない。→ほかのコメントにもあるとおりウソ
      ひたすら勝てる手を効率よく捜すことに特化。→どんな学習プログラムもそうなので、ウソではないが無意味な文
      強化学習も何が正しいか(つまり人間が作った勝てる棋譜)を初期学習させる必要がある。→ウソ。ディープニューラルネットで人間の棋譜学習をしている。強化学習はその後の微調整に使っているが、最終的なプログラムでは捨てられている。
      AI「囲碁?何の事か分かりませんが、勝つと言われる状態になる確率が一番高いのはこの手です」→もはや意味不明。

      AlphaGO Zero
      →囲碁のルールを実装している。→当たり前。
      いわば「教師なし学習」で、AIが目指すひとつの目標。→教師無し学習の意味さえ理解していない典型的な人。ウソ。
      自己学習で強化されるが、初期学習に人の手(棋譜)を使わないのが特徴。→自己学習なんて学習法はない。ディープニューラルネットを自己対戦で学習させている。
      AI「俺の経験だと、この手が一番強い」→もはや例えの機能をはたしていない文

      • AlphaGO無印って初期学習は棋譜使ってるけど、強化学習は微調整程度だったとは知りませんでしたよ。数百万回におよぶ強化学習って微調整レベルのものだったんですか。こいつの基本はモンテカルロ木探索ですから、囲碁のルールなんか知らなくても次の手を捜すことはできますよ(それが勝つ手かどうかは別ですけどね)

        AlhpaGOZeroについては教師無し学習がどういうものかまだ理解できてないんですけど、少なくとも無印と違って囲碁のルールを内包し、初期学習に人間の棋譜を使っていない、ただこの二点しか分かってないんですよね・・・

        自己対戦した結果を学習してるのを自己学習っていいませんか?そういう表記をしている記事もありましたけど・・・

        親コメント
        • by Anonymous Coward

          AlphaGO無印って初期学習は棋譜使ってるけど、強化学習は微調整程度だったとは知りませんでしたよ。-> 良し、一つ覚えたな。これからはウソ書くなよ。
          数百万回におよぶ強化学習って微調整レベルのものだったんですか。→そう。何億回学習しようとも微調整にすらならない場合もある。この場合もそう。これからはウソ書くなよ。
          こいつの基本はモンテカルロ木探索ですから、囲碁のルールなんか知らなくても次の手を捜すことはできますよ(それが勝つ手かどうかは別ですけどね)
          →今日は、モンテカルロ木探索がゲーム木探索であることを覚えろ。ゲーム木探索だから可能手を子節

          • 一つ覚えたな。これからはウソ書くなよ。

            覚えたけど、その根拠となるウソじゃない記事あるいは論文ってどこにあります?

            親コメント
            • by Anonymous Coward on 2017年10月21日 0時52分 (#3299325)

              こいつひょっとして人工無能じゃないか?

              親コメント
            • qem_morioka に対する過去のコメントにあるように,
              以前から自分の間違いは認めない,間違っていても反論するのが良いと考えている ID です.
              気を付けましょう.

              by Anonymous Coward on 2017年08月09日 16時26分 (#3258648) [srad.jp]

              人からの反論にはどこまでも返信するのに、自分の間違いは認める事なく、ここまで話をそらして行くところに病的なものすら感じる。

              by Anonymous Coward on 2017年08月09日 17時16分 (#3258701) [srad.jp]

              普段、人の間違いにえらいこだわっているのは貴殿ではないかと。
              このツリーに限らないが、貴殿が普段延々と食いついているのは十分病的だと思いますよ。

              by qem_morioka (30932) on 2017年08月09日 17時34分 (#3258715) [srad.jp]

              まあ、言いっぱなしの吐き捨てよりはいいだろって思ってるので
              それが病気だと言われれば、病気なんでしょうね。

              #お前の中ではな!

              by Anonymous Coward on 2017年08月09日 17時39分 (#3258720) [srad.jp]

              確かに言いっ放しの吐き捨てとは比べ物にならない誠意ある態度だと思うけど、それが高じて、屁理屈こねてでも言い返す事の方が多くなっているように思います。
              それが病的なレベルだと思います。
              私の中だけでなく、一定程度の人がそう思ってるんじゃないかと思います。「お前の中」は、文脈上、またネットスラングの用法上、「お前の中だけ」の意だと思いますが、その発想こそ病気かと。

              親コメント
          • モンテカルロ木探索がゲーム木探索であることを覚えろ。ゲーム木探索だから可能手を子節点に持つ。ルールを知らなければ子節点を一つも作れない。

            モンテカルロ木探索はゲーム木探索じゃないですよ。
            可能手を子節点にしているのは棋譜による初期学習の結果です。
            そこから先はランダムに選んだ手を最後勝敗がつくまでシミュレートします。

            http://pug.raph.free.fr/files/PowerOfForgetting.pdf [raph.free.fr]

            でも全ての手についてシミュレートするのは時間的に不可能ですし、より強い手を
            選び出すために何らかの方針が必要となってきます。
            そこに畳み込みニューラルネットワークをつかってより有望な手を絞り込んでるんですが
            どこが微調整なんでしょう?

            親コメント
  • by Anonymous Coward on 2017年10月20日 17時07分 (#3299025)

    AlphaGoには勝てるとして
    人間相手だとボロ負けしたりしないかね

    もしくは先手必勝確定で囲碁自体終了なお知らせがでるか

    • Re:対人間は? (スコア:3, すばらしい洞察)

      by Anonymous Coward on 2017年10月20日 17時27分 (#3299044)
      >もしくは先手必勝確定で囲碁自体終了なお知らせがでるか
      正しいコミが計算される
      親コメント
    • by Anonymous Coward

      そう。その可能性は多分にある。
      特に「人間が行ったことのないような動きを見せるようになった」なんて言っている場合は、かなり眉唾。

  • by Anonymous Coward on 2017年10月20日 18時37分 (#3299108)

    序盤の定石なんて、リスク低減を狙った様式美でしかない。
    そもそも定石自体の再評価をする必要もあるのではないかい。
    時代の流行の名残とか、思考する労力の低減のためにある定石であるならば、コンピュータには関係ないよな。

    • by Anonymous Coward

      まあ定石ってのは過去の成功事例でしかないからな。
      ランダムからゲーム終了まで持って行けて、人間の思いもよらない速度で打ち続ける事が出来るので有れば、無からでもその内定石は出て来るだろう。

  • by Anonymous Coward on 2017年10月20日 20時09分 (#3299172)

    将棋のほうでもこういうショックを与えて
    コンピュータ対戦をひたすら避けようとする日本将棋界に迫ってほしいね。

  • by Anonymous Coward on 2017年10月20日 20時10分 (#3299174)

    まぁ最初から井目置かせてもらうけど(弱気)、勿体つけずに打たせろっていう

typodupeerror

クラックを法規制強化で止められると思ってる奴は頭がおかしい -- あるアレゲ人

読み込み中...