パスワードを忘れた? アカウント作成
16494180 story
人工知能

Stable Diffusionなどの画像生成モデル、学習データとほぼ同じ画像を出力することもある 61

ストーリー by headless
記憶 部門より
高品質な画像生成で注目を集める Stable Diffusion などの拡散 (diffusion) モデルが学習データを記憶しており、条件によっては元の画像とほぼ同じ画像を生成させることも可能だという研究成果を Google や DeepMind、バークレー大学などの研究グループが発表した (Ars Technica の記事論文アブストラクト)。

拡散モデルは学習データと似たようなものではない全く新しい画像を生成できる点が魅力であり、学習データのプライバシーも保護できると考えられている。これは拡散モデルが学習データを記憶したり再生成したりしないという前提に基づくものであり、その前提が覆されればプライバシー侵害や著作権侵害の問題が発生する可能性がある。

研究では Stable Diffusion と Google の Imagen を用い、記憶された画像の特定を試みている。Stable Diffusion を用いた実験では学習データのうち最も重複している 35 万点のサンプルを選び、それぞれ 500 点の候補画像を生成。これにより生成された 1 億 7,500 万点の画像のうち、109 点の見た目が学習データとほぼ同じだったという。これにより 50 点の記憶された画像が特定されているが、特に学習データの重複数が 100 件を超えるものに集中していたとのこと。記憶された画像の 58 % は人物を特定可能な写真であり、このほかの画像は販売物 (17 %) やロゴ・ポスター (14 %)、アート・グラフィックといったものだったそうだ。

Imagen でも同じ手順で実験を行っているが、計算上の都合により重複数の多い画像トップ 1,000 のプロンプトに絞って各 500 点の画像を生成させている。結果としては Stable Diffusion よりもはるかに多い画像が記憶されており、1,000 点中 23 点が特定されたとのこと。

最新の拡散モデルでは GAN と比べて 2 倍以上の画像を記憶しており、より役立つ拡散モデルほど記憶している画像が多い。これは時間の経過に伴って脆弱性が増していくことを示すものだという。論文ではプライバシー侵害や贋作生成のリスクを低下させるための対策として、重複データを減らすことや、本研究の攻撃手法やその他の監査技術を用いてリスクを推定すること、プライバシー保護の実用的な技術が利用可能になったら可能な限り使用することを挙げ、本研究が拡散モデルのプライバシーへの過度な期待を緩和することを望んでいる。
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by Anonymous Coward on 2023年02月05日 13時16分 (#4405667)

    こっちは2022/12/12の論文。今回の論文と同様にStable Diffusionで同じ絵が出てることを確認したというもの。
    https://arxiv.org/abs/2212.03860 [arxiv.org]

    • by Anonymous Coward

      現状の機械学習のイラストはとても精巧なコラージュに過ぎないのではということが払拭されてないのよね
      そして、量が質に変わるかという程度には質に変わってないように見えないのが困る。
      ChagGPTとか本当に質が良くなったんかいな。

      • by Anonymous Coward

        ChatGPTであるなら、日本語はかなりまともだよなあ
        まともな日本語で嘘をつくけど

        でも、
        https://togetter.com/li/1995492 [togetter.com]

        でちょろいとは言われているものの、「秘密にする」と言うことは何かは「理解」しているように見える。これはどういうこと何だろうと今でも考えている

        挙動を「機械学習的に学習」したのだろうと言うのは簡単だが・・・

        • by Anonymous Coward

          > 挙動を「機械学習的に学習」したのだろうと言うのは簡単だが・・・

          意思や意識が芽生えたなどと主張しだすほうが危険じゃないか?
          自然な言葉を使われたらすぐ騙されるって・・・ちょろいぞ

          • by Anonymous Coward

            いやそんな主張はしていないし

            機械学習的に学習と言ったところで、メカニズムの説明としてはかなり物足りないのだ

      • by Anonymous Coward

        出たての頃は「AIの学習は生物の脳と同じ!コラ画像だと主張する奴は嘘つきのラッダイト!既得権益だから殺せ!」とか信者が絶叫してたけど
        最近になって「Diffusionモデルの動作原理は圧縮技術。JPEGをデコードしたら元データが再現されるのは当たり前」と潮目が完全に変わったよね

        ああいう風に世論形成を試みる信者ってどこから湧いてくるんだろう、Facebook?

        • by Anonymous Coward

          何と戦ってんだ

        • by Anonymous Coward

          機械学習は生物の脳と同じではないし(確かに機械学習のアイデアはニューロンの古いモデルには由来するが今は似て非なるもの)、圧縮技術でもない。だからわざわざ機械学習という別の名前がついてるんだよ。他のものに無理やりなぞらえて批判するのはやめませんか?
          「信者」とか言う言い方からしてそういう傾向があるので言っても無駄かもしれないけど。

      • by Anonymous Coward

        払拭じゃなくてただの事実だろうからなぁ……
        特定困難なレベルまで元画像を多様化したら特定できなくなって言い訳出来たかもだけど、それも無理臭いというのが今回のストーリー。
        絵柄の変換みたいな変換マップ学習させて適当に3DCG流し込んで画像出力したほうが筋が良かったんじゃねーの。

  • by Anonymous Coward on 2023年02月05日 12時27分 (#4405655)

    学習した情報は一枚絵ではないので生成画像が全体を複製しているものでないと自動検出は困難です。
    stable diffusionはテキストで細く分けて学習している部分があるので学習画像に偏りがあり、学習画像の個別の情報のほとんどが消えるほどの十分な量の学習ができていない部分があります。
    記憶しているけれど画像情報ではないという解釈をよく見ますが、アルゴリズムや内部表現を理由に画像情報が消えたことにすると圧縮や暗号化との解釈の整合性が取れません。
    画像を複製できるということは違法な画像の配布にも利用可能なので、複製可能なものは画像情報を持っていると解釈してモデルの作成・配布・画像生成サービスなどを提供する側の法的責任を明確にする必要があります。生成画像の利用者のみに責任を押し付ける今の解釈では裁判などを起こしてもいたちごっこになります。

    • by Anonymous Coward

      今の機械学習ブームの問題は、みんな技術を理解せずに知ったかぶりになってるところなんですよね。

      > 学習した情報は一枚絵ではないので生成画像が全体を複製しているものでないと自動検出は困難です。

      これとか全くのデタラメです。
      既存の海賊版とか違法コピーを検出する技術は自動検出を実現してます。

      そもそも、スマホに搭載されているQRコードの読み取り機とか、カメラの顔自動認識とか
      深層学習登場前から、既知の画像とか人の顔みたいなパターンが画像のどこにふくまれているかを自動検出するアルゴリズムは多数存在しています。
      車のナンバーの自動読み取り機とか、工場のラインで製品のチェックをする産業カメラとか、いくらでも実用化例があるわけで
      そういう基礎を知らない人が、いきなり stable diffusion とか言い出しちゃう。自動検出は困難ですとか言い出しちゃう。

      • by Anonymous Coward

        > 技術を理解せずに知ったかぶりになってる
         
        ChatGPTのことかー!

      • by Anonymous Coward

        画像本体の情報は持っていなくってプロンプトで学習データでもって居る特徴量と
        近似値になるまでノイズを掛け合わせた画像を生成しているのでそれは機械学習的には「似た画像」であって
        「同じ画像」かどうか判断するだけの情報量はもってねぇよ

        • by Anonymous Coward

          極論だが、あるビットマップ/RAW画像を、例えばJPEGの適当な量子化設定でエンコードしデコードしたとする。
          元画像から情報量が劣化しているからと言って、世間一般的には大体同一の画像だとみなされるよね。

          もう研究室や学会・専門家の中だけの話では済まないのだから、「似た」は社会通念的判断で「同じ」扱いを受ける可能性があることを忘れてはいけない。

        • by Anonymous Coward

          ということは同じ絵が出てくるのは、お猿がシェークスピアを書き上げるレベルの話?

          • by Anonymous Coward

            猿でも、1文字間違うたびに違いを修正し続ければ、そのうちシェークスピアを書き上げるのではないかな。

      • by Anonymous Coward

        画像の検出の例がQRコードとか顔認識とか出されると途端に話の信頼性がなくなるですよ

      • by Anonymous Coward

        かくいうあなたも、その一人でね。
        あまたある認識処理がぜんぶ同じ仕組みか何かだと思ってる。

      • by Anonymous Coward

        顔認識を使うとしてモナリザの目や口の位置をずらしたものをどう判断するかだな

      • by Anonymous Coward

        横だが、元絵があれば検出はもちろん!容易だが、AIモデルが元絵をそのまま持っているわけではないので、例えばstable diffusion側が「生成された絵が元絵のひとつにそっくり」と判定するのは現実的には困難では?

        それを検出する方法とか考えるのは面白いだろうね。

      • by Anonymous Coward

        「検出」ができたとして、それがアウトorセーフの判定は?
        あ、一律にやって不服申し立てが来てから人力?

  • by akiraani (24305) on 2023年02月05日 22時36分 (#4405810) 日記

    特徴点をどんな風に解釈しているとしても、組み合わせて再構成している以上、同じ組み合わせになればできあがるものはほぼ完コピになるのは避けれない。

    人間にやらせても、条件が整えばほぼ同じものを出力することもあるはず。
    「完コピは悪いこと」って認識があるから、そうなるパターンはいろんな手段で排除されるというだけの話で。

    --
    しもべは投稿を求める →スッポン放送局がくいつく →バンブラの新作が発売される
    • by Anonymous Coward

      もちろん人間にも五輪のエンブレムとか失敗例はあるけど、完コピを防ぐのは今のところどんな創作物においても人間の役割だよね。要するに、今の段階では汎用性のあるモデルをそのまま創作に用いるのはまずい、ということだ。出力が専門家と比べてどの程度優秀かばかりが注目されてるけど、うっかりパクってしまう事故の確率は専門家よりはるかに高いのだろう。
      #初めてレポートを書いた学生の時の話なんだけど、「レポートのまとめ方」のような本を途中まで読んでから課題に取り組んだら、書いた議論や文体がその本の後半にある作例にほぼ一致してたらしく、剽窃を疑われてそのまま単位が無くなった思い出がある。人間でも、知るなら全部を知らないと事故を起こすものだ。

  • by Anonymous Coward on 2023年02月05日 11時41分 (#4405648)

    できた画像が学習データと類似しているかを判定する判別機を同時に作って組み込んでおいて生成途中でNGなものをハネるだけで回避できるような気がする。

    • by Anonymous Coward on 2023年02月05日 17時07分 (#4405734)

      「だけ」と付ければ何でも簡単そうに見えてきますよね。

      親コメント
    • by Anonymous Coward

      問題は「類似している」判定が、今のAIには難しい、或いは不可能ってことですね。

      結局はその部分も教師信号に依存している。

    • by Anonymous Coward

      学習元データを何処に置くのかとか

      元データを保持して検出するえーあいを作れば良いのか?

    • by Anonymous Coward

      葛飾北斎風にして、とかミュシャ風にして、とか
      既存作品に類似するように作って と言う指示に対しては、何も生成できなくなるわな

  • by Anonymous Coward on 2023年02月05日 11時42分 (#4405649)

    この問題、対処は簡単です。

    AIが生成した画像をクエリにして学習データに似た画像があるかないか画像検索を行うモジュールを追加して、似た画像があればその画像はユーザに見せない、ってやるだけ。

    技術的には、画像検索のアルゴリズムなんていくらでもあって
    例えば20年ぐらい前に流行ったSIFT特徴量みたいな古典的なアルゴリズムを使うだけでも実用レベルで動作します。
    さらに古典的と言ってもハッシュベースの手法だから、クラウド使えば容易に負荷分散できる。スケールアウトできる。

    特許はチェックする必要があるだろうけど、技術的問題は既に全部解決していると言っても過言ではないでしょう。
    つまり、この話は問題提起としては成立しているけど、対処が簡単だから大した脅威にはならないです。

    • by Anonymous Coward on 2023年02月05日 12時54分 (#4405658)

      そう簡単ではない。
      使えば分かるが、対象オブジェクトの生成とレイアウトがどこかで大きく分岐しているので、
      対象オブジェクトは、ほぼどこかのコピペ、但しポーズやレイアウトだけは異なる、
      という二次創作画像が頻繁に生成される。
      「画像全体として似た画像」はなくても、「構成する要素はほぼ元ネタのまま」が出来るだけなので、
      似た画像をカットする手法だけでは、解決にならないと考えられる。

      さらに、手だけ変、みたいな一部分だけが元画像と異なるものも生成されやすく、
      「画像から切り出したオブジェクトデータベースと似たものを外していく」みたいなワークアラウンドだと、
      部分を構成する要素「だけ」が差し替えられていって、「似る」の閾値を超えないぎりぎりまで、
      パーツを変えて生成されていくだけになると想像できる。
      つまり、行きつく先はコラージュになる。
      そのコラージュがどこまで許されるか、というのは私には分からないが。

      以上の話、似た恰好の人物が多数登場する作品名を入力すると、単純ではないことが分かると思う。
      例えば「Dragon Ball Z」と入力してみればいい。

      親コメント
      • by Anonymous Coward

        別ACですが、おすすめの『 dragon ball z 』試してみましたが。。。苦笑いしかできない。

        やはり、特定の作品を指定すると同じものしか出てこないのは、当たり前のことで、『 munch scream 』や『 monalisa picasso 』でも似たような結果。

        毎回毎回違うので、同じ結果とは限りませんが、『 scream of munch, picasso style 』だと近いけれど少し違う。comic とか追加すると別物になった。

        作品名で同じ、似ているモノが出てくるのは避けられないかと。
        あまり似ていなければ、別物だと人間が認識してしまうだろう。

        #だた学習内容に偏りがるのか、日本語が得意で

        • by Anonymous Coward

          NARUTOもお勧め…は置いといて、
          学習内容に偏りがあるのは日本に限らず、
          Apple Logoはほぼそのまま出るのに、
          Power Buttonのアイコンなど、
          規格が決めているものにも関わらず、
          容易に出てこなかったりする。

          英文字はSONYとか容易に出るのに、
          かな漢字は一つも出ないとか、
          記号的なものがアルファベットに特化される形に
          過学習されてしまっている弊害も起きていそう。

      • by Anonymous Coward

        行き着く先と言うか構成要素が初手からコラージュなんでどうしようもない。
        特定がしやすいかしにくいか、それだけでしかない。
        3Dシーンデータ←→二次元画像の変換とかに特化させて、
        有意なシーンデータの生成とか画風の再現を行うシステムならどうにかなり得たけど、
        ディープフェイクに次ぐ高度なコラージュシステムなんてしょーもない物もてはやすからこうなる。
        変換レイヤ一枚足したらそりゃあ難易度も精度もだだ下がりするだろうけど、
        先が全く見えない絶望的難易度ってほどでもないだろうに……

        先走った結果生成系AIで唯一真っ先にクリーンな生成物出せるようになったかもしれない画像生成AI全部にケチがついた。3DCGの知見を活かせるから圧倒的に有利なはずなのに、勿体ない……

        文章系でPerplexity.aiとかは出典示す方向に舵切れてて大変素晴らしいけど、あとはだいたい品質も内容もデータソースもごまかして終わり。しょーもな……

        • by Anonymous Coward

          まだ学習コストが大幅に低減すれば技術としては再構築でなんとかなる可能性はあると思う
          むしろOpenAIやらがブチ込んだコストを回収できるアテがない方が問題かもしれない

          • by Anonymous Coward

            絵描きAIはヘビーに使いたい方には課金とか、GPTならGPTを使うAPIに課金とかしてるんじゃなかったっけ

            上手くやれば競合が乱立するまではボロ儲けできるやもだ

        • by Anonymous Coward

          例えば、どう見たってダリが描いてないだろな「ダリが描いたラーメン」とかは?
          ケチがついてるの?

          3DCGと言えば3Dモデルを出力できるのもあるし、まだまだ色々ある
          ネタはつきないが、もうケチがついた、終わったですとな

          権益面での話はトリアーエズ避けるが、技術面での今後の進歩は予想もつかない。論文フォローとか俺に出来るのかすら判らない位ザクザクある(AIの補助が欲しい)、芸術だけでなく材料とかの方面でも実用はゴリゴリ進んでいる

          俺的には有る意味特異点来てしまったよ。特異点がどうとかは嘲笑う方針だったんだけどね

    • by Anonymous Coward

      問題は数十億枚の特徴データがどんくらいのサイズになるかだよ。
      SD単体だと4GB程度なのに。類似してるか判定するのにどんだけ容量とマシンパワー使うの。

    • by Anonymous Coward

      似た画像を見せないようにしたらノイズみたいな変な画像しか残らないんじゃないの

    • by Anonymous Coward

      ○○風の××とかを指示しても○○風が出てこないAIになりそう

    • by Anonymous Coward

      簡単に実現できるなら、計算資源が潤沢なグーグル様がすでにやってるだろうなあ

  • by Anonymous Coward on 2023年02月05日 12時16分 (#4405652)

    真似るであって近似正解?

    • by Anonymous Coward

      連想記憶とか言ってた時代は出来るだけ正解に近づけるのが正義だった
      現代は正解を出すと怒られる
      人生は複雑だ

  • by Anonymous Coward on 2023年02月06日 20時30分 (#4406334)

    簡単だよ!と言って嘘を言うコメントだの
    信者が絶叫!とかいう嘘混みのコメントだの

    AIと人間の境界が薄れていると言うことだろうか?

    ちなみに、お、俺は人間だからな!

typodupeerror

日々是ハック也 -- あるハードコアバイナリアン

読み込み中...