
Stable Diffusionなどの画像生成モデル、学習データとほぼ同じ画像を出力することもある 61
ストーリー by headless
記憶 部門より
記憶 部門より
高品質な画像生成で注目を集める Stable Diffusion などの拡散 (diffusion) モデルが学習データを記憶しており、条件によっては元の画像とほぼ同じ画像を生成させることも可能だという研究成果を Google や DeepMind、バークレー大学などの研究グループが発表した
(Ars Technica の記事、
論文アブストラクト)。
拡散モデルは学習データと似たようなものではない全く新しい画像を生成できる点が魅力であり、学習データのプライバシーも保護できると考えられている。これは拡散モデルが学習データを記憶したり再生成したりしないという前提に基づくものであり、その前提が覆されればプライバシー侵害や著作権侵害の問題が発生する可能性がある。
研究では Stable Diffusion と Google の Imagen を用い、記憶された画像の特定を試みている。Stable Diffusion を用いた実験では学習データのうち最も重複している 35 万点のサンプルを選び、それぞれ 500 点の候補画像を生成。これにより生成された 1 億 7,500 万点の画像のうち、109 点の見た目が学習データとほぼ同じだったという。これにより 50 点の記憶された画像が特定されているが、特に学習データの重複数が 100 件を超えるものに集中していたとのこと。記憶された画像の 58 % は人物を特定可能な写真であり、このほかの画像は販売物 (17 %) やロゴ・ポスター (14 %)、アート・グラフィックといったものだったそうだ。
Imagen でも同じ手順で実験を行っているが、計算上の都合により重複数の多い画像トップ 1,000 のプロンプトに絞って各 500 点の画像を生成させている。結果としては Stable Diffusion よりもはるかに多い画像が記憶されており、1,000 点中 23 点が特定されたとのこと。
最新の拡散モデルでは GAN と比べて 2 倍以上の画像を記憶しており、より役立つ拡散モデルほど記憶している画像が多い。これは時間の経過に伴って脆弱性が増していくことを示すものだという。論文ではプライバシー侵害や贋作生成のリスクを低下させるための対策として、重複データを減らすことや、本研究の攻撃手法やその他の監査技術を用いてリスクを推定すること、プライバシー保護の実用的な技術が利用可能になったら可能な限り使用することを挙げ、本研究が拡散モデルのプライバシーへの過度な期待を緩和することを望んでいる。
拡散モデルは学習データと似たようなものではない全く新しい画像を生成できる点が魅力であり、学習データのプライバシーも保護できると考えられている。これは拡散モデルが学習データを記憶したり再生成したりしないという前提に基づくものであり、その前提が覆されればプライバシー侵害や著作権侵害の問題が発生する可能性がある。
研究では Stable Diffusion と Google の Imagen を用い、記憶された画像の特定を試みている。Stable Diffusion を用いた実験では学習データのうち最も重複している 35 万点のサンプルを選び、それぞれ 500 点の候補画像を生成。これにより生成された 1 億 7,500 万点の画像のうち、109 点の見た目が学習データとほぼ同じだったという。これにより 50 点の記憶された画像が特定されているが、特に学習データの重複数が 100 件を超えるものに集中していたとのこと。記憶された画像の 58 % は人物を特定可能な写真であり、このほかの画像は販売物 (17 %) やロゴ・ポスター (14 %)、アート・グラフィックといったものだったそうだ。
Imagen でも同じ手順で実験を行っているが、計算上の都合により重複数の多い画像トップ 1,000 のプロンプトに絞って各 500 点の画像を生成させている。結果としては Stable Diffusion よりもはるかに多い画像が記憶されており、1,000 点中 23 点が特定されたとのこと。
最新の拡散モデルでは GAN と比べて 2 倍以上の画像を記憶しており、より役立つ拡散モデルほど記憶している画像が多い。これは時間の経過に伴って脆弱性が増していくことを示すものだという。論文ではプライバシー侵害や贋作生成のリスクを低下させるための対策として、重複データを減らすことや、本研究の攻撃手法やその他の監査技術を用いてリスクを推定すること、プライバシー保護の実用的な技術が利用可能になったら可能な限り使用することを挙げ、本研究が拡散モデルのプライバシーへの過度な期待を緩和することを望んでいる。
AIは過学習との戦い (スコア:2, 興味深い)
こっちは2022/12/12の論文。今回の論文と同様にStable Diffusionで同じ絵が出てることを確認したというもの。
https://arxiv.org/abs/2212.03860 [arxiv.org]
Re: (スコア:0)
現状の機械学習のイラストはとても精巧なコラージュに過ぎないのではということが払拭されてないのよね
そして、量が質に変わるかという程度には質に変わってないように見えないのが困る。
ChagGPTとか本当に質が良くなったんかいな。
Re: (スコア:0)
ChatGPTであるなら、日本語はかなりまともだよなあ
まともな日本語で嘘をつくけど
でも、
https://togetter.com/li/1995492 [togetter.com]
でちょろいとは言われているものの、「秘密にする」と言うことは何かは「理解」しているように見える。これはどういうこと何だろうと今でも考えている
挙動を「機械学習的に学習」したのだろうと言うのは簡単だが・・・
Re: (スコア:0)
> 挙動を「機械学習的に学習」したのだろうと言うのは簡単だが・・・
意思や意識が芽生えたなどと主張しだすほうが危険じゃないか?
自然な言葉を使われたらすぐ騙されるって・・・ちょろいぞ
Re: (スコア:0)
いやそんな主張はしていないし
機械学習的に学習と言ったところで、メカニズムの説明としてはかなり物足りないのだ
Re: (スコア:0)
出たての頃は「AIの学習は生物の脳と同じ!コラ画像だと主張する奴は嘘つきのラッダイト!既得権益だから殺せ!」とか信者が絶叫してたけど
最近になって「Diffusionモデルの動作原理は圧縮技術。JPEGをデコードしたら元データが再現されるのは当たり前」と潮目が完全に変わったよね
ああいう風に世論形成を試みる信者ってどこから湧いてくるんだろう、Facebook?
Re: (スコア:0)
何と戦ってんだ
Re: (スコア:0)
機械学習は生物の脳と同じではないし(確かに機械学習のアイデアはニューロンの古いモデルには由来するが今は似て非なるもの)、圧縮技術でもない。だからわざわざ機械学習という別の名前がついてるんだよ。他のものに無理やりなぞらえて批判するのはやめませんか?
「信者」とか言う言い方からしてそういう傾向があるので言っても無駄かもしれないけど。
Re: (スコア:0)
払拭じゃなくてただの事実だろうからなぁ……
特定困難なレベルまで元画像を多様化したら特定できなくなって言い訳出来たかもだけど、それも無理臭いというのが今回のストーリー。
絵柄の変換みたいな変換マップ学習させて適当に3DCG流し込んで画像出力したほうが筋が良かったんじゃねーの。
画像情報 (スコア:1)
学習した情報は一枚絵ではないので生成画像が全体を複製しているものでないと自動検出は困難です。
stable diffusionはテキストで細く分けて学習している部分があるので学習画像に偏りがあり、学習画像の個別の情報のほとんどが消えるほどの十分な量の学習ができていない部分があります。
記憶しているけれど画像情報ではないという解釈をよく見ますが、アルゴリズムや内部表現を理由に画像情報が消えたことにすると圧縮や暗号化との解釈の整合性が取れません。
画像を複製できるということは違法な画像の配布にも利用可能なので、複製可能なものは画像情報を持っていると解釈してモデルの作成・配布・画像生成サービスなどを提供する側の法的責任を明確にする必要があります。生成画像の利用者のみに責任を押し付ける今の解釈では裁判などを起こしてもいたちごっこになります。
Re: (スコア:0)
今の機械学習ブームの問題は、みんな技術を理解せずに知ったかぶりになってるところなんですよね。
> 学習した情報は一枚絵ではないので生成画像が全体を複製しているものでないと自動検出は困難です。
これとか全くのデタラメです。
既存の海賊版とか違法コピーを検出する技術は自動検出を実現してます。
そもそも、スマホに搭載されているQRコードの読み取り機とか、カメラの顔自動認識とか
深層学習登場前から、既知の画像とか人の顔みたいなパターンが画像のどこにふくまれているかを自動検出するアルゴリズムは多数存在しています。
車のナンバーの自動読み取り機とか、工場のラインで製品のチェックをする産業カメラとか、いくらでも実用化例があるわけで
そういう基礎を知らない人が、いきなり stable diffusion とか言い出しちゃう。自動検出は困難ですとか言い出しちゃう。
Re: (スコア:0)
> 技術を理解せずに知ったかぶりになってる
ChatGPTのことかー!
Re: (スコア:0)
画像本体の情報は持っていなくってプロンプトで学習データでもって居る特徴量と
近似値になるまでノイズを掛け合わせた画像を生成しているのでそれは機械学習的には「似た画像」であって
「同じ画像」かどうか判断するだけの情報量はもってねぇよ
Re: (スコア:0)
極論だが、あるビットマップ/RAW画像を、例えばJPEGの適当な量子化設定でエンコードしデコードしたとする。
元画像から情報量が劣化しているからと言って、世間一般的には大体同一の画像だとみなされるよね。
もう研究室や学会・専門家の中だけの話では済まないのだから、「似た」は社会通念的判断で「同じ」扱いを受ける可能性があることを忘れてはいけない。
Re: (スコア:0)
学習データが元画像に由来する画像を含んでいないってのが大嘘なんだろ。
抽出困難な形式ってだけで元画像の断片がどっさり埋まっている。
ここを「元画像は持ってないんだノイズをもとにうんたらかんたらー」
って誤魔化してAIをヨイショしてたアホがあまりに多すぎた。
あと勘違いしているようだが最終的に肝心なのは人間の知覚上同等と見なせるレベルで元画像を持っているか、流用するかだぞ?
結果は黒だったが。
まぁ最初から言われてたがな。
事実認めて静かになるまでこんなに時間かかって……ほんとくだらん。
詭弁じゃなくてもうちょい生産的な所に力使えや、まったく……
Re: (スコア:0)
含んでないよ?
「みかん」ってプロンプトがあったら内部で「みかん」ってタグがついてる特徴量のデータに近くなるまでノイズかけあわすだけ
画像データその物を持ってるわけではない
人間が「みかん」って行ったら色、サイズ、形状はって考えるのと同じようなもんでしかない
i2iなら未だしもプロンプトだけで生成するなら持ってないし技術を理解しないでって言ってるツリーで理解しない思い込みで
話をするんじゃない
Re: (スコア:0)
その「含まれてない」ってJPEG圧縮形式には元画像が含まれてないっていうレベルの「含まれてない」でしょ
というかそのレベルの「含まれてない」は「含まれてる」だって認識で世論が固まりつつあるのが現状
Re: (スコア:0)
全然違うよ
画像生成の機械学習データには元画像のデータは殆ど無い
っていうかあるんだったら何億枚もの画像データのDBが数十GBに収まらないだろう
Re: (スコア:0)
いいえ、含んでいる可能性が否定できないというだけで、含んでいるとは言えません。世論とか技術と関係ない話を持ち出すのは、自分で詭弁だと言っているようなものですね。
Re: (スコア:0)
学習に使った画像すべてではないが
一部の画像については元画像を概ね再現できるだけの情報を持っている
という事でしょう。
推測ですが
1枚の画像から僅かしか学習しないアルゴリズムだとしても
なんらかの条件によりその画像の学習がたくさん実行され過剰に学習されてしまうとか。
出力条件についても
その画像だけ合致し他の画像に合致しない場合、その画像を全力で再現しまうとか。
Re: (スコア:0)
ということは同じ絵が出てくるのは、お猿がシェークスピアを書き上げるレベルの話?
Re: (スコア:0)
猿でも、1文字間違うたびに違いを修正し続ければ、そのうちシェークスピアを書き上げるのではないかな。
Re: (スコア:0)
画像の検出の例がQRコードとか顔認識とか出されると途端に話の信頼性がなくなるですよ
Re: (スコア:0)
かくいうあなたも、その一人でね。
あまたある認識処理がぜんぶ同じ仕組みか何かだと思ってる。
Re: (スコア:0)
顔認識を使うとしてモナリザの目や口の位置をずらしたものをどう判断するかだな
Re: (スコア:0)
横だが、元絵があれば検出はもちろん!容易だが、AIモデルが元絵をそのまま持っているわけではないので、例えばstable diffusion側が「生成された絵が元絵のひとつにそっくり」と判定するのは現実的には困難では?
それを検出する方法とか考えるのは面白いだろうね。
Re: (スコア:0)
「検出」ができたとして、それがアウトorセーフの判定は?
あ、一律にやって不服申し立てが来てから人力?
そりゃそうだ (スコア:1)
特徴点をどんな風に解釈しているとしても、組み合わせて再構成している以上、同じ組み合わせになればできあがるものはほぼ完コピになるのは避けれない。
人間にやらせても、条件が整えばほぼ同じものを出力することもあるはず。
「完コピは悪いこと」って認識があるから、そうなるパターンはいろんな手段で排除されるというだけの話で。
Re: (スコア:0)
もちろん人間にも五輪のエンブレムとか失敗例はあるけど、完コピを防ぐのは今のところどんな創作物においても人間の役割だよね。要するに、今の段階では汎用性のあるモデルをそのまま創作に用いるのはまずい、ということだ。出力が専門家と比べてどの程度優秀かばかりが注目されてるけど、うっかりパクってしまう事故の確率は専門家よりはるかに高いのだろう。
#初めてレポートを書いた学生の時の話なんだけど、「レポートのまとめ方」のような本を途中まで読んでから課題に取り組んだら、書いた議論や文体がその本の後半にある作例にほぼ一致してたらしく、剽窃を疑われてそのまま単位が無くなった思い出がある。人間でも、知るなら全部を知らないと事故を起こすものだ。
実用上は (スコア:0)
できた画像が学習データと類似しているかを判定する判別機を同時に作って組み込んでおいて生成途中でNGなものをハネるだけで回避できるような気がする。
Re:実用上は (スコア:1)
「だけ」と付ければ何でも簡単そうに見えてきますよね。
Re: (スコア:0)
問題は「類似している」判定が、今のAIには難しい、或いは不可能ってことですね。
結局はその部分も教師信号に依存している。
Re: (スコア:0)
学習元データを何処に置くのかとか
元データを保持して検出するえーあいを作れば良いのか?
Re: (スコア:0)
葛飾北斎風にして、とかミュシャ風にして、とか
既存作品に類似するように作って と言う指示に対しては、何も生成できなくなるわな
対策は簡単 (スコア:0)
この問題、対処は簡単です。
AIが生成した画像をクエリにして学習データに似た画像があるかないか画像検索を行うモジュールを追加して、似た画像があればその画像はユーザに見せない、ってやるだけ。
技術的には、画像検索のアルゴリズムなんていくらでもあって
例えば20年ぐらい前に流行ったSIFT特徴量みたいな古典的なアルゴリズムを使うだけでも実用レベルで動作します。
さらに古典的と言ってもハッシュベースの手法だから、クラウド使えば容易に負荷分散できる。スケールアウトできる。
特許はチェックする必要があるだろうけど、技術的問題は既に全部解決していると言っても過言ではないでしょう。
つまり、この話は問題提起としては成立しているけど、対処が簡単だから大した脅威にはならないです。
Re:対策は簡単 (スコア:4, 興味深い)
そう簡単ではない。
使えば分かるが、対象オブジェクトの生成とレイアウトがどこかで大きく分岐しているので、
対象オブジェクトは、ほぼどこかのコピペ、但しポーズやレイアウトだけは異なる、
という二次創作画像が頻繁に生成される。
「画像全体として似た画像」はなくても、「構成する要素はほぼ元ネタのまま」が出来るだけなので、
似た画像をカットする手法だけでは、解決にならないと考えられる。
さらに、手だけ変、みたいな一部分だけが元画像と異なるものも生成されやすく、
「画像から切り出したオブジェクトデータベースと似たものを外していく」みたいなワークアラウンドだと、
部分を構成する要素「だけ」が差し替えられていって、「似る」の閾値を超えないぎりぎりまで、
パーツを変えて生成されていくだけになると想像できる。
つまり、行きつく先はコラージュになる。
そのコラージュがどこまで許されるか、というのは私には分からないが。
以上の話、似た恰好の人物が多数登場する作品名を入力すると、単純ではないことが分かると思う。
例えば「Dragon Ball Z」と入力してみればいい。
Re: (スコア:0)
別ACですが、おすすめの『 dragon ball z 』試してみましたが。。。苦笑いしかできない。
やはり、特定の作品を指定すると同じものしか出てこないのは、当たり前のことで、『 munch scream 』や『 monalisa picasso 』でも似たような結果。
毎回毎回違うので、同じ結果とは限りませんが、『 scream of munch, picasso style 』だと近いけれど少し違う。comic とか追加すると別物になった。
作品名で同じ、似ているモノが出てくるのは避けられないかと。
あまり似ていなければ、別物だと人間が認識してしまうだろう。
#だた学習内容に偏りがるのか、日本語が得意で
Re: (スコア:0)
NARUTOもお勧め…は置いといて、
学習内容に偏りがあるのは日本に限らず、
Apple Logoはほぼそのまま出るのに、
Power Buttonのアイコンなど、
規格が決めているものにも関わらず、
容易に出てこなかったりする。
英文字はSONYとか容易に出るのに、
かな漢字は一つも出ないとか、
記号的なものがアルファベットに特化される形に
過学習されてしまっている弊害も起きていそう。
Re: (スコア:0)
行き着く先と言うか構成要素が初手からコラージュなんでどうしようもない。
特定がしやすいかしにくいか、それだけでしかない。
3Dシーンデータ←→二次元画像の変換とかに特化させて、
有意なシーンデータの生成とか画風の再現を行うシステムならどうにかなり得たけど、
ディープフェイクに次ぐ高度なコラージュシステムなんてしょーもない物もてはやすからこうなる。
変換レイヤ一枚足したらそりゃあ難易度も精度もだだ下がりするだろうけど、
先が全く見えない絶望的難易度ってほどでもないだろうに……
先走った結果生成系AIで唯一真っ先にクリーンな生成物出せるようになったかもしれない画像生成AI全部にケチがついた。3DCGの知見を活かせるから圧倒的に有利なはずなのに、勿体ない……
文章系でPerplexity.aiとかは出典示す方向に舵切れてて大変素晴らしいけど、あとはだいたい品質も内容もデータソースもごまかして終わり。しょーもな……
Re: (スコア:0)
まだ学習コストが大幅に低減すれば技術としては再構築でなんとかなる可能性はあると思う
むしろOpenAIやらがブチ込んだコストを回収できるアテがない方が問題かもしれない
Re: (スコア:0)
絵描きAIはヘビーに使いたい方には課金とか、GPTならGPTを使うAPIに課金とかしてるんじゃなかったっけ
上手くやれば競合が乱立するまではボロ儲けできるやもだ
Re: (スコア:0)
例えば、どう見たってダリが描いてないだろな「ダリが描いたラーメン」とかは?
ケチがついてるの?
3DCGと言えば3Dモデルを出力できるのもあるし、まだまだ色々ある
ネタはつきないが、もうケチがついた、終わったですとな
権益面での話はトリアーエズ避けるが、技術面での今後の進歩は予想もつかない。論文フォローとか俺に出来るのかすら判らない位ザクザクある(AIの補助が欲しい)、芸術だけでなく材料とかの方面でも実用はゴリゴリ進んでいる
俺的には有る意味特異点来てしまったよ。特異点がどうとかは嘲笑う方針だったんだけどね
Re: (スコア:0)
問題は数十億枚の特徴データがどんくらいのサイズになるかだよ。
SD単体だと4GB程度なのに。類似してるか判定するのにどんだけ容量とマシンパワー使うの。
Re: (スコア:0)
似た画像を見せないようにしたらノイズみたいな変な画像しか残らないんじゃないの
Re: (スコア:0)
○○風の××とかを指示しても○○風が出てこないAIになりそう
Re: (スコア:0)
簡単に実現できるなら、計算資源が潤沢なグーグル様がすでにやってるだろうなあ
学は! (スコア:0)
真似るであって近似正解?
Re: (スコア:0)
連想記憶とか言ってた時代は出来るだけ正解に近づけるのが正義だった
現代は正解を出すと怒られる
人生は複雑だ
うむ (スコア:0)
簡単だよ!と言って嘘を言うコメントだの
信者が絶叫!とかいう嘘混みのコメントだの
AIと人間の境界が薄れていると言うことだろうか?
ちなみに、お、俺は人間だからな!
Re:うむ (スコア:2)
すべての生きとし生けるものは「タンパク質ベースの計算機」だからな。