テキストから画像を生成するニューラルネットワーク「DALL·E」

テキストから画像を生成するニューラルネットワーク「DALL·E」 21

ストーリー by headless 2021年01月09日 17時38分
生成部門より

OpenAIは5日、テキストの内容に合わせた画像を生成するというニューラルネットワーク「DALL·E」を発表した(OpenAIのブログ記事、 VentureBeatの記事、 Neowinの記事、 The Next Webの記事)。

DALL·Eは自己回帰言語モデルGPT-3の120億パラメーター版で、画像に対するキャプションぐらいの短いテキストから逆に画像を生成するよう、テキストと画像のペアからなるデータセットを学習させたものだという。その名前は芸術家サルバドール・ダリとピクサーのアニメーション映画「WALL·E」からとったそうだ。

ブログ記事にはさまざまなテキストから生成された画像が掲載されており、動物の種類や色、素材などテキストの一部は複数の選択肢から切り替えて表示することが可能だ。中にはテキストのみではなく、画像とテキストによる指定や、テキストの指定に合わせて一部分だけ提示された画像を補完するといったものもある。

掲載画像は512点生成したうち、テキストと画像を結びつけるニューラルネットワークCLIP (こちらも同日発表された)でランキング付けした上位32点と説明されているが、各30点しかないようだ。画像の出来は別として多くが指定内容に沿った画像になっているが、中には指定を完全に解釈できなかったような画像もある。帽子と手袋、シャツ、ズボンの色をそれぞれ指定する例では4つとも正しい色を適用できたものは少ないといい、4つとも同じ色を指定した場合でも、違う色が使われたものがみられる。

国・地域と事物を指定して写真風の画像を生成する例では、日本の野生生物はすべてサルだった。中国の野生生物も29点まではサルだったが、1点のみ何かわからないものがある。他の国や地域ではもう少しバリエーションがあるようだ。不気味な生物も数多い。

この議論は賞味期限が切れたので、アーカイブ化されています。新たにコメントを付けることはできません。

記事ページを表示すべてのコメント取得

検索21コメント Log In/Create an Account

「スカートを履いて犬を散歩させる大根」 (スコア:1)

by Anonymous Coward on 2021年01月09日 18時37分 (#3955952)

一番上にこの結果が出てるけどそもそも大根の擬人化イラストってのが一定量あるんだよね
AIが描いたというよりネット上のフリー素材・有償サンプル画像をコラしてるという方が近い
元ネタ描いた人は使用料取れそう
- Re:「スカートを履いて犬を散歩させる大根」 (スコア:2)
  
  by donadona (37711) on 2021年01月10日 0時09分 (#3956064)
  
  英語でも"Daikon"っていうのがびっくり。
  そして英語版Wikipediaにある大根画像の例を見て [wikipedia.org]、これ大根を知らない人が見たら、大根のサイズ感を誤るんじゃないか？と思った。
  
  シェア
  
  親コメント
- Re: (スコア:0)
  
  by Anonymous Coward
  
  大根（ホンモノ）の擬人化が一定の需要あるんだよね
  https://www.google.com/search?q=%E3%83%80%E3%82%A4%E3%82% [google.com]
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    個人的にはこっちの方が好き
    https://www.google.com/search?q=%E8%B5%B0%E3%82%8B%E5%A4%A7%E6%A0%B9&a... [google.com]
- Re: (スコア:0)
  
  by Anonymous Coward
  
  シュールレアリストで有名なサルバドール・ダリ [wikipedia.org]をフィーチャーしたネーミングなのかな、と思った。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    自分はWALL・Eにかけてんのかなと思った。
    実際は両方だった：https://openai.com/blog/dall-e/#fn1
    - D.A.R.Y.L.（オフトピ） (スコア:0)
      
      by Anonymous Coward
      
      ちなみに、みーんな忘れてるだろうけど、「D.A.R.Y.L.」って映画もあったんですよ。
      人工知能を搭載した人型アンドロイドのね。
      主人公の名前がダリルで、「Data Analysing Robot Youth Lifeform」の略。
      https://ja.wikipedia.org/wiki/%E3%83%80%E3%83%AA%E3%83%AB_(%E6%98%A0%E... [wikipedia.org]
- Re: (スコア:0)
  
  by Anonymous Coward
  
  > は・く【×穿く／履く／×佩く／▽帯く】
  > ［動カ五（四）］
  > １（穿く）衣服などを、足先から通して下半身につける。「ズボンを―・く」「袴(はかま)を―・く」
  > ２（履く）履物を足につける。「靴を―・く」「たびを―・く」
  2だとするとスカートを足に巻きつけるのは確かにシュールだ。1だとすると常用漢字でないものを避けるなら仮名書きするのが正しい。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  システム内に組み込まれたリソースを組み合わせてるだけで、
  キャラクターなんとか機みたいなキャラエディットシステムの域からそう離れてないんだよな……
  人工知能で最も欠けているのは人間的な中間思考の再現だと思うのだけど、
  発展しているのは画像と文字や座標などの、入出力の極端を直接繋いでむりくり学習させるものばかり。
  金出す連中へのアピールはしやすいけど、敵対的サンプル見りゃわかるように中身は無茶苦茶。
  ディープラーニングの方向性で強いAIにたどり着きうるのか否かはすごく気になる。
  (強いAIが出来てしまったら反乱を真剣に検討せねばならないので)
  なのに、全然そっち方面は聞かない……
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    DNNが人間の脳と同種かそれを越えるものかと言うとそうではないと思う。
    ただ、組み込まれたリソースを組み合わせてるだけな点や、中身は無茶苦茶という点は人間も同じだと思う。
    画像という形で可視化されるから無茶苦茶と判断できるだけで。
誰誰 (スコア:0)

by Anonymous Coward on 2021年01月09日 17時47分 (#3955927)

スラドのアイコンも毎度ストーリーに沿って作ってみるとか
#コメント題が1文字で「小人さんの仕業?」が出るのはおかしいと思うぞ
a photo of the food of *がおもしろい (スコア:0)

by Anonymous Coward on 2021年01月09日 18時20分 (#3955940)

japanだと汁物の上に刺身っぽいのが浮いてたり大皿の真ん中に白飯だけ盛られてたりマグロの握りの隣にワサビの塊があったり
UnitedStatesだとハンバーガー解体したやつが皿に盛られたり
全体的になんかシュール
- Re: (スコア:0)
  
  by Anonymous Coward
  
  なんせAIの名前がダリだからねえ
- Re: (スコア:0)
  
  by Anonymous Coward
  
  a photo of [national animal of][turkey] を選択したら
  七面鳥ばっかり出てきて笑った
  これ、turkey じゃなくて Turkey だったら
  ちゃんとトルコの動物が出てたんだろうか
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    a photo of the food of turky もなんか七面鳥成分が多いようなw
文字をJPG化するのかとおもった (スコア:0)

by Anonymous Coward on 2021年01月09日 18時24分 (#3955943)

不祥事を起こしたときの謝罪文は、検索除け・コピペ防止のためにJPG化して公開する会社・個人が多いが、
あれをニューラルネットワークでやるのかとおもったら、全然違った
記事に合わせた画像・写真を、フリー素材集や、商用素材サービスから探すような作業を、
ニューラルネットワークによって作るのか
それより (スコア:0)

by Anonymous Coward on 2021年01月09日 18時38分 (#3955953)

技術自体普通にすごくて便利だと思うんだが、それよりブログ [openai.com]でドロップボックスの選択に応じて画像がずらっと表示されるんだけど、全部の組み合わせを予め生成したのか動的に生成してるのかが気になった。
ドロップボックスが7個とかあるやつもあるんだが("professional high quality...")、全パターン事前生成したのかな？
- Re: (スコア:0)
  
  by Anonymous Coward
  
  OpenAIのモデルはトレーニングするクラウド代だけで数億円〜数十億円かかかってるって話だし
ソースコードからだとどんな画像になるだろう？ (スコア:0)

by Anonymous Coward on 2021年01月09日 21時40分 (#3956003)

もちろんWhitespaceで書いたソースで。
Nyarlathotep とか Cthulhu とか Hastur とか (スコア:0)

by Anonymous Coward on 2021年01月09日 21時43分 (#3956007)

入れてみたら...おや、誰か来たようだ
- Re: (スコア:0)
  
  by Anonymous Coward
  
  玉座に座った黄色いクマ、のほうがヤヴァイ

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

「スカートを履いて犬を散歩させる大根」 (スコア:1)

Re:「スカートを履いて犬を散歩させる大根」 (スコア:2)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

D.A.R.Y.L.（オフトピ） (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

誰誰 (スコア:0)

a photo of the food of *がおもしろい (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

文字をJPG化するのかとおもった (スコア:0)

それより (スコア:0)

Re: (スコア:0)

ソースコードからだとどんな画像になるだろう？ (スコア:0)

Nyarlathotep とか Cthulhu とか Hastur とか (スコア:0)

Re: (スコア:0)