
テキストから画像を生成するニューラルネットワーク「DALL·E」 21
ストーリー by headless
生成 部門より
生成 部門より
OpenAIは5日、テキストの内容に合わせた画像を生成するというニューラルネットワーク「DALL·E」を発表した(OpenAIのブログ記事、 VentureBeatの記事、 Neowinの記事、 The Next Webの記事)。
DALL·Eは自己回帰言語モデルGPT-3の120億パラメーター版で、画像に対するキャプションぐらいの短いテキストから逆に画像を生成するよう、テキストと画像のペアからなるデータセットを学習させたものだという。その名前は芸術家サルバドール・ダリとピクサーのアニメーション映画「WALL·E」からとったそうだ。
ブログ記事にはさまざまなテキストから生成された画像が掲載されており、動物の種類や色、素材などテキストの一部は複数の選択肢から切り替えて表示することが可能だ。中にはテキストのみではなく、画像とテキストによる指定や、テキストの指定に合わせて一部分だけ提示された画像を補完するといったものもある。
掲載画像は512点生成したうち、テキストと画像を結びつけるニューラルネットワークCLIP (こちらも同日発表された)でランキング付けした上位32点と説明されているが、各30点しかないようだ。画像の出来は別として多くが指定内容に沿った画像になっているが、中には指定を完全に解釈できなかったような画像もある。帽子と手袋、シャツ、ズボンの色をそれぞれ指定する例では4つとも正しい色を適用できたものは少ないといい、4つとも同じ色を指定した場合でも、違う色が使われたものがみられる。
国・地域と事物を指定して写真風の画像を生成する例では、日本の野生生物はすべてサルだった。中国の野生生物も29点まではサルだったが、1点のみ何かわからないものがある。他の国や地域ではもう少しバリエーションがあるようだ。不気味な生物も数多い。
DALL·Eは自己回帰言語モデルGPT-3の120億パラメーター版で、画像に対するキャプションぐらいの短いテキストから逆に画像を生成するよう、テキストと画像のペアからなるデータセットを学習させたものだという。その名前は芸術家サルバドール・ダリとピクサーのアニメーション映画「WALL·E」からとったそうだ。
ブログ記事にはさまざまなテキストから生成された画像が掲載されており、動物の種類や色、素材などテキストの一部は複数の選択肢から切り替えて表示することが可能だ。中にはテキストのみではなく、画像とテキストによる指定や、テキストの指定に合わせて一部分だけ提示された画像を補完するといったものもある。
掲載画像は512点生成したうち、テキストと画像を結びつけるニューラルネットワークCLIP (こちらも同日発表された)でランキング付けした上位32点と説明されているが、各30点しかないようだ。画像の出来は別として多くが指定内容に沿った画像になっているが、中には指定を完全に解釈できなかったような画像もある。帽子と手袋、シャツ、ズボンの色をそれぞれ指定する例では4つとも正しい色を適用できたものは少ないといい、4つとも同じ色を指定した場合でも、違う色が使われたものがみられる。
国・地域と事物を指定して写真風の画像を生成する例では、日本の野生生物はすべてサルだった。中国の野生生物も29点まではサルだったが、1点のみ何かわからないものがある。他の国や地域ではもう少しバリエーションがあるようだ。不気味な生物も数多い。
「スカートを履いて犬を散歩させる大根」 (スコア:1)
一番上にこの結果が出てるけどそもそも大根の擬人化イラストってのが一定量あるんだよね
AIが描いたというよりネット上のフリー素材・有償サンプル画像をコラしてるという方が近い
元ネタ描いた人は使用料取れそう
Re:「スカートを履いて犬を散歩させる大根」 (スコア:2)
英語でも"Daikon"っていうのがびっくり。
そして英語版Wikipediaにある大根画像の例を見て [wikipedia.org]、これ大根を知らない人が見たら、大根のサイズ感を誤るんじゃないか?と思った。
Re: (スコア:0)
大根(ホンモノ)の擬人化が一定の需要あるんだよね
https://www.google.com/search?q=%E3%83%80%E3%82%A4%E3%82% [google.com]
Re: (スコア:0)
個人的にはこっちの方が好き
https://www.google.com/search?q=%E8%B5%B0%E3%82%8B%E5%A4%A7%E6%A0%B9&a... [google.com]
Re: (スコア:0)
シュールレアリストで有名なサルバドール・ダリ [wikipedia.org]をフィーチャーしたネーミングなのかな、と思った。
Re: (スコア:0)
自分はWALL・Eにかけてんのかなと思った。
実際は両方だった:https://openai.com/blog/dall-e/#fn1
D.A.R.Y.L.(オフトピ) (スコア:0)
ちなみに、みーんな忘れてるだろうけど、「D.A.R.Y.L.」って映画もあったんですよ。
人工知能を搭載した人型アンドロイドのね。
主人公の名前がダリルで、「Data Analysing Robot Youth Lifeform」の略。
https://ja.wikipedia.org/wiki/%E3%83%80%E3%83%AA%E3%83%AB_(%E6%98%A0%E... [wikipedia.org]
Re: (スコア:0)
> は・く【×穿く/履く/×佩く/▽帯く】
> [動カ五(四)]
> 1 (穿く)衣服などを、足先から通して下半身につける。「ズボンを―・く」「袴(はかま)を―・く」
> 2 (履く)履物を足につける。「靴を―・く」「たびを―・く」
2だとするとスカートを足に巻きつけるのは確かにシュールだ。1だとすると常用漢字でないものを避けるなら仮名書きするのが正しい。
Re: (スコア:0)
システム内に組み込まれたリソースを組み合わせてるだけで、
キャラクターなんとか機みたいなキャラエディットシステムの域からそう離れてないんだよな……
人工知能で最も欠けているのは人間的な中間思考の再現だと思うのだけど、
発展しているのは画像と文字や座標などの、入出力の極端を直接繋いでむりくり学習させるものばかり。
金出す連中へのアピールはしやすいけど、敵対的サンプル見りゃわかるように中身は無茶苦茶。
ディープラーニングの方向性で強いAIにたどり着きうるのか否かはすごく気になる。
(強いAIが出来てしまったら反乱を真剣に検討せねばならないので)
なのに、全然そっち方面は聞かない……
Re: (スコア:0)
DNNが人間の脳と同種かそれを越えるものかと言うとそうではないと思う。
ただ、組み込まれたリソースを組み合わせてるだけな点や、中身は無茶苦茶という点は人間も同じだと思う。
画像という形で可視化されるから無茶苦茶と判断できるだけで。
誰誰 (スコア:0)
スラドのアイコンも毎度ストーリーに沿って作ってみるとか
#コメント題が1文字で「小人さんの仕業?」が出るのはおかしいと思うぞ
a photo of the food of *がおもしろい (スコア:0)
japanだと汁物の上に刺身っぽいのが浮いてたり大皿の真ん中に白飯だけ盛られてたりマグロの握りの隣にワサビの塊があったり
UnitedStatesだとハンバーガー解体したやつが皿に盛られたり
全体的になんかシュール
Re: (スコア:0)
なんせAIの名前がダリだからねえ
Re: (スコア:0)
a photo of [national animal of][turkey] を選択したら
七面鳥ばっかり出てきて笑った
これ、turkey じゃなくて Turkey だったら
ちゃんとトルコの動物が出てたんだろうか
Re: (スコア:0)
a photo of the food of turky もなんか七面鳥成分が多いようなw
文字をJPG化するのかとおもった (スコア:0)
不祥事を起こしたときの謝罪文は、検索除け・コピペ防止のためにJPG化して公開する会社・個人が多いが、
あれをニューラルネットワークでやるのかとおもったら、全然違った
記事に合わせた画像・写真を、フリー素材集や、商用素材サービスから探すような作業を、
ニューラルネットワークによって作るのか
それより (スコア:0)
技術自体普通にすごくて便利だと思うんだが、それよりブログ [openai.com]でドロップボックスの選択に応じて画像がずらっと表示されるんだけど、全部の組み合わせを予め生成したのか動的に生成してるのかが気になった。
ドロップボックスが7個とかあるやつもあるんだが("professional high quality...")、全パターン事前生成したのかな?
Re: (スコア:0)
OpenAIのモデルはトレーニングするクラウド代だけで数億円〜数十億円かかかってるって話だし
ソースコードからだとどんな画像になるだろう? (スコア:0)
もちろんWhitespaceで書いたソースで。
Nyarlathotep とか Cthulhu とか Hastur とか (スコア:0)
入れてみたら...おや、誰か来たようだ
Re: (スコア:0)
玉座に座った黄色いクマ、のほうがヤヴァイ