パスワードを忘れた? アカウント作成
15073137 story
人工知能

テキストから画像を生成するニューラルネットワーク「DALL·E」 21

ストーリー by headless
生成 部門より
OpenAIは5日、テキストの内容に合わせた画像を生成するというニューラルネットワーク「DALL·E」を発表した(OpenAIのブログ記事VentureBeatの記事Neowinの記事The Next Webの記事)。

DALL·Eは自己回帰言語モデルGPT-3の120億パラメーター版で、画像に対するキャプションぐらいの短いテキストから逆に画像を生成するよう、テキストと画像のペアからなるデータセットを学習させたものだという。その名前は芸術家サルバドール・ダリとピクサーのアニメーション映画「WALL·E」からとったそうだ。

ブログ記事にはさまざまなテキストから生成された画像が掲載されており、動物の種類や色、素材などテキストの一部は複数の選択肢から切り替えて表示することが可能だ。中にはテキストのみではなく、画像とテキストによる指定や、テキストの指定に合わせて一部分だけ提示された画像を補完するといったものもある。

掲載画像は512点生成したうち、テキストと画像を結びつけるニューラルネットワークCLIP (こちらも同日発表された)でランキング付けした上位32点と説明されているが、各30点しかないようだ。画像の出来は別として多くが指定内容に沿った画像になっているが、中には指定を完全に解釈できなかったような画像もある。帽子と手袋、シャツ、ズボンの色をそれぞれ指定する例では4つとも正しい色を適用できたものは少ないといい、4つとも同じ色を指定した場合でも、違う色が使われたものがみられる。

国・地域と事物を指定して写真風の画像を生成する例では、日本の野生生物はすべてサルだった。中国の野生生物も29点まではサルだったが、1点のみ何かわからないものがある。他の国や地域ではもう少しバリエーションがあるようだ。不気味な生物も数多い。
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by Anonymous Coward on 2021年01月09日 18時37分 (#3955952)

    一番上にこの結果が出てるけどそもそも大根の擬人化イラストってのが一定量あるんだよね
    AIが描いたというよりネット上のフリー素材・有償サンプル画像をコラしてるという方が近い
    元ネタ描いた人は使用料取れそう

    • 英語でも"Daikon"っていうのがびっくり。
      そして英語版Wikipediaにある大根画像の例を見て [wikipedia.org]、これ大根を知らない人が見たら、大根のサイズ感を誤るんじゃないか?と思った。

      親コメント
    • by Anonymous Coward

      大根(ホンモノ)の擬人化が一定の需要あるんだよね
      https://www.google.com/search?q=%E3%83%80%E3%82%A4%E3%82% [google.com]

    • by Anonymous Coward

      シュールレアリストで有名なサルバドール・ダリ [wikipedia.org]をフィーチャーしたネーミングなのかな、と思った。

    • by Anonymous Coward

      > は・く【×穿く/履く/×佩く/▽帯く】
      > [動カ五(四)]
      > 1 (穿く)衣服などを、足先から通して下半身につける。「ズボンを―・く」「袴(はかま)を―・く」
      > 2 (履く)履物を足につける。「靴を―・く」「たびを―・く」

      2だとするとスカートを足に巻きつけるのは確かにシュールだ。1だとすると常用漢字でないものを避けるなら仮名書きするのが正しい。

    • by Anonymous Coward

      システム内に組み込まれたリソースを組み合わせてるだけで、
      キャラクターなんとか機みたいなキャラエディットシステムの域からそう離れてないんだよな……

      人工知能で最も欠けているのは人間的な中間思考の再現だと思うのだけど、
      発展しているのは画像と文字や座標などの、入出力の極端を直接繋いでむりくり学習させるものばかり。
      金出す連中へのアピールはしやすいけど、敵対的サンプル見りゃわかるように中身は無茶苦茶。

      ディープラーニングの方向性で強いAIにたどり着きうるのか否かはすごく気になる。
      (強いAIが出来てしまったら反乱を真剣に検討せねばならないので)
      なのに、全然そっち方面は聞かない……

      • by Anonymous Coward

        DNNが人間の脳と同種かそれを越えるものかと言うとそうではないと思う。
        ただ、組み込まれたリソースを組み合わせてるだけな点や、中身は無茶苦茶という点は人間も同じだと思う。
        画像という形で可視化されるから無茶苦茶と判断できるだけで。

  • by Anonymous Coward on 2021年01月09日 17時47分 (#3955927)

    スラドのアイコンも毎度ストーリーに沿って作ってみるとか

    #コメント題が1文字で「小人さんの仕業?」が出るのはおかしいと思うぞ

  • by Anonymous Coward on 2021年01月09日 18時20分 (#3955940)

    japanだと汁物の上に刺身っぽいのが浮いてたり大皿の真ん中に白飯だけ盛られてたりマグロの握りの隣にワサビの塊があったり
    UnitedStatesだとハンバーガー解体したやつが皿に盛られたり
    全体的になんかシュール

    • by Anonymous Coward

      なんせAIの名前がダリだからねえ

    • by Anonymous Coward

      a photo of [national animal of][turkey] を選択したら
      七面鳥ばっかり出てきて笑った

      これ、turkey じゃなくて Turkey だったら
      ちゃんとトルコの動物が出てたんだろうか

      • by Anonymous Coward

        a photo of the food of turky もなんか七面鳥成分が多いようなw

  • by Anonymous Coward on 2021年01月09日 18時24分 (#3955943)

    不祥事を起こしたときの謝罪文は、検索除け・コピペ防止のためにJPG化して公開する会社・個人が多いが、
    あれをニューラルネットワークでやるのかとおもったら、全然違った

    記事に合わせた画像・写真を、フリー素材集や、商用素材サービスから探すような作業を、
    ニューラルネットワークによって作るのか

  • by Anonymous Coward on 2021年01月09日 18時38分 (#3955953)

    技術自体普通にすごくて便利だと思うんだが、それよりブログ [openai.com]でドロップボックスの選択に応じて画像がずらっと表示されるんだけど、全部の組み合わせを予め生成したのか動的に生成してるのかが気になった。
    ドロップボックスが7個とかあるやつもあるんだが("professional high quality...")、全パターン事前生成したのかな?

    • by Anonymous Coward

      OpenAIのモデルはトレーニングするクラウド代だけで数億円〜数十億円かかかってるって話だし

  • by Anonymous Coward on 2021年01月09日 21時40分 (#3956003)

    もちろんWhitespaceで書いたソースで。

  • by Anonymous Coward on 2021年01月09日 21時43分 (#3956007)

    入れてみたら...おや、誰か来たようだ

    • by Anonymous Coward

      玉座に座った黄色いクマ、のほうがヤヴァイ

typodupeerror

日本発のオープンソースソフトウェアは42件 -- ある官僚

読み込み中...