How to make this art?

この作品は、Open AIが提供するDALL・EとCLIPを組み合わせて作成されています。

画像生成のコードは下記のサイトを参考とし、全ての画像はGoogle Colabで生成しています。

DALL-E で、文から画像を生成する

◉DALL•Eとは

 DALL•Eとは、Open AIによって提供されているテキストから画像を生成するAPIです。自然言語で説明される広範な概念を画像として生成することが出来るニューラルネットワークです。

DALL・Eはインターネットから収集された2億5千万の画像とテキストがペアになっているデータセットを、120億のパラメータを持つ巨大な変成器に入れて、特徴量を学習しています。これにより、おとぎ話に出てくるような架空の動物や物体の擬人化の描写や、一見関係のないような複数の事象の組み合わせであっても、画像として生成出来るようになりました。

Open AI 公式サイト DALL•E https://openai.com/blog/dall-e/

◉CLIPとは

 CLIPもDALL•Eと同様に、テキストから画像を生成するAPIです。テキストと画像のペアデータセットはDALL・E以上の4億にのぼります。この分類器は、視覚的な分類、つまり画像の分類に優れており、特に、多様なタスクに対してゼロショット転移(Zero-Shot Transformer:タスク特有のデータセットで学習せず、学習済のモデルからタスクを達成すること)に秀でています。

Open AI 公式サイト CLIP https://openai.com/blog/clip/

◉本作品のコード構造

 本作品は、DALL-E で、文から画像を生成するで紹介されているコードを用いています。

DALL•Eは、「画像の圧縮・復元モジュール」と「画像とテキストの対応関係の学習」という二つのステップからなりますが、悪用を避けるため第二段階のコードは公開されていません。そこで、「画像とテキストの対応関係の学習」にはCLIPを用いてテキストと画像双方の特徴ベクトルを抽出し、画像を生成しています。

◉Remembering Storyの構造

画像はクリック、またはタップで拡大します。