人工知能が画像を生成する方法。 ML エンジニアの説明

敵対的生成ネットワークとその欠点

ほんの数年前、これらの最先端モデルは

タスクは生成的敵対的であると考えられていたニューラルネットワーク (敵対的生成ネットワークまたは GAN)。これは 2014 年に Goodfellow らによって提案され、過去 9 年間で大幅に改良されました。たとえば、2021 StyleGAN 3 モデルは、シフトや回転があっても顔の詳細を正確に保持しますが、その前モデルでは、この場合、髪、ひげ、衣服のパターンなどの「ノイズの多い」詳細が生成されます。専門家や愛好家は、GAN が存在しない人物、動物、アパートの写真をいかにうまく生成できるかに驚嘆しています。

しかし、競争の性質上、GAN モデルはトレーニング時に非常に不安定であり、生成されたときに非常に多様な画像タイプを示すことはありません。さらに、これらの例は存在しますが、テキストから画像を生成するタスクにはほとんど適用できません。

StyleGAN 3モデルによる画像生成の結果

拡散モデルのブーム

それどころか、拡散モデルは生成された画像の十分な変動性と非常に安定しています。それらの主な欠点は、学習と生成の速度です。モデルのトレーニングには数十、場合によっては数百のビデオカードが必要であり、数十ミリ秒かかる GAN とは異なり、既にトレーニングされたモデルを使用して画像を生成するには数秒かかります。

Hoらの拡散モデルからの生成結果

拡散モデルのブームはエグジットで加速大規模な生成テキストから画像へのモデル。多くの読者は、DALL・E 2、MidJourney、Imagen、Stable Diffusion によって生成された結果を見たことがあるはずです。一部のアーティストやイラストレーターは、ニューラルネットワークによって自分の仕事が奪われるのではないかと心配していますが、他のアーティストやイラストレーターは、これは創造的なプロセスに役立つだけだと考えています。プログラマーとアーティストは、プロンプトエンジニアリング (より正確な生成結果を得るためにテキストを選択する技術) を習得し、興味深い要求と同様に興味深い結果を共有します。

Lofi エイリアンの侵入でリラックスして勉強する (Midjourney ニューラルネットワーク) 

ビートルズの 17 世紀の絵画 (Model Stable Diffusion 2.1)

雪の中で空手帯をしたドラゴンフルーツ（イメージンモデル）

拡散モデルはどのように機能しますか?

拡散モデルは反復モデルであり、ランダムノイズを入力として受け入れます。まず、最も基本的な拡散モデルである DDPM (Denoising Diffusion Probabilistic Model) について考えてみましょう。このモデルは、何十万もの画像のサンプルで段階的にトレーニングされます。各段階で、既知の強度のランダムノイズがサンプルから画像に適用され、モデルはこのノイズを反転することを学習し、画像の品質を向上させます。この方法で訓練されたモデルを完全にランダムなノイズの画像に繰り返し適用し、各ステップで「弱い」ノイズを反転させると、モデルは完全に新しい画像を生成し、逆拡散を使用してランダムなノイズを徐々に取り除きます。

基本的な拡散プロセスの図 (CVPR 2022 チュートリアルより) 

発生するランダムノイズ画像は、テキストまたは別のサンプル画像で表現される結果の要件である条件と組み合わせることができます。まず、SDEdit 記事の例を見てみましょう。この例では、ユーザーが大きなストロークで構成される描画をニューラルネットワークに指示します。この図面には、ノイズの多い写真などと区別できないほどさらにノイズが含まれており、反復逆拡散プロセスが適用され、提供された図面に基づいて高品質の画像が再構成されます。

パターン主導の拡散プロセスの図 (SDEdit の記事から)

世代を目的の場所に向ける別の方法その結果、テキストによるモデルの条件付けが行われます。これを行うために、画像とテキストの意味を同時に理解できる、画像とキャプションのペアでトレーニングされた言語モデルが使用されます。そのようなモデルの例は、OpenAI によってリリースされた CLIP (Contrastive Language - Image Pre-training) です。このモデルは、画像とテキストを共通の潜在ベクトル空間 (ベクトルはいくつかの値の単なる列) に変換できます。この空間では、たとえば、テキストクエリに最も近い画像を見つけることが可能になります。これは、ベクトルに対する代数演算にすぎないためです。

潜在拡散モデル、2021 年に導入されたは、テキストのベクトル空間でモデルを調整して、方向性ノイズから画像を生成します。このモデルは、テキストと画像の共通の潜在空間のプロパティを使用します。 Stable Diffusion、Imagen、およびその他の大規模なテキストから画像へのニューラルネットワークは、この原則に基づいて機能します。

品質を向上させるもう1つの重要なテクニック調整された拡散モデルのトレーニングで使用される生成は、分類子のないガイダンスです。簡単に言えば、分類子のないガイダンスパラメーターの値が高いほど、結果はテキストクエリに似たものになり、多くの場合、結果のばらつきが少なくなります。

拡散モデルの問題点

もちろん、拡散モデルではありません。画像生成の問題に対する普遍的な解決策。彼らはまだGANと同じ問題を抱えています - 一見すると、実際の画像には重大な欠点があります - 生成された人々は5本以上の指または32本の歯を持つことができます.また、これらのモデルは画像上にテキストを生成するのが非常に苦手で、独自の「言語」を発明することさえあります。

アーティストがMidjourneyと安定性AIを非難トレーニングデータの準備における著作権侵害で（Stable Diffusionの背後にある会社） - 彼らは、企業がアーティストの同意も適切な補償もなしにインターネットから画像をダウンロードしたと主張している。また、安定拡散を含む生成ネットワークは、インターネットから取得した偏ったデータに基づいてトレーニングされるため、人種、性別、その他の社会問題に関する否定的な固定観念を強化するのではないかという懸念も高まっています。

DC コミックス風のアダムとイブ、ノア、ゼウスの物語 (モデル DALL・E 2) 

無料で試す方法

これまでの多くの開発とは異なり、コンピュータービジョンの分野はプログラマーのみがアクセスできることが多かったが、拡散ネットワーク分野の新技術は誰でも試せることが多い。オープンソースソフトウェアとニューラルネットワークのデモバージョンの公開に対する一般的な傾向により、Hugging Face のようなスタートアップ企業は、Stable Diffusion 2.1 などのモデルの多くのバージョンを集約することができます。また、コード内でのモデルの使用を簡素化するように設計されたディフューザーライブラリも開発しています。

Google Colab サービスを使用すると、コードを実行できますGPU と TPU は、ビデオのスタイルを変更できる Disco Diffusion Warp モデルなど、モデルのバージョンを公開するために多くの愛好家が使用しています。

モデルへの便利なインターフェースもあります。そのため、MidJourney ニューラルネットワークには数十世代の無料試用版が用意されており、テキストから画像へのモデルを試すには十分です。 OpenAI は、DALL・E 2 モデルへのトライアルアクセスも提供しています。

次は何

私たちは黄金時代を経験していると自信を持って言えますニューラルネットワーク画像生成の時代。コミュニティは Google の今後の製品を心待ちにしています。Google はプライベート拡散モデル Imagen や、他の人工知能テクノロジーの使用を含む画像の編集と生成に関する多数の記事をリリースしています。

創造と創造の分野で新しいスタートアップが出現しています。OpenAI や Google などの巨人と競合することに成功した画像編集。拡散モデルに関する新しい記事がほぼ毎週公開されており、今日の拡散モデルの適用範囲は、リストされている 2D コンピュータビジョンのタスクに限定されず、医用画像処理タスク、ビデオ生成、および 3D テキストにも使用されています。

続きを読む：

木星の衛星にある赤い縞模様の謎が明らかに

「ありえない」惑星を発見。彼女は現代科学に逆らいます

塩の砂漠にある謎の六角形の「ハニカム」の説明が見つかりました

ギークテックオンライン

技術とガジェットに関するすべて

人工知能が画像を生成する方法。 MLエンジニアが説明

敵対的生成ネットワークとその欠点

拡散モデルのブーム

拡散モデルはどのように機能しますか?

拡散モデルの問題点

無料で試す方法

次は何