2023年01月17日

単一画像生成モデルとしてのパッチ最近傍を守るためDrop the GAN

このエントリーをはてなブックマークに追加
follow us in feedly
主旨としてデータこそが最も重要であると言っていると思うのですが...

GANなんか無しでデータだけから多様な画像生成出来ると言う事です。


Drop the GAN: In Defense of Patches Nearest Neighbors as Single Image Generative Models
Niv Granot, Ben Feinstein, Assaf Shocher, Michal Irani  The Weizmann Institute of Science
Shai Bagon  Weizmann Artificial Intelligence Center
Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.


最近、画像操作タスクに対する優れたより洗練されたソリューションとして、単一画像 GAN が導入されました。
特定の画像を操作するだけでなく、単一の自然画像から大規模で多様な一連の異なる出力を生成する機会も提供しました。
これにより、「GAN-only」と見なされる新しいタスクが生まれました。
ただし、その印象的な機能にもかかわらず、単一画像GAN は、各画像と各タスクに長いトレーニング時間 (通常は数時間) を必要とし、多くの場合、アーティファクトに悩まされます。
この論文では、古典的なパッチベースの方法を再検討します。そして古典的な方法を適応させて、これらの新しい「GAN-only」のタスクに取り組むことが出来る事を示しています。さらに、単一画像のGANベースの方法よりも優れて高速です。

2. Method
目標は、パッチ最近傍検索を多様な単一画像生成モデルとして効率的にキャストする事です。
それを達成するために、GPNN は、SinGANと同様に、 ノイズが注入された入力を備えたマルチスケールアーキテクチャを使用します。
2.1. Multi-scale Architecture
粗いスケールでの全体的な配置から、より細かいスケールでのテクスチャと細部まで
全てのスケールから詳細をキャプチャするために、GPNN には、粗いものから細かいものへのアーキテクチャがあります。

The GPNN method





2.2. Patch Nearest Neighbors Generation Module
従来のパッチベースの方法では、クエリが最初の推測であり、参照がソースイメージであるクエリ-参照スキームを使用します。
各クエリパッチ (最初の推測画像) は、参照パッチ (ソース画像)に近づくよう置き換えられるか、最適化されます。
これにより、出力とソースの内部統計間の類似性が促進されます。
ただし、クエリパッチと参照パッチの間で大きな分布シフトがある場合、そのスキームは失敗する可能性があります。
例えば、クエリパッチがぼやけている場合 (より粗い解像度から初期推定を拡大したため)、それらはぼやけた参照パッチに一致する可能性があります。

この問題を克服するために、PNN は Query-Key-Value スキームを使用します。

PNN は 6 つの主要なアルゴリズムで構成されます。
Algorithmic steps of PNN









4. Additional Applications
多様な画像生成に加えて、GPNN は他の多くのアプリケーション (新旧を問わず) をすべて単一の統合フレームワーク内で生み出します。
Retargeting
単一の画像をターゲットサイズ (より小さくまたは大きく、場合によってはアスペクト比が異なる) にサイズ変更する事ですが、画像のパッチ分布を維持します(つまり、すべてのサイズ、形状、およびアスペクト比を維持します)。
Image-to-image and Structural Analogies
画像から画像への変換には、多くのアプローチ、さまざまな目標、ブランディングが存在します。スタイル転送、ドメイン転送、構造的類推

2 つの入力画像 A と B が与えられた場合、A のパッチ分布を持つが、構造的に B と一致する画像を作成したいと考えています。
つまり、すべてのオブジェクトが B と同じ場所に配置されているが、A のビジュアル コンテンツを持つ新しいイメージです。

Conditional Inpainting
提案された条件付きバージョンでは、通常の画像補完に加えて、ユーザーは不足部分を埋める方法をさらに操作出来ます。

Image Collage
一連の画像をシームレスにマージすることを目的としています。
Image Editing
目標は、変更を出力画像にシームレスにブレンドする事です。






5.GANs vs. Patch Nearest-Neighbors: Pros & Cons
Drop the GANと言うタイトルですが、単一画像GANには、単純なパッチ最近傍法では実現出来ないいくつかの重要な機能があります。

単一イメージ GANは、単一イメージのパッチ配布を暗黙的に学習しますが、従来のパッチベースのアプローチは、パッチ配布全体 (イメージ自体) を明示的に維持します。
GPNN は、パッチが GAN よりも元の入力パッチに忠実な画像を生成します。これにより、よりシャープな出力 (入力とほぼ同じくらいシャープ) が得られ、望ましくない視覚的artifactが少なくなります。
学習が行われないため、パッチベースのメソッドの実行時間は、GAN と比較して数時間から数秒に短縮されます。

従来のパッチベースの方法では、個別のパッチ配布が使用されます。
一方、GAN は連続分布を学習します。したがって、GANは、学習した分布から高い可能性で新しいパッチを生成出来ます。この機能は、パッチベースの方法には欠けています。





tak_tak0 at 06:04コメント(0)研究   この記事をクリップ!

コメントする

名前:
URL:
  情報を記憶: 評価:  顔   星
 
 
 
サイト内検索
にほんブログ村 科学ブログへ
にほんブログ村
adsense
Archives
amazon
blogchart
QRコード
QRコード
Recent Comments