2019年04月15日

HoloGAN の仕様とモデル構成の解説

このエントリーをはてなブックマークに追加
follow us in feedly



HoloGAN: Unsupervised learning of 3D representations from natural images
Thu Nguyen-Phuoc, Christian Richardt, Yong-Liang Yang   University of Bath
Chuan Li   Lambda Labs
Lucas Theis   Twitter
arXiv preprint arXiv:1904.01326 (2019).

HoloGANは世界の3D表現を現実的な形で学習し、3次元空間を2次元にレンダリングする事を学習します
ラベル無しの2D画像のみからそれを学習できることを示します。
そして、HoloGANが画像から3D表現を教師無で学習する最初のモデルであることを示します。

generatorが作成した画像は、3Dモデルから、2D画像空間への視点に依存したマッピングです
ベクトルzを直接2D画像にマッピングして生成する他のGANとは異なります。

HoloGANではさらに、特徴を形状(3D)と外観(2D)に分解し、2つの潜在ベクトルz1とz2をサンプリングし、それらをHoloGANに送ります。
ラベル無し画像から、形状と外観を分離する事を学び、それら要素を別々に操作出来るようにします。
Figure 2.

HoloGANはラベルを必要とせず、discriminatorはポーズ情報(等)へアクセスしません。
HoloGAN
Figure 3.

AdaIN (2)
3. Method
最初に3D畳み込みによって3D姿勢を学びます。そして次に2D畳み込みで画像の各画素について値を計算します。
内部要素は形状、外観などを記述しますが、外部の要素は姿勢(仰角、方位角)および照明(位置、強度)を記述します。


3.1. Learning 3D representations
入力ベクトルzは「スタイル」コントローラとして扱われ、
適応インスタンス正規化(AdaIN)のためのアフィンパラメータにマッピングされます。

HoloGANはStyleGANからこのスタイルベースの戦略を継承しますが、2つの点で異なります。
HoloGANは、2Dの特徴に射影して画像を生成する前に、4Dの定数を4次元のテンソル(4×4×4×512)から学習します。
次に、HoloGANは学習に3D特徴を剛体変換と組み合わせることによって表現を学習します。

StyleGANは、解像度に応じて、粗いものからより細かいものまで、2D特徴を様々なレベルに分離しますが、
HoloGANでも同様の分離が見られます。
しかし、HoloGANは更にポーズ(3D変換)、
形状(3D特徴)、
および外観(2D特徴)
を分離します。

3.2. Learning with view dependent mappings
3D特徴を学習するために3D畳み込みを採用することに加えて、
2D画像生成の前にランダムなポーズに変換することで、3Dの世界についてより多くのバイアスを導入します。


4. Experiment settings
データセットとしてBasel Face ,CelebA,Cats ,Chairs ,Cars ,LSUN bedroomを使用します。
しかし、
Cats ,Chairs が 64×64
Basel Face ,CelebA ,Cars ,LSUN bedroomが128×128 という画像サイズでは小さいと思います。
Chairs 以外のデータセットは、 同じ物体に対しては一つの視点しかありません。


詳しくはsupplemental documentを見て下さいと度々書いてあるのですが、それは何の事を指しているのでしょうか?


tak_tak0 at 21:21コメント(0)研究   この記事をクリップ!

コメントする

名前:
URL:
  情報を記憶: 評価:  顔   星
 
 
 
サイト内検索
にほんブログ村 科学ブログへ
にほんブログ村
adsense
Archives
amazon
blogchart
QRコード
QRコード
Recent Comments