Full-body High-resolution Anime Generation with Progressive Structure-conditional Generative Adversarial Networks

DeNAの研究．アニメキャラクターの全身画像を生成する．

ECCV workshopに採択．

Progressive Structure-conditional Generative Adversarial Networks (PSGAN)の提案．
Progressive-GAN

ソースコードは無いっぽい．
Unityの3Dモデルアバターをunityのモーションで動かして無限に画像を生成できる．
背景は白くしてキャラクターのみにする．
キーポイントも自動で取得できる．

学習には画像データとポーズデータの組が必要．
Deep Fashionでも試していて，これはOpen Poseで自動的に取得したキーポイントの情報を用いる．
1024×1024の画像サイズ．

ひとつのキャラクターに連続的な動作をさせ，600の姿勢を取り出す．
アバターはひとつでコスチュームは69種類．
合計で47,400枚の画像が得られる．←この論文計算ミスしているようだ．

使用しているのはWGAN-GP．
UNetの構造をしていて，最小サイズは4×4になっている．
UNetの底の部分で潜在的パラメータを与えて服装を制御する．

つまり，学習データとして与えられている69種類のコスチュームしか生成できない．
潜在的パラメータの中に埋め込まれているので．

Progressive-GANとはDeep Fashionデータセットで学習させたモデルで生成された画像の一覧だけで定性的な比較．
タスクとして似ているものとの比較はMaらのPose Guided Person Image Generationで，定性的な評価のみ．
Maらのは入力ポーズ，目標ポーズ，参照画像が必要だけど，自分らのは潜在パラメータと目的ポーズさえあれば良いのですごいと主張．

Maらの手法なら未知のデータに対しても対応できるはずなので全然強くない気がする．