2019.12.13
# AI

あなたが撮った動画も「新海誠風」画像に! 自動生成の進化がすごい

「動画から漫画」を叶えた驚きの仕組み
Ledge.ai編集部にて作成
拡大画像表示

(1) 動画のフレームごとに重要度を計算

DSN(Deep Sumarization Network)という教師なしの強化学習を使用している。フレームごとに重要度を算出するネットワークである。

詳細な説明は省くが、多様性(類似したフレームがある場合重要度が下がる)、代表性(選ばれたフレームが動画をよく表現するフレームとなっている場合は重要度が上がる)のふたつに焦点をあてて学習している。

(2) 動画をシーンに分割

KTS(Kernel Temporal Segmentation)という手法を使用している。動画の映像の移り変わりを検知することで、その移り変わりのフレームを境目としてシーンごとのかたまりに動画を分割できる。

(3) シーンごとに重要度の高いフレームを抽出

シーンの中で最大の重要度となるフレームを抜き出している。

(4) 画像の美しさについての評価

画像の審美評価(Aesthetic estimation)をおこなう。ここでは、人気度推定(Popularity estimation)と画像品質推定(Image quality estimation)のふたつの手法を使用している。

人気度推定では、Facebookのいいね数をもとに作成された画像のデータセットを使用している。

具体的には、「Facebookのフォロワーに対してのいいね数が多いほどその画像は人気である」という仮定をもとにデータセットを作成。それを学習したネットワークにより、画像の人気度がどれだけ高いかを評価できる。

 

画像品質推定では、Googleが提案するNIMA(Neural Image Assesment)と呼ばれる手法が用いられている。画像の美しさを自動で評価でき、人間による判断と大きなズレがなく評価できると言われている。

Comixifyではこれらの手法を用いて、何百とあるフレームから限られた複数枚を抽出し、要約を作成する。

画像を漫画風に変換する仕組み

2段階目のスタイル変換では、GANを使用して元画像から漫画風の画像に変換している。

GAN(Generative Adversarial Network)とは
GANは、Generator(生成者)とDiscriminator(判定者)の2つを競わせながら学習を行う手法。Generatorが訓練データに似た画像を生成し、Discriminatorはそれが訓練データか、もしくはGeneratorが生成した偽物の画像なのかを判定する。GeneratorとDiscriminatorの学習を交互に繰り返すことで、Generatorは訓練データに近い画像を生成できるようになる。

Comixifyの論文で述べられているGANは、CartoonGANとComixGANのふたつ。

関連記事