
拡大画像表示
(1) 動画のフレームごとに重要度を計算
DSN(Deep Sumarization Network)という教師なしの強化学習を使用している。フレームごとに重要度を算出するネットワークである。
詳細な説明は省くが、多様性(類似したフレームがある場合重要度が下がる)、代表性(選ばれたフレームが動画をよく表現するフレームとなっている場合は重要度が上がる)のふたつに焦点をあてて学習している。
(2) 動画をシーンに分割
KTS(Kernel Temporal Segmentation)という手法を使用している。動画の映像の移り変わりを検知することで、その移り変わりのフレームを境目としてシーンごとのかたまりに動画を分割できる。
(3) シーンごとに重要度の高いフレームを抽出
シーンの中で最大の重要度となるフレームを抜き出している。
(4) 画像の美しさについての評価
画像の審美評価(Aesthetic estimation)をおこなう。ここでは、人気度推定(Popularity estimation)と画像品質推定(Image quality estimation)のふたつの手法を使用している。
人気度推定では、Facebookのいいね数をもとに作成された画像のデータセットを使用している。
具体的には、「Facebookのフォロワーに対してのいいね数が多いほどその画像は人気である」という仮定をもとにデータセットを作成。それを学習したネットワークにより、画像の人気度がどれだけ高いかを評価できる。
画像品質推定では、Googleが提案するNIMA(Neural Image Assesment)と呼ばれる手法が用いられている。画像の美しさを自動で評価でき、人間による判断と大きなズレがなく評価できると言われている。
Comixifyではこれらの手法を用いて、何百とあるフレームから限られた複数枚を抽出し、要約を作成する。
画像を漫画風に変換する仕組み
2段階目のスタイル変換では、GANを使用して元画像から漫画風の画像に変換している。
GANは、Generator(生成者)とDiscriminator(判定者)の2つを競わせながら学習を行う手法。Generatorが訓練データに似た画像を生成し、Discriminatorはそれが訓練データか、もしくはGeneratorが生成した偽物の画像なのかを判定する。GeneratorとDiscriminatorの学習を交互に繰り返すことで、Generatorは訓練データに近い画像を生成できるようになる。
Comixifyの論文で述べられているGANは、CartoonGANとComixGANのふたつ。