今回発表された「Speech2Face」は、音声データだけを使って顔を予測し、画像を自動生成することができるモデルです。
発した声と見た目には相関関係があるといわれており、年齢や性別、口の形、顔の骨の構造など、様々な要素が声に影響を与えると考えられています。また、言語やアクセント、話すスピードなどは国や地域、文化などがあらわれると言われています。
YouTubeなどの動画サイトを使って、人が話している様子を「顔」と「声」に分けて学習させることで、声から正確に顔を予測できるようにしています。
「話セグメント」と呼ばれる話の短い切れ目から、話者の年齢、性別、人種といった属性を推測し、そこから話者の顔を再構築することができます。
これまでも、音声データをもとにして性別・年齢などを特定する研究や、音声から画像を生成しようとする研究はありました。
しかし、それらは「あらかじめ与えられた画像から適切な物を選び出す」だけで、「新しく画像を生成する」ことはできなかったのです。