Photo by gettyimages

イケボの貴方はどんな顔!? 「声から顔を予測する」AIが誕生!

画像解析能力の精度はついにここまで!
マサチューセッツ工科大学は、音声だけを入力すると、話している人の顔の画像が生成できる画像解析モデルについての論文を発表しました。果たしてどのくらいの精度で予測できるものなのでしょうか……?
(元記事はこちら

「声」から「顔」を予測する!

今回発表された「Speech2Face」は、音声データだけを使って顔を予測し、画像を自動生成することができるモデルです。

発した声と見た目には相関関係があるといわれており、年齢や性別、口の形、顔の骨の構造など、様々な要素が声に影響を与えると考えられています。また、言語やアクセント、話すスピードなどは国や地域、文化などがあらわれると言われています。

Photo by gettyimages

YouTubeなどの動画サイトを使って、人が話している様子を「顔」と「声」に分けて学習させることで、声から正確に顔を予測できるようにしています。

「話セグメント」と呼ばれる話の短い切れ目から、話者の年齢、性別、人種といった属性を推測し、そこから話者の顔を再構築することができます。

「部分」をつなげて「全体」をつくる

これまでも、音声データをもとにして性別・年齢などを特定する研究や、音声から画像を生成しようとする研究はありました。

しかし、それらは「あらかじめ与えられた画像から適切な物を選び出す」だけで、「新しく画像を生成する」ことはできなかったのです。