まるで『名探偵コナン』…遂に誕生した万能「変声機」の凄さと怖さ

聞けば、きっと誰もがダマされる…
小林 啓倫 プロフィール

オレオレ詐欺がさらに横行?

人間がいかに音声によるコミュニケーションに騙されやすいか、振り込め詐欺、つまり「オレオレ詐欺」の被害が一向に無くならない日本に住む私たちには、痛いほどわかっているだろう。そんな状況でModulateのような音声モーフィングサービスが普及すれば、さらに詐欺行為が横行してしまう不安はないのだろうか。

実際に、気になる研究結果が出ている。アラバマ大学バーミンガム校コンピューターサイエンス学部の研究によると、人間の脳は、よく似た人間の音声の聞き比べができない可能性があるそうだ。

この研究を指揮した、主任研究者のNitesh Saxena博士は、同校のニュースリリースにおいて「人間は音声モーフィングを使用した攻撃に対し、根本的に脆弱な存在である可能性がある」と指摘している。

photo by iStock

この研究では、オリジナルの声と変換によってつくられた声を被験者に聞かせ、その際に脳がどのような反応を示すかを、機能的近赤外分光法(fNIRS)という手法を使って観測した。

すると違う人の音声を聞かせた際には、脳の動きに違いが見られたものの、オリジナルの音声と、変換によってそれに似せた音声を聞かせた際には、脳内で同じ処理が行われていたそうである。つまりあくまで音声だけをインプットとした場合、人間の脳はオリジナルの声と、変換によってつくられた声に対して、脳のレベルで聞き分けができていないわけだ。

 

前述のSaxena博士は、こうした脳の構造について「現在および将来における音声合成技術を悪用したさまざまな詐欺行為に対し、人間を弱い立場においてしまうかもしれない」と解説し、さらに「たとえば誰かがあなたの母親のふりをしてボイスメッセージを残しても、それが本物かどうか見極められない可能性がある」とコメントしている。

考えてみれば、人間が音声だけのコミュニケーションに日常的に直面するようになったのは、人類の歴史から考えればつい最近の話だ。グラハム・ベルが電話の特許を出願したのが1876年であり、一般家庭への普及を考えれば、100年ほどしか音声だけのコミュニケーションを経験していないと言えるだろう。これでは音声だけで人を識別できるように脳が進化するなど、到底無理な話だ。

Modulateは特定の人物への滑らかな音声変換を行うために、どの程度のサンプルデータがあれば十分なのかを明らかにしていない。しかし他のAI技術、特に機械学習と呼ばれる、データに基づいてAIの性能を高めるという分野では、サンプルデータが少なくても一定の成果を出せる方向へと、技術が進化する傾向にある。

またModulateがこうしたサービスを立ち上げた以上、他のテクノロジー系企業もこの分野に参入して来るだろう。そうなれば、より少ないデータで、より高品質の音声変換を提供する企業が現れるに違いない。

自分は高齢者ではないし、芸能人でもないからモノマネ芸人にドッキリを仕掛けられる恐れもない。だから声で騙される恐れはない――などと油断していると、ある日突然かかってきた、家族や恋人を名乗る人物からの電話にころっと騙されないとも限らない。

耳元で必死に助けを求める声は、本当に自分がよく知る人物のものなのだろうか――もしかしたら小学1年生の男の子が変声機を使っているのではないか、と念のため疑ってみることが、これからの時代には必要なのかもしれない。