テレワークが可視化した「あの不快感」を解消するエッジAIとは何か

いまだ不完全なAIを徹底活用する方法
西田 宗千佳 プロフィール

「タイプ音」をかき消すAI

この動画に収録された音声は、いつもと同じようにキーボードを激しくタイプしながら録音したものなのだが、「Krisp」もしくは「Clear Edge」というソフトを使うことで、タイプ音がきれいに消えている。

タイプ音を消すアプリをテストしてみた。声にかぶっていたタイプ音がみごとに消えていることに注目

どちらも無料で使えるサービスだが、KrispはWindowsとMacの両方で、かつ日本語でも使用可能なので、ぜひ一度、ご自身で試してみていただきたい。

【写真】krispビデオ会議におけるタイプ音などのノイズを消す「Krisp」。WindowsとMacで利用可能(上部画像クリックで、Kripsのサイトにリンク)

これらのソフトは、パソコンのマイクからの音声入力を受けて、それらの音を加工する。その際に用いるのが、俗に「AI」とよばれる機械学習の技術だ。ソフト開発の段階では、人間の音声を学習することに加え、タイプ音などの特徴的な音を「ノイズ」として学習する。

その学習結果をソフトに組み込み、マイクを通して得られた音から「音声」だけを抽出する一方、その他の耳障りなノイズは消すことで、「タイプ音のない音声」に変換することができるのだ。

「バーチャル背景」もAIの賜物

ビデオ会議において、機械学習が活躍するシーンは他にもある。Zoomが対応したことで一躍、有名になった「バーチャル背景」もその1つだ。

映像から人物だけを抜き出して合成するには従来、背景を特定の色(現在は緑が主流)一色だけにした部屋で撮影し、あとからその色の部分だけを抜く「グリーンバック合成」をおこなうのが一般的だった。特撮撮影のメイキングシーンなどで、見たことのある人も多いだろう。

【写真】グリーンバック合成映像から人物だけを抜き出して合成するには、「グリーンバック合成」が一般的だった photo by gettyimages

しかし、Zoomなどが現在、採用している「バーチャル背景」では、機械学習を使って映っている人物のシルエットを認識し、特別な機器や設備がなくても、パソコンやスマホの内蔵カメラだけを用いて、背景の映像を差し替えることができる。

【写真】バーチャル背景Zoomでのバーチャル背景の例。人物のシルエットを認識し、背景を好きな画像や動画に差し替えることができる。テレワークの普及に合わせ、さまざまなサービスに同種の機能が広がっている

もちろん、より高度な技術であるグリーンバック合成に比べれば、不自然な部分は多々見受けられる。それでも、「なんの装備も準備も必要なく使える」のは、大きなアドバンテージだ。

「エッジAI」とはなにか

バーチャル背景にしろノイズ除去にしろ、使っているのは機械学習、いわゆるAIである。

といっても、「個々のパソコンの内部」で学習をしているわけではない。では、いったい「どこで」学習しているのか?