FB副社長・ヤン ルカンの語る「機械学習に求められている課題」

動物や人間と同じくらいの効率が目標

Facebook副社長で、ディープラーニングの父であるヤン・ルカン氏のベストセラー、AIとその中核をなす「ディープラーニング」の過去と現在、そして未来像を語った『ディープラーニング 学習する機械』は、フランスで発行部数10万部に達しました。

ルカン氏がエキサイティングに綴った本書から、読みどころをご紹介しましょう。

AI研究の今後と課題

今のところ、最も優れたAIシステムをもってしても、人間の脳には到底およばない。人間どころか、猫よりも知能が低い。猫の脳には、7億6000万個のニューロンと10兆個のシナプスが含まれている。当然ながら、猫の近縁で22億個のニューロンをもつ犬にもおよばない。人間の脳には860億個のニューロンがあり、その消費電力は約25ワットである。これに匹敵する性能をもつ機械を設計・構築するのは不可能なのだ。

第1章(編集部注:『ディープラーニング 学習する機械』「第1章 AI革命」)で見たように、たとえ脳の学習原理を理解し、その構造を解き明かせたとしても、その動作を再現するには、1秒あたりの演算回数が約1.5×10¹⁸回という途方もない計算能力が必要になる。

現在のGPUカードは、毎秒10¹³回の演算が可能で、約250ワットの電力を消費する。人間の脳と同等の性能を得るには、このプロセッサを10万個つないだ巨大なコンピュータが必要になる。このコンピュータの消費電力は、最低でも25メガワットに達する。つまり、人間の脳の100万倍のエネルギーを浪費することになるわけだ。GoogleやFacebookのAI研究者は、このレベルの総演算性能を扱ってはいるが、ひとつのタスクで数千以上のプロセッサを連携させるのは至難の技である。

【写真】数千以上のプロセッサを連携させるのは至難の技photo by gettyimages

科学的に解決すべき問題は山ほどある。技術的な問題も同じくそうだ。われわれは、現在のシステムの限界を押し広げようと、たゆまず努力してきた。最も有望な道はどれだろうか? 今後の研究に期待できるのは何だろうか?

「教師あり学習」に見る機械学習の限界

教師あり学習(編集部注:事前に与えられたデータをいわば「例題」とみなして、それをガイドに学習を行う方法)はAIでごく一般的に使われている方法だが、実際には、人間や動物の学習のさえない模倣にすぎない。教師あり学習のアーキテクチャは、必要とされるタスクに近づくようにパラメータが徐々に調整されていくというものだ。しかし、この方法で物体を認識できるようにシステムを訓練するには、その物体のサンプル画像が何千枚、何百万枚も必要になる。

サンプル画像は、事前に手動で識別し、ラベルを付けておく必要がある。企業は人海戦術で画像のラベル付けやさまざまな言語間のテキスト翻訳を行い、システムを訓練するのに必要なデータを作成している。

この手順はかなり一般的なものになっており、国際的コンサルティンググループのアクセンチュアも、機械学習を使用する多くの企業にこの種のサービスを提供している。学術研究では、Amazon提供のAMT(Amazon Mechanical Turk)というサービスが広く利用されている。AMTでは、ログインすれば誰でもこのタグ付け作業を行い、報酬を得ることができる。

この教師あり学習は、十分なデータがある場合にはきわめて有効である。しかし、それにも限界があり、効果的なのは一定の範囲内に限定される。効果が行き届かない死角があるのだ。その証拠に、人間の目の錯覚と同じようなものがディープラーニングにもあり、「敵対的事例」と呼ばれている。

一見識別しやすい画像でも、機械の能力の範囲を超えてしまうことがあるのだ。実験の結果、「止まれ」の標識に少し手を加えるだけで、一部のニューラルネットワークはその標識を検出できなくなることがわかった。そのため、自律走行の安全性が懸念されている。しかし、道路標識を偽装するのであれば、人間の運転手でもだませるはずだ。では、どうして標識の偽装は自律走行車のほうが危険なのか?

例を挙げて見ていこう。猫とトースターを区別する機械があるとする。猫の画像を、人間には感知できないが、機械が高スコアでトースターと出力してしまうように修正できる。どうするかというと、機械に猫の画像を示し、この画像のピクセルを、勾配降下法を使ってトースターのスコアが増加し、猫のスコアが減少するよう修正するのだ。修正した画像は、人間には相変わらず猫に見える。

どうして機械は簡単にだまされてしまうのだろうか? 教師あり学習では、学習サンプルに対する正しい出力を生成するよう機械を訓練する。しかし、学習サンプルは入力空間のごく一部しかカバーしておらず(*)、サンプルとかけ離れた、関数の挙動は明示されていない。

教師あり学習とは異なり、子どもがゾウの概念を学ぶのに何千サンプルものゾウを必要としないのは、おそらくそのためである。図案化されたイラストのゾウでも、3枚あれば十分だ。

だから、教師あり学習では、本当の知能機械を作ることはできない。それは解決策の一部にすぎない。パズルのピースが足りないのだ。

*1000×1000ピクセルの白黒画像に対して、各ピクセルは256通りの値を取りうるので、画像全体のピクセルのありうるパターンの数は、256×1,000,000通りになる。これは、2400万桁の数字だ。サンプル数が10億の学習セットは、そのほんの一部しかカバーしていない。

関連記事