AIがブームで終わるかどうかを見極める「シンプルな方法」

「ゼロ原理」をご存知ですか?
金井 良太 プロフィール

どういうデータが重要なのか

金井:こういった安全性の技術といった面で、現時点ではどの企業が良い技術を持っているのでしょうか?

リプソン教授:もちろん、データを公開している唯一の企業はグーグルの持株会社であるアルファベット社のウェイモ社(Waymo)ですが、実際のところは、どこの会社がもっとも優れたアルゴリズムを持っていることよりも、アルゴリズムを鍛えるためのトレーニングデータをどこが一番持っているかというのが本質的に重要です。

自動運転のアルゴリズムのほとんどは機械学習に基づいたものであるわけですが、機械学習の性能は、どれだけデータを持っているかという量とデータ自体の質によって決まってくるわけです。

データを集めるのはとても時間がかかります。一部の企業は前からデータを集めていますが、今から集め始めている企業もあります。今から自動運転の分野に進出してくる企業では、他の企業からデータを買うこともやっています。そういう意味では、どこの企業が現時点で最も優れた自動運転アルゴリズムを持っているのかを見極めるのは難しいです。

しかし、気をつけなければならないのは、時々ハッカーのような人や新しくできた会社が3ヵ月で自動運転車を開発できるなどと言っているケースです。そういったケースでは、どれだけのデータとどれだけのクオリティのデータに基いてシステム開発をしているのか言及されていません。

もし十分なデータがなかったら、現在の最先端のアルゴリズムを利用しているとしても性能は限られたものでしょう。だから、アルゴリズムの良し悪しが問題ではないのです。データをもっているのが誰で、その性能を評価する方法を持っているかが問題なのです。

この分野では、企業同士が買収しあい、そのことによってデータが集約されていくので、非常に早い変化が起きています。

金井:自動運転において重要なデータというのはどのような種類のデータなのでしょうか。

リプソン教授:自動運転にとって重要なデータというのは、自動車に搭載されたセンサーデータに、人間がしっかりと正解データをラベル付けしたものです。センサーデータとラベルが結びついて初めて機械学習システムの訓練が実現されます。

自動運転車は、道路の脇に立っているのが消火栓なのか子供なのかを画像から判別できないと事故を起こしてしまいます。しかし、外が暗かったり、雨が降っていたり、見え方は状況によってかなりバリエーションがあります。光のあたり具合や、見る角度によっても見え方は違います。

そういった多様な場面においても、 確実に消火栓と子供を自動的に判別できるようにするためには、たくさんのラベル付けした画像データをAIに学習させる必要があります。AIの認識能力は、データがあればあるほど上がっていくので、最終的な精度はデータの量次第なのです。

 

自動運転の意外なリスク

金井:最近のAI開発では、研究者の間でプログラムやデータを共有する傾向が高まっていますが、そのことによって、自動運転開発に多くの人が参加しやすくなるということはないでしょうか。

リプソン教授:例えば、消火栓と子供の区別をするために必要な画像が数千枚という規模だったとしましょう。大学などのアカデミアの研究者は、そこまでのデータを持っているでしょうか。

その規模のデータを現時点で持っているのは営利企業に限られていると思います。こういったデータを持つことはアカデミアの研究機関では難しいことです。

ただ、面白いことに、自動運転が一度始まってしまえば、データはどんどん自動的に集まってくるようになります。そうなるとAIが自分自身に新しいデータを常に流し込み、加速的に性能を上げていくことが可能になります。

そこで、一度子供を認識できれば、その場でその子の写真のデータをたくさん集めることができ、それが次の日には子供の認識精度の向上につながるのです。

しかも、その学習効果はその一台の自動車にとどまるのではなく、他の自動車とも経験を共有することができるので、何百万台という自動運転車が世の中にでてくると、飛躍的に性能が向上していき、人間レベルの安全性をあっという間に乗り越えていってしまうでしょう。

このような指数関数的な性能の向上が望めるので、それを今始めれば、究極的には完全無事故のシステムさえ実現できるでしょう。