AI
ディープ・ラーニングがぶつかった分厚い壁---最先端のAIでも、人間のように言葉を操ることはできない!
〔PHOTO〕iStock by gettyimages

先週のコラムでは、マイクロソフトが開発したAI女子高生を「りんな」を取り上げた。現在、その会話能力はお世辞にも高いとは言えないが、今後とも劇的に改善することは(少なくとも当面は)ないだろう、と述べた。

筆者がそう予想する理由は、「りんな」の基盤技術である最先端AI「ディープ・ラーニング」が今、分厚い壁にぶつかっているからだ。それを以下、説明していきたい。

「見て、聞くAI」は「言葉を操るAI」にも応用できるのか?

ディープ・ラーニングは今までのところ「画像認識」や「音声認識」など、いわゆるパターン認識の分野で極めて高い性能を示している。この大きな理由の一つは、ディープ・ラーニングが本格的な脳科学の研究成果、中でも大脳の視覚・聴覚野などに共通する認識メカニズム「スパース・コーディング」を導入したことにある。

つまりディープ・ラーニングとは「人間がモノを見たり、音を聞き取ったりする際の、脳の認識メカニズムを参考にしたAI」なのだ。そうである以上、それが画像・音声認識で高い性能を示すのは合点がいく。

そうした中で今、AI研究者の最大の関心事項は、このディープ・ラーニングを「自然言語処理」、つまり「言葉(単なる単語だけではなく、センテンスや会話まで含む)の意味を理解して、これを自由自在に操る」といった目的に転用できないかということだ。

たとえばディープ・ラーニングの権威であるヤン・ルカン氏(フェイスブックのAI研究所所長)やヨシュア・ベンジオ氏(カナダ・モントリオール大学教授)らが、ここ数年、このテーマに取り組んでいる。

それは言い方を変えれば、「人間がモノを見たり聞いたりする仕組みに基づくAIが、果たして言語を操るAIにも応用できるか」という問題でもある。