グーグルも後押しする「文学作品のビッグ・データ解析」はどこまで可能か

〔PHOTO〕gettyimages

 大量の小説をデジタル化して、コンピュータで分析する動きが盛んになっているという。

●「Dickens, Austen and Twain, Through a Digital Lens
The New York Times, January 26, 2013

 いわゆる「ビッグ・データ解析」を、文学作品のような芸術の領域にまで拡大しようとする動きだ。こう聞いただけで眉唾と見る向きもあるかもしれないが、上の記事を読むと「これなら妥当だな」と思えることもやっている。

 記事によれば、それは文学とコンピュータ科学の両方に関心のある人たちが始めたことのようだ。彼らが分析対象とする文献は主に、グーグルがここ何年も進めている「グーグル・ブックス」と呼ばれるスキャン・データだ。世界中の図書館にある書籍を全てデジタル化してインターネット上にアップしようという試みで、欧米や日本をはじめ世界中の出版社や著者と揉めた、例のプロジェクトである。

 このプロジェクトに対しては、いまだに賛否両論あると思うが、とにかく日々、デジタル化された書籍がネット上に蓄積されていることは事実で、「これを使って何もやらない手はないだろう」というのが、そもそもの発端のようだ。またグーグル側でも、こうした研究を支援するサイトを2010年に立ち上げているという。

 今のところ、彼らがどういう分析をしているかというと、たとえば「15世紀から近年まで(少なくとも英語圏では)文学作品の中で言及されるのは『男』が圧倒的に多かったが、1985年を境に『女』の方が多くなった」というもの。

 あるいは「最近の作品になればなるほど、過去の事柄への言及が少なくなる。つまり今の作家、あるいは(彼らの作品が読者の関心を反映しているとするなら)現代人そのものが、過去のことを速やかに忘れるようになっている」という研究成果もある。

 いずれも研究成果自体がどうのこうのというより、「確かにそういう視点でそういう分析をするためになら、デジタル化された大量の文学作品は定量的な分析、つまりビッグ・データ解析の対象になり得る」と納得できる。が、これをやっている研究者たちは、それ以外にも若干、微妙なところにまで踏み込んでいる。

 たとえば作家の「文体(英語ではstyle)」がそれだ。ある研究では、「19世紀の小説家の文体や、彼らが扱うテーマに最も影響を与えた作家はジェーン・オースティンである」という結論付けている。

 それでも「扱うテーマ」までは何とか定量的に解析できそうな気もしないでもないが、「文体」となるとどうなのか。研究者たちは何らかのパラメーターを選んで分析したと思われるが、どんなパラメーターによって作家の文体が特定できるのだろうか。いま一つ腑に落ちない(上のNYT記事には、これについて何も書かれていない)。

興味本位に徹すれば、何でもやれそう

 その妥当性はともかく、この手の研究はやる気になれば何でもやれそうだ。たとえば「この作家が、この作品で言おうとしていること何か?」といった国語の入試問題みたいなことでも、コンピュータに答えを出させることは可能だろう。

 本来、それに対する正解はない。作家の間では昔から、「思考作後(作品を書き上げた後で、自分が何を言いたかったかを考える)」という言葉が囁かれるくらいだから、これはもう間違いない。

 が、とにかく何らかの答えを出すことは可能だし、下手な批評家につべこべ言われるよりは、いっそ中立無比なコンピュータに評価してもらおう、という人がでてきてもおかしくはない。その分析結果に納得できるかどうかはさておき、少なくとも「面白そうだから、やってもらおう」という作家は結構いるような気がする。

 他にも、もっと実用的だと思われるのが、たとえば「剽窃(盗作)」を見つけることである。これはグーグルのような巨大IT企業のデータ・センターを使えば、どれほど大量のデジタル文書でも、現実的なタイム・レンジで比較できるはずだ。また機械翻訳の性能が上がれば、外国語の作品と照合することも可能だ。どんな狡賢い作家でも逃げようがない。こういうのは是非、やってほしいと思う。

 こう考えてくると、文学作品のビッグ・データ解析といっても、一概に「良い」「悪い」とは言えないようだ。平凡な結論だが、ケース・バイ・ケースで考えるべきだろう。

 最後に蛇足かもしれないが、最も物議を醸しそうで、案外、本当に実施されそうなのが、「コンピュータが選んだ今年のベスト作品」だ。

 日夜、死にもの狂いで書いている作家の小説が(芥川賞や直木賞でもとれば別だが)全然売れないのに、テレビ・タレントの(ゴースト)エッセイなどがベストセラーになったりするのは、昔からよくあることだ。また「実力では自分が一番なのに、今年も賞を他の奴にもっていかれた」と内心、怒りを募らせている作家も少なくないのではないか。

 こういった人達が「人間なんか駄目だ、コンピュータに決めさせろ」と言い出す可能性は十分にある。そもそも失うものは何もないし、出版社だって話題作りにはなるだろう。技術的には、もう少し時間が必要かもしれないが、いずれ本当にやってみる価値はあるのではなかろうか。

この続きは、プレミアム会員になるとご覧いただけます。
現代ビジネスプレミアム会員になれば、
過去の記事がすべて読み放題!
無料1ヶ月お試しキャンペーン実施中
すでに会員の方はこちら
新メディア「現代新書」OPEN!