『ビッグデータの正体 情報の産業革命が世界のすべてを変える』
~第1章「世界を変えるビッグデータ」より一部抜粋~

 グーグルは、まず米国人が検索時に入力した言葉のうち、上位5000万件を抽出した。そして2003年から2008年までの季節性インフルエンザの流行に関するCDCのデータとの相関関係を調べた。つまり、インターネットでの検索内容から、インフルエンザ・ウイルスの感染状況が明らかになると考えたわけだ。実はグーグル以外にも、インターネットの検索データを使って感染状況を把握しようとする動きは過去にもあった。しかし、データ量、処理能力、統計処理のノウハウでグーグルが群を抜いていた。

 人々がネットでインフルエンザ情報を探すときは、「咳の薬」や「解熱剤」といったキーワードで検索するはず、とグーグル・チームは推測した。しかし、重要なのはそこではなかった。彼ら自身、わからなかったのだ。また、そんなことにいちいち注意を払うようなシステムに設計されていなかった。グーグルのシステムは、各検索語の使用頻度と、インフルエンザ感染の時間的・空間的な広がりとの間の相関関係の有無を見ていただけだ。

 グーグルは、合計4億5000万にも上る膨大な数式モデルを使って検索語を分析し、CDCが提供している2007年、2008年の実際のインフルエンザ症例とグーグルの予測を比較検討した。そこで彼らは大変なことに気付く。特定の検索語45個と、ある数式モデルを組み合わせたとき、グーグルの予測と公式データの間に高い相関関係が見られたのだ。

 つまり、CDCと同じようにグーグルもインフルエンザがどこで流行しているのか特定できることになる。両者に決定的な違いがあったとすれば、グーグルは1~2週遅れではなく、ほぼリアルタイムに特定できた点だ。

 その結果、2009年にH1N1ウイルスによる新型インフルエンザ危機に見舞われた際、どうしても報告手順に遅れが生じる政府の公式データよりも、グーグルのほうがはるかにタイムリーで有効な指標になることが判明した。公衆衛生当局に貴重な情報が蓄積されていたことは間違いない。

 一方、グーグル方式は、口の粘膜を綿棒で採取する検査もなければ、医療機関との接触もない。その代わりに利用されたのが「ビッグデータ」だ。大量のデータがあれば、斬新な方法で情報を活用し、新たな知見や価値ある製品・サービスを生み出すことができる。いわば、社会が新たな力を手にしたことになる。ビッグデータがあれば、次なるパンデミックが襲来するころには、我々は発生予測に役立つもっと有効なツールを手にしているはずで、流行は食い止められるだろう。

結果がわかれば理由は要らない

 公衆衛生はビッグデータが特に有効な分野だが、それはほんの一例に過ぎない。産業界全体で、ビッグデータによる再構築が始まろうとしている。その好例が航空券購入だ。

 2003年、ある男が弟の結婚式に出席するため、シアトルからロサンゼルスまでの航空券を購入することになった。早く予約したほうが安上がりと考え、数ヵ月前にオンラインで購入した。ところがフライト当日、ふとした好奇心から、隣の席の客にいくらで買ったか尋ねたところ、愕然とする答えが返ってきた。隣の客はごく最近購入したにもかかわらず、自分よりもはるかに安く手に入れていたからだ。カチンときた男は、次々に周囲の客に尋ねたが、みな自分より安く買っていたのだった。