『ビッグデータの正体 情報の産業革命が世界のすべてを変える』
~第1章「世界を変えるビッグデータ」より一部抜粋~

 ビッグデータに厳格な定義はない。元々は、情報量が増えすぎて、研究や分析に使用するデータがコンピュータのメモリーに収まりきらなくなり、分析用ツールの改良が必要になったというのが、ビッグデータと呼ばれるようになった背景である。

 こうした技術が発展して、グーグルの「MapReduce」や、そのオープンソース版の「Hadoop」(開発元はヤフー)といった新型の情報処理技術が生まれている。その結果、きれいに整理された表や従来型データベースには入りきらないほどの大量のデータでも管理できるようになった。厳格な階層構造や均一性のないデータを処理できる技術も現れ始めている。

 ネット企業は膨大なデータを収集できるし、実際にそうするだけの大きな経済的メリットもあったことから、このような最先端のデータ処理技術をいち早く導入し始めた。だから、ときには何十年もの実績を誇る非ネット系企業さえ追い抜くケースも見られる。

 現時点でビッグデータの捉え方(と同時に、本書の方針)は、次のようにまとめることができる。「小規模ではなしえないことを大きな規模で実行し、新たな知の抽出や価値の創出によって、市場、組織、さらには市民と政府の関係などを変えること」。

 それがビッグデータである。

 ただし、これは始まりにすぎない。ビッグデータの時代には、暮らし方から世界との付き合い方まで問われることになる。特に顕著なのは、相関関係が単純になる結果、社会が因果関係を求めなくなる点だ。「結論」さえわかれば、「理由」はいらないのである。過去何百年も続いてきた科学的な慣行が覆され、判断の拠り所や現実の捉え方について、これまでの常識に疑問を突きつけられるのだ。

 ビッグデータは大変革の始まりを告げるものだ。望遠鏡の登場によって宇宙に対する認識が深まり、顕微鏡の発明によって細菌への理解が進んだように、膨大なデータを収集・分析する新技術のおかげで、これまではまったく思いもつかぬ方法で世の中を捉えられるようになる。やはりここでも真の革命が起こっているのは、データ処理の装置ではなく、データそのもの、そしてその使い方だ。

各方面に押し寄せる情報洪水

 実際のところ、情報革命はどの程度まで進んでいるのだろうか。それを明らかにするには、はじめに社会全体のさまざまなトレンドを見ておく必要がある。

 デジタルという名の宇宙は常に膨張を続けている。例えば天文学。2000年に宇宙地図作成プロジェクト「スローン・デジタル・スカイサーベイ」が始まったが、同プロジェクト用の望遠鏡(米国ニューメキシコ州)が最初の数週間に収集したデータ量だけで、天文学の歴史全体を通じて集めたデータ量を超えてしまった。

 2010年には、蓄積されたデータが140テラバイト(テラは10の12乗)という途方もない量に達している。ところが、後継の望遠鏡として2016年にチリに設置予定の大型シノプティック・サーベイ望遠鏡になると、これだけのデータをわずか5日で集めてしまう。

 このような文字どおりの天文学的数字は、我々の暮らしの周辺にも少しずつ姿を現し始めている。ヒトゲノム(全遺伝情報)が初めて解読されたのは2003年。30億の塩基対の配列を決定するまでに10年の歳月が流れた。それからほぼ10年後、これと同じ量のDNAを世界中にあるゲノムマシンが15分もあれば解析してしまう。2012年には、個人のゲノム配列解析にかかる費用は1000ドル(約8万円)を割り込み、広く世の中で利用可能な大衆向け技術になりつつある。