続グーグルの新プライバシー規定をめぐる混乱
ビック・データという新ゴールドラッシュ(後編)

ビッグ・データを駆使して米国の景気動向を予測するグーグルのハル・バリアン氏(2012年ストラタ会議で筆者が撮影)

 前回は、欧米の政府機関や市民団体が大きな懸念を表明しているにも関わらず、グーグルがネット・プライバシー・ポリシー(個人情報取り扱い規定)の統合を強引に進めたことに触れた。また、そうしたグーグルの動きに寛容なシリコンバレーの雰囲気を紹介するとともに、当地のネット企業が、執拗にネット・プライバシー情報を集めようとするのは「ビッグ・データ」という新ビジネスを育てるためだと分析した。では、ビッグ・データが切り開く、新しい世界とは何だろうか。今回は、この点を解説してみたい。

ビッグ・データの源流はデータ・ウェアハウス

 まず、ビッグ・データの仕組みについて簡単に説明するので、お付き合い願いたい。

 日本でも「ビッグ・データ推進」を標榜するシステム・インテグレーターやコンピュータ機器メーカーが最近は増えている。ただ、ビッグ・データのコンセプトは決して新しいものではない。それは、1980年代に注目を集めたデータ・ウェアハウスにさかのぼる長い歴史を持つ。

 では、そもそものデータ・ウェアハウスとはどんな技術だろうか。その目的は「大量のデータを一定のロジックで処理し、様々な意志決定用のインフォメーションを導き出すこと」にある。大手流通チェーンを例にすれば、夏に暑い日が続いたときに「どの地区では、どのような商品がよく売れ、在庫不足になりやすいか」と言ったことを、過去のデータと比較しながら予測することができる。

 コンピュータによって様々な経営判断を合理化する動きは、1990年代にコンピュータの性能が急速に向上し、価格も安くなったことから普及した。昔はコンピュータ支援経営判断システムとよばれ、最近ではビジネス・インテリジェンス(BI)などと呼ばれているこうしたシステムは、データ収集蓄積、データ整理、ロジック処理、結果の表示技術など複数の要素から成り立っているが、いくつかの課題を抱えている。

 まず、正確な分析をしようとすれば、処理するデータ量は多いほどよいが、データがふえればファイルを分割して取り扱わなければならない。しかし、従来のデータベース(RDBS)はこれを苦手とした。また、データ量が増えるほど処理のためのサーバーは数が増える。機器の規模が拡大するほど、故障の発生率は高くなりシステムが不安定になる。そのためデータ・ウェアハウスでは、テラバイト程度のデータ量が限界となっていた。

 もうひとつは、データ・タイプの制限だ。一般に広く使われているデータベースは、リレーショナル・データベースと呼ばれる。これは一つ一つのデータを関連(リレーショナル)づけて取り扱うことを原則としている。ところが、データは本来多種多様なものであって、すべてのデータに一定の関連性を求めることには無理がある。前者を構造化データ、後者を非構造化データという。

 たとえば、中学校に行けば、みんなが同じ学生服を着ている。つまり、生徒は学生服を着ているという一定の関係性がある。これが構造化されたデータで、リレーショナル・データ・ベースに適している。

 一方、学校を離れてしまえば、人々は様々な服を着ており、学生服を着ていない生徒もいる。こうした非構造化データにたいしてリレーショナル・データベースは効率的な処理ができない。そして世の中は、非構造化データであふれている。

この続きは、プレミアム会員になるとご覧いただけます。
現代ビジネスプレミアム会員になれば、
過去の記事がすべて読み放題!
無料1ヶ月お試しキャンペーン実施中
すでに会員の方はこちら