ビッグデータの覇者たち 海部美知著
ビッグデータとは「人間の頭脳で扱える範囲を超えた膨大な量のデータを、処理・分析して活用する仕組み」と説明しています。インターネットの進化、デジタルデータの爆発的増大、コンピューティング・パワーの増大が「ビッグデータ・ブーム」に至る要因になっています。「予測」「絞り込み」「見える化」がビッグデータの得意技といえます。「予測」は、人間の脳の使い方の中でも特に高度なものですが、これをコンピュータで行うと、人力をはるかに超えるボリュームのデータを蓄積し、大量の予測を同時に行うことができます。「絞り込み」はクレジットカードの使い方のパターンから取引の不正を絞り込んだり、Eコマースで、「このユーザが次に買ってくれそうな商品」などを、膨大な件数の中から割り出し、ある程度の分量まで絞り込みます。「見える化」とは、文字や数値の羅列ではなく、集めたデータを使ってグラフや図を自動生成し、わかりやすく表現することをいいます。
2006年頃から加速したネット企業のビッグデータ技術では、グーグルとアマゾンが大きな役割を果たしました。単に過去の時点でそうであっただけでなく、この2社は引きつづき、ビッグデータ技術を牽引する立場にあります。
グーグルは出発は確かに、検索の会社でした。検索を研ぎ澄ましていく過程で、グーグルは多くのデータを集めていったわけですが、そこで「データというものは、量をたくさん集めていけば、どこかの時点で質に変わる」という技術と思想が生まれてきたのです。
グーグルのウェブ検索は、あるサイトが他のサイトからどれだけリンクされているかということを「信頼度」のバロメーターと考え、あるキーワードに該当するサイトの中から、その「信頼度」を数値化した「ページランク」の順に表示することからスタートしました。しかし、その後、それだけではなく、あらゆる「シグナル」をかき集めてそのユーザーに最適の結果を返すように、徐々に進化してきました。現在では他のシグナルのほうが比重が大きくなり、ページランクはほとんど使われていないようです。
シグナルとは、ユーザーの過去の検索履歴や他ユーザーのクリック履歴、居場所など、種々のコンテクスト(context 状況や関係)から得られる「ヒント」のことです。さらに、Gメールや地図など、同じユーザーがグーグルの他のサービスを使った履歴やその内容も「シグナル」として使うことができます。
ユーザーにサービスを提供することで自動的に材料が集まるという、自律的に「循環」する仕組みで、材料費は非常に低コストでで済みます。それだけではありません。グーグルにとって、サービスは使われれば使われるほど、良質の材料が生み出され、それにより、さらに検索結果が向上するという仕組みなのです。こうした低コストで効率的な仕組みが、グーグルの独特なコスト構造を支えています。当然、収入源である検索広告にも同様な技術が使われています。検索をすると、今検索しているモノに最も関連の深そうな広告はなにかということをある程度絞り込み、予測して表示するのです。
アマゾンは、Eコマースにおける世界のぶっちぎりトップであるだけでなく、グーグルと並び、泣く子も黙るビッグデータ業界の大立て者でもあります。アマゾンのビッグデータといえば、「商品のオススメ」とすぐ思いつかれるかもしれません。顧客の過去の利用履歴から好みを割り出して、ぴったりの商品を画面に表示したり、オススメ商品の割引クーポンを送ったりすることなどが盛んに行われています。小売り分野はビッグデータ技術の成果を身近に感じられる分野の一つです。しかし、その話は全体の一部でしかありません。アマゾンの巨大感とは、クラウドとビッグデータ業界を下から支える「インフラ」としての存在感です。
グーグルの場合、ビッグデータをいわば「製造機械」として使い、そこで生産された情報が売り物で、ビッグデータは本業そのものといえます。これに対し、アマゾンは書籍や電気製品などのモノを、箱に入れトラックで運んで売るのが本業であり、この本業での問題を解決するために、ビッグデータをツールとして使い、次のステップでは自分で作ったツールを外向けにも販売するようになりました。アマゾンの場合は、ビッグデータ技術が、自社内でも本業を下から支える重要なインフラになっており、それをクラウドでサービス提供する他社にも広げているということが、アマゾンの存在感の源流です。
アマゾンが生き残ってこられたのは、ユーザーの注文が間違いなく処理されるという信頼感や、面倒な手間なく迅速に注文が完了するという安心感がたいへん重要だという信念を持ち、コンマ何%の間違いやコンマ数秒の遅れを徹底的に排除すべく、絶え間なく進歩しつづけてきたからです。その対象は、注文処理だけでなく、商品カタログや在庫の管理、支払い処理、商品オススメ、ユーザーレビュー、不正対策など、多岐にわたる業務向けシステムに及びます。
世界に多数あるデータセンターのどこかでディスクが壊れようと、嵐で回線が切れようと、顧客のショピング・カートの中身が消えてしまわないようにしなければならないのです。これだけの規模と複雑さと精度レベルのオンライン・トランザクション処理ができるシステムがこの世に存在しないので、アマゾンは、自前でシステムを作り出しました。これが、「Dynamo(ダイナモ)」というソフトウェアです。「Dynamo(ダイナモ)」のデビューは2007年です。アマゾンは「Dynamo(ダイナモ)」で管理されたサーバーの容量を貸し出す商売を始めました。これが「アマゾン・ウェブ・サービス(AWS)」という名称のクラウド・コンピューティング・サービスです。アマゾンのAWSは、従来型のホスティングよりもはるかに柔軟に、必要なときに必要なだけ容量を借りることができるのが特徴です。小容量ならば安価に借りられ、人気が出たらすぐに増やすことができるので、お金のないベンチャーにはうってつけのサービスです。それゆえ、ホスティング業界の中で「クラウド・コンピューティング」のカテゴリーでは、アマゾンが市場のシェアの半分を占める圧倒的なトップ・プレイヤーとなっているのです。