「10Gバイトのデータでもビッグデータだ。神のようなエンジニアを不要にするHadoopを使えばビッグデータ活用コストを下げられる」――。米アマゾン・ウェブ・サービシズ(AWS)のJohn Rauser Principal Quantitative Engineerは2012年2月28日、聴衆にこう語りかけた。同氏はクラウドコンピューティングの専門展「Cloud Days Tokyo/スマートフォン&タブレット/ビッグデータEXPO」で、「The Changing Economics of Data: A View From Inside Amazon」と題して、米アマゾンにおけるビッグデータ活用の実際を事例を交えながら講演した。
Rauser氏はまず米アマゾンにおけるビッグデータ活用の事例を話した。2008年、アマゾンのアフィリエイトシステムは性能面の限界を迎えていた。そこで複数台で分散処理する構成で再構築する際、オープンソースの分散処理ソフト「Apache Hadoop」を活用した。「それまでは、コモディティー化されたサーバーで対故障性を高めながら、分散コンピューティングを実施するには、神のようなエンジニアが必要だった」。
アマゾンは2010年に8人月を投じてHadoop上にアフィリエイトシステムを再構築した。「普通のエンジニアがHadoopを使うことで、非常に複雑で巨大な分散処理システムを開発できた。神のようなエンジニアを不要にしたHadoopを使うことで、開発コストを下がられた」。
さらに同社は運用コストを下げるため、アフィリエイトのチームはシステムを「Amazon Elastic MapReduce(EMR)」で運用しているという。EMRはAmazonEC2上にHadoopをホストしたサービス。「日々のデータ集計は最大でも6時間で終了する。運用コストの削減につながった」(Rauser氏)。現在、50ノードで計算し、データ量は100Gバイトにのぼるという。
さらにアマゾンは、倉庫の中でセキュリティの高い場所で管理すべき、盗まれやすい製品のリストを機械学習で自動作成するシステムをEMR上で開発・運用しているという。アマゾンは全15億個の商品を扱い、週5000万個が更新される。
同システムではカタログ全体をAmazon S3で管理し、毎日2ノードを使って30分でカタログ内容とリストを更新。カタログ全体を更新するときは50ノードが2時間をかけて処理をする。「『データウエアハウスは質の良いデータが死ににいく場所』という冗談もある。変わりゆくビジネス要件について行くのは難しい」。
講演の最後、Rauser氏はビッグデータの定義に触れた。「ペタバイトやエクサバイトクラスのデータだけがビッグデータとは思わない。10Gクラスのデータもビッグデータだ」。こう主張する背景には、データを処理して価値を抽出するコストが下落したことがある。これまではデータの価値を抽出するのに非常にコストがかかっていたため巨大なサイズのデータを対象にしていたが、今はHadoopやEMRを使えば同じことを非常に安くできるというのだ。「価値のある10Gバイトのビッグデータはたくさんあるはず。アマゾンのエンジニアには仕事はデータを処理することではなく、お客様のためになるイノベーションを生み出すことだと話している。ぜひ皆さんも挑戦してほしい」、Rauser氏はこう講演を締めた。