次世代Hadoopの有力なビッグデータ分析基盤として期待を集めているフレームワークがある。Apache Software Foundation(ASF)のオープンソースソフト(OSS)プロジェクトである「Spark」だ。インメモリー処理が特徴で、Hadoopにおける処理方式の一つである「MapReduce」を用いた場合と比べて最大で100倍以上、分析処理を高速化できる。

 Sparkは当初、研究用途として米University of California Berkeley(UCB)の研究組織「AMPLab」で誕生したものだが、2014年5月にはASFから「バージョン1.0」が公開された。研究用途のフェーズを脱し、企業が商用で使えるソフトを目指すことを宣言した形だ(関連記事:Hadoop超える機械学習向きのビッグデータ処理基盤、Spark 1.0が正式公開)。

 Sparkに注目し、その動向に詳しい企業の1社であるNTTデータ 基盤システム事業本部システム方式技術ビジネスユニット OSSプロフェッショナルサービス シニアエキスパートの濱野賢一朗氏は「バージョン1.0のリリースは、Sparkが『オモチャ』のような状態から脱したということ」と評する。

 Sparkの開発の中核を担う、UCB発のベンチャー企業である米Databricksは、著名ベンチャーキャピタルの米Andreessen Horowitzから約1400万ドル(約14億円)の資金を2013年に調達しており、Sparkの開発に突き進む姿勢を見せている。

動き出したSparkのエコシステム

 今回のバージョン1.0の投入を受けて、Sparkを取り巻く周辺のエコシステムも形成されつつある。Hadoop関連のベンダーやOSSプロジェクトなどが、こぞってSparkへの対応を強化しつつあるのだ。

 例えば、米Pivotalは自社のHadoopディストリビューション「Pivotal HD」上でのSparkの対応を2014年5月に表明(発表資料)。米MapR Technologiesも、自社のHadoopディストリビューション「MapR」をSparkに対応させると2014年4月に発表した(発表資料)。米Clouderaも、同社のHadoopディストリビューション「CDH」でSparkをサポートすると2013年10月に発表している(発表資料)。

 まさに全方位外交で、DatabricksはHadoopディストリビューションベンダーとパートナー関係を結びつつある。