前回、Apache SparkのMLlibを使って、RandomForestをローカル環境で試してみました。今回はそれをjarにして、AWS EMRのクラスタ上でバッチとして動かしてみます。 当方開発環境がWindowsでして、AWS Cliは入れておりません。ということで、出来るだけWebのAWS Management Consoleからやっていく方針で。 Steps RandomForestを呼び出すコードをScalaで作る 前回と異なるのは、以下3点: SparkContextでMasterを設定しない => spark-submitでの実行時に投げるので、ここではいらない。 入力ファイルの場所をs3n://として、S3のロケーションを指定する。 printlnでの出力は止めて、SparkContext.saveAsTextFileでS3に結果を出力する => 引き続きリダイレクトで