2010年01月24日 Hadoop Streaming メモ ClouderaのVMで Hadoop-Streaming をいじったときの調べ物&備忘メモ。 ■処理対象の指定 処理対象ファイルが特定のフォルダの下にある場合は、-input で親フォルダ名を指定するだけで中身のファイルを全て拾ってくれる。 input が2個以上ある場合は -input (対象) -input (対象) というようにして複数回指定すればよい。 inputとして渡されたファイルの拡張子が .gz か .deflate だと、mapperに読み込む前にHadoopが自動的に解凍してくれる(ZIP、JARも可能) ・output も圧縮することも可能( mapred.output.compress=true) ・ファイルのパスを指定する際に使えるワイルドカードは、「?」」と「*」と {a,b} (←コンマで区切ら
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く