Address
:
[go:
up one dir
,
main page
]
Include Form
Remove Scripts
Accept Cookies
Show Images
Show Referer
Rotate13
Base64
Strip Meta
Strip Title
Session Cookies
More Web Proxy on the site http://driver.im/
Submit Search
Run Spark on EMRってどんな仕組みになってるの?
19 likes
7,082 views
Satoshi Noto
1 of 51
Download now
Downloaded 16 times
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
More Related Content
What's hot
(20)
PDF
Amazon Elastic MapReduce with Hive/Presto ハンズオン(講義)
Amazon Web Services Japan
PDF
2017年1月のAWSサービスアップデートまとめ
Amazon Web Services Japan
PDF
AWS Black Belt Online Seminar 2017 AWS Elastic Beanstalk
Amazon Web Services Japan
PDF
AWS Black Belt Online Seminar 2017 Amazon DynamoDB
Amazon Web Services Japan
PDF
オンプレミスRDBMSをAWSへ移行する手法
Amazon Web Services Japan
PDF
[Aurora事例祭り]Amazon Aurora を使いこなすためのベストプラクティス
Amazon Web Services Japan
PDF
AWS Black Belt Online Seminar Amazon Aurora
Amazon Web Services Japan
PDF
[Aurora事例祭り]毎日新聞ニュースサイトをクラウド化 ~Amazon Aurora 導入事例紹介~
Amazon Web Services Japan
PDF
AWS Black Belt Online Seminar 2017 AWS Storage Gateway
Amazon Web Services Japan
PPTX
2016年8月のAWSサービスアップデートまとめ
Amazon Web Services Japan
PDF
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Noritaka Sekiyama
PDF
Amazon Elastic MapReduceやSparkを中心とした社内の分析環境事例とTips
yuichi_komatsu
PDF
AWS Black Belt Online Seminar 2017 Deployment on AWS
Amazon Web Services Japan
PDF
Aurora
maruyama097
PDF
20140315 jawsdays i2 instance io performance
Matsumoto Hiroki
PDF
AWS Black Belt Techシリーズ AWS Data Pipeline
Amazon Web Services Japan
PDF
AWS Black Belt Online Seminar Amazon Redshift
Amazon Web Services Japan
PDF
AWS Black Belt Online Seminar 2016 Amazon Kinesis
Amazon Web Services Japan
PDF
【ヒカラボ】RDS for MySQL → Aurora
Yuki Kanazawa
PPTX
Amazon Athena で実現する データ分析の広がり
Amazon Web Services Japan
Amazon Elastic MapReduce with Hive/Presto ハンズオン(講義)
Amazon Web Services Japan
2017年1月のAWSサービスアップデートまとめ
Amazon Web Services Japan
AWS Black Belt Online Seminar 2017 AWS Elastic Beanstalk
Amazon Web Services Japan
AWS Black Belt Online Seminar 2017 Amazon DynamoDB
Amazon Web Services Japan
オンプレミスRDBMSをAWSへ移行する手法
Amazon Web Services Japan
[Aurora事例祭り]Amazon Aurora を使いこなすためのベストプラクティス
Amazon Web Services Japan
AWS Black Belt Online Seminar Amazon Aurora
Amazon Web Services Japan
[Aurora事例祭り]毎日新聞ニュースサイトをクラウド化 ~Amazon Aurora 導入事例紹介~
Amazon Web Services Japan
AWS Black Belt Online Seminar 2017 AWS Storage Gateway
Amazon Web Services Japan
2016年8月のAWSサービスアップデートまとめ
Amazon Web Services Japan
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Noritaka Sekiyama
Amazon Elastic MapReduceやSparkを中心とした社内の分析環境事例とTips
yuichi_komatsu
AWS Black Belt Online Seminar 2017 Deployment on AWS
Amazon Web Services Japan
Aurora
maruyama097
20140315 jawsdays i2 instance io performance
Matsumoto Hiroki
AWS Black Belt Techシリーズ AWS Data Pipeline
Amazon Web Services Japan
AWS Black Belt Online Seminar Amazon Redshift
Amazon Web Services Japan
AWS Black Belt Online Seminar 2016 Amazon Kinesis
Amazon Web Services Japan
【ヒカラボ】RDS for MySQL → Aurora
Yuki Kanazawa
Amazon Athena で実現する データ分析の広がり
Amazon Web Services Japan
Viewers also liked
(20)
PDF
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
NTT DATA OSS Professional Services
PDF
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
NTT DATA OSS Professional Services
PDF
AWS Black Belt Online Seminar 2016 Amazon EMR
Amazon Web Services Japan
PDF
Hadoop概要説明
Satoshi Noto
PDF
Hadoop Summit 2015: Performance Optimization at Scale, Lessons Learned at Twi...
Alex Levenson
PDF
Logをs3とredshiftに格納する仕組み
Ken Morishita
PDF
Spark Streamingによるリアルタイムユーザ属性推定
Yoshiyasu SAEKI
PPTX
Pythonで入門するApache Spark at PyCon2016
Tatsuya Atsumi
PPT
Amazon Redshift ベンチマーク Hadoop + Hiveと比較
FlyData Inc.
PDF
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTT DATA OSS Professional Services
PDF
Sparkパフォーマンス検証
BrainPad Inc.
PDF
AWS Black Belt Online Seminar 2016 AWS IoT
Amazon Web Services Japan
PDF
データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~
NTT DATA OSS Professional Services
PDF
AWSでのビッグデータ分析
Amazon Web Services Japan
PDF
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
NTT DATA OSS Professional Services
PDF
ストリーム処理を支えるキューイングシステムの選び方
Yoshiyasu SAEKI
PDF
AWS Black Belt Techシリーズ リザーブドインスタンス & スポットインスタンス
Amazon Web Services Japan
PDF
Amazon S3を中心とするデータ分析のベストプラクティス
Amazon Web Services Japan
PDF
Spark on z/OSとAsakusa Frameworkによる基幹バッチアプリケーション開発
Hidenori Fujioka
PDF
Java8 Stream APIとApache SparkとAsakusa Frameworkの類似点・相違点
hishidama
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
NTT DATA OSS Professional Services
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
NTT DATA OSS Professional Services
AWS Black Belt Online Seminar 2016 Amazon EMR
Amazon Web Services Japan
Hadoop概要説明
Satoshi Noto
Hadoop Summit 2015: Performance Optimization at Scale, Lessons Learned at Twi...
Alex Levenson
Logをs3とredshiftに格納する仕組み
Ken Morishita
Spark Streamingによるリアルタイムユーザ属性推定
Yoshiyasu SAEKI
Pythonで入門するApache Spark at PyCon2016
Tatsuya Atsumi
Amazon Redshift ベンチマーク Hadoop + Hiveと比較
FlyData Inc.
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTT DATA OSS Professional Services
Sparkパフォーマンス検証
BrainPad Inc.
AWS Black Belt Online Seminar 2016 AWS IoT
Amazon Web Services Japan
データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~
NTT DATA OSS Professional Services
AWSでのビッグデータ分析
Amazon Web Services Japan
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
NTT DATA OSS Professional Services
ストリーム処理を支えるキューイングシステムの選び方
Yoshiyasu SAEKI
AWS Black Belt Techシリーズ リザーブドインスタンス & スポットインスタンス
Amazon Web Services Japan
Amazon S3を中心とするデータ分析のベストプラクティス
Amazon Web Services Japan
Spark on z/OSとAsakusa Frameworkによる基幹バッチアプリケーション開発
Hidenori Fujioka
Java8 Stream APIとApache SparkとAsakusa Frameworkの類似点・相違点
hishidama
Ad
Similar to Run Spark on EMRってどんな仕組みになってるの?
(20)
PDF
Running Apache Spark on AWS
Noritaka Sekiyama
PDF
[AWSマイスターシリーズ] Amazon Elastic MapReduce (EMR)
Amazon Web Services Japan
PPTX
ATN No.1 Hadoop vs Amazon EMR
AdvancedTechNight
PDF
Modernizing Big Data Workload Using Amazon EMR & AWS Glue
Noritaka Sekiyama
PDF
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Shinpei Ohtani
PDF
20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編
Kotaro Tsukui
PDF
20111130 10 aws-meister-emr_long-public
Amazon Web Services Japan
PDF
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
Cloudera Japan
PDF
AWS Elastic MapReduce詳細 -ほぼ週刊AWSマイスターシリーズ第10回-
SORACOM, INC
PDF
Hadoop Trends & Hadoop on EC2
Yifeng Jiang
PPTX
機械学習の定番プラットフォームSparkの紹介
Cloudera Japan
PPTX
20170803 bigdataevent
Makoto Uehara
PDF
Spark at Scale
Yuta Imai
PDF
Apache Sparkやってみたところ
Tatsunori Nishikori
PDF
TokyoWebminig カジュアルなHadoop
Teruo Kawasaki
PDF
[JAWSBigData#11]Cloudera on AWSと Amazon EMRを両方本番運用し 3つの観点から比較してみる
Takahiro Moteki
PDF
Yifeng hadoop-present-public
Yifeng Jiang
PPTX
Apache Spark on Kubernetes入門(Open Source Conference 2021 Online Hiroshima 発表資料)
NTT DATA Technology & Innovation
PDF
個人的にAmazon EMR5.0.0でSpark 2.0を使ってZeppelinでSQL集計してみる
Eiji Shinohara
PDF
Tez on EMRを試してみた
Satoshi Noto
Running Apache Spark on AWS
Noritaka Sekiyama
[AWSマイスターシリーズ] Amazon Elastic MapReduce (EMR)
Amazon Web Services Japan
ATN No.1 Hadoop vs Amazon EMR
AdvancedTechNight
Modernizing Big Data Workload Using Amazon EMR & AWS Glue
Noritaka Sekiyama
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Shinpei Ohtani
20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編
Kotaro Tsukui
20111130 10 aws-meister-emr_long-public
Amazon Web Services Japan
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
Cloudera Japan
AWS Elastic MapReduce詳細 -ほぼ週刊AWSマイスターシリーズ第10回-
SORACOM, INC
Hadoop Trends & Hadoop on EC2
Yifeng Jiang
機械学習の定番プラットフォームSparkの紹介
Cloudera Japan
20170803 bigdataevent
Makoto Uehara
Spark at Scale
Yuta Imai
Apache Sparkやってみたところ
Tatsunori Nishikori
TokyoWebminig カジュアルなHadoop
Teruo Kawasaki
[JAWSBigData#11]Cloudera on AWSと Amazon EMRを両方本番運用し 3つの観点から比較してみる
Takahiro Moteki
Yifeng hadoop-present-public
Yifeng Jiang
Apache Spark on Kubernetes入門(Open Source Conference 2021 Online Hiroshima 発表資料)
NTT DATA Technology & Innovation
個人的にAmazon EMR5.0.0でSpark 2.0を使ってZeppelinでSQL集計してみる
Eiji Shinohara
Tez on EMRを試してみた
Satoshi Noto
Ad
More from Satoshi Noto
(10)
PPTX
このサービスは俺に聞け勉強会(機械学習)
Satoshi Noto
PDF
読書会のすすめ
Satoshi Noto
PDF
データ分析チームの振り返り
Satoshi Noto
PDF
Amazon Machine Learning概要
Satoshi Noto
PDF
大晦日のメッセージ配信の裏側
Satoshi Noto
PDF
Fullbokをがっつり使ってみた
Satoshi Noto
PDF
Hiveハンズオン
Satoshi Noto
PDF
MapReduceプログラミング入門
Satoshi Noto
PDF
MapReduce入門
Satoshi Noto
PDF
ただいまHadoop勉強中
Satoshi Noto
このサービスは俺に聞け勉強会(機械学習)
Satoshi Noto
読書会のすすめ
Satoshi Noto
データ分析チームの振り返り
Satoshi Noto
Amazon Machine Learning概要
Satoshi Noto
大晦日のメッセージ配信の裏側
Satoshi Noto
Fullbokをがっつり使ってみた
Satoshi Noto
Hiveハンズオン
Satoshi Noto
MapReduceプログラミング入門
Satoshi Noto
MapReduce入門
Satoshi Noto
ただいまHadoop勉強中
Satoshi Noto
Run Spark on EMRってどんな仕組みになってるの?
1.
classmethod.jp Run Spark on
EMRって どんな仕組みになってるの? AWS勉強会 in 北北海道札幌! Developers.IO Meetup 05 1 2014/06/28 能登 諭
2.
classmethod.jp 2 注意!!! ! このスライドの内容は現在は一部適切ではない内容になっています。! ! このスライドの元ネタであるAWSの記事が2014-10-22にアップデートされま した。! https://aws.amazon.com/articles/Elastic-MapReduce/4926593393724923! ! このアップデートでYARNに対応したSparkのBootstrap ActionがAWSより 提供されるようになりました。! http://blogs.aws.amazon.com/bigdata/post/Tx15AY5C50K70RV/Installing- Apache-Spark-on-an-Amazon-EMR-Cluster! ! このスライドはアップデート前のSpark 0.8.1
on Hadoop 1.0.3 (AMI 2.x)に ついて書かれたものです。Bootstrap Actionの概要を知るにはいいですが、 現状はAWSからYARNに対応したBootstrap Actionが提供されたという部分 が異なりますのでご注意下さいm(_ _)m!
3.
classmethod.jp 自己紹介 • 氏名:能登 諭(のと
さとし)! • Twitter:@n3104! • 得意分野:Hadoop! • 好きなAWSサービス:EMR 3
4.
classmethod.jp 4 みなさん、EMR使ってますか?
5.
classmethod.jp 5 私はそろそろ実案件で! 利用することになりそうですw (前職はCDHをオンプレで 使ってました)
6.
classmethod.jp EMRとは • http://aws.amazon.com/jp/elasticmapreduce/! • 正式名称はAmazon
Elastic MapReduce。! • AWSが提供するHadoopのディストリビューショ ン。! • オンプレとの一番の違いは保守が不要な点。! • 基本的にS3に入出力ファイルを置くことになるため! • HDFSの障害を考慮しなくてよくなる。! • 容量制限を気にする必要がなくなる。 6
7.
classmethod.jp そもそもHadoopとは • http://hadoop.apache.org/! • HDFS(分散ファイルシステム)とMapReduce(分 散処理基盤)をコアとするミドルウェア群。! •
中心はHDFS(分散ファイルシステム)。これがある おかけでMapReduceで効率的に分散処理ができる。! • 最近はYARN(次世代MapReduce)が出てきたの で、MapReduce以外の処理モデルもサポートし、よ り汎用的な分散処理基盤という位置づけに。 7
8.
classmethod.jp 8 EMRではMapReduce以外にも! PigやHiveというアプリケーションを! 利用することが出来ます
9.
classmethod.jp 9
10.
classmethod.jp 10 こんな感じでマネジメント! コンソール上でPigやHiveを! 追加できます
11.
classmethod.jp 11 最初から用意されている! Additional applications以外にも! EMRクラスタに任意の! アプリケーションを! 追加することができます
12.
classmethod.jp 12 具体的には、、
13.
classmethod.jp 13 Q: Hadoop 以外のデータ処理エンジ ンを使用できますか?! http://aws.amazon.com/jp/ elasticmapreduce/faqs/
14.
classmethod.jp 14 はい。EMR の一部のお客様は、処理 エンジンとして Spark
および Shark (インメモリ MapReduce およびデー タウェアハウス)を使用できます。使 用方法については、この記事を参照し てください。
15.
classmethod.jp 15 Run Spark and
Shark on Amazon Elastic MapReduce! http://aws.amazon.com/articles/ Elastic-MapReduce/ 4926593393724923
16.
classmethod.jp 16 EMR上でSparkとSharkを! 実行する方法についての記事です
17.
classmethod.jp 17 Bootstrap Actionという! 機能を利用してSparkとSharkを! セットアップしています
18.
classmethod.jp 18 elastic-mapreduce --create --alive
-- name "Spark/Shark Cluster" -- bootstrap-action s3:// elasticmapreduce/samples/spark/ 0.8.1/install-spark-shark.sh -- bootstrap-name "Spark/Shark" -- instance-type m1.xlarge --instance- count 3
19.
classmethod.jp 19
20.
classmethod.jp Sparkとは • https://spark.apache.org/! • Hadoopと同じ分散処理基盤。! •
繰り返し処理とインメモリ処理をサポートするDAG(有向非循環グラフ) 実行エンジン。! • DAGはDriverプログラムから生成されるのでDAGを直接記述するわけで はない。! • RDDs(Resilient Distributed Datasets)というモデルで、DAGの終端か ら先頭のデータソースに向かってデータを生成していくのが特徴。! • Hadoopと比べて繰り返し処理が得意で、100倍ぐらい早く処理できる場合 がある。! • http://dev.classmethod.jp/etc/hadoop-reading-16/ を見れば概ね分かるはずw 20
21.
classmethod.jp Driverのプログラム val file =
sc.textFile("s3://bigdatademo/sample/wiki/")! ! val reducedList = file.map(l => l.split(" "))! ! .map(l => (l(1), l(2).toInt)).reduceByKey(_+_, 3)! ! reducedList.cache! ! val sortedList = reducedList! ! .map(x => (x._2, x._1)).sortByKey(false).take(50) 21
22.
classmethod.jp Sharkとは • http://shark.cs.berkeley.edu/! • 分散SQLエンジン。! •
HiveをMapReduceではなくSparkで実行でき るようにしたもの。! • なのでクエリによってはSpark同様、Hiveより も100倍ぐらい早く処理できる場合がある。 22
23.
classmethod.jp 23
24.
classmethod.jp 24 これでやっと本日のお題に! りつきましたw
25.
classmethod.jp 25 Run Spark on
EMRって! どんな仕組みになってるの?
26.
classmethod.jp 26 ちなみに、、
27.
classmethod.jp 27 タイトルからSharkを抜いたのは! タイトルが長くなるためです。! 他意はありませんw
28.
classmethod.jp 28 ということでBootstrap Actionの! 詳細について見て行きましょう
29.
classmethod.jp s3://elasticmapreduce/samples/spark/0.8.1/install-spark-shark.sh • SparkとSharkをEMRクラスタにインストールするためのシェル! • 最初に必要なソフトウェアをダウンロード&展開! •
既にセットアップ済みのHadoopの設定ファイルを元にspark- env.shを生成! • Sparkで利用するライブラリをコピー! • Sharkのセットアップ! • Sparkのデーモンを起動! • マスターの場合はstart-master.shを実行! • スレーブの場合はspark-daemon.shを実行 29
30.
classmethod.jp ソフトウェアのダウンロード&展開 cd /home/hadoop/ ! ##Download Spark
EMR wget http://bigdatademo.s3.amazonaws.com/0.8.1-dev1/spark-0.8.1-emr.tgz ##Download Shark wget https://github.com/amplab/shark/releases/download/v0.8.1/shark-0.8.1-bin-hadoop1.tgz ##Download Scala wget http://www.scala-lang.org/files/archive/scala-2.9.3.tgz ##DOwnload hive wget https://github.com/amplab/shark/releases/download/v0.8.1/hive-0.9.0-bin.tgz ! tar -xvzf scala-2.9.3.tgz tar -xvzf spark-0.8.1-emr.tgz tar -xvzf shark-0.8.1-bin-hadoop1.tgz tar -xvzf hive-0.9.0-bin.tgz ! ln -sf spark-0.8.1-emr spark ln -sf /home/hadoop/shark-0.8.1-bin-hadoop1/ /home/hadoop/shark ln -sf /home/hadoop/hive-0.9.0-bin /home/hadoop/hive ln -sf /home/hadoop/scala-2.9.3 /home/hadoop/scala 30
31.
classmethod.jp spark-env.shの生成とライブラリの追加 MASTER=$(grep -i "job.tracker<"
/home/hadoop/conf/mapred-site.xml | grep -o '[0-9]{1,3}.[0-9]{1,3} .[0-9]{1,3}.[0-9]{1,3}') SPACE=$(mount | grep mnt | awk '{print $3"/spark/"}' | xargs | sed 's/ /,/g') PUB_HOSTNAME=$(GET http://169.254.169.254/latest/meta-data/public-hostname) ! touch /home/hadoop/spark/conf/spark-env.sh echo "export SPARK_CLASSPATH=/home/hadoop/spark/jars/*">> /home/hadoop/spark/conf/spark-env.sh echo "export SPARK_MASTER_IP=$MASTER">> /home/hadoop/spark/conf/spark-env.sh echo "export MASTER=spark://$MASTER:7077" >> /home/hadoop/spark/conf/spark-env.sh echo "export SPARK_LIBRARY_PATH=/home/hadoop/native/Linux-amd64-64" >> /home/hadoop/spark/conf/spark- env.sh echo "export SPARK_JAVA_OPTS="-Dspark.local.dir=$SPACE"" >> /home/hadoop/spark/conf/spark-env.sh echo "export SPARK_WORKER_DIR=/mnt/var/log/hadoop/userlogs/" >> /home/hadoop/spark/conf/spark-env.sh cp /home/hadoop/spark/conf/metrics.properties.aws /home/hadoop/spark/conf/metrics.properties ! cp /home/hadoop/lib/gson-* /home/hadoop/spark/jars/ ##cp /home/hadoop/lib/aws-java-sdk-* /home/hadoop/spark/jars/ cp /home/hadoop/conf/core-site.xml /home/hadoop/spark/conf/ cp /home/hadoop/lib/EmrMetrics*.jar /home/hadoop/spark/jars/ cp /home/hadoop/hive/lib/hive-builtins-0.9.0-shark-0.8.1.jar /home/hadoop/spark/jars/ cp /home/hadoop/hive/lib/hive-exec-0.9.0-shark-0.8.1.jar /home/hadoop/spark/jars/ cp /home/hadoop/shark/target/scala-2.9.3/shark_2.9.3-0.8.1.jar /home/hadoop/spark/jars/ 31
32.
classmethod.jp Shark関係のセットアップ touch /home/hadoop/shark/conf/shark-env.sh cp /home/hadoop/lib/gson-*
/home/hadoop/shark/lib_managed/jars/ cp /home/hadoop/lib/aws-java-sdk-* /home/hadoop/shark/lib_managed/jars/ cp /home/hadoop/lib/EmrMetrics*.jar /home/hadoop/shark/lib_managed/jars/ cp /home/hadoop/hadoop-core.jar /home/hadoop/shark/lib_managed/jars/org.apache.hadoop/hadoop-core/ hadoop-core-1.0.4.jar cp /home/hadoop/conf/core-site.xml /home/hadoop/hive/conf/ ! echo "export HIVE_HOME=/home/hadoop/hive/" >> /home/hadoop/shark/conf/shark-env.sh echo "export SPARK_HOME=/home/hadoop/spark" >> /home/hadoop/shark/conf/shark-env.sh echo "source /home/hadoop/spark/conf/spark-env.sh">> /home/hadoop/shark/conf/shark-env.sh echo "export SCALA_HOME=/home/hadoop/scala" >> /home/hadoop/shark/conf/shark-env.sh ! cat > /home/hadoop/hive/conf/hive-site.xml << EOF <?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <configuration> <property><name>mapred.job.tracker</name><value>yarn</value></property><property><name>fs.default.name</ name> <value>hdfs://$MASTER:9000</value></property> </configuration> EOF 32
33.
classmethod.jp デーモンの起動 grep -Fq ""isMaster":
true" /mnt/var/lib/info/instance.json if [ $? -eq 0 ]; then /home/hadoop/spark/bin/start-master.sh else nc -z $MASTER 7077 while [ $? -eq 1 ]; do echo "Can't connect to the master, sleeping for 20sec" sleep 20 nc -z $MASTER 7077 done echo "Conneting to the master was successful" echo "export SPARK_JAVA_OPTS="-verbose:gc -XX:+PrintGCDetails -XX:+PrintGCTimeStamps - Dspark.local.dir=$SPACE"" >> /home/hadoop/spark/conf/spark-env.sh echo "export SPARK_PUBLIC_DNS=$PUB_HOSTNAME" >> /home/hadoop/spark/conf/spark-env.sh /home/hadoop/spark/bin/spark-daemon.sh start org.apache.spark.deploy.worker.Worker `hostname` spark://$MASTER:7077 fi 33
34.
classmethod.jp 34 ということで、、
35.
classmethod.jp 35 仕組みとしては! Bootstrap Actionを利用して! SparkとSharkのインストールと! デーモンの起動を行っていました
36.
classmethod.jp 36 こんな感じで! Bootstrap Actionを利用して! 任意のアプリケーションを! EMRクラスタに! 追加することが出来ます
37.
classmethod.jp 37 なお、、
38.
classmethod.jp 38 EMRはインスタンスタイプ毎に! Hadoopの各種デーモンの設定を! 最適化しています! http://docs.aws.amazon.com/ ElasticMapReduce/latest/ DeveloperGuide/emr-hadoop- config.html
39.
classmethod.jp 39 一方、今回のBootstrap Actionは! SparkをStandalone Modeで! 実行しています! https://spark.apache.org/docs/0.8.1/ spark-standalone.html
40.
classmethod.jp 40 Standalone Modeの場合は! spark-env.shでWorker数や! メモリサイズを指定して! インスタンスタイプに合わせた! 最適化が作業が必要になります
41.
classmethod.jp 41 そのため、、
42.
classmethod.jp 42 実際にプロダクション環境で! 利用する際には! インスタンスタイプに応じた! チューニングが必要になる! という認識です(´・ω・`)
43.
classmethod.jp 43 ですが、、
44.
classmethod.jp 44 SparkはYARN(Hadoop2)での! 起動もサポートしています! https://spark.apache.org/docs/0.8.1/ running-on-yarn.html
45.
classmethod.jp 45 よって、、
46.
classmethod.jp 46 Hadoop2(YARN)で! EMRを起動すれば! Sparkを実行できる(はず)!! そうなればチューニング作業が! 不要になる(はず)!!!
47.
classmethod.jp 47 とはいえ、自分でYARN用の! Bootstrap Actionを書くのは! しんどい( ´Д`)=3
48.
classmethod.jp 48 結論は、、
49.
classmethod.jp 49 EMRのAdditional applicationsに! Sparkがオプションとして! 追加されるといいなー(^O^)
50.
classmethod.jp 50 ご静聴ありがとうございました m(_ _)m
Download