2017年3月21日 ヒカラボ登壇資料 【 ヒカ☆ラボ 】ゼロから始めるSparkSQL徹底活用!~Sparkのインストールから、 SparkSQLの概要紹介、実務で活用するためのノウハウまでを紹介します~ https://atnd.org/events/85919Read less
はじめに こんにちは、データ分析部の森本です。主な業務は記事配信アルゴリズムの改善とログ基盤の整備です。 Gunosyでは、ユーザーへより良い記事を提供するためにアクセスログをストリーム処理し、集計結果を記事配信アルゴリズムに活用しています。 ストリームログ基盤にはSpark Streamingを利用していますが、現在Kinesis Analyticsへ移行中です。 この記事ではKinesis Analyticsへ移行する理由や運用上のTips等についてお話します。 Spark Streamingを利用したストリームログ基盤構成 現在のストリームログ基盤はSpark Streamingで集計を行い、結果をRDSに保存しています。 なぜSpark StreamingからKinesis Analyticsへ移行するのか サーバーコストと運用コストの削減を目的としています。 サーバーコストについ
Our thanks to Don Drake (@dondrake), an independent technology consultant who is currently working at Allstate Insurance, for the guest post below about his experiences comparing use of the Apache Avro and Apache Parquet file formats with Apache Spark. Over the last few months, numerous hallway conversations, informal discussions, and meetings have occurred at Allstate about the relative merits of
あけまして、おめでとうございます。 例年、Apache Hadoopを中心に並列分散処理ミドルウェアの動向や展望についてご紹介しています。 今年は、NTTデータに所属する 鯵坂 明(Apache Hadoopコミッタ) 岩崎 正剛(Apache Hadoop開発者、HTraceコミッタ) 関 堅吾(Apache Yetusコミッタ) 猿田 浩輔(Apache Sparkコミッタ) の4名による対談からまとめた、HadoopとSparkを中心に2015年の振り返りと2016年の展望をご紹介します。 対談の模様(1)鯵坂 明氏(左)と岩崎 正剛氏 2015年を振り返る 2015年の新春特別企画では「TezやSparkなどの新しい処理基盤の活用が進むことになる」と紹介しました。実際に振り返ってみると、Apache Sparkはかなり盛り上がりました。 Apache Sparkは、年初にバージョン
はじめに iQONでは、アイテムのレコメンドといった大規模データの計算が必要な際には、Spark の MLlib という機械学習のライブラリを使っていますが、その際に Google Cloud Platform (GCP) のマネージド Hadoop & Spark サービスである Dataproc で計算を行っています。 本記事では、実際に業務で使ってみた上で、Dataproc にどのような特徴があり、他の類似サービスと比べてどのようなメリットがあるか、また利用する際にどのような点に気をつけるべきか、といった点について説明したいと思います。 Dataproc とは? Dataprocは、Hadoop & Saprk のマネージド サービスです。類似サービスとしては、AWS の Elastic MapReduce (EMR) や Azure の HD Insight がありますが、それらの
Answer (1 of 17): When I was getting started with using Apache Spark, I had the same question. From everything I heard, it seemed as if Spark does the same things as Mapreduce but better and faster. But, as it turns out that’s not the case. A few resources (linked below) have helped me with that ...
この記事は、インテルの SSG STOビッグデータテクノロジーグループのメンバーからDataBricksに寄稿されたブログを翻訳したものです。誤訳がありましたら、@teppei_tosaに御連絡ください。 Sparkは、その優れた性能、シンプルなインターフェイス、および分析や計算のための豊富なライブラリによって、幅広い業界で採用されてきています。ビッグデータエコシステムにおける多くのプロジェクトと同様に、Sparkは、Java仮想マシン(JVM)上で実行されます。Sparkはメモリに大量のデータを格納することにおいて、Javaのメモリ管理とガベージコレクション(GC)に大きく頼っています。また、プロジェクトTungstenなどの新たな取り組みは、将来のバージョンで、メモリ管理のさらなる簡素化と最適化を目指しています。しかし、今日時点でも、JavaのGCオプションとパラメータを理解しているユ
最近、MapR TechnologiesのCTOであり共同創業者のM.C. Srivasは、Spark Summit 2014において「Spark on Hadoopが重要な理由」について発表しました。インメモリ・プロセシング・フレームワークを備えたSparkは、Hadoop上で補完的なフルスタックを提供し、これはMapRの顧客にとってすばらしい兆候を示すものです。M.C. Srivasはこのような使用例のいくつかを提示し、SparkとHadoopの統合がどのようにして、そしていつ、エンドユーザーへ最善の価値をもたらすのか、議論しました。 この発表のいくつかの要点は、次のようなものです。 Apache HadoopとOSSエコシステムは急速に進化しています。MapRはHadoopエコシステムの多くの部分を、MapRデータプラットフォームの一部として提供しています。 より簡単なAPIやPyt
Private content!This content has been marked as private by the uploader.
War of the Hadoop SQL engines. And the winner is …? You may have wondered why we were quiet over the last couple of weeks? Well, we locked ourselves into the basement and did some research and a couple of projects and PoCs on Hadoop, Big Data, and distributed processing frameworks in general. We were also looking at Clickstream data and Web Analytics solutions. Over the next couple of weeks we wil
In early 2012, a group of engineers with background in distributed systems and machine learning came together to form Adatao (a-’DAY-tao). We saw a major unsolved problem in the nascent Hadoop ecosystem: it was largely a storage play. Data was sitting passively on HDFS, with very little value being extracted. To be sure, there was MapReduce, Hive, Pig, etc., but value is a strong function of (a) s
http://spark.incubator.apache.org/docs/latest/ec2-scripts.html SparkではローカルファイルやHDFS上のファイル以外に、S3上のファイルもデータとして使用することができます。 読み込む際に、SparkContextにAWSのACCESS_KEYとSECRET_KEYを認識させる必要がありますが、ネット上では色々情報が錯綜していてちょっと良くわかりませんでした。 (Hadoopクラスタのcore-site.xmlに書くとか、S3のURLに含ませるとか) 0.8.1のSparkContext.scala(core/src/main/scala/org/apache/spark/SparkContext.scala)のソースを見てみたら、以下のようになっていました。 /** A default Hadoop Configurati
1. classmethod.jp Run Spark on EMRって どんな仕組みになってるの? AWS勉強会 in 北北海道札幌! Developers.IO Meetup 05 1 2014/06/28 能登 諭 2. classmethod.jp 2 注意!!! ! このスライドの内容は現在は一部適切ではない内容になっています。! ! このスライドの元ネタであるAWSの記事が2014-10-22にアップデートされま した。! https://aws.amazon.com/articles/Elastic-MapReduce/4926593393724923! ! このアップデートでYARNに対応したSparkのBootstrap ActionがAWSより 提供されるようになりました。! http://blogs.aws.amazon.com/bigdata/pos
米デル、Oracle 12c用垂直統合システム、MySQL用アプライアンス、Cloudera用インメモリアプライアンスなど、データベース特化の垂直統合システムを相次いで発表 「デルはアプライアンス群への提供へと急速に移行しており、お客様は大規模なエンタープライズアプリケーションの管理や運用のシンプル化による価値を受けられるようになります」(6月24日付けプレスリリースから) 米デルはフロリダでの同社のイベント「Dell User Forum」において、データベースに個別に特化した垂直統合システムやアプライアンスを相次いで発表。エンタープライズ市場においてはアプライアンス戦略に注力していくことを明らかにしました。 発表された主なシステムは以下の通り。 Dell Integrated System for Oracle 12c Database フルラックに「Dell PowerEdge Se
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く