PyConJP2017の資料 Python Spark PySpark PyConJP 2017 Apache Spark
PyConJP2017の資料 Python Spark PySpark PyConJP 2017 Apache Spark
Hadoopの時代は終わった、という言説をたまに見かけるようになりました。 もちろん終わってなどいません。しかし、Hadoopとその取り巻く環境が変化したのは事実です。 本記事では、この変化が何なのかを明らかにし、その上で、なぜHadoopの時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私はHadoopを中心としたデータ基盤を取り扱うベンダー、Clouderaの社員です。 中立的に書くよう努めますが、所属組織によって発生するバイアスの完全な排除を保証することはできません。 以上をご了承の上、読み進めてください。 要約 データ基盤は、Hadoopの登場により非常に安価となり、今まででは不可能だった大量のデータを取り扱えるようになりました。 Hadoopは、NoSQLブームの中、処理エンジンであるMapReduceとストレージであるHDFSが
富士通研究所は2017年3月17日、NoSQLデータベース「MongoDB」のデータを読み出し、RDB(リレーショナルデータベース)「PostgreSQL」の表に変換する技術を発表する。MongoDBはIoT(インターネット・オブ・シングズ)機器などがデータの送受信に使うJSON形式でデータを保存するドキュメント指向のNoSQLデータベース。IoT機器から収集したデータを加工せずにMongoDBに保存し、SQLクエリーを使って読み出せる。 コンピュータシステム研究所の堀江健志所長(右)、同研究所データシステムプロジェクトの河場基行プロジェクトディレクタ(中央)、同研究所同プロジェクトの中村実氏(左) この技術を使うと、SQLクエリーでPostgreSQLとMongoDBの両方のデータを操作できる。コンピュータシステム研究所データシステムプロジェクトの中村実氏は「MongoDBに保存してある
その対処で全部に対応するのは無理なんじゃないの? Watermark、Trigger、Accumulationの機構が導入されればストリーム処理は全て対応可能かというと、 そんなことはありません。 何故なら、下記のような問題が発生してくるからです。 Watermarkを実時刻からどれくらい遅らせて設定すればいいのか? 遅れを大きくすれば正確性は増しますが、遅延時間は大きくなります。 Accumulationのためにウィンドウの集計結果をどれだけ保持すればいいのか? 保持する時間が長いほど、ストリーム処理を行うシステムのリソースが必要となります。 データ処理システム(バッチ、ストリーム含む)には下記の3要素のトレードオフがあるとされています。 完全性(Completeness) 低遅延(Low Latency) 低コスト(Low Cost) この3要素を全てに満たすことは出来ず、全てのデータ
Apache Beam Apache Dataflow proposal has been renamed to Apache Beam (combination of Batch and strEAM). The proposal page has moved to BeamProposal.
11月27日、ノーチラス・テクノロジーズは「2015 Asakusa Framework Day」を開催。舌鋒鋭い物言いで知られる同社の代表取締役社長 神林飛志氏は、ビッグデータとIoT市場の現状やHadoop/Sparkと日本市場のミスマッチなどを指摘しつつ、次世代のAsakusa Frameworkの構想を披露した。 ビッグデータは既存のCRM、IoTはPoCレベル ノーチラス・テクノロジーズのAsakusa Frameworkは、業務システムのバッチ処理にHadoopやSparkでの分散システムを活用するための開発・運用フレームワーク。会計や在庫などの業務データから精度の高い分析情報を作成したり、バッチ処理に利用できるほか、分散システムのメリットを活かし、負荷分散や高い可用性などを実現する。OSSで公開されており、エンタープライズで多くの実績を持つ。 イベントの後半で登壇したノーチラ
知らないと大損する、Apache Sparkの基礎知識と3つのメリット:特集:IoT時代のビジネス&IT戦略(3)(1/3 ページ) 社会一般から大きな注目を集めているIoT(Internet of Things)。だが、その具体像はまだ浸透しているとはいえない。今回は、IoTやビッグデータのキーテクノロジとして注目されている「Apache Spark」について、Sparkを製品に取り込んでいる日本IBMの土屋敦氏と、数多くの企業のデータ分析を担うブレインパッドの下田倫大氏に話をうかがった。 大規模データ処理のテクノロジとしてApache Hadoop(以下、Hadoop)に続き、Apache Spark(以下、Spark)が注目されている。Sparkは、IoT(Internet of Things)やビッグデータのキーテクノロジとして注目されているが、エンタープライズ領域ではどのように活
(左)さくらインターネット 代表の田中、(右)ノーチラス・テクノロジーズの神林氏 初めてさくナレに記事を書くことになりました法林です。今年の5月からさくらインターネットに常駐していて、技術広報、コミュニティ支援、イベント運営などを担当しています。 さて、当社のイベントと言えば「さくらの夕べ」を思い出される方も多いでしょう。今回は9月28日(月)に東京は新宿にて開催した「第26回 さくらの夕べ in東京 ~さくらで作る大規模分散処理環境~」の模様をお伝えします。久しぶりの東京開催にもかかわらず、今回も約100名の参加登録をいただきました。ありがとうございます! なぜ分散処理環境と原価計算システムを作ったの? 今回の夕べでご紹介したのは、当社がノーチラス・テクノロジーズ様と共同で構築した分散処理環境と、その上に実装したデータセンターの原価計算システムです。はじめに、なぜこのようなものを構築した
こんにちは!美味しいコーヒーを飲むために、毎朝早くにデスクでコーヒーミル回してます、アナリティクスチームの高柳です。 アナリティクスチームでは、じゃらんnetやホットペッパービューティーをはじめとしたリクルートライフスタイルのサービスに対して、基礎集計やレポーティング、また、データマイニング(データ分析)を活用し、高速にサービスを改善していくというミッションを担っています。 本記事では、データ分析環境としてのApache Spark、特にver 1.4から利用可能になったSparkRを、当チームのAWS上の分析環境に導入検討していたので、その辺について書きたいと思います。 SparkRは、まだリリースから日が浅いことから、日本語の記事が相当に少ないので、この記事がみなさんの"Happy SparkR ライフ"のお役に立つことを願っております。 Apache Spark導入の背景 サービスを
Hadoopソースコードリーディング 第17回に参加してきました。今回のテーマは7月にApacheのTop-Level Project入りしたばかりのApache Tezについてでした。なお、全体的にApache Sparkと比較する形での説明が多かったので、Sparkについてご存じない方は前回のHadoopソースコードリーディング 第16回に参加してきましたをご参照下さい。 NTTデータ濱野さんの冒頭の挨拶 今日は別のイベントも多いためいつもの半分ぐらいの参加者だが、その分Deepにやれれば いつもの会場だと途中からピザとお酒だが、今回の会場は飲食禁止なので最後までシラフで Tezに関する勉強会は初回なのにいきなりタイトルがInternalsとかになってますねw Tez Internals (@oza_x86 さん) @oza_x86 さんからはTez Internalsということで、S
14. Proposalによると… Tez is a proposal to develop a generic application which can be used to process complex data-processing task DAGs and runs natively on Apache Hadoop YARN. YARN is a generic resource-management system on which currently applications like MapReduce already exist. MapReduce is a specific, and constrained, DAG - which is not optimal for several frameworks like Apache Hive and Apache
The document discusses Spark internals and provides an overview of key components such as the Spark code base size and growth over time, core developers, Scala basics used in Spark, RDDs, tasks, caching/block management, and schedulers for running Spark on clusters including Mesos and YARN. It also includes tips for using IntelliJ IDEA to work with Spark's Scala code base.Read less
Private content!This content has been marked as private by the uploader.
Hadoopソースコードリーディング 第16回に参加してきました。今回は1.0がリリースされる目前のApache Sparkがテーマでした。 NTTデータ濱野さんの冒頭の挨拶 Spark1.0リリースを記念する予定が、されていないw 今回はお酒を飲んでグダグダする時間はないw Apache Sparkのご紹介(前半) NTTデータ土橋さん まずは土橋さんからSparkの背景やSpark Summit 2013の振り返り、Sparkの基本についての説明がありました。詳細はスライドを見てもらった方がいいですが、さくっと雰囲気を掴みたい方は以下のメモをご参照下さい。 土橋さん 6年前からHadoopに関わっている。 基本はインフラエンジニア Ansible使っている。 アジェンダ Sparkの背景 Spark Summit 2013振り返り Sparkのキホン RDD スケジューラ 前提 机上調
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く