Presto Meetup 201706にて、発表した弊社のPresto運用事例紹介です。 https://techplay.jp/event/621143
Presto Meetup 201706にて、発表した弊社のPresto運用事例紹介です。 https://techplay.jp/event/621143
History is full of great rivalries: France versus England, Red Sox versus Yankees, Sherlock Holmes versus Moriarty, Ken versus Ryu in Street Fighter... When it comes to Apache Hadoop data storage in the cloud, though, the biggest rivalry lies between the Hadoop Distributed File System (HDFS) and Amazon's Simple Storage Service (S3). While Apache Hadoop has traditionally worked with HDFS, S3 also m
Presto、Spark SQLとHive on Tezの性能に関して、数万件から数十億件までのデータ上に、常用クエリパターンの実行スピードなどを検証してみた。 We conducted a benchmark test on mainstream big data sql engines including Presto, Spark SQL, Hive on Tez. We focused on the performance over medium data (from tens of GB to 1 TB) which is the major case used in most services. Read less
1. Copyright © 2016 NTT DATA Corporation 2016/11/8 株式会社NTTデータ OSSプロフェッショナルサービス 鯵坂 明 Apache Hadoop 2.8.0 の新機能 (抜粋) Apache Hadoop ミートアップ 2. 2Copyright © 2016 NTT DATA Corporation 自己紹介 - 鯵坂明 鯵坂 明 (@ajis_ka) NTTデータ システム技術本部 OSSプロフェッショナル サービス Apache HadoopなどOSSのサポート業務を主に担当 Apache Hadoop committer & PMC member コミッタ暦2年 ドキュメント バグ修正 リリース管理など 3. 3Copyright © 2016 NTT DATA Corporation 最近のApac
1. いったいなんぼなら Hadoopできるねん? 株式会社 LXスタイル 杉田 正 Mail: sugi@LXS . jp Twitter: sugipooh http://LXS . jp 1 許可無く配布を禁止します。LXStyle,Inc 2. 自己紹介 • 若い頃 強電や • ネオンサインの電装工事業。 ネオンサインの • 竹中工務店さま、大林組さまなどの孫請。 竹中工務店さま、大林組さまなどの孫請。 さま、大林組さまなどの孫請 • クボタの子会社で ストレージや • クボタ製5インチMO、1800枚チェンジャも取り扱い。 クボタ製5インチMO、1800枚チェンジャも取り扱い 5インチMO 取り扱い。 • シリコンバレー事務所とストレージ事業開発を担当 シリコンバレー事務所と • ストレージ開発会社 • RAID一体型1Uサーバを開発、300台以上納入 RAID一体型1Uサーバを
Amazon Web Services ブログ Amazon EMR 5.0.0 – メジャーアプリアップデート、UI改善、デバッグ改善、その他 Amazon EMRチームは新しいリリースをものすごい勢いでリリースし続けています。今年のローンチを振り返ってみましょう: EMR 4.7.0 – Apache Tez, Apache Phoenix, Presto, HBase, Mahout (6月) EMR 4.6.0 – 巨大データへのリアルタイムアクセス用に、HBase (4月) EMR 4.5.0 – Hadoop, Presto, SparkとEMRFS追加 (4月) EMR 4.4.0 – Sqoop, HCatalog, Java 8, 他 (3月) EMR 4.3.0 – Spark, Presto, Ganglia (1月) 今日、チームからEMR 5.0.0が発表されまし
Generally, data compression techniques are used to conserve space and network bandwidth. Widely used compression techniques include Gzip, bzip2, lzop, and 7-Zip. According to performance benchmarks, lzop is one of the fastest compression algorithms, while bzip2 has a high compression ratio but is very slow. Gzip offers the lowest level of compression. Gzip is based on the DEFLATE algorithm, which
Hadoop 3 Poised to Boost Storage Capacity, Resilience with Erasure Coding The next major version of Apache Hadoop could effectively double storage capacity while increasing data resiliency by 50 percent through the addition of erasure coding, according to a presentation at the Apache Big Data conference last week. Apache Hadoop version 3 is currently being developed by members of the Apache Hadoop
Hadoop/Spark Conference Japan 2016 、午後最初のセッションはノーチラス・テクノロジーズの神林さんのセッションに参加。 最初から、メモを取るのは相当しんどいだろうと覚悟のセッションでしたが、濃厚濃密な内容で最後まで楽しむことができました。 自分が参加した中からベストセッションを選ぶなら間違いなくこの神林さんのセッションがベストでした。こんなの他では聞けませんもの。 では以降よりメモ。 次世代アーキテクチャから見たHadoop/Sparkの位置づけ ~特にRDMA・NVMを軸としたときの分散並列処理の観点から / 神林 飛志氏(ノーチラステクノロジーズ) 完全裏番組宣言。マニア向け。 Hadoop/Spark 知りたいなら表番組に行ったほうがいいよ、の前置きからスタート。 そもそもメモをとれるのか、というチャレンジを自分もしにきてみた。 ノーチラスがみてるのは
あけまして、おめでとうございます。 例年、Apache Hadoopを中心に並列分散処理ミドルウェアの動向や展望についてご紹介しています。 今年は、NTTデータに所属する 鯵坂 明(Apache Hadoopコミッタ) 岩崎 正剛(Apache Hadoop開発者、HTraceコミッタ) 関 堅吾(Apache Yetusコミッタ) 猿田 浩輔(Apache Sparkコミッタ) の4名による対談からまとめた、HadoopとSparkを中心に2015年の振り返りと2016年の展望をご紹介します。 対談の模様(1)鯵坂 明氏(左)と岩崎 正剛氏 2015年を振り返る 2015年の新春特別企画では「TezやSparkなどの新しい処理基盤の活用が進むことになる」と紹介しました。実際に振り返ってみると、Apache Sparkはかなり盛り上がりました。 Apache Sparkは、年初にバージョン
はじめに iQONでは、アイテムのレコメンドといった大規模データの計算が必要な際には、Spark の MLlib という機械学習のライブラリを使っていますが、その際に Google Cloud Platform (GCP) のマネージド Hadoop & Spark サービスである Dataproc で計算を行っています。 本記事では、実際に業務で使ってみた上で、Dataproc にどのような特徴があり、他の類似サービスと比べてどのようなメリットがあるか、また利用する際にどのような点に気をつけるべきか、といった点について説明したいと思います。 Dataproc とは? Dataprocは、Hadoop & Saprk のマネージド サービスです。類似サービスとしては、AWS の Elastic MapReduce (EMR) や Azure の HD Insight がありますが、それらの
はじめに これは ドリコムAdventCalendar の7日目です 6日目は、keiichironaganoさんによる iTunes 使用許諾更新のとき一旦キャンセルしてほしい話 です 【その2】ドリコム Advent Calendar 2015 もあります 自己紹介 @ka_nipan 去年の ドリコムを支えるデータ分析基盤 に引き続き、今年もドリコムのデータ分析基盤を担当しています。 分析基盤をTreasure Dataに移行 オンプレ環境の Hadoop からTreasure Data に移行しました。 また、ジョブ管理ツールやBIツールといったサーバーもAmazon EC2 に移行しており、 徐々にオンプレ環境を離れつつあります。 背景 オンプレ環境で Hadoop を運用して3年も経つと考えなければならないのが HW の寿命です。 さてどうしようかとなった時に、ほぼ迷いなく外部
May 15, 2014 Yesterday I wanted to start learning about how HDFS (the Hadoop Distributed File System) works internally. I knew that It’s distributed, so one file may be stored across many different machines There’s a namenode, which keeps track of where all the files are stored There are data nodes, which contain the actual file data But I wasn’t quite sure how to get started! I knew how to naviga
Answer (1 of 17): When I was getting started with using Apache Spark, I had the same question. From everything I heard, it seemed as if Spark does the same things as Mapreduce but better and faster. But, as it turns out that’s not the case. A few resources (linked below) have helped me with that ...
はじめに Web企業のログ解析基盤系資料をまとめてみました SlideShare, Speaker Deck, 企業技術ブロクをもとに調査しました 2014年以降の資料に限定(たぶん) 自分用メモ 勢いで調べたので、結構もれてると思う クックパッド Amazon Redshiftによるリアルタイム分析サービスの構築 from Minero Aoki www.slideshare.net リアルタイム分析サービス『たべみる』を支える高可用性アーキテクチャ from Hiroyuki Inoue www.slideshare.net techlife.cookpad.com メルカリ tech.mercari.com SmartNews speakerdeck.com developer.smartnews.com DMM labotech.dmm.com labotech.dmm.com l
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く