2. © 2017 NTT DATA Corporation 2 Apache Hadoopの分散ファイルシステムであるHDFSについて、アーキ テクチャ、ファイルシステムとしての特徴、オブジェクトストアとの違 いについて、ユーザAPIという切り口から、最近の開発動向や新機能、 ちょっと細かい実装の話などを混じえながら解説します。 はじめに
Synopsis This article introduces a new Apache Hadoop feature called S3Guard. S3Guard addresses one of the major challenges with running Hadoop on Amazon’s Simple Storage Service (S3), eventual consistency. We outline the problem of S3’s eventual consistency, how it affects Hadoop workloads, and explain how S3Guard works. Problem Although Apache Hadoop has support for using Amazon Simple Storage Se
原文記事: http://vision.cloudera.com/simplifying-big-data-in-the-cloud/ 原文著者: Jennifer Wu 昨今のパブリッククラウド採用の加速に伴い、大規模なデータワークロードのためにクラウドに目を向けるお客様が増えるにつれ、我々はどうすればクラウド内で Cloudera の機能を最も効果的に提供できるのか、あらためて検討しました。 お客様は、絶え間なく成長するビジネスデータを効率的かつ費用対効果の高い方法で分析するために、クラウドが提供する俊敏性、規模、使いやすさをどのように活用すればいいのか知りたがっていました。さらに、お客様は Cloudera プラットフォームのエンタープライズ機能と信頼性もそのまま利用したいと考えていたのです。 そこで我々はクラウドを全社的な優先事項とし、Cloudera スタック全体の相互運用性を維
Distributed computing (Apache Hadoop, Spark, ...) Advent Calendar 2016の12/25分です。もともとYARNのApplication Timeline Server v2について書こうと思っていたのですが、気が変わってHadoopとS3の関係性について書いていこうと思います。もし期待していた方がいらっしゃったらごめんなさい。(ATSについては機会があればまた書きたいと思います。) 背景 S3について書こうとおもったのは、下記のような仕組みを作っている中でいろいろ思うところがあったからです。 システムがS3に吐き出す様々なログ、データやメトリクスをZepplinで可視化するための仕組みです。永続化したいデータはS3にしか置かず、SparkやZeppelinなどのコンポーネントはステートレスかつ拡張、もしくは別の計算フレームワ
基幹業務もHadoopで!! -ローソンにおける店舗発注業務への�Hadoop + Hive導入と その取り組みについて-
AWS News Blog Bioinformatics, Genomes, EC2, and Hadoop I think it is really interesting to see how breakthroughs and process improvements in one scientific or technical discipline can drive that discipline forward while also enabling progress in other seemingly unrelated disciplines. The Bioinformatics field is rife with examples of this pattern. Declining hardware costs, cloud computing, the abil
日本電信電話株式会社(東京都千代田区、代表取締役社長:鵜浦 博夫、以下:NTT)および株式会社NTTデータ(本社:東京都江東区、代表取締役社長:岩本 敏男、以下:NTTデータ)から、大規模データを対象とした並列分散処理を実現するオープンソースソフトウェアApache Hadoop(以下:Hadoop)およびその関連のプロジェクトのコミッタに、2014年12月18日、小沢 健史(NTTソフトウェアイノベーションセンタ)、鯵坂 明、岩崎 正剛(NTTデータ 基盤システム事業本部)の3名が就任することになりました。 コミッタとは、Hadoopの開発やメンテナンスにおいて、プログラムを書き換える権限(コミット権)を持つ主要開発者のことで、現在、Hadoopの開発に関与している全世界で約3,000名のうち、コミッタはごく一部[約100名(2014年12月)]に限られています。Hadoopにおいては、
Apache Mahout's new DSL for Distributed Machine Learning Sebastian Schelter GOTO Berlin 11/06/2014 Overview • Apache Mahout: Past & Future • A DSL for Machine Learning • Example • Under the covers • Distributed computation of XTX Overview • Apache Mahout: Past & Future • A DSL for Machine Learning • Example • Under the covers • Distributed computation of XTX Apache Mahout: History • library for sc
Top 10 Coolest Big Data Startups Of 2014という記事がありまして、はじめて名前を聞く企業が多くありましたので簡単に調べてみました。ホントに簡単に調べただけです。正確には記事の説明+HPのトップをざっと見ただけですので、そんなものがあるのかー、くらいのノリです。 1. SumAll SumAll FacebookやTwitter, eBayやInstagramなど、42種類のソーシャルとEコマースサイトのデータからデータを可視化することができるオンラインのプラットフォームを提供してくれる、とのこと。今年に入っていくつかの機能追加を行い、例えば、リツイートやメンションの数によってアラートを発してくれるようなシステムが追加されたとのこと。 2. Luminoso Luminoso テキスト分析に強みがある会社ぽいです。MITメディア・ラボからのスピンアウトみ
From Fluentd Meetupに行ってきました これを読んだ時、BigQueryの検索スピードについてちょっと補足したくなった。確かにFluentd Meetupのデモでは9億件を7秒程度で検索していたが、BigQueryの真の実力はこれより1〜2ケタ上だからだ。ちょっと手元で少し大きめのテーブルで試してみたら、120億行の正規表現マッチ付き集計が5秒で完了した。論より証拠で、デモビデオ(1分16秒)を作ってみた: From The Speed of Google BigQuery これは速すぎる。何かのインチキである(最初にデモを見た時そう思った)。正規表現をいろいろ変えてみてもスピードは変わらない。つまり、インデックスを事前構築できないクエリに対してこのスピードなのである。 価格も安い。さすがに120億行のクエリは1回で200円もかかって気軽に実行できなさそうであるが、1.2億
(参考) Cloudera社のHadoopパッケージの情報 http://archive.cloudera.com/docs/ 必要なもの ・UbuntuやdebianのLinux環境1台(手元ではUbuntu Server 11.04/10.04/9.10/8.04, debian 5あたりで試していますが、他バージョンでも大丈夫だと思います) ・インターネット接続 ・Sun(Oracle)のJavaパッケージ(aptでインターネットからインストール) ・Cloudera社のCDH3のHadoopパッケージ(aptでインターネットからインストール) 作業手順 1. インストール: Linux環境にて、rootで作業します。 sudo su 1-1. Sun(Oracle)のJavaを入れます。(Sun(Oracle)のものが必要です。) ※ ここで、ubuntu 10や11の人は/etc
前回のDynamoDBに引き続き、今回はfluentd経由でnginxのログをHDFSに書き込む、というのをやってみた。そのまま置き換えるだけというのもつまらないので、同じログをローカルファイル、DynamoDB、HDFSの複数箇所に書き込む設定にしてみる。紆余曲折あったが、どうにか三連休が終わる前に期待値通りになってくれた(それって…)。 実行環境は以下2つのAWSマシンと、Amazon DynamoDB。テーブルは前回で作成済み。 マシン間はすべてのポートで通信できている前提。 ログ送信元マシン:nginxが起動 ログ出力先マシン:Hadoop疑似分散環境 real worldでは複数のマシンからログを集約してそのログ集約サーバからHDFSやDBにログを送り込むことになるんだろうけど、所詮ひとりケチケチR&Dなのでそこまでやりません。 追加でやったこと。 ログ送信元マシンでwebhdf
2012/03/06 08:00 構成や動作の原理は意外とシンプル 難解さを解きほぐし、全体像を把握する Hadoopは構成や動作原理はシンプルなうえ、数多くの技術情報も公開されている。 国内でも一部のネット系サービス事業者が本格活用によって成果を上げ始めている。 Hadoopはどのように動作するのか、企業利用時にどういった周辺技術が有用なのか。 基本機能とそれを支える技術のエコシステムからHadoopの全体像を概説する。栗原 雅 (編集部) 監修:野 賢 一朗 氏 NTTデータ 基盤システム事業本部 システム基盤サービスビジネスユニット OSSプロフェッショナルサービス シニアエキスパート 米国では多種多様なデータをまとめて蓄え、大容量のデータを対象に抽出や集計の処理を実行する仕組みとしてごく身近な存在になりつつあるHadoopだが、国内ではまだそこまで浸透していない。Hadoopそのも
Treasure Dataのサービスはクラウド上でどう構築されているのか(後編)~July Tech Festa 2013 Treasure Dataといえば、日本人がシリコンバレーで創業したベンチャーとして知られている企業。そのシニアソフトウェアエンジニア中川真宏氏が、7月14日に行われたJuly Tech Festa 2013の基調講演で、同社がクラウド上で構築したサービスについてそのアーキテクチャを中心に解説を行っています。 この記事は「Treasure Dataのサービスはクラウド上でどう構築されているのか(前編)~Japan Tech Festa 2013」の続きです。 データを解析する「Plazma」の仕組み データを解析するところでは「Plazma」と呼ぶ、Hadoopのエコシステムとカラムストアなどを組み合わせたものを用いています。
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く