by Xavier Amatriain and Justin Basilico In our previous posts about Netflix personalization, we highlighted the importance of using both data and algorithms to create the best possible experience for Netflix members. We also talked about the importance of enriching the interaction and engaging the user with the recommendation system. Today we’re exploring another important piece of the puzzle: how
少し前にログの話を書いた http://d.hatena.ne.jp/naoya/20130219/1361262854 ときに、Treasure Data については後日にもう少し詳細に書くと言ったので書くとしよう。 近頃 Treasure Data (以下、時折 TD) という名前をちらほら聞いたことがある人は多いのではないかと思います。「ビッグデータのクラウドサービスである」とか「日本人が創業したシリコンバレーのベンチャー」、あるいは Yahoo! 創業者の Jerry Yang が投資したとか、Fluentd と何か関係があるといった文脈などなど。 けど、具体的に Treasure Data がどういうサービスで、どういう機能を持っていて、どんな場面で利用されるものなのかはまだあまり良く知られていないかもしれない・・・ようにも見える。今日はその辺から少し紹介していこうかなと思う。
概要 複数台のWebサーバのログを fluent と hoop を使ってリアルタイムにHDFSに追記していくテスト。 より頻度の高い行動解析を行うことができるようになる? 参考にしたブログ: tagomorisのメモ置き場 テスト構成 # 初めてテキストで図書いた。 # 線を交差させる所で面倒くさくなって適当に... web01 server fluent master +---------+ +---------+ | Fluentd |--+--->| Fluentd |--+ +---------+ |+-->+---------+ | Proxy || +-->+--------+ +--------+ || | hoop |-->| HDFS | web02 server || fluent slave +-->+--------+ +--------+ +---------+
Why Cloudera Hadoop & Big Data Doug Cutting, Cloudera's Chief Architect, wrote Apache Hadoop in 2006. Learn about Hadoop and its impact on Big Data. Our Customers See a selection of Cloudera customers and how they use Cloudera to ask bigger questions of all their data. FAQs We answer some of your most popular questions about Cloudera and our technology. Blog Explore thought, technical, and communi
by Sriram Krishnan and Eva Tse, Cloud Big Data Platform Hadoop has become the de facto standard for managing and processing hundreds of terabytes to petabytes of data. At Netflix, our Hadoop-based data warehouse is petabyte-scale, and growing rapidly. However, with the big data explosion in recent times, even this is not very novel anymore. Our architecture, however, is unique as it enables us to
「10Gバイトのデータでもビッグデータだ。神のようなエンジニアを不要にするHadoopを使えばビッグデータ活用コストを下げられる」――。米アマゾン・ウェブ・サービシズ(AWS)のJohn Rauser Principal Quantitative Engineerは2012年2月28日、聴衆にこう語りかけた。同氏はクラウドコンピューティングの専門展「Cloud Days Tokyo/スマートフォン&タブレット/ビッグデータEXPO」で、「The Changing Economics of Data: A View From Inside Amazon」と題して、米アマゾンにおけるビッグデータ活用の実際を事例を交えながら講演した。 Rauser氏はまず米アマゾンにおけるビッグデータ活用の事例を話した。2008年、アマゾンのアフィリエイトシステムは性能面の限界を迎えていた。そこで複数台で分散処
リクルート式Hadoopの使い方 - Presentation Transcript リクルート式Hadoopの使い方 株式会社リクルートMIT システム基盤推進室インフラソリューショングループ石川 信行 はじめに・・・ □名前 石川 信行 ( ground_beetle) □出身 福島県 いわき市 □経歴 ・2009年リクルート新卒入社 ・営業支援システムのコーダー(java)、DBAとして参加。 ・JavascriptのLibであるSenchaを用いたスマホサイト開発 ・現Hadoop推進担当 □趣味 ・外国産カブト虫飼育 ・スキューバダイビング ・海水魚飼育 リクルートの組織体制について 旅行C 営業 企画 自動車C 営業 企画 住宅C 営業 企画 MIT United 事業担当MIT 事業担当MIT 事業担当MIT ・マーケティング・分析チーム ・インフラ基盤チーム
大規模データの分散処理を支えるJavaソフトウェアフレームワークであり、フリーソフトウェアとして配布されている「Apache Hadoop」。その作者ダグ・カティング(Doug Cutting)さんが「Cloud Computing World Tokyo 2011」&「Next Generation Data Center 2011」において「Apache Hadoop: A New Paradigm for Data Processing」という講演をしていたので聞きに行ってきました。 満員の客席。 皆様を前にして講演できることを大変光栄に思っております。「Apache Hadoop」について皆様に伝えていきますが、これはまさにデータ処理の新たなるパラダイムを提供するものではないかと私は思っております。 まずは簡単に自己紹介をさせていただきましょう。私は25年に渡ってシリコンバレーで仕
Hbase勉強会のまとめの延長として 今後の考え方をまとめておきます。 まずは前提として <一般論> Hbaseにかぎらず、NoSQL系一般に言えることではあるが Usecaseを意識して利用する事が必要だ、ということだと思う。 最近の傾向としては、Googleでも顕著だけど、 一定の用途をターゲットにして 特定のミドルを開発するという方法が結構多い。 Hbaseもその流れはあるので、 そのあたりは意識する必要はあるかもしれない。 Hbaseついては、注目するとすればFacebookになるかな。 http://www.cloudera.com/resource/hw10_hbase_in_production_at_facebook いずれにしても、割とうまくいっているUsecaseの情報の有用性は 他の技術よりも高いと思う。 基本的に単純に分散KVSを使いたいならHbaseにこだわる必要
2009/05/12 米新聞社大手のニューヨーク・タイムズは5月11日、Rubyによる大規模分散処理のツールキット「Map/Reduce Toolkit」(MRToolkit)をGPLv3の下にオープンソースで公開したと発表した。MRToolkitは、すでに稼働しているクラスタ上のHadoopと合わせて使うことでRubyで容易にMap/Reduce処理を記述することができる一種のラッパー。処理自体はHadoopが行う。すでにHadoopを使っているユーザーであれば、中小規模のプロジェクトに対して、すぐにMRToolkitを適用可能としている。 デフォルトで有用なMap、Reduceの処理モジュールが含まれていて、数行のRubyスクリプトを書くだけで、例えば膨大なApacheのログからIPアドレス別の閲覧履歴をまとめるといった処理が可能という。独自にMapやReduceの処理を定義することも
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く