[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

タグ

2013年10月28日のブックマーク (13件)

  • Facebook: 1兆インデックスの投稿検索 - ワザノバ | wazanova.jp

    https://www.facebook.com/notes/facebook-engineering/under-the-hood-building-posts-search/10151755593228920 Facebookがエンジニアブログで、2年間に渡って開発した投稿検索機能について紹介しています。投稿10億件/日、投稿インデックス1兆件で数百テラバイトのデータをリアルタイム処理する機能とはすごいですね。 1) データの収集 一番の大きなチャレンジは、データスキーマの変更に都度対応しながら、時間/場所/タグ(ウォール投稿、写真、チェックインで仕様がバラバラ)でソートできる検索システムを構築しなければいけなかったこと。Facebookのカルチャーとして、必要なものはどんどん変更されていくのだが、投稿検索で利用しているデータは約70種。その多くは、特定のタイプの投稿に紐づいている。か

  • Spark shark

    6. おまえだれよ? Tsuyoshi Ozawa @oza_x86 OSS developer Apache Hadoop の開発をしてます github : oza ←の22章を書いたよ! Tuesday, October 22, 13

    Spark shark
    kimutansk
    kimutansk 2013/10/28
    RDDは・・キャッシュと表現しますか。確かにその方が概要説明するにはわかりやすいですねぇ
  • Understanding Clojure's Persistent Vectors, pt. 1

    ★ Understanding Clojure's Persistent Vectors, pt. 1 posted 25 Sep 2013 You may or may not heard about Clojure’s persistent vectors. It is a data structure invented by Rich Hickey (influenced by Phil Bagwell’s paper on Ideal Hash Trees) for Clojure, which gives practically O(1) runtime for appends, updates, lookups and subvec. As they are persistent, every modification creates a new vector instead

    kimutansk
    kimutansk 2013/10/28
    Clojureのベクタの話。このあたりの接続周りとかは非常に「らしい」構造になっていますねぇ
  • 完璧な監視システムの作り方 in cybozu.com - Cybozu Inside Out | サイボウズエンジニアのブログ

    こんにちは、Hazama チームの萩原(@hagifoo)です。 ハードウェアは故障し、ソフトウェアにはバグがあり、運用ではミスがおきるもの。もちろん、障害が発生しないのが理想ですが人間が作ったものに完璧はありません。そこで、障害の前兆や発生を捉え、その詳細を運用チームに知らせるための監視システムが必要となります。cybozu.com でも以下のようにありとあらゆるものを監視するシステムを構築し日夜監視を行なっています。 今回は、そんな cybozu.com の監視(モニタリング)システムについてお話しします。 cybozu.com と障害 監視システムの設計 3つの監視 外形監視 症状監視・リソース監視 ログ監視 その他の監視 モニタリングフレームワーク 誰が監視者を監視するのか? まとめ cybozu.com と障害 まずは、監視対象である cybzou.com について説明します。

    完璧な監視システムの作り方 in cybozu.com - Cybozu Inside Out | サイボウズエンジニアのブログ
    kimutansk
    kimutansk 2013/10/28
    「外形監視」「症状監視・リソース監視」「ログ監視」の3要素と。ログ監視の機械学習化は面白そうですねぇ
  • Release

    Press Inquiries North America Hope Nicora Bhava Communications for Cloudera Email: cloudera@bhavacom.com Phone: 510-984-1527 UK | Europe Richard Botley Ketchum Pleon for Cloudera LON-Cloudera@ketchump.com +44 (0) 20 7611 3788 Keep in touch Twitter LinkedIn Group

    kimutansk
    kimutansk 2013/10/28
    CDHにSparkが入るという話ですが・・ SharkやStreamingも来るんですかねぇ。
  • Twitter: データ分析基盤改善取り組み - ワザノバ | wazanova.jp

    https://www.facebook.com/photo.php?v=10151697364230687&set=vb.9445547199&type=2&theater TwitterのAnalyticsインフラチームが、データ分析基盤の改善に取り組んできた事例を紹介しています。 1) 背景 4億tweet/日を発信 & 消費しているユーザのアクティビティを、Twitter社内の多くのチームがそれぞれの観点 & 様々な利用形態で分析データを必要とするため、量およびデータの依存関係が、相当大きく複雑なものになっている。Analyticsインフラは、1000ノードあるHadoopのクラスタをいくつかもつ規模。 ストレージフットプリント & I/Oを減らすだけでなく、他の方法でプロセススピードをあげることに取り組んでいる。 2) Parquet (「Hadoop用のカラムナストレージフォー

    kimutansk
    kimutansk 2013/10/28
    Twitterのバッチ処理/スピード処理をまとめたラムダアーキテクチャに対する共通Servingレイヤまで含んだOSSですか。楽しみではありますねぇ。
  • Redisへと至る、gumiデータストアの歴史

    4. 自己紹介 • 間 知教(ほんま とものり) • TwitterID @CkReal • Systems Operations Engineer (しすおぺ) • 入社歴約2年 • 国内アプリのサーバ運用 • アプリのイベントとかは作ってないです • 好きなAWSサービス:Amazon S3

    Redisへと至る、gumiデータストアの歴史
  • Javaプログラミング入門

    書は著者が非常勤講師を担当した大学の講義資料を再構成したもの。 理工系学部の学部1年生が初めて計算機室でプログラミング科目に向かうことを想定して、プログラミングの初歩的な知識がまとめられおり、各章においてゲーム性のある親しみやすいサンプルプログラムを掲載し、遊びながらプログラミングに接することができるよう構成されている。 著作の著作権は著者が保持しています。 通常の閲覧以外の利用については、お茶の水女子大学附属図書館にお問い合わせください。 Copyright of this work is retained by the author. If you wish to use this material for purposes other than reading, please contact Ochanomizu University Library.

    kimutansk
    kimutansk 2013/10/28
    これ、確かに初心者がとりあえず読んでみるということではわかりやすいですねぇ。
  • RubyとPythonの違いからガベージコレクタを理解する - ワザノバ | wazanova.jp

    http://patshaughnessy.net/2013/10/24/visualizing-garbage-collection-in-ruby-and-python Pat Shaughnessyが、ブタペストで開催されたRUPY2013でのプレゼンの前半を自らのブログで紹介しています。 ガベージコレクタは、「ゴミを集める」という行為だけでなく、「新しいオブジェクトのためにメモリをあてがう。」「不要なオブジェクトを見つける」「不要なオブジェクトからメモリを取り戻す。」という、人間の心臓が血液を浄化するような働きをしている。 この簡単なコードサンプルを見ると、RubyPythonの記述はよく似ているが、それぞれの言語の内部でのインプリの仕組みは違う。 1) Rubyのメモリ Rubyは、コードが実行される前に、数千のオブジェクトを先につくり、それをリンクされたfree listに置

    kimutansk
    kimutansk 2013/10/28
    Ruby側は知っていましたが、Pythonは参照カウント方式のガベージコレクタだったんですねぇ。こういう違いがありましたか。
  • getAllRows causes NumberFormatException inside Cassandra · Issue #219 · Netflix/astyanax

    kimutansk
    kimutansk 2013/10/28
    AllRowsReaderを使ってCassandraのデータをなめる際にPartitionerがサーバ/クライアントで違うと死ぬ話。後は設定値も参考になりますね。
  • 開発者のためのITカンファレンス :Developers Summit 2014

    デブサミ2014へご登録いただきました皆様に、参加証URLを記載したメールを2/7(金)15:45から順次お送りいたしました。 当日は、お送りしたURLをクリックいただき、表示された参加証をプリントアウトいただき、切り取り線で切り離した状態で、会場内の受付デスクまでお持ちください。 参加証について詳しい説明はSlideShareの【参加証カット説明】をご覧ください。 ※当日のタイムテーブルと会場図をダウンロードいただけます。 参加証の作り方 タイムテーブル(PDF) 会場図(PDF)

    kimutansk
    kimutansk 2013/10/28
    今年は2/13~2/14ですか。行けますかねぇ・・・
  • SLF4J FAQ

    Frequently Asked Questions about SLF4J Generalities What is SLF4J? When should SLF4J be used? Is SLF4J yet another logging facade? If SLF4J fixes Jakarta Commons Logging (JCL), then why wasn't the fix made in JCL instead of creating a new project? When using SLF4J, do I have to recompile my application to switch to a different logging system? What are SLF4J's requirements? What has changed in SLF4

    kimutansk
    kimutansk 2013/10/28
    リポジトリセレクタを使うような特殊なケースでなければ、loggerはstaticにしてしまって問題ないと。
  • たとえ有償でも絶対に引き受けてはいけないデータ分析依頼の3タイプ - 渋谷駅前で働くデータサイエンティストのブログ

    id:dscaさんのタダでは引き受けてはいけないネタが大ブレークしてるみたいですね。 データの分析をタダで引き受けてはならない10の理由 - ネガティブにデータサイエンティストでもないブログ 受託系便利屋的なポジションの悲哀が大変よく透けて見える良記事だと思うんですが、一方で仮に金を取ったとしても引き受けてはいけない案件というのもよくあるものです。 ということで、便乗して「たとえ有償でも絶対に引き受けてはいけないデータ分析依頼の3タイプ」とか僕がこれまで経験してきた様々な現場and/or案件での事例を踏まえて、適当に吹聴してみようと思います。 なお、「前処理が煩雑」とか「DB整備が貧弱でCSVでデータをやり取りしなければならない」というような構造的な問題点は別物なので、今回は割愛しましたごめんなさい。 (※これは他所の様々な現場での話を聞き取ってまとめた話であり、現職場の話ではありません!

    たとえ有償でも絶対に引き受けてはいけないデータ分析依頼の3タイプ - 渋谷駅前で働くデータサイエンティストのブログ
    kimutansk
    kimutansk 2013/10/28
    こういうのって、データ分析でなくてシステム開発でもざらに当てはまる気がしますねぇ・・・