[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

タグ

webとcrawlerに関するmas-higaのブックマーク (7)

  • Yasuriでお手軽スクレイピング - Qiita

    require 'yasuri' # "Rubyに関する新着投稿 - Qiita" を起点にする agent = Mechanize.new page = agent.get('http://qiita.com/tags/Ruby/items') # 最新3ページをスクレイピングする init_page = Yasuri.pages_init '//*[@id="main"]/div/div/div[1]/section/div[2]/ul/li[7]/a', limit:3 do # 現在のページ数 text_page_idx '//*[@id="main"]/div/div/div[1]/section/div[2]/ul/li[@class="active"]/a', proc: :to_i # 各エントリをスクレイピング struct_entries '//*[@id="main"

    Yasuriでお手軽スクレイピング - Qiita
  • Mechanize再入門

    久しぶりに Mechanize を触ったのでメモ プログラムからウェブサイトをブラウズするためのライブラリ。 以下を読めばだいたい分りそう。 mechanize-2.2 Documentation Nokogiri Ruby勉強会で話させて頂いてときのスライドで雰囲気は伝わるかと。 (APIが古すぎてコードとかはもう動きません) http://www.slideshare.net/Sixeight/its-mechanize-for-it-ruby-as-a-finder インストール $ gem install mechanize か source 'http://rubygems.org/' gem 'mechanize' を Gemfile に書いて bundle install しましょう。 Google で検索する例 require 'mechanize' agent = Mec

  • ゆーすけべー日記

    サキとは彼女の自宅近く、湘南台駅前のスーパーマーケットで待ち合わせをした。彼女は自転車で後から追いつくと言い、僕は大きなコインパーキングへ車を停めた。煙草を一吸ってからスーパーマーケットへ向かうと、ひっきりなしに主婦的な女性かおばあちゃんが入り口を出たり入ったりしていた。時刻は午後5時になる。時計から目を上げると、待たせちゃったわねと大して悪びれてない様子でサキが手ぶらでやってきた。 お礼に料理を作るとはいえ、サキの家には材が十分足りていないらしく、こうしてスーパーマーケットに寄ることになった。サキは野菜コーナーから精肉コーナーまで、まるで優秀なカーナビに導かれるように無駄なく点検していった。欲しい材があると、2秒間程度それらを凝視し、一度手に取ったじゃがいもやら豚肉やらを迷うことなく僕が持っているカゴに放り込んだ。最後にアルコール飲料が冷やされている棚の前へ行くと、私が飲むからとチ

    ゆーすけべー日記
    mas-higa
    mas-higa 2012/03/02
    "ある程度並列にダウンロードする" これで図書館のサーバが死んだら逮捕されるよ。
  • サーバ管理者日誌 続・クロールとDoSの違いと業務妨害罪と

    と書いたのだが、他の図書館でも、一度タイムアウトすると、同じCookieを持ってアクセスすると応答がなくなるという同様の現象が発生するところが見つかった。 気づいたのはたまたまだったのだが、 岡崎市立図書館と同じ、MELILを採用している図書館のリストが、 日のソフト別OPACリスト[http://www.asahi-net.or.jp/~gb4k-ktr/indexjv.htm#melil] にあり、この中で検索ページが.aspになっているものでは同じ現象が発生する様で、発生条件もかなり緩く、 検索などでのタイムアウト発生 応答が遅かった場合のキャンセル 検索結果ページを閲覧していて、画面内の戻るボタン以外でページ遷移を行った場合 に、以降の応答がなくなるという症状が発生する様だ。 検索ページが.aspxになっているものでは、確認した範囲では発生を見ていないので、これは後に改修されたの

    mas-higa
    mas-higa 2010/07/27
    念力デバッグ!
  • サーバ管理者日誌 クロールとDoSの違いと業務妨害罪と

    #Librahack[http://twitter.com/search?q=%23librahack] の議論。多く登場する「スクレイピング」と書こうと思ったけれども、クロールで得たHTMLの後処理がスクレイピングだから、ここでは「クロール」対「DoS」とした。 そもそも、クロールとDoSは行っている側の目的に決定的な違いがある。 クロールを行う際は、クロールによって相手サーバの情報を取得することが目的だ。そのために、リクエストに対する応答を受け取って、そのまま保存するなり、何らかの加工(スクレイピング)を行って、情報を保存する。 情報を得るのが目的だから、サーバが落ちるのは困る立場だ。 一般的な作りとしては、ページのリクエストを出して、結果を受け取ったら、その場で解釈して、次にリクエストを出すページを決めるか、あるいは予め予定している次のページのリクエストを出す。この間に待ち時間を入れ

    mas-higa
    mas-higa 2010/07/27
    無断クロール禁止教!
  • 高木浩光@自宅の日記 - 岡崎図書館事件について その1, DoS等で業務妨害罪とされた過去の報道事例, 山形の事件は悪意ある攻撃であったことを確認(21日..

    ■ 岡崎図書館事件について その1 5月26日にこんな報道があった。 図書館HPにアクセス3万3000回 愛知県警 業務妨害容疑、38歳を逮捕, 朝日新聞2010年5月26日朝刊 県警生活経済課と岡崎署によると、容疑者は、4月2日から15日にかけて、岡崎市中央図書館のホームページに、計約33,000回のアクセスを繰り返し、ホームページを閲覧しにくい状態にしたという疑いがある。(略) 同課によると、容疑者は1回ボタンを押すだけで、1秒に1回程度の速度でアクセスを繰り返せるプログラムを作っていたという。容疑者は同図書館の利用者だったが、目立ったトラブルは確認されていないといい、動機を調べている。 図書館にサイバー攻撃, 読売新聞2010年5月26日朝刊 県警は25日、インターネット関連会社社長を偽計業務妨害容疑で逮捕した。(略) 調べに対し、アクセスしたことは認めているが、動機については話して

  • 法と技術とクローラと私 - 最速転職研究会

    こんにちは、趣味や業務で大手ポータルサイトのサービスで稼働しているいくつかのクローラの開発とメンテナンスを行っているmalaです。 さて先日、岡崎市立中央図書館Webサイトをクロールしていた人が逮捕、勾留、実名報道されるという事件がありました。 関連URL: http://librahack.jp/ 電話してみた的な話 http://www.nantoka.com/~kei/diary/?20100622S1 http://blog.rocaz.net/2010/06/945.html http://blog.rocaz.net/2010/07/951.html この件につきまして法的なことはともかくとして技術者視点での私見を書きたいと思います。法的なことは差し置いて書きますが、それは法的なことを軽んじているわけではなく、法律の制定やら運用やらは、その法律によって影響が出る全ての人々の常識

    法と技術とクローラと私 - 最速転職研究会
    mas-higa
    mas-higa 2010/07/08
    岡崎市立中央図書館はノーガード戦法
  • 1