[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

タグ

gunghoに関するkamawadaのブックマーク (10)

  • Gungho::Component::Throttle.ja

    NAME Gungho::Component::Throttle.ja - スロットリング用ベースクラス SYNOPSIS package Gungho::Component::Throttle::Domain; use base qw(Gungho::Component::Throttle); DESCRIPTION クローラー作成時には必ずリクエスト数を調整するスロットリングが必要になります。 このコンポーネントはスロットリングの親クラスとして機能します。実際の スロットリングはThrottle::SimpleやThrottle::Domainのような子クラスが行います。 Gungho::Component::Throttle::Simpleは単純に時間あたりのリクエスト総数を ベースにスロットリングを行います。どんなリクエストであっても時間あたりの リクエスト総数が規定値を上回った時

    Gungho::Component::Throttle.ja
  • Gungho::Manual::Tutorial.ja

    NAME Gungho::Manual::Tutorial.ja - Gunghoチュートリアル 初めてのGungho クローラーというものは実際に様々な因子が関係するので簡単なクローラーを作る、 というのはなかなか難しいのですが、ここでは以下の環境があると仮定して Gunghoでクローラーを実装するまでを追って行きたいと思います。 なお、ただ単純にリスト等からページを取得するだけであればexamples/ ディレクトリ 内のsimple等の例をお手とすれば良いでしょう。こちらではもう少し手間は かかりますが、実際にクローラーを作成する時に近い形での例を示します。 まずこれから取得したいURLのデータベースが存在すると仮定します。今回のクローラー では、このデータベースに存在する全てのURLを一回ずつ取得し、その結果得られる HTMLページからリンクを抜き出し、それを元のテーブルに追加す

    Gungho::Manual::Tutorial.ja
  • Perlメモ/Gungho/簡単なRSSクローラ - Walrus, Digit.

    Gunghoでもっともカスタムメイドの機会が多い部品は、プロバイダとハンドラです。「何を取得したいか」「取得してどうするのか」という用途に密接にかかわる部品だからです。ここではサンプルとして、データベースをストレージとした、RSS(フィード)クローラを作ってみることにします。 Gunghoの概要や情報源についてはPerlメモ/Gunghoを参照してください。 このフィードクローラは、次のような動作をします。 データベースに、フィード情報を保持するfeedテーブルとエントリ情報、コンテンツを保持するentryテーブルがあります。 フィードの取得 フィードテーブルから、未取得、または最終取得から1時間経過したフィードのURLを読み出します。 読み出したフィードを取得します。 取得したフィードから、エントリ情報を抽出します。新しいエントリURLがあれば、entryテーブルに追加します。 エントリ

  • GunghoX-FollowLinksを実装したよ - D-6 [相変わらず根無し]

    GunghoX-FollowLinksを実装したよ 何個か前のエントリーで書いた、ページ内のリンクを辿って行く機能をGunghoX::FollowLinksで実装したよ。 まだちょっといけてない部分があるので多少の書き直しはあると思うけど、とりあえずうpしたさ。使い方はこんな感じ。このクローラーはあるURL(例:http://www.example.com/)を与えると、そのURLから辿れる、そのURL階層以下のページを全部取ってくるデス。長いからエントリーの後のほうでで説明もつけますよ #!/usr/local/bin/perl # $Id$ # # Copyright (c) 2007 Daisuke Maki <daisuke@endeworks.jp> # All rights reserved. use strict; use warnings; use Gungho; use

  • YappoLogs: GunghoっていうWebクロウラーたんの件

    GunghoっていうWebクロウラーたんの件 なんか男前そうなクロウラーたんを発見したお 資料はhttp://www.slideshare.net/lestrrat/gungho-swarmage-pocomdba/を見るべし。 ちなみに、これ書くのに使ったGunghoはVersion 0.09001 のCPANの。 概要 GunghoはPlaggerっぽいwebクロウラーたんです。なのでGunghoの名前空間以下にあるモジュールとかを個別に使おうとしたら大変です。 Gunghoのアーキテクチャにそった一道な動作をさせるのがいいはず。 設定はConfig::Any使ってるので、色んな形式のを使えます。 Providerにより収集URLを取得し、EngineがHTTPでコンテンツを取得し、Handlerで取得したコンテンツを処理します。 Provider,Engine,Handlerは、そ

    kamawada
    kamawada 2007/11/07
    解説ktkr これ使えばおっぱいダウンロードも高速になるぞー
  • ライブドアブログ|無料で豊富な機能が充実

    以前派遣された会社で、同年代のA子と仲良くなった。 A子から「今度飲みに行きませんか」と誘われたんだけど… 車で帰宅中急激な腹痛でトイレにかけこむもなんと4人も待ってた、この時点で気が遠くなったけど我慢。 私の前が丁度共用にあたり動いた瞬間お腹が臨界点を迎え…ごめん

    ライブドアブログ|無料で豊富な機能が充実
  • D-5 出張版 - Gungho Components

  • https://labs.cybozu.co.jp/blog/kazuho/archives/2007/04/gungho.php

  • Gungho と Web::Scraper で mashup - file-glob こと k.daibaの日記

    資料 発表で使ったスライドはこれです. 所感 しゃべった後にこんなことを言うのはなんなんですが,cronではなくてGunghoを使ったのかという説明がうまくできてません. ネットワーク上のWebAPIにアクセス 取得した情報に基づきプログラムが内部状態を変更 内部状態に基づき,アクセス先のWebAPIやアクセス頻度を変更 1. に戻る ってことをやってみたかったのでクローラーを使ってみたのでした.ちなみに,牧さんに怒られちゃったけど,現行バージョンのGunghoではバグは直ってます.ハイ 余談 Google PresentationにはPowerPointなんかで言うところの基図形とか矢印とかがありません.んでもってpdfとかodpへの出力ができません.他の形式の資料に再利用するのは難しいです.それから,資料を公開するともれなくチャット画面が着いてきます.これって発表して質疑応答する時に

    Gungho と Web::Scraper で mashup - file-glob こと k.daibaの日記
  • Google Code Archive - Long-term storage for Google Code Project Hosting.

    Code Archive Skip to content Google About Google Privacy Terms

    kamawada
    kamawada 2007/09/28
    今更ブクマ。これは面白そうだ。
  • 1