[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

タグ

Nutchに関するkobteaのブックマーク (3)

  • @IT:オープンソース検索エンジン「Nutch」の実力

    Java FAQ(What's New)」の安藤幸央氏が、CoolなプログラミングのためのノウハウやTIPS、筆者の経験などを「Rundown」(駆け足の要点説明)でお届けします。(編集局) 検索エンジンの台頭 現在、インターネットを利用するユーザーにとっても、インターネットで仕事やプログラム開発を行っているユーザーにとっても検索エンジンはとても重要なものです。SEO(Search Engine Optimization)という業種も確立し、新規インターネットビジネスサイトを立ち上げる際や、既存サイトのアクセス数を増加させたい場合、SEOが重要な意味を持つようになってきています。つまりWebデザインだけでなく、Webサイト(ページ)がどのように検索エンジンとかかわってくるのか、SEO分析や、SEOに関するノウハウが重要視されます。 確かに便利な検索エンジンの台頭は歓迎されることです。一方

    @IT:オープンソース検索エンジン「Nutch」の実力
  • Kazuhiro's Weblog: 「Nutch」ですいすい情報収集 (クローリング機能を試す)

    「Nutch」でウェブサイトをクローリングする方法を説明します。 クローリングとは、簡単にいえば「ウェブサイトの情報を集めるてくれる仕組み」でしょうか。 (注) nutchを利用するには、unixがお勧めです。 私は、「CentOS 4」をOSとし用いました。 最初はwindowsでがんばろうと試行錯誤しましたが 多くの無駄な時間をつかってしまうという結果に終わりました(TT)。 「Nutch」利用したクローリングの方法には、 (A)ある特定のネットワーク(intranet)をクローリングする方法 (B)ウェブ全体(whole-web)をクローリングする方法 の2つがあります。 今回は、このblogサイト「http://kazuhiro.ty.land.to/blog/」を起点にして (A)の方法でクローリングする方法を紹介します。 (1)「Nutch」をインストールする 「Nutch」の

  • Apache プロジェクトのクローラ Nutch を軽く試してみた - Solr, Python, MacBook Air in Shinagawa Seaside

    Nutch は Apache プロジェクトで開発されているクローラ(crawler)です。クローラは、起点として指定されたURLからリンクをたどりながらHTMLをデータベース化するソフトウェアです。 GoogleYahoo! 等の検索ポータルが内部で使用していることで知られています。スパイダー(Spider)、ボット(bot)等といわれることもあります。 Nutch は 2009/3/23 についにバージョン 1.0 がリリースされました。 Nutch のインストールには JAVA 及び Tomcat が必要です。まだインストールしていない場合には先にインストールしておきます。しばらくアップデートしていない場合にアップデートしておいた方がよいでしょう。 以下を参考にしてください。 Linux で root 権限なしでも最新の JDK をインストールする1つのやりかた Linux

  • 1