[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

タグ

rssとseoに関するsinzysinzyのブックマーク (2)

  • HTMLのドキュメントから繰り返し部分をみつける - bits and bytes

    RSSを生成していないページからRSSを生成するなんでもRSS 0.1bは、公開されているJSAI2005: なんでもRSS - HTML文書からのRSS自動生成によると、日付情報を目印にしてそのHTMLドキュメントの構造を推測して、各エントリ(item要素)のタイトルと文を単語の統計的に処理して決定し、フィードを生成していると書かれています。 ウェブ上にあるHTMLドキュメントは Ask.jp : "xml" Search results. のように、RSSitem要素に相当する部分に日付が含まれていないものもあります。 その中でも、大量のデータを複数のページにわけて表示しているHTMLドキュメントを対象に、ドキュメント中に含まれる繰り返し部分のXPathを生成するブログラムをjavascriptで作りました。 アプローチ 大量のデータを複数のページわけて表示しているドキュメントを

  • MOONGIFT: » 悪のGoogle利用法「EvilRSS」:オープンソースを毎日紹介

    SEOやSEMに興味がある人であれば、あるキーワードで検索した際のGoogleでの順位チェックをしたことがあるはずだ。それをサービスの一つとして提供している所もある。 大抵、規模が大きくなると自動化を進めるようになる。それを簡単にするのがこのライブラリだ。 今回紹介するオープンソース・ソフトウェアはEvilRSSGoogleの検索結果をRSSにしてしまうソフトウェアだ。 これはまさにEvil(悪)。RSSであれば、様々なレンタルサーバに設置して、IPアドレス制限を超えて利用できてしまう。まさにEvilRSSであれば、既存のライブラリと組み合わせれば簡単にシステム内部に取り込めてしまう。まさにEvil(悪)。出力はページ名、ページの概要、リンクがそれぞれ出力される。日語の検索ワードも利用でき、最大100件まで指定可能だ。 もちろん、正規の使い方ではないのでその点ご注意いただきたい。業

    MOONGIFT: » 悪のGoogle利用法「EvilRSS」:オープンソースを毎日紹介
  • 1