[B! rss][seo] sinzysinzyのブックマーク

More Web Proxy on the site http://driver.im/

sinzysinzy id:sinzysinzy

タグ

rssとseoに関するsinzysinzyのブックマーク (2)

HTMLのドキュメントから繰り返し部分をみつける - bits and bytes
RSSを生成していないページからRSSを生成するなんでもRSS 0.1bは、公開されているJSAI2005: なんでもRSS - HTML文書からのRSS自動生成によると、日付情報を目印にしてそのHTMLドキュメントの構造を推測して、各エントリ(it em要素)のタイトルと本文を単語の統計的に処理して決定し、フィードを生成していると書かれています。ウェブ上にあるHTMLドキュメントは Ask.jp ： "xml" Search results. のように、RSSのit em要素に相当する部分に日付が含まれていないものもあります。その中でも、大量のデータを複数のページにわけて表示しているHTMLドキュメントを対象に、ドキュメント中に含まれる繰り返し部分のXPathを生成するブログラムをjavascriptで作りました。アプローチ大量のデータを複数のページわけて表示しているドキュメントを
sinzysinzy 2007/11/02
html

RSS

seo
リンク
MOONGIFT: » 悪のGoogle利用法「EvilRSS」:オープンソースを毎日紹介
SEOやSEMに興味がある人であれば、あるキーワードで検索した際のGoogleでの順位チェックをしたことがあるはずだ。それをサービスの一つとして提供している所もある。大抵、規模が大きくなると自動化を進めるようになる。それを簡単にするのがこのライブラリだ。今回紹介するオープンソース・ソフトウェアはEvil RSS、Googleの検索結果をRSSにしてしまうソフトウェアだ。これはまさにEvil（悪）。RSSであれば、様々なレンタルサーバに設置して、IPアドレス制限を超えて利用できてしまう。まさにEvil。 RSSであれば、既存のライブラリと組み合わせれば簡単にシステム内部に取り込めてしまう。まさにEvil（悪）。出力はページ名、ページの概要、リンクがそれぞれ出力される。日本語の検索ワードも利用でき、最大100件まで指定可能だ。もちろん、正規の使い方ではないのでその点ご注意いただきたい。業
sinzysinzy 2007/10/29
seo

RSS

webスクレイピング
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx