JP2005031867A - Web information collecting device and web information collecting method - Google Patents
Web information collecting device and web information collecting method Download PDFInfo
- Publication number
- JP2005031867A JP2005031867A JP2003194662A JP2003194662A JP2005031867A JP 2005031867 A JP2005031867 A JP 2005031867A JP 2003194662 A JP2003194662 A JP 2003194662A JP 2003194662 A JP2003194662 A JP 2003194662A JP 2005031867 A JP2005031867 A JP 2005031867A
- Authority
- JP
- Japan
- Prior art keywords
- homepage
- keyword
- character data
- web
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 13
- 238000010586 diagram Methods 0.000 description 14
- 238000012545 processing Methods 0.000 description 11
- 230000007547 defect Effects 0.000 description 5
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 125000004122 cyclic group Chemical group 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 239000003990 capacitor Substances 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Transfer Between Computers (AREA)
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は、キーワードが含まれたホームページを情報収集し、キーワード検索の結果、新規、あるいは変更のあったホームページを関係者にメール配信する技術に関する。
【0002】
【従来の技術】
インターネットの普及に伴い、インターネット上にあるWWW(World Wide Web:ワールドワイドウエブ、以下ウエブと表現)サイトから、Googleに代表される検索エンジンを利用することで所望のウエブ情報を収集することが一般に行なわれている( 例えば、非特許文献1参照)。
【0003】
しかしながら、従来、検索エンジンにおいてキーワード検索する場合、参照しきれない程の膨大なホームページがヒットしてしまう。また、条件を追加していくと、参照したいホームページがヒットしないことが多いなどの問題を抱えていた。
さらに、キーワード検索でヒットしたホームページをダウンロードすると、参照したくないホームページもダウンロードされるため、処理時間がかかり、所望の情報の特定が直ぐにできない。また、更新していないホームページも再確認せざるを得ず、欲しい情報がなかなか参照できない。さらには、グループに属し共同作業を行う複数の利用者が、同一のホームページを参照して、同じ内容を確認しているなど大変不効率なことを行っていた。
【0004】
【非特許文献1】
日経BP社「日経パソコン」2001年新春特集号、No.376(92〜115頁)
【0005】
【発明が解決しようとする課題】
そこで、上記した問題を解決するため、本発明では、キーワード指定されたホームページの複数階層にわたってキーワードが含まれているページを参照し、キーワード検索でヒットしたホームページが改版されていればユーザに通知する(キーワードが含まれていても以前にホームページを参照していれば参照範囲外にする)。また、キーワード検索で、改版、新規のホームページが判っても、本当に参照したいホームページは少ない。そのため、一人がホームページを確認して、内容( ヘッドライン) をまとめ、その内容を関係者にメール配信し、ホームページの参照時間を減らすことを目的とする。
【0006】
【課題を解決するための手段】
第一の発明は、インターネットを介したウエブ情報収集装置において、指定されたホームページを複数階層にわたって巡回し、前記ホームページ上の文字データを自動的にダウンロードするウエブ巡回手段と、前記文字データをホームページ毎にファイルとして格納する文字データファイル格納手段と、前記ウエブ巡回手段によってダウンロードした文字データファイルを予め設定されたキーワードによって検索するキーワード検索手段と、前記文字データファイルの日付が既登録データを参照して不一致の場合に、前記キーワード検索の結果、キーワードがヒットしたホームページ全体をダウンロードするホームページダウンロード手段と、ダウンロードした前記ホームページの更新または新規内容の情報を関係ユーザに自動通知する情報通知手段と、を有することを特徴とするウエブ情報収集装置に関する。
【0007】
すなわち、第一の発明によれば、ウエブ巡回手段によって、予め指定されたホームページの複数層を巡回してテキストデータをダウンロードし、そのダウンロードしたテキスト内をキーワード検索し、検索の結果、キーワードが存在したホームページ全体をダウンロードし、かつ更新日付をチェックすることで、改版、あるいは新規のホームページに対し、ユーザに自動通知するような構成とした。
【0008】
これによって、指定範囲( ダウンロードファイル) 内でキーワード検索が出来るため、必要なホームページを簡単に探すことができ、また、指定したホームページの複数階層で、指定キーワードが含まれたホームページの表示を行い、ホームページが改版された場合、新規登録されたホームページのみ通知するため、変更が無いホームページを参照しなくてもよく、検索の処理時間が大幅に短縮できる。
【0009】
第二の発明は、前記ウエブ巡回手段では、前記キーワード検索手段においてキーワードがヒットしたホームページだけを対象に、次回以降、巡回させることを特徴とする上記第一の発明に記載のウエブ情報収集装置に関する。
すなわち、第二の発明によれば、初回の巡回によるダウンロードファイルでキーワード検索にヒットしたホームページだけを対象に、次回以降、巡回させることになるため、巡回処理時間が大きく短縮され、トータルなウエブ情報収集の管理工数の削減となる。
【0010】
【発明の実施の形態】
以下、図面にもとづいて本発明の実施形態を説明する。
図1は、本発明の基本システム構成を示す。本発明のシステムは、インターネット3を介して、これに接続する複数の情報提供サーバ(図示していない)からホームページの情報を収集するウエブ情報収集装置1と、ホームページの場所を表すURL(Uniform Resource Locators )の設定、キーワード設定、検索結果確認、およびニュース投稿等、前記ウエブ情報端末1とLAN(Local Area Network)で接続され、ウエブ情報巡回及び検索にあたっての環境設定の入力を行う複数のユーザ端末2とで構成され、グループ内で収集したウエブ情報を共有して管理するシステムとなっている。
【0011】
また、ウエブ情報収集装置1は、指定したホームページ巡回のためのURL管理データベース10と、ユーザが入力した巡回条件、キーワード条件等ウエブ情報の巡回、検索のための環境条件を保持しておく環境設定ファイル11と、巡回条件取得手段12と、指定したURLにしたがってインターネットに接続する情報提供サーバにアクセスし、ホームページの複数層にわたって巡回して文字データ(拡張子指定)を自動的にダウンロードするウエブ巡回手段13と、前記文字データをホームページ毎に格納する文字データファイル格納手段14と、そのダウンロードした文字データファイルを格納するダウンロードフォルダ15と、格納したダウンロードファイルを予め設定されたキーワードによって検索するキーワード検索手段16と、キーワード検索の結果、そのヒットした情報を格納するヒット情報データベース17と、ヒットしたホームページ全体をダウンロードするホームページダウンロード手段18と、そのダウンロードしたファイルの内、変更、あるいは新規情報があれば、その更新情報を関係ユーザに通知する情報通知手段19とで構成される。
【0012】
ここで、ウエブ情報収集装置1は、コンピュータであり、予め内蔵されたプログラムがコンピュータ上で実行され、巡回条件取得手段12、ウエブ巡回手段13、文字データファイル格納手段14、キーワード検索手段16、ホームページダウンロード手段18、および情報通知手段19の各手段が実現される。そして、当該プログラムは、フロッピーディスク、コンパクトディスク、CD−ROM等のコンピュータ読取可能な記録媒体に記録され、とくに図には示していないが、内蔵あるいは、外部接続された媒体読取装置にセットしインストールすることによって実行可能な状態としてもよい。
【0013】
以下の実施例では、ウエブ情報収集の一例として、「不具合情報の収集」を例に取り上げて説明する。
図2は、本発明の実施の形態になるURL管理データベースのデータ構成例を示す図である。URL管理データベース10のデータ構成は、インターネットのウエブページの場所を表すURL、会社名、URLの登録日、巡回の収集停止(巡回してヒットしなければ停止)、URLの収集日時、セキュリティ付きサイトアクセス時の認証ID、認証パスワード、URLの巡回すべき階層数、初回収集(1又は0で表現)、および更新日時等の項目からなる。
【0014】
図3は、本発明の実施の形態になるヒット情報データベースのデータ構成例を示す図である。本ヒット情報データベース17には、ダウンロードしたホームページの内、文字データをキーワード検索してヒットした指定拡張子のファイルから、後述する関係ユーザに内容を通知する(ニュース投稿)データとしての加工情報を保持しておく。
【0015】
ヒット情報データベース17のデータ構成は、キーワードヒット有無、キーワードヒット数、総数、習得数、不可数、タイトル、およびヘッドラインの項目からなる。キーワードヒット有無は、1キーワードに対し、ヒットの有無は1又は0で表現する。例えば、キーワード列数が8個であれば、各キーワードに対応して、00100010で表され、合計ヒット数は2件とカウントされる。総数、習得数、不可数は、検索対象としたURL数を示す。タイトルは、<TITLE >の表記であり、表記がなければタイトルなしとなる。また、ヘッドラインは、キーワードがヒットしたテキストの頭からの文字数(例えば、100字等)を抽出して表現したものである。
【0016】
つぎに、本発明になるウエブ情報の収集を実施するにあたり、予めのウエブ巡回の設定項目について、図4〜図7を使って説明する。
図4は、本発明の実施の形態になる初期メニュー画面の例を示す図である。初期メニュー画面は、三つの画面領域101、102、および103で構成されている。
【0017】
画面領域101は、これまで検索されたURLリストについて、会社名、URL、更新日、およびヒット数の項目に対するデータが表示される。□はチェックボックスであり、ブランクは巡回を必要とし、×印は巡回の対象外として処理されたことを表す。これは、画面領域103の各設定ニューでユーザによって選択された結果が反映される。
【0018】
URLは、(プロトコル名)://(ドメイン名)/(ファイル名)で表される。図中、http://www.aaa.com/index.htmは、会社AAAのトップホームページのURLであり、http:// は、ウエブのクライアントが情報提供サーバと通信するHTTP(HyperText Transfer Protocol )というプロトコルを使った送信命令を表し、続くwww.aaa.com は、ホームページが保存してあるインターネット上のWWWサーバの名前を表し、index.htm は、ホームページのトップページを表している。また、(.htm)は、ホームページを記述する言語HTML(HyperText Markup Language)によるファイルの拡張子を表している。
【0019】
http://www.aaa.com/xxx1/index.htm や http:// www.aaa.com/xxx1/pr.htmは、2階層目や3階層目のウエブページを表している。
画面領域101のURLリストにおいて、例えば、URL[http://www.aaa.com/xxx1/index.htm ]のウエブページは、キーワード検索の結果、yyyy年mm月dd日に、5件のヒットがあったことを示している。
【0020】
また、画面領域102には、不具合情報、新製品情報、技術情報等のアイテムが表示される。本実施例では、不具合情報が表示されている。
さらに、画面領域103には、URL追加(URL、階層、識別子の設定)、URL削除(URLリスト、フォルダからのデータ削除)、収集停止・再開(URL毎に収集停止・再開を指示)、収集スケジュール(実行日/曜日/時刻設定)、キーワード設定(ダウンロードデータに対する検索キーワードの設定)、およびニュース投稿等、ユーザが入力すべき検索環境の設定メニューが表示される。各メニューボタンをマウスによってクリックすることで、各設定画面が表示され、該表示画面においてユーザによる入力が行われる。
【0021】
設定メニューの内、まず、URL追加およびURL削除は、AAA、BBBなどの会社のトップホームページ単位でページを追加したり、削除したりする設定機能である。
以下に、他のメニューの機能について説明する。
図5は、本発明の実施の形態になる環境設定の画面例(キーワード設定)を示す。例えば、キーワード列1は、「不具合 and コンデンサ and LSI」の検索式を検索キーワードとして検索することを表している。
【0022】
図6は、本発明の実施の形態になる環境設定の画面例(収集停止・再開設定)を示す。URLリストから、収集停止/再開を指示、収集停止したURLのファイルは、一旦検索対象フォルダの外に移動させ、再開時、検索対象に戻す。前回ヒットの実績が0のものに対し、チェックボックス□に×を入れることで、そのファイルは、巡回収集の対象からはずされる。チェックを全て選択して、最後に収集停止/再開画面の選択画面を表示して、ヒット件数0件のURLを一括して収集停止することができる。
【0023】
図7は、本発明の実施の形態になる環境設定の画面例(収集スケジュール設定)を示す。設定項目としては、全巡回周期、差分巡回周期、巡回時刻、収集対象ファイル、および検索階層が表示される。全巡回周期では、毎回、月、週に収集する回数を設定し、差分巡回では、前回検索との比較において、変更分だけを抽出して巡回する場合の設定を行う。本画面例では、全巡回を選択し、1回/週,曜日指定は月曜日、巡回時刻は、1時00分,収集対象ファイルは、htm/html、txt、doc、xlsの拡張子を指定し、および巡回検索の深さである階層は3階層となるように収集スケジュールを設定している。
【0024】
ここで、htm/htmlはホームページの記述言語HTMLの拡張子、txtはテキスト形式の拡張子である。また、docはマイクロソフト社のワードの登録商標、xlsはマイクロソフト社のエクセルの商標登録、およびpdfはアドビー社の登録商標のそれぞれの拡張子である。
図8は、本発明の実施の形態になる指定条件に基づくウエブ巡回のフローチャートを示す。まず、ステップS11において、ユーザが入力し、保持されている環境設定ファイルから指定されたURLを読み込む。ステップS12において、ウエブ巡回手段13が、インターネットに接続する情報提供サーバのホームページを複数階層にわたって巡回し、ステップS13で、指定拡張子の文字データのファイルをダウンロードし、ステップS14において、ダウンロードフォルダ15に保存する。そして、ステップS15において、環境設定ファイル11から読み込んだ指定URLが全て終了するまで以上の処理を繰り返す。
【0025】
全てのURLが終了した時点で次の処理フロー(▲1▼)に移る。
図9は、本発明の実施の形態になるダウンロードファイルのキーワード検索のフローチャートを示す。図8の処理を受けて、ステップS21において、ダウンロードフォルダ15を参照し、ステップS22で、ダウンロードした文字データファイルが終わるまでダウンロードファイルの参照を続行する。ステップS23において、収集した文字データファイルのキーワード検索を行う。ステップS24で、検索条件が一致すれば、ステップS25に進み、ダウンロードした個々の文字データファイルについて、前回ダウンロ−ドしたファイルとの日付をチェックする。
【0026】
ステップS26において、日付が不一致であれば、キーワード検索においてヒットしたホームページの情報について、ヒット情報データベース17に図3のデータ構成に則って必要情報を保存する。
ステップS24において、キーワ−ド条件が一致しなければ、ヒット情報データベース17の当該ファイルのフラグをOFFとする。また、ステップS26で日付条件が一致しなければ、ステップS25に戻ってダウンロードファイルのチェックを繰り返す。
【0027】
以上の処理フロ−を終了したら、次の▲2▼の処理フローへと移行する。
図10は、本発明の実施の形態になる更新ホームページ内容の自動通知のフローチャートを示す。図9の処理フロ−を受けて、ステップS31において、前記ヒット情報データベース17を参照し、ステップS32で、ヒット情報データベース17のデータがなくなるまで処理を行う。ステップS33において、ヒット情報データベース17においてダウンロードファイルのフラグがONのものについて選定し、ステップS34でフラグのついた指定URLのホームページ全体をダウンロードする。そしてステップS35で、ダウンロードしたURLを保存する。
【0028】
つぎに、ステップS32で、全てのデータ処理が終わったら、ステップS36において、ダウンロードしたURLについて抽出し、ステップS37において、ダウンロードしたURLのホームページの変更内容の情報を編集(ニュース投稿)し、関係ユーザにメールで自動通知する。
図11は、本発明の実施の形態になる自動投稿の作成例を示す。キーワード検索および更新日付をチェックすることで、キーワードが存在したホームページ全体をダウンロードし、更新あるいは新規となったホームページについての情報を関係ユーザに自動通知する。本画面例では、自動投稿と手動投稿が選択できる画面としている。自動投稿では、例えば、キーワード列1に対しヒットしたURL1(yyyy/mm/dd)、URL2(yyyy/mm/dd)・・また、キーワード列2に対しヒットしたURLa(yyyy/mm/dd)、URLb(yyyy/mm/dd)・・のURL群が自動的にリストアップされ、関係ユーザに通知される。また、手動投稿では、フリーなスタイルでのニュース投稿画面が用意される。
【0029】
図12は、本発明の実施の形態になる変更内容のメール通知例を示す。変更のあったウエブページのURL、更新日、ヒットしたキーワード、および内容についてのヘッドラインを抽出して自動的に関係ユーザにメール通知される。
以上の実施例では、主に「不具合情報」という事例を想定して記述してきたが、本発明は、もちろん、これに限定を受けるものではなく、「新製品情報」、「技術情報」、「特許情報」等、広い範囲のジャンルのウエブ情報収集に同様な手法が適用されることは言うまでもない。
【0030】
(付記1) インターネットを介したウエブ情報収集装置において、
指定されたホームページを複数階層にわたって巡回し、前記ホームページ上の文字データを自動的にダウンロードするウエブ巡回手段と、
前記文字データをホームページ毎にファイルとして格納する文字データファイル格納手段と、
前記ウエブ巡回手段によってダウンロードした文字データファイルを予め設定されたキーワードによって検索するキーワード検索手段と、
前記文字データファイルの日付が既登録データを参照して不一致の場合に、前記キーワード検索の結果、キーワードがヒットしたホームページ全体をダウンロードするホームページダウンロード手段と、
ダウンロードした前記ホームページの更新または新規内容の情報を関係ユーザに自動通知する情報通知手段と
を有することを特徴とするウエブ情報収集装置。
【0031】
(付記2) 前記情報通知手段における通知情報は、ヒットしたキーワードを含む前後の文字列を抽出して自動生成されたヘッドライン情報であることを特徴とする付記1に記載のウエブ情報収集装置。
(付記3) 前記ウエブ巡回装置では、前記キーワード検索ステップにおいてキーワードがヒットしたホームページだけを対象に、次回以降、巡回させることを特徴とする付記1記載のウエブ情報収集装置。
【0032】
(付記4) インターネットを介したウエブ情報収集方法において、
指定されたホームページを複数階層にわたって巡回し、前記ホームページ上の文字データを自動的にダウンロードするウエブ巡回ステップと、
前記文字データをホームページ毎にファイルとして格納する文字データファイル格納ステップと、
前記ウエブ巡回ステップによってダウンロードした文字データファイルを予め設定されたキーワードによって検索するキーワード検索ステップと、
前記文字データファイルの日付が既登録データを参照して不一致の場合に、前記キーワード検索の結果、キーワードがヒットしたホームページ全体をダウンロードするホームページダウンロードステップと、
ダウンロードした前記ホームページの更新または新規内容の情報を関係ユーザに自動通知する情報通知ステップと、
を有することを特徴とするウエブ情報収集方法。
【0033】
(付記5) インターネットを介したウエブ情報収集プログラムにおいて、
コンピュータに、
指定されたホームページを複数階層にわたって巡回し、前記ホームページ上の文字データを自動的にダウンロードするウエブ巡回ステップと、
前記文字データをホームページ毎にファイルとして格納する文字データファイル格納ステップと、
前記ウエブ巡回ステップによってダウンロードした文字データファイルを予め設定されたキーワードによって検索するキーワード検索ステップと、
前記文字データファイルの日付が既登録データを参照して不一致の場合に、前記キーワード検索の結果、キーワードがヒットしたホームページ全体をダウンロードするホームページダウンロードステップと、
ダウンロードした前記ホームページの更新または新規内容の情報を関係ユーザに自動通知する情報通知ステップと、
を実行させるウエブ情報収集プログラム。
【0034】
(付記6) インターネットを介したウエブ情報収集プログラムを記録した記録媒体であって、
コンピュータに、
指定されたホームページを複数階層にわたって巡回し、前記ホームページ上の文字データを自動的にダウンロードするウエブ巡回ステップと、
前記文字データをホームページ毎にファイルとして格納する文字データファイル格納ステップと、
前記ウエブ巡回ステップによってダウンロードした文字データファイルを予め設定されたキーワードによって検索するキーワード検索ステップと、
前記文字データファイルの日付が既登録データを参照して不一致の場合に、前記キーワード検索の結果、キーワードがヒットしたホームページ全体をダウンロードするホームページダウンロードステップと、
ダウンロードした前記ホームページの更新または新規内容の情報を関係ユーザに自動通知する情報通知ステップと、
を実行させるウエブ情報収集プログラム記録したコンピュータ読取可能な記録媒体。
【0035】
【発明の効果】
以上、説明してきたように、本発明によれば、指定したホームページの複数階層で、指定キーワードが含まれたホームページの表示を行い、ホームページが 改版された場合、新規登録されたホームページのみ通知するため、変更が無いホームページを参照しなくてもよく、検索の処理時間が大幅に短縮できる。
【0036】
また、指定範囲( ダウンロードファイル) 内でキーワード検索が出来るため、必要なホームページを簡単に探すことができる。
さらに、本発明によれば、担当者がホームページの内容を確認の上、ヘッドラインを変更して必要者にメールにて配信することになるため、担当者以外は、その内容( ヘッドライン) を確認するだけで、必要がなければホームページを参照しなくて済むため、検索に要する工数の削減が図れる。
【図面の簡単な説明】
【図1】本発明になる基本システム構成を示す図である。
【図2】本発明の実施の形態になるURL管理データベースのデータ構成例を示す図である。
【図3】本発明の実施の形態になるヒット情報データベースのデータ構成例を示す図である。
【図4】本発明の実施の形態になる初期メニュー画面の例を示す図である。
【図5】本発明の実施の形態になる環境設定の画面例(キーワード設定)を示す図である。
【図6】本発明の実施の形態になる環境設定の画面例(収集停止・再開設定)を示す図である。
【図7】本発明の実施の形態になる環境設定の画面例(収集スケジュール設定)を示す図である。
【図8】本発明の実施の形態になる指定条件に基づくウエブ巡回のフローチャートを示す図である。
【図9】本発明の実施の形態になるダウンロードファイルのキーワード検索のフローチャートを示す図である。
【図10】本発明の実施の形態になる更新ホームページ内容の自動通知のフローチャートを示す図である。
【図11】本発明の実施の形態になる自動投稿の作成例を示す図である。
【図12】本発明の実施の形態になる変更内容のメール通知例を示す図である。
【符号の説明】
1 ウエブ情報収集装置
2 ユーザ端末
3 インターネット
10 URL管理データベース
11 環境設定ファイル
12 巡回条件取得手段
13 ウエブ巡回手段
14 文字データファイル格納手段
15 ダウンロードフォルダ
16 キーワード検索手段
17 ヒット情報データベース
18 ホームページダウンロード手段
19 情報通知手段[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a technique for collecting information on a homepage including a keyword and delivering a new or changed homepage as a result of keyword search to a related person by e-mail.
[0002]
[Prior art]
With the spread of the Internet, it is common to collect desired web information from a WWW (World Wide Web) site on the Internet by using a search engine typified by Google. (For example, refer nonpatent literature 1).
[0003]
However, conventionally, when a keyword search is performed by a search engine, a huge number of homepages that cannot be referred to are hit. In addition, as conditions were added, there were many problems such as the homepage you would like to refer to was often not hit.
Furthermore, when a homepage that has been hit by a keyword search is downloaded, a homepage that the user does not want to refer to is downloaded, so that processing time is required and desired information cannot be specified immediately. In addition, I have to reconfirm homepages that have not been updated, and it is difficult to refer to the information I want. In addition, multiple users who belong to a group and perform collaborative work refer to the same homepage and confirm the same content, which is very inefficient.
[0004]
[Non-Patent Document 1]
Nikkei BP “Nikkei PC” New Year 2001 Special Issue, No. 376 (92-115 pages)
[0005]
[Problems to be solved by the invention]
Therefore, in order to solve the above problem, in the present invention, a page including a keyword is referred to over a plurality of hierarchies of the home page specified by the keyword, and the user is notified if the home page hit by the keyword search has been revised. (Even if keywords are included, if you have visited the homepage before, it will be out of the reference range.) In addition, even if you can find a revised or new homepage by keyword search, there are few homepages that you really want to reference. Therefore, one person confirms the homepage, summarizes the contents (headlines), distributes the contents to the parties concerned by e-mail, and aims to reduce the reference time of the homepage.
[0006]
[Means for Solving the Problems]
According to a first aspect of the present invention, in a web information collecting apparatus via the Internet, a web patrol unit that patrols a designated home page over a plurality of layers and automatically downloads character data on the home page; Character data file storage means for storing the file as a file, keyword search means for searching for the character data file downloaded by the web patrol means with a preset keyword, and the date of the character data file refer to the registered data In the case of mismatch, as a result of the keyword search, a homepage download means for downloading the entire homepage where the keyword is hit, and information for automatically notifying related users of updated or new content information of the downloaded homepage A knowledge unit, related web information collection apparatus characterized by having a.
[0007]
That is, according to the first invention, the web circulating means downloads the text data by patroling a plurality of layers of the designated homepage, searches the downloaded text for a keyword, and the keyword exists as a result of the search. The entire homepage is downloaded and the update date is checked to automatically notify the user of the revised or new homepage.
[0008]
This allows you to search for keywords within the specified range (download file), so you can easily find the required homepage, and display the homepage that contains the specified keyword in multiple levels of the specified homepage. When the homepage is revised, only the newly registered homepage is notified, so there is no need to refer to a homepage that has not been changed, and the search processing time can be greatly shortened.
[0009]
The second invention relates to the web information collecting device according to the first invention, wherein the web patrol means is to circulate only the homepage where the keyword is hit in the keyword search means from the next time. .
In other words, according to the second invention, since only the home page that hits the keyword search in the download file by the first visit is visited, the visit processing time is greatly reduced from the next time, so that the visit processing time is greatly reduced and the total web information is reduced. The management man-hour for collection is reduced.
[0010]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
FIG. 1 shows the basic system configuration of the present invention. The system of the present invention includes a web
[0011]
The web
[0012]
Here, the web
[0013]
In the following embodiments, “collection of defect information” will be described as an example of web information collection.
FIG. 2 is a diagram showing a data configuration example of the URL management database according to the embodiment of the present invention. The data structure of the
[0014]
FIG. 3 is a diagram showing a data configuration example of the hit information database according to the embodiment of the present invention. The
[0015]
The data structure of the
[0016]
Next, in order to collect the web information according to the present invention, the setting items of the web tour in advance will be described with reference to FIGS.
FIG. 4 is a diagram showing an example of an initial menu screen according to the embodiment of the present invention. The initial menu screen includes three
[0017]
The
[0018]
The URL is represented by (protocol name): // (domain name) / (file name). In the figure, http: // www. aaa. com / index. http is the URL of the company AAA's top homepage, and http: // is a transmission command using a protocol called HTTP (HyperText Transfer Protocol) with which a web client communicates with an information providing server, followed by www. aaa. com represents the name of the WWW server on the Internet where the homepage is stored. htm represents the top page of the home page. In addition, (.htm) represents an extension of a file in a language HTML (HyperText Markup Language) describing a home page.
[0019]
http: // www. aaa. com / xxx1 / index. http: // www. aaa. com / xxx1 / pr. htm represents the second and third level web pages.
In the URL list of the
[0020]
In the
Further, in the
[0021]
In the setting menu, first, URL addition and URL deletion are setting functions for adding and deleting pages in units of top homepages of companies such as AAA and BBB.
Hereinafter, functions of other menus will be described.
FIG. 5 shows an example of an environment setting screen (keyword setting) according to the embodiment of the present invention. For example, the
[0022]
FIG. 6 shows an example of the environment setting screen (collection stop / restart setting) according to the embodiment of the present invention. The URL list is instructed to stop / restart collection, and the URL file whose collection has been stopped is temporarily moved out of the search target folder and returned to the search target when restarting. If the result of the previous hit is 0, the file is removed from the cyclic collection target by putting an X in the check box □. By selecting all the checks and finally displaying the selection screen of the collection stop / resume screen, it is possible to collectively stop collecting URLs with 0 hits.
[0023]
FIG. 7 shows an example of an environment setting screen (collection schedule setting) according to the embodiment of the present invention. As setting items, the total cycle, difference cycle, cycle time, collection target file, and search hierarchy are displayed. In the entire tour cycle, the number of times collected in each month and week is set, and in the difference tour, a setting is made in which only the changed portion is extracted and toured in comparison with the previous search. In this sample screen, select all tours, specify once / week, day of the week on Monday, tour time is 1:00, and the files to be collected specify the extensions of html / html, txt, doc, and xls. The collection schedule is set so that the hierarchy, which is the depth of the cyclic search, is three.
[0024]
Here, html / html is an extension of a homepage description language HTML, and txt is an extension of a text format. Doc is a registered trademark of Microsoft Corporation, xls is a registered trademark of Microsoft Corporation, and pdf is an extension of a registered trademark of Adobe Corporation.
FIG. 8 shows a flowchart of the web tour based on the designated condition according to the embodiment of the present invention. First, in step S11, the URL input by the user and designated from the held environment setting file is read. In step S12, the
[0025]
When all the URLs are completed, the process proceeds to the next processing flow (1).
FIG. 9 shows a flowchart of keyword search for a download file according to the embodiment of the present invention. In step S21, the
[0026]
If the dates do not match in step S26, necessary information is stored in the hit
In step S24, if the keyword condition does not match, the flag of the file in the hit
[0027]
When the above process flow is completed, the process proceeds to the next process flow (2).
FIG. 10 shows a flowchart of automatic notification of updated homepage contents according to the embodiment of the present invention. In response to the processing flow of FIG. 9, in step S31, the hit
[0028]
Next, in step S32, when all the data processing is completed, the downloaded URL is extracted in step S36, and in step S37, the information on the change contents of the homepage of the downloaded URL is edited (news posting). Automatic notification by email.
FIG. 11 shows an example of creating an automatic posting according to the embodiment of the present invention. By checking the keyword search and update date, the entire home page where the keyword exists is downloaded, and information about the updated or new home page is automatically notified to related users. In this screen example, automatic posting and manual posting can be selected. In the automatic posting, for example, URL1 (yyyy / mm / dd) hit for the
[0029]
FIG. 12 shows a mail notification example of the change contents according to the embodiment of the present invention. The URL of the web page that has been changed, the update date, the hit keyword, and the headline about the content are extracted and the relevant users are automatically notified by email.
In the above embodiment, the description has been mainly made assuming the case of “defect information”, but the present invention is of course not limited to this, and “new product information”, “technical information”, “ It goes without saying that the same technique is applied to collecting web information of a wide range of genres such as “patent information”.
[0030]
(Supplementary note 1) In the web information collection device via the Internet,
A web patrol unit that patrols a designated homepage over a plurality of layers and automatically downloads character data on the homepage;
Character data file storage means for storing the character data as a file for each homepage;
Keyword search means for searching for a character data file downloaded by the web patrol means using a preset keyword;
When the date of the character data file is inconsistent with reference to already registered data, as a result of the keyword search, a homepage download means for downloading the entire homepage where the keyword is hit,
An information notification means for automatically notifying related users of updates of the downloaded home page or information on new contents.
[0031]
(Additional remark 2) The notification information in the said information notification means is the headline information automatically extracted by extracting the character string before and behind including the hit keyword, The web information collection apparatus of
(Supplementary note 3) The web information collecting device according to
[0032]
(Appendix 4) In the web information collection method via the Internet,
A web patrol step of patroling a designated homepage over a plurality of layers and automatically downloading character data on the homepage;
A character data file storing step for storing the character data as a file for each homepage;
A keyword search step for searching for a character data file downloaded by the web patrol step using a preset keyword;
When the date of the character data file is inconsistent with reference to already registered data, the result of the keyword search is a homepage download step of downloading the entire homepage where the keyword is hit;
An information notification step of automatically notifying related users of updated or new content information of the downloaded homepage;
A web information collecting method characterized by comprising:
[0033]
(Appendix 5) In the web information collection program via the Internet,
On the computer,
A web patrol step of patroling a designated homepage over a plurality of layers and automatically downloading character data on the homepage;
A character data file storing step for storing the character data as a file for each homepage;
A keyword search step for searching for a character data file downloaded by the web patrol step using a preset keyword;
When the date of the character data file is inconsistent with reference to already registered data, the result of the keyword search is a homepage download step of downloading the entire homepage where the keyword is hit;
An information notification step of automatically notifying related users of updated or new content information of the downloaded homepage;
Web information collection program to execute.
[0034]
(Supplementary note 6) A recording medium recording a web information collection program via the Internet,
On the computer,
A web patrol step of patroling a designated homepage over a plurality of layers and automatically downloading character data on the homepage;
A character data file storing step for storing the character data as a file for each homepage;
A keyword search step for searching for a character data file downloaded by the web patrol step using a preset keyword;
When the date of the character data file is inconsistent with reference to already registered data, the result of the keyword search is a homepage download step of downloading the entire homepage where the keyword is hit;
An information notification step of automatically notifying related users of updated or new content information of the downloaded homepage;
A computer-readable recording medium having a web information collecting program recorded thereon for recording.
[0035]
【The invention's effect】
As described above, according to the present invention, a home page including a specified keyword is displayed in a plurality of levels of the specified home page, and when the home page is revised, only a newly registered home page is notified. , It is not necessary to refer to a homepage that has not been changed, and the search processing time can be greatly reduced.
[0036]
In addition, because it is possible to search for keywords within the specified range (download file), it is possible to easily find the necessary homepage.
Furthermore, according to the present invention, the person in charge confirms the contents of the homepage, changes the headline and delivers it to the person who needs it by e-mail. Therefore, the contents other than the person in charge (headline) If you do not need to refer to the homepage just by checking, you can reduce the man-hours required for searching.
[Brief description of the drawings]
FIG. 1 is a diagram showing a basic system configuration according to the present invention.
FIG. 2 is a diagram showing a data configuration example of a URL management database according to the embodiment of the present invention.
FIG. 3 is a diagram showing a data configuration example of a hit information database according to the embodiment of the present invention.
FIG. 4 is a diagram showing an example of an initial menu screen according to the embodiment of the present invention.
FIG. 5 is a diagram showing an example of an environment setting screen (keyword setting) according to the embodiment of the present invention.
FIG. 6 is a diagram showing an example of an environment setting screen (collection stop / restart setting) according to the embodiment of the present invention;
FIG. 7 is a diagram showing an example of an environment setting screen (collection schedule setting) according to the embodiment of the present invention.
FIG. 8 is a diagram showing a flowchart of web patrol based on designated conditions according to the embodiment of the present invention.
FIG. 9 is a flowchart showing a keyword search for a download file according to the embodiment of the present invention.
FIG. 10 is a diagram showing a flowchart of automatic notification of updated homepage contents according to the embodiment of the present invention.
FIG. 11 is a diagram showing an example of creating an automatic posting according to the embodiment of the present invention.
FIG. 12 is a diagram showing a mail notification example of change contents according to the embodiment of the present invention.
[Explanation of symbols]
DESCRIPTION OF
Claims (3)
指定されたホームページを複数階層にわたって巡回し、前記ホームページ上の文字データを自動的にダウンロードするウエブ巡回手段と、
前記文字データをホームページ毎にファイルとして格納する文字データファイル格納手段と、
前記ウエブ巡回手段によってダウンロードした文字データファイルを予め設定されたキーワードによって検索するキーワード検索手段と、
前記文字データファイルの日付が既登録データを参照して不一致の場合に、前記キーワード検索の結果、キーワードがヒットしたホームページ全体をダウンロードするホームページダウンロード手段と、
ダウンロードした前記ホームページの更新または新規内容の情報を関係ユーザに自動通知する情報通知手段と
を有することを特徴とするウエブ情報収集装置。In the web information collection device via the Internet,
A web patrol unit that patrols a designated homepage over a plurality of layers and automatically downloads character data on the homepage;
Character data file storage means for storing the character data as a file for each homepage;
Keyword search means for searching for a character data file downloaded by the web patrol means using a preset keyword;
When the date of the character data file is inconsistent with reference to already registered data, as a result of the keyword search, a homepage download means for downloading the entire homepage where the keyword is hit,
An information notification means for automatically notifying related users of updated or new contents information of the downloaded home page.
指定されたホームページを複数階層にわたって巡回し、前記ホームページ上の文字データを自動的にダウンロードするウエブ巡回ステップと、
前記文字データをホームページ毎にファイルとして格納する文字データファイル格納ステップと、
前記ウエブ巡回ステップによってダウンロードした文字データファイルを予め設定されたキーワードによって検索するキーワード検索ステップと、
前記文字データファイルの日付が既登録データを参照して不一致の場合に、前記キーワード検索の結果、キーワードがヒットしたホームページ全体をダウンロードするホームページダウンロードステップと、
ダウンロードした前記ホームページの更新または新規内容の情報を関係ユーザに自動通知する情報通知ステップと、
を有することを特徴とするウエブ情報収集方法。In the web information collection method via the Internet,
A web patrol step of patroling a designated homepage over a plurality of layers and automatically downloading character data on the homepage;
A character data file storing step for storing the character data as a file for each homepage;
A keyword search step for searching for a character data file downloaded by the web patrol step using a preset keyword;
When the date of the character data file is inconsistent with reference to already registered data, the result of the keyword search is a homepage download step of downloading the entire homepage where the keyword is hit;
An information notification step of automatically notifying related users of updated or new content information of the downloaded homepage;
A web information collecting method characterized by comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003194662A JP2005031867A (en) | 2003-07-09 | 2003-07-09 | Web information collecting device and web information collecting method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003194662A JP2005031867A (en) | 2003-07-09 | 2003-07-09 | Web information collecting device and web information collecting method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005031867A true JP2005031867A (en) | 2005-02-03 |
Family
ID=34205739
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003194662A Pending JP2005031867A (en) | 2003-07-09 | 2003-07-09 | Web information collecting device and web information collecting method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005031867A (en) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007001027A1 (en) * | 2005-06-28 | 2007-01-04 | Matsushita Electric Industrial Co., Ltd. | Information terminal device, and information terminal control method |
JP2007334476A (en) * | 2006-06-13 | 2007-12-27 | Yafoo Japan Corp | Dynamic rss channel selecting device |
JP2009535691A (en) * | 2006-04-26 | 2009-10-01 | マイクロソフト コーポレーション | Significant change search alert |
JP2010086457A (en) * | 2008-10-02 | 2010-04-15 | Brother Ind Ltd | Communication apparatus |
JP2010118972A (en) * | 2008-11-14 | 2010-05-27 | Brother Ind Ltd | Communication equipment and control program |
JP2011028485A (en) * | 2009-07-24 | 2011-02-10 | Yahoo Japan Corp | Device and method for adjusting crawler |
-
2003
- 2003-07-09 JP JP2003194662A patent/JP2005031867A/en active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007001027A1 (en) * | 2005-06-28 | 2007-01-04 | Matsushita Electric Industrial Co., Ltd. | Information terminal device, and information terminal control method |
JP2009535691A (en) * | 2006-04-26 | 2009-10-01 | マイクロソフト コーポレーション | Significant change search alert |
JP2007334476A (en) * | 2006-06-13 | 2007-12-27 | Yafoo Japan Corp | Dynamic rss channel selecting device |
JP2010086457A (en) * | 2008-10-02 | 2010-04-15 | Brother Ind Ltd | Communication apparatus |
JP4725627B2 (en) * | 2008-10-02 | 2011-07-13 | ブラザー工業株式会社 | Communication device |
US9317618B2 (en) | 2008-10-02 | 2016-04-19 | Brother Kogyo Kabushiki Kaisha | Communication device and method of displaying content titles |
JP2010118972A (en) * | 2008-11-14 | 2010-05-27 | Brother Ind Ltd | Communication equipment and control program |
JP4702434B2 (en) * | 2008-11-14 | 2011-06-15 | ブラザー工業株式会社 | Communication apparatus and control program |
US9092126B2 (en) | 2008-11-14 | 2015-07-28 | Brother Kogyo Kabushiki Kaisha | Communication apparatus with display section and computer-readable media |
JP2011028485A (en) * | 2009-07-24 | 2011-02-10 | Yahoo Japan Corp | Device and method for adjusting crawler |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7653623B2 (en) | Information searching apparatus and method with mechanism of refining search results | |
JP4024426B2 (en) | How to describe and visualize the characteristics of website usage patterns by network users | |
CN1988536B (en) | System and method for managing web content | |
KR101273126B1 (en) | System, method, and/or apparatus for reordering search results | |
US6665658B1 (en) | System and method for automatically gathering dynamic content and resources on the world wide web by stimulating user interaction and managing session information | |
US20100011282A1 (en) | Annotation system and method | |
US7346607B2 (en) | System, method, and software to automate and assist web research tasks | |
JP2016181306A (en) | System and method for scoping searches using index keys | |
US9275145B2 (en) | Electronic document retrieval system with links to external documents | |
CN101641695A (en) | Resource inserts filtering system and for the database structure that uses with resource access filtering system | |
JP2005309998A (en) | Content navigation program, method and device | |
JP2010182340A (en) | Content navigation program | |
CN107291940A (en) | Content of pages management method, device and associated server | |
Gomes et al. | Design and selection criteria for a national web archive | |
JP4769822B2 (en) | Information search service providing server, method and system using page group | |
JP2005031867A (en) | Web information collecting device and web information collecting method | |
JP2005056371A (en) | Management method and system for web retrieval information, and computer software program | |
US20030046276A1 (en) | System and method for modular data search with database text extenders | |
JPH10143418A (en) | Document information update monitoring device and update monitoring method for document information | |
Feldman | 'It was here a minute ago!': archiving on the Net | |
Reichert et al. | Feeding the world: a comprehensive dataset and analysis of a real world snapshot of web feeds | |
JP2002259199A (en) | Device and method for acquiring and displaying information and information acquisition display program | |
Gupta et al. | Exploringhidden'parts of the web: the hidden web | |
US20060116992A1 (en) | Internet search environment number system | |
KR20060075798A (en) | Overseas scientific electronic plain text collecting/index/extraction system and method thereof, and media that can record computer program thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060627 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090310 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090811 |