JP2008226235A - 情報フィードバックシステム、情報フィードバック方法、情報管理サーバ、情報管理方法及びプログラム - Google Patents
情報フィードバックシステム、情報フィードバック方法、情報管理サーバ、情報管理方法及びプログラム Download PDFInfo
- Publication number
- JP2008226235A JP2008226235A JP2008033627A JP2008033627A JP2008226235A JP 2008226235 A JP2008226235 A JP 2008226235A JP 2008033627 A JP2008033627 A JP 2008033627A JP 2008033627 A JP2008033627 A JP 2008033627A JP 2008226235 A JP2008226235 A JP 2008226235A
- Authority
- JP
- Japan
- Prior art keywords
- data
- information
- web page
- unit
- update
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 85
- 238000007790 scraping Methods 0.000 claims abstract description 338
- 238000000605 extraction Methods 0.000 claims abstract description 127
- 238000000491 multivariate analysis Methods 0.000 claims abstract description 85
- 239000000284 extract Substances 0.000 claims abstract description 38
- 230000004044 response Effects 0.000 claims abstract description 15
- 238000007726 management method Methods 0.000 claims description 159
- 238000004458 analytical method Methods 0.000 claims description 132
- 230000005540 biological transmission Effects 0.000 claims description 58
- 230000000877 morphologic effect Effects 0.000 claims description 37
- 238000000465 moulding Methods 0.000 claims description 24
- 238000013523 data management Methods 0.000 claims description 5
- 239000000463 material Substances 0.000 claims description 4
- 230000006870 function Effects 0.000 description 41
- 238000012545 processing Methods 0.000 description 41
- 230000008569 process Effects 0.000 description 34
- 238000010586 diagram Methods 0.000 description 25
- 238000004891 communication Methods 0.000 description 15
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 12
- 238000013500 data storage Methods 0.000 description 11
- 238000007493 shaping process Methods 0.000 description 11
- 230000004308 accommodation Effects 0.000 description 7
- 238000012790 confirmation Methods 0.000 description 6
- 230000002093 peripheral effect Effects 0.000 description 6
- 238000012937 correction Methods 0.000 description 5
- 238000013075 data extraction Methods 0.000 description 5
- 239000000203 mixture Substances 0.000 description 5
- 230000008520 organization Effects 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 238000000556 factor analysis Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 238000000513 principal component analysis Methods 0.000 description 4
- 238000011002 quantification Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000007621 cluster analysis Methods 0.000 description 3
- 238000002360 preparation method Methods 0.000 description 3
- 238000000547 structure data Methods 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 235000012054 meals Nutrition 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 238000009394 selective breeding Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 241000824268 Kuma Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013524 data verification Methods 0.000 description 1
- 238000005034 decoration Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000001454 recorded image Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Transfer Between Computers (AREA)
Abstract
【課題】各種のウェブページ内にある不変的な知識と新鮮な知識とを融合した集合知を形成し、ユーザが求める情報を適切にフィードバックする。
【解決手段】情報管理サーバ10は、ユーザ端末1から受信したスクレイピングデータ、又は、更新ウェブサーバ3から受信したウェブページ更新データのテキスト情報を、形態素解析することによって、当該テキスト情報に含まれる単語、当該データの属性情報を含む所定の単位データを生成し、この単位データに含まれる単語及び属性情報を用いて多変量解析を行うことによって、当該複数の単位データを統計的関連性に応じて複数の統計グループにグルーピングし、ウェブページ管理者により設定された抽出条件と、各統計グループとの関連性に基づいて、複数の統計グループの中から1又は2以上の統計グループを抽出し、その統計グループに属する単位データをフィードバックデータとして更新ウェブサーバ3に送信する。
【選択図】図1
【解決手段】情報管理サーバ10は、ユーザ端末1から受信したスクレイピングデータ、又は、更新ウェブサーバ3から受信したウェブページ更新データのテキスト情報を、形態素解析することによって、当該テキスト情報に含まれる単語、当該データの属性情報を含む所定の単位データを生成し、この単位データに含まれる単語及び属性情報を用いて多変量解析を行うことによって、当該複数の単位データを統計的関連性に応じて複数の統計グループにグルーピングし、ウェブページ管理者により設定された抽出条件と、各統計グループとの関連性に基づいて、複数の統計グループの中から1又は2以上の統計グループを抽出し、その統計グループに属する単位データをフィードバックデータとして更新ウェブサーバ3に送信する。
【選択図】図1
Description
本発明は、情報フィードバックシステム、情報フィードバック方法、情報管理サーバ、情報管理方法及びプログラムに関する。
近年、インターネット等のネットワークインフラが拡充されるとともに、ネットワーク上で情報をやり取りとりするためのサーバや、端末、ソフトウェアの性能・操作性が飛躍的に進歩している。これに応じて、インターネット上には各種のウェブサイト(個人、企業、団体若しくは官公庁などのホームページ)が無数に存在しており、ユーザはこれらウェブサイトから、多種多様な情報を必要に応じて収集して活用している。
従来、ホームページなどのウェブサイトは、そのウェブサイトを所有するサイト管理者により作成及び更新されていくものであり、ウェブサイトを通じた情報の提供は、サイト管理者側からサイトを閲覧するユーザ側へと、一方向に行われていた。ところが、昨今では、「WEB2.0」と称される「ユーザ参加型のウェブサイト」も増加しており、かかるユーザ参加型サイトでは、従来の一方向的なウェブサイトよりも、サイト内に含まれる情報の鮮度(サイト内の情報の時間的又は内容的な真新しさ)は増してきている。
一方、ユーザがウェブサイトから必要な情報を収集する場合、一般的には、検索エンジンを用いて実現される情報検索サイトが用いられている。かかる検索サイトでは、ユーザは、自身が所望する情報に関する検索キーワードを入力することで、ネットワーク上に公開されている膨大な数のウェブページの中から、当該検索キーワードを含むウェブページを検索することが可能である。
しかしながら、上記従来のユーザ参加型サイトで情報が集積されるためには、まず、そのサイトに参加意思のあるユーザが当該サイトに訪れ、次いで、当該サイト中にユーザ自身が興味のある情報(コンテンツ)を見つけ、さらに、ユーザが、そのコンテンツに対してコメントを書き込む、といった流れになる。また、ウェブログ間でリンクを張る仕組みであるトラックバックの場合も、ユーザがコメントを書き込む場所が異なるだけで、上記ユーザ参加型のサイトの場合とほぼ同様の流れになる。
そのため、(A)何よりもまず、そのユーザ参加型サイトにユーザが訪れなければならず、ユーザとサイトとの運命的な出会い・偶然の出会いが求められるという問題があった。従って、ユーザが検索サイトや他サイトからのリンク等を利用しても、そのユーザ参加型サイトを発見/到達することができなければ、当該サイトに対してユーザの書き込みによる情報の収集・蓄積は期待できない。
また、たとえユーザがそのサイトに偶然に訪れたとしても、(B)ユーザは、サイト内のコンテンツを閲覧して、そのサイト内に自己にとって有益な情報があるか否かを調べなければならず、ユーザ側の負担が大きいという問題があった。なお、ウェブサイトの見出しや要約などのメタデータを構造化して記述するためのRSS(Rich Site Summary)を用いた技術では、複数のウェブサイトの更新情報をRSS文書として取得することで、情報収集を支援することが可能である。しかし、このRSS文書の場合でも、上記(A)の問題は依然として残存し、また、ユーザ端末にRSSに対応したツールを設置する必要があるという問題もある。
さらには、(C)他ユーザがユーザ参加型サイト内に書き込んだコメントが、そのサイトの趣旨に合致しないことも起こりうる。また、そのコメントは、書き込んだユーザの主観的情報であり、大多数のユーザが認める客観的情報ではないため、情報の信頼性の低いコメントも少なからず存在するといった問題もある。
一方、上述した検索エンジンを用いた情報収集では、検索キーワードに依存しており、検索結果として得られるものは、その検索キーワードが存在していたサイトへの誘導であって、その検索キーワードに関連する各種情報の「集合知」というには程遠いものであった。
以上のように、ユーザ参加型サイトでは、上記(A)〜(C)の問題が存在するため、サイト管理者が真に求める情報の収集・蓄積が好適に実現されてはいなかった。また、検索エンジンを用いた検索でも、情報の当たりはずれが多く、ユーザが求める情報を集合知から取得することはできなかった。これらの事情から、サイト管理者は、自己のサイト内のコンテンツを充実させるために、自己のサイトに関連する適切な情報を集合知から容易に収集可能なシステムが希求されていた。一方で、一般ユーザがネットワーク上で公開されている各種ウェブサイトの情報を収集する際にも、ユーザ自身が求めるテーマの情報を集合知から容易に取得可能なシステムが希求されていた。
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、ウェブページの管理者により更新されたウェブページのコンテンツ(例えば、不変的な情報・公式な情報)と、ユーザがネットワーク上のウェブページから自由にスクレイピングしたコンテンツ(新鮮な知識・発見等の情報)の双方をまとめて解析することで、各種のウェブページ内にある不変的な知識と新鮮な知識とを融合した集合知を形成し、ユーザが求める情報を適切にフィードバックすることが可能な、新規かつ改良された情報フィードバックシステム、情報フィードバック方法、情報管理サーバ、情報管理方法及びプログラムを提供することにある。
上記課題を解決するために、本発明のある観点によれば、複数のユーザ端末と、前記ユーザ端末に対して任意のウェブページを公開する一般ウェブサーバと、所定のウェブページ管理者の所定のウェブページを公開し、当該ウェブページの更新機能を有する更新ウェブサーバと、前記ユーザ端末又は前記更新ウェブサーバから収集された情報を管理する情報管理サーバとが、ネットワークを介して接続された情報フィードバックシステムであって:前記ユーザ端末は、前記一般ウェブサーバ又は前記更新ウェブサーバにより公開されるウェブページを閲覧するためのブラウザと;ユーザ入力に基づいて、前記ブラウザに表示されたウェブページから一部のコンテンツを抽出するスクレイピング部と;前記スクレイピング部により抽出されたスクレイピングデータと、前記スクレイピングデータの属性情報とを、前記ネットワークを介して前記情報管理サーバに送信するスクレイピングデータ送信部と;を備え、前記更新ウェブサーバは、前記ウェブページ管理者の入力に基づいて、前記ウェブページ管理者の前記所定のウェブページのコンテンツを生成又は更新するウェブページ更新部と;前記ウェブページ更新部により生成又は更新されたウェブページ更新データと、前記ウェブページ更新データの属性情報とを、前記ネットワークを介して前記情報管理サーバに送信するウェブページ更新データ送信部と;を備え、前記情報管理サーバは、前記ユーザ端末から、前記スクレイピングデータ及び前記スクレイピングデータの属性情報を受信するスクレイピングデータ受信部と;前記更新ウェブサーバから、前記ウェブページ更新データ及び前記ウェブページ更新データの属性情報を受信するウェブページ更新データ受信部と;前記スクレイピングデータ又は前記ウェブページ更新データのテキスト情報を形態素解析することによって、当該テキスト情報に含まれる単語を抽出するとともに、前記スクレイピングデータ又は前記ウェブページ更新データのテキスト情報の一部又は全部と、前記テキスト情報から抽出された単語と、前記スクレイピングデータ又は前記ウェブページ更新データの属性情報とを含む所定の単位データを生成し、データベースに保存する文書解析部と;前記データベースに保存された複数の前記単位データに含まれる前記単語及び前記属性情報を用いて多変量解析を行うことによって、当該複数の単位データを統計的関連性に応じて複数の統計グループにグルーピングし、当該グルーピング結果を前記データベースに保存する多変量解析部と;前記ウェブページ管理者により設定された第1抽出条件と、前記各統計グループとの関連性に基づいて、前記複数の統計グループの中から1又は2以上の統計グループを抽出し、当該抽出された統計グループに属する前記単位データを第1フィードバックデータとして抽出する第1文書生成部と;前記第1フィードバックデータを、前記ネットワークを介して前記更新ウェブサーバに送信する第1フィードバックデータ送信部と;を備えることを特徴とする、情報フィードバックシステムが提供される。
前記情報管理サーバは、前記ユーザ端末のユーザにより入力された第2抽出条件を、前記ユーザ端末から前記ネットワークを介して受信し、前記第2抽出条件と、前記統計グループとの関連性に基づいて、前記複数の統計グループの中から1又は2以上の統計グループを抽出し、当該抽出された統計グループに属する前記単位データを第2フィードバックデータとして抽出する第2文書生成部と;前記第2フィードバックデータを、前記ネットワークを介して前記ユーザ端末に送信する第2フィードバックデータ送信部と;を備えるようにしてもよい。
前記第2文書生成部は、複数の文書成型用テンプレートが保存されたテンプレートデータベースから、前記ユーザ端末のユーザにより入力された前記第2抽出条件に対応する文書成型用テンプレートを選択し、当該選択された文書成型用テンプレートを用いて、前記抽出された単位データを成型して、前記第2フィードバックデータを生成するようにしてもよい。
前記スクレイピング部は、前記一般ウェブサーバ又は前記更新ウェブサーバにより公開されるウェブページの情報ソースを解析し、当該解析結果に基づいて、当該ウェブページに含まれるコンテンツを複数の単位データに分割し、前記ブラウザにより表示される前記ウェブページの画面上に、前記分割された各単位データを区分け表示するとともに、前記各単位データをスクレイピングするための取込表示を、前記ウェブページの画面上に前記各単位データに対応づけて表示し、前記ユーザ端末のユーザにより選択された前記取込表示に対応する前記単位データを、前記スクレイピングデータとして抽出するようにしてもよい。
前記スクレイピング部は、前記ブラウザにより表示される前記ウェブページの画面上で、前記ユーザ端末に対する入力操作に応じて当該画面上を移動するポインタが、前記区分け表示された単位データのいずれかに重畳されたときに、当該ポインタが重畳された単位データの前記取込表示を表示するようにしてもよい。
前記更新ウェブサーバは、前記第1フィードバックデータ送信部から受信した前記第1フィードバックデータを、前記ウェブページ管理者の前記所定のウェブページに付加するようにしてもよい。
前記スクレイピングデータの属性情報は、前記スクレイピングデータを生成した前記ユーザ端末のユーザ情報、又は、前記スクレイピングデータが生成された日付情報の少なくともいずれかを含み、前記ウェブページ更新データの属性情報は、前記ウェブページ管理者により指定された、前記所定のウェブページのジャンル若しくはキーワード、又は、前記ウェブページ更新データにより前記所定のウェブサイトが更新された日付情報の少なくともいずれかを含むようにしてもよい。
前記情報管理サーバは、前記ユーザ端末から受信した前記スクレイピングデータを、前記ユーザ端末のユーザ毎に管理するユーザデータ管理部を備えるようにしてもよい。
前記ユーザデータ管理部は、前記ユーザ端末による旅行日程表の作成支援機能を有し、前記スクレイピングデータ又は前記第2フィードバックデータの少なくともいずれかを、前記旅行日程表の素材として前記ユーザ端末に提供するようにしてもよい。
前記第1文書生成部は、前記第1抽出条件及び前記所定のホームページの属性情報と、前記各統計グループとの関連性に基づいて、前記複数の統計グループの中から1又は2以上の統計グループを抽出するようにしてもよい。
前記第2文書生成部は、前記第2抽出条件及び前記スクレイピングデータの属性情報と、前記各統計グループとの関連性に基づいて、前記複数の統計グループの中から1又は2以上の統計グループを抽出するようにしてもよい。
また、上記課題を解決するために、本発明の別の観点によれば、複数のユーザ端末と、前記ユーザ端末に対して任意のウェブページを公開する一般ウェブサーバと、所定のウェブページ管理者の所定のウェブページを公開し、当該ウェブページの更新機能を有する更新ウェブサーバと、前記ユーザ端末又は前記更新ウェブサーバから収集された情報を管理する情報管理サーバとが、ネットワークを介して接続された情報フィードバックシステムにおける情報フィードバック方法であって:前記ユーザ端末が、ユーザ入力に基づいて、前記一般ウェブサーバ又は前記更新ウェブサーバにより公開されるウェブページを閲覧するためのブラウザに表示されたウェブページから一部のコンテンツを抽出するスクレイピングステップと;前記ユーザ端末が、前記スクレイピングステップで抽出されたスクレイピングデータと、前記スクレイピングデータの属性情報とを、前記ネットワークを介して前記情報管理サーバに送信するスクレイピングデータ送信ステップと;前記更新ウェブサーバが、前記ウェブページ管理者の入力に基づいて、前記ウェブページ管理者の前記所定のウェブページのコンテンツを生成又は更新するウェブページ更新ステップと;前記更新ウェブサーバが、前記ウェブページ更新ステップで生成又は更新されたウェブページ更新データと、前記ウェブページ更新データの属性情報とを、前記ネットワークを介して前記情報管理サーバに送信するスクレイピングデータ送信ステップと;前記情報管理サーバが、前記ユーザ端末から、前記スクレイピングデータ及び前記スクレイピングデータの属性情報を受信するスクレイピングデータ受信ステップと;前記情報管理サーバが、前記更新ウェブサーバから、前記ウェブページ更新データ及び前記ウェブページ更新データの属性情報を受信するウェブページ更新データ受信ステップと;前記情報管理サーバが、前記スクレイピングデータ又は前記ウェブページ更新データのテキスト情報を形態素解析することによって、当該テキスト情報に含まれる単語を抽出するとともに、前記スクレイピングデータ又は前記ウェブページ更新データのテキスト情報の一部又は全部と、前記テキスト情報から抽出された単語と、前記スクレイピングデータ又は前記ウェブページ更新データの属性情報とを含む所定の単位データを生成し、データベースに保存する文書解析ステップと;前記情報管理サーバが、前記データベースに保存された複数の前記単位データに含まれる前記単語及び前記属性情報を用いて多変量解析を行うことによって、当該複数の単位データを統計的関連性に応じて複数の統計グループにグルーピングし、当該グルーピング結果を前記データベースに保存する多変量解析ステップと;前記情報管理サーバが、前記ウェブページ管理者により設定された抽出条件と、前記各統計グループとの関連性に基づいて、前記複数の統計グループの中から1又は2以上の統計グループを抽出し、当該抽出された統計グループに属する前記単位データをフィードバックデータとして抽出する文書生成ステップと;前記情報管理サーバが、前記フィードバックデータを、前記ネットワークを介して前記更新ウェブサーバに送信するフィードバックデータ送信ステップと;を含むことを特徴とする、情報フィードバック方法が提供される。
また、上記課題を解決するために、本発明の別の観点によれば、一般ウェブサーバにより公開されたウェブページを閲覧可能な複数のユーザ端末と、所定のウェブページ管理者の所定のウェブページを公開し、当該ウェブページの更新機能を有する更新ウェブサーバと、にネットワークを介して接続され、前記ユーザ端末又は前記更新ウェブサーバから収集された情報を管理する情報管理サーバであって:前記情報管理サーバは、前記ユーザ端末から、前記一般ウェブサーバ又は前記更新ウェブサーバにより提供されたウェブページから抽出された一部のコンテンツを含むスクレイピングデータと、前記スクレイピングデータの属性情報とを受信するスクレイピングデータ受信部と;前記更新ウェブサーバから、前記ウェブページ管理者の入力に基づいて更新された前記所定のウェブページのウェブページ更新データと、前記ウェブページ更新データの属性情報とを受信するウェブページ更新データ受信部と;前記スクレイピングデータ又は前記ウェブページ更新データのテキスト情報を形態素解析することによって、当該テキスト情報に含まれる単語を抽出するとともに、前記スクレイピングデータ又は前記ウェブページ更新データのテキスト情報の一部又は全部と、前記テキスト情報から抽出された単語と、前記スクレイピングデータ又は前記ウェブページ更新データの属性情報とを含む所定の単位データを生成し、データベースに保存する文書解析部と;前記データベースに保存された複数の前記単位データに含まれる前記単語及び前記属性情報を用いて多変量解析を行うことによって、当該複数の単位データを統計的関連性に応じて複数の統計グループにグルーピングし、当該グルーピング結果を前記データベースに保存する多変量解析部と;前記ウェブページ管理者により設定された抽出条件と、前記各統計グループとの関連性に基づいて、前記複数の統計グループの中から1又は2以上の統計グループを抽出し、当該抽出された統計グループに属する前記単位データをフィードバックデータとして抽出する文書生成部と;前記フィードバックデータを、前記ネットワークを介して前記更新ウェブサーバに送信するフィードバックデータ送信部と;備えることを特徴とする、情報管理サーバが提供される。
また、上記課題を解決するために、本発明の別の観点によれば、一般ウェブサーバにより公開されたウェブページを閲覧可能な複数のユーザ端末と、所定のウェブページ管理者のウェブページを公開するとともに当該ウェブページの更新機能を有する更新ウェブサーバと、にネットワークを介して接続された情報管理サーバにおいて、前記ユーザ端末又は前記更新ウェブサーバから収集された情報を管理する情報管理方法であって:前記ユーザ端末から、前記一般ウェブサーバ又は前記更新ウェブサーバにより公開されたウェブページから抽出された一部のコンテンツを含むスクレイピングデータと、前記スクレイピングデータの属性情報とを受信するスクレイピングデータ受信ステップと;前記更新ウェブサーバから、前記ウェブページ管理者の入力に基づいて更新されたウェブページ更新データと、前記ウェブページ更新データの属性情報とを受信するウェブページ更新データ受信ステップと;前記スクレイピングデータ又は前記ウェブページ更新データのテキスト情報を形態素解析することによって、当該テキスト情報に含まれる単語を抽出するとともに、前記スクレイピングデータ又は前記ウェブページ更新データのテキスト情報の一部又は全部と、前記テキスト情報から抽出された単語と、前記スクレイピングデータ又は前記ウェブページ更新データの属性情報とを含む所定の単位データを生成し、データベースに保存する文書解析ステップと;前記データベースに保存された複数の前記単位データに含まれる前記単語及び前記属性情報を用いて多変量解析を行うことによって、当該複数の単位データを統計的関連性に応じて複数の統計グループにグルーピングし、当該グルーピング結果を前記データベースに保存する多変量解析ステップと;前記ウェブページ管理者により設定された抽出条件と、前記各統計グループとの関連性に基づいて、前記複数の統計グループの中から1又は2以上の統計グループを抽出し、当該抽出された統計グループに属する前記単位データをフィードバックデータとして抽出する文書生成ステップと;前記フィードバックデータを、前記ネットワークを介して前記更新ウェブサーバに送信するフィードバックデータ送信ステップと;を含むことを特徴とする、情報管理方法が提供される。
また、上記課題を解決するために、本発明の別の観点によれば、コンピュータを、上記の情報管理サーバとして機能させるためのプログラムが提供される。
以上説明したように本発明によれば、ウェブページの管理者により更新されたウェブページのコンテンツ(例えば、不変的な情報・公式な情報)と、ユーザがネットワーク上のウェブページから自由にスクレイピングしたコンテンツ(真新しい知識・発見等の情報)の双方をまとめて解析することで、各種のウェブページ内にある不変的な知識と新鮮な知識とを融合した集合知を形成し、ユーザが求める情報を適切にフィードバックすることができる。
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
1.用語の定義
まず、本明細書で用いる用語ついて定義する。
・「ネットワーク」は、サーバ、端末等の複数の装置間で情報を通信するための通信網である。ネットワークとしては、後述するインターネットが代表的であるが、かかる例に限定されず、例えば、電話回線網、衛星通信網等の公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)、IP−VPN(Internet Protocol−Virtual Private Network)等の専用回線網などを使用できる。また、ネットワークでの通信方法は、有線又は無線を問わない。
まず、本明細書で用いる用語ついて定義する。
・「ネットワーク」は、サーバ、端末等の複数の装置間で情報を通信するための通信網である。ネットワークとしては、後述するインターネットが代表的であるが、かかる例に限定されず、例えば、電話回線網、衛星通信網等の公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)、IP−VPN(Internet Protocol−Virtual Private Network)等の専用回線網などを使用できる。また、ネットワークでの通信方法は、有線又は無線を問わない。
・「ウェブページ(Web Page)」は、WWW(World Wide Web)システムを用いてネットワーク上で公開されている文書である。このウェブページは、例えば、ウェブに一度に表示されるデータのまとまりであり、テキスト情報や、HTML(HyperText Markup Language)又はXML(Extensible Markup Language)等のマークアップ言語によるレイアウト情報、文書中に埋め込まれた画像や音声、動画などから構成される。
・「ウェブサイト(Web Site)」は、複数のウェブページのまとまりであり、インターネット上で公開するために複数のウェブページを相互にリンクしたものである。ウェブサイトは、本の表紙や目次に相当するウェブページであるトップページと、トップページからリンクされた他のウェブページで構成される。
・「ホームページ」は、上記ウェブサイトの一例であり、本明細書においては、所定のウェブサイト管理者により管理されるウェブページ又はウェブサイトを意味する。このホームページは、後述するホームページ更新ツールがインストールされたウェブサーバで更新及び公開されるものであり、当該更新ツールがインストールされていない一般ウェブサーバで公開される一般的なウェブページ又はウェブサイトと区別される。
・「コンテンツ」は、人間が観賞するひとまとまりの情報であり、例えば、映像、画像、音楽、テキスト情報(文章)又はこれらの組み合わせを意味する。「ウェブページ(ホームページ)のコンテンツ」とは、そのウェブページ(ホームページ)に含まれるテキスト情報、画像、音声、動画など、そのウェブページ(ホームページ)の内容を表す情報である。1つのそのウェブページ(ホームページ)には、1又は複数のコンテンツが含まれる。
・「ウェブページの情報ソース」は、ウェブページに含まれるコンテンツ自体(テキスト情報など)、レイアウト情報、HTML、XMLのタグなどの文書の構造情報、を意味する。この情報ソースを解析することで、テキスト情報の文章の物理的な区切り及び論理的な区切りを特定して、ウェブページに含まれるコンテンツを複数の所単位データに区分することができる。
・「ウェブサイト(Web Site)」は、複数のウェブページのまとまりであり、インターネット上で公開するために複数のウェブページを相互にリンクしたものである。ウェブサイトは、本の表紙や目次に相当するウェブページであるトップページと、トップページからリンクされた他のウェブページで構成される。
・「ホームページ」は、上記ウェブサイトの一例であり、本明細書においては、所定のウェブサイト管理者により管理されるウェブページ又はウェブサイトを意味する。このホームページは、後述するホームページ更新ツールがインストールされたウェブサーバで更新及び公開されるものであり、当該更新ツールがインストールされていない一般ウェブサーバで公開される一般的なウェブページ又はウェブサイトと区別される。
・「コンテンツ」は、人間が観賞するひとまとまりの情報であり、例えば、映像、画像、音楽、テキスト情報(文章)又はこれらの組み合わせを意味する。「ウェブページ(ホームページ)のコンテンツ」とは、そのウェブページ(ホームページ)に含まれるテキスト情報、画像、音声、動画など、そのウェブページ(ホームページ)の内容を表す情報である。1つのそのウェブページ(ホームページ)には、1又は複数のコンテンツが含まれる。
・「ウェブページの情報ソース」は、ウェブページに含まれるコンテンツ自体(テキスト情報など)、レイアウト情報、HTML、XMLのタグなどの文書の構造情報、を意味する。この情報ソースを解析することで、テキスト情報の文章の物理的な区切り及び論理的な区切りを特定して、ウェブページに含まれるコンテンツを複数の所単位データに区分することができる。
・「ウェブページ管理者」は、ウェブページを管理する者(個人、企業、団体、組合、官公庁などを含む)であり、自身の所有するウェブページ内のコンテンツを管理(生成/更新/削除等)する。
・「ホームページ管理者」は、上記ウェブページ管理者の一例であり、自身の所有するホームページを管理する。以下では、「HP管理者」、「サイト管理者」と略称する場合もある。
・「ホームページ管理者」は、上記ウェブページ管理者の一例であり、自身の所有するホームページを管理する。以下では、「HP管理者」、「サイト管理者」と略称する場合もある。
・「スクレイピング」は、ウェブページの情報を必要な部分だけ抽出することを意味する。ユーザは、ブラウザで閲覧しているウェブページ内に含まれる情報(コンテンツ)の中から、ユーザ自身が必要な情報を切り取って(即ち、スクレイピングして)、別目的に利用できる。
・「スクレイピングデータ」は、上記スクレイピングにより得られた情報である。
・「スクレイピングデータ」は、上記スクレイピングにより得られた情報である。
・「ウェブページ更新データ」は、上記ウェブページ管理者によりウェブページのコンテンツを更新したときの更新データである。更新データを反映したウェブページのデータ(HTML文書等)は、更新ウェブサーバ内に保存される。
・「ホームページ更新データ」は、上記ホームページ管理者により上記ホームページのコンテンツを更新したときの更新データである。更新データを反映したホームページのデータ(HTML文書等)は、更新ウェブサーバ内に保存される。以下では、「HP更新データ」と略称する場合もある。
・「ホームページ更新データ」は、上記ホームページ管理者により上記ホームページのコンテンツを更新したときの更新データである。更新データを反映したホームページのデータ(HTML文書等)は、更新ウェブサーバ内に保存される。以下では、「HP更新データ」と略称する場合もある。
・「スクレイピングデータの属性情報」は、上記スクレイピングデータの属性を表す情報であり、例えば、スクレイピングを行ったユーザに関するユーザ属性情報、スクレイピングデータがスクレイピングされた日付情報、スクレイピング元のウェブページのURL(Uniform Resource Locator)などを含む。
・「ウェブページ更新データ(ホームページ更新データ)の属性情報」は、上記ウェブページ更新データ(ホームページ更新データ)の属性を表す情報であり、例えば、上記ウェブページ管理者(ホームページ管理者)により入力されたウェブページ(ホームページ)のジャンル・キーワード、更新を行ったユーザに関するユーザ属性情報、その更新データによる更新が行われた日付情報、更新されたウェブページ(ホームページ)のURLなどを含む。ホームページ更新データの属性情報は、そのホームページ全体を構成するウェブサイトの属性情報(ジャンル、キーワード等)と、ウェブサイトの一部である各ウェブページの属性情報(ジャンル、キーワード等)とを含む。
・「ウェブページ更新データ(ホームページ更新データ)の属性情報」は、上記ウェブページ更新データ(ホームページ更新データ)の属性を表す情報であり、例えば、上記ウェブページ管理者(ホームページ管理者)により入力されたウェブページ(ホームページ)のジャンル・キーワード、更新を行ったユーザに関するユーザ属性情報、その更新データによる更新が行われた日付情報、更新されたウェブページ(ホームページ)のURLなどを含む。ホームページ更新データの属性情報は、そのホームページ全体を構成するウェブサイトの属性情報(ジャンル、キーワード等)と、ウェブサイトの一部である各ウェブページの属性情報(ジャンル、キーワード等)とを含む。
・「ユーザ情報」は、情報フィードバックシステムを利用するユーザに関する情報であり、例えば、ユーザID(会員ID)、名前、住所、郵便番号、電話番号、年齢、職業、趣味、ユーザの嗜好情報、或いは、法人や団体の属する業界、その法人・団体の顧客又は取引先の情報等である。また、ユーザIDは、後述する会員IDと同義である。
・「単位データ」は、スクレイピングデータ又はホームページ更新データを解析処理した結果得られる最小のデータ単位である。複数の単位データ間の相関を統計的に解析して、当該解析により得られる統計的関連性(例えば、多変量解析による統計値)に応じて、複数の単位データをグループ化することで、統計グループが得られる。
・「単位データ」は、スクレイピングデータ又はホームページ更新データを解析処理した結果得られる最小のデータ単位である。複数の単位データ間の相関を統計的に解析して、当該解析により得られる統計的関連性(例えば、多変量解析による統計値)に応じて、複数の単位データをグループ化することで、統計グループが得られる。
・「ホームページ更新ツール」は、ホームページの更新を支援する機能を有するソフトウェア(例えばプラグイン(plug−in))であり、ウェブサーバにインストール(設置)される。所定のホームページ管理者は、ホームページ更新ツールを利用することで、自身の所有するホームページのコンテンツを比較的容易な操作で更新することができる。以下では、「HP更新ツール」と略称する場合もある。
・「ウェブサーバ」は、WWWシステムにおいて、情報送信機能を有するコンピュータ又はソフトウェアである。
・「更新ウェブサーバ」は、上記ホームページ更新ツールがインストールされたウェブサーバであり、ホームページ更新機能と、ホームページ公開機能とを兼備する。この更新ウェブサーバは、一般ウェブサーバとは区別される。
・「一般ウェブサーバ」は、上記ホームページ更新ツールがインストールされていない一般的なウェブサーバである。
・「ウェブサーバ」は、WWWシステムにおいて、情報送信機能を有するコンピュータ又はソフトウェアである。
・「更新ウェブサーバ」は、上記ホームページ更新ツールがインストールされたウェブサーバであり、ホームページ更新機能と、ホームページ公開機能とを兼備する。この更新ウェブサーバは、一般ウェブサーバとは区別される。
・「一般ウェブサーバ」は、上記ホームページ更新ツールがインストールされていない一般的なウェブサーバである。
・「ホームページ更新サービス」は、所定のホームページ管理者が、入力端末及び上記更新ウェブサーバを用いて、当該更新ウェブサーバで公開されている自身のホームページ内のコンテンツを更新するためのサービスである。本サービスに登録すれば、ユーザに会員IDが付与され、上記ホームページ更新ツールがインストールされた更新ウェブサーバを利用可能となる。かかるホームページ更新サービスを実現するためのホームページ更新システムは、後述する情報フィードバックシステム内に設けられる。
・「マイページ管理サービス」は、ユーザがユーザ端末を用いて、ウェブサーバで公開されているウェブページ、ウェブサイト内のコンテンツをスクレイピングし、スクレイピングした情報をマイページで管理するためのサービスである。マイページは、ユーザ毎に割り当てられたユーザ固有のウェブページである。本サービスに登録すれば、ユーザに会員IDが付与され、そのユーザのユーザ端末にスクレイピング用のソフトウェアがインストールされる。このスクレイピング用のソフトウェアは、ユーザ端末にインストールされたブラウザに、スクレイピング機能を追加するためのソフトウェア(プラグイン)である。ユーザは、マイページ管理サービスを利用することで、ネットワーク上の各種のウェブサイトを自由にスクレイピングして得た情報を、サーバに分類して保存し、それらの情報を必要に応じてすることができる。例えば、ユーザは、自身がスクレイピングしたデータと他人がスクレイピングしたデータを、マイページで閲覧、加工及び出力することができる。かかるマイページ管理サービスを実現するためのマイページ管理システムは、後述する情報フィードバックシステム内に設けられる。このマイページ管理サービスは、次に説明する旅行日程表作成サービスにおいて旅行日程表を作成する際の旅行関連情報の収集に利用できるが、これ以外にも、例えば、学術論文、各種計画案、忘備録、各種マニュアル、スクラップブック、商品リストなど、ウェブサイトを利用した各種の情報収集・管理にも、マイページ管理サービスを利用できる。
・「旅行日程表作成サービス」は、ユーザがウェブシステムを利用して、旅行日程表を作成、編集、公開、閲覧等するためのサービスである。かかる旅行日程表作成サービスを実現するための旅行日程表作成サービスは、後述する情報フィードバックシステム内に設けられる。この旅行日程表作成システムは、上記マイページ管理システムを利用することで、旅行日程表の作成に必要な情報を容易かつ適切に収集することが可能となる。
・「マイページ管理サービス」は、ユーザがユーザ端末を用いて、ウェブサーバで公開されているウェブページ、ウェブサイト内のコンテンツをスクレイピングし、スクレイピングした情報をマイページで管理するためのサービスである。マイページは、ユーザ毎に割り当てられたユーザ固有のウェブページである。本サービスに登録すれば、ユーザに会員IDが付与され、そのユーザのユーザ端末にスクレイピング用のソフトウェアがインストールされる。このスクレイピング用のソフトウェアは、ユーザ端末にインストールされたブラウザに、スクレイピング機能を追加するためのソフトウェア(プラグイン)である。ユーザは、マイページ管理サービスを利用することで、ネットワーク上の各種のウェブサイトを自由にスクレイピングして得た情報を、サーバに分類して保存し、それらの情報を必要に応じてすることができる。例えば、ユーザは、自身がスクレイピングしたデータと他人がスクレイピングしたデータを、マイページで閲覧、加工及び出力することができる。かかるマイページ管理サービスを実現するためのマイページ管理システムは、後述する情報フィードバックシステム内に設けられる。このマイページ管理サービスは、次に説明する旅行日程表作成サービスにおいて旅行日程表を作成する際の旅行関連情報の収集に利用できるが、これ以外にも、例えば、学術論文、各種計画案、忘備録、各種マニュアル、スクラップブック、商品リストなど、ウェブサイトを利用した各種の情報収集・管理にも、マイページ管理サービスを利用できる。
・「旅行日程表作成サービス」は、ユーザがウェブシステムを利用して、旅行日程表を作成、編集、公開、閲覧等するためのサービスである。かかる旅行日程表作成サービスを実現するための旅行日程表作成サービスは、後述する情報フィードバックシステム内に設けられる。この旅行日程表作成システムは、上記マイページ管理システムを利用することで、旅行日程表の作成に必要な情報を容易かつ適切に収集することが可能となる。
・「情報フィードバックシステム」は、複数のユーザから各種の情報(スクレイピングデータ、ホームページ更新データ、属性情報など)を収集し、収集した情報を集中管理(データ解析、グループ化)し、この情報群から各ユーザが所望するテーマの情報をフィードバックするシステムである。この情報フィードバックシステムは、参加するユーザが多いほど、より多くの情報を収集して、それら情報相互の相関を解析できるため、多様で、新鮮で、信頼度の高く、かつ、希望するテーマに合致した適切な情報を、ユーザ側(ホームページ管理者、スクレイピングする個人ユーザなど)にフィードバックすることができるようになる。
・「情報フィードバックサービス」は、上記情報フィードバックシステムにより実現されるサービスである。情報フィードバックサービスへの会員登録は、上記ホームページ更新サービス、マイページ管理サービス、旅行日程表作成サービスとリンクさせてもよいし、各サービス毎に別々に会員登録してもよい。
・「情報フィードバックサービス」は、上記情報フィードバックシステムにより実現されるサービスである。情報フィードバックサービスへの会員登録は、上記ホームページ更新サービス、マイページ管理サービス、旅行日程表作成サービスとリンクさせてもよいし、各サービス毎に別々に会員登録してもよい。
2.情報フィードバックシステムの構成
次に、図1を参照して、本発明の一実施形態にかかる情報フィードバックシステムの全体構成について概略的に説明する。図1は、本実施形態にかかる情報フィードバックシステムを示す構成図である。
図1に示すように、情報フィードバックシステムは、複数のユーザ端末1と、一般ウェブサーバ2と、HP更新ツールがインストールされた更新ウェブサーバ3と、HP更新ツール操作・入力端末4と、情報管理サーバ10とが、インターネット5を介して相互に通信可能に接続された構成である。
次に、図1を参照して、本発明の一実施形態にかかる情報フィードバックシステムの全体構成について概略的に説明する。図1は、本実施形態にかかる情報フィードバックシステムを示す構成図である。
図1に示すように、情報フィードバックシステムは、複数のユーザ端末1と、一般ウェブサーバ2と、HP更新ツールがインストールされた更新ウェブサーバ3と、HP更新ツール操作・入力端末4と、情報管理サーバ10とが、インターネット5を介して相互に通信可能に接続された構成である。
ユーザ端末1は、一般のユーザが使用するコンピュータで構成され、例えば、パーソナルコンピュータ、携帯端末、携帯電話、ゲーム機、情報家電などである。ユーザ端末1は、一般ウェブサーバ2又は更新ウェブサーバ3などのウェブサーバで公開されている各種のウェブサイトを、インターネット5を介して受信してブラウザに表示する。ユーザは、かかるユーザ端末1を用いて、上記ウェブサーバで公開される各種のウェブサイトを閲覧し、所望の情報を取得することができる。
かかるユーザ端末1のユーザは、例えば、上記のマイページ管理サービス又は旅行日程表作成サービスに会員登録することで、一般ウェブサーバ2や更新ウェブサーバ3で公開されているウェブサイト内のコンテンツをスクレイピングして、情報管理サーバ10にて蓄積、管理、利用することが可能となる。かかるスクレイピング時には、ユーザ端末1は、ウェブサイトからスクレイピングされたコンテンツを表すスクレイピングデータを自動的に情報管理サーバ10に送信する。
一般ウェブサーバ2は、インターネット5を介した情報送信機能(ウェブサーバ機能)を有するコンピュータで構成される。一般ウェブサーバ2は、内部の記憶装置に1又は2以上のウェブサイトのデータを保存しており、ユーザ端末1等の外部装置に対して当該ウェブサイトを公開する。ウェブサイトの作成者は、自身の作成・更新したウェブサイトのデータを一般ウェブサーバ2にアップロードすることで、一般ウェブサーバ2から任意のユーザに公開できる。この一般ウェブサーバ2が公開するウェブサイトは、任意の者(個人、企業、団体など)が生成・管理したものであってよく、また、そのウェブサイトの内容も任意のものであってよい。また、一般ウェブサーバ2は、上述したホームページ更新サービスを提供するためのHP更新ツールがインストールされていない点で、更新ウェブサーバ3と相違する。
更新ウェブサーバ3は、インターネット5を介した情報送信機能(ウェブサーバ機能)を有し、HP更新ツール(図3参照)がインストールされたコンピュータで構成される。更新ウェブサーバ3は、所定のホームページ管理者のホームページ(ウェブサイトを公開するとともに、当該ウェブページを比較的簡単な操作で更新する機能を有する。更新ウェブサーバ3の記憶装置には、1又は2以上の所定ホームページ管理者の所有する1又は2以上のホームページが保存される。ここで、所定のホームページ管理者は、例えば、上記HP更新サービスに会員登録したユーザ(個人、企業、団体、官公庁など)である。ホームページ管理者は、HP更新サービスに会員登録することで、HP更新ツールを使用可能となり、一般ウェブサーバ2における更新作業と比較して、容易な操作でホームページを生成/更新することができる。かかるホームページ更新時には、更新ウェブサーバ3は、更新された内容を表すホームページ更新データを自動的に情報管理サーバ10に送信(アップロード)する。
HP更新ツール操作・入力端末4(以下、「入力端末4」という。)は、更新ウェブサーバ3に対して、インターネット5を介して或いはローカル接続されたパーソナルコンピュータ、携帯端末などで構成される。ホームページ管理者は、入力端末4を操作して、自身のホームページの更新データを入力することで、更新ウェブサーバ3に保存された自身のホームページを容易に更新することができる。上記の更新ウェブサーバ3及び入力端末4は、ホームページ更新サービスを提供するためのホームページ更新システム6を構成する。
なお、図1の例では、ユーザ端末1、一般ウェブサーバ2、ホームページ更新装置6がそれぞれ1つだけ設置されているが、かかる例に限定されず、これら各装置は、ユーザ数等に応じて複数設置されても勿論よい。
次に、情報管理サーバ10について説明する。情報管理サーバ10は、ユーザ端末1又は更新ウェブサーバ3から収集されたウェブページに関する情報(スクレイピングデータ、HP更新データ)を集中管理する。情報管理サーバ10は、上記情報フィードバックシステムにおける情報フィードバックサービスを提供するための中核となる装置であり、ユーザ端末1又は更新ウェブサーバ3等から収集した情報を解析して、フィードバックデータを生成する。
情報管理サーバ10は、スクレイピング受信サーバ11(スクレイピングデータ受信部に相当する。)と、HP更新データ受信サーバ12(スクレイピングデータ受信部に相当する。)と、文書解析サーバ13(文書解析部に相当する。)と、形態素解析用辞書サーバ14と、辞書管理端末15と、一次データベース16(データベースに相当する。)と、多変量解析サーバ17(多変量解析部に相当する。)と、二次データベース19(データベースに相当する。)と、文書生成サーバ20(第1文書生成部に相当する。)と、HP更新データ送信サーバ21(第1フィードバックデータ送信部に相当する。)と、文書生成サーバ22(第2文書生成部及び第2フィードバックデータ送信部に相当する。)とを備える。
このように情報管理更新サーバ10は、複数台のサーバ(コンピュータ装置)から構成されているが、上記各サーバの機能を1台のコンピュータ装置で兼用してもよいし、或いは、上記各サーバの処理規模に応じて各サーバを複数台のコンピュータ装置で構成してもよい。以下、情報管理更新サーバ10の各部の概略について説明する。
スクレイピング受信サーバ11は、各ユーザ端末1からインターネット5を介して、そのユーザ端末1にてスクレイピングされたスクレイピングデータと、当該スクレイピングデータの属性情報とを受信し、文書解析サーバ13に送信する。HP更新データ受信サーバ12は、更新ウェブサーバ6からインターネット5を介して、ウェブページ更新データと、そのウェブページ更新データの属性情報とを受信し、文書解析サーバ13に送信する。
文書解析サーバ13は、上記スクレイピングデータ又はウェブページ更新データと、その属性情報を受信すると、受信したスクレイピングデータ又はウェブページ更新データに含まれるテキスト情報(1又は2以上の文章)を形態素解析する。形態素解析は、文章を意味のある単語に区切り、辞書を利用して品詞や内容を判別するための解析処理で、コンピュータによる自然言語処理技術の1つである。形態素とは、文章の要素のうち、意味を持つ最小の単位である。英語では原則として文章を単語ごとに区切って書く(分かち書き)ため、形態素ごとに分割することは容易である。一方、日本語では単語ごとに区切らず続けて書くために、形態素ごとの分割が難しい。この形態素への分割時には、辞書にある名詞を形態素として区切ったり、前後の品詞を見て文法的におかしい区切り方は省くなどの処理を行う。
文書解析サーバ13は、この形態素解析によって、スクレイピングデータ又はウェブページ更新データに含まれるテキスト情報(文章)から複数の単語・キーワードを抽出する。このとき、文書解析サーバ13は、形態素解析用辞書サーバ14から提供される形態素解析用辞書(分かち書き禁止辞書、不要語辞書など)を利用して、単語分割、品詞解析などを行う。この形態素解析用辞書は、辞書管理端末によりメンテナンス可能である。
さらに、文書解析サーバ13は、必要に応じて、当該テキスト情報の意味を推論し、当該テキスト情報に含まれる文章を分割する。そして、文書解析サーバ13は、当該テキスト情報の一部又は全部の文章と、当該テキスト情報から抽出された単語・キーワードと、上記スクレイピングデータ又はウェブページ更新データの属性情報と関連づけた所定の単位データ(文章を分割した場合には複数の単位データ)を生成して、一次データベース16に保存する。このようにして、文書解析サーバ13は、スクレイピングデータ又はウェブページ更新データを受信する度に、単位データを生成して、一次データベース16に蓄積していく。
多変量解析サーバ17は、一次データベース16に蓄積された複数の単位データに含まれる単語、キーワード及び属性情報等を数量化して、これらを変量とする多変量解析を行う。多変量解析は、観測値が複数の値からなるデータ(多変量データ)を統計的に扱う手法である。多変量解析サーバ17は、この多変量解析結果に応じて、一次データベース16に蓄積された複数の単位データ間での統計的関連性を表す統計値(単位データ間の統計的な距離)を算出し、この統計値に応じて、複数の単位データを複数の統計グループにグルーピングし、各単位データのグルーピング結果(各単位データに付与された統計グループIDなど)を、二次データベース19に保存する。
このように多変量解析サーバ17は、一次データベース16に個々別々に保存されている複数の単位データ(スクレイピングデータの単位データ及びウェブページ更新データの単位データ)を多変量解析し、所定のグループ基準に従って統計的に関連づけることで、単位データを複数の統計グループにグルーピングした集合知を形成する。かかる多変量解析サーバ17の多変量解析によるグループ化基準(パラメータ)は、多変量解析コントロール端末18により調整可能である。
文書生成サーバ20は、HP更新サービスに会員登録したホームページ管理者に対し、そのホームページに関連するフィードバックデータ(第1フィードバックデータに相当する。)を自動的に生成して、更新ウェブサーバ3に提供する機能を有する。文書生成サーバ20は、二次データベース19に保存されている単位データのグルーピング結果に基づき、更新ウェブサーバ3により更新される所定のホームページの管理者が設定した抽出条件に合致するフィードバックデータを自動的に生成し、更新ウェブサーバ3にフィードバックする。
この文書生成サーバ20は、当該所定のホームページの管理者により予め設定された抽出条件(第1抽出条件に相当する。)を保持している。この抽出条件は、例えば、ホームページ管理者が取得したいデータ内容を表すキーワード、取得したいデータの新旧などであり、HP更新用のフィードバックデータを自動的に取得するための自動抽出条件である。文書生成サーバ20は、この抽出条件と、二次データベース19に設定されている統計グループとの関連性に基づいて、複数の統計グループの中から、上記抽出条件と関連性の高い1又は2以上の統計グループを抽出する。そして、文書生成サーバ20は、抽出した統計グループに属する1又は2以上の単位データのコンテンツ(テキスト情報等)を、所定の文書成型用テンプレートで成型加工して、更新ウェブサーバ3用のフィードバックデータを生成する。
HP更新データ送信サーバ21は、文書生成サーバ20により生成されたフィードバックデータを、インターネット5を介して更新ウェブサーバ3に送信する。更新ウェブサーバ3は、HP更新データ送信サーバ21から受信したフィードバックデータを、ウェブページ管理者のウェブページに自動的に付加する。これにより、ホームページ管理者は、情報管理サーバ10にて収集された複数の単位データからなる集合知の中から、自身のホームページに関連した情報であって、かつ、自身が選択した抽出条件に合致した情報を、自動的に取得できるとともに、自身のホームページのコンテンツを自動的に充実させることができる。
文書生成サーバ22は、マイページ管理サービス(スクレイピングサービス)に会員登録した一般ユーザに対し、当該ユーザが所望するテーマに関するフィードバックデータ(第2フィードバックデータに相当する。)を生成して、ユーザ端末1に提供する機能を有する。文書生成サーバ22は、ユーザ端末1のユーザからのリクエストに応じて、二次データベース19に保存されている単位データのグルーピング結果に基づき、ユーザ端末1から受信した抽出条件に合致するフィードバックデータを生成する。
文書生成サーバ22は、ユーザ端末1のユーザにより指定された抽出条件(第2抽出条件に相当する。)を含むリクエストを、ユーザ端末からインターネット5を介して受信する。この抽出条件は、例えば、ユーザ端末1のユーザが取得したいデータ内容を表すキーワード、取得したいデータの新旧などであり、マイページ管理用のフィードバックデータを手動で取得するための手動抽出条件に該当する。上記ユーザ端末1からのリクエストに応じて、文書生成サーバ22は、抽出条件と、二次データベース19に設定されている統計グループとの関連性に基づいて、複数の統計グループの中から、上記抽出条件と関連性の高い1又は2以上の統計グループを抽出する。そして、文書生成サーバ20は、抽出した統計グループに属する1又は2以上の単位データのコンテンツ(テキスト情報等)を、所定の文書成型用テンプレートで成型加工して、ユーザ端末1用のフィードバックデータを生成する。
このとき、文書生成サーバ22は、複数の文書成型用テンプレートが保存されたテンプレートデータベース(図示せず。)から、上記抽出条件(例えばキーワード)に対応する文書成型用テンプレートを検索し、当該検索された文書成型用テンプレートを用いて、上記抽出された単位データを成型して、フィードバックデータを生成する。これにより、フィードバックデータをその内容に応じたテンプレートで成型加工できる。さらに、文書生成サーバ22は、上記のように生成したフィードバックデータを、インターネット5を介してユーザ端末1に送信する。これにより、ユーザ端末1のユーザは、情報管理サーバ10にて収集された複数の単位データからなる集合知の中から、自身が指定した抽出条件に合致する情報を、容易に収集できるとともに、上記抽出条件に適したテンプレートで成型加工された情報を閲覧できる。
また、文書生成サーバ22は、各ユーザ端末1から受信したスクレイピングデータを、ユーザ端末1のユーザ毎にマイページとして管理するマイページ管理部(「ユーザデータ管理部」に相当する。)としても機能する。例えば、このマイページ管理部としての文書生成サーバ22は、例えば、ユーザ端末1における旅行日程表の作成支援機能を有し、上記スクレイピングデータ及びフィードバックデータを、旅行日程表の素材としてユーザ端末1に提供する。これにより、ユーザ端末1のユーザは、自身が指定した検索キーワードに該当するフィードバックデータを、文書作成サーバ22から受信して、旅行日程表に添付したい素材(例えば、旅行の行き先、交通手段、観光地情報、宿泊施設、飲食物、お土産など)として利用できる。
以上、図1を参照して、本実施形態にかかる情報フィードバックシステムの概略構成について説明した。
上記の更新ウェブサーバ3から提供される所定のホームページの管理者(入力端末4を使用するHP更新ツールの操作者)は、個人、企業、事業者、団体、官公庁など任意のユーザであってよいが、例えば、HP更新サービスに会員登録(例えば有料)することを考慮すると、当該ホームページ管理者は、例えば、企業、事業者、団体等といった公式ユーザが多くなることが想定される。一般的に、公式ユーザが提供する公式ホームページには、個人ホームページに掲載されがちな主観的な情報よりも、客観的かつ不変的で情報内容の信頼性の高い公式情報(例えば、企業等の住所、事業内容、商品又はサービスの内容や価格、イベント情報など)が掲載される。従って、かかる公式ホームページから得られるHP更新データも、客観的かつ不変的で信頼性の高い公式情報となり、かかる公式情報が、更新ウェブサーバ3から情報管理サーバにアップロードされることとなる。
一方で、上記ユーザ端末1から情報管理サーバ10にアップロードされるスクレイピングデータは、主に、公式ホームページから抽出した情報のみならず、ユーザがインターネット5上で偶然に発見したウェブサイト(例えば、サイトの訪問者数が少ないサイト、オタク的なサイト、非公式なサイト)から、ユーザ個人の主観で抽出した情報である場合もある。このため、スクレイピングデータは、HP更新データと比較すると、情報の内容が主観的で信頼性が低い可能性がある反面、情報の鮮度の面では、真新しく新鮮で、公式ホームページにはない貴重な情報(ユーザ個人がブログ等で書き込んだ生の情報)であるという利点がある。
例えば、レストランAの公式ホームページのHP更新データが「シェフのお薦めオムレツ:特別価格800円」が含まれていたとしても、この情報だけでは、レストランAに行ったことのないユーザAは、そのオムライスにその値段の価値があるかどうか判断しにくい。ところが、実際にそのレストランAで過去に食事したことのあるユーザBが、自信のウェブサイトのブログに、「レストランAのオムレツは超旨い!それで800円はお得!」という口コミ情報を公開していたとすれば、この口コミ情報のスクレイピングデータは、そのレストランAを訪れるか否か迷っているユーザAにとって、貴重な情報となる。
このように、公式ホームページから得られるHP更新データ(客観的、不変的で公式な情報)と、個人ユーザがスクレイピングしたスクレイピングデータ(主観的で新鮮な情報)とを組合せることで、ネットワーク上で情報収集を行うユーザにとって、有益な情報が得られる。また、レストランの経営者等のホームページ管理者にとっても、自身のホームページに関する情報として、関連する他人のホームページの公式情報だけでなく、一般ユーザがスクレイピングした新鮮な情報が得られれば、貴重である。そこで、本実施形態にかかる情報フィードバックシステムでは、このように相異なる性質を有する2種類の情報(スクレイピングデータとHP更新データ)を、情報管理サーバ10にアップロードして、統計的関連性によりグルーピングして集合知を形成し、その集合知からユーザ側(スクレイピングするユーザ、ホームページ管理者など)が求める適切な情報をフィードバックしようとするものである。
このために、本実施形態にかかる情報フィードバックシステムでは、ユーザ側(ユーザ端末1、更新ウェブサーバ3)から情報管理サーバ10に、スクレイピングデータ(真新しい知識・発見等の情報)とHP更新データ(例えば、不変的な情報・公式な情報)の双方をアップロードして、情報管理サーバ10で、これら不変的な知識と新たな知識を融合した集合知としてのデータベースを構築する。そして、情報管理サーバ10側からユーザ側に、データベース内の集合知から、ユーザが求めるテーマに合ったフィードバックデータを抽出してユーザ側にフィードバックするする。さらに、ユーザ側では、取得したフィードバックデータを利用して、新たなスクレイピングデータ、HP更新データを情報管理サーバ10側に提供する。
このようにして、本実施形態にかかる情報フィードバックシステムでは、インターネット上で公開されているウェブページの情報を、ユーザ側と情報管理サーバ10側との間で循環させることができる。従って、フィードバックされる情報の鮮度及び信頼度をより一層向上させ、ユーザによる情報の収集・活用の利便性を大幅に高めることができる。
以下に、本実施形態にかかる情報フィードバックシステムの各部の構成について、より詳細に説明する。
まず、図2を参照して、本実施形態にかかる情報フィードバックシステムを構成する各種の端末、サーバのハードウェア構成について説明する。図2は、本実施形態にかかるユーザ端末1のハードウェア構成を示すブロック図である。
図2に示すように、ユーザ端末1は、例えば、CPU(Central Processing Unit)101と、ROM(Read Only Memory)102と、RAM(Random Access Memory)103と、入力装置104と、出力装置105と、記憶装置106と、接続ポート107と、ドライブ108と、通信装置109と、これらの装置を相互に接続するバス110とを備える。
CPU101は、演算処理装置および制御装置として機能し、ユーザ端末1内の各装置を制御する。このCPU101は、ROM102に記憶されているプログラム、或いは、記憶装置106からRAM103にロードされたプログラムに従って、各種の処理を実行する。RAM103は、例えば、CPU101が実行するプログラムや、その実行において適宜変化するパラメータ等を記憶する。また、RAM103は、CPU101から記憶装置106へのアクセスを軽減するためのバッファーとしても機能する。
入力装置104は、例えば、キーボード、マウス、タッチパネル、ボタン、スイッチ、レバー等の入力部と、入力部に対するユーザ操作に応じて入力信号を生成してCPU101に出力する入力制御回路などから構成される。ユーザは、この入力装置104を操作することにより、ユーザ端末1に対して各種のデータを入力したり、処理動作を指示したりすることができる。出力装置105は、例えば、液晶ディスプレイ(LCD)装置等の表示装置と、スピーカ等の音声出力装置などで構成される。この表示装置は、例えば、表示画面上にウェブサイトに含まれるテキスト情報や画像を表示し、音声出力装置は、ウェブサイトに含まれる音声を出力する。
記憶装置106は、例えば、ハードディスクドライブなどの磁気記憶装置や、光ディスク記録装置、半導体メモリなどで構成される。この記憶装置106は、CPU101が実行するプログラムや、ウェブサイトのデータ、コンテンツなどの各種データを保存する。ドライブ108は、光ディスク等のリムーバブルメディアが装着され、当該メディアに対して各種データを書き込み/読み出しする。
接続ポート108は、ユーザ端末1に外部機器を接続するための外部インタフェースである。通信装置109は、例えば、ユーザ端末1をインターネット5等のネットワークに接続するための通信デバイスである。この通信装置109は、ネットワークを介して接続された外部機器との間で、ウェブサイトのデータ、コマンドなどの各種データを送受信する。
以上、ユーザ端末1のハードウェア構成(例えば、パーソナルコンピュータによる構成例)を例示した。なお、図1に示した情報フィードバックシステムにおけるユーザ端末1以外の他の機器のハードウェア構成についても、図2のユーザ端末1のハードウェア構成と略同一とすることができるので、詳細説明は省略する。なお、図1の各サーバ、データベースは、図2の入力装置103、出力装置104など含まないコンピュータで構成してもよい。
次に、図3を参照して、本実施形態にかかる更新ウェブサーバ3におけるHP更新処理を行うための機能構成について説明する。図3は、本実施形態にかかる更新ウェブサーバ3等の機能構成を示すブロック図である。
図3に示すように、更新ウェブサーバ3には、HP更新サービスに会員登録したホームページ管理者のホームページを容易に更新するためのHP更新ツール30が設置されている。入力端末4は、この更新ウェブサーバ3にアクセスして、HP更新ツール30を操作、更新データを入力するために用いられる。
入力端末4は、更新ウェブサーバ3から提供されたホームページや他の一般ウェブサーバ2から提供されたウェブページを閲覧するためのソフトウェアであるブラウザ41と、ブラウザ41により描画されたウェブページを表示画面上に表示する表示部42と、ホームページ管理者がHP更新データやその属性情報を入力するための入力部43と、を備える。
ブラウザ41は、更新ウェブサーバ3から、ホームページ管理者のホームページのデータ(例えば、HTMLファイル、画像ファイル、音楽ファイルなど)をダウンロードし、レイアウトを解析して表示・再生する。ホームページ管理者は、ブラウザ41により表示された自身のホームページの画面を閲覧できる。また、ホームページ管理者は、自身のホームページを更新時に、入力部43を操作して、所望の更新データ(テキスト情報、画像、音声等のコンテンツ)やその属性情報を入力する。ホームページ管理者による入力データや、HP更新ツール30に対する動作指示は、入力端末4から更新ウェブサーバ3のHP更新ツール30に送信される。
更新ウェブサーバ3は、WWWによる情報通信機能を有するウェブサーバ部31と、入力端末4からの入力データ(ホームページの更新部分のデータと属性情報、動作指示等)を受け付けるコンテンツ・属性入力部32と、HP更新データとその属性情報をHP更新データ受信サーバ12に送信するコンテンツ・属性送信部33(ウェブページ更新データ送信部に相当する。)と、ホームページを構成するHTMLファイルを生成するHTML生成部34(ウェブページ更新部に相当する。)と、ホームページを構成するHTMLファイル等、画像ファイル等を記憶するデータ記憶部35と、HP更新データ送信サーバ21からフィードバックデータを受信するフィードバックデータ受信部36とを備える。
コンテンツ・属性入力部32は、ホームページの更新部分のデータ(コンテンツ)と、HP更新データの属性情報とを入力するための所定入力フォームを生成して、入力端末4のブラウザ41に表示させる。ホームページ管理者は、自身のホームページを更新するときには、HP更新ツール30によりブラウザ41に表示された入力フォームに、新たなテキスト情報を書き込んだり、画像を挿入したりする。これにより、ホームページ管理者は、ホームページを作成/更新するための更新データ(テキスト情報、画像、音声等のコンテンツ)を入力するだけでよく、HTML文書のレイアウト情報などの構造データを入力する必要がないので、ホームページを容易に更新できる。
また、ホームページ管理者は、自身のホームページで公開する更新データ(コンテンツ)を入力するとともに、後述の多変量解析に用いられるHP更新データの属性情報を入力する。このHP更新データの属性情報は、ホームページを構成するウェブサイト又はウェブページの属性(例えば、ジャンル、キーワードなど)を表す情報であり、例えば、ウェブサイト単位、ウェブページ単位で設定される。以下では、ウェブサイト単位の属性情報を「サイト属性値」と称し、ウェブページ単位の属性情報を「ページ属性値」と称する。
かかるHP更新データの属性情報は、HP更新データのコンテンツの内容に応じてユーザが自由に入力できる。例えば、金沢にある旅館のオーナーが、自身の旅館のホームページ内に、その旅館の周辺の観光情報を表すウェブページを新たに作成した場合には、そのウェブページの属性情報(ページ属性値)として、ジャンル「観光情報」、キーワード「兼六園」などを設定できる。また、ホームページ全体(ウェブサイト)の属性情報(サイト属性値)として、ジャンル「旅館」、キーワード「金沢」などを設定できる。
コンテンツ・属性入力部32は、以上のように入力端末4で入力されたHP更新データ(コンテンツ)と。HP更新データの属性情報を、ウェブサーバ部31を介して受信し、コンテンツ・属性送信部33とHTML生成部34に出力する。
コンテンツ・属性送信部33は、HTML生成部34によりホームページが更新されたタイミングで自動的に、上記入力された全データ(即ち、HP更新データ及び属性情報)を、インターネット5を介して情報管理サーバ10のHP更新データ受信サーバ12に送信する。これにより、更新ウェブサーバ3における全てのホームページの更新時には、HP更新データとその属性情報が、情報管理サーバ10に収集される。
なお、コンテンツ・属性送信部33は、HP更新データの属性情報として、上記ユーザ入力されるジャンル・キーワードのみならず、例えば、そのHP更新データによりホームページが更新された日付情報(例えば更新年月日)、ホームページを構成するウェブサイト及びウェブページのURL、HP更新サービスの会員IDなどを、自動的にHP更新データに付加して送信してもよい。
ここで、更新ウェブサーバ3からHP更新データ受信サーバ12に送信されるHP更新データは、更新後のホームページ(HTMLファイル35a)の全データではなく、更新部分のみのデータである。これにより、データ通信量を低減できる。ただし、更新部分のデータ(HP更新データ)は、ウェブページ単位で送信され、ウェブページ内の一部のコンテンツ単位では送信されない。つまり、ホームページに含まれる1つのウェブページ内のコンテンツを部分的に更新した場合であっても、当該ウェブページ全体のデータが送信される。このようにHP更新データの送信単位をウェブページ単位とすることで、後述の解析処理を好適に実行できる。また、同様に。HP更新データの属性情報の更新についても、ウェブページ単位で行われる。
HTML生成部34は、ホームページの新規生成時/更新時に、ホームページを構成するHTML文書を生成/更新し、データ記憶部35にHTMLファイル35aとして保存する。更新時には、HTML生成部34は、上記ホームページ管理者により入力されたHP更新データに合わせて、HTML文書のレイアウト情報、構造データ(HTMLタグ等)を自動的に生成して、HTMLファイル35aに含まれるテキスト情報及び構造データを更新する。
また、文書生成サーバ20で作成されたXML文書(フィードバックデータ)は、HP更新データ送信サーバ21から、更新ウェブサーバ3に送信される。更新ウェブサーバ3のフィードバックデータ受信部36は、かかるフィードバックデータを、HP更新データ送信サーバ21からインターネット5及びウェブサーバ部31を介して受信する。このとき、フィードバックデータ受信部36は、ホームページ管理者(HP更新ツール30の操作者)により予め設定された条件に基づいて、例えば、フィードバックデータの内容や、フィードバックデータの元データが生成された日付によるフィルタリングを行って、フィードバックデータの内容を取り込む。取り込まれた一部又は全部のフィードバックデータは、HTML生成部34に出力される。HTML生成部34は、上記更新されたホームページのデータに、フィードバックデータを付加(埋め込み)して、HTMLファイル35aを生成する。
以上のようにして更新及びフィードバックデータが付加されたホームページのHTMLファイル35aは、データ記憶部35に格納され、ウェブサーバ部31によって、ホームページ管理者のホームページとして外部装置に公開される。これにより、ホームページ管理者により手動で生成されたHP更新データのみならず、情報管理サーバ10により自動的に生成された、当該ホームページに関連する内容のフィードバックデータも、ホームページに含まれるようになる。従って、ホームページ管理者は、ホームページを更新すればするほど、その交信内容に関連したコンテンツを自動的に取得できるので、ホームページのコンテンツを低い労力で自然に充実させることができる。
また、図2に示すHP更新データ受信サーバ12は、WWWによる情報通信機能を有するウェブサーバ部121と、更新ウェブサーバ3からウェブサーバ部121を介してHP更新データ及び属性情報を受信するコンテンツ・属性受信部122と、文書解析サーバ13にHP更新データ及び属性情報を送信するコンテンツ・属性送信部123とを備える。
また、HP更新データ送信サーバ21は、文書生成サーバ20から上記フィードバックデータを受信するフィードバックデータ受信部211と、このフィードバックデータをウェブサーバ部213を介して更新ウェブサーバ3に送信するフィードバックデータ送信部212と、WWWによる情報通信機能を有するウェブサーバ部213と、を備える。
次に、図4を参照して、本実施形態にかかるユーザ端末1におけるスクレイピング処理を行うための機能構成について説明する。図4は、本実施形態にかかるユーザ端末1等の機能構成を示すブロック図である。
図4に示すように、ユーザ端末1には、例えば、ブラウザ51に対するプラグインで構成されたスクレイピング部50(スクレイピングツール)が設置されている。このスクレイピング部50は、マイページ管理サービスに会員登録したユーザが、一般ウェブサーバ2又は更新ウェブサーバ3から提供される任意のウェブページ内のコンテンツを、容易にスクレイピングできるようにする機能を有する。ユーザ端末1は、一般ウェブサーバ2で公開されている任意のウェブページにアクセスしてブラウザ51に表示に表示し、スクレイピング部50によってユーザ選択されたウェブページ内の任意のコンテンツをスクレイピングし、さらに、そのスクレイピングデータを自動的に情報管理サーバ10に送信する。
一般ウェブサーバ2は、WWWによる情報通信機能を有するウェブサーバ部61と、一般ウェブサーバ2で公開される任意のウェブページのHTMLファイル62a、62b、62c、・・・を保存するデータ記憶部62とを備える。一般ウェブサーバ2は、ウェブサーバ部61によりデータ記憶部62内のHTMLファイル62a、62b、62c、・・・を、インターネット5を介して任意のユーザ端末1に提供することで、各種のウェブページを一般ユーザに公開する。
ユーザ端末1は、一般ウェブサーバ2又は更新ウェブサーバ3から提供されるウェブページを閲覧するためのブラウザ51と、ユーザ入力に基づいて、ブラウザ51に表示されたウェブページから一部のコンテンツを抽出するスクレイピング部50と、文書生成サーバ22からフィードバックデータを受信するフィードバックデータ受信部(図示せず。)とを備える。スクレイピング部50は、例えば、ユーザ端末1にインストールされたブラウザ51に対するプラグイン(ブラウザプラグイン)で構成される。
スクレイピング部50は、ユーザ端末1のブラウザ51で閲覧されているウェブページの情報ソース(ウェブページを構成する文書データに含まれるレイアウト情報、構造データ、コンテンツ自体など)を解析し、当該解析結果に基づいて、当該ウェブページに含まれるコンテンツを複数の単位データに分割する。そして、スクレイピング部50は、ブラウザ51により表示されているウェブページの画面上に、ユーザが上記分割された各単位データを識別できるように、各単位データ区分して表示するとともに、ユーザ操作に応じて、各単位データをスクレイピングするための取込ボタンをウェブページの画面上に描画する。かかるスクレイピング部50は、HTMLタグ解析部52と、形態素解析部53と、意味の推論部54と、単位データ分割部55と、取込ボタン描画部56と、コンテンツ・属性送信部57(スクレイピングデータ送信部)とを備える。
HTMLタグ解析部52は、ブラウザ51に表示されているウェブページの構造、例えば、HTML文書のタグ「<>」「</>」を解析し、当該ウェブページに含まれるテキスト情報(文章)の文書構成上の区切り(即ち、テキスト情報の物理的な区切り)を特定する。ウェブページの記述に用いられるHTML、XMLなどのマークアップ言語では、元になるコンテンツの文書に「<」と「>」で囲まれた標識(タグ)を埋め込むことにより、ブラウザ51に対して文書構造や書式、文字飾りなどを指示したり、画像や他の文書へのリンクを埋め込むことができるようになっている。このように、コンテンツである文章とは別のレベルで解釈され、付加情報を埋め込む特殊な文字列などがタグである。
形態素解析部53は、ウェブページのコンテンツをなすテキスト情報(1又は2以上の文章)を形態素解析することで、当該テキスト情報の文章を単語に分割して、各単語の品詞を判断する。さらに、形態素解析部53は、助詞、副詞等の品詞を不要語として解析対象から除外し、それ以外の名詞等を、その文章の解析対象として抽出する。かかる形態素解析処理は、次の意味の推論部54での固有表現抽出処理において、その文章の名詞についての分析を行うための前処理である。
意味の推論部54は、上記形態素解析部53の解析結果に基づいて、上記テキスト情報の文章の意味を推論する。例えば、意味の推論部54は、テキスト情報内の単語の出現頻度、固有表現抽出などを行い、テキスト情報の論理的な区切りを特定する。
単位データ分割部55は、上記HTMLタグ解析部52により特定された物理的な区切りと、意味の推論部54により特定された論理的な区切りとに基づいて、上記テキスト情報の文章の区切り位置を決定し、当該テキスト情報を複数の単位データに分割する。この単位データは、スクレイピングを行うときのスクレイピング単位(取込ブロック)となる。
取込ボタン描画部56は、ブラウザ51の表示画面上に、上記分割された各単位データを識別可能に区分け表示するとともに、各単位データを取り込む(スクレイピングする)ための取込表示、例えば、取込ボタンを表示する。詳細には、取込ボタン描画部56は、ブラウザ51の表示画面上において、表示されているウェブページのコンテンツ(テキスト情報)を、上記単位データ分割部55により分割された単位データ(取込ブロック)ごとに、区分して表示する。この表示方法としては、ユーザが各単位データの区分を識別可能な表示方法であれば、例えば、単位データごとに色分け表示する。単位データごとに枠で囲む、単位データ間に区切り位置を表示するなど、任意の表示方法を採用できる。
さらに、取込ボタン描画部56は、上記区分け表示された各単位データを取り込む(スクレイピングする)ための取込表示(例えば取込ボタン)を、各単位データ(取込ブロック)上に重畳表示する。このとき、取込ボタン描画部56は、ブラウザ51により表示されるウェブページの画面上に、上記区分け表示された複数の単位データのいずれかに、ユーザ端末1の入力装置104(例えばマウス)に対するユーザ入力操作に応じて移動するポインタが重畳されたときに、当該重畳された単位データの取込表示を表示する。そして、ユーザが、ユーザ端末1のマウス等を操作して、その取込表示を指定すると、その取込表示に対応する単位データがスクレイピングされる。即ち、当該単位データの文章がウェブページから抽出されて、スクレイピングデータが生成される。
コンテンツ・属性送信部57は、上記のようにしてユーザによりスクレイピングされたスクレイピングデータ(取込ボタンが押下された取込ブロックのデータ)を、インターネット5を介してスクレイピング受信サーバ11に送信する。このとき、上記形態素解析で分割された単語と品詞のデータを送信せずに、元の単位データの文章のデータだけを、スクレイピングデータとして送信する。これにより、送信データ量を低減できる。しかし、かかる例に限定されず、元の文章のデータと、分割された単語とその品詞のデータを、スクレイピングデータとして送信してもよく、この場合は、後述の文書解析サーバ13での形態素解析処理を省略してもよい。
また、コンテンツ・属性送信部57は、上記スクレイピングデータとともに、ユーザ端末1のユーザ情報や、スクレイピングデータがスクレイピングされた日付情報、スクレイピングされたウェブページのURL、マイページ管理サービスの会員IDなどの属性情報を付加して、スクレイピング受信サーバ11に送信する。ユーザ情報は、スクレイピングを行ったユーザの属性情報(例えば、名前、住所、年齢、職業、趣味、電話番号、マイページ管理サービスの会員IDなど)である。これらのユーザ情報や日付情報、URL等は、スクレイピングデータの属性情報となる。
また、スクレイピング受信サーバ11は、WWWによる情報通信機能を有するウェブサーバ部111と、ユーザ端末1からウェブサーバ部111を介してスクレイピングデータ及び属性情報を受信するコンテンツ・属性受信部112と、文書解析サーバ13にスクレイピングデータ及び属性情報を送信するコンテンツ・属性送信部113とを備える。
以上、図4を参照してスクレイピング処理を行うための各部について説明した。ここで、本実施形態にかかる情報フィードバックシステムにおいて実現されるウェブコンテンツのスクレイピングシステムについて説明する。スクレイピングシステムは、各種の旅行サイトなどのウェブサイトからの必要情報の抽出(即ち、スクレイピング)を、ボタンワンプッシュにて簡単に実行でき、スクレイピングデータを収集、編集、各種出力するシステムである。このスクレイピングシステムシステムは、例えば、各ユーザ端末1にインストールされたスクレイピング部50と、スクレイピングデータをユーザ毎に管理する文書生成サーバ22のマイページ管理部とで構成される。
かかるスクレイピングシステムの概要について説明する。インターネット5のユーザは、日々、様々なウェブサイトを参照し、趣味・ビジネス等で活用している。ウェブページの数は数十億ページと言われており、その膨大な情報量の中から、目的に合ったコンテンツを探すことは、検索エンジンの発達により行いやすくはなってきてはいる。しかし、検索エンジンによる検索では、欲しいコンテンツが「あるかもしれない」ウェブページを指し示しているに過ぎず、今もコンテンツはウェブ上に散在した状態にあると言える。そこで、その散在した断片化しているコンテンツをスクレイピングして、集合知として集約し、簡単にスクレイピングデータを再活用する手段として、ウェブコンテンツのスクレイピングシステムがある。
ここで、図5〜図7を参照して、ブラウザ51の画面上でウェブページのコンテンツをスクレイピングする具体例について説明する。
図5に示すように、ユーザ端末1の表示画面には、ブラウザ51のウィンドウ300内に、ブラウザプラグインであるスクレイピング部50の機能表示部310が表示される。ユーザは、スクレイピング部50の機能表示部310の各メニューを操作することで、例えば、スクレイピング元のウェブページの指定「くまでツールバー311」や、ウェブページ解析処理の設定「解析有効312」、スクレイピング指定したデータのスクレイピング実行「クリップ313」、スクレイピングデータの登録先であるマイページの管理「マイページ314」、スクレイピング機能のオプション設定「オプション315」などを実行できる。
また、図5の表示例では、ブラウザ51の表示画面320には、ユーザが閲覧しているウェブページのコンテンツとして、テキスト情報「江戸時代には、・・・実現の見通しは立っていない。」が表示されている。そして、このテキスト情報の文章は、上述したスクレイピング部50によるHTMLタグ解析処理、形態素解析処理、意味の推論処理、単位データ決定処理によって、複数の単位データ(取込ブロック)321、322、323、324、325に分割され、それぞれの単位データ321〜325は、ユーザが識別できるように、例えば色分けにより区分け表示されている。
例えば、単位データ321は、「江戸時代には、・・・栄えた。第二次世界大戦で・・・呼ばれる。」なる2つの文からなる文章であり、赤色の網掛け表示がなされ、一方、単位データ322は、「また、長年の都市文化・・・知られる。」なる1つの文からなる文章であり、青色の網掛け表示がなされている。このように、1つの段落内(1つぼ物理的区分内)の文章であっても、上記意味の推論部54による論理的な区切りにより、文章の意味内容に応じて、2つ以上の単位データに分割されることもある。また、単位データ321及び323と、323と、324と、325とは、上記HTMLタグ解析部52による物理的区分けにより、別々の単位データに区分されている。
このように、スクレイピング部50は、ウェブページ内のテキスト情報を、物理的区切り及び論理的区切りにより、文章の意味内容に応じて1又は2以上の文章からなる単位データに区分し、色分けして区分表示する。これにより、ユーザは、スクレイピングする範囲を自ら指定してカットアンドペーストしなくとも、適切な単位で区分された文章を容易にスクレイピングできるとともに、区分されたスクレイピング単位を容易に把握できる。
スクレイピングするときには、図6に示すように、ユーザは、ユーザ端末1の入力装置104(例えばマウス)を操作して、スクレイピングしたい単位データ324(取込ブロック)の上に、ポインタ330を重ねる。すると、スクレイピング部50の取込ボタン描画部56は、その単位データ324の上に取込ボタン331「GET」を重畳して表示する。つまり、ユーザが、マウスのポインタ330を重ねた単位データ324にのみ、取込ボタン331が出現し、その他の単位データ321〜323、325には取込ボタン331は表示されない。
そして、ユーザは、マウスを操作してポインタ330を取込ボタン331上に移動させ、当該取込ボタン331を押下すると、その取込ボタン331に対応する単位データ324が、スクレイピング対象として指定される。このようにスクレイピング指定した後に、スクレイピング実行313を指示されば、ユーザ所望の単位データ324の文章が、ウェブページから抽出されて、スクレイピングデータとしてユーザ端末1のメモリ内に取り込まれた後、当該スクレイピングデータが情報管理サーバ10に送信されて、該当するユーザのマイページに登録される。
さらに、図7に示すように、取込ボタン描画部56は、上記のようにスクレイピング対象として指定された単位データ324の上に、スクレイピング指定マーク332を表示する。これにより、ユーザは、自身がスクレイピング指定した単位データ324を認識できる。その後、ユーザが、上記スクレイピング指定された単位データ324の上に、再びポインタ330を重ねると、取込ボタン描画部56は、その単位データ324の上に、スクレイピングをキャンセルするためのキャンセルボタン333「CANCEL」を重畳して表示する。そして、ユーザは、マウスを操作してポインタ330をキャンセルボタン333上に移動させ、当該キャンセルボタン333を押下すると、そのキャンセルボタン333に対応する単位データ324のスクレイピング指定が解除される。
以上、図4〜図7を参照して、本実施形態にかかるスクレイピング部50によるスクレイピング処理の具体例について説明した。
前述したように、ウェブ上には膨大な量の情報コンテンツが存在しており、ユーザが利用しているのはほんの一部である。従来では、ユーザが必要なコンテンツを探し出す最初の段階が、検索エンジンによるウェブページの抽出であり、次いで、そのウェブページの中で、必要とするコンテンツを目視で確認していた。さらに、ユーザが必要なコンテンツを見つけた場合、従来のスクレイピング方法では、ブラウザに表示されたウェブページの内容を閲覧したユーザが、自ら手動で文章の区分を見つけ、所望する文章の範囲を手動で指定して、カットアンドペーストしていた。かかる操作は非常に煩雑であり、ユーザの負担となっていた。
これに対し、本実施形態にかかるスクレイピング部50は、ウェブページ内で必要とする情報の塊を簡単にしかも正確に抽出するために、ウェブページのソースコードに基づくHTMLタグ解析処理、形態素解析処理、及び、意味の推論処理を行うことで、ウェブページ内のテキスト情報を、物理的な区切り(構造的な区切り)及び論理的な区切りで分割する。
HTMLタグ等による構造的な区切りだけであると、抽出したい情報に過不足が発生する。また、スクレイピングの目的や、ユーザ毎に、区切り位置は変化するはずである。そこで、スクレイピング部50は、構造的な手法に以外にも、抽出対象の内容や、抽出条件と分類的に関連(例えば上位/下位関係)を有する情報などに基づいて、文章の区切り位置を判断する論理的な手法を用いる。つまり、物理的(構造的)な区切りだけでなく、スクレイピング対象の文章の意味内容を解析して、当該文章を複数の単位データに分割する。これにより、ウェブページのコンテンツを、ユーザの目的に近い形で分割できる。
さらに、スクレイピング部50は、ブラウザ51の表示画面320上に、ウェブページの文章を物理的及び論理的に分割した複数の単位データ321〜325を自動的に区分け表示するとともに、取込ボタン331、キャンセルボタン333を適宜表示し、ユーザ操作により選択された単位データの文章をスクレイピングする。
これにより、ユーザは、ユーザ端末1のマウスを動かしてボタンワンプッシュするだけといった簡単な操作で、任意のウェブページから所望の情報を、適切なスクレイピング単位で、容易かつ迅速にスクレイピングできる。このように、本実施形態にかかるスクレイピング部50によるスクレイピング手法は、ユーザがウェブページから情報収集するときの操作性及び利便性に優れたものである。
さらに、ユーザ端末1にて取込ボタン331によりスクレイピングされた単位データ(スクレイピングデータ)は、情報管理サーバ10に送信されて、一次データベース16内に蓄積される。マイページ管理サービスを提供する文書生成サーバ22のマイページ管理部は、スクレイピングされた単位データのリストを生成し、任意の形式でスクレイピングデータを改変および並び替えすることにより、目的のコンテンツの体裁を整える。さらに、ユーザによる人為的選択を加え、スクレイピングデータの再構築を行うことにより、目的のコンテンツを適切に作成できる。
さらに、上記スクレイピング時には、単位データへの分割の条件を設定することにより、スクレイピング時の区切り位置を自動調整できる。また、情報管理サーバ10に収集されたスクレイピングデータの抽出条件を制御することで、情報管理サーバ10が、ユーザが目的とするコンテンツを自動構築することも可能となる。さらに、この自動構築されたコンテンツに対して、ユーザによる人為的選択及び編集を加えることで、目的のコンテンツを短時間かつ簡単に作成できる。
次に、図8を参照して、本実施形態にかかる文書解析サーバ13における文書解析処理を行うための機能構成について説明する。図8は、本実施形態にかかる文書解析サーバ13等の機能構成を示すブロック図である。
図8に示すように、文書解析サーバ13は、ユーザ端末1からインターネット5及びスクレイピング受信サーバ11を介してスクレイピングデータ及びその属性情報を随時受信するとともに、更新ウェブサーバ3からインターネット5及びHP更新データ受信サーバ12を介してHP更新データ及びその属性情報を随時受信する。そして文書解析サーバ13は、これらのデータに含まれるテキスト情報を形態素解析して、単語・キーワードを抽出し、適切な単位データに分割して一次データベース16に保存する。かかる文書解析サーバ13は、データ受信部131と、形態素解析部132と、意味の推論部133と、単位データ分割部134(文の分割部)と、データ保存部135とを備える。
データ受信部131は、スクレイピング受信サーバ11からスクレイピングデータ及びその属性情報を受信し、また、HP更新データ受信サーバ12からHP更新データ及びその属性情報を受信する。データ受信部131は、これらのデータを形態素解析部132に渡す。
形態素解析部132は、スクレイピングデータ又はHP更新データに含まれるテキスト情報(1又は2以上の文章)を形態素解析することで、当該テキスト情報の文章を単語に分割して、各単語の品詞を判断する。かかる単語分割時には、形態素解析部132は、形態素解析用辞書サーバ14の分かち書き禁止辞書142を参照して、単語分割してはならない分かち書き禁止用語を判断する。例えば、単語「ケアマネ」を形態素解析すると、「ケア」と「マネ」に分割されるが、このように分割すると意味をなさなくなる単語を、分かち書き禁止辞書142に予め登録しておき、当該単語が分割されないようにする。なお、図4のスクレイピング部50での形態素解析処理とはことなり、この形態素解析部132の前処理として、HTMLタグ解析処理は不要である。この理由は、スクレイピングデータ、HP更新データは、上記スクレイピング部50、HP更新ツール30によりコンテンツデータのみからなるデータ(HTMLタグ等を含まない。)にブロック化されているからである。
次いで、形態素解析部132は、上記分割された単語の中から、助詞、副詞等の品詞を不要語として解析対象から除外し、それ以外の名詞等を、その文章の解析対象として抽出する(品詞に基づく不要語の削除)。さらに、形態素解析部132は、形態素解析用辞書サーバ14の不要語辞書143(主旨に合わない単語を除去するための辞書)を参照して、不要語辞書143に含まれる不要語を解析対象から除外し、それ以外の単語を解析対象として抽出する(不要語辞書に基づく不要語の削除)。不要語辞書143は、主旨に合わない単語(ノイズ)を除去するための辞書である。
このように、形態素解析部132は、形態素解析用辞書サーバ14から提供される分かち書き禁止辞書142及び不要語辞書143を適宜利用して、形態素解析を行う。このために、形態素解析用辞書サーバ14は、辞書管理端末15に対するサーバ管理者の入力操作に基づいて、分かち書き禁止辞書142及び不要語辞書143の用語を、新規登録、更新又は削除する辞書メンテナンス部141を備えている。
以上のような形態素解析部132による形態素解析処理は、スクレイピングデータ又はHP更新データから、多変量解析で使用される単語・キーワードを抽出する機能だけでなく、次の意味の推論部133での固有表現抽出処理において、その文章の名詞についての分析を行うための前処理としても機能する。
意味の推論部133は、上記形態素解析部133の解析結果に基づいて、上記HP更新データのテキスト情報の文章の意味を推論する。例えば、意味の推論部133は、当該テキスト情報内の単語の出現頻度、固有表現抽出などを行い、当該テキスト情報の論理的な区切りを特定する。
単位データ分割部134は、意味の推論部134により特定された論理的な区切りに基づいて、上記HP更新データのテキスト情報の文章の区切り位置を決定し、当該テキスト情報を複数の単位データに分割する。この単位データは、後述の多変量解析を行うときの最小単位となる。
なお、本実施形態では、文書解析サーバ13は、スクレイピングデータに対しては、意味の推論部133による処理及び単位データ分割部134による文の分割処理を行われない。この理由は、スクレイピングデータは、上述したようにユーザ端末1のユーザがスクレイピングしたものであり、また、上記ユーザ端末1のスクレイピング部50により既に単位データに分割されているものであるので、そのスクレイピングデータを更に分割する必要性は低いからである。しかし、かかる例に限定されず、文書管理サーバ13側でスクレイピングデータを複数の単位データに分割することも可能である。
データ保存部135は、上記形態素解析処理されたスクレイピングデータと、上記形態素解析処理後に更に意味の推論処理、単位データに分割処理されたHP更新データとを、一次データベース16に保存する。
一次データベース16は、上記文書解析サーバ13により解析処理されたスクレイピングデータ及びHP更新データを格納する。以下、一次データベース16に格納されるデータは、スクレイピングデータ又はHP更新データに固有に付与される「データID」と、単位データに分割される前のスクレイピングデータ又はHP更新データのテキスト情報である「元データ」と、スクレイピングデータ又はHP更新データが存在するウェブサイト又はウェブページの「URL」と、形態素解析によりスクレイピングデータ又はHP更新データから抽出された「単語・キーワード」と、HP更新データを分割して得られた個々の文章(単位データ)である「分割された文章」と、スクレイピングデータ又はHP更新データの固有属性である「属性情報」と、スクレイピングデータ又はHP更新データの属するグループを表す「グループID」とを含む。
このうち、「属性情報」は、スクレイピングデータ又はHP更新データの属性情報であり、会員ID、日付、キーワード、ユーザ属性情報などを含む。スクレイピングデータの会員IDは、マイページ管理サービスの会員IDであり、HP更新データの会員IDは、HP更新サービスの会員IDである。文書解析サーバ13は、情報管理サーバ10に設けられた各サービスの会員DBから会員IDを取得してもよいし、ユーザ端末1又は更新ウェブサーバ3から送信されてきた会員IDを用いてもよい。スクレイピングデータの日付情報は、当該スクレイピングデータがスクレイピングされた日付であり、HP更新データの日付情報は、HP更新データによるホームページ更新の日付である。スクレイピングデータの属性情報については、スクレイピング時に、スクレイピングデータを行ったユーザ属性情報(会員ID、名前、住所等)が、ユーザ端末1により自動的に付加される。HP更新データの属性情報については、HP更新データが更新ウェブサーバ3にアップロードされるときに、上述したようにホームページ管理者により入力されたサイト属性値及びページ属性値が付加される。
また、「グループID」は、後述する最下層のデータグループに固有に付与される識別子である。スクレイピングデータのグループIDは、ユーザ端末1のユーザが、自身のスクレイピングデータを任意の基準(例えば、スクレイピングの日時、データ内容等)でグルーピングしたときに、そのユーザのグループ設定に応じて付与される。HP更新データのグループIDは、ホームページのサイトとページに基づいて、情報管理サーバ10により自動的に付与される。
以上のように、文書解析サーバ13は、スクレイピングデータ及びHP更新データのテキスト情報(文章)を形態素解析することで、単語・キーワードを抽出し、また、必要に応じて文章を単位データに分割して、一次データベース16に保存する。この一次データベース16のデータは、次に説明する多変量解析に用いられる。
次に、図9を参照して、本実施形態にかかる多変量解析サーバ17における多変量解析処理を行うための機能構成について説明する。図9は、本実施形態にかかる多変量解析サーバ17等の機能構成を示すブロック図である。
図9に示すように、多変量解析サーバ17は、上記文書解析サーバ13により一次データベースに格納されたデータを多変量解析することで、スクレイピングデータ又はHP更新データから得られた単位データを、相互の統計的関連性に応じて複数の統計グループにグループピングして、各単位データ属する統計グループの統計グループIDを付与する。このグルーピング時には、多変量解析サーバ17は、一次データベース16に格納されている複数の単位データを構成する各データのうち、例えば、「ウェブサイト又はウェブページのキーワード」、「抽出された単語」及び「属性情報」などを数量化して、多変量解析を行い、各変量の依存関係に基づいて、上記単位データをグルーピングする。このグルーピングの過程で、多変量解析サーバ17は、明らかに依存が無いと判定されるデータを除去して、再度、多変量解析を行う(異常値の除去処理)。
多変量解析サーバ17は、一次データベース16から多変量解析に用いるデータを読み込むデータ読込部171と、多変量解析の前処理として、データ読込部171により読み込んだデータを数量化する数量化部172と、数量化部172により数量化されたデータを多変量解析する多変量解析部173と、多変量解析部173による多変量解析を調整する調整部174と、多変量解析部173によるグルーピング結果を二次データベース19に保存するデータ保存部175と、とを備える。
数量化部172は、一次データベース16からデータ読込部171により読み込まれた、各単位データの「ウェブサイト又はウェブページのキーワード」、「抽出された単語」及び「属性情報」の文字を数量化する。具体的には、数量化部172は、当該読み込まれた各データの文字の出現回数をカウントし、そのカウント数を、次の多変量解析における統計データのインプットとする。
多変量解析部173は、例えば、主成分解析、因子分析、対応分析、クラスター分析などを行う。主成分解析は、多変量解析の手法の1つであり、外的な基準のない標本データからそのデータの特性を説明する主成分を抽出することである。この主成分解析は、複数の変数間の共分散(相関)を少数の合成変数で説明する手法であり、共分散行列の固有値問題の解として得ることができる。多変量解析部173は、この主成分分析により、スクレイピングデータの取得元又はHP更新データの更新元のウェブサイト又はウェブページの総合ランキングを求める。
因子分析は、多変量解析の手法の1つであり、複雑な統計資料を少数の要因に分解し、その要因間の関係や変動に着目して全体的特徴を理解しようとする統計上の技法である。多変量解析部173は、この因子分析により、単位データから第1因子・第2因子を抽出することで、単位データの傾向を分析する。
対応分析は、定性的変数の組についての因子分析的方法である。多変量解析部173は、この対応分析により、複数の単位データ間の相関が最大となるようにし、因果関係を掴む。
クラスター分析は、多変量解析の手法の1つであり、データをある基準に基づいて集団に分類して解析する。多変量解析部173は、このクラスター分析により、個々ばらばらの単位データを特定の基準に基づいて集合化して、類似するデータを集める。
以上のような各種の多変量解析手法を用いて、多変量解析部173は、一次データベース16に格納されている複数の単位データを、統計的関連性に応じて複数の統計グループにグルーピングして、各単位データに統計グループIDを付与する。このようにしてグルーピングされた単位データは、複数種類の統計グループに属するので、複数の統計グループIDが付与される。
調整部174は、多変量解析コントロール端末18からの指示に基づいて、多変量解析部173における多変量解析の手法(パラメータ等)を調整し、グループピングの基準を調整する。
データ保存部175は、多変量解析部173による解析結果(例えば、各単位データのグルーピング結果である統計グループID)を、一次データベース16及び二次データベース19に保存する。例えば、データ保存部175は、上記多変量解析によりグルーピングされた各単位データにつき、当該各単位データが属する統計グループの統計グループIDを、一次データベース16及び二次データベース19に保存する。さらに、データ保存部175は、二次データベース19に、上記統計グループIDに加え、各単位データが元々属していたデータグループを示すグループID、上記多変量解析により得られた成分データ、統計値(χ2乗値、寄与率など)、及び、各単位データの属性情報(日付など)などを保存する。
次に、図10〜図12を参照して、本実施形態にかかる多変量解析サーバ17による統計グループへのグルーピングについて、より詳細に説明する。図10は、本実施形態にかかる単位データのデータ構造を示す模式図であり、図11及び図12は、本実施形態にかかるデータグループと統計グループの例を示す概念図である。
図10に示すように、単位データは、情報フィードバックシステムで取り扱われるデータの最小単位であり、上記スクレイピングデータ又はHP更新データのテキスト情報の一部または全部を、意味のある最小単位のコンテンツ(文章)として保有している。上記文書解析サーバ13により1つのHP更新データのテキスト情報が、複数の文章に分割された場合には、当該HP更新データの単位データが複数生成される。
単位データは、上記データIDと、スクレイピングデータ又はHP更新データのテキスト情報の一部又は全部である文章と、当該文章から抽出された複数の単語(例えば名詞)と、単位データの属性情報とを含む。単位データの属性情報は、親データであるスクレイピングデータ又はHP更新データの属性情報がそのまま用いられる。この属性情報は、例えば、会員ID(マイページ管理サービス又はHP更新サービスのユーザID)、ユーザ属性(ユーザの名前、住所、趣味など)、サイト属性値(ウェブサイトID、ホームページ管理者により入力されたウェブサイトのジャンル・キーワードなど)、ページ属性値(ウェブページID、ホームページ管理者により入力されたウェブページのジャンル・キーワードなど)、ウェブサイト又はウェブページのURL、日付(HP更新データの更新年月日、スクレイピングデータのスクレイピング年月日)などを含む。この属性情報は、単位データの文章(コンテンツ)の属性を表し、後述する検索キーワードによる単位データの検索などに用いられる。一次データベース16及び二次データベース19には、かかる単位データが複数格納されており、上記多変量解析サーバ17は、かかる複数の単位データを統計グループにグルーピングする。
図11及び図12に、複数の単位データDが、データグループDGと統計グループSGとにグルーピングされた状態の例を示す。図11及び図12に示すように、32個の単位データD1〜D32は、データグループと統計グループという相異なる2つのグループ基準で、それぞれグルーピングされている。データグループについては、図11及び図12の双方の例で、5個のデータグループDG1〜DG5が共通に存在する。一方、統計グループについては、図11の例では、10個の統計グループSG1〜SG10が存在し、図12の例では、図11のSG1〜SG10とは異なる7個の統計グループSG11〜SG17が存在する。
データグループは、情報管理サーバ10での解析結果に依らず、予め定められた所定のグループ基準でグループ化された固定的なグループであり、上記グループIDで識別される。データグループは階層構造を有し、最下層のデータグループに対してグループIDが付与される。
具体的には、上記HP更新ツール30で生成されるHP更新データの場合、ウェブページが最小のデータグループとなる。同一のウェブサイトに属するウェブページを、URLの「/」で束ねたものが一つ上位のデータグループに位置づけられ、ウェブサイトが一番上位のデータグループとなる。例えば、図11及び図12の例では、データグループDG1に属する10個の単位データD1〜D10は、あるユーザのホームページ内の1つのウェブページに記載されたデータ群である。
また、手動でスクレイピングされるスクレイピングデータの場合、ユーザが手動でグルーピングをした最小単位がデータグループとなる。このユーザによるスクレイピングデータのグルーピングも、階層構造をとることができる、最上位のグループは、ユーザとなり、その下位にグループは、ユーザにより任意に設定できる。例えば、図11及び図12の例では、データグループDG2に属する5個の単位データD11〜D15は、あるユーザA(第1階層)が、旅行会社のウェブサイト(第2階層)から、格安航空券(第3階層)の情報を、2008年(第4階層)にスクレイピングしたデータ群である。
このようなデータグループに付与されるグループIDは、数桁の数字・英字による文字列で構成され、データグループの階層構造が分かるように、グループIDは桁に意味づけがなされる。例えば、グループIDは、データグループの階層数と、その階層に含まれる要素数で桁数を可変とし、上から何桁が第1階層でのデータグループ、その次の上から何桁が第2階層でのデータグループ、といったように定められる。
一方、統計グループは、データグループとは全く異なる、個々の単位データ相互の統計的な関連性(多変量解析サーバ17による多変量解析結果に基づいて得られる距離(統計値)によるグループ)をひとまとめにしたグループである。よって、統計グループは、複数種類存在し、1つの単位データは複数の統計グループに属する。統計グループのグループ化基準としては、例えば、(a)スクレイピングした年月日(もしくはHP更新データの更新年月日)が所定の時間範囲にあること、(b)単位データが特定のキーワード(単語)を含むこと、(c)単位データの属性情報の一部が共通又は関連すること、或いはこれらの組み合わせ、などを用いることができる。
このような統計グループの特性により、図11及び図12に示すように、元々は全く別のデータグループDGに属する単位データDを、多変量解析による統計値を元に結びつけて、同一の統計グループに含ませることができる。また、統計グループのグループ化基準が異なる図11と図12の例では、全く異なる統計グループSGが形成されている。例えば、データグループDG3の単位データD17とD18は、特定のキーワードに基づきグルーピングした図11の例では、同一の統計グループSG4に属するが、データの生成年月日とユーザの住所とに基づきグループピングした図12の例では、単位データD17とD18はそれぞれ相異なる統計グループSG17とSG14に属する。
また、各単位データ間だけでなく、各統計グループSG間にも、統計グループ相互の関連性を表す距離(統計値)が存在し、両者の関連性の強弱(距離の遠近)を数値で表すことができる。これにより、データの意味内容が関連する統計グループSGを相互にリンクさせて、統計グループSGの階層構造を定めることができる。この統計グループSGの階層構造は、任意の1つの統計グループSG(第1階層)を頂点とし、それに最も関連性の高い統計グループSG(第2階層)、さらに第2階層の統計グループに関連する統計グループSG(第3階層)といったように、個々の統計グループごとに、それを頂点とする階層構造が別個に定められる。
例えば、図11及び図12で、2つの統計グループSG間が線でつながっている場合は、両者の統計的関連性(統計値)が所定の閾値より高いためリンクされており、そうでない場合は、両者の関連性が当該所定の閾値より低いことを意味する。図12の例では、統計グループSG4を頂点とする階層構造は、SG4が第1階層(最上位階層)となり、SG1〜SG3及びSG5〜SG7が第2階層となり、SG8〜SG10が第3階層となる。一方、図12の統計グループSG9を頂点とする階層構造は、SG9が第1階層(最上位階層)となり、SG7が第2階層となり、SG4及びSG10が第3階層となり、SG1〜SG3、SG5、SG6及びSG8が第4階層となる。
文書生成サーバ20、22は、上記のような単位データD間及び統計グループSG間の関連性を表す距離(統計値)に基づいて、一次データベース16に収集された複数の単位データの中から、ユーザ側(更新ウェブサーバ3又はユーザ端末1)にフィードバックする単位データDの範囲を決定する。
HP更新ツール30の利用サイト(更新ウェブサーバ3)にデータをフィードバックするときには、HP更新ツール30の利用者(ホームページ管理者)が予め、フィードバックを受けたいデータ内容を表す抽出条件(例えば、キーワード、時間、データ件数等)を入力端末4に入力して、当該抽出条件を文書生成サーバ20の抽出条件データベースに予め登録しておく。これにより、文書生成サーバ20は、そのキーワードと関連性の強い統計グループに属する単位データのうち、当該キーワードと関連性の強い単位データを順に抽出し、抽出した単位データを所定のテンプレートで成型して、フィードバックデータとして更新ウェブサーバ3にフィードバックする。このとき、文書生成サーバ20は、前述の統計グループSG間の距離(各統計グループSGとキーワードとの関連度)と、ホームページ管理者により指定されたフィードバックデータの取得希望件数とに基づいて、フィードバックするデータ量(フィードバックデータの件数)を制限してもよい。
以上のように、多変量解析サーバ17は、スクレイピングデータ又はHP更新データから得られた複数の単位データを、単位データ相互の統計的な関連性に基づいて複数の統計グループにグルーピングし、統計グループ間相互の関連性も定めておく。これらの統計グループとその統計グループ間のリンクは、収集された単位データ群からなる集合知を形成する。これにより、次の文書解析サーバ20、22は、この集合知の中から、ユーザが所望するテーマに関連する単位データを適切に抽出して、フィードバックすることができる。
次に、図13を参照して、本実施形態にかかる文書生成サーバ20におけるフィードバックデータの自動生成処理を行うための機能構成について説明する。図13は、本実施形態にかかる文書生成サーバ20等の機能構成を示すブロック図である。
図13に示すように、一次データベース16及び二次データベース19は、上記多変量解析サーバ17により統計グループにグルーピングされた複数の単位データのライブラリ23となる。文書生成サーバ20は、このライブラリ23内でグルーピングされている複数の単位データを検索して、ホームページ管理者により予め設定された抽出条件と関連性の高い統計グループに属する単位データを、フィードバックデータとして自動的に抽出し、このフィードバックデータをウェブサーバ3に自動的に送信する。
かかる文書生成サーバ20は、抽出条件データベース200と、抽出条件読込部201と、ライブラリ検索部202と、データ選択部203と、テンプレート選択部205と、テンプレートデータベース206と、成型処理部208と、フィードバックデータ送信部215(第1フィードバックデータ送信部に相当する。)とを備える。
抽出条件データベース200は、フィードバックデータの抽出条件(キーワード、期間指定など)を、HP更新ツール30で更新される所定のホームページごと(又は、HP更新サービスの会員ごと)に保存する。この抽出条件は、ライブラリに保存された複数の単位データの中から、所定のホームページの管理者(HP更新ツール30の操作者)にフィードバックする単位データを抽出するための条件である。かかる抽出条件は、例えば、所定のホームページの管理者(HP更新ツール30の操作者)がフィードバックを所望するデータの内容・ジャンルを表す1又は2以上のキーワードや、フィードバックを所望するデータが生成された時期の指定(例えば、スクレイピングデータのスクレイピング年月日、HP更新データの更新年月日の指定)、フィードバックデータとして取得を希望する単位データの件数(フィードバックデータの取得希望件数)などを含む。
例えば、旅行業者であるホームページ管理者が、抽出条件として、キーワード:「温泉旅館」及び「石川県」と、データ生成期間指定:「2008年1月〜12月」を入力端末4に入力すると、当該抽出条件は、入力端末4からインターネット5を介して文書生成サーバ20に送信されて、抽出条件データベース200に登録される。この結果、以下の処理によって、ライブラリ23から、「温泉旅館」及び「石川県」に関するデータであって、かつ、「2008年1月〜12月」に生成されたデータが抽出されて、フィードバックデータとしてホームページ管理者に自動的に提供される。このように、ホームページ管理者は、自らのホームページに有効であると考えるジャンルのデータや、フィードバックして欲しい任意のジャンルのデータの内容を表す抽出条件を、抽出条件データベース200に登録しておけば、文書生成サーバ20から、その抽出条件を満たすデータが自動的にフィードバックされるようになる。なお、このフィードバック処理は、文書生成サーバ20が所定の周期で定期的に行ってもよいし、ホームページ管理者からのリクエストに応じて随時行ってもよい。
抽出条件読込部201は、任意のホームページ管理者へのフィードバックデータの生成を行うときに、上記抽出条件データベース200から、当該ホームページ管理者により予め設定された抽出条件を読み出し、ライブラリ検索部202に渡す。
ライブラリ検索部202は、一次データベース16及び二次データベース19で構成されたライブラリ23を検索して、上記読み出された抽出条件に合致する単位データを、フィードバックデータとして抽出する。具体的には、ライブラリ検索部202は、上記多変量解析サーバ17による解析により得られた単位データ間及び統計グループ間の関連性を表す距離(統計値)に基づいて、ライブラリ23に収集されてグルーピングされた複数の単位データの中から、抽出条件のキーワードと統計的関連性の高い統計グループに属する単位データを抽出する。
このとき、ライブラリ検索部202は、統計グループ間の関連性で定められる統計グループの階層構造を利用して、設定されたキーワードに関連性の高い単位データを適切に抽出することができる。詳細には、ライブラリ検索部202は、まず、ライブラリ23に設定されている複数の統計グループの中から、抽出条件のキーワードと最も関連性の高い1つの統計グループを抽出する。さらに、ライブラリ検索部202は、この統計グループを最上位階層とする階層構造における上位階層から順に、当該最上位の統計グループに関連する1又は2以上の統計グループ(第2階層、第3階層、・・・)を順次抽出する。第何番目の階層の統計グループまで抽出するかは、例えば、抽出済みの統計グループに含まれる単位データ数や、上位階層と下位階層との関連度に応じて決定される。そして、ライブラリ検索部202は、このように抽出した最上位及び第2階層、第3階層、・・の統計グループに属する単位データを、フィードバックデータとして抽出する。
例えば、図12の例では、抽出条件のキーワード「温泉旅館」及び「石川県」と最も関連性の高い統計グループが、SG4であった場合、まず、統計グループSG4が抽出される。さらに、このSG4を最上位階層(頂点)とする階層構造において、SG4と関連性を有する統計グループSG1〜SG3及びSG5〜SG7が第2階層の統計グループとして抽出される。そして、これら統計グループSG1〜SG7に属する単位データが、フィードバックデータのコンテンツとして抽出される。
以上のように、本実施形態にかかるライブラリ検索部202によるフィードバックデータの抽出手法は、従来の単なる検索キーワードによるデータ検索とは全く異なり、集合知としての統計グループの階層構造を利用して、まず、抽出条件のキーワードに最も関連性の高い統計グループを選択し、次いで、この統計グループに連鎖的に関連する統計グループを順次選択し、これら選択された統計グループ群に属する単位データを、抽出条件のキーワードに関連性の高い単位データとして抽出するものである。これにより、キーワードと関連性の高い統計グループに属する単位データであれば、そのキーワードを含まない単位データであっても、キーワードと関連性の高いデータとして抽出されることとなる。かかるデータ抽出は、従来の単純なキーワード検索では実現できない。このように、本実施形態にかかるフィードバックデータの抽出方法によれば、統計グループにグルーピングされた集合知としてのデータ群(ライブラリ23)から、抽出条件のキーワードと高い関連性を有する統計グループに属する単位データを抽出するので、従来のキーワード検索では得られなかった新鮮で適切なデータを抽出でき、検索ノイズも少ない。
データ選択部203は、上記ライブラリ検索部202により抽出された単位データの中から、一部又は全部の単位データを選択して、フィードバックデータとする。具体的には、データ選択部203は、例えば、上記抽出された統計グループ間の関連性、キーワードと単位データの関連性や、ホームページ管理者により抽出条件として設定された「フィードバックデータの取得希望件数」又は「データ生成時期の指定」などに基づいて、フィードバックデータとする単位データの件数を制限する。
例えば、ホームページ管理者により20件のデータの取得が希望されている場合、データ選択部203は、ライブラリ検索部202により抽出された多数の単位データのうち、キーワードと関連性の高い上位の統計グループに属する単位データから順に選択し、さらに、同一の統計グループ内では、キーワードと関連性の高い単位データから順に選択していき、選択した単位データが20件に達した時点で、他の単位データを除外してもよい。また、上位階層の統計グループと下位階層の統計グループとの関連性が低い場合には、たとえフィードバックデータの取得希望件数内であったとしても、データ選択部203は、下位階層の統計グループに属する単位データをフィードバックデータとして選択しないようにしてもよい。
以上のようにして、ライブラリ検索部202によりライブラリ23から抽出され、さらに、データ選択部203により選択された単位データ群204が、フィードバックデータとなる。
一方、テンプレート選択部205は、テンプレートデータベース206に保存されている複数の文書成型用テンプレート(ひな型)の中から、抽出条件データベース200に保存された抽出条件に合ったテンプレート207を選択する。例えば、抽出条件のキーワードが「料理のレシピ」である場合には、レシピを表示するのに適したテンプレートが選択される。また、抽出条件のフィードバックデータの取得希望件数が「100件」である場合には、100件分の単位データのフィードバックに適したテンプレートが選択される。また、抽出条件に「フィードバックデータの生成時期の指定」が設定されている場合には、フィードバックデータの生成年月日の表示欄を含むテンプレートが選択される。
成型処理部208は、上記データ選択部203により選択された単位データ群204(フィードバックデータ)を、テンプレート選択部205により選択されたテンプレートに当てはめて、成型処理する。この成型処理により完成した文書208が、フィードバックデータとなる。かかるフィードバックデータは、例えば、スクレイピングデータ又はHP更新データのコンテンツ(単位データ内の文章)の他にも、例えば、データ発生源のURL、サイト名及びページ名(サイトID、ページID等)と、会員情報(会員ID等)と、元データの生成年月日などを含む。フィードバックデータは、例えば、これらの各種情報を含むXML文書で構成される。
フィードバックデータ送信部215は、かかるフィードバックデータ(完成した文書208)を、HP更新データ送信サーバ21及びインターネット5を介して、更新ウェブサーバ3に送信する。また、フィードバックデータ送信部215は、ホームページ管理者が入力端末4に対する入力操作によって手動で生成した文書210を、フィードバックデータとともに更新ウェブサーバ3に送信することもできる。
以上図13を参照して説明したように、文書生成サーバ20は、ホームページ管理者が予め設定した抽出条件に基づき、当該抽出条件に合致するデータをライブラリ23から抽出して、当該ホームページ管理者がホームページをアップロードしている更新ウェブサーバ3に、自動的に送信する。これにより、ホームページ管理者は、情報管理サーバ10で収集、分析、グループピングされた、他者のHP更新データや他ユーザのスクレイピングデータから、自身のホームページに有効と思われるデータを、XML形式で自動的にフィードバックさせることができる。このフィードバックデータは、他者のHP更新データ(客観的で不変的な公式の情報)のみならず、一般ユーザによるスクレイピングデータ(主観的で新鮮な情報)をも含むものであり、両者を同一テーマで融合させた情報である。従って、ホームページ管理者は、自身のホームページの内容に関連する情報として、公式な情報と新鮮な情報の双方を取得できるので、自身のホームページの内容をさらに充実させることができる。
さらに、このフィードバックデータは、前述したHP更新ツール30により、ホームページ管理者自身のホームページに自動的に付加される。よって、ホームページ管理者は、フィードバックデータの抽出条件を登録しておくだけで、容易かつ自動的に適切な内容のフィードバックデータを取得して、自身のホームページを自動的に充実させることができる。
次に、図14を参照して、本実施形態にかかる文書生成サーバ22におけるフィードバックデータの手動生成処理を行うための機能構成について説明する。図14は、本実施形態にかかる文書生成サーバ22等の機能構成を示すブロック図である。
図14に示すように、文書生成サーバ22は、ユーザ端末1からのリクエストに応じて、一次データベース16及び二次データベース19からなるライブラリ23においてグルーピングされている複数の単位データを検索して、ユーザ端末1により指定された抽出条件と関連性の高い統計グループに属する単位データを、フィードバックデータとして抽出し、このフィードバックデータを、リクエスト元のユーザ端末1に送信する。マイページ管理サービスに会員登録したユーザは、インターネット5上の公開ウェブページから情報収集したいときには、ユーザ端末1に抽出条件を入力するだけで、マイページ管理サービスを提供する文書生成サーバ22から、その抽出条件に関連するフィードバックデータを容易に取得できる。
かかる文書生成サーバ22は、抽出条件入力部221と、ライブラリ検索部222と、検索結果表示部223と、データ選択部224と、抽出条件入力部226と、テンプレート検索部227と、テンプレートデータベース228と、検索結果表示部229と、テンプレート選択部230と、成型処理部232と、整形処理部234と、フィードバックデータ送信部236(第2フィードバックデータ送信部に相当する。)とを備える。
抽出条件入力部221は、ユーザ端末1のユーザにより入力された抽出条件を受け付ける。マイページ管理サービスが提供する所定の検索サイトの画面にて、ユーザが抽出条件を入力すると、ユーザ端末1は文書生成サーバ22にその抽出条件を送信する。抽出条件入力部221は、かかる抽出条件を受信して、ライブラリ検索部222に渡す。ここで、抽出条件は、ライブラリに保存された複数の単位データの中から、一般ユーザ端末1のユーザにフィードバックする単位データを抽出するための条件であり、例えば、ユーザがフィードバックを所望するデータの内容・ジャンルを表す1又は2以上のキーワードなどである。
ライブラリ検索部222は、一次データベース16及び二次データベース19で構成されたライブラリ23を検索して、上記入力された抽出条件に合致する単位データを、フィードバックデータの候補として抽出する。具体的には、ライブラリ検索部222は、上記多変量解析サーバ17による解析により得られた単位データ間及び統計グループ間の関連性を表す距離(統計値)に基づいて、ライブラリ23に収集されてグルーピングされた複数の単位データの中から、抽出条件のキーワードと統計的関連性の高い統計グループに属する単位データを抽出する。このとき、ライブラリ検索部222は、統計グループ間の関連性で定められる統計グループの階層構造を利用して、ユーザ入力されたキーワードに関連性の高い単位データを適切に抽出することができる。なお、このライブラリ検索部222は、図13に示した文書生成サーバ20のライブラリ検索部202と略同一の機能構成を有するので、詳細説明は省略する。
検索結果表示部223は、上記ライブラリ検索部222による検索結果を示す検索結果表示画面を生成し、ユーザ端末1に送信して表示させる。この検索結果表示画面は、上記ライブラリ検索部222によりライブラリ23から抽出された単位データ(フィードバックデータの候補)の一覧を示す画面である。ユーザ端末1にこの検索結果表示画面を表示することで、ユーザは、上記フィードバックデータの候補となる単位データの一覧を閲覧し、この中から自身の所望する単位データを選択する。ユーザ端末1は、このようにユーザ選択された単位データを文書生成サーバ22に通知する。
データ選択部224は、このようにしてユーザ選択された単位データを、フィードバックデータとして選択する。以上のようにして、ライブラリ検索部222によりライブラリ23から抽出され、さらに、データ選択部224により選択された単位データ群225が、フィードバックデータとなる。
一方、抽出条件入力部226は、上記ユーザによりユーザ端末1に入力された抽出条件(テンプレート検索用のキーワード)を受け付ける。この抽出条件入力部226が受け付ける抽出条件は、抽出条件入力部221が受け付ける抽出条件と同一であってもよい。これにより、フィードバックデータ検索用の抽出条件(フィードバックを受けたいデータ内容を表すキーワード)を、テンプレート検索用のキーワードに適用して、そのキーワードで検索される単位データに合ったテンプレートで、フィードバックデータが自動的に成型処理される。これにより、ユーザは、フィードバックされるデータ内容に適したテンプレートで、フィードバックデータを閲覧でき、便利である。さらに、検索時に、ユーザは一つのキーワードだけを入力すれば済むため便利である。しかし、かかる例に限定されず、抽出条件入力部226と抽出条件入力部221それぞれに対して、別々の抽出条件を入力してもよい。
テンプレート検索部227は、テンプレートデータベース228に保存されている複数の文書成型用テンプレート(ひな型)の中から、抽出条件入力部226に入力された抽出条件に合った1又は2以上のテンプレートを検索する。例えば、抽出条件のキーワードが「夏祭り」及び「東北」である場合には、複数の夏祭りの情報を表示するのに適したテンプレートが選択される。
検索結果表示部2238は、上記テンプレート検索部227による検索結果を示す検索結果表示画面を生成し、ユーザ端末1に送信して表示させる。この検索結果表示画面は、上記テンプレート検索部227によりテンプレートデータベース228から検索された文書成型用テンプレートの一覧を示す画面である。ユーザ端末1にこの検索結果表示画面を表示することで、ユーザは、テンプレートの一覧を閲覧し、この中から自身の所望するテンプレートを選択する。ユーザ端末1は、このようにユーザ選択されたテンプレートを文書生成サーバ22に通知する。
テンプレート選択部230は、このようにしてユーザ選択されたテンプレートを、フィードバックデータを成型するためのテンプレートとして選択する。以上のようにして、テンプレート検索部227によりテンプレートデータベース228から抽出され、さらに、テンプレート選択部230により選択されたテンプレート231が、フィードバックデータ用の文書成型用テンプレートに決定される。
成型処理部232は、上記データ選択部224により選択された単位データ群225(フィードバックデータ)を、テンプレート選択部230により選択されたテンプレートに当てはめて、成型処理する。この成型処理されたフィードバックデータの文書は、整形処理部234に渡される。
整形処理部234は、ユーザ端末1に対するユーザ入力に応じて、上記成型処理後のフィードバックデータの文書を整形処理する。この整形処理は、例えば、単位データの並び替え、テキスト情報(文章)の加筆・修正・削除、画像(静止画又は動画)や音楽の追加・修正・削除、レイアウト変更などである。かかる整形処理により完成した文書235が、ユーザ端末1用のフィードバックデータとなる。かかるフィードバックデータは、例えば、スクレイピングデータ又はHP更新データのコンテンツ(単位データ内の文章)の他にも、例えば、データ発生源のURL、サイト名及びページ名(サイトID、ページID等)と、会員情報(会員ID等)と、元データの生成年月日などを含む。フィードバックデータの文書形式は、例えば、テキスト文書、HTML文書、XML文書、PDF文書など、任意のフォーマットであってよい。
フィードバックデータ送信部236は、上記成型及び整形処理されたフィードバックデータ(完成した文書235)を、インターネット5を介して、リクエスト元のユーザ端末1に送信する。
以上図14を参照して説明したように、文書生成サーバ22は、ユーザ端末1のユーザの入力した抽出条件に基づき、当該抽出条件に合致するデータをライブラリ23から抽出して、フィードバックデータとしてユーザ端末1に送信する。これにより、ユーザ端末1のユーザは、情報管理サーバ10で収集、分析、グループピングされた、他者のHP更新データや他ユーザのスクレイピングデータから、ユーザ自身が所望するテーマのデータをフィードバックさせることができる。このフィードバックデータは、公式ユーザのHP更新データ(客観的で不変的な公式の情報)と、他のユーザによるスクレイピングデータ(主観的で新鮮な情報)をも含むものであり、両者を同一テーマで融合させた情報である。従って、ユーザは、自身の所望するテーマに関連する情報として、公式HPにおける公式な情報と、他ユーザによりスクレイピングされた真新しく、新鮮な情報の双方を取得できる。
さらに、ユーザは、自身がスクレイピングした情報群、他ユーザがスクレイピングした情報群、さらには他者のHP更新データを、キーワードに基づき検索し、その中から自分に有用なデータを手動で組み合わせて、フィードバック文書を生成することができる。さらに、フィードバック文書の生成時に、ユーザ端末1を用いて加筆又は修正を行うことで、データを追加することができる。加えて、抽出されたフィードバックデータを、予めフォーマットが定められたテンプレートに当てはめて成型することで、より簡単に質感の高いフィードバック文書を生成することができる。
次に、図15を参照して、本実施形態にかかる情報フィードバックシステムの情報管理サーバ10におけるデータベース構成について説明する。図15は、本実施形態にかかる情報管理サーバ10におけるデータベース構成を示す説明図である。なお、図15の各テーブルにおける「PK」はプライマリキー(主キー)、「FK」はフォーリンキー(外部キー)、「I」はインデックスの略称である。
図15に示すように、一次データベース16は、会員マスタテーブル161と、ジャンルテーブル162と、グループ(個人)テーブル163と、スクレイピングデータテーブル164と、サイト属性マスタテーブル165と、サイト更新データテーブル166と、キーワードテーブル167と、形態素解析テーブル168と、分割データテーブル169と、サイトキーワードテーブル170とを有する。
会員マスタテーブル161は、会員IDをPKとして会員種別の情報を保持している。をPKとして、の情報を保持している。ジャンルテーブル162は、「ジャンルID」をPKとして、ウェブページのジャンルを表す「ジャンル名」の情報を保持している。グループ(個人)テーブル163は、各サービスの「会員ID」及び「グループID」をPKとして、データグループの名称を表す「グループ名称」の情報を保持している。スクレイピングデータテーブル164は、スクレイピングデータに固有に付与される「データID」をPKとして、「会員ID」、スクレイピングデータ取得元のURLである「取得URL」、スクレイピングデータ自体である「データ」、スクレイピングデータの「取得日付」及びスクレイピングデータに付与された「グループID」の情報を関連づけて保持している。サイト属性マスタテーブル165は、HP更新ツール30により更新されるホームページの「サイトID」をPKとして、「会員ID」、ホームページのトップページのURLである「サイトTOP URL」、「ジャンルID」及びHP更新データの「基本属性値」の情報を関連づけて保持している。サイト更新データテーブル166は、「サイトID」と、そのホームページ内のウェブページを示す「サイトサブID」をPKとして、ホームページの「URL」、ホームページ全体の「属性値」、HP更新データ自体である「HPデータ」の情報を関連づけて保持している。キーワードテーブル167は、キーワードごとに固有に付与される「キーワードID」をPKとして、HP管理者により設定されるキーワード自体である「キーワード」、そのキーワードの同義語である「キーワード読み替え」、キーワードの「品詞」の情報を関連づけて保持している。形態素解析テーブル168は、「データID」及び「キーワードID」をPKとして、各種の情報を保持している。分割データテーブル169は、「データID」をPKとして、「サイトID」、「サイトサブID」、HP更新データを分割して得られた文章である「分割HPデータ」の情報を関連づけて保持している。サイトキーワードテーブル170は、「サイトID」、「サイトサブID」及び「管理連番」をPKとして、HP更新データに含まれる「キーワード」の情報を関連づけて保持している。
二次データベース19は、統計結果データテーブル191と、統計サンプルテーブル192と、統計データテーブル193とを有する。統計結果データテーブル191は、「統計グループID」をPKとして、統計グループに属する単位データの「統計値」、「データID」及び「キーワード」の情報を関連づけて保持している。統計サンプルテーブル192は、「統計グループID」をPKとして、「データID」の情報を保持している。統計データテーブル193は、「統計グループID」をPKとして、「統計手法」及び「統計値」の情報を関連づけて保持している。
形態素解析用辞書サーバ14は、分かち書き禁止辞書テーブル142と、不要語辞書テーブル143とを有する。分かち書き禁止辞書テーブル142は、「ジャンルID」及び「管理連番」をPKとして、形態素解析で不要語となる「単語」の情報を保持している。不要語辞書テーブル143は、「ジャンルID」及び「管理連番」をPKとして、形態素解析で分かち書き禁止用語となる「単語」及び「品詞」の情報を関連づけて保持している。
かかる図15に示すデータベース構成では、図示のPK、FKによって上記各テーブルが相互に結合されている。情報管理サーバ10の文書解析サーバ13、多変量解析サーバ17、文書生成サーバ20及び文書生成サーバ22は、一次データベース16、二次データベース19及び形態素解析用辞書サーバ14に格納された上記各テーブルを用いて、上述したそれぞれの機能を実行する。
以上、本実施形態にかかる情報フィードバックシステムの構成と、本システムで実行される情報フィードバック方法、並びに、情報管理サーバ10で実行される情報管理方法について詳細に説明した。以下では、上述した情報フィードバックシステムを、マイページ管理システムの一例である旅行日程表作成システムと、ホームページ更新システムに適用した応用例について、より詳細に説明する。
3.旅行日程表作成システムへの応用例
旅行日程表作成サービスは、ユーザがウェブシステムを利用して、旅行日程表(以下「たびのしおり」という場合もある。)を作成、編集、公開、閲覧等するためのサービスである。この旅行日程表作成サービスは旅行日程表作成システムで実現される。上記情報フィードバックシステムを旅行日程表作成システムに適用することで、旅行日程表を好適に作成して利用できるようになる。
旅行日程表作成サービスは、ユーザがウェブシステムを利用して、旅行日程表(以下「たびのしおり」という場合もある。)を作成、編集、公開、閲覧等するためのサービスである。この旅行日程表作成サービスは旅行日程表作成システムで実現される。上記情報フィードバックシステムを旅行日程表作成システムに適用することで、旅行日程表を好適に作成して利用できるようになる。
まず、旅行日程表作成サービス及びシステムの概要について説明する。旅行を行うときのユーザ動向を解析すると、3つのフェーズ、即ち、(1)旅行に行く前の楽しみ、(2)流行中の楽しみ、(3)旅行から帰った語の楽しみ、が成り立つ。このうち(1)の「旅行に行く前の楽しみ」は、旅行日程の作成に多くの比重を占める。
旅行日程の作成において、従来のウェブサービスでは、(a)パッケージプランにより供給、(b)簡易的にカスタマイズプランを作成(同一のサイト内での旅行商品の組み合わせのみ)、(c)旅行代理店サイドよりのプッシュ型の供給などがあった。旅行業界における大きな流れとして、昨今では、従来のパッケージ型旅行商品に代えて、手配旅行商品へのニーズが高まっており、それらをウェブサービスとして実現させるためには、新たなウェブシステムの仕組みが必要となる。
また、従前では、ユーザはウェブサイトを利用して旅行情報を取得しても、ページ単位で印刷して蓄積し、旅行に携行することが一般的であり、あくまで旅行情報はユーザがまとめて管理していた。さらに、ユーザは自分のニーズに合った旅行情報に偶然に出会うか、又は、パッケージプランで偶然発見するかしなければ、見知らぬ土地の旅行情報をコントロールできなかった。
このため、ユーザが簡単に利用可能で、ライフスタイルとしての旅行に関する行動を、ウェブシステム上において旅行日程表を作成、利用する行為に置き換えることができ、しかも、関連のある旅行情報とユーザとの出会いを高めることが可能なシステムが求められていた。
そこで、本実施形態では、情報フィードバックシステムを旅行日程表作成システムに適用して、ユーザによる旅行情報の取得を容易にし、さらに、システム内で旅行情報を循環させることで、ユーザとサイトとのマッチングを行うものである。本実施形態にかかる旅行日程表作成システムにおいて、旅行日程表を作成して旅行する場合のフローは、大まかには、(1)旅行情報の収集、(2)旅行情報の整理、(3)旅行情報の投稿・編集、(4)収集した旅行情報を元に旅行日程表を作成、(5)旅行日程表(紙冊子媒体、電子データ、モバイル通信等)を持って旅行に行く、(6)マイページ管理サービスにより旅行日程表をユーザごとに蓄積する、といった流れになる。
旅行日程表を簡単に作成するためには、事前に大量の旅行情報を収集・蓄積する必要がある。そこで、本実施形態では、旅行日程表作成システムを上記情報フィードバックシステムに組み込むことで、上記(1)の旅行情報の収集におけるユーザのシステムへの参加を促進する。そして、旅行日程表作成システムを用いた各ユーザの旅行情報の収集及び他ユーザへの発信行動により、システム内で旅行情報を収集・蓄積し、さらに、この蓄積情報を目的に応じて加工して、各ユーザにフィードバックする。
このように、旅行情報の充実とフォーマット化を図るために、上述したHP更新ツール30を用いた情報収集システムと、スクレイピング部50を用いたスクレイピングによる情報収集システムを備えた情報フィードバックシステムを利用する。かかる情報フィードバックシステムを利用することで、システム内で循環する各種の旅行情報(HP更新データ、スクレイピングデータ)のフィードバックを受けることができる。また、収集した情報、フィードバックされた情報を、旅行日程表に関する所定のフォーマットに合わせて編集し、また、相互に関連づけられた各種の情報を、旅行日程表の出力フォーマットに適合させることで、システム内で循環する情報のフォーマット化も図れる。
このように旅行日程表作成システムと情報フィードバックシステムとを結合させることで、旅行情報の充実とフォーマット化が図れる。また、ユーザは、旅行における立ち寄り先(宿泊先、観光地等)の情報、交通機関によるアクセス情報、旅行先でのイベント情報などの各種情報を、スクレイピングにより容易に収集できるとともに、関連する情報のフィードバックを受けることもできる。
以上のように、本実施形態にかかる情報フィードバックシステムを旅行日程表作成システムに適用することで、その利用度が高まるほど、ユーザは、ユーザ独自の旅行プランを容易に作成できる。さらにユーザ独自のプランを旅行中に携行でき、旅行から帰った後には、旅行中に編集した旅行日程表がマイライブラリに保存されており、これを利用できる。加えて、旅行日程表を電子データとして公開して、旅行仲間と旅行日程表を簡単に共有できる。また、旅行業者側にとっては、手配旅行型のプラン作成と見積もりシステムとの連動により、旅行代理店における新しいサービス形態を想像できる。また、上記生成される旅行日程表は、旅行ガイド業務のツールとしても有効に利用できる。
上述したように、旅行を計画する際に旅先での行動の基本となる旅行日程表を作成し、それに沿って旅を楽しむことは、ユーザにとって、旅行の前後に渡って充実した時間を過ごす一助となる。本実施形態にかかる旅行日程表作成システムでは、旅行前には、充実した内容の旅行情報を容易に収集して旅行日程表を作成することができる。また、旅行中には、旅行日程表を紙媒体に印刷して携行したり、情報管理サーバ10内にライブラリ化してある旅行日程表を、携帯端末にダウンロードして利用したりできる機能を有している。特に、携帯端末による旅行日程表には、インターネット5を介した通信によって、リッチコンテンツであるビデオ動画や音声案内等を供給することができる。
ところで、旅行日程表の要素は概ね、(1)スタート場所、(2)立ち寄り先、(3)宿泊場所、(4)移動手段の4つに大別される。旅行日程表作成システムにおける旅行日程表の作成・編集時には、これら4つの要素を、スクレイピングによって任意のウェブページからインターネット5を介して取得して、目的に応じて分類する。スクレイピングされた各要素は、旅行日程表作成システムによって4つの要素のテンプレートフォーマットによって編集され、各ユーザのマイページにグルーピングされる。旅行日程表のテンプレート上で目的に応じた条件を指定して、上記各要素を埋め込むことで、旅行日程表が生成される。
かかる旅行日程表作成システムを上記情報フィードバックシステムに組み合わせることで、(1)情報発信ユーザ、情報利用ユーザ、他の情報発信ユーザなどといった多数のユーザの情報活用行動によって、ユーザ側からシステム側に情報を収集して解析及びグループ化する段階、(2)システム側からユーザ側に情報をフィードバックする段階、(3)そして更にスクレイピング等により情報を再活用する段階、といった情報の循環が生じる。このため、ユーザが情報発信すればするほど、関連情報を取得することができるといったGIVE&Takeシステムを構築することも可能となる。また、ホームページ管理者が、旅行日程表に利用できる情報発信を行うと、自身のホームページに関連するコンテンツをフィードバックデータとして得られるようにしてもよい。この場合、発信される情報に付与される著作権の使用を、当該サービスの利用範囲において自動的に許可するというルールを付加することもできる。
また、旅行日程表に付加される立ち寄り先情報として、例えば、(1)旅行日程中に、立ち寄り先付近でのイベント情報を、ユーザの携帯端末に自動的に通知する、(2)立ち寄り先でのお得情報も自動的に付加する、(3)情報供給者のホームページにも、関連イベント情報やお得情報をフィードバックする、などといった、予期しない旅行の提案(サポート)をユーザに提供することもできる。
次に、図16を参照して、本実施形態にかかる旅行日程表作成システムに適用された情報フィードバックシステムの概要について説明する。図16は、本実施形態にかかる旅行日程表作成システムに適用された情報フィードバックシステムを示す概略図である。
図16に示すように、情報フィードバックシステムでは、上述したHP更新ツール30によって、サイト管理者のホームページ340の一部又は全部が更新されると(S100)、更新後の新たなホームページ341が公開される。このサイト更新時には、HP更新ツール30がインストールされた更新ウェブサーバ3から情報管理サーバ10にHP更新データが自動送信される(S102)。また、更新ウェブサーバ3は、情報管理サーバ10から、サイト管理者により予め設定されたキーワード(例えば、周辺情報、イベント情報、お知らせなどのジャンル)に基づいて、ホームページの関連情報が自動的にフィードバックされる(S104)。このフィードバックデータは、サイト管理者のホームページ341内に付加されて表示される、或いは、当該ホームページにリンクされたウェブページ342に表示される。
一方、旅行日程表作成システムを利用してユーザAが旅行日程表を作成する場合、ユーザAは、ユーザ端末1にインストールされたブラウザプラグインであるスクレイピング部50を利用して、公開されている任意のウェブページ351、352、353から、旅行情報をスクレイピングして、当該スクレイピングデータを、テーマ別にグループ化してマイライブラリAに蓄積する(S106)。このマイライブラリは、例えば、上述したマイページ管理用の文書生成サーバ22内に設けられる。他のユーザB、C、Dも同様にして、自身のマイライブラリB、C、Dにスクレイピングデータを蓄積する。これら各ユーザA、B、C、DのマイライブラリA、B、C、Dに蓄積されるスクレイピングデータは、スクレイピング時に、スクレイピング部50により情報管理サーバ10にも自動的に送信されて、データベース16、19に蓄積される(S108)。
情報管理サーバ10は、上述したように、データベース16、19に蓄積されたスクレイピングデータやHP更新データを解析して、統計グループにグループピングしておく。情報管理サーバ10は、旅行日程表を作成するユーザAのユーザ端末1からのリクエストに応じて、データベース16、19に蓄積及びグルーピングされたデータのうち、ユーザAが求めるテーマに関連する旅行情報を、フィードバックデータとしてユーザ端末1に送信したり(S110)、ユーザAの旅行日程表に追加して表示させたりする(S112)。
旅行日程表作成システムで旅行日程表を作成するときには(S114)、立ち寄り先と、その推奨滞在時間、説明、住所、連絡先等を入力する。具体的には、ユーザAは、まず、旅行日程表のテンプレートにあるスケジュール項目を選択する。次いで、ユーザAは、所定の地図情報サービスを提供するシステム361から得られる地図情報を利用して、立ち寄り先を地図上に住所に基づきプロットする。さらに、ユーザAは、旅行経路付近の観光スポット情報をフィードバックデータとして取得して、これを適宜参照しながら、地図上で立ち寄り先を回る順番をクリックして決定する。その後、ユーザAは、旅行全体のスケジュール調整を行う。このような旅行日程表の作成時には、上記情報管理サーバ10からフィードバックされた旅行情報を参照又は旅行日程表に付加してもよい。
このようにして旅行日程表を完成させた後に(S316)、ユーザAは旅行を実行し(S318)、その旅行中又は旅行終了後に旅行日程表が適宜補正される(S320)。例えば、ユーザ端末1は、モバイル機器による旅行中の実行動のトレースデータや電子決済、スタンプラリー等から得られた時間/位置情報に基づいて、作成した旅行日程表と現実の行程とのずれを記憶し、旅行日程表の補正を行うことができる。旅行日程表の補正データは、上記データベース16、19に送信されて、データの検証及び修正がなされる(S322)。
また、上記完成した旅行日程表は、ユーザAの公開指定により公開される(S324)。公開手法としては、例えば、PDF文書等の電子データで外部機器に出力する、PCサイト又は携帯サイトで公開する、モバイル機器に転送するなどが挙げられる。ウェブ上で公開された旅行日程表は、再度、スクレイピングの対象となる。
以上のように、旅行日程表作成システムに情報フィードバックシステムを適用することで、各ユーザが旅行日程表を作成する際に、各ユーザが旅行情報のスクレイピングを行うことで、当該スクレイピングデータがシステム内で循環する。また、サイト管理者によるHP更新によってもHP更新データがシステム内で循環する。ユーザは、循環する情報から旅行日程表に必要な旅行情報を、スクレイピング又はフィードバック等により簡単に収集して、充実した旅行情報を得ることができる。また、旅行日程表作成システムで提供される所定のテンプレートに旅行情報を入力して旅行日程表を作成し、また、情報管理サーバ10から所定のフォーマットで旅行情報をフィードバックすることで、システム内で循環する旅行情報を所定のフォーマットにフォーマット化することができる。
次に、図17〜図26を参照して、本実施形態にかかる旅行日程表作成システムにおける旅行日程表の作成フローについて説明する。図17は、本実施形態にかかる旅行日程表の作成フローを示すフローチャートである。図18〜図26は、本実施形態にかかる旅行日程表の作成時にユーザ端末1に表示されるGUI画面例である。
図17に示すように、まず、ユーザは、旅行日程表作成システムにより提供される旅行日程表作成サービスを利用するための会員登録を行う(S200)。この会員登録では、ユーザはユーザ端末1を操作して、当該サービスのサイト内の会員登録ページから、登録フローに従って必要事項を入力して登録していく。図18に示すように、個人会員、法人会員とも登録可能であり、個人会員、法人会員ごとに定められたユーザ情報を記入する。会員登録が完了すると、情報管理サーバ10により会員番号が自動的に登録され、会員ID及びパスワードが発行される。
次いで、サービス利用時には、図19に示すように、ユーザは、上記旅行日程表作成サービスのサイト内のログイン画面401において、会員登録時に発行された会員ID及びパスワードを入力してログインボタン402を押下し、当該サイトにログインする(S202)。ログインが完了すれば、当該サイトによる旅行日程表作成サービスを利用可能となる。
その後、図20に示すように、ユーザは、サイト内の機能メニュー選択画面403において、所望の機能メニューを選択する(S204)。機能メニューとしては、例えば、(1)情報管理サーバ10に保存されているマイページへの移行、(2)関連するソフトウェアのダウンロード(例えば、HP更新ツール30や、スクレイピング用のブラウザプラグイン(スクレイピング部50に相当))、(3)旅行日程表の使用方法の参照、(4)旅行日程表の作成、(5)利用規約の参照、などがある。
上記機能メニューで(4)旅行日程表の作成が選択されると、旅行日程表の作成が開始される(S206)。この場合、図21に示すように、旅行日程表の作成方法選択画面404が表示され、ユーザは、旅行日程表を新規に作成するか、或いは、公開されている既存の旅行日程表を元に作成するかを選択する。後者の場合は、公開されているユーザ自身又は他ユーザの旅行日程表を閲覧するためのライブラリの表示画面(図示せず。)に移行する。
一方、前者の新規作成の場合は、図22に示すように、旅行の基本情報入力画面405が表示され、ユーザは、この基本情報入力画面405に対して、旅のタイトル、方面、出発日、帰着日、メンバー構成、メンバー表などの旅の基本情報を入力する(S208)。全ての基本情報の入力を完了して、次へのボタン406を押下すると、図23に示すように、旅行開始場所と集合時間の入力画面410が表示される。この入力画面410にて、旅行開始場所と集合時間を指定する(S210)。この指定は、住所入力画面411にて住所で指定してもよいし、所定の地図情報サービスの地図表示画面412にて地図上の所定位置をクリックしてもよいし、或いは、駅・空港名入力画面413で、駅・空港名を入力してもよい。
次いで、ユーザは、旅行日程表における立ち寄り先、宿泊先などを選定する(S212)。具体的には、まず、図24に示す立ち寄り先の指定方法の選択画面420にて、立ち寄り先の指定方法を選択する。指定方法には、既存の立ち寄り先リストから立ち寄り先を取り込む方法と、新たに立ち寄り先リストを新規作成する方法がある。選択画面420にて前者の方法を選択した場合には、立ち寄り先リストの選択画面422に進み、既存の立ち寄り先リストのいずれかを選択すると、立ち寄り先の順番の指定方法選択画面430に進む。一方、選択画面420にて後者の立ち寄り先リストの新規作成を選択した場合には、スクレイピングライブラリ画面424に進む。
このスクレイピングライブラリ画面424にて、スクレイピングボタン426を押下すると、スクレイピング画面(図示せず。)に移行し、上述のスクレイピング部50が起動して、図5〜図7に示した手法で、ユーザ端末1がアクセス可能な任意のウェブサイト内の情報をスクレイピングすることができる。これにより、ユーザは、自身が所望する旅行の立ち寄り先を選定するために、各種のウェブサイトを訪問し、立ち寄り先の候補の情報をスクレイピングデータとして収集できる。収集したスクレイピングデータは、ユーザ端末1から情報管理サーバ10のマイページ管理部(例えば文書生成サーバ22)が管理するスクレイピングライブラリにアップロードされて、保存される。また、当該スクレイピングデータは、ユーザ端末1から文書解析サーバ13にも自動的に送信される。
このようにしてスクレイピングにより立ち寄り先の候補地に関する情報を収集して、立ち寄り先リストを新規生成した後に、スクレイピングライブラリ画面424のボタン428を押下すると、上記立ち寄り先リストの選択画面422に進み、既存の立ち寄り先リストのいずれかを選択すると、立ち寄り先の順番の指定方法選択画面430に進む。
次いで、立ち寄り先の順番を指定する(S214)。具体的には、まず、立ち寄り先の順番の指定方法選択画面430で、当該順番の指定方法を選択する。この指定方法は、立ち寄り先リスト内でユーザが手動で順番を入力する方法と、地図上で立ち寄り先の並び順を指定する方法とがある。前者の指定方法を選択した場合には、図24に示す立ち寄り先の順番入力画面232に進み、立ち寄り先リストに含まれる立ち寄り先の候補のうち、ユーザ所望の立ち寄り先に対して、所望の順番を入力する。この順番入力画面232でボタン434を押下すると、図25に示す地図上で立ち寄り先順を指定する画面438に進み、ボタン436を押下すると、図25に示す立ち寄り先の調整画面440に進む。
一方、立ち寄り先の順番の指定方法選択画面430で後者の指定方法を選択した場合には、図25に示す地図上で立ち寄り先順を指定する画面438に進む。この画面438では、ユーザは、地図上に表示された複数の立ち寄り先の候補を、立ち寄る順番に従って、マウスのポインタで順次指定することで、立ち寄り先順を指定する(S216)。なお、この画面438にて、所望の立ち寄り先の住所を入力して検索ボタン439を押下すると、その立ち寄り先が地図上に表示される。このような画面438における地図上の指定により、ユーザは、適切な立ち寄り順を容易に指定できる。この画面438で立ち寄り先順の指定を完了して、ボタン437を押下すると、図25に示す立ち寄り先の確認画面440に進む。
次いで、ユーザは、旅行日程表の調整作業を行う(S218)。まず、図25に示す立ち寄り先の確認画面440では、立ち寄り先と宿泊先が立ち寄り順に一覧表示され、それらの滞在時間と、それらの間の移動手段と移動時間も表示される。ユーザはこの一覧を閲覧して、行程に無理がないなどを確認する。この確認画面440でボタン442が押下されると、上記画面438に戻り、立ち寄り先の並び順を調整できる。また、確認画面440で確認ボタン444が押下されると、図25に示す地図上での経路の確認画面446が表示され、ユーザは地図上で経路を再確認できる。この確認画面446において確認ボタン448が押下されると、立ち寄り先の調整は終了する。
その後、旅行への持ち物チェックの入力画面(図示せず。)や、プライベートなお知らせ及び注意事項(公開時非表示)の入力画面(図示せず。)を経て、旅行日程表の出力プレビューが表示される。これにより、旅行日程表が完成する。
次いで、ユーザの保存指示に応じて、情報管理サーバ10は、完成した旅行日程表を、該当ユーザのマイページの旅行日程表ライブラリに保存する(S220)。さらに、ユーザは、図26に示す旅行日程表ライブラリ表示画面250にて、公開チェックボックスへのチェック有無により、上記作成した旅行日程表の公開の可否を選択する(S222)。
その後、図26に示す出力形式選択画面452にて、旅行日程表の出力形式を選択して、選択された出力形式で旅行日程表を出力する(S224)。出力形式選択画面452にて、紙媒体(小冊子)での出力、又は、PDFファイルの生成が選択された場合には、テンプレート選択画面454に進み、この画面454で選択されたテンプレートに旅行日程表を当てはめて成型加工する。その後、成型された旅行日程表は、プレビュー画面を経て、紙媒体に印刷される。或いは、メール送信先指定画面456で指定されたユーザのPCに、旅行日程表のPDFファイルが電子メールで送信される。また、上記出力形式選択画面452にて、携帯電話へメール送信が選択された場合には、メール送信先指定画面458で指定されたユーザの携帯電話に、旅行日程表の保存先のライブラリのURLが電子メールで送信される。
ユーザは、上記のようにして作成された旅行日程表を携行して、旅行に行き(S226)、旅先で適宜旅行日程表を参照ながら立ち寄り先を廻る。また、旅行中や旅行から戻った後に、ユーザは、旅行日程表を適宜修正する(S228)。
以上、旅行日程表の作成フローについて説明した。旅行日程表の作成時には、ユーザは必要な旅行情報を得るために任意のタイミングで、公開ウェブサイトからのスクレイピングデータの取得や、情報管理サーバ10からのフィードバックデータの取得を実行できる。フィードバックデータを取得する場合には、ユーザ端末1を操作して、上記抽出条件として所望の旅行情報のジャンルを表す1又は2以上のキーワード(地名、旅館、など)を入力して、情報管理サーバ10の文書生成サーバ22に対してフィードバックデータの送信をリクエストする。文書生成サーバ22は、このリクエストに応じて、当該キーワードに関連するデータ群(スクレイピングデータ又はHP更新データのコンテンツ)をフィードバックする。これにより、ユーザは、必要な旅行情報を容易に収集できる。
次に、図27及び図28を参照して、本実施形態にかかる情報フィードバックシステムにおける旅行日程表作成時のフィードバック処理フローについて説明する。図27は、本実施形態にかかる旅行日程表作成時のフィードバック処理フローを示すフローチャートである。図28は、本実施形態にかかる情報フィードバックシステムにおける旅行日程表作成時のデータの流れを示す説明図である。
図27及び図28に示すように、まず、ステップS1では、各ユーザは旅行日程表を作成するために必要な各種の旅行情報を収集するために、各ユーザが所有する各ユーザ端末1によって、一般ウェブサーバ2により公開されている任意のウェブページから、各ユーザが所望する情報をスクレイピングする(S1)。このスクレイピング処理は、ユーザ端末1にインストールされたスクレイピング部50(ブラウザプラグイン)によって実行される。スクレイピング時には、図5〜図7に示したように、スクレイピング部50によって、スクレイピング対象のウェブページ内の文章が、論理的及び物理的に複数の単位データ(文章)に区分され、区分された状態が表示され、さらに、当該区分された単位データをスクレイピングするための取込ボタン331が表示される。従って、ユーザは、適切な単位で区切られた所望の情報を容易にスクレイピングできる。
次いで、ステップ2では、各ユーザ端末1は、スクレイピングデータとその属性情報(ユーザ属性等)を、スクレイピング受信サーバ11に自動的に送信する(S2)。このとき、各ユーザ端末1は、スクレイピングデータを、旅行日程表作成サービス(マイページ管理サービスの一例)を提供する文書生成サーバ22にも送信する。文書生成サーバ22は、受信したスクレイピングデータを、それぞれのユーザのマイページ(旅行日程表ライブラリ)に保存する。
さらに、ステップ3では、スクレイピング受信サーバ11は、各ユーザ端末1から受信したスクレイピングデータと属性情報を順次、文書解析サーバ13に提供する(S3)。その後、ステップ4では、文書解析サーバ13は、形態素解析用辞書サーバ14が提供される辞書を利用しながら、各ユーザ端末1から順次取得したスクレイピングデータを形態素解析して、単語・キーワードを抽出し、単位データ(スクレイピングデータの元データと、抽出した単語・キーワードと、属性情報とを含む)を、一次データベース16に蓄積していく(S4)。
次いで、ステップ5では、多変量解析サーバ17は、一次データベース16に蓄積された複数の単位データを多変量解析して、当該単位データ相互の統計的関連性に基づいて、当該単位データを複数の統計グループにグルーピングし、解析結果及びグルーピング結果を二次データベース19に保存する(S5)。
さらに、ステップ6では、旅行日程表作成サービスを提供する文書生成サーバ22は、ユーザ端末1からフィードバックデータの取得リクエストを受信すると、当該リクエストに含まれる抽出条件に基づき、二次データベース19内の単位データを検索して、抽出条件と統計的関連性の高い統計グループに属する単位データを抽出する(S6)。ここで、抽出条件は、ユーザ端末1に対して入力されたキーワードであり、ユーザが所望する旅行情報のジャンル、テーマ等を表す。ユーザは、このキーワードとして任意の単語を入力することができる。また、ユーザ端末1は、当該キーワードとして、旅行日程表の作成時にユーザ入力された旅行の基本情報(ユーザ属性、旅行先、旅行日時、メンバー、出発地、帰着地、メモ、コメント等)を、文書生成サーバ22に送信してもよい。これにより、ユーザは自身の旅行日程表に関連する情報を、フィードバックデータとして取得できるようになる。また、文書生成サーバ22は、上記抽出された単位データのうち、ユーザ選択された単位データ(例えば、ユーザが旅行日程表に付加したいと判断したデータ)のみを選択し、その他の単位データを削除してもよい。
その後、ステップ7では、文書生成サーバ22は、抽出された単位データを、そのデータ内容に適したテンプレートで成型処理し、さらに、ユーザ入力に基づき整形処理して、フィードバックデータを生成する(S7)。文書生成サーバ22は、ユーザ端末1から文書成型用のテンプレートの抽出条件を受信する。この抽出条件は、例えば、上述した旅行日程表の出力デザイン、立ち寄り先の書式、アクセス方法書式、宿泊先書式、お食事書式、体験書式、クーポン書式などである。また、抽出条件は、上記単位データの抽出条件と同一のキーワードにすることもできる。さらに、文書生成サーバ22は、ユーザ端末1から受信した抽出条件に基づいてテンプレートDB228内のテンプレートを検索し、検索されたテンプレートの中からユーザ選択された最適なテンプレートを用いて、フィードバックデータを成型する。さらに、文書生成サーバ22は、ユーザ入力に基づいて、データの並び替え、画像等のコンテンツを追加、削除、変更する整形処理を行う。
次いで、ステップS8では、文書生成サーバ22は、上記生成したフィードバックデータを、リクエスト元のユーザ端末1に送信する(S8)。ユーザ端末1は、例えば、受信したフィードバックデータを、旅行日程表のテンプレートの所定位置に付加して、フィードバックデータが反映された旅行日程表を表示する。ユーザは、このようにフィードバックデータとして任意の旅行情報を適宜取得して、旅行日程表を完成させる。完成した旅行日程表は、ユーザ端末1から文書生成サーバ22に送信されて、当該ユーザのマイページの旅行日程表ライブラリに保存される。
さらに、ステップ9では、文書生成サーバ22は、ユーザ端末1から受信したユーザ指示に基づき、上記ライブラリに保存された旅行日程表の公開条件を設定し、旅行日程表を公開する(S9)。次いで、ステップS10では、各ユーザ端末1は、公開された自身又は他人の旅行日程表を再利用したり、当該旅行日程表からスクレイピングしたりして、再活用する(S10)。この結果、公開された旅行日程表からのスクレイピングデータは、上記S2と同様にして、ユーザ端末1からスクレイピング受信サーバ11に送信されて、以降は同様に処理される(S11)。
4.ホームページ更新システムへの応用例
ホームページ更新サービスは、所定のホームページ管理者が、入力端末4及び更新ウェブサーバ3を用いて、当該更新ウェブサーバ3で公開されている自身のホームページ内のコンテンツを容易に更新できるようにするためのサービスである。このHP更新サービスは、上記HP更新ツール30がインストールされた更新ウェブサーバ3と入力端末4とからなるHP更新システムで実現される。上記情報フィードバックシステムをHP更新システムに適用することで、HP管理者は、自身のホームページに関連する情報をフィードバックデータとして自動的に取得して、当該ホームページの内容を充実させることができるようになる。
ホームページ更新サービスは、所定のホームページ管理者が、入力端末4及び更新ウェブサーバ3を用いて、当該更新ウェブサーバ3で公開されている自身のホームページ内のコンテンツを容易に更新できるようにするためのサービスである。このHP更新サービスは、上記HP更新ツール30がインストールされた更新ウェブサーバ3と入力端末4とからなるHP更新システムで実現される。上記情報フィードバックシステムをHP更新システムに適用することで、HP管理者は、自身のホームページに関連する情報をフィードバックデータとして自動的に取得して、当該ホームページの内容を充実させることができるようになる。
まず、図29〜図33を参照して、本実施形態にかかるHP更新システムにおけるHP更新フローについて説明する。図29は、本実施形態にかかるHP更新フローを示すフローチャートである。図30〜図33は、本実施形態にかかるHP更新時に入力端末4に表示されるGUI画面例である。
図29に示すように、まず、所定のホームページを管理するHP管理者は、HP更新システムにより提供されるHP更新サービスを利用するための会員登録を行う(S300)。この会員登録では、ユーザは入力端末4を操作して、当該サービスのサイト内の会員登録ページから、登録フローに従って必要事項を入力して登録していく。上述した図18の例と同様に、個人会員、法人会員とも登録可能であり、個人会員、法人会員ごとに定められたユーザ情報を記入する。会員登録が完了すると、システム運営者により会員番号が自動的に付与され、会員ID及びパスワードが発行される。
その後、当該サービスのダウンロードサイトから、HP更新ツール30を更新ウェブサーバ3にダウンロードして、マニュアルに従ってHP管理者のウェブサーバにインストールする(S302)。
次いで、サービス利用時には、上述した図19の例と同様に、HP管理者は、上記HP更新サービスのサイト内のログイン画面において、会員登録時に発行された会員ID及びパスワードを入力してログインボタンを押下し、当該サイトにログインする(S304)。ログインが完了すれば、当該サイトによるHP更新サービスを利用可能となる。
ログイン後、HP管理者は、入力端末4を操作してHP更新ツール30を使用し、自身のホームページのコンテンツを新規作成又は更新する作業を行う(S306)。このHP更新作業についてより詳細に説明する。上記サイトにログインすると、図30に示すように、入力端末4の表示画面に、HP管理者自身のホームページ内のコンテンツを管理するためのコンテンツ管理画面500が表示される。このコンテンツ管理画面500は、ホームページを構成する複数のウェブページに関する属性情報が表形式で一覧表示されている。このコンテンツ管理画面500にある「新しく記事を作成する」ボタンを押下すると、ホームページ内のウェブページを編集するための編集画面502が表示される。この編集画面502では、ウェブページのタイトル、本文のテキスト情報、画像、動画などのコンテンツを、所定のフォーム内に入力するだけで、HTML文書のタグ情報などを記載しなくても、そのウェブページ内のコンテンツを容易に更新できる。
このようにして編集画面502で入力されたコンテンツは、HP管理者のホームページのHTMLファイルを保持する更新ウェブサーバ3に送信され、HTML文書内に書き込まれる。この結果、更新されたホームページが更新ウェブサーバ3から公開される。図30に示すように、公開されたホームページのトップページ504に、新着情報として更新データに関する記事が記載され、HP更新データにより更新されたウェブページ506には、そのHP更新データのコンテンツが掲載される。このように、HP更新ツール30を用いて更新作業を行うことで、容易にホームページのコンテンツを更新できるとともに、編集画面502で入力した文章や写真画像が、ユーザの意図した態様で公開されるという利点がある。
上記のようにしてHP更新ツール30を用いてホームページの更新がなされると、更新ウェブサーバ3のHP更新ツール30は、当該更新で更新された部分のコンテンツ(HP更新データ)と、その属性情報を、情報管理サーバ10のHP更新データ受信サーバ12に自動的に送信する(S308)。このHP更新データと属性情報は、情報管理サーバ10の文書解析サーバ13及び多変量解析サーバ17により解析されてデータベース16、19に保存される。以上のようなホームページの更新作業を行う度に、HP更新データが更新ウェブサーバ3から情報管理サーバ10に送信されて蓄積される。
また、HP管理者の属性情報は、HP管理者のホームページのジャンルやキーワードなどであり、HP管理者によりホームページのサイト単位、ウェブページ単位で入力される。例えば、HP管理者が店舗経営者である場合、その店舗のホームページの属性情報は、例えば、店舗名、住所、業種、主商品などである。
また、HP管理者は、情報管理サーバ10からのフィードバックデータを受けるために、フィードバック条件を設定する(S310)。このフィードバック条件は、上述した抽出条件(情報管理サーバ10のデータベースに蓄積された単位データを抽出するための条件)を含むものである。
ここで、フィードバック条件の設定方法の具体例について説明する。例えば上述したHP更新ツール30によるコンテンツ管理画面500で所定の操作を行うと、図31に示すように、フィードバック条件を設定するためのフィードバック条件設定画面510が表示される。このフィードバック条件設定画面510では、例えば、「イベント情報」、「周辺情報」、「お土産情報」、「歴史的情報」という4つの情報群が、フィードバックを受ける情報として選択可能となっている。この情報群は、フィードバック対象となる情報範囲を指定するものであり、上記抽出条件のキーワードに相当する。図31の例では、「イベント情報」と「周辺情報」が選択されている。さらに、このフィードバック条件設定画面510では、各情報群に付随して表示されている詳細設定ボタン512を押下すると、その情報群の取得条件を設定可能となっている。「イベント情報」の取得条件としては、例えば、イベントが開催される地域、期間、業種、関連などを設定できる。また、「周辺情報」の取得条件としては、例えば、地域、業種、周辺情報のジャンルなどを設定できる。上記フィードバックを受けたい情報群の選択に加え、取得条件を設定することで、所望の情報をより高い精度で取得可能となる。このようにしてフィードバック条件を予め設定しておくことで、HP管理者は、自身のホームページに関連する情報を自動的に取得できるようになる。
次いで、情報管理サーバ10は、上記設定されたフィードバック条件に基づいて、データベース16、19に蓄積されている単位データの一部を抽出して、フィードバックデータとして更新ウェブサーバ3に送信する。これにより、更新ウェブサーバ3は、HP管理者のホームページに関連するフィードバックデータを自動的に受信する(S312)。
さらに、HP管理者は、上記自動的に受信したフィードバックデータの公開条件(公開の可否、自動公開等)を設定する(S314)。図32は公開データライブラリー画面520を示す。図32に示すように、公開データライブラリー画面520には、フィードバックデータとして受信した4つの「周辺情報」と3つの「イベント情報」が表示されており、これらのフィードバックデータを公開するか否かを個別に設定することができる。また、公開データラブラリ画面520では、フィードバックデータ、旅行日程表を含む各種データの公開、編集、出力、複製を実行できるようになっている。フィードバックデータ等を編集した場合には、当該データは自動的に情報管理サーバ10に送信される。
その後、上記S314で設定された公開条件に従って、更新ウェブサーバ3から、フィードバックデータが、HP管理者のホームページに関連づけて公開される(S316)。フィードバックデータは、HP更新ツール30により提供されるフィードバックデータ用の公開ページで、テンプレートデザインに従って公開される。例えば、図33に示すように、HP管理者のホームページ内のフィードバックデータ用の公開ページ530には、上記受信したフィードバックデータとして、3つのイベント情報が公開されている。このイベント情報ページ530では、イベント情報の概要のみが記載されており、各イベントを選択すると、イベント詳細情報ページ532が表示され、各イベントの詳細情報が表示される。
次に、図34及び図35を参照して、本実施形態にかかる情報フィードバックシステムにおけるホームページ更新に伴うフィードバック処理フローについて説明する。図34は、本実施形態にかかるホームページ更新に伴うフィードバック処理フローを示すフローチャートである。図35は、本実施形態にかかる情報フィードバックシステムにおけるホームページ更新時のデータの流れを示す説明図である。
図34及び図35に示すように、まず、ステップS21では、HP管理者の更新ウェブサーバ3は、入力端末4からの指示に基づき、当該HP管理者の所定のホームページを更新する(S21)。HP管理者は、入力端末4を操作して、HP更新ツール30を用いて、自身のホームページの更新データを入力する。すると、入力端末4は、更新ウェブサーバ3に更新データを送信し、これを受信した更新ウェブサーバ3は、当該HP管理者のホームページのHTMLファイル内のデータを更新する。
次いで、ステップS22では、更新ウェブサーバ3は、上記ホームページの更新に応じて、HP更新データとその属性情報(サイト属性、ページ属性等)をHP更新データ受信サーバ12に自動的に送信する(S22)。かかるHP更新データの送信は、各更新ウェブサーバ3でホームページの更新が発生する度に実行される。
さらに、ステップS23では、HP更新データ受信サーバ12は、各更新ウェブサーバ3から受信したHP更新データと属性情報を順次、文書解析サーバ13に提供する(S23)。
その後、ステップS24では、文書解析サーバ13は、形態素解析用辞書サーバ14が提供される辞書を利用しながら、更新ウェブサーバ3から順次取得したHP更新データを形態素解析して、単語・キーワードを抽出し、さらに、HP更新データの意味を推論して、HP更新データの文章を単位データに分割し、その単位データ(HP更新データの元データと、抽出した単語・キーワードと、分割された文章と、属性情報とを含む)を、一次データベース16に蓄積していく(S24)。
次いで、ステップS25では、多変量解析サーバ17は、一次データベース16に蓄積された複数の単位データを多変量解析して、当該単位データ相互の統計的関連性に基づいて、当該単位データを複数の統計グループにグルーピングし、解析結果及びグルーピング結果を二次データベース19に保存する(S25)。
その後、ステップS26では、文書生成サーバ20は、定期的に又は入力端末4からのリクエストに応じて、抽出条件データベース200に予め設定された抽出条件に基づき、二次データベース19内の単位データを検索して、当該抽出条件と統計的関連性の高い統計グループに属する単位データを抽出する(S26)。ここで、抽出条件は、HP管理者が予め登録したキーワードなど(上述したフィードバック条件、取得条件など)である。HP管理者は、自身のホームページのジャンル・キーワードを抽出条件として設定しておくことで、当該ホームページに関連性の高いデータのフィードバックデータを取得可能となる。しかし、ホームページと無関係のキーワードを設定してもよい。
さらに、ステップS27では、文書生成サーバ20は、文書生成サーバ22から、抽出条件に関連する旅行日程表を取得する(S27)。文書生成サーバ22は、マイページ管理サービスの一例として旅行日程表作成サービスを提供するサーバであり、各ユーザの作成した旅行日程表を、ユーザごとのマイライブラリに保存している。文書生成サーバ20は、かかる文書生成サーバ22から、上記単位データの抽出に用いた抽出条件(キーワード)と関連のあるコンテンツを有する旅行日程表を受信する。
次いで、ステップS28では、文書生成サーバ20は、S26で抽出した単位データと、S27で取得した旅行日程表を、それらのデータ内容に適したテンプレートで成型処理し、さらに、必要に応じてユーザ入力に基づき整形処理して、フィードバックデータを生成する(S28)。文書生成サーバ20は、生成したフィードバックデータをHP更新データ送信サーバ21に提供する。
さらに、ステップS29では、HP更新データ送信サーバ21は、HP管理者向けに生成したフィードバックデータを、HP管理者の更新ウェブサーバ3に送信する(S29)。その後、ステップS30では、更新ウェブサーバ3は、上記S21で更新されたHP更新データと、S29で受信したフィードバックデータを、HP管理者のホームページ内にコンテンツとして付加して公開する(S30)。このように公開されたデータは、上記のスクレイピングの対象となる。
以上、本実施形態にかかる情報フィードバックシステムとその動作、及び、情報フィードバックシステムを適用したスクレイピングシステム、マイページ管理システム、旅行日程表作成システム、ホームページ更新システムについて詳細に説明した。
本実施形態によれば、ホームページ管理者により更新されたホームページのコンテンツであるHP更新データ(例えば、客観的で不変的な公式情報)と、一般ユーザがネットワーク上のウェブページから自由にスクレイピングしたコンテンツであるスクレイピングデータ(例えば、主観的で、真新しい知識・発見等の情報)の双方を、情報管理サーバ10に自動的に送信し、これらのデータを情報管理サーバ10に収集する。そして、情報管理サーバ10は、スクレイピングデータとHP更新データを形態素解析することで、テキスト情報から単語を抽出し、必要に応じて単位データに分割して、一次データベース16に蓄積する。さらに、情報管理サーバ10は、一次データベース16に蓄積された複数の単位データの単語、属性情報等を多変量解析することで、単位データ相互の統計的関連性を求め、当該関連性に応じて単位データを複数の統計グループにグルーピングする。また、統計グループ間の関連性を求め、統計グループを階層化する。このようにして統計グループでグルーピングされた単位データ群は、HP更新データの不変的な公式情報と、スクレイピングデータの新たな知識の情報とを融合した集合知となる。これにより、情報管理サーバ10は、かかる集合知から、ユーザが求める抽出条件と関連性の高い単位データを、階層的に抽出してフィードバックできる。従って、情報管理サーバ10は、上記のように構築された集合知から、ユーザが真に求める適切な内容の情報をフィードバックすることができる。
例えば、ホームページ管理者に対しては、当該管理者が設定した抽出条件、ホームページの属性などに関連する統計グループ内の単位データを、自動的にフィードバックできる。例えば、「旅館A」のホームページ管理者が、キーワードとして、ジャンル:「イベント情報」、場所:「東京」を設定しておけば、東京の近郊のイベント情報で、旅館に関連性の高い情報が、定期的にフィードバックされる。
さらに、取得したフィードバックデータを当該ホームページに自動的に付加して公開されるよう設定できるので、ホームページ管理者は、自らウェブ上の情報を収集しなくても、自身のホームページに関連する情報を自動的に取得して、ホームページの内容を自然に充実させることができる。また、フィードバックされるデータは、一般ユーザによるスクレイピングデータも含まれているので、公式ホームページに存在しがちな、形式的で月並みな情報だけでなく、ユーザによりスクレイピングされた口コミ情報や、ユーザの評判等の生の情報、レアな情報などといった、新鮮な情報をも取得できる。
また、スクレイピングを行う一般ユーザに対しては、当該ユーザが入力した抽出条件、ユーザ属性(住所、趣味、年齢、性別、嗜好など)、スクレイピングデータの属性などに関連する統計グループ内の単位データを、フィードバックできる。例えば、「温泉」に関する情報を頻繁にスクレイピングしているユーザが、キーワードとして、ジャンル:「スキー」、時期:「4月」を入力すれば、4月に営業している温泉の近くのスキー場、スケート場の情報を取得することができる。
また、ユーザ端末1のユーザは、ウェブ上で情報収集する際に、従来のような検索エンジンを用いて所望のサイトを検索し、膨大な数のウェブページを1つ1つチェックしなくても、本システムに抽出条件(キーワード等)を入力するだけで、そのキーワードに関連する単位データ群をフィードバックデータとして取得できるため、自身の欲する情報を容易に取得できる。このとき、求めるキーワードに関連する情報をある程度まとめて取得でき、しかも、キーワードとの関連性に応じて階層化されたフィードバックデータを得ることもできる。更に、他ユーザのスクレイピングしたデータも、公式ホームページの情報と絡めて取得できるので、求めるデータの新鮮な情報をタイムリーに得ることができる。
さらに、本実施形態にかかる情報フィードバックシステムにおいて、スクレイピングを行う各ユーザ端末1のユーザは、「スクレイピングをする」という行為を自身のために行っている。従って、[発明が解決しようとする課題]の欄で述べた、サイト内に自己にとって有益な情報があるか否かを調べるためのユーザ側の負担が大きいという問題点(B)は発生しない。かつ、本システムでは、ユーザとウェブサイトとをそれらの属性に応じて自動的にマッチングするため、ユーザとサイトとの偶然の出会いが求められるという問題点(A)も解決できる。さらに、HP更新データ及びスクレイピングデータの解析により、データの「信頼性」が数値で表されるため、より正確なデータだけをフィードバックすることが可能になり、ノイズを抑制できる。従って、悪質ユーザがユーザ参加型サイト内などにコメントを書き込む場合などのように、サイトの趣旨に合致しない内容のデータ、信頼性の低いデータが少なからず混入してしまうという問題点(C)も解決できる。
さらに、全てのスクレイピングデータは、キーワード(単語)ではなく、文章(単語群)として取り扱い、かつ、他ユーザのスクレイピングデータも横断的に利用することで、スクレイピングデータを含む単位データ群の検索精度を高めることができる。
以上によって、情報フィードバックシステムにおいて循環する情報の量及び鮮度を格段に向上させることができる。
また、上記情報フィードバックシステムを旅行日程表作成システムに適用することで、ユーザは、旅行日程表を作成するために必要な旅行情報を収集する手段として、自身によるスクレイピングと、システムからのフィードバックといった2系統で旅行情報を収集できる。従って、充実した内容の旅行情報(例えば、宿泊先、立ち寄り先、交通手段、食事、穴場などの情報)を迅速かつ容易に収集できる。しかも、ユーザ自らスクレイピングしたデータとその属性は、システムにアップロードされて解析されるため、かかる解析結果を反映したフィードバックデータを取得することができる。従って、スクレイピングをすればするほど、ユーザ自身の嗜好、欲しい情報のジャンル等がフィードバックデータに反映されることになるので、フィードバックデータの内容がユーザの要望に合致しやすい。
また、本実施形態にかかる情報フィードバックシステムが提供された旅行日程表作成システムでは、旅行日程表を作成するユーザは、例えば、観光関連事業者や観光関連情報提供サービスなどを生業とする公式ウェブサイトから、信頼性のある旅行情報とその旅行情報の属性(URL等の存在場所など)を、スクレイピングする。そして、当該ユーザは、旅行日程表作成サービスを利用して、これらのスクレイピングデータを組み合わせて、ユーザにとって最適な旅行プランの旅行日程表を作成し、意義ある各旅行情報の関連づけを加える。また、他ユーザのサービス利用行動も、ユーザ自身の旅行情報の洗練さに磨きをかけることになる。さらに、収集したい情報と関連するサイトにユーザを誘導することもできるので、ユーザとサイトとの偶然の出会いに期待せずとも、両者をマッチングできる。
また、本実施形態にかかる情報フィードバックシステムでは、HTMLにて記述されたウェブサイトであれば、例えば、歴史のあるサイトから最新のフルCSSのサイトまで、任意のサイトから、コンテンツをスクレイピングして再活用できる。情報管理サーバ10の解析によって、スクレイピングデータを、システム内で循環するフィードバックデータ、即ち、有益な新たなコンテンツとして再生成できる。このフィードバックデータは、ウェブシステムにおける重要な情報資源となる。
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
1 ユーザ端末
2 一般ウェブサーバ
3 更新ウェブサーバ
4 ホームページ更新ツール操作・入力端末
5 インターネット
10 情報管理サーバ
11 スクレイピング受信サーバ
12 ホームページ更新データ受信サーバ
13 文書解析サーバ
14 形態素解析用辞書サーバ
15 辞書管理端末
16 一次データベース
17 多変量解析サーバ
19 二次データベース
20 文書生成サーバ
21 ホームページ更新データ送信サーバ
22 文書生成サーバ
30 ホームページ更新ツール
36 フィードバックデータ受信部
50 スクレイピング部
331 取込ボタン
2 一般ウェブサーバ
3 更新ウェブサーバ
4 ホームページ更新ツール操作・入力端末
5 インターネット
10 情報管理サーバ
11 スクレイピング受信サーバ
12 ホームページ更新データ受信サーバ
13 文書解析サーバ
14 形態素解析用辞書サーバ
15 辞書管理端末
16 一次データベース
17 多変量解析サーバ
19 二次データベース
20 文書生成サーバ
21 ホームページ更新データ送信サーバ
22 文書生成サーバ
30 ホームページ更新ツール
36 フィードバックデータ受信部
50 スクレイピング部
331 取込ボタン
Claims (15)
- 複数のユーザ端末と、前記ユーザ端末に対して任意のウェブページを公開する一般ウェブサーバと、所定のウェブページ管理者の所定のウェブページを公開し、当該ウェブページの更新機能を有する更新ウェブサーバと、前記ユーザ端末又は前記更新ウェブサーバから収集された情報を管理する情報管理サーバとが、ネットワークを介して接続された情報フィードバックシステムであって:
前記ユーザ端末は、
前記一般ウェブサーバ又は前記更新ウェブサーバにより公開されるウェブページを閲覧するためのブラウザと;
ユーザ入力に基づいて、前記ブラウザに表示されたウェブページから一部のコンテンツを抽出するスクレイピング部と;
前記スクレイピング部により抽出されたスクレイピングデータと、前記スクレイピングデータの属性情報とを、前記ネットワークを介して前記情報管理サーバに送信するスクレイピングデータ送信部と;
を備え、
前記更新ウェブサーバは、
前記ウェブページ管理者の入力に基づいて、前記ウェブページ管理者の前記所定のウェブページのコンテンツを生成又は更新するウェブページ更新部と;
前記ウェブページ更新部により生成又は更新されたウェブページ更新データと、前記ウェブページ更新データの属性情報とを、前記ネットワークを介して前記情報管理サーバに送信するウェブページ更新データ送信部と;
を備え、
前記情報管理サーバは、
前記ユーザ端末から、前記スクレイピングデータ及び前記スクレイピングデータの属性情報を受信するスクレイピングデータ受信部と;
前記更新ウェブサーバから、前記ウェブページ更新データ及び前記ウェブページ更新データの属性情報を受信するウェブページ更新データ受信部と;
前記スクレイピングデータ又は前記ウェブページ更新データのテキスト情報を形態素解析することによって、当該テキスト情報に含まれる単語を抽出するとともに、前記スクレイピングデータ又は前記ウェブページ更新データのテキスト情報の一部又は全部と、前記テキスト情報から抽出された単語と、前記スクレイピングデータ又は前記ウェブページ更新データの属性情報とを含む所定の単位データを生成し、データベースに保存する文書解析部と;
前記データベースに保存された複数の前記単位データに含まれる前記単語及び前記属性情報を用いて多変量解析を行うことによって、当該複数の単位データを統計的関連性に応じて複数の統計グループにグルーピングし、当該グルーピング結果を前記データベースに保存する多変量解析部と;
前記ウェブページ管理者により設定された第1抽出条件と、前記各統計グループとの関連性に基づいて、前記複数の統計グループの中から1又は2以上の統計グループを抽出し、当該抽出された統計グループに属する前記単位データを第1フィードバックデータとして抽出する第1文書生成部と;
前記第1フィードバックデータを、前記ネットワークを介して前記更新ウェブサーバに送信する第1フィードバックデータ送信部と;
を備えることを特徴とする、情報フィードバックシステム。 - 前記情報管理サーバは、
前記ユーザ端末のユーザにより入力された第2抽出条件を、前記ユーザ端末から前記ネットワークを介して受信し、
前記第2抽出条件と、前記統計グループとの関連性に基づいて、前記複数の統計グループの中から1又は2以上の統計グループを抽出し、当該抽出された統計グループに属する前記単位データを第2フィードバックデータとして抽出する第2文書生成部と;
前記第2フィードバックデータを、前記ネットワークを介して前記ユーザ端末に送信する第2フィードバックデータ送信部と;
を備えることを特徴とする、請求項1に記載の情報フィードバックシステム。 - 前記第2文書生成部は、
複数の文書成型用テンプレートが保存されたテンプレートデータベースから、前記ユーザ端末のユーザにより入力された前記第2抽出条件に対応する文書成型用テンプレートを選択し、当該選択された文書成型用テンプレートを用いて、前記抽出された単位データを成型して、前記第2フィードバックデータを生成することを特徴とする、請求項3に記載の情報フィードバックシステム。 - 前記スクレイピング部は、
前記一般ウェブサーバ又は前記更新ウェブサーバにより公開されるウェブページの情報ソースを解析し、当該解析結果に基づいて、当該ウェブページに含まれるコンテンツを複数の単位データに分割し、前記ブラウザにより表示される前記ウェブページの画面上に、前記分割された各単位データを区分け表示するとともに、前記各単位データをスクレイピングするための取込表示を、前記ウェブページの画面上に前記各単位データに対応づけて表示し、
前記ユーザ端末のユーザにより選択された前記取込表示に対応する前記単位データを、前記スクレイピングデータとして抽出することを特徴とする、請求項1に記載の情報フィードバックシステム。 - 前記スクレイピング部は、
前記ブラウザにより表示される前記ウェブページの画面上で、前記ユーザ端末に対する入力操作に応じて当該画面上を移動するポインタが、前記区分け表示された単位データのいずれかに重畳されたときに、当該ポインタが重畳された単位データの前記取込表示を表示することを特徴とする、請求項4に記載の情報フィードバックシステム。 - 前記更新ウェブサーバは、前記第1フィードバックデータ送信部から受信した前記第1フィードバックデータを、前記ウェブページ管理者の前記所定のウェブページに付加することを特徴とする、請求項1に記載の情報フィードバックシステム。
- 前記スクレイピングデータの属性情報は、前記スクレイピングデータを生成した前記ユーザ端末のユーザ情報、又は、前記スクレイピングデータが生成された日付情報の少なくともいずれかを含み、
前記ウェブページ更新データの属性情報は、前記ウェブページ管理者により指定された、前記所定のウェブページのジャンル若しくはキーワード、又は、前記ウェブページ更新データにより前記所定のウェブサイトが更新された日付情報の少なくともいずれかを含むことを特徴とする、請求項1に記載の情報フィードバックシステム。 - 前記情報管理サーバは、
前記ユーザ端末から受信した前記スクレイピングデータを、前記ユーザ端末のユーザ毎に管理するユーザデータ管理部を備えることを特徴とする、請求項3に記載の情報フィードバックシステム。 - 前記ユーザデータ管理部は、
前記ユーザ端末による旅行日程表の作成支援機能を有し、
前記スクレイピングデータ又は前記第2フィードバックデータの少なくともいずれかを、前記旅行日程表の素材として前記ユーザ端末に提供することを特徴とする、請求項8に記載の情報フィードバックシステム。 - 前記第1文書生成部は、
前記第1抽出条件及び前記所定のホームページの属性情報と、前記各統計グループとの関連性に基づいて、前記複数の統計グループの中から1又は2以上の統計グループを抽出することを特徴とする、請求項1に記載の情報フィードバックシステム。 - 前記第2文書生成部は、
前記第2抽出条件及び前記スクレイピングデータの属性情報と、前記各統計グループとの関連性に基づいて、前記複数の統計グループの中から1又は2以上の統計グループを抽出することを特徴とする、請求項3に記載の情報フィードバックシステム。 - 複数のユーザ端末と、前記ユーザ端末に対して任意のウェブページを公開する一般ウェブサーバと、所定のウェブページ管理者の所定のウェブページを公開し、当該ウェブページの更新機能を有する更新ウェブサーバと、前記ユーザ端末又は前記更新ウェブサーバから収集された情報を管理する情報管理サーバとが、ネットワークを介して接続された情報フィードバックシステムにおける情報フィードバック方法であって:
前記ユーザ端末が、ユーザ入力に基づいて、前記一般ウェブサーバ又は前記更新ウェブサーバにより公開されるウェブページを閲覧するためのブラウザに表示されたウェブページから一部のコンテンツを抽出するスクレイピングステップと;
前記ユーザ端末が、前記スクレイピングステップで抽出されたスクレイピングデータと、前記スクレイピングデータの属性情報とを、前記ネットワークを介して前記情報管理サーバに送信するスクレイピングデータ送信ステップと;
前記更新ウェブサーバが、前記ウェブページ管理者の入力に基づいて、前記ウェブページ管理者の前記所定のウェブページのコンテンツを生成又は更新するウェブページ更新ステップと;
前記更新ウェブサーバが、前記ウェブページ更新ステップで生成又は更新されたウェブページ更新データと、前記ウェブページ更新データの属性情報とを、前記ネットワークを介して前記情報管理サーバに送信するスクレイピングデータ送信ステップと;
前記情報管理サーバが、前記ユーザ端末から、前記スクレイピングデータ及び前記スクレイピングデータの属性情報を受信するスクレイピングデータ受信ステップと;
前記情報管理サーバが、前記更新ウェブサーバから、前記ウェブページ更新データ及び前記ウェブページ更新データの属性情報を受信するウェブページ更新データ受信ステップと;
前記情報管理サーバが、前記スクレイピングデータ又は前記ウェブページ更新データのテキスト情報を形態素解析することによって、当該テキスト情報に含まれる単語を抽出するとともに、前記スクレイピングデータ又は前記ウェブページ更新データのテキスト情報の一部又は全部と、前記テキスト情報から抽出された単語と、前記スクレイピングデータ又は前記ウェブページ更新データの属性情報とを含む所定の単位データを生成し、データベースに保存する文書解析ステップと;
前記情報管理サーバが、前記データベースに保存された複数の前記単位データに含まれる前記単語及び前記属性情報を用いて多変量解析を行うことによって、当該複数の単位データを統計的関連性に応じて複数の統計グループにグルーピングし、当該グルーピング結果を前記データベースに保存する多変量解析ステップと;
前記情報管理サーバが、前記ウェブページ管理者により設定された抽出条件と、前記各統計グループとの関連性に基づいて、前記複数の統計グループの中から1又は2以上の統計グループを抽出し、当該抽出された統計グループに属する前記単位データをフィードバックデータとして抽出する文書生成ステップと;
前記情報管理サーバが、前記フィードバックデータを、前記ネットワークを介して前記更新ウェブサーバに送信するフィードバックデータ送信ステップと;
を含むことを特徴とする、情報フィードバック方法。 - 一般ウェブサーバにより公開されたウェブページを閲覧可能な複数のユーザ端末と、所定のウェブページ管理者の所定のウェブページを公開し、当該ウェブページの更新機能を有する更新ウェブサーバと、にネットワークを介して接続され、前記ユーザ端末又は前記更新ウェブサーバから収集された情報を管理する情報管理サーバであって:
前記情報管理サーバは、
前記ユーザ端末から、前記一般ウェブサーバ又は前記更新ウェブサーバにより提供されたウェブページから抽出された一部のコンテンツを含むスクレイピングデータと、前記スクレイピングデータの属性情報とを受信するスクレイピングデータ受信部と;
前記更新ウェブサーバから、前記ウェブページ管理者の入力に基づいて更新された前記所定のウェブページのウェブページ更新データと、前記ウェブページ更新データの属性情報とを受信するウェブページ更新データ受信部と;
前記スクレイピングデータ又は前記ウェブページ更新データのテキスト情報を形態素解析することによって、当該テキスト情報に含まれる単語を抽出するとともに、前記スクレイピングデータ又は前記ウェブページ更新データのテキスト情報の一部又は全部と、前記テキスト情報から抽出された単語と、前記スクレイピングデータ又は前記ウェブページ更新データの属性情報とを含む所定の単位データを生成し、データベースに保存する文書解析部と;
前記データベースに保存された複数の前記単位データに含まれる前記単語及び前記属性情報を用いて多変量解析を行うことによって、当該複数の単位データを統計的関連性に応じて複数の統計グループにグルーピングし、当該グルーピング結果を前記データベースに保存する多変量解析部と;
前記ウェブページ管理者により設定された抽出条件と、前記各統計グループとの関連性に基づいて、前記複数の統計グループの中から1又は2以上の統計グループを抽出し、当該抽出された統計グループに属する前記単位データをフィードバックデータとして抽出する文書生成部と;
前記フィードバックデータを、前記ネットワークを介して前記更新ウェブサーバに送信するフィードバックデータ送信部と;
を備えることを特徴とする、情報管理サーバ。 - 一般ウェブサーバにより公開されたウェブページを閲覧可能な複数のユーザ端末と、所定のウェブページ管理者のウェブページを公開するとともに当該ウェブページの更新機能を有する更新ウェブサーバと、にネットワークを介して接続された情報管理サーバにおいて、前記ユーザ端末又は前記更新ウェブサーバから収集された情報を管理する情報管理方法であって:
前記ユーザ端末から、前記一般ウェブサーバ又は前記更新ウェブサーバにより公開されたウェブページから抽出された一部のコンテンツを含むスクレイピングデータと、前記スクレイピングデータの属性情報とを受信するスクレイピングデータ受信ステップと;
前記更新ウェブサーバから、前記ウェブページ管理者の入力に基づいて更新されたウェブページ更新データと、前記ウェブページ更新データの属性情報とを受信するウェブページ更新データ受信ステップと;
前記スクレイピングデータ又は前記ウェブページ更新データのテキスト情報を形態素解析することによって、当該テキスト情報に含まれる単語を抽出するとともに、前記スクレイピングデータ又は前記ウェブページ更新データのテキスト情報の一部又は全部と、前記テキスト情報から抽出された単語と、前記スクレイピングデータ又は前記ウェブページ更新データの属性情報とを含む所定の単位データを生成し、データベースに保存する文書解析ステップと;
前記データベースに保存された複数の前記単位データに含まれる前記単語及び前記属性情報を用いて多変量解析を行うことによって、当該複数の単位データを統計的関連性に応じて複数の統計グループにグルーピングし、当該グルーピング結果を前記データベースに保存する多変量解析ステップと;
前記ウェブページ管理者により設定された抽出条件と、前記各統計グループとの関連性に基づいて、前記複数の統計グループの中から1又は2以上の統計グループを抽出し、当該抽出された統計グループに属する前記単位データをフィードバックデータとして抽出する文書生成ステップと;
前記フィードバックデータを、前記ネットワークを介して前記更新ウェブサーバに送信するフィードバックデータ送信ステップと;
を含むことを特徴とする、情報管理方法。 - コンピュータを、請求項13に記載の情報管理サーバとして機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008033627A JP2008226235A (ja) | 2007-02-14 | 2008-02-14 | 情報フィードバックシステム、情報フィードバック方法、情報管理サーバ、情報管理方法及びプログラム |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007034122 | 2007-02-14 | ||
JP2008033627A JP2008226235A (ja) | 2007-02-14 | 2008-02-14 | 情報フィードバックシステム、情報フィードバック方法、情報管理サーバ、情報管理方法及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008226235A true JP2008226235A (ja) | 2008-09-25 |
Family
ID=39844700
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008033627A Pending JP2008226235A (ja) | 2007-02-14 | 2008-02-14 | 情報フィードバックシステム、情報フィードバック方法、情報管理サーバ、情報管理方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008226235A (ja) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011053734A (ja) * | 2009-08-31 | 2011-03-17 | Tatsuya Shindo | サイト内検索サーバ、サイト内検索サービス方法、及びプログラム |
JP2011096073A (ja) * | 2009-10-30 | 2011-05-12 | Rakuten Inc | 特有コンテンツ判定装置、特有コンテンツ判定方法、特有コンテンツ判定プログラム及びコンテンツ生成装置 |
JP2011096078A (ja) * | 2009-10-30 | 2011-05-12 | Rakuten Inc | 特有コンテンツ判定装置、特有コンテンツ判定方法、特有コンテンツ判定プログラム及び関連コンテンツ挿入装置 |
JP2012150742A (ja) * | 2011-01-21 | 2012-08-09 | Yahoo Japan Corp | 投稿情報管理装置、投稿情報管理方法、投稿情報管理プログラム |
JP2015118484A (ja) * | 2013-12-17 | 2015-06-25 | 富士通株式会社 | 情報提供プログラム、情報提供方法および情報提供装置 |
JPWO2017187561A1 (ja) * | 2016-04-27 | 2018-10-04 | 京セラドキュメントソリューションズ株式会社 | 印刷システム、携帯端末装置、及び印刷プログラム |
JP2019504410A (ja) * | 2015-12-30 | 2019-02-14 | アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited | 旅行ガイド生成方法及びシステム |
US10614134B2 (en) | 2009-10-30 | 2020-04-07 | Rakuten, Inc. | Characteristic content determination device, characteristic content determination method, and recording medium |
JP2022184964A (ja) * | 2017-02-22 | 2022-12-13 | オプセック・オンライン・リミテッド | インターネットコンテンツ内の要素の直接的なブラウザ内のマークアップのためのシステムおよび方法 |
JP2023062299A (ja) * | 2021-10-21 | 2023-05-08 | 三井住友海上火災保険株式会社 | 解析装置、ユーザ端末、解析方法、及びプログラム |
-
2008
- 2008-02-14 JP JP2008033627A patent/JP2008226235A/ja active Pending
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011053734A (ja) * | 2009-08-31 | 2011-03-17 | Tatsuya Shindo | サイト内検索サーバ、サイト内検索サービス方法、及びプログラム |
JP2011096073A (ja) * | 2009-10-30 | 2011-05-12 | Rakuten Inc | 特有コンテンツ判定装置、特有コンテンツ判定方法、特有コンテンツ判定プログラム及びコンテンツ生成装置 |
JP2011096078A (ja) * | 2009-10-30 | 2011-05-12 | Rakuten Inc | 特有コンテンツ判定装置、特有コンテンツ判定方法、特有コンテンツ判定プログラム及び関連コンテンツ挿入装置 |
US10614134B2 (en) | 2009-10-30 | 2020-04-07 | Rakuten, Inc. | Characteristic content determination device, characteristic content determination method, and recording medium |
JP2012150742A (ja) * | 2011-01-21 | 2012-08-09 | Yahoo Japan Corp | 投稿情報管理装置、投稿情報管理方法、投稿情報管理プログラム |
JP2015118484A (ja) * | 2013-12-17 | 2015-06-25 | 富士通株式会社 | 情報提供プログラム、情報提供方法および情報提供装置 |
JP2019504410A (ja) * | 2015-12-30 | 2019-02-14 | アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited | 旅行ガイド生成方法及びシステム |
JPWO2017187561A1 (ja) * | 2016-04-27 | 2018-10-04 | 京セラドキュメントソリューションズ株式会社 | 印刷システム、携帯端末装置、及び印刷プログラム |
JP2022184964A (ja) * | 2017-02-22 | 2022-12-13 | オプセック・オンライン・リミテッド | インターネットコンテンツ内の要素の直接的なブラウザ内のマークアップのためのシステムおよび方法 |
JP7528166B2 (ja) | 2017-02-22 | 2024-08-05 | オプセック・オンライン・リミテッド | インターネットコンテンツ内の要素の直接的なブラウザ内のマークアップのためのシステムおよび方法 |
JP2023062299A (ja) * | 2021-10-21 | 2023-05-08 | 三井住友海上火災保険株式会社 | 解析装置、ユーザ端末、解析方法、及びプログラム |
JP7295920B2 (ja) | 2021-10-21 | 2023-06-21 | 三井住友海上火災保険株式会社 | 解析装置、ユーザ端末、解析方法、及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6448606B2 (ja) | 検索エンジンの結果ページ内に目的別アプリケーションを提供する装置、方法、プログラム、及びシステム | |
JP2008226235A (ja) | 情報フィードバックシステム、情報フィードバック方法、情報管理サーバ、情報管理方法及びプログラム | |
US20180004850A1 (en) | Method for inputting and processing feature word of file content | |
US8745162B2 (en) | Method and system for presenting information with multiple views | |
Frischmuth et al. | Ontowiki–an authoring, publication and visualization interface for the data web | |
JP2010039710A (ja) | 情報収集装置、旅行案内装置、旅行案内システム及びコンピュータプログラム | |
JP2002230035A (ja) | 情報整理方法、情報処理装置、情報処理システム、記憶媒体、およびプログラム伝送装置 | |
Marine-Roig | Online travel reviews: A massive paratextual analysis | |
JP2010506335A (ja) | 場所に関するサイトの識別 | |
JP2008537810A (ja) | 検索方法及び検索システム | |
Sundaramoorthy et al. | Newsone—an aggregation system for news using web scraping method | |
JP2007122513A (ja) | コンテンツ検索方法、及び、コンテンツ検索サーバ | |
JP5313295B2 (ja) | 文書探索サービス提供方法及びシステム | |
JP2008107904A (ja) | テキスト及びアニメーションサービス装置及びコンピュータプログラム | |
WO2008041367A1 (fr) | Dispositif de recherche de document, procédé de recherche de document et programme de recherche de document | |
CN103514289A (zh) | 一种兴趣本体库构建方法及装置 | |
JP2007256992A (ja) | コンテンツ特定方法及び装置 | |
KR101401250B1 (ko) | 전자문서에 대한 키워드맵 제공 방법 및 이를 위한 키워드맵 제공 프로그램을 기록한 컴퓨터로 판독가능한 기록매체 | |
JP2007193697A (ja) | 情報収集装置,情報収集方法およびプログラム | |
JP2010134651A (ja) | 商品idサーバ装置、および商品idサーバ装置の制御方法 | |
JP2010049598A (ja) | ウェブサイト作成支援装置及びウェブサイト作成支援プログラム | |
JP4352840B2 (ja) | プログラム、データ処理方法およびデータ処理システム | |
KR101628511B1 (ko) | 검색 엔진 최적화 방법 및 그를 이용한 서버 장치 | |
Gottron | Content extraction-identifying the main content in HTML documents. | |
KR20230051360A (ko) | 검색 엔진 최적화 방법 및 그를 이용한 서버 장치 |