JP3108015B2 - ハイパーテキスト検索装置 - Google Patents
ハイパーテキスト検索装置Info
- Publication number
- JP3108015B2 JP3108015B2 JP08149783A JP14978396A JP3108015B2 JP 3108015 B2 JP3108015 B2 JP 3108015B2 JP 08149783 A JP08149783 A JP 08149783A JP 14978396 A JP14978396 A JP 14978396A JP 3108015 B2 JP3108015 B2 JP 3108015B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- search
- ranking
- hypertext
- group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 4
- 230000002093 peripheral effect Effects 0.000 claims description 2
- 241000220225 Malus Species 0.000 description 29
- 230000000694 effects Effects 0.000 description 17
- 238000011156 evaluation Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 238000011161 development Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 241000894007 species Species 0.000 description 3
- 235000021016 apples Nutrition 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
- G06F16/94—Hypermedia
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99932—Access augmentation or optimizing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99935—Query augmenting and refining, e.g. inexact access
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99944—Object-oriented database structure
- Y10S707/99945—Object-oriented database structure processing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- General Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Description
【0001】
【発明の属する技術分野】本発明はハイパーテキスト検
索装置に関し、特に大量のハイパーテキスト文書の中か
ら、ユーザの要求に合致しそうな文書を検索して提示す
るハイパーテキスト検索装置に関する。
索装置に関し、特に大量のハイパーテキスト文書の中か
ら、ユーザの要求に合致しそうな文書を検索して提示す
るハイパーテキスト検索装置に関する。
【0002】
【従来の技術】従来の、ユーザの要求に合致しそうな文
書を検索して提示する装置は、図11に示すような文書
検索装置10であった。検索用索引展開手段6は、文書管
理手段11に格納されている大量の文書をあらかじめ解析
し、内蔵の辞書に登録されている単語群内の各単語につ
いて、当該単語がどの文書に何回現れているかを調べ、
当該単語の全文書における偏り(idf値)を求め、当
該単語が出現する各文書について規格化出現頻度(tf
値)を掛け合わせるtf×idf評価値を算出して検索
用索引を展開する。
書を検索して提示する装置は、図11に示すような文書
検索装置10であった。検索用索引展開手段6は、文書管
理手段11に格納されている大量の文書をあらかじめ解析
し、内蔵の辞書に登録されている単語群内の各単語につ
いて、当該単語がどの文書に何回現れているかを調べ、
当該単語の全文書における偏り(idf値)を求め、当
該単語が出現する各文書について規格化出現頻度(tf
値)を掛け合わせるtf×idf評価値を算出して検索
用索引を展開する。
【0003】キーワード入力手段2は、ユーザ9から複
数のキーワード入力を受け付け、検索手段3に供する。
検索手段3は、当該入力キーワードと合致する単語群を
前記検索用索引から探し、当該入力キーワードが出現す
る文書の識別子と、当該文書における当該キーワードの
tf×idf評価値との対を複数個得て、順位づけ生成
手段4に供する。
数のキーワード入力を受け付け、検索手段3に供する。
検索手段3は、当該入力キーワードと合致する単語群を
前記検索用索引から探し、当該入力キーワードが出現す
る文書の識別子と、当該文書における当該キーワードの
tf×idf評価値との対を複数個得て、順位づけ生成
手段4に供する。
【0004】順位づけ生成手段4は、tf×idf評価
値の高い順に当該文書群を整列させ、検索結果表示手段
5に供する。検索結果表示手段5は、前記整列順に文書
の識別タイトルを列挙したうえでユーザの選択指定を受
け付け、選択指定される都度、選択指定された文書のみ
を文書管理手段11から呼び出して表示する。
値の高い順に当該文書群を整列させ、検索結果表示手段
5に供する。検索結果表示手段5は、前記整列順に文書
の識別タイトルを列挙したうえでユーザの選択指定を受
け付け、選択指定される都度、選択指定された文書のみ
を文書管理手段11から呼び出して表示する。
【0005】以上のような構成の文書検索装置10は、ユ
ーザが要求に沿ったキーワードを入力することで、大量
の文書からユーザの要求に近い文書をより近い順に提示
させることができる。
ーザが要求に沿ったキーワードを入力することで、大量
の文書からユーザの要求に近い文書をより近い順に提示
させることができる。
【0006】なお、tf×idf評価値の具体的な算出
方法は、いくつか知られているが、たとえば、当該単語
を含む文書数の全文書に対する割合を対数値にしたもの
を1から引いた値をidf値とし、当該文書中の当該単
語の出現回数を当該文書の大きさで割った値をtf値と
して両者を掛け合わせることで算出される。
方法は、いくつか知られているが、たとえば、当該単語
を含む文書数の全文書に対する割合を対数値にしたもの
を1から引いた値をidf値とし、当該文書中の当該単
語の出現回数を当該文書の大きさで割った値をtf値と
して両者を掛け合わせることで算出される。
【0007】tf×idf評価値の詳細および、それを
応用した文書検索装置については、「Gerard Salton:
Introduction to Modern Information Retrieval, McGr
aw-Hill, 1983」に記載されている。
応用した文書検索装置については、「Gerard Salton:
Introduction to Modern Information Retrieval, McGr
aw-Hill, 1983」に記載されている。
【0008】
【発明が解決しようとする課題】従来構成の文書検索装
置であっても、ハイパーテキスト文書の検索は不可能で
はない。しかしながら、ハイパーテキスト文書は各文書
が必ずしも独立でなく、参照関係にある文書を含めて初
めて一貫した内容となっていることも多い。そうしたハ
イパーテキスト文書の検索を従来の文書検索装置で行な
うと、ユーザにとっての文書の重要度合が誤って評価さ
れて適切な順位づけができない問題や、順位づけされた
結果におけるユーザの選択指定が円滑に行なえない問題
が発生する。
置であっても、ハイパーテキスト文書の検索は不可能で
はない。しかしながら、ハイパーテキスト文書は各文書
が必ずしも独立でなく、参照関係にある文書を含めて初
めて一貫した内容となっていることも多い。そうしたハ
イパーテキスト文書の検索を従来の文書検索装置で行な
うと、ユーザにとっての文書の重要度合が誤って評価さ
れて適切な順位づけができない問題や、順位づけされた
結果におけるユーザの選択指定が円滑に行なえない問題
が発生する。
【0009】特に、ハイパーテキストマークアップ言語
(HTML)で書かれたインターネットのワールドワイドウ
ェブ(WWW)上の文書群では、一連の内容が参照関係に
ある複数の文書にわたっている傾向が顕著で、問題が大
きい。
(HTML)で書かれたインターネットのワールドワイドウ
ェブ(WWW)上の文書群では、一連の内容が参照関係に
ある複数の文書にわたっている傾向が顕著で、問題が大
きい。
【0010】本発明は、こうした問題を解決し、ワール
ドワイドウェブ(WWW)上の文書群などの、これまで問
題が大きかったハイパーテキスト文書群に対しても検索
の利便性が高い文書検索装置を提供することを目的とす
る。
ドワイドウェブ(WWW)上の文書群などの、これまで問
題が大きかったハイパーテキスト文書群に対しても検索
の利便性が高い文書検索装置を提供することを目的とす
る。
【0011】
【課題を解決するための手段】本発明のハイパーテキス
ト検索装置は、あらかじめハイパーテキスト文書群を解
析して、各文書ごとに当該文書を参照する参照元文書の
識別子および参照元文書内のアンカー文を表形式にした
参照元付き文書表を展開しておくことで、参照元の情報
を加味した順位づけ表示を可能とするようにしたもので
ある。
ト検索装置は、あらかじめハイパーテキスト文書群を解
析して、各文書ごとに当該文書を参照する参照元文書の
識別子および参照元文書内のアンカー文を表形式にした
参照元付き文書表を展開しておくことで、参照元の情報
を加味した順位づけ表示を可能とするようにしたもので
ある。
【0012】本発明によれば、検索および順位づけに際
して、各文書がどの文書によって参照されているかがハ
イパーテキスト文書管理手段にいちいち問い合わせるこ
となく判明するため、参照関係にある文書を統合した重
要度合の評価処理や、参照関係にある文書を統合した順
位づけ結果の表示処理を遅滞なく行なえる。その結果、
ユーザの要求に合致したより適切な順位づけや、ユーザ
の選択指定が容易な順位づけ表示が実現できる。
して、各文書がどの文書によって参照されているかがハ
イパーテキスト文書管理手段にいちいち問い合わせるこ
となく判明するため、参照関係にある文書を統合した重
要度合の評価処理や、参照関係にある文書を統合した順
位づけ結果の表示処理を遅滞なく行なえる。その結果、
ユーザの要求に合致したより適切な順位づけや、ユーザ
の選択指定が容易な順位づけ表示が実現できる。
【0013】
【発明の実施の形態】本発明の請求項1記載の発明は、
ユーザの入力したキーワードに基づいてハイパーテキス
ト文書を検索し、その結果を順位づけして表示する装置
において、参照元付き文書表展開手段を備え、前記参照
元付き文書表展開手段にあらかじめ各文書の参照元文書
を表形式に展開しておくことで、参照元の情報を加味し
た順位づけ表示を可能とするハイパーテキスト検索装置
としたものであり、各文書がどの文書によって参照され
ているかがハイパーテキスト文書管理手段にいちいち問
い合わせることなく、参照元付き文書表展開手段に展開
された参照元文書の表を引くだけで判明し、参照関係に
ある文書群を統合した重要度合の評価処理や、参照関係
にある文書群を統合した順位づけ結果の表示データ生成
を高速に行なえるという作用を有する。
ユーザの入力したキーワードに基づいてハイパーテキス
ト文書を検索し、その結果を順位づけして表示する装置
において、参照元付き文書表展開手段を備え、前記参照
元付き文書表展開手段にあらかじめ各文書の参照元文書
を表形式に展開しておくことで、参照元の情報を加味し
た順位づけ表示を可能とするハイパーテキスト検索装置
としたものであり、各文書がどの文書によって参照され
ているかがハイパーテキスト文書管理手段にいちいち問
い合わせることなく、参照元付き文書表展開手段に展開
された参照元文書の表を引くだけで判明し、参照関係に
ある文書群を統合した重要度合の評価処理や、参照関係
にある文書群を統合した順位づけ結果の表示データ生成
を高速に行なえるという作用を有する。
【0014】本発明の請求項2記載の発明は、ハイパー
テキスト文書管理手段によって管理されるハイパーテキ
ストによる参照構造を持った文書群を解析し、各文書ご
とに当該文書を参照する参照元文書の識別子および参照
元文書内のアンカー文を表形式にして参照元付き文書表
として保持する参照元付き文書表展開手段と、前記参照
元付き文書表内の各文書の情報に基づき索引を作成して
保持する検索用索引展開手段と、ユーザからの検索要求
を受け付けるキーワード入力手段と、前記検索用索引を
調べ当該キーワードを含む文書群を検索する検索手段
と、前記検索手段によって検索された文書群に該当する
前記参照元付き文書表内の文書情報に基づき当該文書群
に含まれる各文書の重要度合を算出し順位づけて表示デ
ータとする順位づけ生成手段と、当該順位づけ表示デー
タをユーザに表示する検索結果表示手段から構成される
ハイパーテキスト検索装置としたものであり、各文書が
どの文書によって参照されているかがハイパーテキスト
文書管理手段にいちいち問い合わせることなく、参照元
付き文書表展開手段に展開された参照元文書の表を引く
だけで判明し、参照関係にある文書群を統合した重要度
合の評価処理や、参照関係にある文書群を統合した順位
づけ結果の表示データ生成を高速に行なえるようになる
とともに、ユーザが要求に沿ったキーワードを入力する
ことで、大量のハイパーテキスト文書からユーザの要求
に近いハイパーテキスト文書群がより近い順に高速に提
示されるという作用を有する。
テキスト文書管理手段によって管理されるハイパーテキ
ストによる参照構造を持った文書群を解析し、各文書ご
とに当該文書を参照する参照元文書の識別子および参照
元文書内のアンカー文を表形式にして参照元付き文書表
として保持する参照元付き文書表展開手段と、前記参照
元付き文書表内の各文書の情報に基づき索引を作成して
保持する検索用索引展開手段と、ユーザからの検索要求
を受け付けるキーワード入力手段と、前記検索用索引を
調べ当該キーワードを含む文書群を検索する検索手段
と、前記検索手段によって検索された文書群に該当する
前記参照元付き文書表内の文書情報に基づき当該文書群
に含まれる各文書の重要度合を算出し順位づけて表示デ
ータとする順位づけ生成手段と、当該順位づけ表示デー
タをユーザに表示する検索結果表示手段から構成される
ハイパーテキスト検索装置としたものであり、各文書が
どの文書によって参照されているかがハイパーテキスト
文書管理手段にいちいち問い合わせることなく、参照元
付き文書表展開手段に展開された参照元文書の表を引く
だけで判明し、参照関係にある文書群を統合した重要度
合の評価処理や、参照関係にある文書群を統合した順位
づけ結果の表示データ生成を高速に行なえるようになる
とともに、ユーザが要求に沿ったキーワードを入力する
ことで、大量のハイパーテキスト文書からユーザの要求
に近いハイパーテキスト文書群がより近い順に高速に提
示されるという作用を有する。
【0015】本発明の請求項3記載の発明は、前記順位
づけ生成手段が、順位づけされる各文書の見出しに添え
て、当該文書の参照元文書の見出しを前記参照元付き文
書表内から取り出して選択表示データとすることを特徴
とする請求項2記載のハイパーテキスト検索装置とした
ものであり、参照関係になっている文書群は通常深い関
連性がある内容を持っているので、検索された文書に関
連する文書のユーザによる選択呼び出しが容易となる作
用を有する。
づけ生成手段が、順位づけされる各文書の見出しに添え
て、当該文書の参照元文書の見出しを前記参照元付き文
書表内から取り出して選択表示データとすることを特徴
とする請求項2記載のハイパーテキスト検索装置とした
ものであり、参照関係になっている文書群は通常深い関
連性がある内容を持っているので、検索された文書に関
連する文書のユーザによる選択呼び出しが容易となる作
用を有する。
【0016】本発明の請求項4記載の発明は、前記順位
づけ生成手段が、文書群の順位づけに際し前記参照元付
き文書表を調べ、当該文書群内のある文書と他の文書が
近い参照関係にある場合、当該両文書を同一の順位にま
とめた選択表示データを生成することを特徴とする請求
項2記載のハイパーテキスト検索装置としたものであ
り、参照関係になっている文書群は通常深い関連性があ
る内容を持っているので、検索された文書群とそれらの
関連文書群の一覧性を高め、同時にユーザの同一文書の
重複呼び出しを防ぐという作用を有する。
づけ生成手段が、文書群の順位づけに際し前記参照元付
き文書表を調べ、当該文書群内のある文書と他の文書が
近い参照関係にある場合、当該両文書を同一の順位にま
とめた選択表示データを生成することを特徴とする請求
項2記載のハイパーテキスト検索装置としたものであ
り、参照関係になっている文書群は通常深い関連性があ
る内容を持っているので、検索された文書群とそれらの
関連文書群の一覧性を高め、同時にユーザの同一文書の
重複呼び出しを防ぐという作用を有する。
【0017】本発明の請求項5記載の発明は、前記順位
づけ生成手段が、文書群の順位づけに際し前記参照元付
き文書表を調べ、当該文書群内の各文書の重要度合に、
当該文書の参照元のアンカー文の重要度合も加えて当該
文書の重要度合として順位づけすることを特徴とする請
求項2記載のハイパーテキスト検索装置としたものであ
り、アンカー文は通常参照先の文書の特徴を良く記述し
ているので、検索された文書群の順位づけの信頼性を高
めるという作用を有する。
づけ生成手段が、文書群の順位づけに際し前記参照元付
き文書表を調べ、当該文書群内の各文書の重要度合に、
当該文書の参照元のアンカー文の重要度合も加えて当該
文書の重要度合として順位づけすることを特徴とする請
求項2記載のハイパーテキスト検索装置としたものであ
り、アンカー文は通常参照先の文書の特徴を良く記述し
ているので、検索された文書群の順位づけの信頼性を高
めるという作用を有する。
【0018】本発明の請求項6記載の発明は、前記順位
づけ生成手段が、順位づけされる各文書の見出しに添え
て、前記参照元付き文書表内から当該文書の先頭部分お
よびキーワード周辺部分を取り出して選択表示データと
することを特徴とする請求項2記載のハイパーテキスト
検索装置としたものであり、ユーザが順位づけされた各
文書の概要を当該文書を選択呼び出しすることなしに理
解でき、ユーザによる検索結果の取捨選択が容易となる
という作用を有する。
づけ生成手段が、順位づけされる各文書の見出しに添え
て、前記参照元付き文書表内から当該文書の先頭部分お
よびキーワード周辺部分を取り出して選択表示データと
することを特徴とする請求項2記載のハイパーテキスト
検索装置としたものであり、ユーザが順位づけされた各
文書の概要を当該文書を選択呼び出しすることなしに理
解でき、ユーザによる検索結果の取捨選択が容易となる
という作用を有する。
【0019】本発明の請求項7記載の発明は、前記順位
づけ生成手段が、文書群の順位づけに際し前記参照元付
き文書表を調べ、当該文書群内の各文書について当該文
書に当該文書の参照元文書の内容を合わせて重要度合を
算出し順位づけすることを特徴とする請求項2記載のハ
イパーテキスト検索装置としたものであり、ユーザの検
索要求にかかわる内容が参照関係にある複数文書に分離
している場合に、当該複数文書が分離して扱われて順位
づけの低下を招くことを防ぐという作用を有する。
づけ生成手段が、文書群の順位づけに際し前記参照元付
き文書表を調べ、当該文書群内の各文書について当該文
書に当該文書の参照元文書の内容を合わせて重要度合を
算出し順位づけすることを特徴とする請求項2記載のハ
イパーテキスト検索装置としたものであり、ユーザの検
索要求にかかわる内容が参照関係にある複数文書に分離
している場合に、当該複数文書が分離して扱われて順位
づけの低下を招くことを防ぐという作用を有する。
【0020】本発明の請求項8記載の発明は、前記順位
づけ生成手段が、文書群の順位づけに際し前記参照元付
き文書表を調べ、当該文書群内の各文書について当該文
書内の見出し部分の重要度合を他の部分よりも大きく評
価して当該文書の重要度合として順位づけすることを特
徴とする請求項2記載のハイパーテキスト検索装置とし
たものであり、見出し部分が文書の特徴を通常良く記述
しているので、検索された文書群の順位づけの信頼性を
高めるという作用を有する。
づけ生成手段が、文書群の順位づけに際し前記参照元付
き文書表を調べ、当該文書群内の各文書について当該文
書内の見出し部分の重要度合を他の部分よりも大きく評
価して当該文書の重要度合として順位づけすることを特
徴とする請求項2記載のハイパーテキスト検索装置とし
たものであり、見出し部分が文書の特徴を通常良く記述
しているので、検索された文書群の順位づけの信頼性を
高めるという作用を有する。
【0021】本発明の請求項9記載の発明は、前記順位
づけ生成手段が、文書群の順位づけに際し前記参照元付
き文書表を調べ、当該文書群内の各文書の重要度合に、
当該文書内で他の文書に対するアンカー文となっている
部分の重要度合を減じて当該文書の重要度合として順位
づけすることを特徴とする請求項2記載のハイパーテキ
スト検索装置としたものであり、参照先ばかりが列挙さ
れておりユーザが要求する内容が乏しい文書の順位づけ
を低く抑えるという作用を有する。
づけ生成手段が、文書群の順位づけに際し前記参照元付
き文書表を調べ、当該文書群内の各文書の重要度合に、
当該文書内で他の文書に対するアンカー文となっている
部分の重要度合を減じて当該文書の重要度合として順位
づけすることを特徴とする請求項2記載のハイパーテキ
スト検索装置としたものであり、参照先ばかりが列挙さ
れておりユーザが要求する内容が乏しい文書の順位づけ
を低く抑えるという作用を有する。
【0022】本発明の請求項10記載の発明は、前記参
照元付き文書表展開手段が前記参照元付き文書表を作成
するにあたり、一文書内に参照ラベルが設定されている
場合、当該文書を参照ラベルの位置で分割して複数の文
書として再定義することを特徴とする請求項2記載のハ
イパーテキスト検索装置としたものであり、内部に複数
の意味まとまりを持つ長大な文書を各意味まとまりごと
に検索し順位づけを行なえるという作用を有する。
照元付き文書表展開手段が前記参照元付き文書表を作成
するにあたり、一文書内に参照ラベルが設定されている
場合、当該文書を参照ラベルの位置で分割して複数の文
書として再定義することを特徴とする請求項2記載のハ
イパーテキスト検索装置としたものであり、内部に複数
の意味まとまりを持つ長大な文書を各意味まとまりごと
に検索し順位づけを行なえるという作用を有する。
【0023】本発明の請求項11記載の発明は、ハイパ
ーテキスト文書管理手段によって管理されるハイパーテ
キストによる参照構造を持った文書群を解析し、各文書
ごとに当該文書を参照する参照元文書の識別子および参
照元文書内のアンカー文を表形式にして参照元付き文書
表として保持する参照元付き文書表展開手段と、前記参
照元付き文書表内の各文書の情報に基づき索引を作成し
て保持する検索用索引展開手段と、ユーザからの検索要
求を受け付けるキーワード入力手段と、前記検索用索引
を調べ当該キーワードを含む文書群を検索する検索手段
と、前記検索手段によって検索された文書群に該当する
前記参照元付き文書表内の文書情報に基づき当該文書群
に含まれる各文書の重要度合を算出し順位づけて表示デ
ータとする順位づけ生成手段と、当該順位づけ表示デー
タをユーザに表示する検索結果表示手段から構成され、
前記順位づけ生成手段が、順位づけされた文書群の中に
高い重要度合で現れる単語群を同定し、当該単語群を前
記キーワード入力手段に戻すようにして、当該単語群か
ら新たなキーワードを選択入力することで再検索が起動
されるようにしたことを特徴とするハイパーテキスト検
索装置としたものであり、検索結果を見ながらの絞り込
みを狙った再検索や興味の湧いたキーワードによる新た
な検索を、キーボードを使うことなしにポインティング
デバイスのみを用いたキーワード入力が可能であるとい
う作用を有する。
ーテキスト文書管理手段によって管理されるハイパーテ
キストによる参照構造を持った文書群を解析し、各文書
ごとに当該文書を参照する参照元文書の識別子および参
照元文書内のアンカー文を表形式にして参照元付き文書
表として保持する参照元付き文書表展開手段と、前記参
照元付き文書表内の各文書の情報に基づき索引を作成し
て保持する検索用索引展開手段と、ユーザからの検索要
求を受け付けるキーワード入力手段と、前記検索用索引
を調べ当該キーワードを含む文書群を検索する検索手段
と、前記検索手段によって検索された文書群に該当する
前記参照元付き文書表内の文書情報に基づき当該文書群
に含まれる各文書の重要度合を算出し順位づけて表示デ
ータとする順位づけ生成手段と、当該順位づけ表示デー
タをユーザに表示する検索結果表示手段から構成され、
前記順位づけ生成手段が、順位づけされた文書群の中に
高い重要度合で現れる単語群を同定し、当該単語群を前
記キーワード入力手段に戻すようにして、当該単語群か
ら新たなキーワードを選択入力することで再検索が起動
されるようにしたことを特徴とするハイパーテキスト検
索装置としたものであり、検索結果を見ながらの絞り込
みを狙った再検索や興味の湧いたキーワードによる新た
な検索を、キーボードを使うことなしにポインティング
デバイスのみを用いたキーワード入力が可能であるとい
う作用を有する。
【0024】本発明の請求項12記載の発明は、前記順
位づけ生成手段が、順位づけされた文書群の中に高い重
要度合で現れる単語群を同定する際、当該入力キーワー
ドの当該文書における出現位置の近傍に現れる単語の重
要度合を他の部分に出現する単語よりも大きく評価して
当該単語の重要度合とすることを特徴とする請求項11
記載のハイパーテキスト検索装置としたものであり、キ
ーワードの近傍に出現する単語が通常そのキーワードと
関連性が高いので、関連キーワードとしての利用価値が
高い単語群が選定列挙される可能性を高めるという作用
を有する。
位づけ生成手段が、順位づけされた文書群の中に高い重
要度合で現れる単語群を同定する際、当該入力キーワー
ドの当該文書における出現位置の近傍に現れる単語の重
要度合を他の部分に出現する単語よりも大きく評価して
当該単語の重要度合とすることを特徴とする請求項11
記載のハイパーテキスト検索装置としたものであり、キ
ーワードの近傍に出現する単語が通常そのキーワードと
関連性が高いので、関連キーワードとしての利用価値が
高い単語群が選定列挙される可能性を高めるという作用
を有する。
【0025】以下、本発明の実施の形態について、例と
して、インターネットのワールドワイドウェブ(WWW)
上に分散管理されている文書群から、特定の文書群をキ
ーワード検索するハイパーテキスト検索装置について図
1から図10を用いて説明する。
して、インターネットのワールドワイドウェブ(WWW)
上に分散管理されている文書群から、特定の文書群をキ
ーワード検索するハイパーテキスト検索装置について図
1から図10を用いて説明する。
【0026】一般にハイパーテキスト文書は図2のよう
に、複数の参照関係にある文書80〜86によって構成され
ている。文書80〜84にはところどころにアンカー文800
〜806があり参照先の文書の識別子あるいは文書格納位
置が埋め込まれている。ユーザはいわゆるブラウザと呼
ばれる文書閲覧選択手段を用い、例えば文書81を閲覧し
ながらアンカー文801の位置をいわゆるポインティング
デバイスで選択することにより、参照先の文書83を呼び
出し閲覧するといった方法でハイパーテキスト文書を利
用する。文書81に対して文書83を参照先文書、逆に文書
83に対して文書81を参照元文書と呼ぶ。
に、複数の参照関係にある文書80〜86によって構成され
ている。文書80〜84にはところどころにアンカー文800
〜806があり参照先の文書の識別子あるいは文書格納位
置が埋め込まれている。ユーザはいわゆるブラウザと呼
ばれる文書閲覧選択手段を用い、例えば文書81を閲覧し
ながらアンカー文801の位置をいわゆるポインティング
デバイスで選択することにより、参照先の文書83を呼び
出し閲覧するといった方法でハイパーテキスト文書を利
用する。文書81に対して文書83を参照先文書、逆に文書
83に対して文書81を参照元文書と呼ぶ。
【0027】ワールドワイドウェブWWW上のハイパーテ
キスト文書群はハイパーテキストマークアップ言語(HT
ML)で書かれており、ひとつの文書はページと呼ばれ
て、単に文字列だけでなく、画像やプログラムをも含ん
でいる。HTMLでは、nouka.htmlというファイルに格納さ
れた文書81内の「りんご生産農家」という文字列に対し
て、ringo.htmlというファイルに格納された文書83への
参照を埋め込んでアンカー文とするには、文書81内の該
当文字列部分を「<a href="ringo.html">りんご生産農
家</a>」 のように表記すればよい。その場合、参照先
文書83には何も記さなくて良いので、文書83が作成され
たあとに、文書83が格納されている計算機からはネット
ワーク上で遠く離れた位置にある計算機内に文書82が作
成され、文書82が文書83の参照元文書のひとつになって
いるという場合も起こりうる。
キスト文書群はハイパーテキストマークアップ言語(HT
ML)で書かれており、ひとつの文書はページと呼ばれ
て、単に文字列だけでなく、画像やプログラムをも含ん
でいる。HTMLでは、nouka.htmlというファイルに格納さ
れた文書81内の「りんご生産農家」という文字列に対し
て、ringo.htmlというファイルに格納された文書83への
参照を埋め込んでアンカー文とするには、文書81内の該
当文字列部分を「<a href="ringo.html">りんご生産農
家</a>」 のように表記すればよい。その場合、参照先
文書83には何も記さなくて良いので、文書83が作成され
たあとに、文書83が格納されている計算機からはネット
ワーク上で遠く離れた位置にある計算機内に文書82が作
成され、文書82が文書83の参照元文書のひとつになって
いるという場合も起こりうる。
【0028】(第1の実施の形態)図1は、本発明のハ
イパーテキスト検索装置1を含む全体構成を示すブロッ
ク図である。図1のハイパーテキスト文書管理手段8
は、ワールドワイドウェブWWWの場合ではネットワーク
上に広域に分散された多数の計算機によって分散管理さ
れている。そのため、本発明のハイパーテキスト検索装
置1の参照元付き文書表展開手段7は、関連文書収集機
能(一般的にウェブロボットと呼ばれる)を装備してお
り、幾つかの文書格納位置アドレス(ユニバーサルリソ
ースロケータ、URL)を与えると当該URLが指し示す文書
から順にアンカー文に埋め込まれているURLを手がかり
に参照先の文書を次々と収集する。そして収集された文
書に、収集順などに基づく重複しない文書識別子を付
す。なお、画像やプログラムは除いて文字列のみを収集
すると収集時間を節約でき、また、すでに収集した文書
のURLをリストにしておき、当該リストにあるURLが指し
示す文書は重ねて収集しないこととすると、図2に示す
文書84から文書83を参照するアンカー文806のような戻
りの参照関係があるときに重複して文書を収集してしま
うことが避けられる。
イパーテキスト検索装置1を含む全体構成を示すブロッ
ク図である。図1のハイパーテキスト文書管理手段8
は、ワールドワイドウェブWWWの場合ではネットワーク
上に広域に分散された多数の計算機によって分散管理さ
れている。そのため、本発明のハイパーテキスト検索装
置1の参照元付き文書表展開手段7は、関連文書収集機
能(一般的にウェブロボットと呼ばれる)を装備してお
り、幾つかの文書格納位置アドレス(ユニバーサルリソ
ースロケータ、URL)を与えると当該URLが指し示す文書
から順にアンカー文に埋め込まれているURLを手がかり
に参照先の文書を次々と収集する。そして収集された文
書に、収集順などに基づく重複しない文書識別子を付
す。なお、画像やプログラムは除いて文字列のみを収集
すると収集時間を節約でき、また、すでに収集した文書
のURLをリストにしておき、当該リストにあるURLが指し
示す文書は重ねて収集しないこととすると、図2に示す
文書84から文書83を参照するアンカー文806のような戻
りの参照関係があるときに重複して文書を収集してしま
うことが避けられる。
【0029】次に図1の参照元付き文書表展開手段7
は、収集した文書群から図3に示すような参照元付き文
書表を、次の手順で作成する。収集した文書数に相当す
る個数の文書情報記入欄70〜72を作成し、当該各文書情
報記入欄に文書識別子の番号と文書格納位置のURLアド
レスを記入する。収集した各文書について、当該HTML文
書内の文字列を調べ、「<title>うちのりんご</title
>」などと記されている部分から「うちのりんご」など
のタイトルを抽出して記入したうえ、BODY部に存在する
文字列から「<」と「>」で囲まれた部分であるHTMLタ
グの文字列を除いてテキスト本文として記入する。収集
した各文書について、当該文書内の文字列を調べアンカ
ー文があったならば、当該アンカー文の参照先文書に該
当する文書情報記入欄の参照元リストに、当該アンカー
文をもつ文書の識別子と当該アンカー文とを対にして記
入する。
は、収集した文書群から図3に示すような参照元付き文
書表を、次の手順で作成する。収集した文書数に相当す
る個数の文書情報記入欄70〜72を作成し、当該各文書情
報記入欄に文書識別子の番号と文書格納位置のURLアド
レスを記入する。収集した各文書について、当該HTML文
書内の文字列を調べ、「<title>うちのりんご</title
>」などと記されている部分から「うちのりんご」など
のタイトルを抽出して記入したうえ、BODY部に存在する
文字列から「<」と「>」で囲まれた部分であるHTMLタ
グの文字列を除いてテキスト本文として記入する。収集
した各文書について、当該文書内の文字列を調べアンカ
ー文があったならば、当該アンカー文の参照先文書に該
当する文書情報記入欄の参照元リストに、当該アンカー
文をもつ文書の識別子と当該アンカー文とを対にして記
入する。
【0030】このように参照元付き文書表展開手段7
は、ハイパーテキスト文書管理手段8に格納されている
大量の文書をあらかじめ収集してそれを整理し、各文書
ごとに当該文書の識別子、文書格納位置、タイトル、テ
キスト本文などに加えて、当該文書を参照する参照元文
書の識別子および参照元文書内のアンカー文を表形式に
して参照元付き文書表として展開し、保持するものであ
る。
は、ハイパーテキスト文書管理手段8に格納されている
大量の文書をあらかじめ収集してそれを整理し、各文書
ごとに当該文書の識別子、文書格納位置、タイトル、テ
キスト本文などに加えて、当該文書を参照する参照元文
書の識別子および参照元文書内のアンカー文を表形式に
して参照元付き文書表として展開し、保持するものであ
る。
【0031】なお、以上では参照元付き文書表の作成を
全ての文書収集が終った後に行なうとして説明したが、
前記文書収集時にアンカー文を調べるのに合わせて、参
照元付き文書表の作成を順次行なう方法をとると効率化
が図れる。
全ての文書収集が終った後に行なうとして説明したが、
前記文書収集時にアンカー文を調べるのに合わせて、参
照元付き文書表の作成を順次行なう方法をとると効率化
が図れる。
【0032】また本発明の実施の形態におけるtf値
は、単語の文書内出現回数そのものを使用し、文書の大
きさで規格化しないとしている。これに対し文書の大き
さで規格化するtf値を使う場合は、各文書情報記入欄
に文書の大きさも算出して展開しておく必要がある。
は、単語の文書内出現回数そのものを使用し、文書の大
きさで規格化しないとしている。これに対し文書の大き
さで規格化するtf値を使う場合は、各文書情報記入欄
に文書の大きさも算出して展開しておく必要がある。
【0033】図1の検索用索引展開手段6は、数万語の
辞書を有しており、図4に示すような検索用索引を、次
の手順で作成する。辞書に登録されている単語数に相当
する個数の単語情報記入欄60〜62を作成し、当該単語情
報記入欄それぞれに単語を記入する。前記参照元付き文
書表内の全ての文書情報記入欄の内容を単語切りし、各
単語に相当する文字列が存在する文書の識別子と出現位
置(出現場所)を、該当する単語の単語情報記入欄に記
入する。
辞書を有しており、図4に示すような検索用索引を、次
の手順で作成する。辞書に登録されている単語数に相当
する個数の単語情報記入欄60〜62を作成し、当該単語情
報記入欄それぞれに単語を記入する。前記参照元付き文
書表内の全ての文書情報記入欄の内容を単語切りし、各
単語に相当する文字列が存在する文書の識別子と出現位
置(出現場所)を、該当する単語の単語情報記入欄に記
入する。
【0034】図4は、図3の文書83の内容を単語切りし
た後の、「りんご」という単語の単語情報記入欄を示し
ている。(TITLE,4)はタイトルの4文字目に「りん
ご」があること、(BODY,1,33,43)はテキスト本文の1
文字目、33文字目、43文字目に「りんご」があること、
(000082,5)は、文書82のアンカー文の5文字目に「り
んご」があることを意味する。また各単語の出現文書数
(あるいはidf値)や各文書内出現回数(あるいはt
f値)などのあらかじめ算出しておける数値は、検索用
索引展開時に算出して当該単語情報記入欄に記入してお
くと、検索時の処理時間が節約できる。さらに各単語情
報記入欄に登録されている文書については、当該文書の
文書情報記入欄の単語リストに図3の最下段にあるよう
に当該単語を並べておくと、文書情報から容易に単語情
報を引くことができる。
た後の、「りんご」という単語の単語情報記入欄を示し
ている。(TITLE,4)はタイトルの4文字目に「りん
ご」があること、(BODY,1,33,43)はテキスト本文の1
文字目、33文字目、43文字目に「りんご」があること、
(000082,5)は、文書82のアンカー文の5文字目に「り
んご」があることを意味する。また各単語の出現文書数
(あるいはidf値)や各文書内出現回数(あるいはt
f値)などのあらかじめ算出しておける数値は、検索用
索引展開時に算出して当該単語情報記入欄に記入してお
くと、検索時の処理時間が節約できる。さらに各単語情
報記入欄に登録されている文書については、当該文書の
文書情報記入欄の単語リストに図3の最下段にあるよう
に当該単語を並べておくと、文書情報から容易に単語情
報を引くことができる。
【0035】このように検索用索引展開手段6は、前記
参照元付き文書表に格納されているテキスト本文、タイ
トル、アンカー文などの文字列をあらかじめ解析し、内
蔵の辞書に登録されている単語群内の各単語について、
当該単語がどの文書内の文字列のどの位置に現れている
かを記した検索用索引を展開し、保持するものである。
参照元付き文書表に格納されているテキスト本文、タイ
トル、アンカー文などの文字列をあらかじめ解析し、内
蔵の辞書に登録されている単語群内の各単語について、
当該単語がどの文書内の文字列のどの位置に現れている
かを記した検索用索引を展開し、保持するものである。
【0036】図1のキーワード入力手段2は、テキスト
ボックス機能と当該テキストボックスの内容を返す検索
開始用ボタンを備えて「検索のページ」などと題したHT
ML文書を用いて実現される。ユーザは、自分のクライア
ント計算機で起動したモザイクあるいはネットスケープ
などのWWWブラウザで当該HTML文書を呼び出し、テキス
トボックスに単一のキーワードを入力するかあるいは複
数のキーワードをスペースで区切って列挙して入力し、
続けて検索開始用ボタンを押すことにより、キーワード
の入力がなされる。
ボックス機能と当該テキストボックスの内容を返す検索
開始用ボタンを備えて「検索のページ」などと題したHT
ML文書を用いて実現される。ユーザは、自分のクライア
ント計算機で起動したモザイクあるいはネットスケープ
などのWWWブラウザで当該HTML文書を呼び出し、テキス
トボックスに単一のキーワードを入力するかあるいは複
数のキーワードをスペースで区切って列挙して入力し、
続けて検索開始用ボタンを押すことにより、キーワード
の入力がなされる。
【0037】このようにキーワード入力手段2は、ユー
ザ9から複数のキーワード入力を受け付け、検索手段3
に供給するものである。なお、キーワードの候補となる
複数の単語をボタンとして列挙し選択入力可能としてお
くと、キーボードから任意文字列を入力するのが不得手
のユーザにも、当該キーワード候補の単語範囲で、キー
ボードを使わずともポインティングデバイスを用いたキ
ーワード入力が可能である。
ザ9から複数のキーワード入力を受け付け、検索手段3
に供給するものである。なお、キーワードの候補となる
複数の単語をボタンとして列挙し選択入力可能としてお
くと、キーボードから任意文字列を入力するのが不得手
のユーザにも、当該キーワード候補の単語範囲で、キー
ボードを使わずともポインティングデバイスを用いたキ
ーワード入力が可能である。
【0038】図1の検索手段3は、前記キーワード入力
手段2によって入力されたキーワード群と同一単語の単
語情報記入欄を前記検索用索引から取り出す。
手段2によって入力されたキーワード群と同一単語の単
語情報記入欄を前記検索用索引から取り出す。
【0039】このように検索手段3は、当該入力キーワ
ードと合致する単語群を前記検索用索引から探し、当該
入力キーワードが出現する文書の識別子と、当該キーワ
ードが出現する当該文書の文字列内の位置情報との組を
複数個得て、順位づけ生成手段4に供するものである。
ードと合致する単語群を前記検索用索引から探し、当該
入力キーワードが出現する文書の識別子と、当該キーワ
ードが出現する当該文書の文字列内の位置情報との組を
複数個得て、順位づけ生成手段4に供するものである。
【0040】図1の順位づけ生成手段4は、当該キーワ
ードが出現する各文書についてtf×idf評価値を算
出して当該文書の重要度合とし、当該重要度合が高い順
に当該文書群を順位づける。入力されたキーワードが複
数ある場合は、各々のキーワードに関して出現する文書
のtf×idf評価値を算出して重要度合とし、全文書
にわたり重要度合を比較して順位づける。
ードが出現する各文書についてtf×idf評価値を算
出して当該文書の重要度合とし、当該重要度合が高い順
に当該文書群を順位づける。入力されたキーワードが複
数ある場合は、各々のキーワードに関して出現する文書
のtf×idf評価値を算出して重要度合とし、全文書
にわたり重要度合を比較して順位づける。
【0041】なお、複数種のキーワードを含む文書につ
いて各キーワードのtf×idf評価値を足し合わせて
当該文書の重要度合として順位づける。また、複数種の
キーワードを含む文書についてtf×idf評価値を足
し合わせる際に、キーワードを2種含む時はさらに2倍
するとか、キーワードを3種含む時はさらに3倍すると
かの加点(重み付け)を行なうとキーワードの共起によ
る順位づけが上がり、ユーザの要求に沿うことが多くな
る。さらに2種のキーワードが文書内で20文字より近い
距離にある場合はさらに2倍するなどの、キーワードの
文書内近接共起による加点(重み付け)を行なうと、キ
ーワード共起による順位づけがさらに強く効き、ユーザ
の要求に沿うことが多くなる。
いて各キーワードのtf×idf評価値を足し合わせて
当該文書の重要度合として順位づける。また、複数種の
キーワードを含む文書についてtf×idf評価値を足
し合わせる際に、キーワードを2種含む時はさらに2倍
するとか、キーワードを3種含む時はさらに3倍すると
かの加点(重み付け)を行なうとキーワードの共起によ
る順位づけが上がり、ユーザの要求に沿うことが多くな
る。さらに2種のキーワードが文書内で20文字より近い
距離にある場合はさらに2倍するなどの、キーワードの
文書内近接共起による加点(重み付け)を行なうと、キ
ーワード共起による順位づけがさらに強く効き、ユーザ
の要求に沿うことが多くなる。
【0042】順位づけ生成手段4は、さらに、順位づけ
された順で各文書の見出しを列挙したHTML文書を表示用
に作成し、検索結果表示手段5に供する。見出しとは、
各文書のタイトルあるいはその参照元文書のアンカー文
の文字列であり、個々の見出しには当該文書のURLを埋
め込んでアンカー文としておく。
された順で各文書の見出しを列挙したHTML文書を表示用
に作成し、検索結果表示手段5に供する。見出しとは、
各文書のタイトルあるいはその参照元文書のアンカー文
の文字列であり、個々の見出しには当該文書のURLを埋
め込んでアンカー文としておく。
【0043】このように順位づけ生成手段4は、前記参
照元付き文書表から参照関係にある文書群を導き、当該
文書群を統合した重要度合の評価処理および順位づけ並
びに順位づけ結果の表示データ生成を行ない、検索結果
表示手段5に供するものである。
照元付き文書表から参照関係にある文書群を導き、当該
文書群を統合した重要度合の評価処理および順位づけ並
びに順位づけ結果の表示データ生成を行ない、検索結果
表示手段5に供するものである。
【0044】図1の検索結果表示手段5は、ユーザのク
ライアント計算機で起動したモザイクあるいはネットス
ケープなどのWWWブラウザで実現され、表示用に作成さ
れたHTML文書を受け付けクライアント計算機に画面表示
すると同時に、ポインティングデバイスで見出しを選択
指定することで、見出しに対応する実体の文書が当該見
出しに埋め込まれているURLに基づいて呼び出し可能と
なる。
ライアント計算機で起動したモザイクあるいはネットス
ケープなどのWWWブラウザで実現され、表示用に作成さ
れたHTML文書を受け付けクライアント計算機に画面表示
すると同時に、ポインティングデバイスで見出しを選択
指定することで、見出しに対応する実体の文書が当該見
出しに埋め込まれているURLに基づいて呼び出し可能と
なる。
【0045】このように検索結果表示手段5は、前記表
示データを画面表示したうえでユーザの選択指定を受け
付け、選択指定される都度、選択指定された文書のみを
ハイパーテキスト文書管理手段8から呼び出して表示す
るものである。
示データを画面表示したうえでユーザの選択指定を受け
付け、選択指定される都度、選択指定された文書のみを
ハイパーテキスト文書管理手段8から呼び出して表示す
るものである。
【0046】以上のように本発明の第1の実施の形態に
よれば、各文書がどの文書によって参照されているかが
ハイパーテキスト文書管理手段8にいちいち問い合わせ
ることなく、参照元付き文書表展開手段7に展開された
参照元文書の表を引くだけで判明し、参照関係にある文
書群を統合した重要度合の評価処理や、参照関係にある
文書群を統合した順位づけ結果の表示データ生成を高速
に行なえるようになるとともに、ユーザが要求に沿った
キーワードを入力することで、大量のハイパーテキスト
文書からユーザの要求に近いハイパーテキスト文書群が
より近い順に高速に提示されるという有利な効果を奏す
る。
よれば、各文書がどの文書によって参照されているかが
ハイパーテキスト文書管理手段8にいちいち問い合わせ
ることなく、参照元付き文書表展開手段7に展開された
参照元文書の表を引くだけで判明し、参照関係にある文
書群を統合した重要度合の評価処理や、参照関係にある
文書群を統合した順位づけ結果の表示データ生成を高速
に行なえるようになるとともに、ユーザが要求に沿った
キーワードを入力することで、大量のハイパーテキスト
文書からユーザの要求に近いハイパーテキスト文書群が
より近い順に高速に提示されるという有利な効果を奏す
る。
【0047】(第2の実施の形態)本発明の第2の実施
の形態は、前記第1の実施の形態と基本的な構成は同じ
である。しかし、ハイパーテキスト検索装置1の順位づ
け生成手段4の機能を若干異にしている。たとえば図2
に示される参照関係にある文書群から文書83、文書85、
文書86が検索され、各々4位、18位、19位に順位づけら
れた場合を考える。
の形態は、前記第1の実施の形態と基本的な構成は同じ
である。しかし、ハイパーテキスト検索装置1の順位づ
け生成手段4の機能を若干異にしている。たとえば図2
に示される参照関係にある文書群から文書83、文書85、
文書86が検索され、各々4位、18位、19位に順位づけら
れた場合を考える。
【0048】順位づけ生成手段4は、順位づけ結果生成
時に、検索された各文書(図6の星印を付した文書)の
参照元文書を参照元付き文書表を用いてたどっていき、
たとえば1つ上と2つ上の参照元文書の見出しを添えた
順位づけ結果表示が、図6のように生成できる。文書83
の参照元関係にある文書は文書81と文書82の複数がある
が、文書格納位置の部分文字列同士をマッチさせること
で、より文書格納位置が近い文書を判定して参照元文書
をひとつに絞っている。このように参照元文書の見出し
を添えておけば、図6の結果表示から、19位にある文書
86のようにアンカー文をひとつも持たない文書(図2参
照)を選択し呼び出してしまっても、再び図6の結果表
示に戻れば、深い関連性がある内容をもつであろう参照
元の文書83や文書81が容易に選択呼び出し可能となる。
時に、検索された各文書(図6の星印を付した文書)の
参照元文書を参照元付き文書表を用いてたどっていき、
たとえば1つ上と2つ上の参照元文書の見出しを添えた
順位づけ結果表示が、図6のように生成できる。文書83
の参照元関係にある文書は文書81と文書82の複数がある
が、文書格納位置の部分文字列同士をマッチさせること
で、より文書格納位置が近い文書を判定して参照元文書
をひとつに絞っている。このように参照元文書の見出し
を添えておけば、図6の結果表示から、19位にある文書
86のようにアンカー文をひとつも持たない文書(図2参
照)を選択し呼び出してしまっても、再び図6の結果表
示に戻れば、深い関連性がある内容をもつであろう参照
元の文書83や文書81が容易に選択呼び出し可能となる。
【0049】以上のように本発明の第2の実施の形態に
よれば、順位づけ生成手段4において、前記参照元付き
文書表から検索された文書の参照元関係にある文書群の
見出しを取り出し、順位づけ結果の表示データ生成の際
に、検索された文書の見出しだけでなく当該参照元文書
の見出しも合わせて表示データとし、検索結果表示手段
5に供することにより、参照関係になっている文書群は
通常深い関連性がある内容を持っているので、検索され
た文書に関連する文書のユーザによる選択呼び出しが容
易となる有利な効果を奏する。
よれば、順位づけ生成手段4において、前記参照元付き
文書表から検索された文書の参照元関係にある文書群の
見出しを取り出し、順位づけ結果の表示データ生成の際
に、検索された文書の見出しだけでなく当該参照元文書
の見出しも合わせて表示データとし、検索結果表示手段
5に供することにより、参照関係になっている文書群は
通常深い関連性がある内容を持っているので、検索され
た文書に関連する文書のユーザによる選択呼び出しが容
易となる有利な効果を奏する。
【0050】(第3の実施の形態)本発明の第3の実施
の形態は、前記第1の実施の形態と基本的な構成は同じ
である。しかし、ハイパーテキスト検索装置1の順位づ
け生成手段4の機能を若干異にしている。また前記第2
の実施の形態で行なった図6のような表示では問題が多
少残ることに対して考慮したものである。たとえば図2
および図6において、4位にある文書83を呼び出して読
み、さらに文書83にあるアンカー文から文書85を呼び出
して読んだとする。その後に、5位、6位と読み進む
と、すでに読み終っている文書85が18位に出現するので
読み終っていると気づかずに再度呼び出してしまった
り、19位で文書86を呼び出して読んでも、文書83を読ん
でから時間がたっているので文脈がよく理解できなかっ
たりする可能性がある。
の形態は、前記第1の実施の形態と基本的な構成は同じ
である。しかし、ハイパーテキスト検索装置1の順位づ
け生成手段4の機能を若干異にしている。また前記第2
の実施の形態で行なった図6のような表示では問題が多
少残ることに対して考慮したものである。たとえば図2
および図6において、4位にある文書83を呼び出して読
み、さらに文書83にあるアンカー文から文書85を呼び出
して読んだとする。その後に、5位、6位と読み進む
と、すでに読み終っている文書85が18位に出現するので
読み終っていると気づかずに再度呼び出してしまった
り、19位で文書86を呼び出して読んでも、文書83を読ん
でから時間がたっているので文脈がよく理解できなかっ
たりする可能性がある。
【0051】そこで、本発明の第3の実施の形態では、
図1の順位づけ生成手段4において、前記参照元付き文
書表から検索された文書の参照元関係にある文書群の識
別子を取り出し他の検索された文書の識別子と同一性を
判定することで、検索された文書同士が近い参照関係に
あることを認定し、順位づけ結果の表示データ生成の際
に、近い参照関係が認定された当該文書群の見出しを同
一の順位の表示データにして検索結果表示手段5に供す
るようにしている。その結果、図6の4位の文書群と18
位の文書群と19位の文書群のように共通の文書を含む文
書群は、それらの文書識別子から判定して、図8のよう
に4位に一体化して表示するようにすると、検索された
文書83、文書85、文書86が参照関係の文脈を保持しなが
ら続いて読むことができるので、ユーザによる検索結果
の一覧性を高めると同時に、ユーザの同一文書の重複呼
び出しを防ぐことができる。
図1の順位づけ生成手段4において、前記参照元付き文
書表から検索された文書の参照元関係にある文書群の識
別子を取り出し他の検索された文書の識別子と同一性を
判定することで、検索された文書同士が近い参照関係に
あることを認定し、順位づけ結果の表示データ生成の際
に、近い参照関係が認定された当該文書群の見出しを同
一の順位の表示データにして検索結果表示手段5に供す
るようにしている。その結果、図6の4位の文書群と18
位の文書群と19位の文書群のように共通の文書を含む文
書群は、それらの文書識別子から判定して、図8のよう
に4位に一体化して表示するようにすると、検索された
文書83、文書85、文書86が参照関係の文脈を保持しなが
ら続いて読むことができるので、ユーザによる検索結果
の一覧性を高めると同時に、ユーザの同一文書の重複呼
び出しを防ぐことができる。
【0052】なお、以上では一体化表示時に、一体化さ
れる文書のうち最も重要度合の大きな文書の重要度合
を、一体化された文書群の重要度合として順位づけると
して説明したが、一体化された文書群の重要度合を、一
体化された文書群の重要度合の和として順位づけしても
よい。
れる文書のうち最も重要度合の大きな文書の重要度合
を、一体化された文書群の重要度合として順位づけると
して説明したが、一体化された文書群の重要度合を、一
体化された文書群の重要度合の和として順位づけしても
よい。
【0053】(第4の実施の形態)本発明の第4の実施
の形態は、前記第1の実施の形態と基本的な構成は同じ
である。しかし、ハイパーテキスト検索装置1の順位づ
け生成手段4の機能を若干異にしている。すなわち、本
発明の第4の実施の形態では、たとえば入力キーワード
「りんご」に関する検索では、図4の「りんご」の単語
情報記入欄が指し示している「りんご」の出現位置が文
書81および文書82のアンカー文であっても、当該出現回
数2回を文書83のテキストに出現した「りんご」の出現
回数4回に加えて6回としidf×tf評価値を計算し
て順位づけると、アンカー文では通常参照先の文書の特
徴を記述したキーワード(この場合は「りんご」)が何
度も現れるので、検索された文書83の順位づけが高くな
り、「りんご」に関する検索の信頼性を高められる。
の形態は、前記第1の実施の形態と基本的な構成は同じ
である。しかし、ハイパーテキスト検索装置1の順位づ
け生成手段4の機能を若干異にしている。すなわち、本
発明の第4の実施の形態では、たとえば入力キーワード
「りんご」に関する検索では、図4の「りんご」の単語
情報記入欄が指し示している「りんご」の出現位置が文
書81および文書82のアンカー文であっても、当該出現回
数2回を文書83のテキストに出現した「りんご」の出現
回数4回に加えて6回としidf×tf評価値を計算し
て順位づけると、アンカー文では通常参照先の文書の特
徴を記述したキーワード(この場合は「りんご」)が何
度も現れるので、検索された文書83の順位づけが高くな
り、「りんご」に関する検索の信頼性を高められる。
【0054】つまり、第4の実施の形態では、図1の順
位づけ生成手段4において、検索手段3から供された入
力キーワードの出現位置が前記参照元付き文書表内の参
照元文書のアンカー文であっても、当該出現回数を参照
先の文書内のテキストに出現した当該入力キーワードの
出現回数に加えて当該参照先文書の重要度合を計算して
順位づけたうえで表示データを生成し、検索結果表示手
段5に供するようにする。これにより、アンカー文は通
常参照先の文書の特徴を良く記述しているので、検索さ
れた文書群の順位づけの信頼性を高める有利な効果を奏
する。
位づけ生成手段4において、検索手段3から供された入
力キーワードの出現位置が前記参照元付き文書表内の参
照元文書のアンカー文であっても、当該出現回数を参照
先の文書内のテキストに出現した当該入力キーワードの
出現回数に加えて当該参照先文書の重要度合を計算して
順位づけたうえで表示データを生成し、検索結果表示手
段5に供するようにする。これにより、アンカー文は通
常参照先の文書の特徴を良く記述しているので、検索さ
れた文書群の順位づけの信頼性を高める有利な効果を奏
する。
【0055】(第5の実施の形態)本発明の第5の実施
の形態は、前記第1の実施の形態と基本的な構成は同じ
である。しかし、ハイパーテキスト検索装置1の順位づ
け生成手段4の機能を若干異にしている。すなわち、本
発明の第5の実施の形態では、順位づけ結果生成時に、
単語情報記入欄から得られる入力キーワードのテキスト
本文内の出現位置にもとづき、当該入力キーワードを含
む文あるいはフレーズを抜き出して当該文書のテキスト
本文の先頭文あるいは先頭フレーズに続けて表記した要
約文を形成し、図7に示すように、各文書の見出しに添
えて表示データとすると、ユーザが順位づけされた文書
をいちいち選択呼び出しすることなしに、順位づけ結果
表示画面に表記された各文書の要約文を読むだけで当該
文書の概要を理解でき、ユーザによる検索結果の取捨選
択が容易となる。
の形態は、前記第1の実施の形態と基本的な構成は同じ
である。しかし、ハイパーテキスト検索装置1の順位づ
け生成手段4の機能を若干異にしている。すなわち、本
発明の第5の実施の形態では、順位づけ結果生成時に、
単語情報記入欄から得られる入力キーワードのテキスト
本文内の出現位置にもとづき、当該入力キーワードを含
む文あるいはフレーズを抜き出して当該文書のテキスト
本文の先頭文あるいは先頭フレーズに続けて表記した要
約文を形成し、図7に示すように、各文書の見出しに添
えて表示データとすると、ユーザが順位づけされた文書
をいちいち選択呼び出しすることなしに、順位づけ結果
表示画面に表記された各文書の要約文を読むだけで当該
文書の概要を理解でき、ユーザによる検索結果の取捨選
択が容易となる。
【0056】つまり、第5の実施の形態では、図1の順
位づけ生成手段4において表示データを生成するに際
し、検索手段3から供された入力キーワードの前記参照
元付き文書表内の出現位置にもとづき、当該入力キーワ
ードを含む文あるいはフレーズを抜きだして当該文書の
テキスト本文の先頭文あるいは先頭フレーズに添えて表
示データとし、検索結果表示手段5に供するようにす
る。これにより、ユーザが順位づけされた各文書の概要
を当該文書を選択呼び出しすることなしに理解でき、ユ
ーザによる検索結果の取捨選択が容易となる有利な効果
を奏する。
位づけ生成手段4において表示データを生成するに際
し、検索手段3から供された入力キーワードの前記参照
元付き文書表内の出現位置にもとづき、当該入力キーワ
ードを含む文あるいはフレーズを抜きだして当該文書の
テキスト本文の先頭文あるいは先頭フレーズに添えて表
示データとし、検索結果表示手段5に供するようにす
る。これにより、ユーザが順位づけされた各文書の概要
を当該文書を選択呼び出しすることなしに理解でき、ユ
ーザによる検索結果の取捨選択が容易となる有利な効果
を奏する。
【0057】なお、以上ではひとつの文書にキーワード
が何度現れても当該入力キーワードを含む文あるいはフ
レーズを全て抜きだして要約文を生成するとして説明し
たが、5種までの複数キーワード検索は1種当たり3箇
所までしか抜き出さないとか、10種までの複数キーワー
ド検索は1種当たり2箇所までしか抜き出さないとか、
10種を越える複数キーワード検索は1種当たり1箇所ま
でしか抜き出さないとかの制限を設けると、要約文が長
大になって順位づけの一覧性が低下するのを防ぐことが
できる。
が何度現れても当該入力キーワードを含む文あるいはフ
レーズを全て抜きだして要約文を生成するとして説明し
たが、5種までの複数キーワード検索は1種当たり3箇
所までしか抜き出さないとか、10種までの複数キーワー
ド検索は1種当たり2箇所までしか抜き出さないとか、
10種を越える複数キーワード検索は1種当たり1箇所ま
でしか抜き出さないとかの制限を設けると、要約文が長
大になって順位づけの一覧性が低下するのを防ぐことが
できる。
【0058】(第6の実施の形態)本発明の第6の実施
の形態は、前記第1の実施の形態と基本的な構成は同じ
である。しかし、ハイパーテキスト検索装置1の順位づ
け生成手段4の機能を若干異にしている。すなわち、ワ
ールドワイドウェブWWWの文書(ページ)では、各文書
が細切れになっており、一文書内に十分な文脈が記述さ
れていないことが多い。たとえば文書83の「りんご」が
「青森りんご」であるにもかかわらず、「青森」の記述
は文書83にはなく参照元の文書81にあることがある。
の形態は、前記第1の実施の形態と基本的な構成は同じ
である。しかし、ハイパーテキスト検索装置1の順位づ
け生成手段4の機能を若干異にしている。すなわち、ワ
ールドワイドウェブWWWの文書(ページ)では、各文書
が細切れになっており、一文書内に十分な文脈が記述さ
れていないことが多い。たとえば文書83の「りんご」が
「青森りんご」であるにもかかわらず、「青森」の記述
は文書83にはなく参照元の文書81にあることがある。
【0059】本発明の第6の実施の形態では、たとえば
入力キーワード「りんご」と「青森」に関する検索にお
いて文書83の重要度合を算出するにあたり、文書83と参
照元文書81を合わせた文書の重要度合と、文書83と参照
元文書82を合わせた文書の重要度合とを比較し、「青
森」という単語が入っていて重要度合が大きい文書81と
文書83を合わせた文書の重要度合を文書83の重要度合と
すると、文書83の順位づけの低下を防ぐことができる。
入力キーワード「りんご」と「青森」に関する検索にお
いて文書83の重要度合を算出するにあたり、文書83と参
照元文書81を合わせた文書の重要度合と、文書83と参照
元文書82を合わせた文書の重要度合とを比較し、「青
森」という単語が入っていて重要度合が大きい文書81と
文書83を合わせた文書の重要度合を文書83の重要度合と
すると、文書83の順位づけの低下を防ぐことができる。
【0060】つまり、第6の実施の形態では、図1の順
位づけ生成手段4において、検索手段3によって検索さ
れた文書群内の各文書について前記参照元付き文書表か
ら当該文書の参照元関係にある文書群を特定し、当該検
索された文書の内容と当該参照元関係にある文書の内容
を複合した内容で重要度合を算出し、当該参照元関係に
ある文書群のうち当該検索された文書と複合して最も評
価が高くなる文書を選び、当該検索された文書の重要度
合に代えて当該複合文書の重要度合を用いて順位づけし
たうえで表示データとし、検索結果表示手段5に供する
ようにする。これにより、ユーザの検索要求にかかわる
内容が参照関係にある複数文書に分離している場合に、
当該複数文書が分離して扱われて順位づけの低下を招く
ことを防ぐという有利な効果を奏する。
位づけ生成手段4において、検索手段3によって検索さ
れた文書群内の各文書について前記参照元付き文書表か
ら当該文書の参照元関係にある文書群を特定し、当該検
索された文書の内容と当該参照元関係にある文書の内容
を複合した内容で重要度合を算出し、当該参照元関係に
ある文書群のうち当該検索された文書と複合して最も評
価が高くなる文書を選び、当該検索された文書の重要度
合に代えて当該複合文書の重要度合を用いて順位づけし
たうえで表示データとし、検索結果表示手段5に供する
ようにする。これにより、ユーザの検索要求にかかわる
内容が参照関係にある複数文書に分離している場合に、
当該複数文書が分離して扱われて順位づけの低下を招く
ことを防ぐという有利な効果を奏する。
【0061】(第7の実施の形態)本発明の第7の実施
の形態は、前記第1の実施の形態と基本的な構成は同じ
である。しかし、ハイパーテキスト検索装置1の順位づ
け生成手段4の機能を若干異にしている。すなわち、本
発明の第7の実施の形態では、入力キーワード「りん
ご」の出現位置が文書のタイトルあるいは参照元文書の
アンカー文などの見出し部分の文字列にあるとき、文書
83内のテキスト全体に出現した当該入力キーワードの出
現回数6回のうちアンカー文とタイトルに出現した回数
3回を2倍にし、出現回数を9回として当該文書の重要
度合を計算するなどとすると、見出し部分が文書の特徴
を通常良く記述しているので、文書83の順位づけの信頼
性をさらに高められる。なお、見出し部分にはアンカー
文とタイトルに加え、HTML文では「<h1>」と「</h1>」
で囲まれる文字列に代表される小見出しを含めても良
い。
の形態は、前記第1の実施の形態と基本的な構成は同じ
である。しかし、ハイパーテキスト検索装置1の順位づ
け生成手段4の機能を若干異にしている。すなわち、本
発明の第7の実施の形態では、入力キーワード「りん
ご」の出現位置が文書のタイトルあるいは参照元文書の
アンカー文などの見出し部分の文字列にあるとき、文書
83内のテキスト全体に出現した当該入力キーワードの出
現回数6回のうちアンカー文とタイトルに出現した回数
3回を2倍にし、出現回数を9回として当該文書の重要
度合を計算するなどとすると、見出し部分が文書の特徴
を通常良く記述しているので、文書83の順位づけの信頼
性をさらに高められる。なお、見出し部分にはアンカー
文とタイトルに加え、HTML文では「<h1>」と「</h1>」
で囲まれる文字列に代表される小見出しを含めても良
い。
【0062】つまり、本発明の第7の実施の形態では、
図1の順位づけ生成手段4において、検索手段3から供
された入力キーワードの出現位置が前記参照元付き文書
表内の見出し部分の文字列にあるとき、当該出現回数を
数倍したうえで文書内のテキスト全体に出現した当該入
力キーワードの出現回数に加えて当該文書の重要度合を
算出し、当該文書を順位づけたうえで表示データを生成
し、検索結果表示手段5に供するようにする。これによ
り、見出し部分が文書の特徴を通常良く記述しているの
で、検索された文書群の順位づけの信頼性を高める有利
な効果を奏する。
図1の順位づけ生成手段4において、検索手段3から供
された入力キーワードの出現位置が前記参照元付き文書
表内の見出し部分の文字列にあるとき、当該出現回数を
数倍したうえで文書内のテキスト全体に出現した当該入
力キーワードの出現回数に加えて当該文書の重要度合を
算出し、当該文書を順位づけたうえで表示データを生成
し、検索結果表示手段5に供するようにする。これによ
り、見出し部分が文書の特徴を通常良く記述しているの
で、検索された文書群の順位づけの信頼性を高める有利
な効果を奏する。
【0063】(第8の実施の形態)本発明の第8の実施
の形態は、前記第1の実施の形態と基本的な構成は同じ
である。しかし、ハイパーテキスト検索装置1の順位づ
け生成手段4の機能を若干異にしている。すなわち、ワ
ールドワイドウェブWWWの文書(ページ)には、他の文
書を参照するアンカー文が多数列挙されているいわゆる
リンクページが存在する。リンクページは検索表示され
ても検索意図に合った有益な情報がないことが多い。
の形態は、前記第1の実施の形態と基本的な構成は同じ
である。しかし、ハイパーテキスト検索装置1の順位づ
け生成手段4の機能を若干異にしている。すなわち、ワ
ールドワイドウェブWWWの文書(ページ)には、他の文
書を参照するアンカー文が多数列挙されているいわゆる
リンクページが存在する。リンクページは検索表示され
ても検索意図に合った有益な情報がないことが多い。
【0064】本発明の第8の実施の形態では、たとえば
文書82のテキスト本文が「りんご」に関するアンカー文
10個のみのリンクページであり「りんご」の出現回数が
テキスト本文で10回であった場合でも、「りんご」に関
する検索において文書83での「りんご」の出現回数を調
べるにあたり、参照元文書のアンカー文に「りんご」が
見い出される都度、文書82のテキスト本文での「りん
ご」の出現回数を1回分減じることを繰り返すことによ
り、文書82のテキスト本文での「りんご」の出現回数を
0回にまで低下させられ、リンクページの順位づけを低
く抑えることができる。
文書82のテキスト本文が「りんご」に関するアンカー文
10個のみのリンクページであり「りんご」の出現回数が
テキスト本文で10回であった場合でも、「りんご」に関
する検索において文書83での「りんご」の出現回数を調
べるにあたり、参照元文書のアンカー文に「りんご」が
見い出される都度、文書82のテキスト本文での「りん
ご」の出現回数を1回分減じることを繰り返すことによ
り、文書82のテキスト本文での「りんご」の出現回数を
0回にまで低下させられ、リンクページの順位づけを低
く抑えることができる。
【0065】つまり、本発明の第8の実施の形態では、
図1の順位づけ生成手段4において、検索手段3から供
された入力キーワードの出現位置が前記参照元付き文書
表内の参照元文書のアンカー文であるとき、当該出現回
数を当該参照元の文書内のテキスト本文に出現した当該
入力キーワードの出現回数から減じて当該参照元文書の
重要度合を計算して順位づけたうえで表示データを生成
し、検索結果表示手段5に供するようにする。こうする
ことにより、参照先ばかりが列挙されておりユーザが要
求する内容が乏しい文書の順位づけを低く抑えることが
できる。
図1の順位づけ生成手段4において、検索手段3から供
された入力キーワードの出現位置が前記参照元付き文書
表内の参照元文書のアンカー文であるとき、当該出現回
数を当該参照元の文書内のテキスト本文に出現した当該
入力キーワードの出現回数から減じて当該参照元文書の
重要度合を計算して順位づけたうえで表示データを生成
し、検索結果表示手段5に供するようにする。こうする
ことにより、参照先ばかりが列挙されておりユーザが要
求する内容が乏しい文書の順位づけを低く抑えることが
できる。
【0066】(第9の実施の形態)本発明の第9の実施
の形態は、前記第1の実施の形態と基本的な構成は同じ
である。しかし、ハイパーテキスト検索装置1の参照元
付き文書表展開手段7の機能を若干異にしている。すな
わち、本発明の第9の実施の形態では、参照元付き文書
表として展開するに際し、図5の文書87のように「<a n
ame="ABC">」などのラベルがあり、かつ当該文書内から
あるいは他の文書から「<a href="#ABC">」などと参照
されている場合には、当該文書を参照ラベルの位置の直
前で分割し、ラベル以降を各々別の文書(文書88、文書
89)として扱って参照元付き文書表を作っておくと、内
部に複数の意味まとまりを持つ長大な文書を各意味まと
まりごとに検索し順位づけを行なえる。なお、上に示さ
れるような参照ラベルに加えて、「<h1>」と「</h1>」
で囲まれる文字列に代表される小見出しの位置の直前で
もって分割し、各々別の文書として扱っても良い。
の形態は、前記第1の実施の形態と基本的な構成は同じ
である。しかし、ハイパーテキスト検索装置1の参照元
付き文書表展開手段7の機能を若干異にしている。すな
わち、本発明の第9の実施の形態では、参照元付き文書
表として展開するに際し、図5の文書87のように「<a n
ame="ABC">」などのラベルがあり、かつ当該文書内から
あるいは他の文書から「<a href="#ABC">」などと参照
されている場合には、当該文書を参照ラベルの位置の直
前で分割し、ラベル以降を各々別の文書(文書88、文書
89)として扱って参照元付き文書表を作っておくと、内
部に複数の意味まとまりを持つ長大な文書を各意味まと
まりごとに検索し順位づけを行なえる。なお、上に示さ
れるような参照ラベルに加えて、「<h1>」と「</h1>」
で囲まれる文字列に代表される小見出しの位置の直前で
もって分割し、各々別の文書として扱っても良い。
【0067】つまり、本発明の第9の実施の形態では、
図1の参照元付き文書表展開手段7において、ハイパー
テキスト文書管理手段8に格納されている大量の文書を
あらかじめ収集整理し参照元付き文書表として展開する
に際し、各文書に当該文書内からあるいは他の文書から
の参照ラベルが付されているか判定し、参照ラベルが付
されている場合には当該文書を参照ラベルの位置で分割
し、各々別の文書として扱って参照元付き文書表を作っ
ておき、前記検索用索引展開およびキーワード入力によ
る検索と順位づけを行なうようにする。こうすることに
より、内部に複数の意味まとまりを持つ長大な文書を各
意味まとまりごとに検索し順位づけを行なえるという有
利な効果を奏する。
図1の参照元付き文書表展開手段7において、ハイパー
テキスト文書管理手段8に格納されている大量の文書を
あらかじめ収集整理し参照元付き文書表として展開する
に際し、各文書に当該文書内からあるいは他の文書から
の参照ラベルが付されているか判定し、参照ラベルが付
されている場合には当該文書を参照ラベルの位置で分割
し、各々別の文書として扱って参照元付き文書表を作っ
ておき、前記検索用索引展開およびキーワード入力によ
る検索と順位づけを行なうようにする。こうすることに
より、内部に複数の意味まとまりを持つ長大な文書を各
意味まとまりごとに検索し順位づけを行なえるという有
利な効果を奏する。
【0068】(第10の実施の形態)図9は、図1の本
発明のハイパーテキスト検索装置1と若干異なるハイパ
ーテキスト検索装置91を含む全体構成を示すブロック図
である。図9の構成と図1の構成とで異なる構成は、図
9の順位づけ生成手段94の順位づけ結果がキーワード入
力手段92に戻されている点である。その他の構成は、図
1と同じなので構成の説明は省略することにする。
発明のハイパーテキスト検索装置1と若干異なるハイパ
ーテキスト検索装置91を含む全体構成を示すブロック図
である。図9の構成と図1の構成とで異なる構成は、図
9の順位づけ生成手段94の順位づけ結果がキーワード入
力手段92に戻されている点である。その他の構成は、図
1と同じなので構成の説明は省略することにする。
【0069】本発明の第10の実施の形態では、順位づ
け結果生成時に、順位づけされた文書群内のたとえば上
位10文書について、各文書の文書情報記入欄の単語リス
トを調べ、そこに存在する各単語について当該10文書内
のtf×idf評価値を算出して各単語の重要度合と
し、重要度合の高い順にたとえば10単語を選んでキーワ
ード入力手段92に戻して、当該10単語を選択ボタンとし
たHTML文書を生成する。そして図10に示すように、検
索結果表示手段5は、WWWブラウザのネットスケープの
フレーム機能を用いて表示画面を2分割し、画面上段に
順位づけ結果表示窓50を画面下段に関連キーワード入力
窓20を設け当該HTML文書を表示することにより、たとえ
ば「りんご」の検索結果を見ながら、より検索意図に近
い「特産品」で絞り込みを狙った再検索を起動したり、
「ねぶた」などの興味の湧いた他のキーワードによる新
たな検索を起動するのが、キーボードを使うことなしに
ポインティングデバイスのみを用いた入力で可能であ
る。
け結果生成時に、順位づけされた文書群内のたとえば上
位10文書について、各文書の文書情報記入欄の単語リス
トを調べ、そこに存在する各単語について当該10文書内
のtf×idf評価値を算出して各単語の重要度合と
し、重要度合の高い順にたとえば10単語を選んでキーワ
ード入力手段92に戻して、当該10単語を選択ボタンとし
たHTML文書を生成する。そして図10に示すように、検
索結果表示手段5は、WWWブラウザのネットスケープの
フレーム機能を用いて表示画面を2分割し、画面上段に
順位づけ結果表示窓50を画面下段に関連キーワード入力
窓20を設け当該HTML文書を表示することにより、たとえ
ば「りんご」の検索結果を見ながら、より検索意図に近
い「特産品」で絞り込みを狙った再検索を起動したり、
「ねぶた」などの興味の湧いた他のキーワードによる新
たな検索を起動するのが、キーボードを使うことなしに
ポインティングデバイスのみを用いた入力で可能であ
る。
【0070】なお、図10における「特産品」「ねぶ
た」などの単語ボタンは当該単語をテキストボックスに
追加するJAVAスクリプトを動作させ、「クリア」のボタ
ンはテキストボックスの単語群をクリアするJAVAスクリ
プトを動作させ、「初期状態」のボタンはテキストボッ
クスの単語群を前回の検索に使用したキーワード群(こ
の場合は「りんご」)に戻すJAVAスクリプトを動作さ
せ、「再検索」ボタンでテキストボックスの単語群をキ
ーワードとして検索が再起動されるように実装される。
た」などの単語ボタンは当該単語をテキストボックスに
追加するJAVAスクリプトを動作させ、「クリア」のボタ
ンはテキストボックスの単語群をクリアするJAVAスクリ
プトを動作させ、「初期状態」のボタンはテキストボッ
クスの単語群を前回の検索に使用したキーワード群(こ
の場合は「りんご」)に戻すJAVAスクリプトを動作さ
せ、「再検索」ボタンでテキストボックスの単語群をキ
ーワードとして検索が再起動されるように実装される。
【0071】なお、以上の説明における順位づけされた
文書群内の上位10文書とは、検索された文書(図8また
は図10の星印の文書)を想定したが、検索された文書
の参照元文書(図8または図10の順位づけ表示に現れ
る文書群)までに広げて上位10位までに現れる全文書す
ると、参照関係にある文書から広く関連キーワードが収
集できる。
文書群内の上位10文書とは、検索された文書(図8また
は図10の星印の文書)を想定したが、検索された文書
の参照元文書(図8または図10の順位づけ表示に現れ
る文書群)までに広げて上位10位までに現れる全文書す
ると、参照関係にある文書から広く関連キーワードが収
集できる。
【0072】つまり、第10の実施の形態では、図9の
順位づけ生成手段94において、前記参照元付き文書表か
ら順位づけされた文書群に存在する単語を調べ、各単語
についての重要度合を前記検索用索引の情報から算出
し、重要度合の高い順に数単語をキーワード入力手段92
に戻して選択ボタンにした表示を、検索結果表示手段5
の表示と同一画面内に配置するようにする。こうするこ
とにより、検索結果を見ながらの絞り込みを狙った再検
索や興味の湧いたキーワードによる新たな検索を、キー
ボードを使うことなしにポインティングデバイスのみを
用いたキーワード入力が可能であるという有利な効果を
奏する。
順位づけ生成手段94において、前記参照元付き文書表か
ら順位づけされた文書群に存在する単語を調べ、各単語
についての重要度合を前記検索用索引の情報から算出
し、重要度合の高い順に数単語をキーワード入力手段92
に戻して選択ボタンにした表示を、検索結果表示手段5
の表示と同一画面内に配置するようにする。こうするこ
とにより、検索結果を見ながらの絞り込みを狙った再検
索や興味の湧いたキーワードによる新たな検索を、キー
ボードを使うことなしにポインティングデバイスのみを
用いたキーワード入力が可能であるという有利な効果を
奏する。
【0073】(第11の実施の形態)本発明の第11の
実施の形態は、前記第10の実施の形態と基本的な構成
は同じである。しかし、ハイパーテキスト検索装置91の
順位づけ生成手段94の機能を若干異にしている。すなわ
ち、本発明の第11の実施の形態では、関連キーワード
の重要度合を算出するにあたり、各単語について前記検
索用索引の情報から文書中の出現位置を調べ、当該入力
キーワードの前後20文字などの近傍位置に出現した単語
は、その出現回数を2倍にしたうえでtf×idf評価
値を求めて重要度合とし、その高い順に10単語を選定し
て関連キーワード入力窓20に順に表示すると、図10に
示すように、「りんご」という入力キーワードの近傍に
出現しやすく「りんご」に高い関連性を持つ「信州」
「農家」などの単語が、入力キーワードの近傍には出現
しにくいが関連文書にはよく出現する「長野」「オリン
ピック」などの単語よりも先に表示される。これによ
り、絞り込みを狙った再検索に使う単語が最初の方にあ
り、新たな検索の興味をひく単語が後の方にある傾向を
もった単語群の列挙表示が可能となり、当該単語群の関
連キーワードとしての利用価値が高まる。
実施の形態は、前記第10の実施の形態と基本的な構成
は同じである。しかし、ハイパーテキスト検索装置91の
順位づけ生成手段94の機能を若干異にしている。すなわ
ち、本発明の第11の実施の形態では、関連キーワード
の重要度合を算出するにあたり、各単語について前記検
索用索引の情報から文書中の出現位置を調べ、当該入力
キーワードの前後20文字などの近傍位置に出現した単語
は、その出現回数を2倍にしたうえでtf×idf評価
値を求めて重要度合とし、その高い順に10単語を選定し
て関連キーワード入力窓20に順に表示すると、図10に
示すように、「りんご」という入力キーワードの近傍に
出現しやすく「りんご」に高い関連性を持つ「信州」
「農家」などの単語が、入力キーワードの近傍には出現
しにくいが関連文書にはよく出現する「長野」「オリン
ピック」などの単語よりも先に表示される。これによ
り、絞り込みを狙った再検索に使う単語が最初の方にあ
り、新たな検索の興味をひく単語が後の方にある傾向を
もった単語群の列挙表示が可能となり、当該単語群の関
連キーワードとしての利用価値が高まる。
【0074】つまり、第11の実施の形態では、図9の
順位づけ生成手段94において、前記参照元付き文書表か
ら順位づけされた文書群に存在する単語群を調べ、各単
語についての重要度合を前記検索用索引の情報から算出
する際、当該キーワードの近傍に出現した単語の重要度
合を数倍したうえで、重要度合の高い順に数単語を選定
し列挙するようにする。こうすることにより、キーワー
ドの近傍に出現する単語が通常そのキーワードと関連性
が高いので、関連キーワードとしての利用価値が高い単
語群が選定列挙される可能性を高めることができる。
順位づけ生成手段94において、前記参照元付き文書表か
ら順位づけされた文書群に存在する単語群を調べ、各単
語についての重要度合を前記検索用索引の情報から算出
する際、当該キーワードの近傍に出現した単語の重要度
合を数倍したうえで、重要度合の高い順に数単語を選定
し列挙するようにする。こうすることにより、キーワー
ドの近傍に出現する単語が通常そのキーワードと関連性
が高いので、関連キーワードとしての利用価値が高い単
語群が選定列挙される可能性を高めることができる。
【0075】
【発明の効果】以上のように本発明によれば、参照関係
にある文書を統合した重要度合の評価処理や、参照関係
にある文書を統合した順位づけ結果の表示処理を効率良
く行なえ、ユーザの要求に合致したより適切な順位づけ
や、ユーザの選択指定が容易な順位づけ表示が実現でき
るという有利な効果が得られる。
にある文書を統合した重要度合の評価処理や、参照関係
にある文書を統合した順位づけ結果の表示処理を効率良
く行なえ、ユーザの要求に合致したより適切な順位づけ
や、ユーザの選択指定が容易な順位づけ表示が実現でき
るという有利な効果が得られる。
【図1】本発明の全体構成を示すブロック図、
【図2】ハイパーテキスト文書の構造を示す図、
【図3】収集した文書群から作成された参照元付き文書
表を示す図、
表を示す図、
【図4】参照元付き文書表内の全ての文書情報記入欄の
内容を単語切りし、各単語毎に作成される検索用索引の
一例を示す図、
内容を単語切りし、各単語毎に作成される検索用索引の
一例を示す図、
【図5】ラベル付き文書の分割の様子を示す図、
【図6】順位づけ結果を表示する第1の図、
【図7】順位づけ結果を表示する第2の図、
【図8】順位づけ結果を表示する第3の図、
【図9】関連キーワードによる再検索機能を実現する構
成を示すブロック図、
成を示すブロック図、
【図10】関連キーワード付き順位づけ結果を表示する
図、
図、
【図11】従来例の全体構成を示すブロック図である。
1、91 ハイパーテキスト検索装置 2、92 キーワード入力手段 3 検索手段 4、94 順位づけ生成手段 5 検索結果表示手段 6 検索用索引展開手段 7 参照元付き文書表展開手段 8 ハイパーテキスト文書管理手段 9 ユーザ 10 文書管理手段 11 文書検索装置 20 関連キーワード入力窓 50 順位づけ結果表示窓 60〜62 単語情報記入欄 70〜72 文書情報記入欄 80〜89 文書 800〜806 アンカー文
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI G06F 17/21 570 G06F 17/21 570E 590 590E (72)発明者 野口 喜洋 大阪府門真市大字門真1006番地 松下電 器産業株式会社内 (72)発明者 安川 秀樹 大阪府門真市大字門真1006番地 松下電 器産業株式会社内 (56)参考文献 銭,外2名「3次元自己組織化マップ に基づく文書のブラウジングと検索」電 子情報通信学会技術研究方向(DE95− 14) 二村,外2名「ディレクトリ階層を利 用した分散型ハイパーテキストシステム の設計と実現」情報処理学会研究報告 (96−CH−29−4) 「解説 マルチメディア 膨大な情報 から望みのものを探す手法に注目集まる CHI’95に見るユーザ・インタフェ ースの研究動向」日経エレクトロニク ス,1995−6−19,p.121−127 (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 G06F 12/00 G06F 17/20 - 17/26 WPI(DIALOG) INSPEC(DIALOG) JICSTファイル(JOIS)
Claims (12)
- 【請求項1】 ユーザの入力したキーワードに基づいて
ハイパーテキスト文書を検索し、その結果を順位づけし
て表示する装置において、参照元付き文書表展開手段を
備え、前記参照元付き文書表展開手段にあらかじめ各文
書の参照元を表形式に展開しておくことで、参照元文書
の情報を加味した順位づけ表示を可能とするハイパーテ
キスト検索装置。 - 【請求項2】 ハイパーテキスト文書管理手段によって
管理されるハイパーテキストによる参照構造を持った文
書群を解析し、各文書ごとに当該文書を参照する参照元
文書の識別子および参照元文書内のアンカー文を表形式
にして参照元付き文書表として保持する参照元付き文書
表展開手段と、前記参照元付き文書表内の各文書の情報
に基づき索引を作成して保持する検索用索引展開手段
と、ユーザからの検索要求を受け付けるキーワード入力
手段と、前記検索用索引を調べ当該キーワードを含む文
書群を検索する検索手段と、前記検索手段によって検索
された文書群に該当する前記参照元付き文書表内の文書
情報に基づき当該文書群に含まれる各文書の重要度合を
算出し順位づけて表示データとする順位づけ生成手段
と、当該順位づけ表示データをユーザに表示する検索結
果表示手段から構成されるハイパーテキスト検索装置。 - 【請求項3】 前記順位づけ生成手段が、順位づけされ
る各文書の見出しに添えて、当該文書の参照元文書の見
出しを前記参照元付き文書表内から取り出して選択表示
データとすることを特徴とする請求項2記載のハイパー
テキスト検索装置。 - 【請求項4】 前記順位づけ生成手段が、文書群の順位
づけに際し前記参照元付き文書表を調べ、当該文書群内
のある文書と他の文書が近い参照関係にある場合、当該
両文書を同一の順位にまとめた選択表示データを生成す
ることを特徴とする請求項2記載のハイパーテキスト検
索装置。 - 【請求項5】 前記順位づけ生成手段が、文書群の順位
づけに際し前記参照元付き文書表を調べ、当該文書群内
の各文書の重要度合に、当該文書の参照元のアンカー文
の重要度合も加えて当該文書の重要度合として順位づけ
することを特徴とする請求項2記載のハイパーテキスト
検索装置。 - 【請求項6】 前記順位づけ生成手段が、順位づけされ
る各文書の見出しに添えて、前記参照元付き文書表内か
ら当該文書の先頭部分およびキーワード周辺部分を取り
出して選択表示データとすることを特徴とする請求項2
記載のハイパーテキスト検索装置。 - 【請求項7】 前記順位づけ生成手段が、文書群の順位
づけに際し前記参照元付き文書表を調べ、当該文書群内
の各文書について当該文書に当該文書の参照元文書の内
容を合わせて重要度合を算出し順位づけすることを特徴
とする請求項2記載のハイパーテキスト検索装置。 - 【請求項8】 前記順位づけ生成手段が、文書群の順位
づけに際し前記参照元付き文書表を調べ、当該文書群内
の各文書について当該文書内の見出し部分の重要度合を
他の部分よりも大きく評価して当該文書の重要度合とし
て順位づけすることを特徴とする請求項2記載のハイパ
ーテキスト検索装置。 - 【請求項9】 前記順位づけ生成手段が、文書群の順位
づけに際し前記参照元付き文書表を調べ、当該文書群内
の各文書の重要度合に、当該文書内で他の文書に対する
アンカー文となっている部分の重要度合を減じて当該文
書の重要度合として順位づけすることを特徴とする請求
項2記載のハイパーテキスト検索装置。 - 【請求項10】 前記参照元付き文書表展開手段が前記
参照元付き文書表を作成するにあたり、一文書内に参照
ラベルが設定されている場合、当該文書を参照ラベルの
位置で分割して複数の文書として再定義することを特徴
とする請求項2記載のハイパーテキスト検索装置。 - 【請求項11】 ハイパーテキスト文書管理手段によっ
て管理されるハイパーテキストによる参照構造を持った
文書群を解析し、各文書ごとに当該文書を参照する参照
元文書の識別子および参照元文書内のアンカー文を表形
式にして参照元付き文書表として保持する参照元付き文
書表展開手段と、前記参照元付き文書表内の各文書の情
報に基づき索引を作成して保持する検索用索引展開手段
と、ユーザからの検索要求を受け付けるキーワード入力
手段と、前記検索用索引を調べ当該キーワードを含む文
書群を検索する検索手段と、前記検索手段によって検索
された文書群に該当する前記参照元付き文書表内の文書
情報に基づき当該文書群に含まれる各文書の重要度合を
算出し順位づけて表示データとする順位づけ生成手段
と、当該順位づけ表示データをユーザに表示する検索結
果表示手段から構成され、前記順位づけ生成手段が、順
位づけされた文書群の中に高い重要度合で現れる単語群
を同定し、当該単語群を前記キーワード入力手段に戻す
ようにして、当該単語群から新たなキーワードを選択入
力することで再検索が起動されるようにしたことを特徴
とする請求項2記載のハイパーテキスト検索装置。 - 【請求項12】 前記順位づけ生成手段が、順位づけさ
れた文書群の中の高い重要度合で現れる単語群を同定す
る際、キーワードの近傍に出現する単語の重要度合を他
の部分よりも大きく評価して当該単語の重要度合とする
ことを特徴とする請求項11記載のハイパーテキスト検
索装置。
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP08149783A JP3108015B2 (ja) | 1996-05-22 | 1996-05-22 | ハイパーテキスト検索装置 |
DE69727421T DE69727421T2 (de) | 1996-05-22 | 1997-05-13 | Hypertext-Dokumentwiederauffindungssystem zum Wiederauffinden zusammengehöriger Hypertextdokumente |
EP97107823A EP0809197B1 (en) | 1996-05-22 | 1997-05-13 | Hypertext document retrieving apparatus for retrieving hypertext documents relating to each other |
US08/861,603 US5848407A (en) | 1996-05-22 | 1997-05-22 | Hypertext document retrieving apparatus for retrieving hypertext documents relating to each other |
KR1019970020036A KR100229395B1 (ko) | 1996-05-22 | 1997-05-22 | 서로 관련한 하이퍼텍스트 문서 검색용 하이퍼텍스트 문서 검색 장치 |
CN97111439A CN1109982C (zh) | 1996-05-22 | 1997-05-22 | 检索相关超文本文件的超文本文件检索装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP08149783A JP3108015B2 (ja) | 1996-05-22 | 1996-05-22 | ハイパーテキスト検索装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH09311870A JPH09311870A (ja) | 1997-12-02 |
JP3108015B2 true JP3108015B2 (ja) | 2000-11-13 |
Family
ID=15482628
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP08149783A Expired - Fee Related JP3108015B2 (ja) | 1996-05-22 | 1996-05-22 | ハイパーテキスト検索装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US5848407A (ja) |
EP (1) | EP0809197B1 (ja) |
JP (1) | JP3108015B2 (ja) |
KR (1) | KR100229395B1 (ja) |
CN (1) | CN1109982C (ja) |
DE (1) | DE69727421T2 (ja) |
Families Citing this family (126)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6003046A (en) * | 1996-04-15 | 1999-12-14 | Sun Microsystems, Inc. | Automatic development and display of context information in structured documents on the world wide web |
JP3195252B2 (ja) * | 1996-09-19 | 2001-08-06 | 株式会社東芝 | 文書ブラウズ支援方法及びシステム |
US5966126A (en) | 1996-12-23 | 1999-10-12 | Szabo; Andrew J. | Graphic user interface for database system |
US7269587B1 (en) | 1997-01-10 | 2007-09-11 | The Board Of Trustees Of The Leland Stanford Junior University | Scoring documents in a linked database |
US6285999B1 (en) | 1997-01-10 | 2001-09-04 | The Board Of Trustees Of The Leland Stanford Junior University | Method for node ranking in a linked database |
US7363291B1 (en) | 2002-03-29 | 2008-04-22 | Google Inc. | Methods and apparatus for increasing efficiency of electronic document delivery to users |
JP3550929B2 (ja) * | 1997-01-28 | 2004-08-04 | 富士通株式会社 | 対話型ハイパーテキスト情報参照システムにおける参照回数計数装置及び方法 |
JPH10307846A (ja) * | 1997-03-03 | 1998-11-17 | Toshiba Corp | ドキュメント情報管理システム、ドキュメント情報管理方法、及びドキュメント検索方法 |
US6282548B1 (en) * | 1997-06-21 | 2001-08-28 | Alexa Internet | Automatically generate and displaying metadata as supplemental information concurrently with the web page, there being no link between web page and metadata |
JPH1125104A (ja) * | 1997-06-30 | 1999-01-29 | Canon Inc | 情報処理装置および方法 |
US5987457A (en) * | 1997-11-25 | 1999-11-16 | Acceleration Software International Corporation | Query refinement method for searching documents |
US6738678B1 (en) * | 1998-01-15 | 2004-05-18 | Krishna Asur Bharat | Method for ranking hyperlinked pages using content and connectivity analysis |
US6421675B1 (en) * | 1998-03-16 | 2002-07-16 | S. L. I. Systems, Inc. | Search engine |
US6112203A (en) * | 1998-04-09 | 2000-08-29 | Altavista Company | Method for ranking documents in a hyperlinked environment using connectivity and selective content analysis |
US6125361A (en) * | 1998-04-10 | 2000-09-26 | International Business Machines Corporation | Feature diffusion across hyperlinks |
US6370551B1 (en) | 1998-04-14 | 2002-04-09 | Fuji Xerox Co., Ltd. | Method and apparatus for displaying references to a user's document browsing history within the context of a new document |
US6073175A (en) * | 1998-04-27 | 2000-06-06 | International Business Machines Corporation | Method for supporting different service levels in a network using web page content information |
JP3696731B2 (ja) * | 1998-04-30 | 2005-09-21 | 株式会社日立製作所 | 構造化文書の検索方法および装置および構造化文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP3634148B2 (ja) * | 1998-05-19 | 2005-03-30 | 富士通株式会社 | 文書閲覧制御システム及びこのシステムでの処理をコンピュータに行なわせるためのプログラムを格納した記録媒体 |
US6446095B1 (en) * | 1998-06-09 | 2002-09-03 | Matsushita Electric Industrial Co., Ltd. | Document processor for processing a document in accordance with a detected degree of importance corresponding to a data link within the document |
CA2241836A1 (en) * | 1998-06-29 | 1999-12-29 | Object Technology International Inc. | Natural language transformations for propagating hypertext label changes |
KR100318015B1 (ko) * | 1998-10-22 | 2002-04-22 | 박화자 | 웹문서의하이퍼링크정보를이용한개념도의구축과이를통한인터넷검색방법 |
JP3860347B2 (ja) * | 1998-10-30 | 2006-12-20 | 富士通株式会社 | リンク処理装置 |
US6286000B1 (en) * | 1998-12-01 | 2001-09-04 | International Business Machines Corporation | Light weight document matcher |
JP3347088B2 (ja) * | 1999-02-12 | 2002-11-20 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 関連情報検索方法およびシステム |
US6907566B1 (en) * | 1999-04-02 | 2005-06-14 | Overture Services, Inc. | Method and system for optimum placement of advertisements on a webpage |
US7835943B2 (en) * | 1999-05-28 | 2010-11-16 | Yahoo! Inc. | System and method for providing place and price protection in a search result list generated by a computer network search engine |
US7065500B2 (en) * | 1999-05-28 | 2006-06-20 | Overture Services, Inc. | Automatic advertiser notification for a system for providing place and price protection in a search result list generated by a computer network search engine |
US7035812B2 (en) * | 1999-05-28 | 2006-04-25 | Overture Services, Inc. | System and method for enabling multi-element bidding for influencing a position on a search result list generated by a computer network search engine |
US7231358B2 (en) | 1999-05-28 | 2007-06-12 | Overture Services, Inc. | Automatic flight management in an online marketplace |
US7225182B2 (en) | 1999-05-28 | 2007-05-29 | Overture Services, Inc. | Recommending search terms using collaborative filtering and web spidering |
US6269361B1 (en) * | 1999-05-28 | 2001-07-31 | Goto.Com | System and method for influencing a position on a search result list generated by a computer network search engine |
US7702537B2 (en) | 1999-05-28 | 2010-04-20 | Yahoo! Inc | System and method for enabling multi-element bidding for influencing a position on a search result list generated by a computer network search engine |
AU6054600A (en) * | 1999-06-29 | 2001-01-31 | Colorstamps, Inc. | Electronic market maker of electronic attention |
JP2001022788A (ja) * | 1999-07-13 | 2001-01-26 | Nec Corp | 情報検索装置および情報検索プログラムを記録した記録媒体 |
US7451388B1 (en) * | 1999-09-08 | 2008-11-11 | Hewlett-Packard Development Company, L.P. | Ranking search engine results |
US8626576B1 (en) | 2000-02-11 | 2014-01-07 | Apple Inc. | System and method for marketing employing the distribution of a pay for performance database |
US6738767B1 (en) | 2000-03-20 | 2004-05-18 | International Business Machines Corporation | System and method for discovering schematic structure in hypertext documents |
US7428500B1 (en) * | 2000-03-30 | 2008-09-23 | Amazon. Com, Inc. | Automatically identifying similar purchasing opportunities |
US6876997B1 (en) * | 2000-05-22 | 2005-04-05 | Overture Services, Inc. | Method and apparatus for indentifying related searches in a database search system |
EP1305741A4 (en) * | 2000-05-24 | 2005-04-27 | Overture Services Inc | ONLINE MEDIA EXCHANGE |
US6711586B1 (en) | 2000-07-17 | 2004-03-23 | William Mitchell Wells | Methods and systems for providing information based on similarity |
US7319975B2 (en) * | 2000-07-24 | 2008-01-15 | Emergency 24, Inc. | Internet-based advertising and referral system |
US20080071775A1 (en) * | 2001-01-18 | 2008-03-20 | Overture Services, Inc. | System And Method For Ranking Items |
US7043471B2 (en) * | 2001-08-03 | 2006-05-09 | Overture Services, Inc. | Search engine account monitoring |
US7747943B2 (en) * | 2001-09-07 | 2010-06-29 | Microsoft Corporation | Robust anchoring of annotations to content |
US6826572B2 (en) * | 2001-11-13 | 2004-11-30 | Overture Services, Inc. | System and method allowing advertisers to manage search listings in a pay for placement search system using grouping |
US20030101126A1 (en) * | 2001-11-13 | 2003-05-29 | Cheung Dominic Dough-Ming | Position bidding in a pay for placement database search system |
US20030120560A1 (en) * | 2001-12-20 | 2003-06-26 | John Almeida | Method for creating and maintaning worldwide e-commerce |
US20030220866A1 (en) * | 2001-12-28 | 2003-11-27 | Findwhat.Com | System and method for pay for performand advertising in general media |
US7136875B2 (en) | 2002-09-24 | 2006-11-14 | Google, Inc. | Serving advertisements based on content |
US7716161B2 (en) | 2002-09-24 | 2010-05-11 | Google, Inc, | Methods and apparatus for serving relevant advertisements |
AU2003226107B2 (en) * | 2002-04-01 | 2008-08-07 | Excalibur Ip, Llc | Displaying paid search listings in proportion to advertiser spending |
US7599852B2 (en) * | 2002-04-05 | 2009-10-06 | Sponster Llc | Method and apparatus for adding advertising tag lines to electronic messages |
US7054857B2 (en) * | 2002-05-08 | 2006-05-30 | Overture Services, Inc. | Use of extensible markup language in a system and method for influencing a position on a search result list generated by a computer network search engine |
US7231395B2 (en) * | 2002-05-24 | 2007-06-12 | Overture Services, Inc. | Method and apparatus for categorizing and presenting documents of a distributed database |
US8260786B2 (en) * | 2002-05-24 | 2012-09-04 | Yahoo! Inc. | Method and apparatus for categorizing and presenting documents of a distributed database |
JP2004054631A (ja) * | 2002-07-19 | 2004-02-19 | Internatl Business Mach Corp <Ibm> | 情報検索システム、情報検索方法、html文書の構造解析方法及びプログラム |
US7555485B2 (en) | 2002-08-22 | 2009-06-30 | Yahoo! Inc. | System and method for conducting an auction-based ranking of search results on a computer network |
US7152059B2 (en) * | 2002-08-30 | 2006-12-19 | Emergency24, Inc. | System and method for predicting additional search results of a computerized database search user based on an initial search query |
WO2004023243A2 (en) * | 2002-09-03 | 2004-03-18 | X1 Technologies, Llc | Apparatus and methods for locating data |
US8086559B2 (en) | 2002-09-24 | 2011-12-27 | Google, Inc. | Serving content-relevant advertisements with client-side device support |
US20040059712A1 (en) * | 2002-09-24 | 2004-03-25 | Dean Jeffrey A. | Serving advertisements using information associated with e-mail |
US20100100437A1 (en) | 2002-09-24 | 2010-04-22 | Google, Inc. | Suggesting and/or providing ad serving constraint information |
US7707140B2 (en) * | 2002-10-09 | 2010-04-27 | Yahoo! Inc. | Information retrieval system and method employing spatially selective features |
US7076497B2 (en) * | 2002-10-11 | 2006-07-11 | Emergency24, Inc. | Method for providing and exchanging search terms between internet site promoters |
US20030088553A1 (en) * | 2002-11-23 | 2003-05-08 | Emergency 24, Inc. | Method for providing relevant search results based on an initial online search query |
US20040111388A1 (en) * | 2002-12-06 | 2004-06-10 | Frederic Boiscuvier | Evaluating relevance of results in a semi-structured data-base system |
US20040148278A1 (en) * | 2003-01-22 | 2004-07-29 | Amir Milo | System and method for providing content warehouse |
US7194466B2 (en) | 2003-05-01 | 2007-03-20 | Microsoft Corporation | Object clustering using inter-layer links |
US20050010563A1 (en) * | 2003-05-15 | 2005-01-13 | William Gross | Internet search application |
US20030167212A1 (en) * | 2003-05-15 | 2003-09-04 | Emergency 24, Inc. | Method and system for providing relevant advertisement internet hyperlinks |
US7050990B1 (en) | 2003-09-24 | 2006-05-23 | Verizon Directories Corp. | Information distribution system |
US7974878B1 (en) | 2003-09-24 | 2011-07-05 | SuperMedia LLC | Information distribution system and method that provides for enhanced display formats |
US7689466B1 (en) | 2003-09-24 | 2010-03-30 | SuperMedia LLC | Dynamic pay per call listings |
US8239273B1 (en) | 2003-09-24 | 2012-08-07 | SuperMedia LLC | Integrated pay per click and pay per call listings |
US7516086B2 (en) * | 2003-09-24 | 2009-04-07 | Idearc Media Corp. | Business rating placement heuristic |
US7822661B1 (en) | 2003-09-24 | 2010-10-26 | SuperMedia LLC | Information distribution system and method utilizing a position adjustment factor |
US7424467B2 (en) | 2004-01-26 | 2008-09-09 | International Business Machines Corporation | Architecture for an indexer with fixed width sort and variable width sort |
US7499913B2 (en) * | 2004-01-26 | 2009-03-03 | International Business Machines Corporation | Method for handling anchor text |
US8296304B2 (en) | 2004-01-26 | 2012-10-23 | International Business Machines Corporation | Method, system, and program for handling redirects in a search engine |
US7293005B2 (en) | 2004-01-26 | 2007-11-06 | International Business Machines Corporation | Pipelined architecture for global analysis and index building |
US8577893B1 (en) * | 2004-03-15 | 2013-11-05 | Google Inc. | Ranking based on reference contexts |
US8055553B1 (en) | 2006-01-19 | 2011-11-08 | Verizon Laboratories Inc. | Dynamic comparison text functionality |
US7305389B2 (en) | 2004-04-15 | 2007-12-04 | Microsoft Corporation | Content propagation for enhanced document retrieval |
US7428529B2 (en) | 2004-04-15 | 2008-09-23 | Microsoft Corporation | Term suggestion for multi-sense query |
US7689585B2 (en) | 2004-04-15 | 2010-03-30 | Microsoft Corporation | Reinforced clustering of multi-type data objects for search term suggestion |
US7260568B2 (en) | 2004-04-15 | 2007-08-21 | Microsoft Corporation | Verifying relevance between keywords and web site contents |
US7289985B2 (en) | 2004-04-15 | 2007-10-30 | Microsoft Corporation | Enhanced document retrieval |
US7366705B2 (en) | 2004-04-15 | 2008-04-29 | Microsoft Corporation | Clustering based text classification |
US20050240866A1 (en) * | 2004-04-26 | 2005-10-27 | International Business Machines Corporation | Multi-source, multi-destination data transfers |
US8676922B1 (en) | 2004-06-30 | 2014-03-18 | Google Inc. | Automatic proxy setting modification |
US7437364B1 (en) | 2004-06-30 | 2008-10-14 | Google Inc. | System and method of accessing a document efficiently through multi-tier web caching |
US8224964B1 (en) | 2004-06-30 | 2012-07-17 | Google Inc. | System and method of accessing a document efficiently through multi-tier web caching |
US8407239B2 (en) | 2004-08-13 | 2013-03-26 | Google Inc. | Multi-stage query processing system and method for use with tokenspace repository |
US7917480B2 (en) * | 2004-08-13 | 2011-03-29 | Google Inc. | Document compression system and method for use with tokenspace repository |
US7461064B2 (en) | 2004-09-24 | 2008-12-02 | International Buiness Machines Corporation | Method for searching documents for ranges of numeric values |
US7493273B1 (en) * | 2005-01-19 | 2009-02-17 | Earthtrax, Inc. | Method, medium, and apparatus for identifying similar auctions |
US7475074B2 (en) * | 2005-02-22 | 2009-01-06 | Taiwan Semiconductor Manufacturing Co., Ltd. | Web search system and method thereof |
TWI319153B (en) * | 2005-05-04 | 2010-01-01 | Newsoft Technology Corp | System, method and medium of automatic document classification |
US8417693B2 (en) | 2005-07-14 | 2013-04-09 | International Business Machines Corporation | Enforcing native access control to indexed documents |
EP1746521A1 (fr) * | 2005-07-22 | 2007-01-24 | France Telecom | Procédé de classement d'un ensemble de documents électroniques du type pouvant contenir des liens hypertextes vers d'autres documents électroniques |
US7840438B2 (en) * | 2005-07-29 | 2010-11-23 | Yahoo! Inc. | System and method for discounting of historical click through data for multiple versions of an advertisement |
US20070067320A1 (en) * | 2005-09-20 | 2007-03-22 | International Business Machines Corporation | Detecting relationships in unstructured text |
WO2007038713A2 (en) * | 2005-09-28 | 2007-04-05 | Epacris Inc. | Search engine determining results based on probabilistic scoring of relevance |
EP1770550A1 (en) * | 2005-10-03 | 2007-04-04 | Sony Ericsson Mobile Communications AB | Method and electronic device for obtaining an evaluation of an electronic document |
US7574449B2 (en) * | 2005-12-02 | 2009-08-11 | Microsoft Corporation | Content matching |
US20080086356A1 (en) * | 2005-12-09 | 2008-04-10 | Steve Glassman | Determining advertisements using user interest information and map-based location information |
JP4830532B2 (ja) * | 2006-02-22 | 2011-12-07 | 富士ゼロックス株式会社 | 電子化情報の重要度を算出する情報処理装置及びプログラム |
US8972839B2 (en) * | 2006-10-02 | 2015-03-03 | Adobe Systems Incorporated | Media presentations including related content |
US20080086368A1 (en) * | 2006-10-05 | 2008-04-10 | Google Inc. | Location Based, Content Targeted Online Advertising |
US8065275B2 (en) | 2007-02-15 | 2011-11-22 | Google Inc. | Systems and methods for cache optimization |
US8812651B1 (en) | 2007-02-15 | 2014-08-19 | Google Inc. | Systems and methods for client cache awareness |
US8560519B2 (en) * | 2010-03-19 | 2013-10-15 | Microsoft Corporation | Indexing and searching employing virtual documents |
US9507827B1 (en) * | 2010-03-25 | 2016-11-29 | Excalibur Ip, Llc | Encoding and accessing position data |
JP5682480B2 (ja) * | 2011-06-30 | 2015-03-11 | 富士通株式会社 | 情報処理装置、情報処理方法、および情報処理プログラム |
US20130238972A1 (en) * | 2012-03-09 | 2013-09-12 | Nathan Woodman | Look-alike website scoring |
US9582572B2 (en) * | 2012-12-19 | 2017-02-28 | Intel Corporation | Personalized search library based on continual concept correlation |
US9659058B2 (en) | 2013-03-22 | 2017-05-23 | X1 Discovery, Inc. | Methods and systems for federation of results from search indexing |
US9880983B2 (en) | 2013-06-04 | 2018-01-30 | X1 Discovery, Inc. | Methods and systems for uniquely identifying digital content for eDiscovery |
US20150112818A1 (en) | 2013-10-22 | 2015-04-23 | Google Inc. | Content item selection criteria generation |
US10534844B2 (en) | 2014-02-03 | 2020-01-14 | Oracle International Corporation | Systems and methods for viewing and editing composite documents |
US10346550B1 (en) | 2014-08-28 | 2019-07-09 | X1 Discovery, Inc. | Methods and systems for searching and indexing virtual environments |
US11868354B2 (en) * | 2015-09-23 | 2024-01-09 | Motorola Solutions, Inc. | Apparatus, system, and method for responding to a user-initiated query with a context-based response |
CN106033519A (zh) * | 2016-05-14 | 2016-10-19 | 北京中凌科技有限公司 | 一种电子文件的数据保全方法 |
US20180196798A1 (en) * | 2017-01-06 | 2018-07-12 | Wipro Limited | Systems and methods for creating concept maps using concept gravity matrix |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5408655A (en) * | 1989-02-27 | 1995-04-18 | Apple Computer, Inc. | User interface system and method for traversing a database |
US5162992A (en) * | 1989-12-19 | 1992-11-10 | International Business Machines Corp. | Vector relational characteristical object |
US5598557A (en) * | 1992-09-22 | 1997-01-28 | Caere Corporation | Apparatus and method for retrieving and grouping images representing text files based on the relevance of key words extracted from a selected file to the text files |
US5544352A (en) * | 1993-06-14 | 1996-08-06 | Libertech, Inc. | Method and apparatus for indexing, searching and displaying data |
US5576954A (en) * | 1993-11-05 | 1996-11-19 | University Of Central Florida | Process for determination of text relevancy |
US5600831A (en) * | 1994-02-28 | 1997-02-04 | Lucent Technologies Inc. | Apparatus and methods for retrieving information by modifying query plan based on description of information sources |
DE69518271T2 (de) * | 1994-04-21 | 2001-03-01 | British Telecommunications P.L.C., London | Verfahren und Vorrichtung zum Speichern und Wiedergewinnen von Daten |
US5694594A (en) * | 1994-11-14 | 1997-12-02 | Chang; Daniel | System for linking hypermedia data objects in accordance with associations of source and destination data objects and similarity threshold without using keywords or link-difining terms |
US5758257A (en) * | 1994-11-29 | 1998-05-26 | Herz; Frederick | System and method for scheduling broadcast of and access to video programs and other data using customer profiles |
US5642502A (en) * | 1994-12-06 | 1997-06-24 | University Of Central Florida | Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text |
US5761418A (en) * | 1995-01-17 | 1998-06-02 | Nippon Telegraph And Telephone Corp. | Information navigation system using clusterized information resource topology |
-
1996
- 1996-05-22 JP JP08149783A patent/JP3108015B2/ja not_active Expired - Fee Related
-
1997
- 1997-05-13 DE DE69727421T patent/DE69727421T2/de not_active Expired - Fee Related
- 1997-05-13 EP EP97107823A patent/EP0809197B1/en not_active Expired - Lifetime
- 1997-05-22 CN CN97111439A patent/CN1109982C/zh not_active Expired - Fee Related
- 1997-05-22 US US08/861,603 patent/US5848407A/en not_active Expired - Fee Related
- 1997-05-22 KR KR1019970020036A patent/KR100229395B1/ko not_active IP Right Cessation
Non-Patent Citations (3)
Title |
---|
「解説 マルチメディア 膨大な情報から望みのものを探す手法に注目集まる CHI’95に見るユーザ・インタフェースの研究動向」日経エレクトロニクス,1995−6−19,p.121−127 |
二村,外2名「ディレクトリ階層を利用した分散型ハイパーテキストシステムの設計と実現」情報処理学会研究報告(96−CH−29−4) |
銭,外2名「3次元自己組織化マップに基づく文書のブラウジングと検索」電子情報通信学会技術研究方向(DE95−14) |
Also Published As
Publication number | Publication date |
---|---|
CN1109982C (zh) | 2003-05-28 |
CN1170908A (zh) | 1998-01-21 |
JPH09311870A (ja) | 1997-12-02 |
EP0809197A3 (en) | 2001-02-14 |
US5848407A (en) | 1998-12-08 |
EP0809197A2 (en) | 1997-11-26 |
KR100229395B1 (ko) | 1999-11-01 |
EP0809197B1 (en) | 2004-02-04 |
DE69727421T2 (de) | 2004-12-16 |
KR970076318A (ko) | 1997-12-12 |
DE69727421D1 (de) | 2004-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3108015B2 (ja) | ハイパーテキスト検索装置 | |
US8285724B2 (en) | System and program for handling anchor text | |
US6295529B1 (en) | Method and apparatus for indentifying clauses having predetermined characteristics indicative of usefulness in determining relationships between different texts | |
US6665681B1 (en) | System and method for generating a taxonomy from a plurality of documents | |
US9384245B2 (en) | Method and system for assessing relevant properties of work contexts for use by information services | |
US6442540B2 (en) | Information retrieval apparatus and information retrieval method | |
US7917489B2 (en) | Implicit name searching | |
US7302646B2 (en) | Information rearrangement method, information processing apparatus and information processing system, and storage medium and program transmission apparatus therefor | |
JP4857075B2 (ja) | ウェブドキュメントの集合において効率的に日付を検索する方法、コンピュータプログラム | |
US20070078889A1 (en) | Method and system for automated knowledge extraction and organization | |
US20060117002A1 (en) | Method for search result clustering | |
US20100332325A1 (en) | Menu search | |
US7974964B2 (en) | Context based search and document retrieval | |
US7310633B1 (en) | Methods and systems for generating textual information | |
US8983965B2 (en) | Document rating calculation system, document rating calculation method and program | |
US7124127B2 (en) | Search server and method for providing search results | |
US7024405B2 (en) | Method and apparatus for improved internet searching | |
KR20060017765A (ko) | 개념 네트워크 | |
US7725487B2 (en) | Content synchronization system and method of similar web pages | |
JP2007122513A (ja) | コンテンツ検索方法、及び、コンテンツ検索サーバ | |
JP2000057152A (ja) | 文書関連付け装置、文書閲覧装置、文書関連付けプログラムを記録したコンピュータ読み取り可能な記録媒体及び文書閲覧プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2001167096A (ja) | 文書検索システム、文書検索方法及びその方法を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
US20030217051A1 (en) | Information retrieving apparatus and storage medium storing information retrieving software therein | |
JP2002163276A (ja) | 文書要約システム及び文書要約方法 | |
Abdulmunim et al. | Links Evaluation and Ranking Based on Semantic Metadata Analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |