JP2002297605A - 構造化文書検索方法および構造化文書検索装置およびプログラム - Google Patents
構造化文書検索方法および構造化文書検索装置およびプログラムInfo
- Publication number
- JP2002297605A JP2002297605A JP2001099973A JP2001099973A JP2002297605A JP 2002297605 A JP2002297605 A JP 2002297605A JP 2001099973 A JP2001099973 A JP 2001099973A JP 2001099973 A JP2001099973 A JP 2001099973A JP 2002297605 A JP2002297605 A JP 2002297605A
- Authority
- JP
- Japan
- Prior art keywords
- document
- structured document
- search
- vocabulary
- structured
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 230000008569 process Effects 0.000 claims description 31
- 239000000470 constituent Substances 0.000 claims description 15
- 238000011524 similarity measure Methods 0.000 claims 1
- 238000012545 processing Methods 0.000 description 106
- 238000003860 storage Methods 0.000 description 104
- 238000010586 diagram Methods 0.000 description 34
- 238000012217 deletion Methods 0.000 description 29
- 230000037430 deletion Effects 0.000 description 29
- 239000002131 composite material Substances 0.000 description 27
- 230000006870 function Effects 0.000 description 15
- 238000004458 analytical method Methods 0.000 description 11
- 238000011161 development Methods 0.000 description 10
- 238000002910 structure generation Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 6
- 238000011144 upstream manufacturing Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 4
- 230000002093 peripheral effect Effects 0.000 description 4
- 230000002829 reductive effect Effects 0.000 description 4
- 230000004931 aggregating effect Effects 0.000 description 3
- 230000015654 memory Effects 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 235000006887 Alpinia galanga Nutrition 0.000 description 1
- 240000002768 Alpinia galanga Species 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000005304 joining Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000003442 weekly effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/83—Querying
- G06F16/835—Query processing
- G06F16/8373—Query execution
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99934—Query formulation, input preparation, or translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
化文書の構成要素と語彙とを指定した検索条件に基づ
き、この指定した構成要素と語彙とそれらの文書構造上
の発生位置とに類似する構造化文書の検索が容易に行え
る構造化文書検索方法および、それを用いた構造化文書
検索装置を提供する。 【解決手段】構造化文書データベースに格納されている
構造化文書のうち、その構成要素に、検索条件で指定さ
れた構成要素あるいはそれに類似する構成要素と、前記
検索条件で指定された語彙あるいはそれに類似する語彙
を包含し、かつ、前記語彙あるいはそれに類似する語彙
と、前記構成要素あるいはそれに類似する構成要素との
前記論理構造上の発生位置が、前記検索条件で指定され
た発生位置あるいはそれに類似する発生位置である構造
化文書を検索する。
Description
複数の構造化文書を、階層化された論理構造を持つ構造
化文書データベースで管理する構造化文書管理システム
に関する。
up Language)データベースなど構造化文書
データベースでは、検索言語によって記述されたユーザ
検索要求により所望の構造化文書を検索する手段が提供
されてる。検索言語には、SQL(Structure
d Query Language)に似た構文を持
ち、検索位置、検索条件、情報抽出部分などを記述した
ものもある。この手段により多種多様な構造化文書を検
索することができる。しかし、このような検索言語をベ
ースとしたクエリデータを作成するには、ユーザ側にあ
らかじめ構造化文書データベース中に存在する構造化文
書の文書構造(DTD)や語彙発生状況などに関する情
報が必要であった。
昧性が発生する。例えば、「タイトル」を同じ意味合い
で、「表題」「件名」と表現したり、「要旨」を同じ意
味合いで「まとめ」や英語で「ABSTRACT」と表
現したりするなど、同義語、類字語が数多く存在する場
合が挙げられる。
れらの揺らぎや曖昧性を吸収した検索が行えないという
問題点があった。
ジンの分野では、一般にキーワード列を使ってユーザ検
索要求を表現する。キーワード列を文書検索エンジンに
投入すると、そのキーワードを含む文書集合を検索し
て、その一覧を表示する。高度な文書検索エンジンで
は、同義語辞書、類似語辞書などを用いて関連するキー
ワード列を追加抽出して、それらのキーワード列も含め
てOR展開し、ユーザ検索要求を拡大解釈して検索する
機能を持っているものもある。これを使うと、文書の語
彙的な揺らぎや曖昧性に対処することも可能である。
た構造化文書に対して同様の手段では問題がある。つま
り、キーワード列を使って検索する文書検索エンジンで
は、構造化文書の中に発生する重要な情報である文書構
造を完全に無視して、単なる文書として検索してしまう
からである。
を考慮した構造化文書の検索手法が数多く提案されてい
る。
性比較であり、実現方法は対応タグ内の語彙比較(語彙
曖昧性)で実現されていた。
指定による類似文書の検索装置及び検索方法」(日立)
には、検索条件として指定された文書(種文書)に類似
する文書を検索する装置について開示されている。この
装置は、計算機を利用して検索条件として指定された文
書あるいは文章(種文書)に類似する構造化文書を検索
するものであって、類似度計算の検索条件として種文書
と構造化文書に属する1つの構造の指定を受けて、類似
度計算の後、類似度のより高い対象文書を優先して表示
するようになっている。
書検索装置」(富士通)には、文書を蓄積した文書デー
タベースから、利用者により入力された文書と類似の内
容を持つ文書を検索するための文書検索装置であって、
特に、定型的な構造を持つ入力文書と類似の内容を持つ
文書を検索するための文書検索装置について開示されて
いる。入力文書を解析し、文書構成要素に従った重み付
けをした検索キーワード集合を生成する検索キーワード
集合生成手段と、検索キーワード集合に基づき文書デー
タベースを検索して、その結果得られた文書ごとに、マ
ッチした各キーワードの重みを計算し、検索結果文書に
対する累計重みを得る文書検索手段とを有し、検索結果
には、入力文書との類似度を表す累計重みが付加されて
いるので、利用者は、これを参考とすることにより、検
索結果の取捨選択を効率的に行うことができる。
書の語彙的な揺らぎや曖昧性に対処するアイデアが提案
されているが、これらはあくまでもユーザ検索要求とし
て「種文書」を入力として与えなければならない。出力
として得られるのは、類似した構造化文書の集合であ
る。このような入出力の形態は、サーチエンジンなどの
文書検索エンジンに近い形態である。
タベースに適用するのは困難である。つまり、類似した
構造化文書中の一部の要素だけを情報抽出したり加工す
るといった要求を記述する検索言語とのミスマッチが大
きいからである。
「「XML」や「SGML」を含む」といった語彙に関
する論理条件を指定することはできない。あくまでも
「XML」とか「SGML」といった具体的なデータで
の類似比較しか行えない。
の発明は、あらかじめ特徴文字列抽出プログラムにより
特徴文字列を抽出している。しかし、語彙と語彙との類
似性、語彙の曖昧性には強弱があるのが一般である。た
とえば、「XML」と「SGML」は近く、「XML」
と「テキスト」は相対的に遠い。上記特開2001−1
4326号公報記載の発明は、このような語彙と語彙と
の類似性、語彙の曖昧性には強弱を数値的に表した類似
度で特徴文字列の類似度を算出するのではなく、同一構
造内での抽出された特徴文字列の発生頻度の総和で算出
されている。また、同一構造内での抽出された特徴文字
列の発生頻度の総和で類似度を算出しているため、構造
同士の類似性は考慮されていない。
載の発明では、語彙と語彙との類似性、語彙の曖昧性
は、「展開キーワードの重み」という付加データにより
考慮されている。しかし、構造同士の類似性として、検
索属性定義情報データにて、例えば、「質問文」であれ
ば、「「質問文」に「2.0」の類似度、「回答文」に
「1.0」の類似度」といった情報にて、多少の構造同
士の類似性も考慮されている。
書データ以外に、検索属性定義情報データを作り込むコ
ストは膨大である。これでは汎用的な類似検索機能は実
現できない。
従来からある、文書の語彙的な揺らぎや曖昧性を考慮し
た構造化文書の検索手法には、以下のような問題点があ
った。
加味した類似検索ができない。
した構造化文書中の一部の要素だけを抽出するといった
検索要求を記述することができない。
辞書以外に、類似計算のためにデータの作り込みが必要
となる。
成要素、語彙、文書構造(論理構造)の類似計算のため
に必要な構成要素名や語彙の類似関係を表したデータベ
ースを追加するだけで)構造化文書データベースに格納
されている構造化文書の構成要素と語彙とを指定した検
索条件に基づき、この指定した構成要素と語彙とそれら
の論理構造上の発生位置とに類似する構造化文書の検索
が容易に行える構造化文書検索方法および、それを用い
た構造化文書検索装置を提供することを目的とする。
造の複数の構造化文書を格納した階層化された論理構造
を持つ構造化文書データベースに対して、前記論理構造
を構成する前記構造化文書の構成要素と語彙を検索条件
に含む検索要求に基づき類似検索を行うものであって、
前記検索条件を該検索条件で指定された構成要素と語彙
とそれらの文書構造上の位置関係の類似範囲まで緩和し
て、前記構造化文書を検索し、この検索された構造化文
書を、該構造化文書に含まれる構成要素と語彙とこれら
の文書構造上の位置関係と、前記検索条件で指定された
構成要素と語彙とこれらの文書構造上の位置関係との類
似度に基づき並び替えて出力することにより、構造化文
書データベースに格納されている構造化文書の構成要素
と語彙を指定した検索条件に基づき、この指定した構成
要素と語彙とそれらの論理構造上の発生位置とに類似す
る構造化文書の検索が容易に行える。
るいは該語彙に類似する語彙を包含する構成要素が、前
記検索条件で指定された構成要素あるいは該構成要素に
類似する構成要素と一致する構造化文書を検索する。
文書を格納した階層化された論理構造を持つ構造化文書
データベースに対して、前記論理構造を構成する前記構
造化文書の構成要素と語彙を検索条件に含む検索要求に
基づき検索を行うものであって、前記構造化文書データ
ベースに格納されている構造化文書のうち、その構成要
素に、前記検索条件で指定された構成要素あるいはそれ
に類似する構成要素と、前記検索条件で指定された語彙
あるいはそれに類似する語彙を包含し、かつ、前記語彙
あるいはそれに類似する語彙と、前記構成要素あるいは
それに類似する構成要素との前記論理構造上の発生位置
が、前記検索条件で指定された発生位置あるいはそれに
類似する発生位置である構造化文書を検索する。
に格納されている構造化文書の構成要素と語彙を指定し
た検索条件に基づき、この指定した構成要素と語彙とそ
れらの論理構造上の発生位置とに類似する構造化文書の
検索が容易に行える。
表示するために、該構造化文書に包含される語彙と構成
要素とそれらの前記論理構造上の発生位置との、前記検
索条件で指定された語彙と構成要素とそれらの前記論理
構造上の発生位置とに対する類似度に基づき並び替え
る。
構造化文書から検索結果として抽出すべき構成要素の出
力形式に基づき、前記検索された構造化文書を出力す
る。
た構造化文書に包含される語彙と構成要素の前記検索条
件で指定された語彙と構成要素に対する第1の類似度
と、前記検索された構造化文書に包含される語彙と構成
要素の前記論理構造上の発生位置と、前記検索条件で指
定された語彙と構成要素の前記論理構造上の発生位置に
対する第2の類似度との積である。
説明する前に、構造化文書管理システムについて説明す
る。
文書として、XMLやSGMLなどで記述した文書が挙
げられる。SGML(Standard Genera
lized Markup Language)とは、
ISO(国際標準化機構)で定められた規格である。X
ML(eXtensible Markup Lang
uage)とは、W3C(World Wide We
b Consortium)にて定められた規格であ
る。それぞれ文書を構造化することを可能とする構造化
文書規約である。
された文書を例に説明を進める。構造化文書の文書構造
を定義したデータ(文書構造定義データ)をスキーマと
呼ぶ。XMLではそのスキーマを定義するためにXML
−SchemaやXDR(XML Data Redu
ced)などのスキーマ言語が提案されている。ここで
は、例えば、XDRでのスキーマを記述する場合を例に
とり説明する。
理対象の構造化文書であり、従って、スキーマ文書と呼
ぶことがある。スキーマ文書と区別するために、特許明
細書やメール、週報、広告などの種々雑多な内容を有す
文書をコンテンツ文書と呼ぶこともある。
マ文書、上記コンテンツ文書、さらに、後述するような
ユーザからの検索要求内容を記述したクエリ、すなわ
ち、クエリ文書も管理対象とし、これらを総称して「文
書」と呼ぶ。
と呼ぶときは、コンテンツ文書、スキーマ文書、クエリ
文書を全て指すものとする。
いて簡単に説明する。
一例として、「特許」情報の例を示したものである。X
MLやSGMLは、文書の構造の表現にタグが用いられ
る。タグには、開始タグと終了タグがあり、文書構造情
報の構成要素を開始タグと終了タグで囲むことにより、
文書中の文字列(テキスト)区切りと、そのテキストが
構造上どの構成要素に属するのかを明確に記述すること
ができる。
「<」、「>」で閉じたものであり、終了タグとは要素
名称を記号「</」と「>」で閉じたものである。タグ
に続く構成要素の内容が、テキスト(文字列)または子
供の構成要素の繰り返しである。また開始タグには「<
要素名称 属性=“属性値”>」などのように属性情報
を設定することができる。「<特許DB></特許DB
>」のようにテキストを含まない構成要素は、簡易記法
として「<特許DB/>」のように表わすこともでき
る。
まる要素をルート(根)とし、その子要素として「タイト
ル」、「出願日」、「出願者」、「要約」タグから始ま
る要素集合が存在する。また、例えば、「タイトル」タ
グから始まる要素には「XMLデータベース」といっ
た、1つのテキスト(文字列)が存在する。
素を繰り返し含んでいたり、さらには文書構造があらか
じめ決まっていない(RDB(リレーショナルデータベ
ース)やOODB(オブジェクト指向データベース)の
スキーマでは定義できない)のが普通である。
表現するために、図4に示すようなツリー表現が用いら
れる。ツリーは、ノード(番号が付され、円形で示され
たもの)とアーク(ノードを表す円形間をつなぐデータ
付き線)と四角形で囲まれたテキストから構成されてい
る。
ドからタグ名や属性名に相当するラベルが付与された複
数のアークが出てきている。そのアークの先は、ノード
または要素値としての文字列(テキスト)である。ノー
ドの中に記載されている英数字(#0、#49)などは
オブジェクトIDである。
造化文書の文書オブジェクトツリーと呼ぶ。
システムの構成例を示したものである。図1において、
構造化文書管理システムは、大きく分けて、要求制御部
1、アクセス要求処理部2、検索要求処理部3、データ
アクセス部4、文書記憶部5、インデックス記憶部6か
ら構成されている。文書記憶部5、インデックス記憶部
6は例えば、外部記憶装置を用いて構成される。
いて実現可能である。
理部12から構成されている。要求受付部11は、ユー
ザからの文書格納や文書取得、文書検索などの要求を受
け付けて、アクセス要求処理部2を呼び出す。結果処理
部12は、アクセス要求処理部2が処理した結果を要求
元のユーザに返す処理を行う。
書格納や文書取得などの要求に対応した複数の処理部か
ら構成されている。つまり、文書格納部21、文書取得
部22、文書削除部23から構成されている。
的な指定エリアに文書を格納する処理を行う。
的なエリアが指定されたときに、その指定エリアに存在
する文書を取得する処理を行う。
的な指定エリアに存在する文書を削除する処理を行う。
であり、例えば、図8に示すように、文書をUNIX
(登録商標)のディレクトリ構造のように階層的にツリ
ー構造状に格納している。
スは、図4に示したような1つの構造化文書のツリー構
造と同様に表現できる。すなわち、任意のノード以下の
部分階層木(部分ツリー)は、構造化文書データベース
から切り出された構造化文書であり、ここでは、これを
文書オブジェクトツリーと呼ぶ。各ノードにはオブジェ
クトIDが割り当てられている。オブジェクトIDは、
構造化文書データベース内ではユニークな数値を持つも
のとする。
ルートノードであることを特定するためのオブジェクト
ID「#0」が割り当てられるものとする。
ドからは「root」タグを先頭に持つ「#1」のノー
ドへリンクが張られている。「#1」のノードからは、
「特許DB」タグを先頭にもつ「#2」ノードへのリン
クが張られている。「#2」ノードからは、「特許」タ
グを先頭に持つ「#42」ノード、「#52」ノード、
「#62」ノードへのリンクがそれぞれ張られている。
ノード以下の部分ツリーに対応している。このノードか
らは「タイトル」タグ、「出願者」タグ、「要約」タグ
などを先頭にもつノードへリンクが張られ、末端のノー
ドからは、「XMLデータベース」、「T社」。「XM
Lを統一的に管理するデータベースを提供する…」など
の文字列(要素値)へのリンクが張られている。
62」ノード以下の部分ノードも1つの「特許」情報に
対応する部分である。
ンクされた「XMLデータベース」という要素値は、
「#43」ノードと「#value」という特殊なタグ
名で接続されている。このタグ名は、「#」で始まるた
めXML規格においては標準的なタグ名として利用する
ことはできない。
ノードを指定するために構造化文書パスを用いる。構造
化文書パスは「uix://root」から始まる文字
列である。uix(Universal Identi
fier for XML)は構造化文書パスであるこ
とを示す前置文字列である。
B」は、「#1」ノードから「特許DB」が付与された
アークが指し示すノード、つまり「#2」ノードに対応
する。このように「root」から「/」で区切られた
部分文字列をタグ名とみなすことで「#0」ノードから
タグ名の並びに沿って対応するアークを下っていき、そ
の最後のアークが指すノードが、パスの場所を指し示
す。
B/特許」は、「#42」ノード、「uix://ro
ot/特許DB/出願日/年」は、「#45」ノードを
指し示す。
DB」に、複数の「特許」情報を格納する場合には、個
々の「特許」情報を識別するために、構造化文書パスに
インデックス表現が可能である。
ば、「uix://root/特許DB/特許[0]」
となるが、これは「uix://root/特許DB/
特許」と同じとみなす。
れば、「uix://root/特許DB/特許[1]
DB」の5番目の「特許」情報であれば、「uix:/
/root/特許DB/特許[4]」となる。
る、要素名称生起インデックスとデータ生起インデック
スが記憶されている。
ータベースに格納されている要素名称のリストと、各要
素名称が先頭にある構造化文書(文書オブジェクトツリ
ー)の位置とを関連付けてインデックスファイル化した
ものである。例えば、図8の構造化文書データベースの
ように、(「特許」情報に対応する)「特許」という要
素名称が「#42」ノード以下の構造化文書、「#5
2」ノード以下の構造化文書、「#62」ノード以下の
構造化文書に存在する場合、これらをインデックス化す
ると、図9に示すように、それらの親ノード、「#2」
ノードが、要素名称生起インデックスファイルに「特
許」キーからのチェーンで格納される。
ると、インデックスファイルを圧縮することができる。
すなわち、親ノードでインデックス化すれば、子ノード
が増大しようとも、親ノードで代用しているので、チェ
ーンサイズは増大しない。これに対し、実ノードをイン
デックス化すれば「特許」情報の格納数の増大とともに
チェーンサイズはそれに比例して増加してしまう。
データベースに格納されている文字列データのリストと
各文字列データがある構造化文書(文書オブジェクトツ
リー)の位置とを関連付けてインデックスファイル化し
たものである。例えば、図8の構造化文書データベース
のように、「XML」という文字列データ(および、
「XML」という文字列を含む文字列)が「#43」ノ
ード以下の構造化文書、「#49」ノード以下の構造化
文書に存在する場合、これらをインデックス化すると、
図10に示すように、「#43」ノード、「#49」ノ
ードが、データ生起インデックスファイルに「XML」
キーからのチェーンで格納される。
インデックスファイルを用いてもよい。逆階層インデッ
クスとは、あるノードとその親ノードとの対応を格納し
たものである(あるノードからその親ノードを求めるこ
とができる)。
は、ユーザにより構造化文書パスを用いて指定された文
書の格納場所を指す。構造化文書パスは、ユーザにとっ
て認識可能な表現である。
クセスする基本インターフェイスの集合である。データ
アクセス部4は、文書オブジェクトツリー格納部47、
文書オブジェクトツリー削除部48、文書オブジェクト
ツリー取得部49、文書文字列取得部44、パスから文
書オブジェクトツリー取得部45、文書パーサ部46、
合成文書作成部47、インデックス更新部48から構成
される。
書記憶部5中の物理的な指定エリアに文書オブジェクト
ツリーを格納する処理を行う。
書記憶部5中の物理的な指定エリアに存在する文書オブ
ジェクトツリーを削除する処理を行う。
書記憶部5中の物理的な指定エリアに存在する文書オブ
ジェクトツリーを取得する処理を行う。
トツリーを構造化文書(XML文書)に変換する処理を
行う。
5は、構造化文書パスを解析して文書記憶部5中の物理
的なエリアを特定して、そのエリアに存在する文書オブ
ジェクトツリーを取り出す処理を行う。
れた構造化文書を読み込んで構文解析して整合性の検査
を行い、さらに文書構造定義データであるスキーマが存
在すれば構造的に妥当かどうかの検証を行う。出力結果
は文書オブジェクトツリーとなる。文書パーサは、通
常、lex(lexical analyzer ge
nerator)といったレキシカルアナライザ(字句
解析を行い,トークンに分解する)とyacc(yet
another compiler compile
r)といったパーサジェネレータを組み合わせて構築す
ることができる。
除などをする際に、スキーマに合致しているかどうか検
査しなければならないが、この検査時に必要となるデー
タを作成して出力する。
書削除などにより、構造化文書データベースの格納内容
が更新されるたびに、図9、図10に示した要素名称生
起インデックスとデータ生起インデックスを更新する。
は、ファイルオフセットやオブジェクトIDなどの構造
化文書データベース内ではユニークな文書データの存在
場所を指し示す内部データである。ユーザにとっては認
識不能なデータである。
る処理を行う。要求制御部1の要求受付部11でユーザ
からの文書検索の要求が受け付けられると、検索要求処
理部3には、要求受付部11からクエリ言語で記述され
たクエリ文書が入力する。そしてデータアクセス部4を
通してインデックス記憶部6,文書記憶部5にアクセス
し、検索要求に合致する文書集合を取得して、その結果
を結果処理部12を介して出力する。
テムの一利用形態を示したもので、図2では、WWW
(World Wide Web)のバックエンドで、
図1に示した構成の構造化文書管理システム100が動
作している場合を示している。
ント端末(例えばパーソナルコンピュータ、携帯通信端
末など)102のそれぞれでWWWブラウザ103が動
作している。ユーザは、各クライアント端末からWWW
サーバ101にアクセスすることにより、構造化文書管
理システム100にアクセスすることができる。WWW
ブラウザ103とWWWサーバ101とは、HTTP
(Hyper TextTransfer Proto
col)で通信している。また、WWWサーバ101と
構造化文書管理システム100とは、CGI(Comm
on Gateway Interface)またはC
OM(Component Object Mode
l)などで通信している。
索などの要求は、WWWブラウザ103から送信され
て、WWWサーバ101を通して構造化文書管理システ
ム100にて受け付けられ、処理された結果は、WWW
サーバ101を通して要求元のWWWブラウザ103へ
返信される。
(1)格納機能、(2)検索機能について詳細に説明す
る。そして、(3)適用例では、概念検索を用いた特許
調査の場合を例にとり説明する。
ドには以下のものがある。
文書パス以下のN番目に文書を挿入するコマンド(以
下、簡単に挿入コマンドと呼ぶ)である。
定した構造化文書パス以下の最後に文書を挿入するコマ
ンド(以下、簡単に追加コマンドと呼ぶ)である。
構造化文書パス以下の文書を取り出すコマンド(以下、
簡単に取得コマンドと呼ぶ)である。
定した構造化文書パス以下の文書(スキーマ文書以外の
文書で、主に、コンテンツ文書)を削除するコマンド
(以下、簡単に削除コマンドと呼ぶ)である。
定した構造化文書パスにスキーマを設定するコマンド
(以下、簡単にスキーマ格納コマンドと呼ぶ)である。
定した構造化文書パスに設定されているスキーマを取り
出すコマンド(以下、簡単にスキーマ取得コマンドと呼
ぶ)である。
コマンド、スキーマ格納コマンドについての処理はアク
セス要求処理部2の文書格納部21で実行され、取得コ
マンド、スキーマ取得コマンドについての処理は文書取
得部22で実行され、削除コマンドについての処理は文
書削除部23で実行される。
の初期状態(図5(a)参照)において、追加コマンド
を実行する場合について説明する。
と「#1」ノードが「root」アークで接続されてい
る初期状態に対して、「appendXML(“ui
x://root”,“<特許DB/>”)」を実行し
た結果、図5(b)に示すように、「#2」ノードと
「特許DB」アークが作成される。
タベースに対して、取得コマンドを実行する場合につい
て説明する。
root”)」を実行すると、図5(b)の「roo
t」アークが示す「#0」ノード以下の文書オブジェク
トツリーが取り出され、それをXMLの文字列表現に変
換する。その結果、図6に示すように、「<root>
<特許DB/></root>」なる文字列が取り出さ
れる。取得コマンドの処理は、アクセス要求処理部2の
文書取得部22にて実行される。
書データベースに対して、図3に示すようなコンテンツ
文書(XML文書)としての「特許」情報を格納するた
めの追加コマンドを実行する場合について説明する。す
なわち、この場合、「appendXML(“uix:
//root/特許DB”,“<特許>…</特許
>”)」を実行する。このコマンド中「“<特許>…<
/特許>”」が、図3に示した「特許」情報に対応す
る。
図7に示すように、「#2」ノード以下に「#42」ノ
ードをトップとする文書オブジェクトツリー(図4に対
応)が追加される。
タベースに対して、次に示すような追加コマンドを3回
繰り返して実行したとする。
oot/特許DB”,“<特許>…</特許>”)」 上記コマンド中、「<特許>…</特許>」は、図3に
示した文書構造のコンテンツ文書に対応する。
ド以下に「#42」ノード、「#52」ノード、「#6
2」ノードをトップとする文書オブジェクトツリーが追
加される。
タベースに対して、3つの「特許」情報を取り出すため
の取得コマンドを実行した場合について説明する。この
場合、「getXML(“uix://root/特許
DB”)」を実行する。すると、「特許DB」アークが
示す「#2」ノード以下の文書オブジェクトツリーが取
り出され、それをXMLの文字列表現(XML文書)に
変換する。その結果、図11に示すように、「<特許D
B><特許>…</特許><特許>…</特許><特許
>…</特許></特許DB>」なる文字列が取り出さ
れる。
許」情報などのコンテンツ文書(XML文書)の文書構
造を定義したデータ、すなわち、スキーマも管理対象と
する。
るスキーマの一例を示したものである。ここでは、XM
Lの文書構造定義言語の一つであるXDR(XML−D
ata Reduced)を取り上げる。もちろん、X
ML−Schemaなど他の文書構造定義言語を用いて
もかまわない。
「特許」情報の文書構造をXDRで定義したものであ
る。図12からも容易に分かるとおり、スキーマもXM
L形式の構造化文書である。「Schema」タグから
始まる構成要素から始まり、その子要素として、「El
ementType」タグから始まる要素集合が存在す
る。
ば、最初の「ElementType」タグから始まる
子要素は以下の情報を意味している。
(「ElementType name=”特許”」)
である。
=”eltOnly”」)である。
グから始まる子要素から構成される(「element
type=”タイトル”、…」)。さらに、その順番
は一意に決まっている(「order=”se
q”」)。
構造定義の他に、「タイトル」「出願者」「要約」
「年」「月」「日」「出願日」の文書構造定義を記述し
ている。すなわち、「出願日」を除く、「タイトル」
「出願者」「要約」「年」「月」「日」タグから始まる
構成要素の子要素はテキストだけと定義されている
(「content=”textOnly”」)。
要素は、「年」、「月」、「日」の並びである。
スに対して、図12に示したスキーマ文書を格納するた
めのスキーマ格納コマンドを実行する場合について説明
する。この場合、「setSchema(“uix:/
/root/特許DB”,“<Schema>…</S
chema>”)」を実行する。このコマンド中、
「“<Schema>…</Schema>”」」が図
12に示したスキーマ文書に対応する。
ように、「#2」ノード以下に「#schema」アー
クが追加され、その先には、「#3」ノードをトップノ
ードとする文書オブジェクトツリーが追加される。スキ
ーマ自身がXML文書表現になっているため、前述した
「特許」情報のようなコンテンツ文書格納のケースと同
様にツリー展開可能である。
「@」で始まるアークは属性に対応する。タグ名「#s
chema」も「#」、「@」で始まるためXML規格
においては標準的なタグ名として利用することはできな
い。
マ文書が格納されたことにより、以後、「#2」ノード
以下にこれから格納される文書の文書構造は、図12に
示したスキーマ文書により定義された文書構造に適合す
ることが要求される。すなわち、「#2」ノード以下に
図12に示したスキーマが設定されることになる。
ーマが設定されると、図14に示すように、「#2」ノ
ードの文書オブジェクトのファイルには、「#2」ノー
ド以下の文書オブジェクトツリーには、当該スキーマが
存在する旨の属性値がセットされる。
ーマが設定された後に、このスキーマで定義された文書
構造に一致する図3に示したような「特許」情報を、図
14に示したように、文書オブジェクトツリーとして構
造化文書データベースに格納したとき、この文書の文書
構造には図12に示したスキーマが存在する旨の属性値
が、当該文書オブジェクトツリーを構成する各文書オブ
ジェクトにセットされる。例えば、当該文書オブジェク
トツリーを構成する各文書オブジェクトのファイルに対
して、スキーマが存在している旨の属性値(例えば、
「スキーマ適合有無」)に「1」がセットされる。図1
4では、スキーマに適合している各文書オブジェクト
(ノード)は2重丸で示している。2重丸で示した各文
書オブジェクトには、その文書オブジェクトに対応した
文書構造定義が存在することになる。
の内容を概念的に示したもので、例えば、オブジェクト
IDが「#42」の文書オブジェクトのファイルには、
その文書オブジェクトにリンクされている他の文書オブ
ジェクトに関する情報(例えば、アークや、リンク先の
文書オブジェクトへのポインタ値など)とともに、上記
属性値が記述されている。なお、当該文書オブジェクト
に適用するスキーマが存在しないときは、「スキーマ適
合有無」の値は「0」となる。
システムで、必要に応じて検索で使用される概念階層を
構造化文書で表現した例を示す。図16、図17に示す
「概念」情報はXMLで記述したコンテンツ文書であ
る。
ゆる特許調査における特許文書の内容を分類するための
1つの分類軸として用いる「情報モデル」を概念階層で
表現している。「概念」タグで囲まれた「概念」情報
は、入れ子構造を持った文書構造をもっている。つま
り、図16の例では、概念「情報モデル」の子供概念と
して、概念「ドキュメント」、概念「リレーション」、
概念「オブジェクト」が存在している。また、概念「ド
キュメント」の子供概念として、概念「構造化訴求メン
ト」、概念「非構造化ドキュメント」が存在し、さら
に、概念「構造化ドキュメント」の子供概念として、概
念「XML」、概念「SGML」が存在している。
16とは異なる分類軸「情報操作」を概念階層で表現し
ている。図17の例では、概念「情報操作」の子供概念
として、概念「検索」、概念「格納」、概念「加工」、
概念「流通」が存在している。
報も、前述の「特許」情報と同様にして、構造化文書デ
ータベース内に格納することができる。すなわち、例え
ば、まず、図8に示した状態の構造化文書データベース
に対して、「appendXML(“uix://ro
ot”,“<概念DB/>”)」を実行して、図18に
示すように、「#201」ノードと「概念DB」アーク
が作成される。この状態において、図16に示した「概
念」情報を格納する場合には、「appendXML
(“uix://root/概念DB”,“<概念名前
>…</概念>”)」を実行する。このコマンド中
「“<概念名前>…</概念>”」が、図16に示した
「概念」情報に対応する。
図19に示すように、「#201」ノード以下に「#2
02」ノードをトップとする文書オブジェクトツリーが
追加される。
理システムでは、構造化文書データベース上に登録され
る文書構造が異なる膨大な数のXML文書群(コンテン
ツ文書、スキーマ文書、クエリ文書など)を、図18,
図19に示すように、「root」タグを先頭に持つツ
リー状の1つの巨大なXML文書として取り扱う。その
ため、部分的なXML文書をアクセスするには巨大なX
ML文書に対するパスという文書構造に依存しない統一
的なアクセス手段を用いることにより、幅広くXML文
書を検索したり加工したりすることが可能になる。
スキーマを設定することで、格納しようとする文書の文
書構造がそのスキーマにより定義されている文書構造に
一致するか否かの妥当性のチェックが自動的に行なえる
(後述)。
作について、図20に示すフローチャートを参照して説
明する。
テムに対し、文書格納要求として、挿入コマンド、追加
コマンド、スキーマ格納コマンドのうちのいずれかが送
信されて、要求受付部11にて受け付けられたとき、図
20に示した処理動作を行う。
構造化文書管理システム100(の例えば、要求制御部
1)から提供された、例えば、図31に示すようなユー
ザインターフェイスとしての画面が表示されている。
ステム100への操作項目の一覧(メニュー)が表示さ
れている。操作項目として、「XML登録/削除」、
「スキーマ設定」、「XML検索」とがある。
録/削除」をマウス等のポインティングデバイスなどを
用いて選択すると、図32に示したような文書の格納/
削除を行うためのユーザインタフェースとしての画面が
表示される。
化文書データベースの現在のツリー構造の要素名(タグ
名)がユーザが理解可能なように簡略的に表示されてい
る。なお、図32では、上位階層の要素名のみを表示し
ているが、末端の要素名まで表示可能である。また、領
域W2は、構造化文書パスの入力領域であり、領域W1
の表示内容に従って、構造化文書パスを入力するように
なっている。また、領域W3は、格納する文書を入力し
たり、取得した文書を表示するようになっている。
t」を入力する場合には、領域W1の「root」をマ
ウス等で選択すればよい。すると、図32に示すよう
に、領域W2の構造化文書パスの入力領域に「uix:
//root」と表示される。また、新たに、「特許D
B」という要素を追加する場合は、図32に示すよう
に、領域W3に、「特許DB」を入力する。そして、
「登録」ボタンB1を選択すると、クライアント端末か
らappendXML(“uix://root”,
“<特許DB/>”)」なる追加コマンドが構造化文書
管理システムへ送信される。構造化文書管理システムで
は、上記追加コマンドを受け、後述するような処理を実
行した結果、例えば、図5(b)に示すように、「#
2」ノードと「特許DB」アークが作成される。また、
領域W1には、図33に示すように、「root」の下
に「特許DB」が追加表示される。
の格納/削除画面上の領域W3に、例えば、文書「<A
>データ</A>」を入力し(あるいはCD−ROM等
の所定の記録媒体等から読み込むことにより入力し)、
領域W1の「特許[0]」をマウス等で選択すると、構
造化文書パスの入力領域W2に、「uix://roo
t/特許DB/特許[0]」と表示される。そして、
「登録」ボタンB1を選択すると、クライアント端末か
らappendXML(“uix://root”,
“<特許DB/>”)」なる追加コマンドが構造化文書
管理システムへ送信される。
スが、図14に示した状態のときに、「appendX
ML(“uix://root/特許DB/特許
[0]”,“<A>データ</A>”)」なる追加コマ
ンドを受け付けた場合を例にとり説明する。
け付けると、上記追加コマンド中の2つのパラメータで
ある構造化文書パス「uix://root/特許DB
/特許[0]」と文書「<A>データ</A>」(以
下、格納文書と呼ぶ)とを文書格納部21へ渡す(ステ
ップS1)。
6に格納文書を渡す。文書パーサ部46は、格納文書を
読み込んで、構文解析を行い、当該格納文書の文書構造
がXMLにて規定された正しい形式であるか否かの整合
性の検査を行う(ステップS2)。
(ステップS3)、文書格納部21,結果処理部12を
介して、クライアント端末に「文書格納失敗」の旨のメ
ッセージを返す(ステップS4)。
ば、次に、文書格納部21は、パスから文書オブジェク
トツリー取得部45へ構造化文書パスを渡す。パスから
文書オブジェクトツリー取得部45は、構造化文書パス
から文書記憶部5中の物理的なエリアを特定することに
より、そのエリアに存在する構造化文書パスにて表され
たノード(文書オブジェクトOx0)を含む文書オブジ
ェクトツリーを取り出す(ステップS5)。構造化文書
パスの指定が正しければ、文書オブジェクトOx0のオ
ブジェクトIDを取得することができるので(ステップ
S6)、その場合は、ステップS8へ進む。
2」ノードが文書オブジェクトOx0となるので、その
オブジェクトIDとして、「#42」を取得するととも
に、この「#42」ノードを含む文書オブジェクトツリ
ー(例えば、「#42」ノードの全ての子孫ノードと
「#42」ノードと同じ階層にある全ての(兄弟)ノー
ドと、「#42」ノードの親ノードである「#2」ノー
ドとからなる文書オブジェクトツリー)を取得する。
する文書オブジェクトOx0が見つからなければ、エラ
ーとなり(ステップS6)、文書格納部21,結果処理
部12を介して、クライアント端末に「文書格納失敗」
の旨のメッセージを返す(ステップS7)。
8に示した状態のときに、追加コマンドのパラメータと
して、構造化文書パスが「uix://root/その
他」と表されていたとき、これに対応する文書オブジェ
クトは存在しないので、ステップS6でエラーとなり、
ステップS7へ進む。
トOx0にスキーマが存在するか否かを検査する。この
検査は、前述したように、各文書オブジェクトのファイ
ルに属性値が記述されているので、この値をチェックす
ればよい。文書オブジェクトOx0のもつ「スキーマ属
性有無」の値が「1」のときは、ステップS9へ進む。
文書作成部47の処理)について、図21に示すフロー
チャートを参照して詳細に説明する。
た文書オブジェクトツリーを合成文書作成部47へ渡
す。
クトツリーを文書オブジェクトOx0から遡り、「Sc
hema」タグを子要素として持つ文書オブジェクトO
x1を検索する(ステップS21)。
ベースでは、文書オブジェクトOx0としての「#4
2」ノードの親ノードである「#2」ノードから「Sc
hema」タグをトップ(先頭)にもつノード(「#
3」ノード)へのリンクが張られているので(「Sch
ema」タグを子要素として持つので)、この「#2」
ノードが文書オブジェクトOx1となる。よって、ステ
ップS22をスキップして、ステップS23へ進む。
ジェクトOx0、さらに文書オブジェクトOx0からア
ークを辿って、その下流にある、文書オブジェクトの属
性値の値が「1」である全ての子ノードからなる文書オ
ブジェクトツリーOt1を取り出す(ステップS2
3)。
の構造化文書パスが「uix://root/特許DB
/特許[0]」と指定されているとき、文書オブジェク
トツリーOt1は、「#42」ノード〜「#49」ノー
ドから構成されたものとなる(図14参照)。
リーOt1に格納文書の文書オブジェクトツリーを文書
オブジェクトOx0の子ノードとして挿入する。その結
果得られた新たな文書オブジェクトツリーを文書オブジ
ェクトツリーOt2とする。
L文書に変換し、それをテンポラリファイルAに出力す
る(ステップS27)。
の格納文書「<A>データ</A>」の文書オブジェク
トツリー(この場合は、1つの文書オブジェクト)を
「#42」ノード〜「#49」ノードで構成された文書
オブジェクトツリーOt1に「#42」ノードの子ノー
ドとして挿入して得られた合成文書の文書オブジェクト
ツリーOt2をXML文書に変換した結果を図22に示
す。この合成文書は、もともとある「特許」情報に「<
A>データ</A>」というデータを追加したものとな
っている。
成文書がテンポラリファイルAに出力され、テンポラリ
ファイルAに一時格納される。
トツリーOt3をXML文書に変換して、それをテンポ
ラリファイルBに出力する(ステップS28)。すなわ
ち、テンポラリファイルBには、スキーマ文書が一時格
納されることになる。
ある「#3」ノードをトップノードとする文書オブジェ
クトツリーをXML文書に変換した結果を図23に示
す。図23に示したXML文書がテンポラリファイルB
に出力され、テンポラリファイルBに一時格納される。
A(「tmp000.xml」)には、もともとある
「特許」情報の要素の他に、格納文書、すなわち、ここ
では、例えば、「<A>データ</A>」が挿入されて
いる。また、「xmlns=”x−schema:tm
p001.xml”」という、テンポラリファイルB
(「tmp001.xml」)へのリンク情報の記述が
ある。この記述は、「特許」情報に適用されるスキーマ
が出力されているテンポラリファイルBを指定してい
る。
書パーサ部46に、合成文書のテンポラリファイルAと
スキーマのテンポラリファイルBとを与えて、合成文書
の文書構造の妥当性をチェックする。すなわち、文書パ
ーサ部46は、合成文書のテンポラリファイルAとスキ
ーマのテンポラリファイルBとを読み込み、合成文書の
文書構造が、スキーマにより定義されている文書構造に
一致するか否かをチェックする。
3に示したスキーマとで妥当性のチェックを行った場
合、合成文書には、スキーマにより定義されていない
「A」という要素が存在するため、図23の合成文書
は、妥当性のチェックでエラーとなる(ステップS1
1)。この場合、文書格納部21,結果処理部12を介
して、クライアント端末に「文書格納失敗」の旨のメッ
セージを返す(ステップS12)。
置には、図35に示すようなメッセージが表示される。
に示した状態のときに、「appendXML(“ui
x://root/特許DB”,“<特許>…</特許
>”)」なる追加コマンドを受け付けた場合について、
図20を参照して説明する。前述同様にして、文書オブ
ジェクトOx0のオブジェクトID「#2」を取得する
(ステップS5)、この文書オブジェクトには、スキー
マが存在するので(ステップS8)、ステップS9にお
いて合成文書を作成する。
「#2」ノード自体から「Schema」タグをトップ
(先頭)にもつノード(「#3」ノード)へのリンクが
張られているので、この「#2」ノードが文書オブジェ
クトOx1となる(図21のステップS21)。すなわ
ち、文書オブジェクトOx0と文書オブジェクトOx1
が同じなので(ステップS22)、ステップS29へ進
み、格納文書「<特許>…</特許>」の文書オブジェ
クトツリーをXML文書に変換し、テンポラリファイル
Aに出力する(ステップS29)。
ファイルA(「tmp000.xml」)には、格納文
書である「特許」情報、すなわち、ここでは、「<特許
>…</特許>」が出力されている。また、「xmln
s=”x−schema:tmp001.xml”」と
いう、テンポラリファイルB(「tmp001.xm
l」)へのリンク情報の記述がある。
すように、テンポラリファイルBには、「#3」ノード
をトップノードとするスキーマの文書オブジェクトツリ
ーをXML文書に変換した結果が出力されている。
た合成文書と、図25に示したスキーマとで妥当性のチ
ェックを行ったとき、合成文書の文書構造と、スキーマ
により定義されている文書構造とは一致する、この場
合、ステップS11からステップS13へ進む。
ジェクトツリーが、文書オブジェクトOx0下に追加さ
れる。すなわち、文書格納部21により、格納文書の文
書オブジェクトツリーを構成する各文書オブジェクト
(のファイル)にオブジェクトIDが与えられ、文書オ
ブジェクトOx0から格納文書の文書オブジェクトツリ
ーの先頭の文書オブジェクトへリンクが張られる。そし
て、文書オブジェクトツリー格納部41により、格納文
書の文書オブジェクトツリーを構成する各文書オブジェ
クト(のファイル)が文書記憶部5に格納される。
ス記憶部6のインデックスを更新する。
Ox0のもつ属性値の値が「0」のときは、上述したス
キーマを用いた合成文書の文書構造の妥当性のチェック
を行わずに、そのままマステップS13へ進み、格納文
書の文書オブジェクトツリーを、文書オブジェクトOx
0下に追加し(ステップS13)、それに伴い、インデ
ックス記憶部6のインデックスを更新する(ステップS
14)。
作について、図26に示すフローチャートを参照して説
明する。
テムに対し、文書取得要求として、取得コマンド、スキ
ーマ取得コマンドのうちのいずれかが送信されて、要求
受付部11にて受け付けられたとき、図26に示した処
理動作を行う。
書の格納/削除画面上の領域W1の「特許DB」をマウ
ス等で選択すると(クリックすると)、構造化文書パス
の入力領域W2に、「uix://root/特許D
B」と表示されとともに、「getXML(“uix:
//root/特許DB”)」なる取得コマンドが構造
化文書管理システムへ送信される。
スが、図8に示した状態のときに、「getXML
(“uix://root/特許DB”)」なる取得コ
マンドを受け付けた場合を例にとり説明する。
け付けると、上記取得コマンド中のパラメータである構
造化文書パス「uix://root/特許DB」を文
書取得部22へ渡す(ステップS31)。
クトツリー取得部45へ構造化文書パスを渡す。パスか
ら文書オブジェクトツリー取得部45は、構造化文書パ
スから文書記憶部5中の物理的なエリアを特定すること
により、そのエリアに存在する構造化文書パスにて表さ
れたノード(文書オブジェクトOx5)を取り出す(ス
テップS32)。構造化文書パスの指定が正しければ、
文書オブジェクトOx5のオブジェクトIDを取得する
ことができるので(ステップS33)、その場合は、ス
テップS35へ進む。
2」ノードが文書オブジェクトOx5となるので、その
オブジェクトIDとして、「#2」を取得するととも
に、この「#2」ノード以下の文書オブジェクトツリー
Ot5(「#2」ノード、「#42」ノード〜「#4
9」ノード、「#52」ノード以下、「#62」ノード
以下)を取得する(ステップS35)。
化文書パスからそれに対応する文書オブジェクトOx5
が見つからなければ、エラーとなり(ステップS3
3)、文書取得部22,結果処理部12を介して、クラ
イアント端末に「文書取得失敗」の旨のメッセージを返
す(ステップS34)。
トツリーOt5は、文書文字列取得部44でXML文書
に変換される。例えば、上記取得コマンドの場合、取得
したXML文書は、図11に示すような3つの「特許」
情報のXML文書となる。
て、図11に示したようなXML文書を(例えば、XS
L(eXtensible Style Langua
ge)といった所定のスタイルシートとともに)、クラ
イアント端末へ返す(ステップS37)。
ML文書を、スタイルシートを用いてHTMLデータに
変換して、例えば、図36に示すように、領域W2に表
示する。
形に変換することが出来る。違う構文書造のXML文書
に変換することも出来るし、XML文書からHTMLペ
ージを生成することも出来る。
作について、図27に示すフローチャートを参照して説
明する。
テムに対し、文書削除要求として、削除コマンドが送信
されて、要求受付部11にて受け付けられたとき、図2
7に示した処理動作を行う。
書の格納/削除画面上の領域W1の「特許DB」をマウ
ス等で選択すると(クリックすると)、構造化文書パス
の入力領域W2に、「uix://root/特許D
B」と表示され、さらに、「削除」ボタンB2を選択す
ると「removeXML(“uix://root/
特許DB”)」なる削除コマンドが構造化文書管理シス
テムへ送信される。
スが、図14に示した状態のときに、「removeX
ML(“uix://root/特許DB/特許[0]
/出願日”)」なる削除コマンドを受け付けた場合を例
にとり説明する。
け付けると、上記削除コマンド中のパラメータである構
造化文書パス「uix://root/特許DB/特許
[0]/出願日」を文書削除部23へ渡す(ステップS
41)。
ブジェクトツリー取得部45へ構造化文書パスを渡す。
パスから文書オブジェクトツリー取得部45は、構造化
文書パスから文書記憶部5中の物理的なエリアを特定す
ることにより、そのエリアに存在する構造化文書パスに
て表されたノード(文書オブジェクトOx0)を含む文
書オブジェクトツリーを取り出す(ステップS42)。
構造化文書パスの指定が正しければ、文書オブジェクト
Ox0のオブジェクトIDを取得することができるので
(ステップS43)、その場合は、ステップS45へ進
む。
4」ノードが文書オブジェクトOx0となるので、その
オブジェクトIDとして、「#44」を取得するととも
に、この「#44」ノードを含む文書オブジェクトツリ
ー(例えば、「#44」ノードの全ての子孫ノードと
「#44」ノードと同じ階層にある全ての(兄弟)ノー
ドと、「#44」ノードの親ノードである「#42」ノ
ード、その親ノードである「#2」ノードとからなる文
書オブジェクトツリー)を取得する。
する文書オブジェクトOx0が見つからなければ、エラ
ーとなり(ステップS43)、文書格納部21,結果処
理部12を介して、クライアント端末に「文書削除失
敗」の旨のメッセージを返す(ステップS44)。
クトOx0にスキーマが存在するか否かを検査する。こ
の検査は、前述したように、各文書オブジェクトのファ
イルに属性値が記述されているので、この値をチェック
すればよい。文書オブジェクトOx0のもつ属性値の値
が「1」のときは、ステップS46へ進む。
成文書作成部47の処理(削除コマンド用))につい
て、図28に示すフローチャートを参照して詳細に説明
する。
は同一符号を付している。
した文書オブジェクトツリーを合成文書作成部47へ渡
す。
クトツリーを文書オブジェクトOx0から遡り、「Sc
hema」タグを子要素として持つ文書オブジェクトO
x1を検索する(ステップS21)。
ベースでは、文書オブジェクトOx0としての「#4
4」ノードの上流にある「#2」ノードから「Sche
ma」タグをトップ(先頭)にもつノード(「#3」ノ
ード)へのリンクが張られているので(「Schem
a」タグを子要素として持つので)、この「#2」ノー
ドが文書オブジェクトOx1となる。
ジェクトOx0、さらに文書オブジェクトOx0からア
ークを辿って、その下流にある、文書オブジェクトの属
性値の値が「1」である全ての子ノードからなる文書オ
ブジェクトツリーOt1を取り出す(ステップS2
3)。
の構造化文書パスが「uix://root/特許DB
/特許[0]/出願日」と指定されているとき、文書オ
ブジェクトツリーOt1は、「#42」ノード〜「#4
9」ノードから構成されたものとなる(図14参照)。
ェクトツリーOt1から文書オブジェクトOx0以下の
文書オブジェクトツリーを削除する。その結果得られた
新たな文書オブジェクトツリーを文書オブジェクトツリ
ーOt2とする。
L文書に変換し、それをテンポラリファイルAに出力す
る(ステップS27)。
の構造化文書パス「uix://root/特許DB/
特許[0]/出願日」が指し示す「#44」ノード以下
の文書オブジェクトツリーを「#42」ノード〜「#4
9」ノードで構成された文書オブジェクトツリーOt1
から削除することにより得られた合成文書の文書オブジ
ェクトツリーOt2をXML文書に変換した結果を図2
9に示す。この合成文書は、もともとある「特許」情報
から「<出願日>…</出願日>」というデータを削除
したものとなっている。
成文書がテンポラリファイルAに出力され、テンポラリ
ファイルAに一時格納される。
トツリーOt3をXML文書に変換して、それをテンポ
ラリファイルBに出力する(ステップS28)。すなわ
ち、テンポラリファイルBには、スキーマ文書が一時格
納されることになる。
ある「#3」ノードをトップノードとする文書オブジェ
クトツリーをXML文書に変換した結果を図30に示
す。図30に示したXML文書がテンポラリファイルB
に出力され、テンポラリファイルBに一時格納される。
書パーサ部46に、合成文書のテンポラリファイルAと
スキーマのテンポラリファイルBとを与えて、文書格納
処理の場合と同様にして、合成文書の文書構造の妥当性
をチェックする。
0に示したスキーマとで妥当性のチェックを行った場
合、合成文書には、スキーマにより定義されている「出
願日」という要素が存在しないため、図29の合成文書
は、妥当性のチェックでエラーとなる(ステップS4
8)。この場合、文書削除部21,結果処理部12を介
して、クライアント端末に「文書削除失敗」の旨のメッ
セージを返す(ステップS49)。
に示した状態のときに、「removeXML(“ui
x://root/特許DB/特許[0]”)」なる削
除コマンドを、図27に従って処理を行うと、図28の
ステップS27において、図24に示したような合成文
書がテンポラリファイルAに出力される。テンポラリフ
ァイルBは、図30と同様である。
30に示したスキーマとで妥当性のチェックを行った場
合、合成文書の文書構造と、スキーマにより定義されて
いる文書構造とは一致するので、ステップS48からス
テップS50へ進む。
x0以下の文書オブジェクトツリーを削除する。すなわ
ち、文書オブジェクトツリー削除部42により、文書オ
ブジェクトOx0以下の文書オブジェクトツリーを構成
する各文書オブジェクト(のファイル)が文書記憶部5
から削除される。例えば、「#2」ノードから「#4
2」ノード以下の文書オブジェクトのファイルが削除さ
れる。
ス記憶部6のインデックスを更新する。また、クライア
ント端末の図36に示したような表示画面の領域W1に
は、「特許[0]」が表示さなくなる。
トOx0のもつ属性値の値が「0」のときは、上述した
スキーマを用いた合成文書の文書構造の妥当性のチェッ
クを行わずに、そのままマステップS50へ進み、文書
オブジェクトOx0以下の文書オブジェクトツリーを削
除し(ステップS50)、それに伴う、インデックス記
憶部6のインデックスを更新する(ステップS51)。
いた文書格納 図31に示した画面上で、ユーザが「Schema設定
Win」をマウス等のポインティングデバイスなどを用
いて選択すると、図37に示したようなスキーマの設定
を行うためのユーザインタフェースとしての画面が表示
される。
示したような「特許」情報のスキーマを入力し、この入
力したスキーマを「特許DB」以下のノードに設定する
場合には、領域W1から「特許DB」をマウス等でクリ
ックして選択した後(領域W2には、「uix://r
oot/特許DB」が表示される)、「スキーマ設定」
ボタンB3を選択する。すると、「setSchema
(“uix://root/特許DB”,“<Sche
ma>…</Schema>”)」なるスキーマ格納コ
マンドが構造化文書管理システムへ送信される。このコ
マンドの処理は前述した文書格納処理動作と同様であ
る。
B」の下に「特許」情報を格納しようとするとき、「特
許DB」以下のノードに既に設定されているスキーマを
用いて「特許」情報を入力する場合について説明する。
8に示すような文書の格納/削除を行うための画面の領
域W1から「スキーマ」をマウス等を用いて選択する
と、文書パスの入力領域W2に、「uix://roo
t/特許DB/#Schema」と表示されとともに、
「getXML(“uix://root/特許DB/
Schema”)」なるスキーマ取得コマンドが構造化
文書管理システムへ送信される。
処理と同様である。構造化文書管理システムから返され
るXML文書は、図38の画面の領域W3に表示され
る。
許」情報のデータ入力領域が各要素毎に設定されて表示
されている。この表示に従って、ユーザは、データを入
力すればよい。例えば、「タイトル」、「年」などのデ
ータ入力領域が階層的に配置され、表示されている。ユ
ーザは、このデータ入力領域にデータを入力すること
で、スキーマにより定義された文書構造の格納文書が容
易に作成することができる。
格納先として、領域W1で「特許DB」をマウス等を用
いて選択すると、領域W2に構造化文書パスとして、
「uix://root/特許DB」が表示される。そ
の後、「登録」ボタンB1を選択すると、「appen
dXML(“uix://root/特許DB”,“<
特許>…</特許>”)」なる追加コマンドが構造化文
書管理システムへ送信される。
って入力されたものなので、図20のステップS10の
妥当性チェックでエラーとなることはない。
ドには以下のものがある。
qlを実行し、その結果のXML文書を取得するコマン
ド(以下、検索コマンドと呼ぶ)である。
(Structured QueryLanguag
e)に似た形式の言語により、検索位置、検索条件、情
報抽出部分などを記述した、構造化されたXML文書で
ある。クエリ文書も構造化文書管理システムの管理対象
である。
は、検索位置の指定と文書要素の値に変数を対応付ける
記述があり、「kf:where」タグのから始める要
素には、変数に関する条件づけの記述があり、「kf:
select」タグから始まる要素には、検索結果の出
力形式が記述される。
単純検索とは、クエリ中に指定された検索条件を満たす
情報を検索・抽出するものであり、概念検索とは、クエ
リ中に指定された概念情報を利用して、クエリ中に指定
された検索条件を満たす情報を検索・抽出するものであ
る。
ものである。図40のクエリは、例えば、図14に示し
たような状態の構造化文書データベースに対し、「特許
DB」アークが示すノード以下に格納されている「特
許」情報の文書群において、「1999年でかつ、「P
C」のような内容の「要約」という要素をもつ文書
(「特許」情報)の「タイトル」を列挙せよ」という検
索要求を意味している。
記述により、変数「$t」、「$y」、「$s」に、そ
れぞれ「特許」情報の「タイトル」、「年」、「要約」
という文書要素の値が代入される。
の記述により、変数「$y」=「1999」という比較
がなされる。また、コンポーネント「MyLike」は
変数「$s」と「PC」を引数として、「PC」と類似
する値の変数「$s」を検知するための関数である。
記述により、変数「$t」が出力値として利用される。
昧表現であり、例えば「<特許><kf:star><
年>」は「タグ名が「特許」である要素の子孫の要素と
していずれかに存在し、タグ名が「年」である要素」を
意味する。
た検索結果を示す。この検索結果もXML文書である。
ものである。図42のクエリは、例えば図18,図19
に示すような状態の構造化文書データベースに対し、
「特許DB」アークが示すノード以下に格納されている
「特許」情報の文書群に対し、「概念DB」アークが示
すノード以下に格納されている「概念」情報を利用して
検索するための検索要求である。ここで、概念「周辺装
置」の値をもつタグの子要素の値には、概念「SCS
I」、「メモリ」、「HDD」などがあるものとする。
また、図18には示していないが、各「特許」情報の構
成要素には、「キーワード」タグから始める要素も存在
するものとする。
辺装置」以下の概念のいずれかを「キーワード」という
要素の値にもつ文書(「特許」情報)の「タイトル」を
列挙せよ」という検索要求を意味している。
記述により、変数「$t」、変数「$k」に、それぞ
れ、「特許」情報の「タイトル」、「キーワード」とい
う要素の値が代入される。また、変数「$x」は「概
念」情報として「周辺装置」の値をもつタグの子要素の
値(「SCSI」、「メモリ」、「HDD」など)が代
入される。
の記述により、「$k」=「周辺装置」もしくは「$
k」=「$x」という比較がなされる。
書検索処理動作について、図43に示すフローチャート
を参照して説明する。
L検索Win」をマウス等のポインティングデバイスな
どを用いて選択すると、図44に示すような文書検索を
行うためのユーザインタフェースとしての画面が表示さ
れる。
は、前述同様、構造化文書データベースの現在のツリー
構造の要素名(タグ名)がユーザが理解可能なように簡
略的に表示されてている。
上の検索範囲)や、検索条件などを入力するための領域
である。領域W3には、検索結果が表示される。
の「特許」を先頭タグに持つ文書の中から、「タイト
ル」タグに「文書」という文字列を含み、「1998」
年以降に作成された文書を検索せよ」という検索要求の
場合には、領域W1から「root」をマウス等で選択
して検索対象の範囲として、構造化文書パスを入力す
る。そして、トップノードとして、「特許」を入力する
(この場合、領域W1から「特許」をマウス等で選択す
ることにより入力してもよい)。また、検索条件とし
て、「「タイトル」という要素の値に「文書」という文
字列を含む」「「年」という要素の値が「1998」以
上である」という内容を予め設定されたデータ入力領域
に入力すればよい。
ことにより、例えば、図45に示すようなクエリが、当
該クエリを構造化文書データベース上に格納するための
追加コマンドとともに構造化文書管理システムへ送信さ
れる。クエリの格納場所は、予め定められており、シス
テム側が自動的に、この追加コマンドのパラメータを設
定することとなる。例えば、構造化文書データベースが
図18に示した状態のとき、当該クエリの格納場所を表
すパラメータとしての構造化文書パスは、「uix:/
/root/クエリDB」となる。また、追加コマンド
のもう一方のパラメータは、当該クエリ文書である。
ると(ステップS101)、当該クエリを検索要求処理
部3へ渡す。そして、当該クエリ文書を格納するための
追加コマンドのパラメータを文書格納部21へ渡す。こ
の追加コマンドの処理を、前述同様に行って、当該クエ
リは、文書記憶部5に格納される。
合、構造化文書データベースには、図46に示すように
展開されて、構造化文書パス「uix://root/
クエリDB」の示す「#301」ノード以下にリンクさ
れる。
クエリを基に、データアクセス部4を通してインデック
ス記憶部6,文書記憶部5にアクセスし、検索要求に合
致する文書集合などを取得して、クエリの中で要求され
た情報を抽出して結果処理部12を介して出力する。
イトル」タグに「文書」という文字列を含む」という条
件に合致するものを検索することが検索対象を絞り込む
上で効率がよい。そこで、図10に示したようなデータ
生起インデックスを用いて、「文書」という文字列にリ
ンクされているノード(文書オブジェクト)のオブジェ
クトIDを得る。そして、そのそれぞれについて、文書
オブジェクトツリーを上流側に1つ遡り、「タイトル」
というタグ名にたどり着いたときは、更に上流に辿って
いき、「特許」というタグ名にたどり着いたときは、そ
のノード以下の文書オブジェクトツリーOt11を抽出
する。
クトツリーOt11の中から、さらに、「年」という要
素の値が「1998」年以上の文書オブジェクトツリー
Ot12を抽出する。
記クエリの内容に適合する文書となる。さらに上記クエ
リの要求内容に従えば、各文書オブジェクトツリーOt
12のトップノードへの構造化文書パスを求める(ステ
ップS102)。
るものではなく、インデックス情報を用いた様々な効率
のよい検索方法が可能である。
得られた結果を統合して、検索結果としてのXML文書
を作成する(ステップS103)。
を介して、上記XML文書をスタイルシートとともに、
要求元のクライアント端末に返す(ステップS10
4)。
ML文書を、スタイルシートを用いてHTMLデータに
変換して、例えば、図44に示すように、領域W12に
表示する。
の「schema」を先頭タグに持つ文書の中から、
「特許」と「要約」というタグ名を持つスキーマを検索
せよ」という検索要求の場合には、図47に示すよう
に、領域W1から「root」をマウス等で選択して検
索対象の範囲として、構造化文書パスを入力する。そし
て、トップノードとして、「#schema」を入力す
る。また、検索条件として、「要素の属性名に「特許」
という文字列を含む」「要素の属性名に「要約」という
文字列を含む」という内容を予め設定されたデータ入力
領域に入力すればよい。
ことにより、上記検索要求を記述したクエリ(図48参
照)が、当該クエリを構造化文書データベース上に格納
するための追加コマンドとともに構造化文書管理システ
ムへ送信される。
schema」を先頭タグに持つ」という条件に合致す
るものを検索する。そこで、図9に示したような要素名
称生起インデックスを用いて、「#schema」とい
う要素にリンクされているノードの(文書オブジェク
ト)のオブジェクトIDを得る。そして、そのそれぞれ
について、文書オブジェクトツリーを下流側にアークを
辿っていき、属性名が「特許」と「要約」という要素に
たどり着いたときは、当該「#schema」を先頭タ
グにもつ文書オブジェクトツリーOt21を抽出する。
この文書オブジェクトツリーOt21が上記クエリの内
容に適合する文書となる。さらに、図48に示したクエ
リの要求内容に従えば、各文書オブジェクトツリーOt
21のトップノードへの構造化文書パスを求める。
リーOt21が複数あれば、それぞれのトップノードへ
の構造化文書パスをまとめて、検索結果としてのXML
文書を作成し、検索結果処理部12を介して、上記XM
L文書をスタイルシートとともに、要求元のクライアン
ト端末に返す。
け取ったXML文書を、スタイルシートを用いてHTM
Lデータに変換して、例えば、図44に示すように、領
域W12に表示する。
つのスキーマを選択して、表示させると、例えば、図3
8に示すような文書の格納/削除を行うための画面とと
もに、その領域W3に、「特許」情報のデータ入力領域
が各要素毎に設定されて表示される。
入力することで、スキーマにより定義された文書構造の
格納文書が容易に作成することができる。
許」情報の格納先として、領域W1で「特許DB」をマ
ウス等を用いて選択すると、領域W2に構造化文書パス
として、「uix://root/特許DB」が表示さ
れる。その後、「登録」ボタンB1を選択すると、「a
ppendXML(“uix://root/特許D
B”,“<特許>…</特許>”)」なる追加コマンド
が構造化文書管理システムへ送信される。
って入力されたものなので、図20のステップS10の
妥当性チェックでエラーとなることはない。
リを検索して、検索結果として得られた既存のクエリを
加工して、再利用することもできる(クエリの再利
用)。
書の検索と同様にして行われ、その検索範囲は、クエリ
群の格納されている構造化データベース上の一部の文書
オブジェクトツリーとなる。
化文書データベースから、「kf:from」タグに
「特許DB」を含むクエリを検索する場合について説明
する。そのような検索要求を記述したクエリを図49に
示す。
root/クエリDB」の示す「#301」ノード以下
に存在するクエリの中から「kf:from」タグに
「特許DB」を含むクエリを検索し、その内容(タグ名
が「query」である要素以下の文書オブジェクトツ
リーの文書)を列挙せよ」を意味するものである。
「$elt」に、「kf:from」タグに「特許D
B」を含むクエリのタグ名が「query」である要素
以下の文書オブジェクトツリーが代入される。
際には、前述同様にして、例えば、図9に示したような
要素名称生起インデックスを用いて、「kf:fro
m」という要素にリンクされているノードの(文書オブ
ジェクト)のオブジェクトIDを得る。そして、そのそ
れぞれについて、文書オブジェクトツリーを下流側にア
ークを辿っていき、「特許」というタグ名にたどり着い
たときは、さらに、上流側にアークを辿って「quer
y」というタグ名に辿りついたとき、当該「quer
y」を先頭タグにもつ文書オブジェクトツリーOt31
を抽出する。この文書オブジェクトツリーOt31が上
記クエリの内容に適合する文書となる。
検索されたら、それらを統合して、XML文書を作成し
て、それをスタイルシートとともにクライアント端末へ
返す。
つのクエリを選択して、表示させると、例えば、図44
に示した検索画面の領域W11に、各データ入力領域に
データの入力された状態で、当該クエリに記述された検
索要求の内容が表示される。
/root」以下の「特許」を先頭タグに持つ文書の中
から、「タイトル」タグに「文書」という文字列を含
み、「1998」年以降に作成された文書を検索せよ」
という当該クエリに記述された検索要求中の「文書」を
「XML」に変更して、「検索」ボタンB21を選択す
れば、「「uix://root」以下の「特許」を先
頭タグに持つ文書の中から、「タイトル」タグに「XM
L」という文字列を含み、「1998」年以降に作成さ
れた文書を検索せよ」という意味のクエリが構造化文書
管理システムへ送信される。
理システムでは、構造化文書データベース上に登録され
る文書構造が異なる膨大な数のXML文書群(コンテン
ツ文書、スキーマ文書、クエリ文書など)を、図18,
図19に示すように、「root」タグを先頭に持つツ
リー状の1つの巨大なXML文書として取り扱う。従っ
て、文書構造が異なる、様々なスキーマを持つ膨大な数
の文書の中から検索条件に合致する文書を容易に検索で
きる。
あるので、構造化文書データベースにログとして格納す
ることにより、過去のクエリを再利用するようなアプリ
ケーションも容易に構築することができる。
する。
ータベースの一例であり、「特許」情報の他に、「概
念」情報も格納している。
作業は、関連する「特許」情報を収集し、「特許」情報
を様々な観点から分析し、特許マップ(図54参照)を
作成することである。特許マップを作成するために、従
来、特許マップにおける縦軸、横軸を予め決定し、それ
に従い、縦軸に並ぶ任意の項目と横軸に並ぶ任意の項目
とを検索条件とした検索を逐次行うという方法がとら
れ、この部分に非常に莫大なコストがかかっていた。し
かし、構造化文書管理システムを用いることで、この部
分のコストを大幅に減少させることが可能となる。
に並ぶ任意の項目と横軸(x軸)に並ぶ任意の項目とを
検索条件とした検索結果をx軸とy軸とを分類軸として
分類整理するものである。
端末のユーザが図54に示すような特許マップを作成し
ようとする場合、ユーザは、クライアント端末上の表示
装置に表示される図50に示すような構造化文書データ
ベースの現在のツリー構造を参照して、図51に示すよ
うな検索画面上に、分析対象の範囲とする「特許」情報
のパスと、分析の軸(例えば、x軸、y軸)となる要素
を、それぞれ領域W21、W22に入力する。分析の軸
となる要素は、構造化文書データベース内の「特許」情
報の要素、「概念」情報の要素のいずれであってもよ
い。
軸に「技術」という「概念」情報の要素を入力してい
る。
を選択すると、クライアント端末から図1の構造化文書
管理システムへ、図52に示したようなクエリが送出さ
れる。
ークが示すノード以下に格納されている「特許」情報の
文書群の中から、「概念DB」アークが示すノード以下
に格納されている、概念「機能」の子要素のいずれかと
概念「技術」の子要素のいずれかとを、「キーワード」
や「要約」などの要素の値に含む「特許」情報を検索せ
よ。検索結果として、「機能」の子要素と「技術」の子
要素と、それらに対応する「特許」情報の「公開番号」
との組を列挙せよ。」という意味の検索要求である。
「分析支援」という子要素があり、概念「技術」には、
「実装データベース」「反構造データベース」「自然言
語処理」…という子要素があるものとする。
ムの検索要求処理部3では、例えば、図10に示したよ
うなデータ生起インデックスを用いて、概念「機能」の
各子要素(文字列)にリンクされているノード(文書オ
ブジェクト)のオブジェクトIDを得る。そして、その
それぞれについて、文書オブジェクトツリーを上流側に
遡り、「特許」というタグにたどり着いたときは、さら
に、そのノード以下の文書オブジェクトツリーを下流側
に辿って概念「技術」の子要素(文字列)のいずれかに
リンクされているタグ名にたどり着いたときは、当該文
書オブジェクトツリーと、その「公開番号」タグにリン
クされている文字列(要素値)を抽出する。このように
して、抽出された「特許」情報のそれぞれについて、対
応の「機能」の子要素と「技術」の子要素と「公開番
号」との組を統合して、図53に示すような検索結果と
してのXML文書を作成、要求元のクライアント端末
へ、所定のスタイルシートとともに返す。
示装置には、図54に示したような表形式の特許マップ
が表示されることになる。
定するだけで、構造化文書データベースに蓄積された情
報を「軸」として指定された概念に基づき集計・分類し
て、マップ表示するこたが容易に行える。すなわち、構
造化文書データベースに蓄積された情報を、「概念」情
報を用いて様々な観点で集計・分類することが容易に行
える。
下、本発明の実施形態について、図面を参照して説明す
る。
理システムの構成例を示したものである。なお、図1と
同一部分には同一符号を付し、異なる部分についてのみ
説明する。すなわち、図55では、検索要求処理部3は
類似検索処理部201を有し、さらに、この類似検索処
理部201には、意味ネットワーク記憶部200に記憶
されている意味ネットワーク、インデックス記憶部6に
記憶されているデータ生起インデックスや要素名生起イ
ンデックス、文書記憶部5を参照しながら、処理を実行
するような構成になっている。
を示したもので、クエリ解析部203と、クエリ条件処
理部204と、クエリ出力処理部205とから構成され
ている。
受け付けられたユーザからの検索要求であるクエリを入
力とし、入力したクエリを解析して、クエリ条件グラフ
とクエリ出力テンプレートを生成する。
されている検索対象(所望する構造化文書)の検索条
件、すなわち、 ・構成要素の名称(要素名)に関する条件 ・構成要素間の条件 ・構成要素の値に関する条件 などをグラフ形式で展開したものである。
に記述されている検索結果の出力形式、すなわち、 ・抽出・出力する構成要素 ・出力する構成要素の構造パターン などをグラフ形式で展開したものである。
フとクエリ出力テンプレートが出力される。
ラフを入力として、クエリ中に発生する検索条件を考慮
して、構造化文書データベース中に格納されている各種
データの組み合わせを作成する。この組み合わせを記述
したものをバインドテーブルと呼ぶ。
理部204にて最終的に作成された最終バインドテーブ
ルとクエリ出力テンプレートを入力とする。
テーブルに基づき、検索結果として構造化文書ののXM
Lデータを作成する。その際、検索された構造化文書の
集合は類似度の高い順からソートされてXML形式で出
力される。
に構造化文書の集合となるが、複合検索や概念検索の場
合には検索された構造化文書の一部の構成要素だけが抽
出される。この場合も、上記同様、構成要素の集合は類
似度の高い順からソートされてXML形式で出力され
る。
例を示したものである。クエリ条件グラフを入力として
オペレータ適用部211にて基本オペレータを適用可能
な限り繰り返し適用し、中間バインドテーブルを順次作
成していく。
入出力とする関数であるが、図57の基本オペレータ部
212の各構成部213〜219では、上記関数に対応
する各処理を行うものである。
関連する語彙を語彙間の類似度とともにバインドテーブ
ルとして出力する。
憶部6に記憶されているデータ生起インデックス(以
下、簡単に語彙インデックスと呼ぶ)を用いて、構造化
文書データベース中に語彙の発生位置(格納位置(ロケ
ーション)であって、具体的には、例えば、構造化文書
データベースの階層木の各ノードに与えられたオブジェ
クトID)の集合を生成して、入力バインドテーブルを
展開して新たなバインドテーブルを作り出す。
憶部6に記憶されている要素名生起インデックス(以
下、簡単に構造インデックスと呼ぶ)を用いて、構造化
文書データベース中の要素の発生位置(格納位置(ロケ
ーション)であって、具体的には、例えば、構造化文書
データベースの階層木の各ノードに与えられたオブジェ
クトID)の集合を生成して、入力バインドテーブルを
展開して新たなバインドテーブルを作り出す。
つの入力バインドテーブル中に複数の同じレコード(各
カラムに同じ値)があるときは、それらを1つに集約し
て新たなバインドテーブルとして作り出す。
入力バインドテーブル中のあるカラムに関して結合(J
OIN)して新たな1つのバインドテーブルを作り出
す。
ン(具体的には、例えば、ノード)に存在する要素から
ルート(「root」)のある上流方向に遡り、その要
素の親を含めた先祖要素まで組み合わせを生成して新た
なバインドテーブルを作り出す。
ン(具体的には、例えば、ノード)に存在する要素から
下流方向に下って、その要素の子を含めた子孫要素まで
組み合わせを生成して新たなバインドテーブルを作り出
す。
例を示したものである。クエリ出力テンプレートと最終
バインドテーブルを入力として、ソート部222で類似
計算を行ってソートし、XML出力処理部221にてそ
のソート順でXML形式のデータである検索結果を作り
出す。
に記憶されている意味ネットワークを模式的に示したも
のである。意味ネットワークとは、語彙の間の類似関係
をグラフで表現したものであり、類似関係のある語彙と
語彙をアークで結び、その語彙間の類似度の値をアーク
に与えて、語彙間のネットワークを構成しているもので
ある。例えば、「構造化文書」や「XML」などの語彙
があったとする。図59に示した意味ネットワークか
ら、「構造化文書」と「XML」の類似度は「0.8」
となっている。なお、ここでは、類似度の値は「0」か
ら「1」までの値を取るものとする。また、アークに与
えた2つの語彙間の類似度をアークウェイトと呼ぶ。
文書データベースの構造化文書の格納状態を模式的に示
したものである。
は、「論文」情報と「特許」情報と「文献」情報が、そ
れぞれ「#1」ノードを先頭とする文書オブジェクトツ
リーとして格納されている。また、同様にして、「#
1」ノード以下には「#40」ノードを先頭とする文書
オブジェクトツリーとして「PAPER」情報が格納さ
れ、「#50」ノードを先頭とする文書オブジェクトツ
リーとして「論文」情報が格納されている。
報、「特許」情報、「文献」情報を、XML形式で表し
たものを、それぞれ図61〜図63に示す。また、「#
40」ノード以下に格納されている「PAPER」情
報、「#50」ノード以下に格納されている「論文」情
報を、XML形式で表したものを、それぞれ、図64〜
図65に示す。
L文書を登録して行くと大きなXML文書として参照で
きるようになっている。その大きなXML文書のルート
タグが<root/>というものである。
ースを対象として説明を行う。
例を示したものである。図66に示したクエリは「XM
LやSGMLをタイトルに含む論文のタイトルと要旨を
検索し一覧にせよ」という内容のものであるが、第1の
実施形態で説明した(通常の)クエリと異なるのは、図
66に示したクエリ中の検索条件を該検索条件で指定さ
れた構成要素や、その値の類似範囲まで拡大解釈(緩
和)する点である。そのために(類似検索であることを
システム側に知らせるために)、図66に示したクエリ
では、検索条件を類似範囲にまで広げるための類似検索
特有の記述がなされている。
の<kfsim:select>には、検索結果を類似
度でソートして出力するための記述である。
素および構造の類似する範囲まで検索条件を広げるため
のもので、例えば、図66のクエリの場合、当該クエリ
にて指定した<論文>以下の構造(すなわち、「論文」
要素の子要素として「タイトル」と「要素」が存在する
という構造)に類似するものを、指定された構造化文書
パス(図66のクエリの場合「uix://roo
t」)以下の範囲から検索するための記述がなされてい
る。
似範囲まで検索条件を広げるためのもので、例えば、構
造化文書の構成要素の値が代入される変数「$t」が
「param2」で指定された語彙(群)(例えば、図
66のクエリの場合「XML」「SGML」)、あるい
はこれらに類似する語彙群を含む旨の記述がなされてい
る。
いるために、上記クエリは、クエリ解析部203におい
て、「「XML」や「SGML」、あるいは、「XM
L」や「SGML」に類似する語彙を「タイトル」ある
いは「タイトル」に類似する構成要素、あるいは、「タ
イトル」、「タイトル」に類似する構成要素に包含され
る構成要素の値に含み、この「タイトル」あるいは「タ
イトル」に類似する構成要素を包含する「論文」あるい
は「論文」に類似する構成要素(構造化文書)検索し、
その結果得られた構造化文書中の「タイトル」あるいは
「タイトル」に類似する構成要素と、「要旨」あるいは
「要旨」に類似する構成要素の値を一覧にせよ」という
内容に解釈される。
た図66に示した類似検索のクエリが図55の構造化文
書管理システムの要求受付部11にて受け付けられる
と、当該類似検索のクエリは、検索要求処理部3の類似
検索処理部201に送られる。
3は、図66に示した類似検索のクエリから図67に示
したようなクエリ条件グラフと、図68に示したような
クエリ出力テンプレート(クエリ出力グラフとも呼ぶ)
を生成する。
1〜A6について説明する。
る)「論文」およびこのタグ名に類似するタグ名の構成
要素(群)を変数「$1」に対応させる。「SIMTA
G」にてタグ名「論文」の類似範囲まで検索条件を広げ
ている。
るタグ名の構成要素の下にある(包含する)、「タイト
ル」およびこのタグ名に類似するタグ名の構成要素
(群)を変数「$2」に対応させる。「SIMTAG」
にてタグ名「タイトル」の類似範囲まで検索条件を広げ
ている。
るタグ名の構成要素の下にある(包含する)、「要旨」
およびこのタグ名に類似するタグ名の構成要素を変数
「$3」に対応させる。「SIMTAG」にてタグ名
「要旨」の類似範囲まで検索条件を広げている。
似するタグ名の構成要素、あるいはその構成要素に包含
される構成要素の値には変数「$t」に対応する値を含
む。
るタグ名の構成要素、あるいはその構成要素に包含され
る構成要素の値を変数「$a」に対応させる。
GML」、およびこれらの語彙に類似する語彙を含む、
構成要素の値を対応させる。「SIMCMP」にて語彙
「XML」「SGML」の類似範囲まで検索条件を広げ
ている。
件で指定された構成要素と語彙と文書構造(構成要素や
語彙発生位置の文書構造上の位置関係)をもつ構造化文
書および、該検索条件で指定された構成要素と語彙と文
書構造に類似する構成要素と語彙と文書構造をもつ構造
化文書の文書構造を表したものである。
値に対応する上記各変数は丸で囲まれている。文書構造
上の包含関係にある構成要素と構成要素、および、構成
要素と値とにそれぞれ対応する変数間は、6角形の接続
記号で接続する。変数と変数とを接続記号で接続するこ
とにより、「この接続記号の前段にある構成要素に包含
される構成要素のいずれかに後段にある構成要素があれ
ばよい」というように、クエリにある検索条件で指定さ
れた文書構造上の条件を緩和している。
<kfsim:from>タグ以で、「論文」要素の子
要素として「タイトル」と「要旨」が存在するという構
造が指定されているが、この指定された文書構造の条件
を緩和すると、「「論文」要素のいずれかに「タイト
ル」という要素と「要旨」という要素が存在する」とい
う条件となる。この緩和された文書構造をクエリ条件グ
ラフで表すと、図67に示したように、「論文」タグお
よびそれに類似するタグに対応する変数「$1」と、
「タイトル」タグおよびそれに類似するタグに対応する
変数「$2」とが上記接続記号で接続され、同様に、変
数「$1」と、「要旨」タグおよびそれに類似するタグ
に対応する変数「$3」とが上記接続記号で接続されて
いる。
するXML文書の構造(パターン)を表したものであ
る。すなわち、図68において、変数「$t」の値を
「TITLE」というタグ名の構成要素の値とし、ま
た、変数「$a」の値を「ABST」というタグ名の構
成要素の値とし、「PAPER」というタグ名の構成要
素は、これら2つの構成要素から構成する旨を表してい
る。さらに、「Repeat」ノード以下の上記文書構
造を(検索した構造化文書の数だけ)繰り返すことも表
している。
いて、図69に示すフローチャートを参照して説明す
る。なお、ここでキーワードとは、類似検索のクエリに
検索条件として指定された構成要素名(タグ名)とその
値である。たとえば、「論文」「タイトル」「要旨」
「XML、SGML」である。
とし、種キーワード集合とする。例えば、「XML、S
GML」が入力されたとする。
各キーワードの語彙ウェイトを「1.0」にセットす
る。例えば、「XML」と「SGML」の語彙ウェイト
をそれぞれ「1.0」にする(図70参照)。
意味ネットワークを一段展開する。種キーワード群から
展開元のキーワードを削除する。例えば、図71に示し
たように、「構造化文書」、「マークアップ言語」など
が得られる。
ド群の各キーワードに対して語彙ウェイトをセットす
る。展開されたキーワードの語彙ウェイトが未設定であ
れば、そのキーワードの語彙ウェイトを(種キーワード
の語彙ウェイト)×(アークウェイト)とし、そうでな
く設定済であれば、(種キーワードの語彙ウェイト)×
(アークウェイト)と、当該設定されている語彙ウェイ
トの大きい方を当該キーワードの語彙ウェイトとして更
新する。例えば、「構造化文書」と「マークアップ言
語」は、前者の場合で、「0.8」となる(図71参
照)。
定、更新があれば、そのキーワードを種キーワード集合
に追加する。例えば、ここでは、「構造化文書」、「マ
ークアップ言語」を新たな種キーワード集合とする。
空にでないなるまで、ステップS203〜ステップS2
05の処理を繰り返す。例えば、ここでは、新たな種キ
ーワード集合は「構造化文書、マークアップ言語」であ
るので、ステップS203へ戻る。
ークアップ言語」に対し、ステップS203〜ステップ
S205を繰り返すことにより、図72に示すように、
新たな類似語として、「HTML」(語彙ウェイト=
0.8×0.8=0.64)、「構造文書」(語彙ウェ
イト=0.8×0.5=0.4)、「半構造化文書」
(語彙ウェイト=0.8×0.8=0.64)が得ら
れ、さらに、図73に示すように、これらを種キーワー
ド群として、ステップS203〜ステップS205を繰
り返すことにより、図73に示すように、新たな類似語
として、「セミストラクチャードドキュメント」(語彙
ウェイト=0.64×1.0=0.64)が得られる。
ステップS206を繰り返すことで、図74(a)に示
すように、「XML、SGML」に類似する語彙を語彙
ウェイトとともに得られることになる。
旨」についても、これらに類似する語彙を語彙ウェイト
とともに求めた結果を、図74(b)〜図74(d)に
それぞれ示す。
5を参照して説明する。
「#y」、そのさらに親要素「#z」、そのさらに親要
素「#w」があるとする。仮に要素「#x」から1段上
の要素が検索条件にて指定されていたとき、各要素{#
y,#z,#w}に対する構造に関する類似度を考え
る。この場合、検索条件にマッチする要素「#x」の1
段上の要素「#y」には、最も高い類似度を与えること
となる。そこで、構造に関する類似度を構造に関する類
似度=1.0/段数(上記指定した段数と各要素の存在
する所の段数との差)として定義する。つまり、 要素「#y」の構造に関する類似度は、1.0/1 要素「#z」の構造に関する類似度は、1.0/2=
0.5 要素「#w」の構造に関する類似度は、1.0/3=
0.3 である。「1.0」が最も類似度が高い。
ラフから以下示すような処理を行う。すなわち、入力し
たクエリ条件グラフに対して、適用可能な基本オペレー
タを繰り返し実行する。
索条件を広げることが可能なときは、類似語展開部21
3で類似語展開を行う。
検索条件を広げることが可能なときは、類似語展開部2
13で類似語展開を行う。
発生展開部214で語彙発生展開を行う。
索条件を広げることが可能なときは、構造発生展開部2
15で構造発生展開を行う。
発生展開部218で上位発生展開を行う。
発生展開部219で下位発生展開を行う。
ドテーブルが同じ変数のカラム持つとき、バインドテー
ブル結合部217で複数の(例えば2つの)中間バイン
ドテーブルを結合する。
変数のカラムに同じ値(例えばノード)が存在するとき
は、バインドテーブル値集約部216でバインドテーブ
ル値を集約する。
実行することで、最終的に1つのバインドテーブル、す
なわち、最終バインドテーブルが作成される。この最終
バインドテーブルについて、最終的な類似度計算を行
う。
動作について、図66に示した類似検索のクエリの場合
を例にとり、図76に示すフローチャートを参照して、
より具体的に説明する。
する処理手順(ステップQ1〜Q12)を示している。
図77も適宜参照して説明を行う。
うなクエリ条件グラフが入力すると(ステップS21
1)、意味ネットワークを用いて、語彙の類似語展開、
タグ名についての類似語展開を行う(ステップS21
2,ステップS213、図77のステップQ1)。その
結果が図78である。
L」に類似する語彙とその語彙ウェイト、タグ名「タイ
トル」「論文」「要旨」のそれぞれについても、これら
に類似する語彙(タグ名)とその語彙ウェイトとが得ら
れている。なお、図78に示した各テーブルを中間バイ
ンドテーブルとしてもよい。この場合、これはカラムが
1個の中間バインドテーブルである。バインドテーブル
のカラムデータは、語彙あるいはロケーション(ノー
ド)と類似度のペアである。図78の場合、語彙と類似
度のペアとなっている。「XML」と「SGML」に類
似する語彙を語彙ウェイトとともにレコード化してい
る。
「XML、SGML」に類似する語彙とその語彙ウェイ
トについて、語彙発生展開を行う(ステップS21
4)。
ベースは、図60に示すように単純な構造であるので、
データ生起インデックスを見るまでもなく、図60に示
すデータベースの構造のみからでも容易に語彙や、タグ
名の存在するノードがわかるので、図60を参照して説
明する。
と、例えば、語彙「XML」が発生している要素は、オ
ブジェクトID「#13」、「#14」…「#55」の
ノードである。従って、これらノード群と類似度とを対
にして、列挙する。その他の語彙についても同様に、当
該語彙が発生しているノードと、その語彙の類似度とを
対にして列挙し、図79に示したような中間バインドテ
ーブルB1を作成する。これがクエリ条件グラフ中の変
数「$t」の候補となる(図77のステップQ2)。
「タイトル」や「要旨」や「論文」などの構成要素が指
定されている。
インデックスを用いて構造発生展開を行う(ステップS
215)。
果(図78参照)から、「タイトル」およびそれに類似
するタグ名をもつ構成要素のノードは、「#13」、
「#22」、「#31」…「#45」である。従って、
これらノード群と類似度とを対にして、列挙し、図80
に示したような中間バインドテーブルB2を作成する。
これがクエリ条件グラフ中の変数「$2」の候補となる
(図77のステップQ3)。
(図78参照)から、「要旨」およびそれに類似するタ
グ名をもつ構成要素のノードは、「#14」、「#4
6」、「#58」、「#32」である。従って、これら
ノード群と類似度とを対にして、列挙し、図81に示し
たような中間バインドテーブルB3を作成する。これが
クエリ条件グラフ中の変数「$3」の候補となる(図7
7のステップQ4)。
(図78参照)から、「論文」およびそれに類似するタ
グ名をもつ構成要素のノードは、「#10」、「#5
1」、「#41」、「#30」である。従って、これら
ノード群と類似度とを対にして、列挙し、図82に示し
たような中間バインドテーブルB4を作成する。これが
クエリ条件グラフ中の変数「$1」の候補となる(図7
7のステップQ5)。
示した中間バインドテーブルB1をスキャンしてみる
と、変数「$t」のカラムに同じノードのレコードが複
数存在している。例えば、「#13」「#45」であ
る。そこで、図83に示したように、バインドテーブル
値集約部216にて、当該中間バインドテーブルB1の
値を集約して、新たな中間バインドテーブルB5を作成
する(ステップS216、図77のステップQ6)。
あれば、類似度を計算し直して、1レコードに集約す
る。ここでの類似度の計算は、例えば、各レコードの類
似度の最大値をとることとする。
らかなように、下流にある変数「$t」のカラムを持つ
中間バインドテーブルB5に対し、上位発生展開を行う
(ステップS217)。
ーブルB5中の各レコードを参照して、構造化文書デー
タベースの各レコードのノード位置からその親ノード、
さらにその親ノードへと上流へと遡り、該当のノードを
収集する。この収集したノード群をクエリ条件グラフ中
の変数「$2」の候補とし、図84に示すように、新た
な中間バインドテーブルB6を作成する(図77のステ
ップQ7)。
「#13´」のレコードについては、構造化文書データ
ベース中の当該ノード位置「#13」からその親ノード
(ノード「#13」から見て1段上の親ノード)である
「#10」が得られる。さらに、その親ノード(ノード
「#13」から見て2段上の親ノード)が存在するとき
は、その親ノードのオブジェクトIDも取得する。ただ
し、ルート「root」ノード「#1」は除く。
「#45´」のレコードの場合は、構造化文書データベ
ース中の当該ノード位置「#45」からその親ノード
(ノード「#45」から見て1段上の親ノード)である
「#42」、さらに、その親ノード(ノード「#45」
から見て2段上の親ノード)である「#41」、さらに
その親ノード(ノード「#45」から見て3段上の親ノ
ード)である「#40」が得られる。ノード「#40」
の親ノードは「#1」であるので、ここでストップす
る。
得られたノードの類似度は、前述した構造に関する類似
度を用いる。
索条件としては、変数「$t」は「タイトル」タグを持
つ構成要素の値として定義されているから(図67のA
4に相当)、前述した構造に関する類似度を適用して、
変数「$2」に対応するノードと変数「$t」に対応す
るノードが等しいとき、当該変数「$t」に対応するノ
ードの構造に関する類似度として「1.0/1=1.
0」、変数「$2」に対応するノードが変数「$t」に
対応するノードより1段上の親ノードであるときは当該
変数「$t」に対応するノードに「1.0/2=0.
5」、2段上の親ノードであるときは「1.0/3=
0.3」…と与える。
各レコードについて、その1段上の親ノード、2段上の
親ノード、3段上の親ノード、…と求めていき、そのそ
れぞれについて、上記構造に関する類似度を対にしてレ
コード化する。これがクエリ条件グラフ中の変数「$
2」の候補となる(図77のステップQ7)。
で、この中間バインドテーブルB6と、中間バインドテ
ーブルB2には、同じ変数「$2」のカラムを持つこと
となるので、次に、バインドテーブル結合部217で、
この2つの中間バインドテーブルを1つに結合する(ス
テップS218)。
2」という共有するカラムについて結合演算を行ってい
る。これは通常のデータベースの結合(JOIN)演算
とほぼ同じであるが、類似度についても考慮し、類似度
同士を掛け合わせを行っている点で異なる。
ードのうち、変数「$2」のカラムにある値が中間バイ
ンドテーブルB2のレコードに存在するもののみを残し
て、上記のように類似度を計算し直して(双方の中間バ
インドテーブル中の変数「$2」のカラムにある同じノ
ード対応の類似度同士を掛け合わせる)、新たな中間バ
インドテーブルB7を作成する(図77のステップQ
8)。
位発生展開を行い、図86に示すような、クエリ条件グ
ラフの変数「$1」の候補となるノードを列挙したカラ
ムを追加した新たな中間バインドテーブルB8を作成す
る(ステップS217、図77のステップQ9)。
して挙げれた各ノードの構造に関する類似度について簡
単に説明する。
索条件としては、「タイトル」タグを持つ構成要素は、
「論文」タグを持つ構成要素の1段下の子要素として指
定されているから(図67のA2に相当)、前述した構
造に関する類似度を適用して、変数「$1」に対応する
ノードが変数「$1」に対応するノードより1段上の親
ノードであるときは変数「$1」に対応するノードに
「1.0/1=1.0」、2段上の親ノードであるとき
は「1.0/2=0.5」…と与える。
で、この中間バインドテーブルB8と、中間バインドテ
ーブルB4は、同じ変数「$1」のカラムを持つことと
なるので、次に、バインドテーブル結合部217で、こ
の2つの中間バインドテーブルを1つに結合して、図8
6に示すように、新たな中間バインドテーブルB9を作
成する(ステップS218、図77のステップQ1
0)。
らかなように、下流にある変数「$3」のカラムを持つ
中間バインドテーブルB3に対し、上位発生展開を行う
(ステップS217)。その結果、図87に示すよう
に、変数「$1」のカラムを持つ新たな中間バインドテ
ーブルB10が作成される(図77のステップQ1
1)。
点で、この中間バインドテーブルB10と、中間バイン
ドテーブルB9は、同じ変数「$1」のカラムを持つこ
ととなるので、次に、バインドテーブル結合部217
で、この2つの中間バインドテーブルを1つに結合し
て、図87に示すように、新たな中間バインドテーブル
B11を作成する(ステップS218、図77のステッ
プQ12)。
つに結合された(ステップS219)。そこで、次に、
図77のクエリ条件グラフにある変数「$a」のカラム
を中間バインドテーブルB11に追加するために、中間
バインドテーブルB11に対し、下位発生展開部219
で下位発生展開を行う(ステップS220)。
ーブルB11中の各レコードの変数「$3」のカラムの
値(ノードのオブジェクトID)を参照して、構造化文
書データベースの各レコードのノード位置からその子ノ
ード、さらにその子ノードへと下流へと下り、該当のノ
ードを収集する。この収集したノード群をクエリ条件グ
ラフ中の変数「$a」の候補とし、図88に示すよう
に、新たな中間バインドテーブルB12を作成する(図
77のステップQ13)。
「#14´」のレコードについては、構造化文書データ
ベース中の当該ノード位置「#14」のみが得られる
(ノード「#14」から見て1段下の子ノードは存在し
ない)。
索条件としては、変数「$a」は、変数「要旨」タグを
持つ構成要素の値として定義されているから(図67の
A5に相当)、前述した構造に関する類似度を適用し
て、変数「$a」に対応するノードと変数「$3」に対
応するノードが等しいとき、変数「$a」に対応するノ
ードの構造に関する類似度として「1.0/1=1.
0」、変数「$a」に対応するノードが変数「$3」に
対応するノードより1段下の子ノードであるときは変数
「$a」に対応するノードに「1.0/2=0.5」…
と与える。
れたノード「#14」には、構造に関する類似度として
「1.0/1」を設定する。
全ての変数のカラムが結合されているので、これ以上の
基本オペレータは適用できない。従って、中間バインド
テーブルB12が最終バインドテーブルとなる。
ロケーションおよび類似度のペアの組み合わせを記録し
たもので、最終バインドテーブルの横一列は1つの構造
化文書に対応する。構造化文書の文書オブジェクトツリ
ーを構成するノードのうち、各変数に対応するノードの
みが最終バンドテーブルの横一列に並べられている。
最終的な類似度計算を行う(ステップS221)。図8
9に示すように、ここでの類似度「$sim」の計算
は、最終バインドテーブル中の各変数対応の全てのカラ
ムの類似度を、各構造化文書毎に掛け合わせて計算して
いる。簡単のため下2桁で四捨五入している。
似度を含めた最終バインドテーブルは、オペレータ適用
部211からクエリ出力処理部205へ渡される。
部221では、図68に示したようなクエリ出力グラフ
を用いて、最終バインドテーブルから図90に示すよう
な検索結果のXML文書を作成する。
レコードについて、クエリ出力グラフの「Repea
t」ノード以下のテンプレートを繰り返し適用する。こ
の場合はレコード数は4つなので、4回繰り返される。
いて、「score」属性で、最終バインドテーブル中
の類似度「$sim」の値を表示している。
は、図61に示した「論文」情報のXML文書に対応す
るが、クエリ出力グラフに従えば、この「論文」情報の
文書オブジェクトツリーを構成するノードのうち、変数
「$t」に対応するノード「#13」と、変数「$a」
に対応するノード「#14」のみが抽出される。この各
ノードに対応する「タイトル」というタグ名を持つ構成
要素と「要旨」というタグ名を持つ構成要素の値を、そ
れぞれ、「TITLE」、「ABST」というタグ名を
持つ構成要素の値とし、さらに、これら構成要素を「P
APER」というタグ名を持つ構成要素の子要素とす
る。
中の類似度「$sim」の値で上記4つのレコードをソ
ートする。この場合、先頭の<PAPER score
=”1.0”>がもっとも語彙的にも構造的にも類似性
が高い構造化文書として検索されている。それ以外は、
ほとんど変わりが無い。
似度「$sim」の他の計算方法について説明する。す
なわち、上記説明では、1レコード中の全カラムの類似
度を単純に掛け合わせて、(1つの構造化文書に対応す
る)レコード毎の類似度を計算したが、1レコード中の
全カラムの類似度のうち、最小値を当該レコードの類似
度としてもよい。
照して説明した、「1/段数」ではなく、「1/(段数
+1)」としてもよい。こうすると、語彙に関する類似
度の方が構造に関する類似度より強くなり、その結果、
図91に示すように、検索結果も変化する。
した検索結果の2番目と4番目のXMLデータ(構造化
文書)の位置が入れ替わっている。
ば、類似検索のクエリからクエリ条件グラフとクエリ出
力グラフ(クエリ出力テンプレート)とを生成し、クエ
リ条件グラフに従って、このクエリに含まれる検索条件
を該検索条件で指定された構成要素と語彙とそれらの文
書構造(論理構造)上の発生位置の類似範囲まで緩和し
た構造化文書の検索を行う。すなわち、構造化文書デー
タベースに格納されている構造化文書のうち、その構成
要素に、検索条件で指定された構成要素あるいはそれに
類似する構成要素と、検索条件で指定された語彙あるい
はそれに類似する語彙を包含する構造化文書を検索し
(類似語展開、語彙発生展開、構造発生展開)、この検
索された構造化文書のうち、さらに、該構造化文書に包
含される語彙と構成要素の論理構造上の発生位置が、検
索条件で指定された発生位置あるいはそれに類似する発
生位置である構造化文書を検索する(上位発生展開、下
位発生展開、バインドテーブル結合)ことにより、構成
要素名(タグ名)や語彙の類似語を探すための意味ネッ
トワークを追加するだけで、検索条件で指定された構成
要素や語彙の類似範囲はもとより、構成要素や語彙の文
書構造上の発生位置が類似する構造化文書の検索が容易
に行える。
れた構造化文書の一部の構成要素のみを抽出して、検索
結果として出力することができる。
明の手法は、コンピュータに実行させることのできるプ
ログラムとして、磁気ディスク(フロッピー(登録商
標)ディスク、ハードディスクなど)、光ディスク(C
D−ROM、DVDなど)、半導体メモリなどの記録媒
体に格納して頒布することもできる。
るものではなく、実施段階ではその要旨を逸脱しない範
囲で種々に変形することが可能である。さらに、上記実
施形態には種々の段階の発明は含まれており、開示され
る複数の構成用件における適宜な組み合わせにより、種
々の発明が抽出され得る。例えば、実施形態に示される
全構成要件から幾つかの構成要件が削除されても、発明
が解決しようとする課題の欄で述べた課題(の少なくと
も1つ)が解決でき、発明の効果の欄で述べられている
効果(のなくとも1つ)が得られる場合には、この構成
要件が削除された構成が発明として抽出され得る。
構造化文書データベースに格納されている構造化文書の
構成要素と語彙とを指定した検索条件に基づき、この指
定した構成要素と語彙とそれらの文書構造(論理構造)
上の発生位置とに類似する構造化文書の検索が容易に行
える。
ムの構成例を示した図。
形態を示したもので、WWWのバックエンドで、構造化
文書管理システムが動作している場合を示した図。
図。
図。
造化文書データベースの初期状態に追加コマンドを実行
した場合について示している。
ースに対し、取得コマンドを実行した場合の処理結果を
示した図。
ースに対し、追加コマンドを実行して1つの「特許」情
報の文書オブジェクトツリーを追加した場合を示してい
る。
ースに対し、追加コマンドを実行して3つの「特許」情
報の文書オブジェクトツリーを追加した場合を示してい
る。
図。
に対して、3つの「特許」情報を取り出すための取得コ
マンドを実行した場合の実行結果を示した図。
一例を示した図。
に、スキーマ格納コマンドを実行して、図12に示した
スキーマを追加格納(設定)した場合を示した図。
いる旨の属性値のセットされた文書オブジェクトツリー
を示した図。
している旨の属性値が格納されている様子を概念的に示
した図。
造化文書で表現した例を示した図。
造化文書で表現した例を示した図。
に対し、追加コマンドを実行して、図16,図17に示
した「概念」情報の文書オブジェクトツリーを追加した
場合を示した図。
に対し、追加コマンドを実行して、図16,図17に示
した「概念」情報の文書オブジェクトツリーを追加した
場合を示した図。
理動作について説明するためのフローチャート。
部の処理)について説明するためのフローチャート
書オブジェクトツリーを構造化文書データベースから取
得した文書オブジェクトツリーに挿入して得られた合成
文書の文書オブジェクトツリーをXML文書に変換した
結果であって、テンポラリファイルAに格納される合成
文書の一例を示した図。
文書データベースから取得されたスキーマ文書の一例を
示した図。
の他の例を示した図。
文書データベースから取得されたスキーマ文書の一例を
示した図。
理動作について説明するためのフローチャート。
理動作について説明するためのフローチャート。
成部の処理(削除コマンド用))について説明するため
のフローチャート。
のさらに他の例であって、削除コマンドの実行時に作成
される合成文書の一例を示した図。
文書データベースから取得されたスキーマ文書の一例を
示した図。
を示した図。
フェースとしての画面の表示例を示した図。
フェースとしての画面の表示例を示した図。
フェースとしての画面の表示例を示した図。
イアント端末へ返すメッセージの表示例を表示例を示し
た図。
フェースとしての画面の表示例を示したもので、文書取
得動作を説明するための図。
ェースとしての画面の表示例を示したもので、スキーマ
の設定動作を説明するための図。
ースとしての画面の表示例を示したもので、取得された
スキーマの表示例を示している。
した図。
(XML文書)を示した図。
した図。
理動作について説明するためのフローチャート。
としての画面の表示例を示した図。
基づき作成されるクエリを示した図。
ース内における格納例を示した図。
としての画面の表示例であって、スキーマの検索処理動
作を説明するための図。
た図。
一例を示した図。
図。
するクエリを示した図。
してのXML文書を示した図。
テムの構成例を示した図。
味ネットワークを模式的に示した図。
スの構造化文書の格納状態を模式的に示した図。
納されている構造化文書の具体例を示した図。
納されている構造化文書の具体例を示した図。
納されている構造化文書の具体例を示した図。
納されている構造化文書の具体例を示した図。
納されている構造化文書の具体例を示した図。
ト)の具体例を示した図。
ーチャート。
で、意味ネットワークを探索しながら、検索条件にて指
定された語彙に類似する語彙とその類似度(語彙ウェイ
ト)を求める方法を説明するための図。
で、意味ネットワークを探索しながら、検索条件にて指
定された語彙に類似する語彙とその類似度(語彙ウェイ
ト)を求める方法を説明するための図。
で、意味ネットワークを探索しながら、検索条件にて指
定された語彙に類似する語彙とその類似度(語彙ウェイ
ト)を求める方法を説明するための図。
で、意味ネットワークを探索しながら、検索条件にて指
定された語彙に類似する語彙とその類似度(語彙ウェイ
ト)を求める方法を説明するための図。
含む)に対し類似語展開を行って、その語彙に類似する
語彙と語彙ウェイトとを求めた結果を示した図。
図。
のフローチャート。
るための図。
含む)に対し類似語展開を行った結果を示した図。
テーブルB1を示した図。
テーブルB2を示した図。
テーブルB3を示した図。
テーブルB4を示した図。
ーブル値の集約を行う場合を説明するための図。
開を行う場合を説明するための図。
中間バインドテーブルB7を作成する場合を説明するた
めの図。
開を行た後、中間バインドテーブルB4と結合して、中
間バインドテーブルB9を作成する場合を説明するため
の図。
開を行た後、中間バインドテーブルB9と結合して、中
間バインドテーブルB11を作成する場合を説明するた
めの図。
生展開を行う場合を示した図。
Claims (9)
- 【請求項1】 異なる文書構造の複数の構造化文書を格
納した階層化された論理構造を持つ構造化文書データベ
ースに対して、前記論理構造を構成する前記構造化文書
の構成要素と語彙を検索条件に含む検索要求に基づき検
索を行う構造化文書検索方法において、 前記構造化文書データベースに格納されている構造化文
書のうち、その構成要素に、前記検索条件で指定された
構成要素あるいはそれに類似する構成要素と、前記検索
条件で指定された語彙あるいはそれに類似する語彙を包
含し、かつ、前記語彙あるいはそれに類似する語彙と、
前記構成要素あるいはそれに類似する構成要素との前記
論理構造上の発生位置が、前記検索条件で指定された発
生位置あるいはそれに類似する発生位置である構造化文
書を検索することを特徴とする構造化文書検索方法。 - 【請求項2】 前記検索された構造化文書を表示するた
めに、該構造化文書に包含される語彙と構成要素とそれ
らの前記論理構造上の発生位置との、前記検索条件で指
定された語彙と構成要素とそれらの前記論理構造上の発
生位置とに対する類似度に基づき並び替えることを特徴
とする請求項1記載の構造化文書検索装方法。 - 【請求項3】 前記検索要求に含まれる前記構造化文書
から検索結果として抽出すべき構成要素の出力形式に基
づき、前記検索された構造化文書を出力することを特徴
とする請求項1記載の構造化文書検索方法。 - 【請求項4】 前記類似度は、前記検索された構造化文
書に包含される語彙と構成要素の前記検索条件で指定さ
れた語彙と構成要素に対する第1の類似度と、前記検索
された構造化文書に包含される語彙と構成要素の前記論
理構造上の発生位置と、前記検索条件で指定された語彙
と構成要素の前記論理構造上の発生位置に対する第2の
類似度との積であることを特徴とする請求項1記載の構
造化文書検索方法。 - 【請求項5】 異なる文書構造の複数の構造化文書を格
納した階層化された論理構造を持つ構造化文書データベ
ースに対して、前記論理構造を構成する前記構造化文書
の構成要素と語彙を検索条件に含む検索要求に基づき検
索を行う構造化文書検索装置において、 前記構造化文書データベースに格納されている構造化文
書のうち、その構成要素に、前記検索条件で指定された
構成要素あるいはそれに類似する構成要素と、前記検索
条件で指定された語彙あるいはそれに類似する語彙を包
含する構造化文書を検索する第1の検索手段と、 この第1の検索手段で検索された構造化文書のうち、該
構造化文書に包含される前記語彙と前記構成要素の前記
論理構造上の発生位置が、前記検索条件で指定された発
生位置あるいはそれに類似する発生位置である構造化文
書を検索する第2の検索手段と、 を具備したことを特徴とする構造化文書検索装置。 - 【請求項6】 前記検索された構造化文書を表示するた
めに、該構造化文書に包含される語彙と構成要素とそれ
らの前記論理構造上の発生位置との、前記検索条件で指
定された語彙と構成要素とそれらの前記論理構造上の発
生位置とに対する類似度に基づき並び替えることを特徴
とする請求項5記載の構造化文書検索装置。 - 【請求項7】 前記検索要求に含まれる、前記構造化文
書から検索結果として抽出すべき構成要素の出力形式に
基づき、前記検索された構造化文書を出力することを特
徴とする請求項5記載の構造化文書検索装置。 - 【請求項8】 前記類似度は、前記検索された構造化文
書に包含される語彙と構成要素の前記検索条件で指定さ
れた語彙と構成要素に対する第1の類似度と、前記検索
された構造化文書に包含される語彙と構成要素の前記論
理構造上の発生位置と、前記検索条件で指定された語彙
と構成要素の前記論理構造上の発生位置に対する第2の
類似度との積であることを特徴とする請求項5記載の構
造化文書検索装置。 - 【請求項9】 異なる文書構造の複数の構造化文書を格
納した階層化された論理構造を持つ構造化文書データベ
ースに対して、前記論理構造を構成する前記構造化文書
の構成要素と語彙を検索条件に含む検索要求に基づき検
索を行うための処理をコンピュータに実行させるための
プログラムであって、 前記構造化文書データベースに格納されている構造化文
書のうち、その構成要素に、前記検索条件で指定された
構成要素あるいはそれに類似する構成要素と、前記検索
条件で指定された語彙あるいはそれに類似する語彙を包
含する構造化文書を検索するための第1の検索処理と、 この第1の検索処理で検索された構造化文書のうち、該
構造化文書に包含される前記語彙と前記構成要素の前記
論理構造上の発生位置が、前記検索条件で指定された発
生位置あるいはそれに類似する発生位置である構造化文
書を検索するための第2の検索処理と、 をコンピュータに実行させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001099973A JP3842577B2 (ja) | 2001-03-30 | 2001-03-30 | 構造化文書検索方法および構造化文書検索装置およびプログラム |
US10/107,066 US6889223B2 (en) | 2001-03-30 | 2002-03-28 | Apparatus, method, and program for retrieving structured documents |
US10/973,869 US7293018B2 (en) | 2001-03-30 | 2004-10-27 | Apparatus, method, and program for retrieving structured documents |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001099973A JP3842577B2 (ja) | 2001-03-30 | 2001-03-30 | 構造化文書検索方法および構造化文書検索装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002297605A true JP2002297605A (ja) | 2002-10-11 |
JP3842577B2 JP3842577B2 (ja) | 2006-11-08 |
Family
ID=18953459
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001099973A Expired - Fee Related JP3842577B2 (ja) | 2001-03-30 | 2001-03-30 | 構造化文書検索方法および構造化文書検索装置およびプログラム |
Country Status (2)
Country | Link |
---|---|
US (2) | US6889223B2 (ja) |
JP (1) | JP3842577B2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004326141A (ja) * | 2003-04-21 | 2004-11-18 | Minolta Co Ltd | 画像処理装置及びプログラム |
JP2006031577A (ja) * | 2004-07-21 | 2006-02-02 | Hideki Mima | 情報の検索俯瞰方法および装置 |
JP2007533008A (ja) * | 2004-04-09 | 2007-11-15 | オラクル・インターナショナル・コーポレイション | Xmlデータにアクセスするためのインデックス |
US7613602B2 (en) | 2005-07-28 | 2009-11-03 | Kabushiki Kaisha Toshiba | Structured document processing apparatus, structured document search apparatus, structured document system, method, and program |
US8046370B2 (en) | 2003-01-06 | 2011-10-25 | Microsoft Corporation | Retrieval of structured documents |
JP2014049088A (ja) * | 2012-09-04 | 2014-03-17 | Nippon Telegr & Teleph Corp <Ntt> | 文書構造解析装置及びプログラム |
Families Citing this family (85)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7137065B1 (en) * | 2000-02-24 | 2006-11-14 | International Business Machines Corporation | System and method for classifying electronically posted documents |
US7058648B1 (en) * | 2000-12-01 | 2006-06-06 | Oracle International Corporation | Hierarchy-based secured document repository |
US6889226B2 (en) * | 2001-11-30 | 2005-05-03 | Microsoft Corporation | System and method for relational representation of hierarchical data |
JP4459504B2 (ja) * | 2002-03-11 | 2010-04-28 | 三菱電機株式会社 | データサーバ |
US7210136B2 (en) * | 2002-05-24 | 2007-04-24 | Avaya Inc. | Parser generation based on example document |
CA2400590A1 (en) * | 2002-08-29 | 2004-02-29 | Ibm Canada Limited-Ibm Canada Limitee | Method and apparatus for converting legacy programming language data structures to schema definitions |
TWI289261B (en) * | 2002-09-11 | 2007-11-01 | Hon Hai Prec Ind Co Ltd | System and method for dynamically generating a HTTP query |
TWI290697B (en) * | 2002-10-25 | 2007-12-01 | Hon Hai Prec Ind Co Ltd | System and method for analyzing and mapping patent information |
AU2003290756A1 (en) * | 2002-11-11 | 2004-06-03 | Transparensee Systems, Inc. | Method and system of searching by correlating the query structure and the data structure |
US7730087B2 (en) * | 2003-02-28 | 2010-06-01 | Raining Data Corporation | Apparatus and method for matching a query to partitioned document path segments |
US7213014B2 (en) * | 2003-03-27 | 2007-05-01 | International Business Machines Corporation | Apparatus and method for using a predefined database operation as a data source for a different database operation |
KR100738603B1 (ko) * | 2003-07-03 | 2007-07-11 | 제너럴 모터즈 코오포레이션 | 특권 및 비특권 문서 전자 관리 시스템, 방법 및 기록 매체 |
WO2005006192A1 (ja) * | 2003-07-10 | 2005-01-20 | Fujitsu Limited | 構造化文書処理方法及び装置並びに記憶媒体 |
US7203679B2 (en) * | 2003-07-29 | 2007-04-10 | International Business Machines Corporation | Determining structural similarity in semi-structured documents |
JP2005092331A (ja) * | 2003-09-12 | 2005-04-07 | Hewlett-Packard Development Co Lp | 情報探索装置およびその方法 |
EP1544749B1 (en) * | 2003-12-16 | 2018-11-14 | Software AG | Method for searching a database and database |
JP4247108B2 (ja) * | 2003-12-25 | 2009-04-02 | 株式会社東芝 | 構造化文書検索方法、構造化文書検索装置、及びプログラム |
US8171426B2 (en) | 2003-12-29 | 2012-05-01 | International Business Machines Corporation | Method for secondary selection highlighting |
CN1658234B (zh) * | 2004-02-18 | 2010-05-26 | 国际商业机器公司 | 生成语义网络的分层可视化的方法和装置 |
US7398274B2 (en) * | 2004-04-27 | 2008-07-08 | International Business Machines Corporation | Mention-synchronous entity tracking system and method for chaining mentions |
KR101126028B1 (ko) * | 2004-05-04 | 2012-07-12 | 더 보스턴 컨설팅 그룹, 인코포레이티드 | 관련된 데이터베이스 레코드들을 선택하고, 분석하며,네트워크로서 비주얼화하기 위한 방법 및 장치 |
WO2005111860A1 (en) * | 2004-05-13 | 2005-11-24 | Robert John Rogers | A system and method for retrieving information and a system and method for storing information |
US8762381B2 (en) * | 2004-05-21 | 2014-06-24 | Ca, Inc. | Storing multipart XML documents |
US9098476B2 (en) * | 2004-06-29 | 2015-08-04 | Microsoft Technology Licensing, Llc | Method and system for mapping between structured subjects and observers |
US20060020886A1 (en) * | 2004-07-15 | 2006-01-26 | Agrawal Subodh K | System and method for the structured capture of information and the generation of semantically rich reports |
US20060036451A1 (en) * | 2004-08-10 | 2006-02-16 | Lundberg Steven W | Patent mapping |
US20060047690A1 (en) * | 2004-08-31 | 2006-03-02 | Microsoft Corporation | Integration of Flex and Yacc into a linguistic services platform for named entity recognition |
US20060047500A1 (en) * | 2004-08-31 | 2006-03-02 | Microsoft Corporation | Named entity recognition using compiler methods |
US20060047691A1 (en) * | 2004-08-31 | 2006-03-02 | Microsoft Corporation | Creating a document index from a flex- and Yacc-generated named entity recognizer |
JP4189369B2 (ja) * | 2004-09-24 | 2008-12-03 | 株式会社東芝 | 構造化文書検索装置及び構造化文書検索方法 |
JP2006127229A (ja) * | 2004-10-29 | 2006-05-18 | Toshiba Corp | 構造化文書検索システム、構造化文書検索方法及びプログラム |
US7627547B2 (en) * | 2004-11-29 | 2009-12-01 | Oracle International Corporation | Processing path-based database operations |
US7921076B2 (en) | 2004-12-15 | 2011-04-05 | Oracle International Corporation | Performing an action in response to a file system event |
US9275159B1 (en) * | 2005-04-11 | 2016-03-01 | Novell, Inc. | Content marking |
US20060271634A1 (en) * | 2005-05-25 | 2006-11-30 | England Laurence E | Method, system, and program for processing a message with dispatchers |
WO2006128183A2 (en) | 2005-05-27 | 2006-11-30 | Schwegman, Lundberg, Woessner & Kluth, P.A. | Method and apparatus for cross-referencing important ip relationships |
US8161025B2 (en) * | 2005-07-27 | 2012-04-17 | Schwegman, Lundberg & Woessner, P.A. | Patent mapping |
US7555472B2 (en) * | 2005-09-02 | 2009-06-30 | The Board Of Trustees Of The University Of Illinois | Identifying conceptual gaps in a knowledge base |
EP1764761A1 (en) * | 2005-09-16 | 2007-03-21 | Sap Ag | A system for handling data for describing one or more resources and a method of handling meta data for describing one or more resources |
US20070073651A1 (en) * | 2005-09-23 | 2007-03-29 | Tomasz Imielinski | System and method for responding to a user query |
US20070078842A1 (en) * | 2005-09-30 | 2007-04-05 | Zola Scot G | System and method for responding to a user reference query |
WO2007064880A2 (en) * | 2005-12-01 | 2007-06-07 | Firestar Software, Inc. | System and method for exchanging information among exchange applications |
US7627559B2 (en) * | 2005-12-15 | 2009-12-01 | Microsoft Corporation | Context-based key phrase discovery and similarity measurement utilizing search engine query logs |
US7716229B1 (en) * | 2006-03-31 | 2010-05-11 | Microsoft Corporation | Generating misspells from query log context usage |
US7555495B2 (en) * | 2006-04-12 | 2009-06-30 | Business Objects Software Ltd. | Apparatus and method for routing composite objects to a report server |
EP1860578A1 (en) * | 2006-05-22 | 2007-11-28 | Caterpillar Inc. | System for analyzing patents |
CN100504868C (zh) * | 2006-06-30 | 2009-06-24 | 西门子(中国)有限公司 | 一种具有多行内容节点的树形结构列表显示方法及其装置 |
US8255383B2 (en) * | 2006-07-14 | 2012-08-28 | Chacha Search, Inc | Method and system for qualifying keywords in query strings |
JP4189416B2 (ja) * | 2006-08-28 | 2008-12-03 | 株式会社東芝 | 構造化文書管理システム及びプログラム |
US7865820B2 (en) * | 2006-08-29 | 2011-01-04 | Sap Ag | Generating a business document model |
JP2008084070A (ja) * | 2006-09-28 | 2008-04-10 | Toshiba Corp | 構造化文書検索装置およびプログラム |
US20080114740A1 (en) * | 2006-11-14 | 2008-05-15 | Xcential Group Llc | System and method for maintaining conformance of electronic document structure with multiple, variant document structure models |
JP5003131B2 (ja) * | 2006-12-04 | 2012-08-15 | 富士ゼロックス株式会社 | 文書提供システム及び情報提供プログラム |
WO2008117454A1 (ja) * | 2007-03-27 | 2008-10-02 | Fujitsu Limited | 情報検索プログラム、該プログラムを記録した記録媒体、情報検索装置、および情報検索方法 |
US20080294701A1 (en) * | 2007-05-21 | 2008-11-27 | Microsoft Corporation | Item-set knowledge for partial replica synchronization |
US8505065B2 (en) * | 2007-06-20 | 2013-08-06 | Microsoft Corporation | Access control policy in a weakly-coherent distributed collection |
US20090006489A1 (en) * | 2007-06-29 | 2009-01-01 | Microsoft Corporation | Hierarchical synchronization of replicas |
US7685185B2 (en) * | 2007-06-29 | 2010-03-23 | Microsoft Corporation | Move-in/move-out notification for partial replica synchronization |
CN101393551B (zh) * | 2007-09-17 | 2011-03-23 | 鸿富锦精密工业(深圳)有限公司 | 专利全文检索的索引建立系统及方法 |
US20090138491A1 (en) * | 2007-11-28 | 2009-05-28 | Sandeep Chowdhury | Composite Tree Data Type |
US8224845B2 (en) * | 2008-01-21 | 2012-07-17 | International Business Machines Corporation | Transaction prediction modeling method |
US20090248716A1 (en) * | 2008-03-31 | 2009-10-01 | Caterpillar Inc. | Hierarchy creation and management tool |
US9128945B1 (en) | 2008-05-16 | 2015-09-08 | Google Inc. | Query augmentation |
US20100131513A1 (en) | 2008-10-23 | 2010-05-27 | Lundberg Steven W | Patent mapping |
WO2010112087A1 (en) * | 2009-04-03 | 2010-10-07 | Netcycler Oy | On-line searching systems |
US9594759B2 (en) * | 2009-06-16 | 2017-03-14 | Microsoft Technology Licensing, Llc | Backup and archival of selected items as a composite object |
WO2011025400A1 (en) * | 2009-08-30 | 2011-03-03 | Cezary Dubnicki | Structured analysis and organization of documents online and related methods |
US20110072023A1 (en) * | 2009-09-21 | 2011-03-24 | Yahoo! Inc. | Detect, Index, and Retrieve Term-Group Attributes for Network Search |
US9158816B2 (en) * | 2009-10-21 | 2015-10-13 | Microsoft Technology Licensing, Llc | Event processing with XML query based on reusable XML query template |
US8346792B1 (en) * | 2010-11-09 | 2013-01-01 | Google Inc. | Query generation using structural similarity between documents |
US8566273B2 (en) * | 2010-12-15 | 2013-10-22 | Siemens Aktiengesellschaft | Method, system, and computer program for information retrieval in semantic networks |
US9904726B2 (en) | 2011-05-04 | 2018-02-27 | Black Hills IP Holdings, LLC. | Apparatus and method for automated and assisted patent claim mapping and expense planning |
US10268731B2 (en) | 2011-10-03 | 2019-04-23 | Black Hills Ip Holdings, Llc | Patent mapping |
US20130086044A1 (en) | 2011-10-03 | 2013-04-04 | Steven W. Lundberg | System and method for patent activity profiling |
US11461862B2 (en) | 2012-08-20 | 2022-10-04 | Black Hills Ip Holdings, Llc | Analytics generation for patent portfolio management |
US10140198B1 (en) | 2012-10-30 | 2018-11-27 | Google Llc | Networked desktop environment |
CN104756101B (zh) * | 2012-10-31 | 2018-06-05 | 惠普发展公司,有限责任合伙企业 | 执行具有多个集合操作符的查询 |
US10372808B1 (en) | 2012-12-12 | 2019-08-06 | Google Llc | Passing functional spreadsheet data by reference |
WO2014111753A1 (en) * | 2013-01-15 | 2014-07-24 | Arria Data2Text Limited | Method and apparatus for document planning |
US20140316850A1 (en) * | 2013-03-14 | 2014-10-23 | Adaequare Inc. | Computerized System and Method for Determining an Action's Importance and Impact on a Transaction |
US9767190B2 (en) | 2013-04-23 | 2017-09-19 | Black Hills Ip Holdings, Llc | Patent claim scope evaluator |
CA2815156C (en) * | 2013-05-06 | 2020-05-05 | Ibm Canada Limited - Ibm Canada Limitee | Document order management via relaxed node indexing |
CN106326314B (zh) * | 2015-07-07 | 2020-09-29 | 腾讯科技(深圳)有限公司 | 网页信息抽取方法及装置 |
US10467347B1 (en) | 2016-10-31 | 2019-11-05 | Arria Data2Text Limited | Method and apparatus for natural language document orchestrator |
CN112001188B (zh) * | 2020-10-30 | 2021-03-16 | 北京智源人工智能研究院 | 基于向量化语义规则快速实现nl2sql的方法和装置 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3023943B2 (ja) | 1993-07-29 | 2000-03-21 | 富士通株式会社 | 文書検索装置 |
US5682539A (en) * | 1994-09-29 | 1997-10-28 | Conrad; Donovan | Anticipated meaning natural language interface |
US6094649A (en) * | 1997-12-22 | 2000-07-25 | Partnet, Inc. | Keyword searches of structured databases |
JP3965798B2 (ja) | 1998-09-08 | 2007-08-29 | 富士ゼロックス株式会社 | データ処理装置、文書処理装置、データ処理プログラムを記録したコンピュータ読み取り可能な記録媒体、文書処理プログラムを記録したコンピュータ読み取り可能な記録媒体、データ処理方法、および文書処理方法 |
JP2001014326A (ja) | 1999-06-29 | 2001-01-19 | Hitachi Ltd | 構造指定による類似文書の検索装置及び検索方法 |
US6721727B2 (en) * | 1999-12-02 | 2004-04-13 | International Business Machines Corporation | XML documents stored as column data |
US6510434B1 (en) * | 1999-12-29 | 2003-01-21 | Bellsouth Intellectual Property Corporation | System and method for retrieving information from a database using an index of XML tags and metafiles |
WO2001090921A2 (en) * | 2000-05-25 | 2001-11-29 | Kanisa, Inc. | System and method for automatically classifying text |
US6684204B1 (en) * | 2000-06-19 | 2004-01-27 | International Business Machines Corporation | Method for conducting a search on a network which includes documents having a plurality of tags |
US6959416B2 (en) * | 2001-01-30 | 2005-10-25 | International Business Machines Corporation | Method, system, program, and data structures for managing structured documents in a database |
-
2001
- 2001-03-30 JP JP2001099973A patent/JP3842577B2/ja not_active Expired - Fee Related
-
2002
- 2002-03-28 US US10/107,066 patent/US6889223B2/en not_active Expired - Lifetime
-
2004
- 2004-10-27 US US10/973,869 patent/US7293018B2/en not_active Expired - Fee Related
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8046370B2 (en) | 2003-01-06 | 2011-10-25 | Microsoft Corporation | Retrieval of structured documents |
JP2004326141A (ja) * | 2003-04-21 | 2004-11-18 | Minolta Co Ltd | 画像処理装置及びプログラム |
JP2007533008A (ja) * | 2004-04-09 | 2007-11-15 | オラクル・インターナショナル・コーポレイション | Xmlデータにアクセスするためのインデックス |
JP4724177B2 (ja) * | 2004-04-09 | 2011-07-13 | オラクル・インターナショナル・コーポレイション | Xmlデータにアクセスするためのインデックス |
JP2006031577A (ja) * | 2004-07-21 | 2006-02-02 | Hideki Mima | 情報の検索俯瞰方法および装置 |
US7613602B2 (en) | 2005-07-28 | 2009-11-03 | Kabushiki Kaisha Toshiba | Structured document processing apparatus, structured document search apparatus, structured document system, method, and program |
JP2014049088A (ja) * | 2012-09-04 | 2014-03-17 | Nippon Telegr & Teleph Corp <Ntt> | 文書構造解析装置及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
US6889223B2 (en) | 2005-05-03 |
US20020147711A1 (en) | 2002-10-10 |
US7293018B2 (en) | 2007-11-06 |
JP3842577B2 (ja) | 2006-11-08 |
US20050060306A1 (en) | 2005-03-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3842577B2 (ja) | 構造化文書検索方法および構造化文書検索装置およびプログラム | |
JP3842573B2 (ja) | 構造化文書検索方法、構造化文書管理装置及びプログラム | |
Chang et al. | A survey of web information extraction systems | |
JP3754253B2 (ja) | 構造化文書検索方法、構造化文書検索装置及び構造化文書検索システム | |
US7739257B2 (en) | Search engine | |
US7370061B2 (en) | Method for querying XML documents using a weighted navigational index | |
US7844633B2 (en) | System and method for storage, management and automatic indexing of structured documents | |
US20100169311A1 (en) | Approaches for the unsupervised creation of structural templates for electronic documents | |
JP2001167087A (ja) | 構造化文書検索装置,構造化文書検索方法,構造化文書検索用プログラム記録媒体および構造化文書検索用インデックス作成方法 | |
JP3914081B2 (ja) | アクセス権限設定方法および構造化文書管理システム | |
KR101476225B1 (ko) | 자연어 및 수식 색인화 방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체 | |
JP3842572B2 (ja) | 構造化文書管理方法および構造化文書管理装置およびプログラム | |
Yu et al. | Metadata management system: design and implementation | |
Paradis et al. | A language for publishing virtual documents on the Web | |
JP3842576B2 (ja) | 構造化文書編集方法及び構造化文書編集システム | |
JP2003316783A (ja) | 異種半構造化情報源統合検索装置、方法、プログラム及び該プログラムを記録した記録媒体 | |
JP3842574B2 (ja) | 情報抽出方法および構造化文書管理装置およびプログラム | |
JP2004118543A (ja) | 構造化文書検索方法、検索支援方法、検索支援装置および検索支援プログラム | |
Tamiar et al. | Structured Web pages management for efficient data retrieval | |
JP3910901B2 (ja) | 文書構造検索方法、文書構造検索装置および文書構造検索プログラム | |
Chartrand | Ontology-based extraction of RDF data from the world wide web | |
JP3842575B2 (ja) | 構造化文書検索方法、構造化文書管理装置及びプログラム | |
Pluempitiwiriyawej | A new hierarchical clustering model for speeding up the reconciliation of XML-based, semistructured data in mediation systems | |
Marin-Castro et al. | VR-Tree: A novel tree-based approach for modeling Web Query Interfaces | |
Ji | Semi-automatic Ontology-based Knowledge Extraction and Verification from Unstructured Document |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20051025 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20051108 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060110 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060808 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060810 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100818 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100818 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110818 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120818 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120818 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130818 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |