JP3709890B2 - 文字列検索装置 - Google Patents
文字列検索装置 Download PDFInfo
- Publication number
- JP3709890B2 JP3709890B2 JP2004297429A JP2004297429A JP3709890B2 JP 3709890 B2 JP3709890 B2 JP 3709890B2 JP 2004297429 A JP2004297429 A JP 2004297429A JP 2004297429 A JP2004297429 A JP 2004297429A JP 3709890 B2 JP3709890 B2 JP 3709890B2
- Authority
- JP
- Japan
- Prior art keywords
- search
- name
- character string
- index
- path
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
図1は本発明の実施の形態1における構造化文書管理装置の構成図である。図1に示す構造化文書管理装置は、端末101、構造化文書入力手段102、検索条件入力手段103、結果表示手段104、検索エンジン105、データ格納部106からなる。
以下、本発明の実施の形態2について説明する。図16は実施の形態2における構造化文書管理装置の構成図である。実施の形態1の構成図である図1と異なるのは、データ格納部106にパス名称ID照合テーブル格納手段1601、パス階層ID照合テーブル格納手段1602を新たに備えているところである。またそれに伴い、検索条件解析手段110、および構造照合手段112の処理が実施の形態1とは異なる。
以下、本発明の実施の形態3について説明する。実施の形態3における構造化文書管理装置の構成図は実施の形態1における図1、もしくは実施の形態2における図16と同様である。ただし、文字列索引作成手段109における文字列索引の作成方法が実施の形態1および実施の形態2とは若干異なり、それに伴い文字列索引検索手段111と構造照合手段112における処理が実施の形態1および実施の形態2とは異なる。
以下、本発明の実施の形態4について説明する。図25は実施の形態4における構造化文書管理装置の構成図である。実施の形態1の構成図である図1と異なるのは、検索エンジン105に数値型索引作成手段2401と数値型索引検索手段2402を、データ格納部106に数値型設定格納手段2403と数値型索引格納手段2404を新たに備えているところである。
以下、本発明の実施の形態5について説明する。図29は実施の形態5における構造化文書管理装置の構成図である。
102 構造化文書入力手段
103 検索条件入力手段
104 結果表示手段
105 検索エンジン
106 データ格納部
107 構造解析手段
108 構造情報作成手段
109 文字列索引作成手段
110 検索条件解析手段
111 文字列索引検索手段
112 構造照合手段
113 結果作成手段
114 構造解析済みデータ格納手段
115 要素管理テーブル格納手段
116 パス名称インデックス格納手段
117 パス階層インデックス格納手段
118 名称IDテーブル格納手段
119 文字列索引格納手段
120 実体データ格納手段
121 一覧データ格納手段
1601 パス名称ID照合テーブル格納手段
1602 パス階層ID照合テーブル格納手段
2401 数値型索引作成手段
2402 数値型索引検索手段
2403 数値型設定格納手段
2404 数値型索引格納手段
3001 構造化文書登録部
3002 文字列索引作成部
3003 文字列検索部
3004 結果表示部
Claims (12)
- 構造化文書を扱う構造化文書管理装置において、
構造化文書の入力を行う構造化文書入力手段と、
前記構造化文書入力手段により取り込んだ構造化文書を解析し該構造化文書の木構造を生成する構造解析手段と、
前記構造解析手段により生成された木構造からタグ名を識別する名称IDと、各要素実体を識別する検索単位識別子と、前記検索単位識別子から前記名称IDを特定するために、少なくとも前記検索単位識別子と関係する前記名称IDを対応付けた要素管理テーブルを作成する構造情報作成手段と、
文字列検索を行うための文字列索引を作成する文字列索引作成手段とを備え、
前記文字列索引作成手段は、
各要素実体内部にさらにタグに囲まれた要素実体(子要素)を含む文書の文字列索引を作成する際に、各要素実体から所定の文字数で取り出した文字列が前記タグにまたがる場合は、該子要素を識別する独自の検索単位識別子を取得し、該文字列と該文字列の各文字の属する要素実体を識別する検索単位識別子と前記タグを取り除いた要素実体内での該文字列の位置を示す文字位置識別子とから成る検索用文字列索引を生成することを特徴とする構造化文書登録装置。 - 構造化文書を扱う構造化文書管理装置において、
構造化文書の入力を行う構造化文書入力手段と、
前記構造化文書入力手段により取り込んだ構造化文書を解析し該構造化文書の木構造を生成する構造解析手段と、
前記構造解析手段により生成された木構造からタグ名を識別する名称IDと、各要素実体を識別する検索単位識別子と、前記検索単位識別子から前記名称IDを特定するために、少なくとも前記検索単位識別子と関係する前記名称IDを対応付けた要素管理テーブルを作成する構造情報作成手段と、
文字列検索を行うための文字列索引を作成する文字列索引作成手段と、
予め数値であることを定義しているタグに囲まれた文字列を含む構造化文書の索引作成する際に、該タグに囲まれた文字列を識別する検索単位識別子を取得し、該タグに囲まれた文字列を数値データに変換し、前記検索単位識別子と前記数値データとを対応付けた数値型索引を作成する数値型索引作成手段とを備えた構造化文書登録装置。 - 所定の条件に該当する文字列を検索する場合において、タグ名を識別する名称IDと、各要素実体に至るタグ名を階層順に連ねたパス名称を識別するパス名称IDと、同一の親ノードを持ち同一な名称を持つタグの同一階層内での出現順序を階層順に連ねたパス階層を識別するパス階層IDと、各要素実体を識別する検索単位識別子と、前記検索単位識別子から前記名称IDを特定するために、少なくとも前記検索単位識別子と関係する前記名称IDを対応付けた要素管理テーブルまたは、前記検索単位識別子から前記パス名称IDと前記パス階層IDを特定するために、少なくとも前記検索単位識別子と関係する前記パス名称ID及びパス階層IDを対応付けた要素管理テーブルの少なくともいずれか一方を記憶するデータ格納部と、検索条件の入力を行う検索条件入力手段と、前記検索条件入力手段で入力された検索条件から検索条件に該当する前記名称ID、前記パス名称ID、前記パス階層IDの少なくともいずれか1つ(ID1)を特定する検索条件解析手段と、検索条件に該当する文字列を有する前記検索単位識別子を求める文字列索引検索手段と、前記文字列索引検索手段で特定した検索単位識別子を基に前記要素管理テーブルを参照して対応する名称ID、パス名称ID、パス階層IDの少なくともいずれか1つ(ID2)を求め、前記ID2と前記検索条件解析手段により求めたID1とが一致する検索単位識別子のみを抽出する構造照合手段を備えた文字列検索装置。
- 予め数値であることを定義しているタグに囲まれた文字列を含む構造化文書の数値範囲検索において、前記タグに囲まれた文字列を識別する独自の検索単位識別子と前記タグに囲まれた文字列を数値に変換した数値データとを対応付けた数値型索引を参照し、検索条件に該当する前記検索単位識別子を抽出する数値型索引検索手段を有することを特徴とする請求項3記載の文字列検索装置。
- コンピュータに、要素実体内部にさらにタグに囲まれた要素実体(子要素)を有する構造化文書の文字索引の生成を実行させるための可搬型記録媒体であって、構造解析済みデータを読み込むステップと、要素実体を有するか否かをチェックするステップと、要素実体を識別するための検索単位識別子を取得するステップと、前記子要素を含むか否かを調べるステップと、該子要素を識別する検索単位識別子を取得するステップと、要素実体から1以上の所定文字数を単位とする文字列を取り出すステップと、記文字列の各文字の属する検索単位識別子を求めるステップと、該文字列及び該文字列の各文字の属する前記検索単位識別子及び前記タグを取り除いた要素実体内での当該文字列の位置を示す文字位置識別子を有する検索文字列索引を生成するステップとを実行するためのプログラムを記録したコンピュータ読み取り可能な可搬型記録媒体。
- コンピュータに、構造解析済みデータを読み込むステップと、予め数値であることを定義しているタグに囲まれた文字列であるか否かを判断するステップと、数値であることを定義したタグに囲まれた文字列を識別するための検索単位識別子を取得するステップと、該文字列を数値に変換するステップと、前記検索単位識別子と前記変換された数値とからなる数値型索引を生成するステップをとを実行するためのプログラムを記録したコンピュータ読み取り可能な可搬型記録媒体。
- コンピュータに、検索条件を読み込むステップと、前記検索条件に該当するタグ名を識別する名称ID又は、各要素実体に至るタグ名を階層順に連ねたパス名称を識別するパス名称ID又は、同一の親ノードを持ち同一な名称を持つタグの同一階層内での出現順序を階層順に連ねたパス階層を識別するパス階層IDの少なくともいずれか1つのID(以下、ID1)に変換するステップと、検索条件に該当する文字列を有する各要素実体を識別する検索単位識別子(以下、ID2)を特定するステップと、前記ID2から前記名称ID、前記パス名称ID、前記パス階層IDを特定するために、少なくとも前記ID2と関係する前記名称ID、前記パス名称ID、前記パス階層IDを対応付けた要素管理テーブルを参照し、前記ID2に対応する前記名称ID、前記パス名称ID、前記パス階層IDの少なくともいずれか1つのID(以下、ID3)を求めるステップと、前記ID1と前記ID3とが一致する前記検索単位識別子のみを抽出するステップとを実行するためのプログラムを記録したコンピュータ読み取り可能な可搬型記録媒体。
- 中間ノード以下を検索範囲に指定した場合における検索範囲に含まれるノードを決定する方法において、各要素実体に至るタグ名を階層順に連ねたパス名称を識別するパス名称又は、同一の親ノードを持ち同一な名称を持つタグの同一階層内での出現順序を階層順に連ねたパス階層を、1階層登るステップと、現在位置するノードが指定した中間ノードと一致するか又は、既に検索範囲に含まれていると判定されているノードであるかを判断するステップと、前記いずれかの条件に該当するノードである場合はそれまでたどったノード全てを検索範囲に含まれると判定するステップと、現在位置するノードが指定した中間ノードと一致しないか又は、既に検索範囲外と判定されているノードであるかを判断するステップと、前記いずれかの条件に該当するノードである場合はそれまでたどったノード全てを検索範囲外であると判定する処理を、最下層ノードを起点として1階層登る毎に実行するステップとを有し、最上位層のノードに至るまで繰り返し実行することにより検索範囲を特定する方法。
- コンピュータを、
構造化文書の入力を行う構造化文書入力手段と、
前記構造化文書入力手段により取り込んだ構造化文書を解析し該構造化文書の木構造を生成する構造解析手段と、
前記構造解析手段により生成された木構造からタグ名を識別する名称IDと、各要素実体を識別する検索単位識別子と、前記検索単位識別子から前記名称IDを特定するために、少なくとも前記検索単位識別子と関係する前記名称IDを対応付けた要素管理テーブルを作成する構造情報作成手段と、
各要素実体内部にさらにタグに囲まれた要素実体(子要素)を含む文書の文字列索引を作成する際に、各要素実体から所定の文字数で取り出した文字列が前記タグにまたがる場合は、該子要素を識別する独自の検索単位識別子を取得し、該文字列と該文字列の各文字の属する要素実体を識別する検索単位識別子と前記タグを取り除いた要素実体内での該文字列の位置を示す文字位置識別子とから成る検索用文字列索引を生成する文字列索引作成手段として機能させるための文字索引作成プログラム。 - コンピュータを、
構造化文書の入力を行う構造化文書入力手段と、
前記構造化文書入力手段により取り込んだ構造化文書を解析し該構造化文書の木構造を生成する構造解析手段と、
前記構造解析手段により生成された木構造からタグ名を識別する名称IDと、各要素実体を識別する検索単位識別子と、前記検索単位識別子から前記名称IDを特定するために、少なくとも前記検索単位識別子と関係する前記名称IDを対応付けた要素管理テーブルを作成する構造情報作成手段と、
文字列検索を行うための文字列索引を作成する文字列索引作成手段と、
予め数値であることを定義しているタグに囲まれた文字列を含む構造化文書の索引作成する際に、該タグに囲まれた文字列を識別する検索単位識別子を取得し、該タグに囲まれた文字列を数値データに変換し、前記検索単位識別子と前記数値データとを対応付けた数値型索引を作成する数値型索引作成手段として機能させるための文字索引作成プログラム。 - コンピュータを、
木構造で表現されるデータにおいて所定のノード以下を検索範囲に指定した場合に、検索範囲に含まれるノードを特定するプログラムであって、
各ノードが検索範囲に含まれるか否かを示す照合フラグを格納する照合テーブルを初期化する第一のステップと、参照しているノードが検索範囲内か否か又は未定であるかを、照合テーブルをもとに判断する第二のステップと、第二のステップにより検索範囲内と判断した場合は、参照しているノードについて検索範囲内を示す照合フラグを照合テーブルに設定する第三のステップと、第二のステップにより検索範囲外と判断した場合は、参照しているノードについて検索範囲外を示す照合フラグを照合テーブルに設定する第四のステップと、第二のステップにより未定と判断した場合であって、さらに参照しているノードが指定したノードと一致する場合又は、既に検索範囲内である場合は、それまでたどった全てのノードについて検索範囲内を示す照合フラグを照合テーブルに設定する第五のステップと、第二のステップにより未定と判断した場合であって、さらに参照しているノードが既に検索範囲外である場合は、それまでたどった全てのノードについて範囲外を示す照合フラグを照合テーブルに設定する第六のステップと、第五のステップまたは第六のステップのいずれにも該当しない場合は、現在参照しているノードから1階層上る第七のステップと、前記第七のステップにより1階層上ったノードがルートノードである場合は、それまでたどった全てのノードについて検索範囲外を示す照合フラグを照合テーブルに設定する第八のステップと、前記第七のステップにより1階層上ったノードがルートノード以外である場合は、前記第五のステップへ戻る第八のステップとを実行させるためのプログラム。 - 木構造で表現可能なデータ構造を有するデータを管理するデータ管理装置であって、取り込んだデータを解析し該データの木構造を生成する構造解析手段と、データの実体要素の木構造における位置を特定するための情報として、前記木構造において各要素実体に至るタグ名を階層順に連ねたパス名称を識別するパス名称ID、および同一の親ノードを持ち同一な名称を持つタグの同一階層内での出現順序を階層順に連ねたパス階層を識別するパス階層IDを作成する構造情報作成手段と、前記パス名称IDおよびパス階層IDを記憶するデータ記憶部とを備えたデータ管理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004297429A JP3709890B2 (ja) | 2000-10-25 | 2004-10-12 | 文字列検索装置 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000325286 | 2000-10-25 | ||
JP2004297429A JP3709890B2 (ja) | 2000-10-25 | 2004-10-12 | 文字列検索装置 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001291628A Division JP3632643B2 (ja) | 2000-10-25 | 2001-09-25 | 構造化文書管理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005018811A JP2005018811A (ja) | 2005-01-20 |
JP3709890B2 true JP3709890B2 (ja) | 2005-10-26 |
Family
ID=34196413
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004297429A Expired - Fee Related JP3709890B2 (ja) | 2000-10-25 | 2004-10-12 | 文字列検索装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3709890B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100462973C (zh) * | 2006-11-23 | 2009-02-18 | 金蝶软件(中国)有限公司 | Xml文件预处理方法、装置、读取方法和装置 |
JP5376163B2 (ja) | 2007-11-15 | 2013-12-25 | 日本電気株式会社 | 文書管理・検索システムおよび文書の管理・検索方法 |
JP5169456B2 (ja) * | 2008-05-09 | 2013-03-27 | 日本電気株式会社 | 文書検索システム、文書検索方法および文書検索プログラム |
CN113609352B (zh) * | 2021-08-03 | 2023-08-04 | 北京恒安嘉新安全技术有限公司 | 字符串检索方法、装置、计算机设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000207409A (ja) * | 1999-01-14 | 2000-07-28 | Matsushita Electric Ind Co Ltd | 構造化文書管理装置及び構造化文書検索方法 |
JP2000250930A (ja) * | 1999-03-01 | 2000-09-14 | Matsushita Electric Ind Co Ltd | 構造化文書検索システム |
-
2004
- 2004-10-12 JP JP2004297429A patent/JP3709890B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2005018811A (ja) | 2005-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4189416B2 (ja) | 構造化文書管理システム及びプログラム | |
US7707139B2 (en) | Method and apparatus for searching and displaying structured document | |
US7519903B2 (en) | Converting a structured document using a hash value, and generating a new text element for a tree structure | |
US7069504B2 (en) | Conversion processing for XML to XML document transformation | |
US8112401B2 (en) | Analyzing externally generated documents in document management system | |
US7962474B2 (en) | Parent-child query indexing for XML databases | |
US7062708B2 (en) | Tree construction for XML to XML document transformation | |
KR100638695B1 (ko) | 구조화 문서의 데이터를 검색하는 장치 및 방법 | |
JP5121146B2 (ja) | 構造化文書管理装置、構造化文書管理プログラムおよび構造化文書管理方法 | |
JP2005018780A (ja) | 構造化文書オーサリングのためのシステム及びその方法 | |
JPH11242676A (ja) | 構造化文書登録方法、検索方法、およびそれに用いられる可搬型媒体 | |
JP4860416B2 (ja) | 文書検索装置、文書検索方法および文書検索プログラム | |
JP4247135B2 (ja) | 構造化文書記憶方法、構造化文書記憶装置、構造化文書検索方法 | |
JP2005190163A (ja) | 構造化データ検索方法、構造化データ検索装置およびプログラム | |
JP3832693B2 (ja) | 構造化文書検索表示方法及び装置 | |
JP3632643B2 (ja) | 構造化文書管理装置 | |
JPWO2013111287A1 (ja) | Sparqlクエリ最適化方法 | |
JP2693914B2 (ja) | 検索システム | |
JP3709890B2 (ja) | 文字列検索装置 | |
JP2006185408A (ja) | データベース構築装置及びデータベース検索装置及びデータベース装置 | |
JP2003281149A (ja) | アクセス権限設定方法および構造化文書管理システム | |
KR101104753B1 (ko) | 구조계산서 텍스트 정보의 계층 구조 추출 방법 | |
JP2000003366A (ja) | 文書登録方法と文書検索方法及びその実施装置並びにその処理プログラムを記録した媒体 | |
JP2000250930A (ja) | 構造化文書検索システム | |
JP2001134596A (ja) | 構造化文書管理装置および構造化文書検索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041012 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050208 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050315 |
|
TRDD | Decision of grant or rejection written | ||
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20050711 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050719 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050801 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080819 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090819 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090819 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100819 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |