JP2005025763A - 構造化文書の分割プログラム、分割装置、及び分割方法 - Google Patents
構造化文書の分割プログラム、分割装置、及び分割方法 Download PDFInfo
- Publication number
- JP2005025763A JP2005025763A JP2004197092A JP2004197092A JP2005025763A JP 2005025763 A JP2005025763 A JP 2005025763A JP 2004197092 A JP2004197092 A JP 2004197092A JP 2004197092 A JP2004197092 A JP 2004197092A JP 2005025763 A JP2005025763 A JP 2005025763A
- Authority
- JP
- Japan
- Prior art keywords
- document
- division
- document structure
- information
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
- G06F40/143—Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】構造化文書の分割装置は、構造化文書を受け取って、当該構造化文書の文書構造情報を当該構造化文書に基づいて生成する文書構造情報生成ユニット1と、文書構造情報生成ユニット1によって生成された文書構造情報に基づいて、情報ブロックの範囲を判定する情報ブロック範囲判定ユニット2と、文書構造情報生成ユニット1によって生成された文書構造情報と、情報ブロック範囲判定ユニット2によって判定された範囲とに基づいて、分割基準を生成する分割基準生成ユニット3と、この分割基準生成ユニット3によって生成された分割基準に基づいて、構造化文書を分割してその結果を出力する分割ユニット4とを備える。
【選択図】図1
Description
文書構造情報生成ユニット1は、特許請求の範囲における文書構造情報生成手段に対応するもので、最初に、構造化文書を受け取り、上記文書のタグ情報を利用することによって、文書構造情報を作成する。この文書構造情報は、構造化文書の内容と構造、すなわち、文書を構成する各要素(エレメント名、エレメントコンテンツ、及び、エレメントに含まれる属性)と、これら要素間の構成関係とを反映している。
次に、情報ブロック範囲判定ユニット2は、特許請求の範囲における情報ブロック範囲判定手段に対応するもので、文書構造情報生成ユニット1によって生成された文書構造情報に基づいて、全ての情報ブロックを含む最小の範囲を算出する。ここで、文書構造情報は文書構造グラフを用いて示されるものとすると、情報ブロック範囲判定ユニット2は、全ての情報ブロックを含む最小のサブグラフを決定する。
分割基準生成ユニット3は、特許請求の範囲における分割基準生成手段に対応するものである。ここでは、情報ブロックを含むサブツリーのルートノードAの子ノードの順序が、A1,A2,A3,...,Anであるとする。分割タスクにおいては、これらの子ノードをその順序に応じていくつかのグループに分割し、各グループをその他のグループと類似のものにする。各グループの子ノードシーケンスに対応する領域が、分割される情報ブロックである。
工程1:特殊な分割タグを用いて分割を実行することが可能であるか判断し、可能であれば、上記特殊な分割タグを返して、この処理は終了する。
工程2:ノードAの子ノードシーケンスに対して、繰り返しパターン1を計算する。
工程3:ノードAの子ノードシーケンスと孫ノードシーケンスと対して、繰り返しパターン2を計算する。
工程4:繰り返しパターン1と繰り返しパターン2中の評価関数を利用して、最適繰り返しパターンを選択する。この最適繰り返しパターンが分割基準になる。
ここでは、キャラクタストリングをX、パターンをY、パターンYに対するXのk個の分割ポイントがp1,p2,p3,...,pkの順序で存在し、str(pi)(0≦i≦k)は、X中のpiから始まるパターンYと一致するサブストリングであり、length(str(pi))はstr(pi)の長さであるとする。カバレージ度、すなわち、scoreは次式で計算される。
受け取られたタグシーケンスはNであると仮定する、
工程1:N中の繰り返しシーケンスを計算する。例えば、Nは「A,c,d,B,A,c,d,c,d,c,d,B,」であり、繰り返しシーケンスは「c,d,」である。
工程2:タグシーケンスNを、Nの繰り返しシーケンスにしたがって修正する。この修正は、N中に出現する繰り返しシーケンス又は複数の繰り返しシーケンスを、Xのような特定の指定された文字と交換するものである。したがって、上記例でのNは「A,X,B,A,X,B,」と修正される。
工程3:修正されたシーケンスNの繰り返しシーケンスを計算する。この例における修正されたシーケンスNの繰り返しシーケンスは「A,X,B,」である。
工程4:修正された繰り返しシーケンスNの上記繰り返しシーケンスがXを含んでいる場合には、繰り返しシーケンス中のXを(X)*と交換する。これにより、交換された繰り返しシーケンスが最適パターンになる。一方、修正された繰り返しシーケンスNの繰り返しシーケンスがXを含まない場合、繰り返しシーケンスNの繰り返しシーケンスが、Nの最適パターンとなる。
次に、分割ユニット4は、特許請求の範囲における分割手段に対応するものである。ここで、情報ブロックを含むサブツリーのルートノードAの子ノードがA1,A2,A3,...,Anの順序で存在するものとする。分割基準に基づいて、分割ユニット4はこれらの子ノードシーケンスをその順序に応じていくつかのグループに分類する。各グループ中のノードによって示される領域の組み合わせが、分割された情報ブロックである。
前記構造化文書を受け取って、当該構造化文書の文書構造情報を当該構造化文書に基づいて生成する文書構造情報生成手段と、
前記文書構造情報生成手段によって生成された前記文書構造情報に基づいて、前記情報ブロックの範囲を判定する情報ブロック範囲判定手段と、
前記文書構造情報生成手段によって生成された前記文書構造情報と、前記情報ブロック範囲判定手段によって判定された前記範囲とに基づいて、分割基準を生成する分割基準生成手段と、
前記分割基準生成手段によって生成された前記分割基準に基づいて、前記構造化文書を分割してその結果を出力する分割手段と、
を備えることを特徴とする構造化文書の分割装置。
幅優先アルゴリズムを用いて前記文書構造ツリーを探索することにより、最大の有効子ノードを有し、かつ、有効テキスト量と文書全体の有効テキスト量との比率が所定の閾値より大きいノードを発見し、
前記ノードが対応する範囲が、全ての情報ブロックを含む最小の範囲であり、前記ノードをルートとするサブツリーが、全ての情報ブロックを含む最小のサブツリーであること、
を特徴とする付記1に記載の構造化文書の分割装置。
前記分割基準生成手段は、前記情報ブロックが置かれているサブツリーのルートノードの子ノードと孫ノードとのタグシーケンスを利用して、最適繰り返しパターンを計算すること、
を特徴とする付記1又は2に記載の構造化文書の分割装置。
を特徴とする付記3に記載の構造化文書の分割装置。
オリジナルのタグシーケンスの第一の繰り返しシーケンスを計算し、
前記第一の繰り返しシーケンスに基づいて、当該第一の繰り返しシーケンスの指定された記号をタグシーケンスに代入して、オリジナルのタグシーケンスの修正済みシーケンスを取得し、
前記修正済みシーケンスの第二の繰り返しシーケンスを計算し、さらに、
前記第二の繰り返しシーケンスが前記第一の繰り返しシーケンスを含むかどうかに基づいて、最終的な繰り返しパターンを判定することにより、
前記第一の繰り返しパターンと前記第二の繰り返しパターンとから少なくともひとつの前記分割基準を計算すること、
を特徴とする付記4に記載の構造化文書の分割装置。
を特徴とする付記3に記載の構造化文書の分割装置。
を特徴とする付記1から6のいずれか一項に記載の構造化文書の分割装置。
前記構造化文書を受け取って、当該構造化文書の文書構造情報を当該構造化文書に基づいて生成する文書構造情報生成工程と、
前記文書構造情報生成工程において生成された前記文書構造情報に基づいて、前記情報ブロックの範囲を判定する情報ブロック範囲判定工程と、
前記文書構造情報生成工程において生成された前記文書構造情報と、前記情報ブロック範囲判定工程において判定された前記範囲とに基づいて、分割基準を生成する分割基準生成工程と、
前記分割基準生成工程において生成された前記分割基準に基づいて、前記構造化文書を分割してその結果を出力する分割工程と、
を含むことを特徴とする構造化文書の分割方法。
幅優先アルゴリズムを用いて前記文書構造ツリーを探索することにより、最大の有効子ノードを有し、かつ、有効テキスト量と文書全体の有効テキスト量との比率が所定の閾値より大きいノードを発見し、
前記ノードが対応する範囲が、全ての前記情報ブロックを含む最小の範囲であり、前記ノードをルートとするサブツリーが、全ての前記情報ブロックを含む最小のサブツリーであること、
を特徴とする付記8に記載の構造化文書の分割方法。
前記分割基準生成工程において、前記情報ブロックが置かれているサブツリーのルートノードの子ノードと孫ノードとのタグシーケンスを利用して最適繰り返しパターンを計算すること、
を特徴とする付記8又は9に記載の構造化文書の分割方法。
を特徴とする付記10に記載の構造化文書の分割方法。
オリジナルのタグシーケンスの第一の繰り返しシーケンスを計算し、
前記第一の繰り返しシーケンスに基づいて、当該第一の繰り返しシーケンスの指定された記号をタグシーケンスに代入して、オリジナルのタグシーケンスの修正済みシーケンスを取得し、
前記修正済みシーケンスの第二の繰り返しシーケンスを計算し、さらに、
前記第二の繰り返しシーケンスが前記第一の繰り返しシーケンスを含むかどうかに基づいて、最終的な繰り返しパターンを判定することにより、
前記第一の繰り返しパターンと前記第二の繰り返しパターンとから少なくともひとつの前記分割基準を計算すること、
を特徴とする付記11に記載の構造化文書の分割方法。
を特徴とする付記10に記載の構造化文書の分割方法。
を特徴とする付記8から13のいずれか一項に記載の構造化文書の分割方法。
前記構造化文書を受け取って、当該構造化文書の文書構造情報を当該構造化文書に基づいて生成する文書構造情報生成手段と、
前記文書構造情報生成手段によって生成された前記文書構造情報に基づいて、前記情報ブロックの範囲を判定する情報ブロック範囲判定手段と、
前記文書構造情報生成手段によって生成された前記文書構造情報と、前記情報ブロック範囲判定手段によって判定された前記範囲とに基づいて、分割基準を生成する分割基準生成手段と、
前記分割基準生成手段によって生成された前記分割基準に基づいて、前記構造化文書を分割してその結果を出力する分割手段と、
として機能させるための構造化文書分割プログラム。
幅優先アルゴリズムを用いて前記文書構造ツリーを探索することにより、最大の有効子ノードを有し、かつ、有効テキスト量と文書全体の有効テキスト量との比率が所定の閾値より大きいノードを発見し、
前記ノードが対応する範囲が、全ての情報ブロックを含む最小の範囲であり、前記ノードをルートとするサブツリーが、全ての情報ブロックを含む最小のサブツリーであること、
を特徴とする付記15に記載の構造化文書分割プログラム。
前記分割基準生成手段は、前記情報ブロックが置かれているサブツリーのルートノードの子ノードと孫ノードとのタグシーケンスを利用して、最適繰り返しパターンを計算すること、
を特徴とする付記15又は付記16に記載の構造化文書分割プログラム。
を特徴とする付記17に記載の構造化文書分割プログラム。
2 情報ブロック範囲判定ユニット
3 分割基準生成ユニット
4 分割ユニット
Claims (10)
- コンピュータを、
前記構造化文書を受け取って、当該構造化文書の文書構造情報を当該構造化文書に基づいて生成する文書構造情報生成手段と、
前記文書構造情報生成手段によって生成された前記文書構造情報に基づいて、前記情報ブロックの範囲を判定する情報ブロック範囲判定手段と、
前記文書構造情報生成手段によって生成された前記文書構造情報と、前記情報ブロック範囲判定手段によって判定された前記範囲とに基づいて、分割基準を生成する分割基準生成手段と、
前記分割基準生成手段によって生成された前記分割基準に基づいて、前記構造化文書を分割してその結果を出力する分割手段と、
として機能させるための構造化文書分割プログラム。 - 前記コンピュータを、前記文書構造情報生成手段として機能させた際に生成された前記文書構造情報は文書構造ツリーであり、
幅優先アルゴリズムを用いて前記文書構造ツリーを探索することにより、最大の有効子ノードを有し、かつ、有効テキスト量と文書全体の有効テキスト量との比率が所定の閾値より大きいノードを発見し、
前記ノードが対応する範囲が、全ての情報ブロックを含む最小の範囲であり、前記ノードをルートとするサブツリーが、全ての情報ブロックを含む最小のサブツリーであること、
を特徴とする請求項1に記載の構造化文書分割プログラム。 - 前記コンピュータを、前記文書構造情報生成手段として機能させた際に生成された前記文書構造情報は文書構造ツリーであり、
前記分割基準生成手段は、前記情報ブロックが置かれているサブツリーのルートノードの子ノードと孫ノードとのタグシーケンスを利用して、最適繰り返しパターンを計算すること、
を特徴とする請求項1又は2に記載の構造化文書分割プログラム。 - 前記分割基準生成手段は、最初に、前記ルートノードの子ノードのシーケンスへの第一の繰り返しパターンを計算し、次に、ルートノードの子ノードと孫ノードとのシーケンスへの第二の繰り返しパターンを計算し、最後に、最適繰り返しパターンを前記第一の繰り返しパターンと前記第二の繰り返しパターンとから選択することにより、最適繰り返しパターンを計算すること、
を特徴とする請求項3に記載の構造化文書分割プログラム。 - 構造化文書に含まれる情報ブロックを分割する分割装置であって、
前記構造化文書を受け取って、当該構造化文書の文書構造情報を当該構造化文書に基づいて生成する文書構造情報生成手段と、
前記文書構造情報生成手段によって生成された前記文書構造情報に基づいて、前記情報ブロックの範囲を判定する情報ブロック範囲判定手段と、
前記文書構造情報生成手段によって生成された前記文書構造情報と、前記情報ブロック範囲判定手段によって判定された前記範囲とに基づいて、分割基準を生成する分割基準生成手段と、
前記分割基準生成手段によって生成された前記分割基準に基づいて、前記構造化文書を分割してその結果を出力する分割手段と、
を備えることを特徴とする構造化文書の分割装置。 - 構造化文書に含まれる情報ブロックを分割する分割方法であって、
前記構造化文書を受け取って、当該構造化文書の文書構造情報を当該構造化文書に基づいて生成する文書構造情報生成工程と、
前記文書構造情報生成工程において生成された前記文書構造情報に基づいて、前記情報ブロックの範囲を判定する情報ブロック範囲判定工程と、
前記文書構造情報生成工程において生成された前記文書構造情報と、前記情報ブロック範囲判定工程において判定された前記範囲とに基づいて、分割基準を生成する分割基準生成工程と、
前記分割基準生成工程において生成された前記分割基準に基づいて、前記構造化文書を分割してその結果を出力する分割工程と、
を含むことを特徴とする構造化文書の分割方法。 - 文書構造情報生成工程において生成された前記文書構造情報は文書構造ツリーであり、
幅優先アルゴリズムを用いて前記文書構造ツリーを探索することにより、最大の有効子ノードを有し、かつ、有効テキスト量と文書全体の有効テキスト量との比率が所定の閾値より大きいノードを発見し、
前記ノードが対応する範囲が、全ての前記情報ブロックを含む最小の範囲であり、前記ノードをルートとするサブツリーが、全ての前記情報ブロックを含む最小のサブツリーであること、
を特徴とする請求項6に記載の構造化文書の分割方法。 - 前記文書構造情報生成工程において生成された前記文書構造情報は文書構造ツリーであり、
前記分割基準生成工程において、前記情報ブロックが置かれているサブツリーのルートノードの子ノードと孫ノードとのタグシーケンスを利用して最適繰り返しパターンを計算すること、
を特徴とする請求項6又は7に記載の構造化文書の分割方法。 - 前記分割基準生成工程において、最初に、前記ルートノードの子ノードのシーケンスへの第一の繰り返しパターンを計算し、次に、ルートノードの子ノードと孫ノードとのシーケンスへの第二の繰り返しパターンを計算し、最後に、最適繰り返しパターンを前記第一の繰り返しパターンと前記第二の繰り返しパターンとから選択することにより、最適繰り返しパターンを計算すること、
を特徴とする請求項8に記載の構造化文書の分割方法。 - 前記分割基準生成工程において、
オリジナルのタグシーケンスの第一の繰り返しシーケンスを計算し、
前記第一の繰り返しシーケンスに基づいて、当該第一の繰り返しシーケンスの指定された記号をタグシーケンスに代入して、オリジナルのタグシーケンスの修正済みシーケンスを取得し、
前記修正済みシーケンスの第二の繰り返しシーケンスを計算し、さらに、
前記第二の繰り返しシーケンスが前記第一の繰り返しシーケンスを含むかどうかに基づいて、最終的な繰り返しパターンを判定することにより、
前記第一の繰り返しパターンと前記第二の繰り返しパターンとから少なくともひとつの前記分割基準を計算すること、
を特徴とする請求項9に記載の構造化文書の分割方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA031457479A CN1567303A (zh) | 2003-07-03 | 2003-07-03 | 结构文档信息块的自动分割方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005025763A true JP2005025763A (ja) | 2005-01-27 |
Family
ID=34155923
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004197092A Pending JP2005025763A (ja) | 2003-07-03 | 2004-07-02 | 構造化文書の分割プログラム、分割装置、及び分割方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20050050459A1 (ja) |
JP (1) | JP2005025763A (ja) |
CN (1) | CN1567303A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007193660A (ja) * | 2006-01-20 | 2007-08-02 | Seiko Epson Corp | 情報管理装置、情報管理方法及びそのプログラム |
JP2008217047A (ja) * | 2007-02-28 | 2008-09-18 | Kansai Electric Power Co Inc:The | Web文書分割方法、システム及びプログラム |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ES2409936T3 (es) | 2003-01-31 | 2013-06-28 | Good Technology Corporation | Recuperación asíncrona de datos en tiempo real |
CN1722161B (zh) * | 2005-04-29 | 2011-03-16 | 东华大学 | 电子政务协同工作数据标准符合性测试方法 |
US7853869B2 (en) * | 2005-12-14 | 2010-12-14 | Microsoft Corporation | Creation of semantic objects for providing logical structure to markup language representations of documents |
FR2901037B1 (fr) * | 2006-05-11 | 2008-11-07 | Canon Kk | Procede et dispositif de generation de motifs structurels de reference aptes a representer des donnees hierarchisees |
CN101094194B (zh) | 2006-06-19 | 2010-06-23 | 腾讯科技(深圳)有限公司 | 一种提取Web页面中用户所需Web信息的方法 |
CN101515272B (zh) * | 2008-02-18 | 2012-10-24 | 株式会社理光 | 提取网页内容的方法和装置 |
US8359533B2 (en) | 2008-02-22 | 2013-01-22 | Tigerlogic Corporation | Systems and methods of performing a text replacement within multiple documents |
US8001140B2 (en) * | 2008-02-22 | 2011-08-16 | Tigerlogic Corporation | Systems and methods of refining a search query based on user-specified search keywords |
US8924421B2 (en) * | 2008-02-22 | 2014-12-30 | Tigerlogic Corporation | Systems and methods of refining chunks identified within multiple documents |
US8145632B2 (en) * | 2008-02-22 | 2012-03-27 | Tigerlogic Corporation | Systems and methods of identifying chunks within multiple documents |
US7933896B2 (en) * | 2008-02-22 | 2011-04-26 | Tigerlogic Corporation | Systems and methods of searching a document for relevant chunks in response to a search request |
US7937395B2 (en) * | 2008-02-22 | 2011-05-03 | Tigerlogic Corporation | Systems and methods of displaying and re-using document chunks in a document development application |
US8001162B2 (en) * | 2008-02-22 | 2011-08-16 | Tigerlogic Corporation | Systems and methods of pipelining multiple document node streams through a query processor |
US8126880B2 (en) | 2008-02-22 | 2012-02-28 | Tigerlogic Corporation | Systems and methods of adaptively screening matching chunks within documents |
US8078630B2 (en) * | 2008-02-22 | 2011-12-13 | Tigerlogic Corporation | Systems and methods of displaying document chunks in response to a search request |
US8924374B2 (en) * | 2008-02-22 | 2014-12-30 | Tigerlogic Corporation | Systems and methods of semantically annotating documents of different structures |
US9129036B2 (en) | 2008-02-22 | 2015-09-08 | Tigerlogic Corporation | Systems and methods of identifying chunks within inter-related documents |
WO2009131800A2 (en) * | 2008-04-20 | 2009-10-29 | Tigerlogic Corporation | Systems and methods of identifying chunks from multiple syndicated content providers |
CN102301377B (zh) * | 2008-12-18 | 2015-07-08 | 科普恩股份有限公司 | 用于内容感知的数据分区和数据去重复的方法和设备 |
KR101073847B1 (ko) * | 2009-04-23 | 2011-10-14 | 주식회사 케이엘넷 | 전자 서식 변환 방법, 장치 및 기록매체 |
EP2483816A4 (en) * | 2009-10-02 | 2014-04-02 | Aravind Musuluri | SYSTEM AND METHOD FOR BLOCK SEGMENTING, IDENTIFICATION AND INDICATION OF VISUAL ELEMENTS AND DOCUMENT SEARCHING |
US9135264B2 (en) * | 2010-03-12 | 2015-09-15 | Copiun, Inc. | Distributed catalog, data store, and indexing |
CN102985911B (zh) | 2010-03-16 | 2016-07-06 | 科派恩股份有限公司 | 高度可伸缩和分布式重复数据删除 |
US9621405B2 (en) | 2010-08-24 | 2017-04-11 | Good Technology Holdings Limited | Constant access gateway and de-duplicated data cache server |
US9477651B2 (en) * | 2010-09-29 | 2016-10-25 | International Business Machines Corporation | Finding partition boundaries for parallel processing of markup language documents |
CN102567285A (zh) * | 2010-12-13 | 2012-07-11 | 汉王科技股份有限公司 | 一种文档加载的方法及装置 |
CN102567292A (zh) * | 2011-06-23 | 2012-07-11 | 北京新东方教育科技(集团)有限公司 | 讲义生成方法和系统 |
US9001390B1 (en) * | 2011-10-06 | 2015-04-07 | Uri Zernik | Device, system and method for identifying sections of documents |
CN103377175A (zh) * | 2012-04-26 | 2013-10-30 | Sap股份公司 | 基于分割的结构化文档转换 |
US10776376B1 (en) * | 2014-12-05 | 2020-09-15 | Veritas Technologies Llc | Systems and methods for displaying search results |
CN111966932A (zh) * | 2019-05-20 | 2020-11-20 | 富士通株式会社 | 信息处理方法和信息处理设备 |
CN112597422A (zh) * | 2020-12-30 | 2021-04-02 | 深圳市世强元件网络有限公司 | 一种pdf文件分割方法和网页中pdf文件加载方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
NO983175L (no) * | 1998-07-10 | 2000-01-11 | Fast Search & Transfer Asa | Soekesystem for gjenfinning av data |
US7051276B1 (en) * | 2000-09-27 | 2006-05-23 | Microsoft Corporation | View templates for HTML source documents |
US7051084B1 (en) * | 2000-11-02 | 2006-05-23 | Citrix Systems, Inc. | Methods and apparatus for regenerating and transmitting a partial page |
US6804677B2 (en) * | 2001-02-26 | 2004-10-12 | Ori Software Development Ltd. | Encoding semi-structured data for efficient search and browsing |
US6732090B2 (en) * | 2001-08-13 | 2004-05-04 | Xerox Corporation | Meta-document management system with user definable personalities |
US7744540B2 (en) * | 2001-11-02 | 2010-06-29 | Siemens Medical Solutions Usa, Inc. | Patient data mining for cardiology screening |
US6912555B2 (en) * | 2002-01-18 | 2005-06-28 | Hewlett-Packard Development Company, L.P. | Method for content mining of semi-structured documents |
-
2003
- 2003-07-03 CN CNA031457479A patent/CN1567303A/zh active Pending
-
2004
- 2004-07-02 JP JP2004197092A patent/JP2005025763A/ja active Pending
- 2004-07-06 US US10/883,992 patent/US20050050459A1/en not_active Abandoned
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007193660A (ja) * | 2006-01-20 | 2007-08-02 | Seiko Epson Corp | 情報管理装置、情報管理方法及びそのプログラム |
JP2008217047A (ja) * | 2007-02-28 | 2008-09-18 | Kansai Electric Power Co Inc:The | Web文書分割方法、システム及びプログラム |
JP4700637B2 (ja) * | 2007-02-28 | 2011-06-15 | 関西電力株式会社 | Web文書分割方法、システム及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
US20050050459A1 (en) | 2005-03-03 |
CN1567303A (zh) | 2005-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2005025763A (ja) | 構造化文書の分割プログラム、分割装置、及び分割方法 | |
JP4656868B2 (ja) | 構造化文書作成装置 | |
JP2005092889A (ja) | ウェブページのための情報ブロック抽出装置及び情報ブロック抽出方法 | |
US9268749B2 (en) | Incremental computation of repeats | |
US20090106298A1 (en) | Information processing method, information processing device, and information processing program | |
CN102682098B (zh) | 检测网页内容变更的方法及装置 | |
US7822788B2 (en) | Method, apparatus, and computer program product for searching structured document | |
JP2006004417A (ja) | 情報ファイルの特定のタイプを認識する方法及び装置 | |
Ferrara et al. | Automatic wrapper adaptation by tree edit distance matching | |
EP1764710A1 (en) | Layout generation method, information processing device, and program | |
US20100005058A1 (en) | Computer product, information retrieving apparatus, and information retrieving method | |
US7046847B2 (en) | Document processing method, system and medium | |
US20030229852A1 (en) | Document processing system, method and program | |
JP2005165598A (ja) | 可変長文字列検索装置及び可変長文字列検索方法並びにプログラム | |
JP4712718B2 (ja) | 配列の生成方法、及び、配列生成プログラム | |
JP5812007B2 (ja) | インデックス作成装置、データ検索装置、インデックス作成方法、データ検索方法、インデックス作成プログラムおよびデータ検索プログラム | |
JP5447368B2 (ja) | 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム | |
JP2020077236A (ja) | 探索プログラム、探索方法及び探索装置 | |
JP6662755B2 (ja) | オブジェクト検索装置、オブジェクト検索方法、および、オブジェクト検索プログラム | |
JP2012027743A (ja) | 階層構造の解析・出力方法、および、その情報処理装置、プログラム。 | |
JP4937709B2 (ja) | 構造化文書生成方法及び装置及びプログラム | |
JP6015662B2 (ja) | 空間充填曲線処理システム、空間充填曲線処理方法およびプログラム | |
JP5225331B2 (ja) | データ抽出装置及び方法 | |
JP4134824B2 (ja) | 情報処理装置及びプログラム | |
JP5628365B2 (ja) | 検索装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20051125 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20071101 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071113 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080115 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080715 |