JPH0895975A - Preparation method for logically structured document - Google Patents
Preparation method for logically structured documentInfo
- Publication number
- JPH0895975A JPH0895975A JP6231550A JP23155094A JPH0895975A JP H0895975 A JPH0895975 A JP H0895975A JP 6231550 A JP6231550 A JP 6231550A JP 23155094 A JP23155094 A JP 23155094A JP H0895975 A JPH0895975 A JP H0895975A
- Authority
- JP
- Japan
- Prior art keywords
- logical
- character
- document
- read
- logical structure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
Description
【0001】[0001]
【産業上の利用分野】本発明は、論理構造化文書の生成
方法に関し、特に任意の形式の文書データから章、節、
項などのツリー状の階層構造に再編成した論理構造化文
書を生成する論理構造化文書の生成方法に関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a method of generating a logically structured document, and particularly to a chapter, section,
The present invention relates to a logical structured document generation method for generating a logical structured document that is reorganized into a tree-like hierarchical structure such as terms.
【0002】[0002]
【従来の技術】従来、論理構造化文書を生成する方法と
して、特開平4−175966号公報のように文書デー
タを対象に、本文中の章、節、項に対応した見出し記号
を解析することにより、木状の論理構造を自動的に生成
する方法がある。2. Description of the Related Art Conventionally, as a method for generating a logically structured document, as shown in Japanese Unexamined Patent Publication No. 4-175966, the heading symbols corresponding to chapters, sections and sections in the text are analyzed. There is a method for automatically generating a tree-like logical structure.
【0003】この方法では、文字コードで表されている
文書データを入力し、文書データから見出し及び見出し
ごとの本文を抽出し、その抽出した見出しから見出し記
号を取り出し、次いで、見出し記号の意味を解析し、親
子関係の階層的構造で表現される文書の論理構造を生成
するものであり、一次元に並んだ文字列で表現されてい
る文書ファイルを階層的な木構造に変換することができ
る。In this method, document data represented by a character code is input, a headline and a body of each headline are extracted from the document data, a headline symbol is extracted from the extracted headline, and then the meaning of the headline symbol is determined. It analyzes and generates a logical structure of a document expressed by a hierarchical structure of parent-child relationships, and can convert a document file expressed by a one-dimensional string of characters into a hierarchical tree structure. .
【0004】[0004]
【発明が解決しようとする課題】しかし、上記従来技術
にあっては、文書データ中に章、節、項を表わすような
見出し記号が存在するのを前提としているため、これら
の見出し記号が存在しない文書データについては、論理
構造化文書を生成することができないという問題があっ
た。However, in the above-mentioned prior art, since it is premised that the document data has heading symbols representing chapters, sections, and terms, these heading symbols are present. As for the document data that does not exist, there is a problem that a logical structured document cannot be generated.
【0005】また、複数の文書データが存在し、各々の
文書データによってその見出し記号に記載上のばらつき
がある場合、同一処理で文書の論理構造化を行うことが
できないという問題があった。Further, when there are a plurality of pieces of document data and there is a variation in the entry mark depending on the respective pieces of document data, there is a problem that the document cannot be logically structured by the same process.
【0006】本発明の目的は、文書データ中の見出し記
号に有無に関わらず、文書データを階層構造に再編成し
た論理構造化文書を容易に生成することができ、また見
出し記号の記載の仕方にばらつきがあっても、同一処理
により論理構造化文書を効率良く生成することができる
論理構造化文書の生成方法を提供することにある。It is an object of the present invention to easily generate a logical structured document in which document data is reorganized into a hierarchical structure regardless of the presence or absence of the index mark in the document data, and a method of describing the index mark. It is an object of the present invention to provide a logically structured document generation method capable of efficiently generating a logically structured document by the same process even if there are variations in the same.
【0007】[0007]
【課題を解決するための手段】本発明は、上述の目的を
達成するために、目的とする文書を構成する章などの各
要素を示す要素キーと、各要素に対して文字を対応付け
ることを示す文字キーとを、目的とする論理構造に対応
付けて文書型データファイルに予め定義しておき、この
文書型データファイルの定義内容を解析し、目的とする
文書の論理構造を示す論理構造テーブルを作成したう
え、前記任意の形式の文書データを解析し、文書データ
を構成する文字を所定の区切り記号によって論理単位に
分割した文字の論理単位テーブルを作成し、これら論理
構造テーブルおよび文字の論理単位テーブルの内容に基
づき、前記文字キーに対応する論理単位の文字に対して
前記要素キーで示される見出しマークを付加した論理構
造化文書を生成することを特徴とする。In order to achieve the above-mentioned object, the present invention is to associate an element key indicating each element such as a chapter constituting a target document with a character with each element. A character key to be shown is defined in advance in a document type data file in association with a target logical structure, the definition contents of this document type data file are analyzed, and a logical structure table showing the logical structure of the target document. And analyzing the document data of the arbitrary format, and creating a logical unit table of characters obtained by dividing the characters forming the document data into logical units by a predetermined delimiter. Based on the contents of the unit table, a logical structured document in which a heading mark indicated by the element key is added to a character of a logical unit corresponding to the character key is generated. And wherein the door.
【0008】[0008]
【作用】本発明によれば、文書型データファイルの定義
内容を解析し、目的とする文書の論理構造を示す論理構
造テーブルを作成し、さらに任意の形式の文書データを
解析し、文書データを構成する文字を所定の区切り記号
によって論理単位に分割した文字の論理単位テーブルを
作成する。According to the present invention, the definition contents of the document type data file are analyzed, a logical structure table showing the logical structure of the target document is created, and further the document data of an arbitrary format is analyzed to convert the document data. A logical unit table of characters is created by dividing the constituent characters into logical units by a predetermined delimiter.
【0009】そして、論理構造テーブルを検索し、要素
キーが抽出されたならば該要素キーに対応する見出し記
号を出力し、さらに文字キーが抽出されたならば該文字
キーに対応する論理単位の文字を文字の論理単位テーブ
ルから抽出し、見出し記号の後に出力する処理を繰り返
す。Then, the logical structure table is searched, and if the element key is extracted, the heading symbol corresponding to the element key is output. If the character key is further extracted, the logical unit corresponding to the character key is extracted. The process of extracting characters from the logical unit table of characters and outputting after the heading symbol is repeated.
【0010】これにより、前記文字キーに対応する論理
単位の文字に対して前記要素キーで示される見出しマー
クを付加した論理構造化文書が生成される。As a result, a logical structured document in which the heading mark indicated by the element key is added to the character of the logical unit corresponding to the character key is generated.
【0011】[0011]
【実施例】以下、本発明の実施例を図面により具体的に
説明する。Embodiments of the present invention will now be described in detail with reference to the drawings.
【0012】図1は、本発明の一実施例を示すシステム
ブロック図であり、文書型データファイル100、文書
データファイル101、論理構造か文書データファイル
107、入出力制御部108、入力装置112、表示装
置113、出力装置114とから成る。FIG. 1 is a system block diagram showing an embodiment of the present invention. A document type data file 100, a document data file 101, a logical structure or document data file 107, an input / output control unit 108, an input device 112, The display device 113 and the output device 114 are included.
【0013】このうち、文書操作制御部102は、文書
型データ解析部103、テーブル格納部104、文書デ
ータ解析部105、論理構造化文書データ生成部106
から成り、また入出力制御部108は文書出力制御部1
09、文書表示制御部110、ユーザインタフェース1
11から構成されている。Of these, the document operation control unit 102 includes a document type data analysis unit 103, a table storage unit 104, a document data analysis unit 105, and a logical structured document data generation unit 106.
And the input / output control unit 108 is a document output control unit 1.
09, document display control unit 110, user interface 1
It is composed of 11.
【0014】この構成においては、文書型データ解析部
103は文書型データファイル100に格納された文書
型データを解析し、論理構造化文書データの生成に必要
な要素の論理構造テーブルをテーブル格納部104に作
成する。In this configuration, the document type data analysis unit 103 analyzes the document type data stored in the document type data file 100, and stores the logical structure table of the elements necessary for generating the logical structured document data in the table storage unit. Create in 104.
【0015】また、文書データ解析部105は、文書デ
ータファイル101に格納された文書データを解析し、
論理構造化文書データの生成に必要な文字の論理単位テ
ーブルをテーブル格納部104に作成する。Further, the document data analysis unit 105 analyzes the document data stored in the document data file 101,
A logical unit table of characters required for generating logical structured document data is created in the table storage unit 104.
【0016】そして、論理構造化文書データ生成部10
6は、テーブル格納部104の要素の論理構造テーブル
および文字の論理単位テーブルを抽出し、論理構造化文
書データを生成し、論理構造化文書データファイル10
7に出力する。Then, the logical structured document data generation unit 10
Reference numeral 6 extracts a logical structure table of elements and a logical unit table of characters in the table storage unit 104 to generate logical structured document data, and a logical structured document data file 10
Output to 7.
【0017】入力装置112は、入出力制御部108の
ユーザインタフェース111を通じて、文書操作制御部
102に対して指示を与える。また、入出力制御部10
8は入力装置112からの指示に従い、文書表示制御部
110を通じて表示装置113への表示出力を行うと共
に、文書出力制御部109を通じて出力装置114への
印刷出力を行う。The input device 112 gives an instruction to the document operation control unit 102 through the user interface 111 of the input / output control unit 108. Also, the input / output control unit 10
In response to an instruction from the input device 112, the display device 8 outputs a display output to the display device 113 through the document display control unit 110 and a print output to the output device 114 through the document output control unit 109.
【0018】次に、文書型データ解析部103において
文書型データにおける要素の論理構造テーブルを生成す
る動作について図2のフローチャートを用いて説明す
る。Next, the operation of generating a logical structure table of elements in document type data in the document type data analysis unit 103 will be described with reference to the flowchart of FIG.
【0019】まず、ステップ200で、文書型を表わす
ためのキーを指定する。First, in step 200, a key for representing a document type is designated.
【0020】例えば、文書型を表わすキーとして「文書
型:」や「DOCTYPE」といったものを用いる。次
に、ステップ201で、要素を表わすためのキーを指定
する。例えば、要素を表わすキーとして「要素:」や
「ELEMENT」といったものを用いる。For example, "document type:" or "DOCTYPE" is used as a key indicating the document type. Next, in step 201, a key for representing the element is designated. For example, a key such as "element:" or "ELEMENT" is used as a key representing an element.
【0021】次に、ステップ202で、文字データを表
わすためのキーを指定する。Next, at step 202, a key for representing character data is designated.
【0022】例えば、文字データを表わすキーとして
「#文字データ」や「#PCDATA」といったものを
用いる。For example, keys such as "#character data" and "#PCDATA" are used as keys representing the character data.
【0023】次に、ステップ203で文書型データがな
くなるまで、ステップ204で要素の論理構造を生成す
る。Next, in step 204, a logical structure of elements is generated until there is no document type data.
【0024】ステップ204を詳しく説明すると、まず
ステップ205で文書型キーを抽出できたかどうか判別
し、ステップ206で文書型名を抽出し、それをステッ
プ207で最上位要素としてテーブル格納部104に登
録する。The step 204 will be described in detail. First, in step 205, it is determined whether or not the document type key can be extracted, in step 206, the document type name is extracted, and in step 207, the document type name is registered in the table storage unit 104 as the top element. To do.
【0025】また、ステップ208で要素キーを抽出で
きたかどうか判別し、ステップ209で要素名を抽出
し、それをステップ210で要素としてテーブル格納部
104に登録する。そして、ステップ211その要素名
に対する内容モデルを抽出し、ステップ212で下位要
素、接続関係、及び出現回数をテーブル格納部104に
登録する。Further, it is determined in step 208 whether or not the element key can be extracted, the element name is extracted in step 209, and it is registered in the table storage unit 104 as an element in step 210. Then, in step 211, the content model corresponding to the element name is extracted, and in step 212, the subordinate element, the connection relationship, and the number of appearances are registered in the table storage unit 104.
【0026】図3は文書型データ解析部103における
処理前の文書型データ300の一例と処理後の要素の論
理構造311の具体例を示す図である。FIG. 3 is a diagram showing an example of the document type data 300 before processing and the logical structure 311 of the element after processing in the document type data analysis unit 103.
【0027】ここでは、「文書型:」が文書型キー30
1であり、その次に現れた「標準」が文書型名302で
ある。この文書型名の「標準」が最上位要素となる。Here, "document type:" is the document type key 30.
The document type name 302 is 1, and the “standard” that appears next is 1. The "standard" of this document type name is the highest level element.
【0028】また、「要素:」が要素キー303であ
り、その次に現れた「標準」が要素名304である。そ
して、その次の「タイトル」が下位要素名305であ
り、「,」が接続関係306である。"Element:" is the element key 303, and "standard" that appears next is the element name 304. The next "title" is the lower element name 305, and "," is the connection relation 306.
【0029】ここで、接続関係306を表わす符号とし
ては、「,」、「|」、「&」がある。Here, the symbols representing the connection relation 306 include ",", "|", and "&".
【0030】「,」は、内容モデルに現れたのと同じ順
ですべての要素が現れなければいけないことを指定する
場合に用い、「|」は内容モデルの中の一つの要素だけ
が現れなければならないことを指定する場合に用い、
「&」は内容モデルの中のすべての要素が現れなければ
ならないが、順を問わないことを指定する場合に用い
る。"," Is used to specify that all elements must appear in the same order that they appeared in the content model, and "|" must appear in only one element in the content model. Used to specify that it must be
"&" Is used to specify that all elements in the content model must appear, but in no particular order.
【0031】次に、「章」が下位要素名307であり、
「+」が出現回数308を指定するものである。Next, the "chapter" is the lower element name 307,
“+” Designates the number of appearances 308.
【0032】ここで、出現回数308には「?」、
「+」、「*」がある。Here, the number of appearances 308 is "?",
There are "+" and "*".
【0033】「?」は任意選択(0回又は1回)を指定
する場合に用い、「+」は必須反復(1回以上)を指定
する場合に用い、「*」は任意選択反復(0回以上)を
指定する場合に用いる。また、必須(1回)を指定する
場合は出現回数「?」、「+」、「*」を用いない。そ
して、要素名305から出現回数308までの「(」と
「)」で囲まれいるもが内容モデル309である。"?" Is used to specify an optional selection (0 times or 1 time), "+" is used to specify an essential repetition (1 or more times), and "*" is an optional repetition (0 times). Used more than once). Also, when mandatory (one time) is designated, the number of appearances “?”, “+”, And “*” are not used. The content model 309 is enclosed by "(" and ")" from the element name 305 to the appearance count 308.
【0034】また、「#文字データ」が文字データキー
310である。この文書型キー310は内容モデル30
9内に繰返し出現する要素名が記述される時は、その要
素名別に指定される。すなわち、図3の例においては、
内容モデル309内の要素名は「タイトル」305、
「章」307であるが、「章」307は1回以上繰返し
出現し、その中が「章タイトル」、「段落」、「節」に
よって構成されることが指定されているので、文字デー
タキー310の後段で「章タイトル」および「段落」を
表わす文字データキーがさらに階層的に記述される。Further, “#character data” is the character data key 310. This document type key 310 is the content model 30.
When the element name that appears repeatedly in 9 is described, it is designated for each element name. That is, in the example of FIG.
The element name in the content model 309 is "Title" 305,
Although it is a "chapter" 307, the "chapter" 307 appears repeatedly one or more times, and since it is specified that it is composed of "chapter title", "paragraph", and "section", the character data key In the latter part of 310, character data keys representing “chapter title” and “paragraph” are described further hierarchically.
【0035】このように表現された文書型データを解析
した結果、同図に示すような要素の論理構造テーブル3
11が作成される。As a result of analyzing the document type data expressed in this way, the logical structure table 3 of the elements as shown in FIG.
11 is created.
【0036】この論理構造テーブル311において、
「標準」312は、「タイトル」313と「章」315
から成り、「タイトル」313は0個以上の「#文字デ
ータ」314から構成される。また、「章」315は1
個以上の「章タイトル」316と「段落」318と
「節」の320から成り立ち、「章タイトル」316は
0個以上の「#文字データ」317から成り立ち、「段
落」318は0個以上の「#文字データ」319から成
り立ち、「節」320は1個以上の「段落」の321か
ら成り立ち、「段落」321は0個以上の「#文字デー
タ」の323から成り立つ。In this logical structure table 311,
"Standard" 312 is "Title" 313 and "Chapter" 315
The “title” 313 is composed of zero or more “# character data” 314. Also, "chapter" 315 is 1
It consists of 320 or more "chapter titles" 316, "paragraphs" 318 and "sections", "chapter title" 316 consists of 0 or more "# character data" 317, and "paragraphs" 318 contains 0 or more. It is composed of "# character data" 319, "section" 320 is composed of one or more "paragraphs" 321, and "paragraph" 321 is composed of 0 or more "# character data" 323.
【0037】ここで、矩形324は出現回数が「?」
(0または1個)、矩形325は出現回数が「*」(0
個以上)、矩形326は出現回数が「 」(1個)、矩
形327は出現回数が「+」(1個以上)であることを
示している。Here, the number of appearances of the rectangle 324 is "?".
(0 or 1), the number of appearances of the rectangle 325 is “*” (0
The number of appearances is "" (one), and the rectangle 327 indicates that the number of appearances is "+" (one or more).
【0038】次に、文書データ解析部105において文
書データファイル101に格納された文書データから文
字の論理単位テーブル502を生成する動作について図
4を用いて説明する。Next, the operation of generating the logical unit table 502 of characters from the document data stored in the document data file 101 in the document data analysis unit 105 will be described with reference to FIG.
【0039】まず、ステップ400で、区切りを表わす
ための文字を指定する。例えば、区切りを表わす文字と
して「改行文字」や「タブ文字」や「スペース」といっ
た文字を指定する。First, in step 400, a character for indicating a delimiter is designated. For example, a character such as "line feed character", "tab character", or "space" is designated as a character representing a delimiter.
【0040】次に、ステップ401で文書データがなく
なるまで、ステップ402で文字の論理単位テーブル5
02を生成する。Next, in step 402, the logical unit table 5 of characters is used until there is no document data in step 401.
02 is generated.
【0041】ステップ402を詳しく説明すると、ま
ず、ステップ403で区切り文字を抽出できたかどうか
判別し、ステップ404で区切り文字までの文書データ
を抽出し、それをステップ405で文字の論理単位テー
ブル502としてテーブル格納部104に登録する。Explaining step 402 in detail, first, in step 403, it is judged whether or not the delimiter character can be extracted, and in step 404, the document data up to the delimiter character is extracted, and in step 405 it is used as a character logical unit table 502. Register in the table storage unit 104.
【0042】図5は、文書データ解析部105における
処理前の文書データ500と処理後の文字の論理単位テ
ーブル502の具体例を示す図である。FIG. 5 is a diagram showing a specific example of the document data 500 before processing and the logical unit table 502 of characters after processing in the document data analysis unit 105.
【0043】この例では、「改行文字」501を区切り
文字として使用している。In this example, "line feed character" 501 is used as a delimiter.
【0044】まず、「特許」503は1つ目の論理単位
の文字である。「1章 発明の名称」504は2つ目の
論理単位の文字である。「論理構造化文書の生成方法」
505は3つ目の論理単位の文字である。First, "patent" 503 is the character of the first logical unit. "Chapter 1 Title of Invention" 504 is the character of the second logical unit. "Method of generating logical structured document"
Reference numeral 505 is a character of the third logical unit.
【0045】「2章 特許請求の範囲」506は4つ目
の論理単位の文字である。また、「1.文書型データを
基に・・・」507は5つ目の論理単位の文字である。
さらに、「2.既存文書データに対して・・・」508
は6つ目の論理単位の文字であり、「3.マーク付けを
行う。」509は7つ目の論理単位の文字である。"Chapter 2 Claims" 506 is the character of the fourth logical unit. Further, “1. based on document type data ...” 507 is a character of the fifth logical unit.
Furthermore, “2. For existing document data ...” 508
Is the character of the sixth logical unit, and “3. Mark.” 509 is the character of the seventh logical unit.
【0046】図6は、論理構造化文書データ生成部10
6の論理構造化文書を生成する手順を示すフローチャー
トである。以下、このフローチャートに基づいて論理構
造化文書を生成する動作について説明する。FIG. 6 shows the logical structured document data generation unit 10
6 is a flowchart showing a procedure for generating the logical structured document of No. 6. The operation of generating a logical structured document will be described below based on this flowchart.
【0047】まず、ステップ600でマーク付け方法を
指定する。マーク付けの方法としては、順次マーク付
け、必須マーク付け、キー対応順次マーク付け、キー対
応必須マーク付けなどがある。次に、ステップ201で
開始・終了マークを指定する。First, in step 600, a marking method is designated. Marking methods include sequential marking, mandatory marking, key-based sequential marking, and key-based mandatory marking. Next, in step 201, start / end marks are designated.
【0048】例えば、開始マークとして「数値.」や
「<要素名>」といったものを用いる。また、終了マー
クとして「</要素名>」といったものを用いる。For example, "numerical value." Or "<element name>" is used as the start mark. Also, a mark such as "</ element name>" is used as the end mark.
【0049】次に、ステップ602で論理構造化文書を
生成する。すなわち、ステップ603で最上位要素の開
始マークを出力する。Next, in step 602, a logical structured document is generated. That is, in step 603, the start mark of the highest element is output.
【0050】ステップ604で次の論理構造要素が最上
位要素になるまでの間、ステップ605で指定されたマ
ーク付け方法の条件を現在の論理構造要素が満たしてい
るかどうか判別し、ステップ606で現在の論理構造要
素が何回構造上に出現したのか判別し、偶数回目ならス
テップ607で現在の論理構造要素の終了マークを出力
する。In step 604, it is determined whether or not the current logical structure element satisfies the condition of the marking method specified in step 605 until the next logical structure element becomes the uppermost element, and in step 606, It is determined how many times the logical structuring element has appeared in the structure. If it is an even number, the end mark of the current logical structuring element is output in step 607.
【0051】しかし、奇数回目ならステップ608で現
在の論理構造要素の開始マークを出力し、ステップ60
9で要素と対応していない論理単位の文字が残っている
かどうか判別し、ステップ610で現在の論理構造要素
の下位要素に#文字データがあるかどうか判別し、ステ
ップ611で論理単位に区切られた文字を出力する。そ
して、ステップ612で最上位要素の終了マークを出力
する。However, if it is the odd number, the start mark of the current logical structure element is output in step 608, and step 60
In step 9, it is determined whether or not there is a character in a logical unit that does not correspond to the element. In step 610, it is determined whether or not there is # character data in the lower element of the current logical structure element. Output characters. Then, in step 612, the end mark of the top element is output.
【0052】図7は、順次マーク付け方法によって生成
される論理構造化文書データ700の具体例を示す図で
ある。FIG. 7 is a diagram showing a specific example of the logical structured document data 700 generated by the sequential marking method.
【0053】ここでは、「<標準>」が開始マーク70
1であり、「</タイトル>」が終了マーク702であ
る。図3で示した文書型データ300と図5で示した文
書データ500から、図6で示したマーク付け指定方法
として「順次マーク付け」を指定した場合、図7に示す
ような論理構造化文書データ(順次マーク付け)700
となる。Here, "<standard>" is the start mark 70.
1, and “</ title>” is the end mark 702. When "sequential mark" is designated as the mark designation method shown in FIG. 6 from the document type data 300 shown in FIG. 3 and the document data 500 shown in FIG. 5, a logical structured document as shown in FIG. Data (sequential mark) 700
Becomes
【0054】以下、このような論理構造化文書データ7
00が生成される過程を、図3の要素の論理構造テーブ
ル311と図5の文字の論理単位テーブル502、並び
に図8の論理構造テーブルでの要素の出現順番を示す図
を参照しつつ説明する。Hereinafter, such logical structured document data 7 will be described.
00 will be described with reference to the logical structure table 311 of the elements of FIG. 3, the logical unit table 502 of characters of FIG. 5, and the diagram showing the order of appearance of the elements in the logical structure table of FIG. .
【0055】なお、図8の900は要素の出現順番を示
すものであり、901は出力文字を示す。Note that 900 in FIG. 8 indicates the appearance order of elements, and 901 indicates output characters.
【0056】まず、要素の論理構造テーブル311より
最上位要素を読み込む。すると、最上位要素は「標準」
312であるので、「標準」312の開始マーク「<標
準>」を出力する。First, the top element is read from the element logical structure table 311. Then the top element is "standard"
Since it is 312, the start mark “<standard>” of “standard” 312 is output.
【0057】次に、要素の論理構造テーブル311より
「標準」312の下位要素を読み込む。下位要素は「タ
イトル」313である。Next, the lower element of the "standard" 312 is read from the element logical structure table 311. The lower element is “title” 313.
【0058】「タイトル」313は1度目の出現なの
で、開始マーク「<タイトル>」を出力する。次に、要
素の論理構造テーブル311より「タイトル」313の
下位要素を読み込む。Since the "title" 313 appears for the first time, the start mark "<title>" is output. Next, the lower element of the “title” 313 is read from the element logical structure table 311.
【0059】下位要素は「#文字データ」314であ
る。下位要素が「#文字データ」314であるので、文
字の論理単位テーブル502より要素に対応していない
論理単位の文字「特許」503を出力する。The lower element is “#character data” 314. Since the lower element is “#character data” 314, the character “patent” 503 of the logical unit that does not correspond to the element is output from the character logical unit table 502.
【0060】次に、要素の論理構造テーブル311より
「#文字データ」314の下位要素を読み込む。図3の
例では下位要素は存在しない。Next, the lower element of "#character data" 314 is read from the element logical structure table 311. In the example of FIG. 3, there are no subordinate elements.
【0061】次に、要素の論理構造テーブル311より
「#文字データ」314の同位要素を読み込む。同位要
素は存在しない。Next, the peer element of "#character data" 314 is read from the element logical structure table 311. There is no peer element.
【0062】次に、要素の論理構造テーブル311より
「#文字データ」314の上位要素を読み込む。上位要
素は「タイトル」313である。Next, the upper element of "#character data" 314 is read from the element logical structure table 311. The upper element is “title” 313.
【0063】「タイトル」313は2度目の出現なの
で、終了マーク「</タイトル>」を出力する。Since the "title" 313 appears for the second time, the end mark "</ title>" is output.
【0064】次に、要素の論理構造テーブル311より
「タイトル」313の同位要素を読み込む。Next, the sibling element of the "title" 313 is read from the element logical structure table 311.
【0065】同位要素は「章」315である。「章」3
15は1度目の出現なので、開始マーク「<章>」を出
力する。次に、要素の論理構造テーブル311より
「章」315の下位要素を読み込む。The peer element is “chapter” 315. "Chapter" 3
Since 15 is the first appearance, the start mark "<chapter>" is output. Next, the lower element of the “chapter” 315 is read from the element logical structure table 311.
【0066】下位要素は「章タイトル」316である。
「章タイトル」316は1度目の出現であるので、開始
マーク「<章タイトル>」を出力する。次に、要素の論
理構造(テーブル)311より「章タイトル」316の
下位要素を読み込む。The lower element is the "chapter title" 316.
Since the "chapter title" 316 is the first appearance, the start mark "<chapter title>" is output. Next, the lower element of the "chapter title" 316 is read from the logical structure (table) 311 of the element.
【0067】下位要素は「#文字データ」317であ
る。下位要素が「#文字データ」317であるので、文
字の論理単位テーブル502より要素に対応していない
論理単位の文字「1章 発明の名称」504を読み込ん
で出力する。The lower element is “#character data” 317. Since the lower element is “#character data” 317, the character “Chapter 1 Invention name” 504 of the logical unit that does not correspond to the element is read from the character logical unit table 502 and output.
【0068】次に、要素の論理構造テーブル311より
「#文字データ」317の下位要素を読み込む。下位要
素は存在しない。Next, the lower element of "#character data" 317 is read from the element logical structure table 311. There are no subelements.
【0069】次に、要素の論理構造テーブル311より
「#文字データ」317の同位要素を読み込む。同位要
素は存在しない。Next, the peer element of "#character data" 317 is read from the element logical structure table 311. There is no peer element.
【0070】次に、要素の論理構造テーブル311より
「#文字データ」317の上位要素を読み込む。上位要
素は「章タイトル」316である。Next, the upper element of "#character data" 317 is read from the element logical structure table 311. The upper element is “chapter title” 316.
【0071】「章タイトル」316は2度目の出現なの
で、終了マーク「</章タイトル>」を出力する。Since the "chapter title" 316 appears for the second time, the end mark "</ chapter title>" is output.
【0072】次に、要素の論理構造テーブル311より
「章タイトル」316の同位要素を読み込む。Next, the sibling elements of the "chapter title" 316 are read from the element logical structure table 311.
【0073】同位要素は「段落」318である。「段
落」318は1度目の出現であるので、開始マーク「<
段落>」を出力する。次に、要素の論理構造テーブル3
11より「段落」318の下位要素を読み込む。The peer element is “paragraph” 318. Since the “paragraph” 318 is the first appearance, the start mark “<
Paragraph> ”is output. Next, the element logical structure table 3
The lower element of “paragraph” 318 is read from 11.
【0074】下位要素は「#文字データ」319であ
る。下位要素が「#文字データ」319であるので、文
字の論理単位テーブル502より要素に対応していない
論理単位の文字「論理構造化文書生成方法(装置)」5
05を読み込んで出力する。The lower element is “#character data” 319. Since the lower element is “#character data” 319, the character “logical structured document generation method (apparatus)” 5 of the logical unit that does not correspond to the element from the logical unit table 502 of the character 5
05 is read and output.
【0075】次に、要素の論理構造テーブル311より
「#文字データ」319の下位要素を読み込む。下位要
素は存在しない。Next, the lower element of "#character data" 319 is read from the element logical structure table 311. There are no subelements.
【0076】次に、要素の論理構造テーブル311より
「#文字データ」319の同位要素を読み込む。同位要
素は存在しない。次に、要素の論理構造(テーブル)3
11より「#文字データ」319の上位要素を読み込
む。上位要素は「段落」318である。Next, the peer element of "#character data" 319 is read from the element logical structure table 311. There is no peer element. Next, the logical structure (table) 3 of the element
The upper element of “#character data” 319 is read from 11. The upper element is “paragraph” 318.
【0077】「段落」318は2度目の出現であるの
で、終了マーク「</段落>」を出力する。次に、要素
の論理構造テーブル311より「段落」318の同位要
素を読み込む。同位要素は「節」320である。Since the "paragraph" 318 is the second appearance, the end mark "</ paragraph>" is output. Next, the peer element of the "paragraph" 318 is read from the element logical structure table 311. The peer element is a “section” 320.
【0078】「節」320は1度目の出現であるので、
開始マーク「<節>」を出力する。Since the "section" 320 is the first appearance,
The start mark "<section>" is output.
【0079】次に、要素の論理構造テーブル311より
「節」320の下位要素を読み込む。下位要素は「段
落」321である。Next, the lower element of the "section" 320 is read from the element logical structure table 311. The lower element is “paragraph” 321.
【0080】「段落」321は1度目の出現であるの
で、開始マーク「<段落>」を出力する。次に要素の論
理構造テーブル311より「段落」321の下位要素を
読み込む。Since the "paragraph" 321 is the first appearance, the start mark "<paragraph>" is output. Next, the lower element of the "paragraph" 321 is read from the element logical structure table 311.
【0081】下位要素は「#文字データ」323であ
る。下位要素が「#文字データ」323であるので、文
字の論理単位テーブル502より要素に対応していない
論理単位の文字「2章 特許請求の範囲」506を読み
込んで出力する。The lower element is “#character data” 323. Since the lower element is “#character data” 323, the character “Chapter 2 Claims” 506 of the logical unit that does not correspond to the element is read and output from the logical unit table 502 of the character.
【0082】次に、要素の論理構造テーブル311より
「#文字データ」323の下位要素を読み込む。下位要
素は存在しない。次に、要素の論理構造テーブル311
より「#文字データ」323の同位要素を読み込む。同
位要素は存在しない。Next, the lower element of "#character data" 323 is read from the element logical structure table 311. There are no subelements. Next, the element logical structure table 311
Then, the same element of “#character data” 323 is read. There is no peer element.
【0083】次に、要素の論理構造テーブル311より
「#文字データ」323の上位要素を読み込む。上位要
素は「段落」321である。Next, the upper element of “#character data” 323 is read from the element logical structure table 311. The upper element is “paragraph” 321.
【0084】「段落」321は2度目の出現なので、終
了マーク「</段落>」を出力する。Since the "paragraph" 321 appears for the second time, the end mark "</ paragraph>" is output.
【0085】次に、要素の論理構造テーブル311より
「段落」321の同位要素を読み込む。Next, the peer element of the "paragraph" 321 is read from the element logical structure table 311.
【0086】「段落」321は出現回数が1個以上であ
るので、同位要素は「段落」321である。「段落」3
21は3度目の出現であるので、開始マーク「<段落
>」を出力する。Since the “paragraph” 321 has one or more occurrences, the peer element is the “paragraph” 321. "Paragraph" 3
Since 21 is the third appearance, the start mark “<paragraph>” is output.
【0087】次に、要素の論理構造テーブル311より
「段落」321の下位要素を読み込む。下位要素は「#
文字データ」323である。下位要素が「#文字デー
タ」323であるので、文字の論理単位テーブル502
より要素に対応していない論理単位の文字「1.文書型
データを基にした・・・」507を読み込んで出力す
る。Next, the lower element of the "paragraph" 321 is read from the element logical structure table 311. The lower element is "#
Character data ”323. Since the lower element is “#character data” 323, the character logical unit table 502
The character "1. Based on document type data ..." 507 in a logical unit that does not correspond to an element is read and output.
【0088】次に、要素の論理構造テーブル311より
「#文字データ」323の下位要素を読み込む。下位要
素は存在しない。次に、要素の論理構造テーブル311
より「#文字データ」323の同位要素を読み込む。同
位要素は存在しない。Next, the lower element of "#character data" 323 is read from the element logical structure table 311. There are no subelements. Next, the element logical structure table 311
Then, the same element of “#character data” 323 is read. There is no peer element.
【0089】次に、要素の論理構造テーブル311より
「#文字データ」323の上位要素を読み込む。上位要
素は「段落」321である。「段落」321は4度目の
出現であるので、終了マーク「</段落>」を出力す
る。Next, the upper element of “#character data” 323 is read from the element logical structure table 311. The upper element is “paragraph” 321. Since the “paragraph” 321 is the fourth appearance, the end mark “</ paragraph>” is output.
【0090】次に、要素の論理構造テーブル311より
「段落」321の同位要素を読み込む。「段落」321
は出現回数が1個以上となっているので、同位要素は
「段落」321である。「段落」321は5度目の出現
であるので、開始マーク「<段落>」を出力する。Next, the peer element of the "paragraph" 321 is read from the element logical structure table 311. "Paragraph" 321
Since the appearance frequency is 1 or more, the peer element is “paragraph” 321. Since the “paragraph” 321 is the fifth appearance, the start mark “<paragraph>” is output.
【0091】次に、要素の論理構造テーブル311より
「段落」321の下位要素を読み込む。下位要素は「#
文字データ」323である。下位要素が「#文字デー
タ」323であるので、文字の論理単位テーブル502
より要素に対応していない論理単位の文字「2.既存文
書データに対して・・・」508を読み込んで出力す
る。Next, the lower element of the "paragraph" 321 is read from the element logical structure table 311. The lower element is "#
Character data ”323. Since the lower element is “#character data” 323, the character logical unit table 502
The character "2. For existing document data ..." 508 in a logical unit that does not correspond to an element is read and output.
【0092】次に、要素の論理構造テーブル311より
「#文字データ」323の下位要素を読み込む。下位要
素は存在しない。Next, the lower element of "#character data" 323 is read from the element logical structure table 311. There are no subelements.
【0093】次に、要素の論理構造テーブル311より
「#文字データ」323の同位要素を読み込む。同位要
素は存在しない。Next, the peer element of "#character data" 323 is read from the element logical structure table 311. There is no peer element.
【0094】次に、要素の論理構造テーブル311より
「#文字データ」323の上位要素を読み込む。上位要
素は「段落」321である。「段落」321は6度目の
出現であるので、終了マーク「</段落>」を出力す
る。要素の論理構造テーブル311より「段落」321
の同位要素を読み込む。Next, the upper element of "#character data" 323 is read from the element logical structure table 311. The upper element is “paragraph” 321. Since the “paragraph” 321 is the sixth appearance, the end mark “</ paragraph>” is output. “Paragraph” 321 from the logical structure table 311 of the element
Read the peer elements of.
【0095】「段落」321は出現回数が1個以上とな
っているので、同位要素は「段落」321である。「段
落」321は7度目の出現であるので、開始マーク「<
段落>」を出力する。Since the “paragraph” 321 has one or more occurrences, the peer element is the “paragraph” 321. Since the “paragraph” 321 is the seventh appearance, the start mark “<
Paragraph> ”is output.
【0096】次に、要素の論理構造テーブル311より
「段落」321の下位要素を読み込む。下位要素は「#
文字データ」323である。下位要素が「#文字デー
タ」323であるので、文字の論理単位テーブル502
より要素に対応していない論理単位の文字「3.マーク
付けを行う。」509を読み込んで出力する。Next, the lower element of the "paragraph" 321 is read from the element logical structure table 311. The lower element is "#
Character data ”323. Since the lower element is “#character data” 323, the character logical unit table 502
The logical unit character "3. Mark." 509 that does not correspond to the element is read and output.
【0097】次に、要素の論理構造テーブル311より
「#文字データ」323の下位要素を読み込む。下位要
素は存在しない。次に、要素の論理構造テーブル311
より「#文字データ」323の同位要素を読み込む。同
位要素は存在しない。Next, the lower element of “#character data” 323 is read from the element logical structure table 311. There are no subelements. Next, the element logical structure table 311
Then, the same element of “#character data” 323 is read. There is no peer element.
【0098】次に、要素の論理構造テーブル311より
「#文字データ」323の上位要素を読み込む。上位要
素は「段落」321である。「段落」321は8度目の
出現であるので、終了マーク「</段落>」を出力す
る。Next, the upper element of “#character data” 323 is read from the element logical structure table 311. The upper element is “paragraph” 321. Since the “paragraph” 321 is the eighth appearance, the end mark “</ paragraph>” is output.
【0099】次に、要素の論理構造テーブル311より
「段落」321の同位要素を読み込む。「段落」321
は出現回数が1個以上となっているので、同位要素は
「段落」321である。しかし、文字の論理単位テーブ
ル502の論理単位の文字が要素とすべて対応したの
で、「段落」321は条件を満足しない。図8では、こ
の時の「段落」321を符号902で示している。Next, the peer element of the "paragraph" 321 is read from the element logical structure table 311. "Paragraph" 321
Since the appearance frequency is 1 or more, the peer element is “paragraph” 321. However, since the characters of the logical unit of the logical unit table 502 of characters correspond to all the elements, the “paragraph” 321 does not satisfy the condition. In FIG. 8, the “paragraph” 321 at this time is indicated by reference numeral 902.
【0100】次に、要素の論理構造テーブル311より
「段落」321以外の「段落」321の同位要素を読み
込む。同位要素は存在しない。次に、要素の論理構造テ
ーブル311より「段落」321の上位要素を読み込
む。上位要素は「節」320である。Next, the peer elements of the "paragraph" 321 other than the "paragraph" 321 are read from the element logical structure table 311. There is no peer element. Next, the upper element of the “paragraph” 321 is read from the element logical structure table 311. The upper element is “section” 320.
【0101】「節」320は2度目の出現であるので、
終了マーク「</節>」を出力する。Since the "section" 320 is the second appearance,
Outputs the end mark "</ section>".
【0102】次に、要素の論理構造テーブル311より
「節」320の同位要素を読み込む。「節」320は出
現回数が0個以上となっているので、同位要素は「節」
320である。Next, the peer element of the "section" 320 is read from the element logical structure table 311. The number of occurrences of "section" 320 is 0 or more, so the peer element is "section".
320.
【0103】しかし、文字の論理単位テーブル502の
論理単位の文字が要素とすべて対応したので、「節」3
20は条件を満足しない。However, since all the characters of the logical unit of the logical unit table 502 of characters correspond to the elements, "section" 3
20 does not satisfy the condition.
【0104】次に、要素の論理構造テーブル311より
「節」320以外の「節」320の同位要素を読み込
む。同位要素は存在しない。Next, the peer elements of the "section" 320 other than the "section" 320 are read from the element logical structure table 311. There is no peer element.
【0105】次に、要素の論理構造テーブル311より
「節」320の上位要素を読み込む。上位要素は「章」
315である。「章」315は2度目の出現であるの
で、終了マーク「</章>」を出力する。Next, the upper element of the "section" 320 is read from the element logical structure table 311. The upper element is "chapter"
315. Since the "chapter" 315 is the second appearance, the end mark "</ chapter>" is output.
【0106】次に、要素の論理構造テーブル311より
「章」315の同位要素を読み込む。Next, the peer element of the "chapter" 315 is read from the element logical structure table 311.
【0107】「章」315は出現回数が1個以上となっ
ているので、同位要素は「章」315である。しかし、
文字の論理単位テーブル502の論理単位の文字が要素
とすべて対応したので、「章」315は条件を満足しな
い。Since the number of appearances of the “chapter” 315 is one or more, the peer element is the “chapter” 315. But,
Since all the characters in the logical unit of the logical unit table 502 of characters correspond to the elements, the “chapter” 315 does not satisfy the condition.
【0108】次に、要素の論理構造テーブル311より
「章」315以外の「章」315の同位要素を読み込
む。同位要素は存在しない。Next, the peer elements of the "chapter" 315 other than the "chapter" 315 are read from the element logical structure table 311. There is no peer element.
【0109】次に、要素の論理構造テーブル311より
「章」315の上位要素を読み込む。上位要素は「標
準」312である。「標準」312は最上位要素である
ので、終了マーク「</標準>」を出力し、処理を終了
する。Next, the upper element of the "chapter" 315 is read from the element logical structure table 311. The upper element is “standard” 312. Since the “standard” 312 is the highest-level element, the end mark “</ standard>” is output and the process ends.
【0110】図9は、必須マーク付け方法によって生成
される論理構造化文書データ800の具体例を示す図で
ある。FIG. 9 is a diagram showing a specific example of the logical structured document data 800 generated by the essential marking method.
【0111】以下、図3で示した文書型データ300と
図5で示した文書データ500、並びに図10に示す論
理構造テーブル311での要素の出現順番を示す図に基
づき、図9の論理構造化文書データ800が生成される
過程を説明する。The logical structure of FIG. 9 will now be described based on the document type data 300 shown in FIG. 3, the document data 500 shown in FIG. 5, and the diagram showing the order of appearance of elements in the logical structure table 311 shown in FIG. A process of generating the converted document data 800 will be described.
【0112】なお、図10において、1000は要素の
出現順番を示すものであり、1001は出力文字を順番
に示したものである。In FIG. 10, 1000 indicates the appearance order of elements, and 1001 indicates output characters in order.
【0113】まず、要素の論理構造テーブル311より
最上位要素を読み込む。最上位要素は「標準」312で
ある。「標準」312の開始マーク「<標準>」を出力
する。First, the highest-level element is read from the element logical structure table 311. The top element is “standard” 312. The start mark “<standard>” of “standard” 312 is output.
【0114】次に、要素の論理構造テーブル311より
「標準」312の下位要素を読み込む。下位要素は「タ
イトル」313である。「タイトル」313は出現回数
が1個であり、必須の条件を満たし、また、1度目の出
現であるので開始マーク「<タイトル>」を出力する。Next, the lower element of "standard" 312 is read from the element logical structure table 311. The lower element is “title” 313. The “title” 313 has one appearance count, satisfies the indispensable condition, and since it is the first appearance, the start mark “<title>” is output.
【0115】次に、要素の論理構造テーブル311より
「タイトル」313の下位要素を読み込む。下位要素は
「#文字データ」314である。Next, the lower element of the "title" 313 is read from the element logical structure table 311. The lower element is “#character data” 314.
【0116】下位要素が「#文字データ」314である
ので、文字の論理単位テーブル502より要素に対応し
ていない論理単位の文字「特許」503を出力する。Since the lower element is "#character data" 314, the logical unit character "patent" 503 which does not correspond to the element is output from the character logical unit table 502.
【0117】次に、要素の論理構造テーブル311より
「#文字データ」314の下位要素を読み込む。下位要
素は存在しない。Next, the lower element of "#character data" 314 is read from the element logical structure table 311. There are no subelements.
【0118】次に、要素の論理構造テーブル311より
「#文字データ」314の同位要素を読み込む。同位要
素は存在しない。次に、要素の論理構造テーブル311
より「#文字データ」314の上位要素を読み込む。上
位要素は「タイトル」313である。Next, the peer element of "#character data" 314 is read from the element logical structure table 311. There is no peer element. Next, the element logical structure table 311
The upper element of “#character data” 314 is read. The upper element is “title” 313.
【0119】「タイトル」313は出現回数が1個であ
り、必須の条件を満たし、また、2度目の出現であるの
で、終了マーク「</タイトル>」を出力する。Since the "title" 313 has one appearance count and satisfies the essential condition, and is the second appearance, the end mark "</ title>" is output.
【0120】次に、要素の論理構造テーブル311より
「タイトル」313の同位要素を読み込む。同位要素は
「章」315である。Next, the sibling element of the "title" 313 is read from the element logical structure table 311. The peer element is “chapter” 315.
【0121】「章」315は出現回数が1個以上であ
り、必須の条件を満たし、また、1度目の出現であるの
で、開始マーク「<章>」を出力する。次に、要素の論
理構造テーブル311より「章」315の下位要素を読
み込む。下位要素は「章タイトル」316である。The "chapter" 315 has the number of appearances of 1 or more, satisfies the essential condition, and is the first appearance. Therefore, the start mark "<chapter>" is output. Next, the lower element of the “chapter” 315 is read from the element logical structure table 311. The lower element is “chapter title” 316.
【0122】「章タイトル」316は出現回数が1個で
あり、必須の条件を満たし、また、1度目の出現である
ので、開始マーク「<章タイトル>」を出力する。次
に、要素の論理構造テーブル311より「章タイトル」
316の下位要素を読み込む。下位要素は「#文字デー
タ」317である。The "chapter title" 316 has one appearance, satisfies the essential condition, and is the first appearance. Therefore, the start mark "<chapter title>" is output. Next, from the element logical structure table 311, "chapter title"
Read the lower element of 316. The lower element is “#character data” 317.
【0123】下位要素が「#文字データ」317である
ので、文字の論理単位テーブル502より要素に対応し
ていない論理単位の文字「1章 発明の名称」504を
読み込んで出力する。Since the lower element is "#character data" 317, the character "Chapter 1 Invention name" 504 of the logical unit which does not correspond to the element is read from the character logical unit table 502 and output.
【0124】次に、要素の論理構造テーブル311より
「#文字データ」317の下位要素を読み込む。下位要
素は存在しない。次に、要素の論理構造テーブル311
より「#文字データ」317の同位要素を読み込む。同
位要素は存在しない。Next, the lower element of "#character data" 317 is read from the element logical structure table 311. There are no subelements. Next, the element logical structure table 311
The same element of “#character data” 317 is read. There is no peer element.
【0125】次に、要素の論理構造テーブル311より
「#文字データ」317の上位要素を読み込む。上位要
素は「章タイトル」316である。Next, the upper element of "#character data" 317 is read from the element logical structure table 311. The upper element is “chapter title” 316.
【0126】「章タイトル」316は出現回数が1個で
あり、必須の条件を満たし、また、2度目の出現である
ので、終了マーク「</章タイトル>」を出力する。Since the "chapter title" 316 has one appearance count and satisfies the indispensable condition and is the second appearance, the end mark "</ chapter title>" is output.
【0127】次に、要素の論理構造テーブル311より
「章タイトル」316の同位要素を読み込む。同位要素
は「段落」318である。Next, the peer element of the "chapter title" 316 is read from the element logical structure table 311. The peer element is “paragraph” 318.
【0128】「段落」318は出現回数が1個であり、
必須の条件を満たし、また、1度目の出現であるので、
開始マーク「<段落>」を出力する。次に、要素の論理
構造テーブル311より「段落」318の下位要素を読
み込む。下位要素は「#文字データ」319である。The “paragraph” 318 has one occurrence,
Since it meets the essential conditions and is the first appearance,
The start mark "<paragraph>" is output. Next, the lower element of the “paragraph” 318 is read from the element logical structure table 311. The lower element is “#character data” 319.
【0129】下位要素が「#文字データ」319である
ので、文字の論理単位テーブル502より要素に対応し
ていない論理単位の文字「論理構造化文書生成方法(装
置)」505を読み込んで出力する。Since the lower element is "#character data" 319, the character "logical structured document generation method (apparatus)" 505 of the logical unit that does not correspond to the element is read from the character logical unit table 502 and output. .
【0130】次に、要素の論理構造テーブル311より
「#文字データ」319の下位要素を読み込む。下位要
素は存在しない。次に、要素の論理構造テーブル311
より「#文字データ」319の同位要素を読み込む。同
位要素は存在しない。Next, the lower element of "#character data" 319 is read from the element logical structure table 311. There are no subelements. Next, the element logical structure table 311
Then, the same element of “#character data” 319 is read. There is no peer element.
【0131】次に、要素の論理構造テーブル311より
「#文字データ」319の上位要素を読み込む。上位要
素は「段落」318である。Next, the upper element of "#character data" 319 is read from the element logical structure table 311. The upper element is “paragraph” 318.
【0132】「段落」318は出現回数が1個であり、
必須の条件を満たし、また、2度目の出現であるので、
終了マーク「</段落>」を出力する。次に、要素の論
理構造テーブル311より「段落」318の同位要素を
読み込む。同位要素は「節」320である。The "paragraph" 318 has one occurrence,
Since it meets the essential conditions and is the second appearance,
Output the end mark "</ paragraph>". Next, the peer element of the "paragraph" 318 is read from the element logical structure table 311. The peer element is a “section” 320.
【0133】「節」320は出現回数が0個以上であ
り、必須の条件を満たさない。次に、要素の論理構造テ
ーブル311より「節」320以外の「節」320の同
位要素を読み込む。同位要素は存在しない。The “section” 320 has the number of occurrences of 0 or more, and does not satisfy the essential condition. Next, the peer elements of the “section” 320 other than the “section” 320 are read from the element logical structure table 311. There is no peer element.
【0134】次に、要素の論理構造テーブル311より
「節」320の上位要素を読み込む。上位要素は「章」
315である。Next, the upper element of the "section" 320 is read from the element logical structure table 311. The upper element is "chapter"
315.
【0135】「章」315は出現回数が1個以上であ
り、必須の条件を満たし、また、2度目の出現であるの
で、終了マーク「</章>」を出力する。次に、要素の
論理構造テーブル311より「章」315の同位要素を
読み込む。「章」315は出現回数が1個以上であるの
で、同位要素は「章」315である。Since the "chapter" 315 has the number of appearances of 1 or more and satisfies the indispensable condition and is the second appearance, the end mark "</ chapter>" is output. Next, the peer element of the "chapter" 315 is read from the element logical structure table 311. Since the “chapter” 315 has one or more occurrences, the peer element is the “chapter” 315.
【0136】「章」315は出現回数が1個以上であ
り、必須の条件を満たし、また、3度目の出現であるの
で、開始マーク「<章>」を出力する。次に、要素の論
理構造テーブル311より「章」315の下位要素を読
み込む。下位要素は「章タイトル」316である。The "chapter" 315 has the number of appearances of 1 or more, satisfies the essential condition, and is the third appearance. Therefore, the start mark "<chapter>" is output. Next, the lower element of the “chapter” 315 is read from the element logical structure table 311. The lower element is “chapter title” 316.
【0137】「章タイトル」316は出現回数が1個で
あり、必須の条件を満たし、また、3度目の出現である
ので、開始マーク「<章タイトル>」を出力する。次
に、要素の論理構造テーブル311より「章タイトル」
316の下位要素を読み込む。下位要素は「#文字デー
タ」317である。Since the "chapter title" 316 has one appearance count and satisfies the indispensable condition and is the third appearance, the start mark "<chapter title>" is output. Next, from the element logical structure table 311, "chapter title"
Read the lower element of 316. The lower element is “#character data” 317.
【0138】下位要素が「#文字データ」317である
ので、文字の論理単位テーブル502より要素に対応し
ていない論理単位の文字「2章 特許請求の範囲」50
6を読み込んで出力する。Since the lower element is “#character data” 317, the character of the logical unit which does not correspond to the element from the character logical unit table 502 is “Chapter 2 Claims” 50.
6 is read and output.
【0139】次に、要素の論理構造テーブル311より
「#文字データ」317の下位要素を読み込む。下位要
素は存在しない。Next, the lower element of "#character data" 317 is read from the element logical structure table 311. There are no subelements.
【0140】次に、要素の論理構造テーブル311より
「#文字データ」317の同位要素を読み込む。同位要
素は存在しない。次に、要素の論理構造テーブル311
より「#文字データ」317の上位要素を読み込む。上
位要素は「章タイトル」316である。Next, the peer element of "#character data" 317 is read from the element logical structure table 311. There is no peer element. Next, the element logical structure table 311
The upper element of “#character data” 317 is read. The upper element is “chapter title” 316.
【0141】「章タイトル」316は出現回数が1個で
あり、必須の条件を満たし、また、4度目の出現である
ので、終了マーク「</章タイトル>」を出力する。次
に、要素の論理構造テーブル311より「章タイトル」
316の同位要素を読み込む。同位要素は「段落」31
8である。Since the "chapter title" 316 has one appearance count and satisfies the indispensable condition and is the fourth appearance, the end mark "</ chapter title>" is output. Next, from the element logical structure table 311, "chapter title"
Read 316 peer elements. Same element is “paragraph” 31
8
【0142】「段落」318は出現回数が1個であり、
必須の条件を満たし、また、3度目の出現であるので、
開始マーク「<段落>」を出力する。次に、要素の論理
構造テーブル311より「段落」318の下位要素を読
み込む。下位要素は「#文字データ」319である。The "paragraph" 318 has one occurrence,
Since it meets the essential conditions and is the third appearance,
The start mark "<paragraph>" is output. Next, the lower element of the “paragraph” 318 is read from the element logical structure table 311. The lower element is “#character data” 319.
【0143】下位要素が「#文字データ」319である
ので、文字の論理単位テーブル502より要素に対応し
ていない論理単位の文字「1.文書型データを基にした
・・・」507を読み込んで出力する。Since the lower element is “#character data” 319, the character “1. Based on document type data ...” 507 of the logical unit which does not correspond to the element is read from the character logical unit table 502. To output.
【0144】次に、要素の論理構造テーブル311より
「#文字データ」319の下位要素を読み込む。下位要
素は存在しない。Next, the lower element of "#character data" 319 is read from the element logical structure table 311. There are no subelements.
【0145】次に、要素の論理構造テーブル311より
「#文字データ」319の同位要素を読み込む。同位要
素は存在しない。次に、要素の論理構造テーブル311
より「#文字データ」319の上位要素を読み込む。上
位要素は「段落」318である。Next, the peer element of "#character data" 319 is read from the element logical structure table 311. There is no peer element. Next, the element logical structure table 311
The upper element of “#character data” 319 is read. The upper element is “paragraph” 318.
【0146】「段落」318は出現回数が1個であり、
必須の条件を満たし、また、4度目の出現であるので、
終了マーク「</段落>」を出力する。次に、要素の論
理構造テーブル311より「段落」318の同位要素を
読み込む。同位要素は「節」320である。The “paragraph” 318 has one occurrence,
Since it meets the essential conditions and is the fourth appearance,
Output the end mark "</ paragraph>". Next, the peer element of the "paragraph" 318 is read from the element logical structure table 311. The peer element is a “section” 320.
【0147】「節」320は出現回数が0個以上であ
り、必須の条件を満たさない。次に、要素の論理構造テ
ーブル311より「節」320以外の「節」320の同
位要素を読み込む。同位要素は存在しない。The “section” 320 has 0 or more occurrences, and does not satisfy the essential condition. Next, the peer elements of the “section” 320 other than the “section” 320 are read from the element logical structure table 311. There is no peer element.
【0148】次に、要素の論理構造テーブル311より
「節」320の上位要素を読み込む。上位要素は「章」
315である。Next, the upper element of the "section" 320 is read from the element logical structure table 311. The upper element is "chapter"
315.
【0149】「章」315は出現回数が1個以上であ
り、必須の条件を満たし、また、4度目の出現であるの
で、終了マーク「</章>」を出力する。次に、要素の
論理構造テーブル311より「章」315の同位要素を
読み込む。The "chapter" 315 has the number of appearances of 1 or more, satisfies the indispensable condition, and since it is the fourth appearance, the end mark "</ chapter>" is output. Next, the peer element of the "chapter" 315 is read from the element logical structure table 311.
【0150】「章」315は出現回数が1個以上である
ので、同位要素は「章」315である。「章」315は
出現回数が1個以上であり、必須の条件を満たし、ま
た、5度目の出現であるので、開始マーク「<章>」を
出力する。Since the “chapter” 315 has one or more occurrences, the peer element is the “chapter” 315. The “chapter” 315 has the number of appearances of 1 or more, satisfies the essential condition, and is the fifth appearance, so the start mark “<chapter>” is output.
【0151】次に、要素の論理構造テーブル311より
「章」315の下位要素を読み込む。下位要素は「章タ
イトル」316である。Next, the lower elements of the "chapter" 315 are read from the element logical structure table 311. The lower element is “chapter title” 316.
【0152】「章タイトル」316は出現回数が1個で
あり、必須の条件を満たし、また、5度目の出現である
ので、開始マーク「<章タイトル>」を出力する。次
に、要素の論理構造テーブル311より「章タイトル」
316の下位要素を読み込む。下位要素は「#文字デー
タ」317である。The "chapter title" 316 has one appearance count, satisfies the essential condition, and is the fifth appearance. Therefore, the start mark "<chapter title>" is output. Next, from the element logical structure table 311, "chapter title"
Read the lower element of 316. The lower element is “#character data” 317.
【0153】下位要素が「#文字データ」317である
ので、文字の論理単位テーブル502より要素に対応し
ていない論理単位の文字「2.既存文書データに対して
・・・」508を読み込んで出力する。Since the lower element is “#character data” 317, the character “2. For existing document data ...” 508 of the logical unit which does not correspond to the element is read from the character logical unit table 502. Output.
【0154】次に、要素の論理構造テーブル311より
「#文字データ」317の下位要素を読み込む。下位要
素は存在しない。次に、要素の論理構造テーブル311
より「#文字データ」317の同位要素を読み込む。同
位要素は存在しない。Next, the lower element of "#character data" 317 is read from the element logical structure table 311. There are no subelements. Next, the element logical structure table 311
The same element of “#character data” 317 is read. There is no peer element.
【0155】次に、要素の論理構造テーブル311より
「#文字データ」317の上位要素を読み込む。上位要
素は「章タイトル」316である。Next, the upper element of "#character data" 317 is read from the element logical structure table 311. The upper element is “chapter title” 316.
【0156】「章タイトル」316は出現回数が1個で
あり、必須の条件を満たし、また、6度目の出現である
ので、終了マーク「</章タイトル>」を出力する。次
に、要素の論理構造テーブル311より「章タイトル」
316の同位要素を読み込む。同位要素は「段落」31
8である。Since the "chapter title" 316 has one appearance count, satisfies the essential condition, and is the sixth appearance, the end mark "</ chapter title>" is output. Next, from the element logical structure table 311, "chapter title"
Read 316 peer elements. Same element is “paragraph” 31
8
【0157】「段落」318は出現回数が1個であり、
必須の条件を満たし、また、5度目の出現であるので、
開始マーク「<段落>」を出力する。次に、要素の論理
構造テーブル311より「段落」318の下位要素を読
み込む。下位要素は「#文字データ」319である。The “paragraph” 318 has one occurrence,
Since it meets the essential conditions and is the fifth appearance,
The start mark "<paragraph>" is output. Next, the lower element of the “paragraph” 318 is read from the element logical structure table 311. The lower element is “#character data” 319.
【0158】下位要素が「#文字データ」319である
ので、文字の論理単位テーブル502より要素に対応し
ていない論理単位の文字「3.マーク付けを行なう。」
509を読み込んで出力する。Since the lower element is "#character data" 319, the character "3. Mark is added" of the logical unit which does not correspond to the element from the character logical unit table 502.
509 is read and output.
【0159】次に、要素の論理構造テーブル311より
「#文字データ」319の下位要素を読み込む。下位要
素は存在しない。次に、要素の論理構造テーブル311
より「#文字データ」319の同位要素を読み込む。同
位要素は存在しない。Next, the lower element of "#character data" 319 is read from the element logical structure table 311. There are no subelements. Next, the element logical structure table 311
Then, the same element of “#character data” 319 is read. There is no peer element.
【0160】次に、要素の論理構造テーブル311より
「#文字データ」319の上位要素を読み込む。上位要
素は「段落」318である。Next, the upper element of "#character data" 319 is read from the element logical structure table 311. The upper element is “paragraph” 318.
【0161】「段落」318は出現回数が1個であり、
必須の条件を満たし、また、6度目の出現であるので、
終了マーク「</段落>」を出力する。次に、要素の論
理構造テーブル311より「段落」318の同位要素を
読み込む。同位要素は「節」320である。The "paragraph" 318 has one occurrence,
Since it meets the essential conditions and is the sixth appearance,
Output the end mark "</ paragraph>". Next, the peer element of the "paragraph" 318 is read from the element logical structure table 311. The peer element is a “section” 320.
【0162】「節」320は出現回数が0個以上であ
り、必須の条件を満たさない。次に、要素の論理構造テ
ーブル311より「節」320以外の「節」320の同
位要素を読み込む。同位要素は存在しない。The “section” 320 has the number of occurrences of 0 or more, and does not satisfy the essential condition. Next, the peer elements of the “section” 320 other than the “section” 320 are read from the element logical structure table 311. There is no peer element.
【0163】次に、要素の論理構造テーブル311より
「節」320の上位要素を読み込む。上位要素は「章」
315である。Next, the upper element of the "section" 320 is read from the element logical structure table 311. The upper element is "chapter"
315.
【0164】「章」315は出現回数が1個以上であ
り、必須の条件を満たし、また、6度目の出現であるの
で、終了マーク「</章>」を出力する。次に、要素の
論理構造テーブル311より「章」315の同位要素を
読み込む。同位要素は「段落」318である。The "chapter" 315 has the number of appearances of 1 or more, satisfies the indispensable condition, and is the sixth appearance. Therefore, the end mark "</ chapter>" is output. Next, the peer element of the "chapter" 315 is read from the element logical structure table 311. The peer element is “paragraph” 318.
【0165】「段落」318は出現回数が1個であり、
必須の条件を満たし、また、5度目の出現であるので、
開始マーク「<段落>」を出力する。次に、要素の論理
構造テーブル311より「段落」318の下位要素を読
み込む。下位要素は「#文字データ」319である。The "paragraph" 318 has one appearance count,
Since it meets the essential conditions and is the fifth appearance,
The start mark "<paragraph>" is output. Next, the lower element of the “paragraph” 318 is read from the element logical structure table 311. The lower element is “#character data” 319.
【0166】下位要素が「#文字データ」319である
ので、文字の論理単位テーブル502より要素に対応し
ていない論理単位の文字「3.マーク付けを行なう。」
509を読み込んで出力する。Since the lower element is "#character data" 319, the logical unit character "3. Mark is added" of the logical unit which does not correspond to the element from the character logical unit table 502.
509 is read and output.
【0167】次に、要素の論理構造テーブル311より
「#文字データ」319の下位要素を読み込む。下位要
素は存在しない。次に、要素の論理構造テーブル311
より「#文字データ」319の同位要素を読み込む。同
位要素は存在しない。Next, the lower element of "#character data" 319 is read from the element logical structure table 311. There are no subelements. Next, the element logical structure table 311
Then, the same element of “#character data” 319 is read. There is no peer element.
【0168】次に、要素の論理構造テーブル311より
「#文字データ」319の上位要素を読み込む。上位要
素は「段落」318である。Next, the upper element of “#character data” 319 is read from the element logical structure table 311. The upper element is “paragraph” 318.
【0169】「段落」318は出現回数が1個であり、
必須の条件を満たし、また、6度目の出現であるので、
終了マーク「</段落>」を出力する。次に、要素の論
理構造テーブル311より「段落」318の同位要素を
読み込む。同位要素は「節」320である。The "paragraph" 318 has one appearance count,
Since it meets the essential conditions and is the sixth appearance,
Output the end mark "</ paragraph>". Next, the peer element of the "paragraph" 318 is read from the element logical structure table 311. The peer element is a “section” 320.
【0170】「節」320は出現回数が0個以上であ
り、必須の条件を満たさない。次に、要素の論理構造テ
ーブル311より「節」320以外の「節」320の同
位要素を読み込む。同位要素は存在しない。The "section" 320 has the number of appearances of 0 or more, and does not satisfy the essential condition. Next, the peer elements of the “section” 320 other than the “section” 320 are read from the element logical structure table 311. There is no peer element.
【0171】次に、要素の論理構造テーブル311より
「節」320の上位要素を読み込む。上位要素は「章」
315である。Next, the upper element of the "section" 320 is read from the element logical structure table 311. The upper element is "chapter"
315.
【0172】「章」315は出現回数が1個以上であ
り、必須の条件を満たし、また、6度目の出現であるの
で、終了マーク「</章>」を出力する。次に要素の論
理構造テーブル311より「章」315の同位要素を読
み込む。「章」315は出現回数が1個以上であるの
で、同位要素は「章」315である。The "chapter" 315 has the number of appearances of 1 or more, satisfies the indispensable condition, and since it is the sixth appearance, the end mark "</ chapter>" is output. Next, the sibling elements of the "chapter" 315 are read from the element logical structure table 311. Since the “chapter” 315 has one or more occurrences, the peer element is the “chapter” 315.
【0173】しかし、文字の論理単位テーブル502の
論理単位の文字が要素とすべて対応したので、「章」3
15は条件を満足しない。次に、要素の論理構造テーブ
ル311より「章」315以外の「章」315の同位要
素を読み込む。同位要素は存在しない。However, since all the characters of the logical unit of the logical unit table 502 of characters correspond to the elements, "chapter" 3
No. 15 does not satisfy the condition. Next, the peer elements of “chapter” 315 other than “chapter” 315 are read from the element logical structure table 311. There is no peer element.
【0174】次に、要素の論理構造テーブル311より
「章」315の上位要素を読み込む。上位要素は「標
準」312である。Next, the upper element of the "chapter" 315 is read from the element logical structure table 311. The upper element is “standard” 312.
【0175】「標準」312は最上位要素であるので、
終了マーク「</標準>」を出力し、処理を終了する。Since "standard" 312 is the highest level element,
The end mark “</ standard>” is output and the process ends.
【0176】以上のように、本実施例においては、文書
データの章、節、項などのツリー状の階層構造を求める
論理構造化文書の生成方法において、文書の構成要素を
示す文書型データ及び任意の形式の文書データを解析
し、その解析結果から論理構造化文書を生成するために
必要なテーブル311,502を各々生成する。As described above, in the present embodiment, in the method of generating a logical structured document for obtaining a tree-like hierarchical structure of chapters, sections, terms, etc. of document data, document type data indicating document constituent elements and Document data of an arbitrary format is analyzed, and tables 311 and 502 required to generate a logical structured document are generated from the analysis results.
【0177】この文書型データの解析及びテーブル31
1の生成は、文書型データ解析部103によって行われ
る。文書型データ解析部103は、先ず、文書型を表す
ためのキー、要素を表すためのキー、文字データを表す
ためのキーを指定する。This document type data analysis and table 31
The generation of 1 is performed by the document type data analysis unit 103. The document type data analysis unit 103 first designates a key for indicating a document type, a key for indicating an element, and a key for indicating character data.
【0178】次に、文字型キーを抽出できたかを判別
し、抽出できていればその名称を抽出する。そして、そ
れを最上位要素としてテーブル311に登録する。更
に、要素キーを抽出できたかを判別し、抽出できていれ
ばその名称を抽出する。そして、それを要素としてテー
ブル311に登録し、要素の名称に対する内容モデルを
抽出する。Next, it is judged whether or not the character key can be extracted, and if so, the name is extracted. Then, it is registered in the table 311 as the highest element. Furthermore, it is determined whether the element key has been extracted, and if it has been extracted, its name is extracted. Then, it is registered in the table 311 as an element, and the content model for the name of the element is extracted.
【0179】最後に、その内容から下位要素、接続関係
及び出現回数を同じくテーブル311に登録する。以上
の処理を文書型データがなくなるまで繰り返し、文書型
データの解析及びテーブル311の生成を行う。Finally, the lower element, the connection relation and the number of appearances are also registered in the table 311 from the contents. The above processing is repeated until there is no document type data, and the document type data is analyzed and the table 311 is generated.
【0180】これに対して、文書データの解析及びテー
ブル502の生成は、文書データ解析部105によって
行われる。文書データ解析部は、先ず、区切りを表すた
めの文字を指定する。次に、区切り文字を抽出できたか
を判別し、抽出できていればその区切り文字までの文書
データを抽出する。そして、それを文書型データのテー
ブル311とは異なるテーブル502に登録する。以上
の処理を文書データがなくなるまで繰り返し、文書デー
タの解析及びテーブル502の生成を行う。On the other hand, the document data analysis unit 105 analyzes the document data and creates the table 502. The document data analysis unit first specifies a character for indicating a delimiter. Next, it is determined whether the delimiter has been extracted, and if so, the document data up to the delimiter is extracted. Then, it is registered in a table 502 different from the document type data table 311. The above processing is repeated until there is no document data, and the document data is analyzed and the table 502 is generated.
【0181】このように、文書型データ及び文書データ
のテーブルを作成した後、それらテーブルの内容に基づ
いて文書データに対してマーク付けする。このマーク付
けは、論理構造化文書データ生成部106によって行わ
れる。In this way, after the tables of the document type data and the document data are created, the document data is marked based on the contents of those tables. This marking is performed by the logical structured document data generation unit 106.
【0182】論理構造化文書データ生成部106は、先
ず、マーク付け方法及び開始・終了マークの形態を指定
する。次に、最上位要素の開始マークを出力する。そし
て、次の論理構造要素が最上位になるまでの間、指定さ
れたマーク付け方法の条件を現在の論理構造要素が満た
しているかを判別し、満たしていれば、現在の論理構造
化要素が何度構造上に出現したのかを判別し、偶数回目
なら現在の論理構造要素の終了マークを出力する。The logical structured document data generation unit 106 first specifies the marking method and the form of the start / end mark. Next, the start mark of the top element is output. Then, it is determined whether the current logical structuring element satisfies the condition of the specified marking method until the next logical structuring element becomes the highest level. It is determined how many times it appears on the structure, and if it is an even number, the end mark of the current logical structure element is output.
【0183】これに対し、奇数回目なら現在の論理構造
要素の開始マークを出力する。更に要素と対応していな
い論理単位の文字が残っているかを判別し、残っていれ
ば、現在の論理構造化要素の下位要素に#文字データが
あるかを判別する。#文字データがあれば論理単位に区
切られた文字を出力する。On the other hand, if it is an odd number, the start mark of the current logical structure element is output. Further, it is determined whether or not there is a character of a logical unit that does not correspond to the element, and if there is, it is determined whether or not there is # character data in the lower element of the current logical structured element. # If there is character data, output the characters divided into logical units.
【0184】最後に、最上位要素の終了マークを出力す
る。尚、このマークは、文書データ中に見出し記号が存
在するか否かに関わらず付加される。Finally, the end mark of the top element is output. It should be noted that this mark is added regardless of whether or not there is a caption mark in the document data.
【0185】従って、文書データ中の見出し記号に有無
に関わらず、文書データを階層構造に再編成した論理構
造化文書を容易に生成することができ、さらに見出し記
号の記載の仕方にばらつきに関わらず、文書データを階
層構造に再編成した論理構造化文書を同一処理によって
容易に生成することができる。Therefore, it is possible to easily generate a logically structured document in which the document data is reorganized into a hierarchical structure regardless of the presence or absence of the index mark in the document data, and further, regardless of the way of describing the index mark. Instead, a logically structured document obtained by reorganizing document data into a hierarchical structure can be easily generated by the same process.
【0186】以上、本実施例では、順次マーク付け方
法、必須マーク付け方法について説明したが、キー対応
順次マーク付け方法、キー対応必須マーク付け方法によ
っても論理構造化文書が容易に生成できることは言うま
でもない。Although the sequential marking method and the essential marking method have been described in the present embodiment, it is needless to say that the logical structured document can be easily generated by the key corresponding sequential marking method and the key corresponding essential marking method. Yes.
【0187】キー対応順次マーク付け方法とは、要素に
対応する見出し記号の指定を最初に行い、それをキーと
して要素と文字の対応を取る。その後、対応の取れてい
ない残りの要素と文字に対しては順次マーク付け方法に
従い対応を取る。以上の方法で論理構造化文書を生成す
ることを言う。[0187] In the key-corresponding sequential mark-up method, a heading symbol corresponding to an element is first designated, and the element and the character are associated with each other using the designation. After that, the remaining elements and characters that have not been dealt with are dealt with sequentially according to the marking method. It means to generate a logical structured document by the above method.
【0188】また、キー対応必須マーク付け方法とは、
要素に対応する見出し記号の指定を最初に行い、それを
キーとして要素と文字の対応を取る。その後、対応の取
れていない残りの要素と文字に対しては必須マーク付け
方法に従い対応を取る。以上の方法で論理構造化文書を
生成することを言う。Further, the key-corresponding essential marking method is
First, the heading symbol corresponding to the element is specified, and with that as a key, the element is associated with the character. After that, the remaining elements and characters that have not been dealt with are dealt with according to the mandatory marking method. It means to generate a logical structured document by the above method.
【0189】キー対応のマーク付け方法は、要素に対応
する見出し記号が一意な文書の論理構造化に対して、正
当性が向上する。The key-corresponding markup method improves the legitimacy with respect to the logical structuring of a document in which a heading symbol corresponding to an element is unique.
【0190】[0190]
【発明の効果】以上説明したように、本発明の論理構造
化文書の生成方法によれば、目的とする文書を構成する
章などの各要素を示す要素キーと、各要素に対して文字
を対応付けることを示す文字キーとを、目的とする論理
構造に対応付けて定義した文書型データファイルの定義
内容を解析し、目的とする文書の論理構造を示す論理構
造テーブルを作成したうえ、任意の形式の文書データを
解析し、文書データを構成する文字を所定の区切り記号
によって論理単位に分割した文字の論理単位テーブルを
作成し、これら論理構造テーブルおよび文字の論理単位
テーブルの内容に基づき、前記文字キーに対応する論理
単位の文字に対して前記要素キーで示される見出しマー
クを付加した論理構造化文書を生成するようにしたた
め、文書データ中の見出し記号に有無に関わらず、文書
データを階層構造に再編成した論理構造化文書を容易に
生成することができ、さらに見出し記号の記載の仕方に
ばらつきに関わらず、文書データを階層構造に再編成し
た論理構造化文書を同一処理によって容易に生成するこ
とができる。As described above, according to the method for generating a logical structured document of the present invention, an element key indicating each element such as a chapter constituting a target document and a character for each element are assigned. Analyze the definition contents of the document type data file defined by associating the character key indicating the correspondence with the target logical structure, create a logical structure table indicating the logical structure of the target document, and The document data of the format is analyzed, a logical unit table of characters obtained by dividing the characters constituting the document data into logical units by a predetermined delimiter is created, and based on the contents of the logical structure table and the logical unit table of characters, Since the logical structured document in which the heading mark shown by the element key is added to the character of the logical unit corresponding to the character key is generated, It is possible to easily generate a logically structured document in which document data is reorganized into a hierarchical structure regardless of the presence or absence of a start symbol, and the document data is reorganized into a hierarchical structure regardless of how the heading symbols are written. The organized logical structured document can be easily generated by the same process.
【0191】従って、論理構造が統一された文書データ
ベースを構築する際に極めて有効なものとなる。Therefore, it is extremely effective in constructing a document database having a unified logical structure.
【図1】本発明の一実施例を示すシステムブロック図で
ある。FIG. 1 is a system block diagram showing an embodiment of the present invention.
【図2】文書型データ解析部の要素の論理構造テーブル
を生成する動作を示すフローチャートである。FIG. 2 is a flowchart showing an operation of generating a logical structure table of elements of a document type data analysis unit.
【図3】文書型データ解析部における処理前の文書型デ
ータと処理後の要素の論理構造の具体例を示す説明図で
ある。FIG. 3 is an explanatory diagram showing a specific example of the logical structure of document type data before processing and elements after processing in the document type data analysis unit.
【図4】文書データ解析部の文字の論理単位テーブルを
生成する動作を示すフローチャートである。FIG. 4 is a flowchart showing an operation of generating a logical unit table of characters by the document data analysis unit.
【図5】文書データ解析部における処理前の文書データ
と処理後の文字の論理単位の具体例を示す説明図であ
る。FIG. 5 is an explanatory diagram showing a specific example of a logical unit of document data before processing and a character after processing in the document data analysis unit.
【図6】論理構造化文書データ生成部の論理構造化文書
を生成する動作を示すフローチャートである。FIG. 6 is a flowchart showing an operation of generating a logical structured document by a logical structured document data generation unit.
【図7】順次マーク付け方法による論理構造化文書デー
タの具体例を示す説明図である。FIG. 7 is an explanatory diagram showing a specific example of logical structured document data by a sequential marking method.
【図8】順次マーク付け方法における要素の出現順番を
示す説明図である。FIG. 8 is an explanatory diagram showing the order of appearance of elements in the sequential marking method.
【図9】必須マーク付け方法による論理構造化文書デー
タの具体例を示す説明図である。FIG. 9 is an explanatory diagram showing a specific example of logical structured document data according to a mandatory marking method.
【図10】必須マーク付け方法における要素の出現順番
を示す説明図である。FIG. 10 is an explanatory diagram showing the order of appearance of elements in the essential marking method.
100…文書型データファイル、101…文書データフ
ァイル、103…文書型データ解析部、105…文書デ
ータ解析部、106…論理構造化文書データ生成部、1
07…論理構造化文書データファイル、300…文書型
データ、311…要素の論理構造テーブル、500…文
書データ、502…文字の論理単位テーブル。Reference numeral 100 ... Document type data file, 101 ... Document data file, 103 ... Document type data analysis unit, 105 ... Document data analysis unit, 106 ... Logical structured document data generation unit, 1
07 ... Logical structured document data file, 300 ... Document type data, 311 ... Element logical structure table, 500 ... Document data, 502 ... Character logical unit table.
Claims (2)
などのツリー状の階層構造に再編成した論理構造化文書
を生成する論理構造化文書の生成方法において、 目的とする文書を構成する章などの各要素を示す要素キ
ーと、各要素に対して文字を対応付けることを示す文字
キーとを、目的とする論理構造に対応付けて文書型デー
タファイルに予め定義しておき、この文書型データファ
イルの定義内容を解析し、目的とする文書の論理構造を
示す論理構造テーブルを作成したうえ、前記任意の形式
の文書データを解析し、文書データを構成する文字を所
定の区切り記号によって論理単位に分割した文字の論理
単位テーブルを作成し、これら論理構造テーブルおよび
文字の論理単位テーブルの内容に基づき、前記文字キー
に対応する論理単位の文字に対して前記要素キーで示さ
れる見出しマークを付加した論理構造化文書を生成する
ことを特徴とする論理構造化文書の生成方法。1. A logical structured document generation method for generating a logical structured document by reorganizing a tree-like hierarchical structure of chapters, sections, terms, etc. from document data of an arbitrary format, and constructing a target document. An element key indicating each element such as a chapter and a character key indicating that a character is associated with each element are defined in advance in a document-type data file in association with a target logical structure. After analyzing the definition contents of the type data file and creating a logical structure table that shows the logical structure of the target document, analyze the document data in any of the above formats, and use the specified delimiters to identify the characters that make up the document data. A logical unit table of characters divided into logical units is created, and based on the contents of the logical structure table and the logical unit table of characters, the logical unit statement corresponding to the character key is created. Method of generating a logical structure of documents and generates a logical structured document added with the heading mark indicated by the element key for.
方法のうち選択指定された方法に従って付加することを
特徴とする請求項1記載の論理構造化文書の生成方法。2. The method for generating a logical structured document according to claim 1, wherein the heading mark is added according to a method selected and designated from among a plurality of marking methods.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP6231550A JPH0895975A (en) | 1994-09-27 | 1994-09-27 | Preparation method for logically structured document |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP6231550A JPH0895975A (en) | 1994-09-27 | 1994-09-27 | Preparation method for logically structured document |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH0895975A true JPH0895975A (en) | 1996-04-12 |
Family
ID=16925258
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP6231550A Pending JPH0895975A (en) | 1994-09-27 | 1994-09-27 | Preparation method for logically structured document |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0895975A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20010104164A (en) * | 2000-05-13 | 2001-11-24 | 이성환 | A method for automatically analyzing document layout |
-
1994
- 1994-09-27 JP JP6231550A patent/JPH0895975A/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20010104164A (en) * | 2000-05-13 | 2001-11-24 | 이성환 | A method for automatically analyzing document layout |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7707139B2 (en) | Method and apparatus for searching and displaying structured document | |
US7111011B2 (en) | Document processing apparatus, document processing method, document processing program and recording medium | |
US4969093A (en) | Method of data stream construct management utilizing format shells and shell fragments | |
RU2358311C2 (en) | Word processing document, stored as single xml file, which can be manipulated by applications which can read xml language | |
US5367619A (en) | Electronic data entry system employing an expert system to facilitate generation of electronic data forms with complex interrelationships between fields and subforms | |
JP2896634B2 (en) | Full-text registered word search device and full-text registered word search method | |
US6675355B1 (en) | Redline extensible markup language (XML) schema | |
JPH08255155A (en) | Device and method for full-text registered word retrieval | |
JP3832693B2 (en) | Structured document search and display method and apparatus | |
JPH09319632A (en) | Method and device for managing version of structured document | |
CA2281346A1 (en) | Method and apparatus for amplifying design information into software products | |
JPH09146931A (en) | Document type definition generating device | |
WO2001082121A2 (en) | Pre-computing and encoding techniques for an electronic document to improve run-time processing | |
KR19990038731A (en) | Metadata Model and Modeling Method for Electronic Documents, Metadata Management System and Management Method | |
JP2001101036A (en) | Method for storing and using log information | |
JPH0895975A (en) | Preparation method for logically structured document | |
JP3842576B2 (en) | Structured document editing method and structured document editing system | |
JP3966086B2 (en) | Document processing apparatus and method | |
JP2002342342A (en) | Document managing method, execution system therefor, processing program and recording medium therefor | |
Milosavljevic et al. | XML schema of UNIMARC format variant and bibliographic record in BISIS software system | |
JP2003288365A (en) | Additive information management method and additive information management system | |
JP3239845B2 (en) | Full-text search apparatus and method | |
JP3707132B2 (en) | Database management system | |
Hong et al. | Integrated software development environment based on CCITT/SDL for telecommunication systems | |
JPH05135054A (en) | Document processing method |