[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JPS61248160A - 文書情報登録方式 - Google Patents

文書情報登録方式

Info

Publication number
JPS61248160A
JPS61248160A JP60088517A JP8851785A JPS61248160A JP S61248160 A JPS61248160 A JP S61248160A JP 60088517 A JP60088517 A JP 60088517A JP 8851785 A JP8851785 A JP 8851785A JP S61248160 A JPS61248160 A JP S61248160A
Authority
JP
Japan
Prior art keywords
keyword
word
file
sentence
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP60088517A
Other languages
English (en)
Inventor
Tetsuo Machida
哲夫 町田
Kuniaki Tabata
邦晃 田畑
Masatoshi Hino
樋野 匡利
Kunihiro Nomura
訓弘 野村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP60088517A priority Critical patent/JPS61248160A/ja
Publication of JPS61248160A publication Critical patent/JPS61248160A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔発明の利用分野〕 本発明は、学術論文等を収納するファイルシステムに係
り、特に検索用のキーワード入力を自動化すると共に、
検索補助情報としての要約文を自動生成するに好適な、
文書情報登録方式に関する。
〔発明の背景〕
印刷や保管を目的にキー人力されたり、ワードプロセッ
サによって作成された、コード化された文章を蓄積、格
納する場合、従来、本文を入力すると同時に、検索用の
キーワードを本文とは別に入力する必要があった。さら
に、検索時、キーワードだけでは十分に所望の文章を選
別できないので1本文の要約文を検索の補助情報として
利用する場合が多いが、この要約も、本文とは別に作成
し、入力する必要があり、データ登録が煩雑という欠点
があった。
発明者等は、文章情報を画像として登録する場合、上記
の要約文に対応する検索用の補助情報(案内画像1画像
インデックス)を原文書情報の縮小、切出等により自動
的に作成し、検索時、指定されたキーワードに対応する
文書情報の補助情報を一覧表示し、その中から、所望の
文書情報を特定する方式を発明した。(特公昭56−5
3788.57−8499 、特願昭59−20166
6) L、かじ、これらは全て画像として登録する場合
であり、ワードプロセッサ等の出力結果であるコードデ
ータに対しては。
適用できないと言う欠点があった。
〔発明の目的〕
本発明の目的は、文書情報をコードとして登録する場合
に、検索用のキーワード、および検索補助情報としての
要約文を、本文データから自動抽出・登録することによ
って、登録作業の容易化を計ることである。
〔発明の概要〕
一般に、文書情報の検索に於て、検索のキーワードとな
る単語の種類は限定されている。特に学術論文や、特許
情報などの場合には、キーワードは厳密に規定されてお
り、それらには特殊コードが付されている場合が多い。
さらに、学術論文や特許情報の場合、その主題を説明す
る文(所謂トビツクセンテンス)には必らず上記のキー
ワードが含まれている。
本発明では、上記の性質に着目し、■本文中からキーワ
ードとなりうる単語を自動抽出する。■上記■で抽出し
たキーワードを含む文章を抽出し、出現類に再編集し要
約文とする、ことによって、キーワード入力、要約文作
成と入力からなるデー。
夕登録作業を自動化するものである。
〔発明の実施例〕
以下、本発明を実施例を用いて詳細に説明する。
第1図に、本発明による文書情報の登録方式の処理概要
を示す。図中10が、本発明によるキーワードの自動抽
出、および要約文の自動作成処理を示す0本実施例では
、キーワードとなりつる単語の一覧表、すなわちキーワ
ードテーブル101を持ち、本文ファイル102から抽
出した単語が、キーワードテーブル101に格納されて
いる単語と一致するか否かをチェックする。一致する場
合は、その単語を当該文書のキーワードとしてキーワー
ドファイル103に登録する。例えば特許情報における
分類コードの如く、キーワードに付随した記号、コード
等が定められている場合には、これらのコード等もキー
ワードテーブル101に格納しておき、キーワードと共
に、キーワードファイル103に登録する。さらに、該
キーワードを含む文を本文ファイル102から抽出し、
これを要約文ファイル104に格納する。本文ファイル
102から抽出した単語が、キーワードテーブル101
に格納されている単語と一致しない場合は、その単語は
該文書情報のキーワードとはなり得ないものと見做し、
次の単語抽出に処理を移行する。
以上の処理を、本文ファイル102の全単語に゛ つい
て繰返す、これによって、全キーワードの抽出、および
要約文の作成が完了する。
第2図に、上記自動抽出処理を実例を用いて示す。図中
102は本文ファイルである6文中第1行目に存在する
「画像」がキーワードテーブルの内容と一致する。従っ
て、キーワードテーブル103に「画像」を登録する。
これと共に、この「画像」を含む文「本発明では、・・
・するようにした。」を要約文ファイル104に格納す
る。
以上説明した処理の流れを第3図に示す。図中201は
、本文ファイル102から単語を抽出する処理である。
英文の場合には、ブランクやピリオド、カンマ等の機号
によって区切られる文字列として単語を識別できる。一
方、日本語の場合には、英文のルールの他に、助詞、接
続語、接尾語。
活用語尾等によって区切られた文字列として抽出する。
さらに、キーワードとなりうる単語は、全て名詞である
ことから1品詞判定して1名詞のみを抽出することによ
り、以下に続く判定処理202の実行回数を減少するこ
ともできる。
処理202は、上記抽出された単語と同一単語が、キー
ワードテーブル101中に存在するか否かをチェックす
る処理である。一般に、キーワードテーブル101のエ
ントリー数は多くなるので、このチェック処理202に
は、二項チェック等の方法により高速化する必要がある
処理203は、前述の如く、キーワードに付随して記号
や番号等(以下、キーコードと呼ぶ。)が定められてい
る場合、そのキーコードを、キーワードテーブル101
から選択する処理である。
このキーコードは、キーワードテーブル101中で、当
該キーワードと関連付けて格納されている。
上記処理202.203で選定したキーワードおよびキ
ーコードを、キーワードファイル103に格納する処理
が第2図中204である。キーワードファイル103は
、本文ファイル102中に、文書情報の識別子として記
入されているコードと同一のコードが記入されており、
それに引続いて、キーワード、キーコードが格納される
。従って、処理204では、現在処理中の本文データに
対応する識別コードに続く空エリアに、上記処理202
.203で選定したキーワード、キーコードを格納する
処理205は、当該キーワードを含む文を、要約文とし
て抽出する処理である。文の末尾は、ピリオド、セミコ
ロン、あるいは、カンマに続く接続詞の前で終了する。
このような文の終了点から、次に表われる文の終了点ま
でを、1つの文として抽出する。さらに、要約文とする
ために、接続詞を除去する。
以上の処理で抽出された文を、要約文ファイル104に
格納するのが処理206である。要約文ファイル104
は、キーワードファイル103と同様に1本文データに
対応する識別コードが記入されており、これに続く空エ
リアに、処理206で抽出された文を格納する。
以上の処理の終了を判定するのが、処理207であり、
本文中の全単語に対して処理が終了した時に、キーワー
ドの自動抽出、および要約文の自動作成が完了する。
以上の実施例では、本文中のキーワード候補全てを抽出
している。この場合、本文の説明の都合上使用した単語
が、偶然キーワード候補としてキーワードテーブル10
1に収納されている場合、それをも当該文書のキーワー
ドとして抽出してしまう場合もありうる。これを除外す
るために、規定回数以上出現したキーワード候補のみを
、真のキーワードとして採用する方式や、構文解析によ
って主語や、目的語として表われた場合のみをキーワー
ドとして採用する等の方法が考えられる。
第4図に、本発明による文書情報登録方式によって登録
した文書を検索する際の表示画面を示す。
r画像」というキーワードに対応して、3つの文書情報
が選択されている。これらの中から所望の1つを特定す
るために、本発明による文書情報登録方式によって自動
作成された要約文を、案内用の画面として表示している
。検索者は、この要約文を見ることによって、真に必要
な文書情報を特定することができる。
〔発明の効果〕
本発明によれば、学術論文、特許情報などの文書情報の
登録に際し、本文データのみを入力すれば、それから、
キーワードを自動抽出し、さらに従来人間の知的活動と
されていた要約文の作成をも自動的に実行する。従って
、文書情報の入力作業を簡単化するのみならず、検索に
際し、キーワードだけでは特定できない場合にも、自動
作成した要約文を、検索用の補助情報として用いること
によって、所望の情報を容易に特定できる。さらに、従
来、文書情報の登録・検索システムは、入力の困難さに
よって、その普及が妨げられることが多かったが、本発
明によって、この障害を取除くことができる。
【図面の簡単な説明】
第1図は、本発明による文書情報の登録方式の全体構成
を示す図、第2図は、キーワードの自動抽出、および要
約文の自動作成の処理の一例を示す図、第3図はその処
理の流れを示す図、第41!1は、本発明によって自動
作成した要約文を検索用の補助情報として用いた案内画
面の一例を示す図である。 10・・・キーワード・要約文自動作成部、101・・
・キーワードテーブル、102・・・本文ファイル。 103・・・キーワードファイル、104 用要約文フ
ァイル、201・・・単語抽出処理部、202川キ一ワ
ードチエツク部、203・・・キーコード選択部、20
4・・・キーワード登録部、205・・・文抽出処理部
、2゛06・・・要約文登録部、2o7・・・終了判定
部。 ¥ 1 口 第 2 ロ ¥13 口

Claims (1)

  1. 【特許請求の範囲】 1、文書情報を収納するファイルシステムにおいて、検
    索用のキーワードを本文から自動抽出し、該結果を用い
    て検索補助情報としての要約文を自動生成することを特
    徴とする文書情報登録方式。 2、上記要約文を一覧表示し、その中から所望の情報を
    選択する第1項記載の文書情報登録方式。
JP60088517A 1985-04-26 1985-04-26 文書情報登録方式 Pending JPS61248160A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60088517A JPS61248160A (ja) 1985-04-26 1985-04-26 文書情報登録方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60088517A JPS61248160A (ja) 1985-04-26 1985-04-26 文書情報登録方式

Publications (1)

Publication Number Publication Date
JPS61248160A true JPS61248160A (ja) 1986-11-05

Family

ID=13945017

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60088517A Pending JPS61248160A (ja) 1985-04-26 1985-04-26 文書情報登録方式

Country Status (1)

Country Link
JP (1) JPS61248160A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63175965A (ja) * 1987-01-16 1988-07-20 Sharp Corp 文書処理装置
JPH023871A (ja) * 1988-06-16 1990-01-09 Toshiba Corp 画像情報ファイリング装置
EP0361464A2 (en) * 1988-09-30 1990-04-04 Kabushiki Kaisha Toshiba Method and apparatus for producing an abstract of a document
JPH05216936A (ja) * 1992-02-06 1993-08-27 Nippon Telegr & Teleph Corp <Ntt> 文書蓄積・検索方法
JPH08212236A (ja) * 1995-02-08 1996-08-20 Canon Inc 情報処理方法及びその装置
JPH10307837A (ja) * 1997-05-09 1998-11-17 Sharp Corp 検索装置並びに検索プログラムを記録した記録媒体

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63175965A (ja) * 1987-01-16 1988-07-20 Sharp Corp 文書処理装置
JPH023871A (ja) * 1988-06-16 1990-01-09 Toshiba Corp 画像情報ファイリング装置
EP0361464A2 (en) * 1988-09-30 1990-04-04 Kabushiki Kaisha Toshiba Method and apparatus for producing an abstract of a document
JPH0293866A (ja) * 1988-09-30 1990-04-04 Toshiba Corp 要約生成方法および要約生成装置
JPH05216936A (ja) * 1992-02-06 1993-08-27 Nippon Telegr & Teleph Corp <Ntt> 文書蓄積・検索方法
JPH08212236A (ja) * 1995-02-08 1996-08-20 Canon Inc 情報処理方法及びその装置
JPH10307837A (ja) * 1997-05-09 1998-11-17 Sharp Corp 検索装置並びに検索プログラムを記録した記録媒体

Similar Documents

Publication Publication Date Title
JP4544674B2 (ja) 選択文字列に関連する情報を提供するシステム
JP3300866B2 (ja) テキスト処理システムにより使用されるテキストを準備する方法及び装置
EP1217533A2 (en) Method and computer system for part-of-speech tagging of incomplete sentences
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
US5890182A (en) Sentence processing method and apparatus
US20070179932A1 (en) Method for finding data, research engine and microprocessor therefor
US7684975B2 (en) Morphological analyzer, natural language processor, morphological analysis method and program
JPS61248160A (ja) 文書情報登録方式
JP2005202924A (ja) 対訳判断装置、方法及びプログラム
JPH08263521A (ja) 文書登録検索システム
JPS6175952A (ja) 文書入力処理方式
JP3707506B2 (ja) 文書検索装置及び文書検索方法
JPH0561902A (ja) 機械翻訳システム
JPH0652151A (ja) 共起学習装置及びこれを用いたかな漢字変換装置
JPS6389976A (ja) 言語解析装置
JPH03260764A (ja) 翻訳用辞書登録方式
JPH04330565A (ja) 自然言語処理システム
JP2786211B2 (ja) 機械翻訳装置における後編集装置
JPH0954781A (ja) 文書検索システム
JPH04211868A (ja) Cd―romデータの検索用キーワードの作成方法
JPS6395573A (ja) 日本語文形態素解析における未知語処理方法
JPH03161865A (ja) 文章の検索方法
JP2000029882A (ja) 要約文作成装置
JP3884001B2 (ja) 言語解析システムおよび方法
JPH04188364A (ja) 日本文固有用語抽出装置