JPH0612453A - 未知語抽出登録装置 - Google Patents
未知語抽出登録装置Info
- Publication number
- JPH0612453A JPH0612453A JP4168803A JP16880392A JPH0612453A JP H0612453 A JPH0612453 A JP H0612453A JP 4168803 A JP4168803 A JP 4168803A JP 16880392 A JP16880392 A JP 16880392A JP H0612453 A JPH0612453 A JP H0612453A
- Authority
- JP
- Japan
- Prior art keywords
- word
- unknown word
- unknown
- words
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【目的】 日本語文章の中から未知語を自動的に抽出す
ること、および辞書・データベースへの未知語の登録を
簡便にすることにある。 【構成】 日本語文章を入力する入力部と、入力された
日本語文章を記憶する文章記憶部と、漢字を含む多数の
単語についてその読み情報を記憶している辞書部と、日
本語文章を言語解析する解析部と、言語解析した結果を
用いて辞書部に存在しない語を未知語として、入力した
日本語文章の中から一括抽出する抽出部と、抽出した語
を保存する保存部とを備えてなることを特徴とする。
ること、および辞書・データベースへの未知語の登録を
簡便にすることにある。 【構成】 日本語文章を入力する入力部と、入力された
日本語文章を記憶する文章記憶部と、漢字を含む多数の
単語についてその読み情報を記憶している辞書部と、日
本語文章を言語解析する解析部と、言語解析した結果を
用いて辞書部に存在しない語を未知語として、入力した
日本語文章の中から一括抽出する抽出部と、抽出した語
を保存する保存部とを備えてなることを特徴とする。
Description
【0001】
【産業上の利用分野】本発明は未知語の抽出および辞書
登録を行なう未知語抽出登録装置に関する。本発明は、
特に日本語ワードプロセッサに搭載される基本辞書や固
有名詞辞書などの各種辞書の作成、または新語・現代用
語辞典等、出版物としての各種辞書・辞典の作成を支援
するためのツールとして好適である。
登録を行なう未知語抽出登録装置に関する。本発明は、
特に日本語ワードプロセッサに搭載される基本辞書や固
有名詞辞書などの各種辞書の作成、または新語・現代用
語辞典等、出版物としての各種辞書・辞典の作成を支援
するためのツールとして好適である。
【0002】
【従来の技術】未知語の抽出装置の従来技術として、日
本語文章校正システムの未登録語抽出機能がある。この
技術は、日本語を言語解析(形態素解析)し、それによ
って分かち書きされた自立語の単語が基準辞書等にある
かどうかを調べ、辞書にない語を未登録語として抽出し
ていたものである。
本語文章校正システムの未登録語抽出機能がある。この
技術は、日本語を言語解析(形態素解析)し、それによ
って分かち書きされた自立語の単語が基準辞書等にある
かどうかを調べ、辞書にない語を未登録語として抽出し
ていたものである。
【0003】また、未知語の登録装置の従来技術として
は、ワードプロセッサ上での機能するユーザー辞書登録
機能がある。一般的にこの機能は、ワードプロセッサで
かな漢字変換を行ない目的の語に変換されなかった場合
に、この語をユーザー辞書に登録するものである。その
登録時には、最低限必要な情報として、未知語の表記、
読みをそれぞれ入力し、場合によっては、品詞やその他
の情報を入力することもある。
は、ワードプロセッサ上での機能するユーザー辞書登録
機能がある。一般的にこの機能は、ワードプロセッサで
かな漢字変換を行ない目的の語に変換されなかった場合
に、この語をユーザー辞書に登録するものである。その
登録時には、最低限必要な情報として、未知語の表記、
読みをそれぞれ入力し、場合によっては、品詞やその他
の情報を入力することもある。
【0004】登録の機会は、このようにかな漢字変換辞
書に登録されていない語が発見された時点で逐次的に行
なわれる。このように、従来の未知語の登録装置の用途
は、ワープロのかな漢字変換辞書を補うための、小規模
で個人的な辞書作成にとどまっていた。
書に登録されていない語が発見された時点で逐次的に行
なわれる。このように、従来の未知語の登録装置の用途
は、ワープロのかな漢字変換辞書を補うための、小規模
で個人的な辞書作成にとどまっていた。
【0005】
【発明が解決しようとする課題】従来技術のような基本
辞書との単純比較では、未知語であるのに未知語として
抽出できない場合が多くあった。このような未知語は固
有名詞に多く、一つの固有名詞が形態素解析により複数
個の基準辞書等に登録されている単語に分かち書きされ
る場合には、この固有名詞は未知語として扱われない
(例えば固有名詞「池袋」は「池(名詞)」と「袋(接
尾語)」に分かち書きされる)。また、形態素解析では
解析不可能な文字列が少なからず発生し、従来ではこれ
を解析エラーとして処理していた。しかし、この中には
未知語にふさわしいものが多く含まれていた。
辞書との単純比較では、未知語であるのに未知語として
抽出できない場合が多くあった。このような未知語は固
有名詞に多く、一つの固有名詞が形態素解析により複数
個の基準辞書等に登録されている単語に分かち書きされ
る場合には、この固有名詞は未知語として扱われない
(例えば固有名詞「池袋」は「池(名詞)」と「袋(接
尾語)」に分かち書きされる)。また、形態素解析では
解析不可能な文字列が少なからず発生し、従来ではこれ
を解析エラーとして処理していた。しかし、この中には
未知語にふさわしいものが多く含まれていた。
【0006】さらに、ワードプロセッサ上での辞書にな
い単語の登録における問題点は、かな漢字変換で目的の
語を変換してみないと、辞書に未登録であるかどうかが
分からない点である。このため、登録の機会が逐次的に
行なわれ、一括的な登録作業が行なえない。そしてこの
ような性質上、登録される語数も少なく、用途がワード
プロセッサのユーザー辞書登録に限られ、大規模な辞書
やデータベースの構築には向かなかった。
い単語の登録における問題点は、かな漢字変換で目的の
語を変換してみないと、辞書に未登録であるかどうかが
分からない点である。このため、登録の機会が逐次的に
行なわれ、一括的な登録作業が行なえない。そしてこの
ような性質上、登録される語数も少なく、用途がワード
プロセッサのユーザー辞書登録に限られ、大規模な辞書
やデータベースの構築には向かなかった。
【0007】また、単語登録時に入力する表記、読み、
品詞などの入力項目も固定であるため、目的別に使い分
けるなど、柔軟に辞書やデータベースを作成することが
困難であった。さらに登録時の情報に必須である表記の
入力は、従来技術の場合は、直接キーボードから入力す
るか、画面に表示されている目的の表記をキーボード等
を使って範囲を指定し、文中から切り出す必要がある。
このときいずれの場合も、複数回のキーボードの打鍵が
必要となる。
品詞などの入力項目も固定であるため、目的別に使い分
けるなど、柔軟に辞書やデータベースを作成することが
困難であった。さらに登録時の情報に必須である表記の
入力は、従来技術の場合は、直接キーボードから入力す
るか、画面に表示されている目的の表記をキーボード等
を使って範囲を指定し、文中から切り出す必要がある。
このときいずれの場合も、複数回のキーボードの打鍵が
必要となる。
【0008】また、読みの入力の場合には、キーボード
からひらがな、あるいはカタカナ等で、利用者が直接入
力しなければならなかった。しかも、漢字には同一の表
記でも幾とおりもの読み方があり、固有名詞などでは正
規の読み方以外の変則的な読み方をする場合があるの
で、読みを表記情報より決定することは難しいなどの問
題があった。
からひらがな、あるいはカタカナ等で、利用者が直接入
力しなければならなかった。しかも、漢字には同一の表
記でも幾とおりもの読み方があり、固有名詞などでは正
規の読み方以外の変則的な読み方をする場合があるの
で、読みを表記情報より決定することは難しいなどの問
題があった。
【0009】
【課題を解決するための手段及び作用】本発明の未知語
抽出登録装置には2つの形態がある。第1の発明は、日
本語文章を入力する入力部と、入力された日本語文章を
記憶する文章記憶部と、漢字を含む多数の単語について
読みや品詞情報などを記憶している辞書部と、日本語文
章を言語解析する解析部と、言語解析した結果を用いて
辞書部に存在しない語を未知語として、入力した日本語
文章の中から一括抽出する抽出部と、抽出した語を保存
する保存部とを備えてなることを特徴とする。
抽出登録装置には2つの形態がある。第1の発明は、日
本語文章を入力する入力部と、入力された日本語文章を
記憶する文章記憶部と、漢字を含む多数の単語について
読みや品詞情報などを記憶している辞書部と、日本語文
章を言語解析する解析部と、言語解析した結果を用いて
辞書部に存在しない語を未知語として、入力した日本語
文章の中から一括抽出する抽出部と、抽出した語を保存
する保存部とを備えてなることを特徴とする。
【0010】第1の発明において、形態素解析で未知語
を検出する場合に、その障害となるのが1文字自立語で
ある(例えば「池」、「宿」)。漢字は1文字で何らか
の意味を持つため辞書に多く登録されているが、このた
めに未知語抽出ができなくなる可能性がある(上述した
ように、「池袋」は「池」が辞書に登録されている1文
字自立語であるので「池袋」という1つのまとまった語
として認識できない)。
を検出する場合に、その障害となるのが1文字自立語で
ある(例えば「池」、「宿」)。漢字は1文字で何らか
の意味を持つため辞書に多く登録されているが、このた
めに未知語抽出ができなくなる可能性がある(上述した
ように、「池袋」は「池」が辞書に登録されている1文
字自立語であるので「池袋」という1つのまとまった語
として認識できない)。
【0011】本装置ではこの1文字自立語に着目し、1
文字自立語と、ある種の単語(特に接辞語、数詞、従来
技術で抽出された未登録語など)が前後に結合している
場合を結合ルールとして、この結合ルールより成り立つ
語が基本辞書に登録されていない場合にこれを未知語と
して抽出している。またこの結合ルールにより未知語と
してふさわしくないものまで一部抽出されるので、この
ような不要な語を取り除く処理も施している。
文字自立語と、ある種の単語(特に接辞語、数詞、従来
技術で抽出された未登録語など)が前後に結合している
場合を結合ルールとして、この結合ルールより成り立つ
語が基本辞書に登録されていない場合にこれを未知語と
して抽出している。またこの結合ルールにより未知語と
してふさわしくないものまで一部抽出されるので、この
ような不要な語を取り除く処理も施している。
【0012】第2の発明は、未知語抽出装置より抽出さ
れた未知語を保存する未知語記憶部と、未知語記憶部よ
り読み込まれた未知語をKWIC形式で表示する未知語
表示部と、未知語表示部に表示された未知語の中から、
辞書・データベースに登録する語を選択する未知語選択
部と、登録語を選択した際に、選択した登録語の表記、
読み、品詞などの付加情報を生成し、未知語表示部に出
力するとともに、未知語選択部の選択指示を受けて、選
択して登録語と付加情報とを対応させて辞書・データベ
ースに格納する未知語登録部とから構成されることを特
徴とする。
れた未知語を保存する未知語記憶部と、未知語記憶部よ
り読み込まれた未知語をKWIC形式で表示する未知語
表示部と、未知語表示部に表示された未知語の中から、
辞書・データベースに登録する語を選択する未知語選択
部と、登録語を選択した際に、選択した登録語の表記、
読み、品詞などの付加情報を生成し、未知語表示部に出
力するとともに、未知語選択部の選択指示を受けて、選
択して登録語と付加情報とを対応させて辞書・データベ
ースに格納する未知語登録部とから構成されることを特
徴とする。
【0013】第2の発明では、抽出された未知語をKW
IC形式で画面に全て一覧表示することによって、未知
語の登録を一括的に行なえる。KWIC(Keyword in co
ntext)とは、キーワードだけでなく、そのキーワードを
含む前後の部分を表示する方法、およびそのようにして
表示された索引を示すものである。
IC形式で画面に全て一覧表示することによって、未知
語の登録を一括的に行なえる。KWIC(Keyword in co
ntext)とは、キーワードだけでなく、そのキーワードを
含む前後の部分を表示する方法、およびそのようにして
表示された索引を示すものである。
【0014】ここでいう「一括」とは、個々の登録は利
用者が確認して行ないながらも、多数の未知語を一連の
作業で登録することができることを意味する。登録した
い単語の選択は、キーボードやポインティングデバイス
などの操作で行なうことができる。よって表記や読み、
品詞などの入力作業をできる限り簡略化している。
用者が確認して行ないながらも、多数の未知語を一連の
作業で登録することができることを意味する。登録した
い単語の選択は、キーボードやポインティングデバイス
などの操作で行なうことができる。よって表記や読み、
品詞などの入力作業をできる限り簡略化している。
【0015】表記の入力は、キーボードでの操作を例に
とると、1回の打鍵で行なうことができる。ワードプロ
セッサの単語登録作業で面倒であった読みの入力は、読
みを作成するための辞書を使うことによって読みを自動
的に生成・出力している。希望どおりの読みが生成され
れば入力の手間が省け、間違っていれば、従来どおりキ
ーボード等から修正すればよい。また、これらの作業
は、未知語が登録された辞書あるいはデータベースから
の登録語の削除も同様の操作で行なうことができる。さ
らに、未知語に付加する情報の種類は固定ではなく、任
意に変更することができる。
とると、1回の打鍵で行なうことができる。ワードプロ
セッサの単語登録作業で面倒であった読みの入力は、読
みを作成するための辞書を使うことによって読みを自動
的に生成・出力している。希望どおりの読みが生成され
れば入力の手間が省け、間違っていれば、従来どおりキ
ーボード等から修正すればよい。また、これらの作業
は、未知語が登録された辞書あるいはデータベースから
の登録語の削除も同様の操作で行なうことができる。さ
らに、未知語に付加する情報の種類は固定ではなく、任
意に変更することができる。
【0016】
実施例1 図1は第1の発明の装置の構成を示すブロック図であ
る。1は未知語の抽出を行ないたい入力文章を読み込む
入力部である。入力はこのようなファイルではなくて
も、キーボードから直接文書を入力してもかまわない。
2は従来と同じ構成の形態素解析処理部であり、文章を
形態素単位に分かち書きし、品詞やその他の情報を獲得
する。また、未知語の一部はこの形態素解析処理部2に
より従来方法で抽出される。
る。1は未知語の抽出を行ないたい入力文章を読み込む
入力部である。入力はこのようなファイルではなくて
も、キーボードから直接文書を入力してもかまわない。
2は従来と同じ構成の形態素解析処理部であり、文章を
形態素単位に分かち書きし、品詞やその他の情報を獲得
する。また、未知語の一部はこの形態素解析処理部2に
より従来方法で抽出される。
【0017】3は未知語抽出処理部である。ここでは7
の基準辞書、8の結合ルールテーブルを参照することに
より、未知語が抽出される。4は表示部であり、抽出さ
れた未知語がKWIC形式で表示装置に出力される。5
は未知語登録と削除を行なう未知語登録・削除部であ
り、登録したい未知語に対して、様々な情報を付加す
る。6および9は保存部であり、それぞれ、登録した未
知語を保存する部分、抽出した未知語を保存する部分で
ある。
の基準辞書、8の結合ルールテーブルを参照することに
より、未知語が抽出される。4は表示部であり、抽出さ
れた未知語がKWIC形式で表示装置に出力される。5
は未知語登録と削除を行なう未知語登録・削除部であ
り、登録したい未知語に対して、様々な情報を付加す
る。6および9は保存部であり、それぞれ、登録した未
知語を保存する部分、抽出した未知語を保存する部分で
ある。
【0018】図2は、未知語抽出処理部3での処理の流
れを示している。従来手法では、形態素解析で辞書未登
録語あるいは、いかなる品詞にも解析不能となった語を
未登録語としていた(ステップN1→N2)。本装置で
もステップN2で抽出された語を次の段階で抽出された
語と合わせて未知語として扱う。
れを示している。従来手法では、形態素解析で辞書未登
録語あるいは、いかなる品詞にも解析不能となった語を
未登録語としていた(ステップN1→N2)。本装置で
もステップN2で抽出された語を次の段階で抽出された
語と合わせて未知語として扱う。
【0019】ステップN3は結合ルールを形態素解析の
出力情報に適応する段階である。1文字自立語や接辞語
などの結合パターンルールより未知語を抽出する(ステ
ップN4)。結合ルールに満足しても一部の限られた表
記を持つ1文字自立語や接辞語などを含んでいれば、未
知語として認められず不要語として削除する(ステップ
N5)。
出力情報に適応する段階である。1文字自立語や接辞語
などの結合パターンルールより未知語を抽出する(ステ
ップN4)。結合ルールに満足しても一部の限られた表
記を持つ1文字自立語や接辞語などを含んでいれば、未
知語として認められず不要語として削除する(ステップ
N5)。
【0020】図3は、結合ルールテーブル8の内容を詳
細に示したものである。線で結ばれた語(品詞)が連続
(結合)していた場合、○印なら未知語として扱い、×
印なら未知語として扱わない。なお、この結合ルールテ
ーブル8の内容は固定ではなく、利用者が結合パターン
を変更したり、他の語(品詞)を追加して結合パターン
を増やすことも可能である。
細に示したものである。線で結ばれた語(品詞)が連続
(結合)していた場合、○印なら未知語として扱い、×
印なら未知語として扱わない。なお、この結合ルールテ
ーブル8の内容は固定ではなく、利用者が結合パターン
を変更したり、他の語(品詞)を追加して結合パターン
を増やすことも可能である。
【0021】図4は、抽出された未知語を辞書あるいは
データベースに登録する際に、表示される画面例であ
る。以下、この画面例に従って未知語登録を行なう作業
を説明する。従って操作方法、入力する項目などは本来
は任意である。
データベースに登録する際に、表示される画面例であ
る。以下、この画面例に従って未知語登録を行なう作業
を説明する。従って操作方法、入力する項目などは本来
は任意である。
【0022】なお、この実施例での操作は全てキーボー
ドから行なうものとする。この図の上半分は、抽出され
た未知語KWICリストの一部分である。ここでは、未
知語は漢字コード順に降順ソートされている。この中か
ら登録したい未知語を選択するには、カーソルで未知語
を指定すれば良い。
ドから行なうものとする。この図の上半分は、抽出され
た未知語KWICリストの一部分である。ここでは、未
知語は漢字コード順に降順ソートされている。この中か
ら登録したい未知語を選択するには、カーソルで未知語
を指定すれば良い。
【0023】例えば、通し番号“000012”を選択する
と、図の下半分の未知語登録領域の表記欄(1)に表記
「道頓堀」が現れる。続けて改行キー等で確定すると、
読み欄(2)に自動生成した「どうとんぼり」という読
みが現れる。もしここで自動生成した読みが誤っていれ
ば、キーボードから修正することも可能である。同様の
操作を(3),(4),(5)に対して続けると、未知
語「道頓堀」が辞書やデータベースに登録される。
と、図の下半分の未知語登録領域の表記欄(1)に表記
「道頓堀」が現れる。続けて改行キー等で確定すると、
読み欄(2)に自動生成した「どうとんぼり」という読
みが現れる。もしここで自動生成した読みが誤っていれ
ば、キーボードから修正することも可能である。同様の
操作を(3),(4),(5)に対して続けると、未知
語「道頓堀」が辞書やデータベースに登録される。
【0024】この例では、KWIC表示された未知語
(括弧で囲まれた語)に対しての操作例を示したが、装
置が未知語の文中からの切り出し方を誤って抽出した場
合には、簡単な操作で利用者が訂正することも可能であ
る。例えば通し番号“000007”の「峰」は、前の2文字
も含めた「最高峰」が正しい切り出し方であるので、キ
ーボードからの簡単な操作でこれに訂正することができ
る。さらに、この画面に現れていない任意の語を未知語
として登録することも可能であり、この場合には表記や
読みは直接キーボードから入力する。
(括弧で囲まれた語)に対しての操作例を示したが、装
置が未知語の文中からの切り出し方を誤って抽出した場
合には、簡単な操作で利用者が訂正することも可能であ
る。例えば通し番号“000007”の「峰」は、前の2文字
も含めた「最高峰」が正しい切り出し方であるので、キ
ーボードからの簡単な操作でこれに訂正することができ
る。さらに、この画面に現れていない任意の語を未知語
として登録することも可能であり、この場合には表記や
読みは直接キーボードから入力する。
【0025】図5は、未知語登録を行なう作業の流れを
示したものである。ステップN10の未知語抽出保存部
のデータを表示装置に一覧表示する(ステップN1
6)。利用者はこれを見ながら、登録したい未知語を前
述したような操作で選択する(ステップN11→N1
2)。次いで登録に必要な情報を入力し(ステップN1
3)、ステップN14では、すでに辞書やデータベース
に登録してある未知語の重複を避けるためにチェックす
る。重複がなければ、新しい未知語として登録する(ス
テップN15)。これら一連の作業を登録したい未知語
の語数について繰り返す。
示したものである。ステップN10の未知語抽出保存部
のデータを表示装置に一覧表示する(ステップN1
6)。利用者はこれを見ながら、登録したい未知語を前
述したような操作で選択する(ステップN11→N1
2)。次いで登録に必要な情報を入力し(ステップN1
3)、ステップN14では、すでに辞書やデータベース
に登録してある未知語の重複を避けるためにチェックす
る。重複がなければ、新しい未知語として登録する(ス
テップN15)。これら一連の作業を登録したい未知語
の語数について繰り返す。
【0026】実施例2 図6は、第2の発明の装置の構成を示すブロック図であ
る。操作は全てキーボードから行ない、出力装置を全て
CRTなどのディスプレイ表示すると仮定して、実施例
を以下に記述する。
る。操作は全てキーボードから行ない、出力装置を全て
CRTなどのディスプレイ表示すると仮定して、実施例
を以下に記述する。
【0027】同図において、21は未知語記憶部25よ
り読み込まれた未知語をKWIC形式で表示装置に出力
する部分である。未知語記憶部25は、未知語抽出装置
より抽出された未知語が保存されている部分である。2
2は未知語選択部であり、未知語表示部21に表示され
た未知語より、カーソルキー等で辞書・データベースに
登録する語を選択する部分である。選択後の表示入力欄
に表記が現れる。
り読み込まれた未知語をKWIC形式で表示装置に出力
する部分である。未知語記憶部25は、未知語抽出装置
より抽出された未知語が保存されている部分である。2
2は未知語選択部であり、未知語表示部21に表示され
た未知語より、カーソルキー等で辞書・データベースに
登録する語を選択する部分である。選択後の表示入力欄
に表記が現れる。
【0028】未知語登録・削除部23では、表記に続い
て読みや品詞など各項目を入力する。読みは、読み作成
辞書26より生成されたものが読み入力欄に現れる。期
待した読みが現れない場合は、キーボードより目的の読
みを入力する。項目をひととおり入力すると、未知語が
辞書・データベース24に登録される。この時、同一の
未知語がすでに辞書・データベース24に登録されてい
れば、その旨を利用者に知らせる。
て読みや品詞など各項目を入力する。読みは、読み作成
辞書26より生成されたものが読み入力欄に現れる。期
待した読みが現れない場合は、キーボードより目的の読
みを入力する。項目をひととおり入力すると、未知語が
辞書・データベース24に登録される。この時、同一の
未知語がすでに辞書・データベース24に登録されてい
れば、その旨を利用者に知らせる。
【0029】図7および図8は、未知語を登録する作業
の流れを表したフローチャートである。また、図9は登
録作業の画面例である。図9の上半分1は、抽出された
未知語KWICリストの一部分である。括弧で囲まれた
語が未知語であり、実際の画面では括弧ではなく反転表
示される。ここでは、未知語は漢字コード順に降順ソー
トされている。下半分2は、登録に必要な情報を入力す
る欄である。この例では、表記、読み、言い替え語、品
詞、分類コードが辞書・データベース24に登録され
る。
の流れを表したフローチャートである。また、図9は登
録作業の画面例である。図9の上半分1は、抽出された
未知語KWICリストの一部分である。括弧で囲まれた
語が未知語であり、実際の画面では括弧ではなく反転表
示される。ここでは、未知語は漢字コード順に降順ソー
トされている。下半分2は、登録に必要な情報を入力す
る欄である。この例では、表記、読み、言い替え語、品
詞、分類コードが辞書・データベース24に登録され
る。
【0030】図7のステップS3は、画面上に現れた未
知語の中から、辞書・データベースに登録する語をカー
ソルキーで選択する操作である。これを図9に例をとれ
ば、左端の通し番号“000012”に抽出されている未知語
「道頓堀」を登録したいとき、カーソルキーをこの行へ
移動する。カーソルの桁位置はどこでも構わない。もし
ここで、装置が未知語の文中からの切り出しを誤ってい
れば(ステップS4)、後述する方法でそれを修正すれ
ばよい(ステップS16)。この場合は正しく切り出さ
れているとして、この未知語の登録を開始することを改
行キーで決定する(ステップS5)。
知語の中から、辞書・データベースに登録する語をカー
ソルキーで選択する操作である。これを図9に例をとれ
ば、左端の通し番号“000012”に抽出されている未知語
「道頓堀」を登録したいとき、カーソルキーをこの行へ
移動する。カーソルの桁位置はどこでも構わない。もし
ここで、装置が未知語の文中からの切り出しを誤ってい
れば(ステップS4)、後述する方法でそれを修正すれ
ばよい(ステップS16)。この場合は正しく切り出さ
れているとして、この未知語の登録を開始することを改
行キーで決定する(ステップS5)。
【0031】決定後、図9の(1)に示されるように表
記が現れ、特殊な事情で修正の必要がなければ改行キー
で決定する(ステップS6)。そうすると読みの入力欄
に未知語の読みが現れる(図9の(2)参照)。装置が
出力した読みが正しければ、改行キーで確定し(ステッ
プS8)、誤っていれば(ステップS7)キーボードよ
り読みを修正する(ステップS17)。
記が現れ、特殊な事情で修正の必要がなければ改行キー
で決定する(ステップS6)。そうすると読みの入力欄
に未知語の読みが現れる(図9の(2)参照)。装置が
出力した読みが正しければ、改行キーで確定し(ステッ
プS8)、誤っていれば(ステップS7)キーボードよ
り読みを修正する(ステップS17)。
【0032】図9の(3)では、表記に常用外漢字を含
んでいる場合(ステップS9)、その言い替え(常用外
漢字をひらかなに言い替えるなど)の表記を装置が出力
する。常用外漢字を含んでいない場合や表示された言い
替えの表記が正しければ、図9の(4)において品詞を
入力する(ステップS10)。
んでいる場合(ステップS9)、その言い替え(常用外
漢字をひらかなに言い替えるなど)の表記を装置が出力
する。常用外漢字を含んでいない場合や表示された言い
替えの表記が正しければ、図9の(4)において品詞を
入力する(ステップS10)。
【0033】品詞の入力はこの画面例では、品詞選択用
のウィンドウが現れ、これを用いて品詞を決定する(ス
テップS11,図9の(4)参照)。ここでの入力例
は、図9の(1)〜(5)までの5項目が1つの未知語
を登録するのに必要な入力項目である。入力項目をすべ
て終えると辞書・データベースに登録される(ステップ
S14)。
のウィンドウが現れ、これを用いて品詞を決定する(ス
テップS11,図9の(4)参照)。ここでの入力例
は、図9の(1)〜(5)までの5項目が1つの未知語
を登録するのに必要な入力項目である。入力項目をすべ
て終えると辞書・データベースに登録される(ステップ
S14)。
【0034】もし、未知語が既に登録されていれば、重
複して登録されることはない(ステップ13)。なお、
ステップS3〜S11までの操作は、いつでも適当なキ
ーで直前の操作に戻ることができる。つまり、入力を誤
った場合、いつでも修正が可能である。以上の操作を、
登録したい未知語の数だけ繰り返す。
複して登録されることはない(ステップ13)。なお、
ステップS3〜S11までの操作は、いつでも適当なキ
ーで直前の操作に戻ることができる。つまり、入力を誤
った場合、いつでも修正が可能である。以上の操作を、
登録したい未知語の数だけ繰り返す。
【0035】また、未知語の切り出し方が誤っていれ
ば、簡単な操作でこれを修正することができる。例えば
ステップS4において、通し番号“000007”の「峰」は
切り出し方が誤っている(正しくは前の2文字も含めた
「最高峰」)。これを修正するには、切り出したい文字
列の先頭文字「最」へカーソルを移動し空白キーを押
す。次に、文字列の最後の文字「峰」へカーソルを移動
し空白キーを押す。文字列「最高峰」が反転表示され、
改行キーで決定すると、図9の(1)に示すように、表
記入力欄に切り出した文字列が登録表記として現れる。
ば、簡単な操作でこれを修正することができる。例えば
ステップS4において、通し番号“000007”の「峰」は
切り出し方が誤っている(正しくは前の2文字も含めた
「最高峰」)。これを修正するには、切り出したい文字
列の先頭文字「最」へカーソルを移動し空白キーを押
す。次に、文字列の最後の文字「峰」へカーソルを移動
し空白キーを押す。文字列「最高峰」が反転表示され、
改行キーで決定すると、図9の(1)に示すように、表
記入力欄に切り出した文字列が登録表記として現れる。
【0036】今までの例では、画面に表示された未知語
KWICリストの中から登録する語を選んだが、表記入
力欄にキーボードから直接任意の文字列を入力すること
により、装置が出力した未知語に限らず、任意の語を登
録することができる。なお、キー操作、表示形態、入力
欄の数・種類、品詞・分類コードの選択項目などはあく
までも一例であり、これらは本来は任意である。
KWICリストの中から登録する語を選んだが、表記入
力欄にキーボードから直接任意の文字列を入力すること
により、装置が出力した未知語に限らず、任意の語を登
録することができる。なお、キー操作、表示形態、入力
欄の数・種類、品詞・分類コードの選択項目などはあく
までも一例であり、これらは本来は任意である。
【0037】図10は、漢字表記から読みを決定する時
の処理の流れを示したものである。読み作成辞書26に
は、例えば「寺」という漢字は、文字列の末尾にあると
“じ”と読まれる頻度が高い(寺の名前)が、文字列の
先頭にあると“てら”と読まれる頻度が高い(人名)、
などの情報が登録されている。
の処理の流れを示したものである。読み作成辞書26に
は、例えば「寺」という漢字は、文字列の末尾にあると
“じ”と読まれる頻度が高い(寺の名前)が、文字列の
先頭にあると“てら”と読まれる頻度が高い(人名)、
などの情報が登録されている。
【0038】まず入力された表記を漢字1文字ごとに分
け(ステップS21)、それぞれについて表記文字列中
の位置を求める。(ステップS22)。漢字1文字の表
記とこの位置情報から読み作成辞書26を検索し、最も
頻度の高い読みを出力する(ステップS23)。利用者
がこの読みに対して修正を加えるかどうかに関わらず、
決定された1文字漢字読みの位置/頻度情報は、読み作
成辞書26に更新登録される(ステップS25)。
け(ステップS21)、それぞれについて表記文字列中
の位置を求める。(ステップS22)。漢字1文字の表
記とこの位置情報から読み作成辞書26を検索し、最も
頻度の高い読みを出力する(ステップS23)。利用者
がこの読みに対して修正を加えるかどうかに関わらず、
決定された1文字漢字読みの位置/頻度情報は、読み作
成辞書26に更新登録される(ステップS25)。
【0039】
【発明の効果】第1の発明によれば、大量の日本語文書
(漢字かな交じり文)の中から未知語の可能性のある語
を自動的に、また高速に一括して抽出することができ
る。また、抽出ルールの性質上、文章の種類は一切問わ
ない。すなわち新聞記事、論文、小説文などなんでもか
まわない。文章は辞書のような語が羅列したデータでも
抽出することができる。
(漢字かな交じり文)の中から未知語の可能性のある語
を自動的に、また高速に一括して抽出することができ
る。また、抽出ルールの性質上、文章の種類は一切問わ
ない。すなわち新聞記事、論文、小説文などなんでもか
まわない。文章は辞書のような語が羅列したデータでも
抽出することができる。
【0040】第2の発明によれば、未知語の辞書・デー
タベースへの登録作業が従来技術よりも簡略化され、一
括した登録が行なえるため、大規模な辞書・データベー
スの構築が容易になる。この特性を活かして、日本語ワ
ードプロセッサの基本辞書、ユーザー辞書、固有名詞辞
書などの各種辞書の作成に利用することができ、また新
語辞書や現代用語辞典などの用語集めに役立てることが
可能である。
タベースへの登録作業が従来技術よりも簡略化され、一
括した登録が行なえるため、大規模な辞書・データベー
スの構築が容易になる。この特性を活かして、日本語ワ
ードプロセッサの基本辞書、ユーザー辞書、固有名詞辞
書などの各種辞書の作成に利用することができ、また新
語辞書や現代用語辞典などの用語集めに役立てることが
可能である。
【図1】第1の発明に係る装置の構成を示すブロック図
である。
である。
【図2】図1の未知語抽出処理部の処理内容を示すフロ
ーチャートである。
ーチャートである。
【図3】図1の結合ルールテーブルの具体例を示す説明
図である。
図である。
【図4】第1の発明に係る未知語登録画面の具体例を示
す説明図である。
す説明図である。
【図5】第1の発明に係る未知語登録処理を示すフロー
チャートである。
チャートである。
【図6】第2の発明に係る実施例2の装置の構成を示す
ブロック図である。
ブロック図である。
【図7】第2の発明に係る未知語登録処理を示すフロー
チャートである。
チャートである。
【図8】第2の発明に係る未知語登録処理を示すフロー
チャートである。
チャートである。
【図9】第2の発明に係る未知語登録画面の具体例を示
す説明図である。
す説明図である。
【図10】第2の発明に係る読み決定処理を示すフロー
チャートである。
チャートである。
1 入力部 2 形態素解析処理部 3 未知語抽出処理部 4 表示部 5 未知語登録・削除部 6 保存部 7 基準辞書 8 結合ルール 9 保存部 21 未知語表示部 22 未知語選択部 23 未知語登録・削除部 24 辞書・データベース 25 未知語記憶部 26 読み作成辞書 27 印刷装置
───────────────────────────────────────────────────── フロントページの続き (72)発明者 乾 隆夫 大阪府大阪市阿倍野区長池町22番22号 シ ャープ株式会社内
Claims (2)
- 【請求項1】 日本語文章を入力する入力部と、入力さ
れた日本語文章を記憶する文章記憶部と、漢字を含む多
数の単語について読みや品詞情報などを記憶している辞
書部と、日本語文章を言語解析する解析部と、言語解析
した結果を用いて辞書部に存在しない語を未知語とし
て、入力した日本語文章の中から一括抽出する抽出部
と、抽出した語を保存する保存部とを備えてなる未知語
抽出登録装置。 - 【請求項2】 未知語抽出装置より抽出された未知語を
保存する未知語記憶部と、未知語記憶部より読み込まれ
た未知語をKWIC形式で表示する未知語表示部と、未
知語表示部に表示された未知語の中から、辞書・データ
ベースに登録する語を選択する未知語選択部と、登録語
を選択した際に、選択した登録語の表記、読み、品詞な
どの付加情報を生成し、未知語表示部に出力するととも
に、未知語選択部の選択指示を受けて、選択して登録語
と付加情報とを対応させて辞書・データベースに格納す
る未知語登録部とから構成される未知語抽出登録装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4168803A JPH0612453A (ja) | 1992-06-26 | 1992-06-26 | 未知語抽出登録装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4168803A JPH0612453A (ja) | 1992-06-26 | 1992-06-26 | 未知語抽出登録装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH0612453A true JPH0612453A (ja) | 1994-01-21 |
Family
ID=15874780
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP4168803A Pending JPH0612453A (ja) | 1992-06-26 | 1992-06-26 | 未知語抽出登録装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0612453A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09198395A (ja) * | 1996-01-16 | 1997-07-31 | Fuji Xerox Co Ltd | 文書検索装置 |
US8219381B2 (en) | 2006-09-27 | 2012-07-10 | Kabushiki Kaisha Toshiba | Dictionary registration apparatus, dictionary registration method, and computer product |
JP2013178757A (ja) * | 2012-01-31 | 2013-09-09 | Tata Consultancy Services Ltd | 科学用語向け辞書自動作成 |
-
1992
- 1992-06-26 JP JP4168803A patent/JPH0612453A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09198395A (ja) * | 1996-01-16 | 1997-07-31 | Fuji Xerox Co Ltd | 文書検索装置 |
US8219381B2 (en) | 2006-09-27 | 2012-07-10 | Kabushiki Kaisha Toshiba | Dictionary registration apparatus, dictionary registration method, and computer product |
JP2013178757A (ja) * | 2012-01-31 | 2013-09-09 | Tata Consultancy Services Ltd | 科学用語向け辞書自動作成 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0645720B1 (en) | Dictionary creation supporting system | |
EP0370774A2 (en) | Machine translation system | |
JPH03185561A (ja) | 欧文単語入力方法 | |
JPH09190449A (ja) | 索引自動生成方法とその利用方法 | |
JPH11328166A (ja) | 文字入力装置及び文字入力処理プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JPH0612453A (ja) | 未知語抽出登録装置 | |
JP3483585B2 (ja) | 文書検索装置及び文書検索方法 | |
JP2621999B2 (ja) | 文書処理装置 | |
JP3377942B2 (ja) | 電子辞書検索装置および電子辞書検索装置制御用プログラムを記憶したコンピュータ読取可能な記憶媒体 | |
JPH1011431A (ja) | 漢字検索装置および方法 | |
JP3935374B2 (ja) | 辞書構築支援方法、装置及びプログラム | |
JPH0765008A (ja) | 用語登録制御方法及び同装置 | |
JP2682048B2 (ja) | 文章処理装置 | |
JPH0571982B2 (ja) | ||
JPH0561902A (ja) | 機械翻訳システム | |
KR0164405B1 (ko) | 한/영 혼용문 자동구분방법 | |
JPH06266753A (ja) | 文書作成装置 | |
JPH10198664A (ja) | 日本語入力システム及び日本語入力プログラムを記録した媒体 | |
JPH0628396A (ja) | 電子化辞書装置 | |
JPH03129562A (ja) | インデックス作成支援装置 | |
JP2004355248A (ja) | 電子辞書 | |
JPH0486948A (ja) | 分野別辞書を利用したカナ振りデータベースの作成方法 | |
JPH08241315A (ja) | 文書処理装置の単語登録機構 | |
JPH09146937A (ja) | 文字列変換装置および文字列変換方法 | |
JP2005293069A (ja) | 電子辞書 |