JP2633824B2

JP2633824B2 - 仮名漢字変換装置

Info

Publication number: JP2633824B2
Application number: JP59044025A
Authority: JP
Inventors: 正博阿部; 正紀川瀬
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1984-03-09
Filing date: 1984-03-09
Publication date: 1997-07-23
Anticipated expiration: 2012-07-23
Also published as: JPS60189565A

Description

【発明の詳細な説明】〔発明の利用分野〕本発明は仮名入力を漢字仮名混り文に変換する仮名漢
字変換装置に係り、特に入力が文節単位に分ち書きされ
なくても変換可能な、いわゆるべた書き入力に好適な仮
名漢字変換装置に関するものである。

〔発明の背景〕

従来、べた書き入力の仮名漢字変換の方法としては、
日立評論昭和56年５月第63巻第５号「HITAC L−320/30
H,50H文書処理機能」（以下文献（１）と呼ぶ）に述べ
られている最長一致とバツクトラツクを組合せた方法、
昭和53年度情報処理学会第19回全国大会論文集5E−４
「べた書き文のカナ漢字変換システム」以下「文線
（２）と呼ぶ）に述べられている二文節最長一致法、昭
和56年情報処理学会計算言語学研究会資料25−６「表方
式を用いた文節構造分析アルゴリズムとその能率につい
て」（以下文献（３）と呼ぶ）に述べられている文節数
最小法などがよく知られている。

文献（１）の方法は、入力左端から最長一致により自
立語を切り出し、次にその自立語に文法的に接続可能な
付属語を引当てる文節変換処理を右端に達するまで繰返
し行うもので、右端に達しない場合はバツクトラツク
（後戻り）して別の文節変換を試み先へ進むものであ
る。

文献（２）の方法は、入力左端から２文節にわたつて
全ての可能な変換候補を総当り的に抽出しその中から２
文節の長さの和が最長となるもの選んで１文節目の切り
目とし、今度はその点を始点として同じことを繰返すこ
とにより１文節ずつ切れ目を決定しながら変換する方法
である。

文献（３）の方法は、左端から総当り的に文節の切り
出しを行い、その中から文節数が最小となる組合せを選
び出して変換結果とする方法である。

べた書き入力では、文節と文節の間の切れ目をどこに
するかという選択の余地があるために、文節分り書きの
場合にくらべて、一般に変換の候補となる多義が多く生
ずる。たとえば、「すうがくかいせきじようでは」とい
う入力に対しては「数学解析上では」，「数学科移籍上
では」，「数学会席上では」，「数学が遺跡上では」な
ど多くの解釈が可能である。したがつて、文献（１），
（２），（３）に述べられている方法を用いても高い変
換精度を得るのは難しいという問題があつた。

〔発明の目的〕

本発明の目的は変換の確からしさの尤度が高い複数の
変換候補を効率よく抽出，保持し，正しい変換結果をそ
の中から容易に速く選択，確定するべた書き入力向きの
手段を提供することにある。また本発明の第２の目的
は、変換の精度を上げるためのべた書き入力向きの学習
機構を提供することにある。

〔発明の概要〕

上記目的を達成するため、変換は入力文字列の左端か
ら右方向に、変換候補を切り出し、尤度を求めて、その
尤度がある範囲内にあるものを保持しながら処理を進め
る。入力文字列の右端まで処理が終つたら、変換候補の
中から最も尤度の高い候補列を選び出し変換結果として
表示する。それと同時に、候補列の左から順に保持して
いる他の候補群を表示して、選択，修正を可能とする。
表示している変換結果と異なる候補が選択され、確定し
た場合は、残りの未確定部分について尤度の再評価を行
い、必要があれば変換結果の表示を変更する。選択され
た複合語や接辞付きの自立語は保持しておき、以後同じ
文字列が入力されたときは、尤度を高くして変換精度の
向上をはかる。

このように、可能性の高い候補を選んで保持しておく
ことにより、変換語りが生じても高速に別の候補を表示
選択することが可能となり、そのために必要な記憶装置
の量も少なくて済む。また変換誤りを別の候補を選択す
ることにより修正した場合は、その部分だけでなく、そ
れ以後の候補も再評価するので、たとえば、候補間の区
切りの位置が変つた場合は、自動的に新しい区切り位置
から始まる後続の候補列が準備され、以後の補正の手数
を減少することが可能となる。さらに、変換誤り部分に
ついても、以後学習が行われるので同じ誤りを繰返すこ
とはない。特に、接頭語や接尾語のついた語や、複合語
は長い単位で学習されるので、変換精度向上の効果が大
きい。

〔発明の実施例〕

以下、本発明の一実施例を説明する。

第１図は本発明の仮名漢字変換装置の構成を表わす図
で、入出力部1,制御部２および記憶部３から成る。入出
力部１は仮名入力および変換、選択指示を入力するため
のキーボードと変換結果および選択候補を表示するため
の表示部とからなる。制御部２は仮名漢字変換の実行制
御を司る。記憶部３は入力仮名文字列や変換で用いられ
るデータを一時保持する。

本仮名漢字変換装置を用いた変換の実行方法を第２図
に示す。ユーザは入出力部１から仮名文字列を入力し変
換を指示する（10）。制御部２はこの仮名入力に対して
変換の確からしさの尤度が高い候補を作成し記憶部３に
格納する変換処理（20）を行う。次に制御部２は、記憶
部３にある候補の中から最も尤度の高い候補列と先頭の
候補に対応して選択すべき代替候補を作成し（30）、入
出力部１に表示させる（40）。ユーザが、選択候補の中
から目的の候補を選択する（50）と、制御部２は、選択
された部分を確定し、選択された候補の学習を行う（6
0）。次に制御部２は、未確定部分について再び表示候
補作成処理（30）を行い、後続部分の変換結果と代替候
補を作成し表示する。以上の表示（40），選択（50），
確定処理（60），表示候補作成処理（30）を変換結果が
すべて確定されるまで繰返す。

以下、上で述べた制御部２の動作を更に詳しく説明す
る。

第３図は変換処理（20）の動作を表わすフローチヤー
ト図である。第４図は変換処理（20）によつて記憶部３
上に作られるデータの一例を示す図である。第４図に示
した例を用いて、第３図の変換処理（20）を具体的に説
明する。

今、入力文字列が「すうがくかいせきじようでは」で
あつたとする。第３図、および第４図において、ｎは入
力文字列の先頭から数えた文字の位置を示すポインタと
する。第３図のステツプ201でまずｎを１にセツトし入
力文字列の先頭に位置づける。ステツプ202でｎの位置
が終了している文節端があるかどうかチエツクする。文
字列の先頭は特別に文節端とみなすとする。ステツプ20
3に移つて、文節変換を行う。文節変換では、ｎの位置
を文節の先頭として１文節分の変換を行い可能な変換候
補を抽出する。ここで文節とは１つの自立語とその前に
省略可能な接頭語，自立語の語に省略可能な接尾語、お
よび省略可能な付属語が連なつた形式のものをさす。複
合語は文節とみなす。第４図の例では、「数学」，
「数」，「吸う」，「数学会」，「数学界」，「数学
階」，「数が」，「吸うが」等が先頭から変換候補とし
て抽出される。この文節単位の仮名漢字変換としては、
NHK技術研究第25巻第５号昭和48年５月「計算機による
カナ漢字変換」に示されている方法がよく知られてい
る。次にステツプ204で変換候補の確からしさの尤度を
判定し、記憶部３に保持すべきか、捨てる（枝刈りと呼
ぶ）べきか決める。確からしさの尤度は、基本的には文
献（１），（２），（３）に述べられているように、入
力文字列をより長い文節の列、別の言い方をすればより
少ない文節の列に分解する方が尤度が高くなるように決
める。ただし同じ文節では「この」「その」などの連体
詞や、「こと」，「もの」などの形式名詞などは他の文
節に付属して使用されることが多いので名詞や動詞のよ
うに独立した一つの文節とみなさず、文節数を数える場
合１より小さな値とする。このように、品詞および出現
頻度等を考慮した重みを掛けて文節数を求め、その数が
少ない程尤度が高いとする。具体的には、名詞，動詞，
形容詞，形容動詞には重み1,形式名詞，補助動詞，連体
詞等には0.1,接頭語，接尾語は準自立語扱いとして0.5
の重みを与えるものとする。

枝刈りは、文字列先頭から現在判定の対象となつてい
る文節の後端までの尤度を求め、それをその文節後端文
字位置における尤度と定めて、もし既に同じ文字位置に
おいて尤度が求まつている場合はその値と比較し、その
値がある許容値を越える場合枝刈りを実行する。本実施
例では、この許容値は同じ文字位置における重みつき文
節数の最小値＋１である。しかし本発明は、確からしさ
の尤度の決め方、および枝刈りの許容値の大きさによつ
て制限されるものではないことは言うまでもない。本発
明の特徴は、確からしさの尤度がある範囲内にある文節
候補をすべて抽出し、記憶部３上に保持することによ
り、後の選択，修正を高速に容易に行なえる点にある。

第４図において、先頭より抽出された各文節はすべて
記憶部３に格納される（ステツプ205）。格納する場
合、データを第４図に示したようなネツトワーク状にす
ることにより占有する記憶容量を小さくすることができ
る。たとえば、「数」と「吸う」は文節右端を共有する
ことにより、その後続の文節を一元化することが可能で
ある。このようなデータ表現の具体的方法はリスト処理
としてよく知られている。

第３図ステツプ206ではｎに１を加えてポインタを次
の入力文字位置に進める。ステツプ207でポインタｎの
文字位置に入力がまだあるかどうか判定し、あればステ
ツプ202に戻る。

ｎが２のとき本文字位置に文節右端はないので、ステ
ツプ206に行き、直ちに次の文字位置にポインタｎを移
す。ｎが３の場合は、「数」，「吸う」という文節端が
可能であるので、ステツプ203で本位置から次の文節の
抽出を行い、「額」，「楽」，「額か」，「額会」，
「額科」などの文節が得られる。ステツプ204でｎが４
の位置ですでに「数学」が候補として得られており、そ
の重みつき文節数は１である。「額」，「楽」の文節候
補ではｎが４の位置の重みつき文節数は「数」の１と
「額」または「楽」の１を加えて２となる。枝刈り条件
から「額」，「楽」は許容範囲内におさまるのでステツ
プ205でネツトワークに登録されることになる。

以上述べたように、ステツプ202からステツプ207をｎ
が14になるまで繰返すことにより第４図に示した完全な
ネツトワークが得られる。ただし、ここで「会，界，
階，科，化，上，場，状」は接尾語とする。

ステツプ208では、変換結果の未確定部分の先頭の位
置を表わすポインタＰを１に初期設定し、まだ確定部分
がないことを示しておく。

以上により制御部２における変換処理（20）の動作が
終了し、次に表示候補作成処理（30）の動作に移る。

第５図は表示候補作成処理（30）の動作を表わすフロ
ーチヤート図である。

ステツプ301では、Ｐ点より入力文字列終端までの候
補列の中から尤度の尤も大きな候補列を変換結果として
表示バツフアにセツトする。もしも尤度の同じ候補列が
複数ある場合は、記憶部３上にあつて、既に確定された
文字列から複合語や接辞付きの自立語を保持している学
習テーブルを参照し、このテーブル上にある語を最も多
く含む候補列を変換結果として選択する。また以上でも
一意に決らない場合は、自立語長の和の最も大き候補列
を選択する。この他に、変換結果を選ぶ方法としては、
単語の頻度を用いる方法等もあり、以上述べた要因を任
意に組合せて別の選択方法を作ることができる。

ステツプ302では、Ｐ点から始まる他の候補群を表示
バツフアにセツトしユーザが選択できるようにする。

第４図の例の場合、Ｐが１のとき変換結果として「数
学解析上では」が選ばれ、選択のための候補群として、
「数学」，「数」，「吸う」が取出され表示バツフアに
セツトされる。さらに、現在選択の対象となつている文
字列部分を明示するため、変換結果、および入力文字列
の該当部分が強調表示される。（表示（40））。

第７図は入力（10）が終つた直後の入出力部１に表示
される画面情報を、第８図は表示候補作成列理（30）が
終つた後表示される画面情報を示す。本画面で最下部は
入力行、上部は変換結果出力行、右下は選択候補表示エ
リアである。

ユーザが画面上の変換結果を見て選択（50）を行う。
選択は選択候補群の中から目的の１つを選ぶ操作をキー
ボードにより指示するが、画面上部に強調表示されてい
る変換結果が正しい場合はある特定のキーを押下するこ
とにより選ぶことも可能である。

制御部２はユーザにより選択（50）が行われると、次
に確定処理（60）の動作を実行する。

第６図は確定処理（60）の動作を表わすフローチヤー
ト図である。

ステツプ601では、ユーザが選択指示した候補に対応
する記憶部３上のネツトワークのデータにマークを付け
るとともに、Ｐに選択された候補の長さを加えて、後続
の未確定部の先頭位置を示す。

ステツプ602では、選択された候補を記憶部３上の学
習テーブルに読みと共に格納する。

制御部２は表示候補作成処理30により確定処理60で選
択された候補および、Ｐ点以降の候補のネツトワークの
尤度を再評価して得られる後続の変換結果と、Ｐ点から
始まる他の候補群を表示バツフアにセツトする。第９図
にユーザが「数学」を選択した後の画面表示情報を示
す。強調表示は「数学」の後の「解析」の部分に移つて
いる。選択候補群としては「解析」，「会」，「界」，
「階」「科」，「化」，「か」が表示される。

ユーザが、候補の中から「解析」ではなく「会」を選
択すると、第10図に示すように、「会」の後の変換結果
が第４図のネツトワークから得られる「席上」に自動的
に変更され、選択の候補群として「席上」，「関」，
「咳」が表示される。このように候補間の隣接関係を保
持しているため、文節切れ目が選択（50）によつて変更
された場合は、後続の表示も同時に修正することが可能
であり、以後の修正の工数を減らすことができる。

ユーザが「会」を選択したことによつて、確定処理
（60）で学習テーブルも更新されるが、今の場合、すで
に「数学」が登録されており、「会」が接尾語であるこ
とから、以前に登録されている「数学」に「会」が追加
され「数学会」の形で再登録が行われる。第11図に「数
学会」が登録された後のテーブルの内容を示す。

制御部２は未確定部がなくなるまで表示候補作成処理
（30）と確定処理（60）を繰返して実行する。すべての
変換結果が確定されると処理を終了する。

以上述べた一連の処理が終了すると記憶部３上のネツ
トワークのデータは消去されるが、学習テーブル上のデ
ータは保持され、以後同じ文字列が入力された場合は優
先的に変換結果として採用されるので、使用に応じて変
換精度を高めることができる。従来も、変換に伴う学習
機能は用いられていたが、接頭語や接尾語はそれ単独で
学習しても、同音意義のもの同志が同一文章中に現われ
ることが多いので、かえつて変換精度を落すことが多く
問題であつた。また「新聞記者が汽車で」などのよう
に、同音異義語が現われる場合は「きしや」という読み
の単位で学習していたので、「記者」と「汽車」を区別
することができなかつた。本発明によれば、接頭語や接
尾語はそれが付く自立後と共に学習し、複合語は自立語
に分解せず長い単位で学習するので、学習による精度の
向上をより高くできる効果がある。

〔発明の効果〕

本発明によれば、変換の確からしさの尤度が高い候補
を保持しているので、もし変換結果に誤りがあつても直
ちに別の候補を選択することができ修正を高速化できる
効果がある。候補の作成保持のための処理をユーザの入
力作業中に並行して行うことにより、更にユーザの変換
待ち時間を短くすることが可能である。また複合語，接
辞付き自立誤の学習機能により変換精度を向上させるこ
とができる。

【図面の簡単な説明】

第１図は本発明による仮名漢字変換装置の構成図、第２
図は変換の実行方法を示す図、第３図は変換処理の動作
を表わすフローチヤート図、第４図はデータの一例を示
す図、第５図は表示候補作成処理、第６図は確定処理の
動作を表わすフローチヤート図、第７図から第10図は画
面表示情報を表わす図、第11図は学習テーブルの内容の
例を表わす図である。１……入出力部、２……制御部、３……記憶部。

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開昭57−14971（ＪＰ，Ａ) 特開昭58−115528（ＪＰ，Ａ) 特開昭56−17468（ＪＰ，Ａ) 特開昭58−129633（ＪＰ，Ａ) 特開昭58−19963（ＪＰ，Ａ) 特開昭59−121529（ＪＰ，Ａ)

Claims

(57)【特許請求の範囲】

【請求項１】複数の文節を含み、文節単位に分かち書き
されていない仮名文字列を入力する文字列入力手段と、入力された前記仮名文字列を記憶する記憶手段と、前記仮名文字列を漢字仮名混じり文に仮名漢字変換する
ための変換指示手段と、前記仮名漢字変換のための指示により、前記仮名文字列
から複数の文節を切り出し、各文節の先頭文字を先頭と
した少なくとも１つの変換候補を抽出して仮名漢字変換
を行う変換手段と、前記抽出された変換候補のうち、各文節に対する確から
しさが最も高い変換候補から構成される候補文字列を表
示する表示手段と、表示された上記候補文字列を構成する変換候補を選択し
直して、入力された仮名文字列の文節の切れ目を指示す
る文節切れ目指示手段と、前記記憶手段に記憶された前記仮名文字列において、指
示された文節の切れ目より後続のすべての未確定部分に
対し変換の確からしさを再評価して得られた変換候補を
前記表示手段に表示させる制御手段と、を有することを特徴とする仮名漢字変換装置。
【請求項２】前記記憶手段は、前記仮名文字列と共に前
記変換候補の中で確からしさの尤度が所定以上高い変換
候補を記憶することを特徴とする第１項記載の仮名漢字
変換装置。
【請求項３】前記尤度は、前記文節における構成要素の
品詞範疇ごとに定めた重みをかけた構成要素の数により
定めることを特徴とする第２項記載の仮名漢字変換装
置。
【請求項４】前記記憶手段は、前記変換候補をネットワ
ークの形で記憶することを特徴とする第２項または第３
項記載の仮名漢字変換装置。