[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2633824B2 - 仮名漢字変換装置 - Google Patents

仮名漢字変換装置

Info

Publication number
JP2633824B2
JP2633824B2 JP59044025A JP4402584A JP2633824B2 JP 2633824 B2 JP2633824 B2 JP 2633824B2 JP 59044025 A JP59044025 A JP 59044025A JP 4402584 A JP4402584 A JP 4402584A JP 2633824 B2 JP2633824 B2 JP 2633824B2
Authority
JP
Japan
Prior art keywords
conversion
kana
candidate
character string
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP59044025A
Other languages
English (en)
Other versions
JPS60189565A (ja
Inventor
正博 阿部
正紀 川瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP59044025A priority Critical patent/JP2633824B2/ja
Publication of JPS60189565A publication Critical patent/JPS60189565A/ja
Application granted granted Critical
Publication of JP2633824B2 publication Critical patent/JP2633824B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】 〔発明の利用分野〕 本発明は仮名入力を漢字仮名混り文に変換する仮名漢
字変換装置に係り、特に入力が文節単位に分ち書きされ
なくても変換可能な、いわゆるべた書き入力に好適な仮
名漢字変換装置に関するものである。
〔発明の背景〕
従来、べた書き入力の仮名漢字変換の方法としては、
日立評論昭和56年5月第63巻第5号「HITAC L−320/30
H,50H文書処理機能」(以下文献(1)と呼ぶ)に述べ
られている最長一致とバツクトラツクを組合せた方法、
昭和53年度情報処理学会第19回全国大会論文集5E−4
「べた書き文のカナ漢字変換システム」以下「文線
(2)と呼ぶ)に述べられている二文節最長一致法、昭
和56年情報処理学会計算言語学研究会資料25−6「表方
式を用いた文節構造分析アルゴリズムとその能率につい
て」(以下文献(3)と呼ぶ)に述べられている文節数
最小法などがよく知られている。
文献(1)の方法は、入力左端から最長一致により自
立語を切り出し、次にその自立語に文法的に接続可能な
付属語を引当てる文節変換処理を右端に達するまで繰返
し行うもので、右端に達しない場合はバツクトラツク
(後戻り)して別の文節変換を試み先へ進むものであ
る。
文献(2)の方法は、入力左端から2文節にわたつて
全ての可能な変換候補を総当り的に抽出しその中から2
文節の長さの和が最長となるもの選んで1文節目の切り
目とし、今度はその点を始点として同じことを繰返すこ
とにより1文節ずつ切れ目を決定しながら変換する方法
である。
文献(3)の方法は、左端から総当り的に文節の切り
出しを行い、その中から文節数が最小となる組合せを選
び出して変換結果とする方法である。
べた書き入力では、文節と文節の間の切れ目をどこに
するかという選択の余地があるために、文節分り書きの
場合にくらべて、一般に変換の候補となる多義が多く生
ずる。たとえば、「すうがくかいせきじようでは」とい
う入力に対しては「数学解析上では」,「数学科移籍上
では」,「数学会席上では」,「数学が遺跡上では」な
ど多くの解釈が可能である。したがつて、文献(1),
(2),(3)に述べられている方法を用いても高い変
換精度を得るのは難しいという問題があつた。
〔発明の目的〕
本発明の目的は変換の確からしさの尤度が高い複数の
変換候補を効率よく抽出,保持し,正しい変換結果をそ
の中から容易に速く選択,確定するべた書き入力向きの
手段を提供することにある。また本発明の第2の目的
は、変換の精度を上げるためのべた書き入力向きの学習
機構を提供することにある。
〔発明の概要〕
上記目的を達成するため、変換は入力文字列の左端か
ら右方向に、変換候補を切り出し、尤度を求めて、その
尤度がある範囲内にあるものを保持しながら処理を進め
る。入力文字列の右端まで処理が終つたら、変換候補の
中から最も尤度の高い候補列を選び出し変換結果として
表示する。それと同時に、候補列の左から順に保持して
いる他の候補群を表示して、選択,修正を可能とする。
表示している変換結果と異なる候補が選択され、確定し
た場合は、残りの未確定部分について尤度の再評価を行
い、必要があれば変換結果の表示を変更する。選択され
た複合語や接辞付きの自立語は保持しておき、以後同じ
文字列が入力されたときは、尤度を高くして変換精度の
向上をはかる。
このように、可能性の高い候補を選んで保持しておく
ことにより、変換語りが生じても高速に別の候補を表示
選択することが可能となり、そのために必要な記憶装置
の量も少なくて済む。また変換誤りを別の候補を選択す
ることにより修正した場合は、その部分だけでなく、そ
れ以後の候補も再評価するので、たとえば、候補間の区
切りの位置が変つた場合は、自動的に新しい区切り位置
から始まる後続の候補列が準備され、以後の補正の手数
を減少することが可能となる。さらに、変換誤り部分に
ついても、以後学習が行われるので同じ誤りを繰返すこ
とはない。特に、接頭語や接尾語のついた語や、複合語
は長い単位で学習されるので、変換精度向上の効果が大
きい。
〔発明の実施例〕
以下、本発明の一実施例を説明する。
第1図は本発明の仮名漢字変換装置の構成を表わす図
で、入出力部1,制御部2および記憶部3から成る。入出
力部1は仮名入力および変換、選択指示を入力するため
のキーボードと変換結果および選択候補を表示するため
の表示部とからなる。制御部2は仮名漢字変換の実行制
御を司る。記憶部3は入力仮名文字列や変換で用いられ
るデータを一時保持する。
本仮名漢字変換装置を用いた変換の実行方法を第2図
に示す。ユーザは入出力部1から仮名文字列を入力し変
換を指示する(10)。制御部2はこの仮名入力に対して
変換の確からしさの尤度が高い候補を作成し記憶部3に
格納する変換処理(20)を行う。次に制御部2は、記憶
部3にある候補の中から最も尤度の高い候補列と先頭の
候補に対応して選択すべき代替候補を作成し(30)、入
出力部1に表示させる(40)。ユーザが、選択候補の中
から目的の候補を選択する(50)と、制御部2は、選択
された部分を確定し、選択された候補の学習を行う(6
0)。次に制御部2は、未確定部分について再び表示候
補作成処理(30)を行い、後続部分の変換結果と代替候
補を作成し表示する。以上の表示(40),選択(50),
確定処理(60),表示候補作成処理(30)を変換結果が
すべて確定されるまで繰返す。
以下、上で述べた制御部2の動作を更に詳しく説明す
る。
第3図は変換処理(20)の動作を表わすフローチヤー
ト図である。第4図は変換処理(20)によつて記憶部3
上に作られるデータの一例を示す図である。第4図に示
した例を用いて、第3図の変換処理(20)を具体的に説
明する。
今、入力文字列が「すうがくかいせきじようでは」で
あつたとする。第3図、および第4図において、nは入
力文字列の先頭から数えた文字の位置を示すポインタと
する。第3図のステツプ201でまずnを1にセツトし入
力文字列の先頭に位置づける。ステツプ202でnの位置
が終了している文節端があるかどうかチエツクする。文
字列の先頭は特別に文節端とみなすとする。ステツプ20
3に移つて、文節変換を行う。文節変換では、nの位置
を文節の先頭として1文節分の変換を行い可能な変換候
補を抽出する。ここで文節とは1つの自立語とその前に
省略可能な接頭語,自立語の語に省略可能な接尾語、お
よび省略可能な付属語が連なつた形式のものをさす。複
合語は文節とみなす。第4図の例では、「数学」,
「数」,「吸う」,「数学会」,「数学界」,「数学
階」,「数が」,「吸うが」等が先頭から変換候補とし
て抽出される。この文節単位の仮名漢字変換としては、
NHK技術研究第25巻第5号昭和48年5月「計算機による
カナ漢字変換」に示されている方法がよく知られてい
る。次にステツプ204で変換候補の確からしさの尤度を
判定し、記憶部3に保持すべきか、捨てる(枝刈りと呼
ぶ)べきか決める。確からしさの尤度は、基本的には文
献(1),(2),(3)に述べられているように、入
力文字列をより長い文節の列、別の言い方をすればより
少ない文節の列に分解する方が尤度が高くなるように決
める。ただし同じ文節では「この」「その」などの連体
詞や、「こと」,「もの」などの形式名詞などは他の文
節に付属して使用されることが多いので名詞や動詞のよ
うに独立した一つの文節とみなさず、文節数を数える場
合1より小さな値とする。このように、品詞および出現
頻度等を考慮した重みを掛けて文節数を求め、その数が
少ない程尤度が高いとする。具体的には、名詞,動詞,
形容詞,形容動詞には重み1,形式名詞,補助動詞,連体
詞等には0.1,接頭語,接尾語は準自立語扱いとして0.5
の重みを与えるものとする。
枝刈りは、文字列先頭から現在判定の対象となつてい
る文節の後端までの尤度を求め、それをその文節後端文
字位置における尤度と定めて、もし既に同じ文字位置に
おいて尤度が求まつている場合はその値と比較し、その
値がある許容値を越える場合枝刈りを実行する。本実施
例では、この許容値は同じ文字位置における重みつき文
節数の最小値+1である。しかし本発明は、確からしさ
の尤度の決め方、および枝刈りの許容値の大きさによつ
て制限されるものではないことは言うまでもない。本発
明の特徴は、確からしさの尤度がある範囲内にある文節
候補をすべて抽出し、記憶部3上に保持することによ
り、後の選択,修正を高速に容易に行なえる点にある。
第4図において、先頭より抽出された各文節はすべて
記憶部3に格納される(ステツプ205)。格納する場
合、データを第4図に示したようなネツトワーク状にす
ることにより占有する記憶容量を小さくすることができ
る。たとえば、「数」と「吸う」は文節右端を共有する
ことにより、その後続の文節を一元化することが可能で
ある。このようなデータ表現の具体的方法はリスト処理
としてよく知られている。
第3図ステツプ206ではnに1を加えてポインタを次
の入力文字位置に進める。ステツプ207でポインタnの
文字位置に入力がまだあるかどうか判定し、あればステ
ツプ202に戻る。
nが2のとき本文字位置に文節右端はないので、ステ
ツプ206に行き、直ちに次の文字位置にポインタnを移
す。nが3の場合は、「数」,「吸う」という文節端が
可能であるので、ステツプ203で本位置から次の文節の
抽出を行い、「額」,「楽」,「額か」,「額会」,
「額科」などの文節が得られる。ステツプ204でnが4
の位置ですでに「数学」が候補として得られており、そ
の重みつき文節数は1である。「額」,「楽」の文節候
補ではnが4の位置の重みつき文節数は「数」の1と
「額」または「楽」の1を加えて2となる。枝刈り条件
から「額」,「楽」は許容範囲内におさまるのでステツ
プ205でネツトワークに登録されることになる。
以上述べたように、ステツプ202からステツプ207をn
が14になるまで繰返すことにより第4図に示した完全な
ネツトワークが得られる。ただし、ここで「会,界,
階,科,化,上,場,状」は接尾語とする。
ステツプ208では、変換結果の未確定部分の先頭の位
置を表わすポインタPを1に初期設定し、まだ確定部分
がないことを示しておく。
以上により制御部2における変換処理(20)の動作が
終了し、次に表示候補作成処理(30)の動作に移る。
第5図は表示候補作成処理(30)の動作を表わすフロ
ーチヤート図である。
ステツプ301では、P点より入力文字列終端までの候
補列の中から尤度の尤も大きな候補列を変換結果として
表示バツフアにセツトする。もしも尤度の同じ候補列が
複数ある場合は、記憶部3上にあつて、既に確定された
文字列から複合語や接辞付きの自立語を保持している学
習テーブルを参照し、このテーブル上にある語を最も多
く含む候補列を変換結果として選択する。また以上でも
一意に決らない場合は、自立語長の和の最も大き候補列
を選択する。この他に、変換結果を選ぶ方法としては、
単語の頻度を用いる方法等もあり、以上述べた要因を任
意に組合せて別の選択方法を作ることができる。
ステツプ302では、P点から始まる他の候補群を表示
バツフアにセツトしユーザが選択できるようにする。
第4図の例の場合、Pが1のとき変換結果として「数
学解析上では」が選ばれ、選択のための候補群として、
「数学」,「数」,「吸う」が取出され表示バツフアに
セツトされる。さらに、現在選択の対象となつている文
字列部分を明示するため、変換結果、および入力文字列
の該当部分が強調表示される。(表示(40))。
第7図は入力(10)が終つた直後の入出力部1に表示
される画面情報を、第8図は表示候補作成列理(30)が
終つた後表示される画面情報を示す。本画面で最下部は
入力行、上部は変換結果出力行、右下は選択候補表示エ
リアである。
ユーザが画面上の変換結果を見て選択(50)を行う。
選択は選択候補群の中から目的の1つを選ぶ操作をキー
ボードにより指示するが、画面上部に強調表示されてい
る変換結果が正しい場合はある特定のキーを押下するこ
とにより選ぶことも可能である。
制御部2はユーザにより選択(50)が行われると、次
に確定処理(60)の動作を実行する。
第6図は確定処理(60)の動作を表わすフローチヤー
ト図である。
ステツプ601では、ユーザが選択指示した候補に対応
する記憶部3上のネツトワークのデータにマークを付け
るとともに、Pに選択された候補の長さを加えて、後続
の未確定部の先頭位置を示す。
ステツプ602では、選択された候補を記憶部3上の学
習テーブルに読みと共に格納する。
制御部2は表示候補作成処理30により確定処理60で選
択された候補および、P点以降の候補のネツトワークの
尤度を再評価して得られる後続の変換結果と、P点から
始まる他の候補群を表示バツフアにセツトする。第9図
にユーザが「数学」を選択した後の画面表示情報を示
す。強調表示は「数学」の後の「解析」の部分に移つて
いる。選択候補群としては「解析」,「会」,「界」,
「階」「科」,「化」,「か」が表示される。
ユーザが、候補の中から「解析」ではなく「会」を選
択すると、第10図に示すように、「会」の後の変換結果
が第4図のネツトワークから得られる「席上」に自動的
に変更され、選択の候補群として「席上」,「関」,
「咳」が表示される。このように候補間の隣接関係を保
持しているため、文節切れ目が選択(50)によつて変更
された場合は、後続の表示も同時に修正することが可能
であり、以後の修正の工数を減らすことができる。
ユーザが「会」を選択したことによつて、確定処理
(60)で学習テーブルも更新されるが、今の場合、すで
に「数学」が登録されており、「会」が接尾語であるこ
とから、以前に登録されている「数学」に「会」が追加
され「数学会」の形で再登録が行われる。第11図に「数
学会」が登録された後のテーブルの内容を示す。
制御部2は未確定部がなくなるまで表示候補作成処理
(30)と確定処理(60)を繰返して実行する。すべての
変換結果が確定されると処理を終了する。
以上述べた一連の処理が終了すると記憶部3上のネツ
トワークのデータは消去されるが、学習テーブル上のデ
ータは保持され、以後同じ文字列が入力された場合は優
先的に変換結果として採用されるので、使用に応じて変
換精度を高めることができる。従来も、変換に伴う学習
機能は用いられていたが、接頭語や接尾語はそれ単独で
学習しても、同音意義のもの同志が同一文章中に現われ
ることが多いので、かえつて変換精度を落すことが多く
問題であつた。また「新聞記者が汽車で」などのよう
に、同音異義語が現われる場合は「きしや」という読み
の単位で学習していたので、「記者」と「汽車」を区別
することができなかつた。本発明によれば、接頭語や接
尾語はそれが付く自立後と共に学習し、複合語は自立語
に分解せず長い単位で学習するので、学習による精度の
向上をより高くできる効果がある。
〔発明の効果〕
本発明によれば、変換の確からしさの尤度が高い候補
を保持しているので、もし変換結果に誤りがあつても直
ちに別の候補を選択することができ修正を高速化できる
効果がある。候補の作成保持のための処理をユーザの入
力作業中に並行して行うことにより、更にユーザの変換
待ち時間を短くすることが可能である。また複合語,接
辞付き自立誤の学習機能により変換精度を向上させるこ
とができる。
【図面の簡単な説明】
第1図は本発明による仮名漢字変換装置の構成図、第2
図は変換の実行方法を示す図、第3図は変換処理の動作
を表わすフローチヤート図、第4図はデータの一例を示
す図、第5図は表示候補作成処理、第6図は確定処理の
動作を表わすフローチヤート図、第7図から第10図は画
面表示情報を表わす図、第11図は学習テーブルの内容の
例を表わす図である。 1……入出力部、2……制御部、3……記憶部。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭57−14971(JP,A) 特開 昭58−115528(JP,A) 特開 昭56−17468(JP,A) 特開 昭58−129633(JP,A) 特開 昭58−19963(JP,A) 特開 昭59−121529(JP,A)

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】複数の文節を含み、文節単位に分かち書き
    されていない仮名文字列を入力する文字列入力手段と、 入力された前記仮名文字列を記憶する記憶手段と、 前記仮名文字列を漢字仮名混じり文に仮名漢字変換する
    ための変換指示手段と、 前記仮名漢字変換のための指示により、前記仮名文字列
    から複数の文節を切り出し、各文節の先頭文字を先頭と
    した少なくとも1つの変換候補を抽出して仮名漢字変換
    を行う変換手段と、 前記抽出された変換候補のうち、各文節に対する確から
    しさが最も高い変換候補から構成される候補文字列を表
    示する表示手段と、 表示された上記候補文字列を構成する変換候補を選択し
    直して、入力された仮名文字列の文節の切れ目を指示す
    る文節切れ目指示手段と、 前記記憶手段に記憶された前記仮名文字列において、指
    示された文節の切れ目より後続のすべての未確定部分に
    対し変換の確からしさを再評価して得られた変換候補を
    前記表示手段に表示させる制御手段と、 を有することを特徴とする仮名漢字変換装置。
  2. 【請求項2】前記記憶手段は、前記仮名文字列と共に前
    記変換候補の中で確からしさの尤度が所定以上高い変換
    候補を記憶することを特徴とする第1項記載の仮名漢字
    変換装置。
  3. 【請求項3】前記尤度は、前記文節における構成要素の
    品詞範疇ごとに定めた重みをかけた構成要素の数により
    定めることを特徴とする第2項記載の仮名漢字変換装
    置。
  4. 【請求項4】前記記憶手段は、前記変換候補をネットワ
    ークの形で記憶することを特徴とする第2項または第3
    項記載の仮名漢字変換装置。
JP59044025A 1984-03-09 1984-03-09 仮名漢字変換装置 Expired - Lifetime JP2633824B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59044025A JP2633824B2 (ja) 1984-03-09 1984-03-09 仮名漢字変換装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59044025A JP2633824B2 (ja) 1984-03-09 1984-03-09 仮名漢字変換装置

Related Child Applications (3)

Application Number Title Priority Date Filing Date
JP3043201A Division JP2766084B2 (ja) 1991-03-08 1991-03-08 仮名漢字変換方法
JP3043200A Division JPH04211864A (ja) 1991-03-08 1991-03-08 仮名漢字変換装置
JP7158932A Division JPH0850589A (ja) 1995-06-26 1995-06-26 仮名漢字変換方法及び装置

Publications (2)

Publication Number Publication Date
JPS60189565A JPS60189565A (ja) 1985-09-27
JP2633824B2 true JP2633824B2 (ja) 1997-07-23

Family

ID=12680111

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59044025A Expired - Lifetime JP2633824B2 (ja) 1984-03-09 1984-03-09 仮名漢字変換装置

Country Status (1)

Country Link
JP (1) JP2633824B2 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63118975A (ja) * 1986-11-07 1988-05-23 Hitachi Ltd かな漢字変換装置
JP2634596B2 (ja) * 1987-06-23 1997-07-30 株式会社日立製作所 かな漢字変換装置
JPH0610804B2 (ja) * 1987-06-26 1994-02-09 株式会社日立製作所 かな漢字変換装置
JPH077403B2 (ja) * 1988-06-29 1995-01-30 松下電器産業株式会社 日本語処理装置
JPH03131962A (ja) * 1989-10-18 1991-06-05 Matsushita Electric Ind Co Ltd ファイル処理装置
JPH06223055A (ja) * 1993-01-22 1994-08-12 Nec Corp 文章入力装置
JPH0877172A (ja) * 1994-08-31 1996-03-22 Nec Corp 機械翻訳装置
JPH0850589A (ja) * 1995-06-26 1996-02-20 Hitachi Ltd 仮名漢字変換方法及び装置
JP5052210B2 (ja) * 2007-05-29 2012-10-17 セイコーエプソン株式会社 テープ印刷装置およびテープ印刷装置の表示部の表示方法
JP5097454B2 (ja) * 2007-06-11 2012-12-12 株式会社ジャストシステム データ入力装置、方法、及びプログラム
JP5114228B2 (ja) * 2008-01-29 2013-01-09 株式会社ジャストシステム データ入力装置及びデータ入力方法

Also Published As

Publication number Publication date
JPS60189565A (ja) 1985-09-27

Similar Documents

Publication Publication Date Title
US5257186A (en) Digital computing apparatus for preparing document text
EP0370774B1 (en) Machine translation system
EP1091303B1 (en) Method and system for providing alternatives for text derived from stochastic input sources
JP2633824B2 (ja) 仮名漢字変換装置
EP0265280A2 (en) Machine translation system and method
CN114818663B (zh) 一种分级的智能拼音与文字匹配方法
JP2766084B2 (ja) 仮名漢字変換方法
JPS61278970A (ja) 自然言語処理装置における構文解析結果の表示及び校正のための制御方法
JPS61248160A (ja) 文書情報登録方式
US6327560B1 (en) Chinese character conversion apparatus with no need to input tone symbols
JPH0850589A (ja) 仮名漢字変換方法及び装置
JP2695772B2 (ja) 仮名漢字変換装置
JPH08272780A (ja) 中国語入力処理装置及び中国語入力処理方法及び言語処理装置及び言語処理方法
JP2634596B2 (ja) かな漢字変換装置
JP2003016055A (ja) 文作成装置及び文作成方法
JPS6349929A (ja) キ−ワ−ド抽出装置
JPH04211864A (ja) 仮名漢字変換装置
CN118170263A (zh) 一种基于汉语拼音的藏文快速智能输入系统及方法
JP3048793B2 (ja) 文字変換装置
JPH05189413A (ja) かな漢字変換装置
JPH08339365A (ja) 文書作成装置及び文書作成方法
JPH0785026A (ja) 辞書更生方法及び装置
JPS59163629A (ja) 日本文入力方式
JPH086950A (ja) キーワード翻訳機能付き機械翻訳装置
JPH0610804B2 (ja) かな漢字変換装置