[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP4005925B2 - Document processing method, document processing apparatus, and program - Google Patents

Document processing method, document processing apparatus, and program Download PDF

Info

Publication number
JP4005925B2
JP4005925B2 JP2003012201A JP2003012201A JP4005925B2 JP 4005925 B2 JP4005925 B2 JP 4005925B2 JP 2003012201 A JP2003012201 A JP 2003012201A JP 2003012201 A JP2003012201 A JP 2003012201A JP 4005925 B2 JP4005925 B2 JP 4005925B2
Authority
JP
Japan
Prior art keywords
document
masking target
masking
character string
storage means
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003012201A
Other languages
Japanese (ja)
Other versions
JP2004227141A (en
Inventor
由美 市村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2003012201A priority Critical patent/JP4005925B2/en
Publication of JP2004227141A publication Critical patent/JP2004227141A/en
Application granted granted Critical
Publication of JP4005925B2 publication Critical patent/JP4005925B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、文書中のプライバシーにかかわる固有名詞部分等を伏字で置き換えて特定不可能にする文書処理方法および装置に関する。
【0002】
【従来の技術】
電子メール、社内報告書、日報・週報などの既存の電子化文書を共有あるいは流用しようとすると、文書によっては固有名詞のもつプライバシー情報が侵害される恐れがある。そのため、人手で文書中のプライバシー情報に関する固有名詞部分を削除・隠蔽するなどして対処する必要があった。
【0003】
これに対して、文書からプライバシーにかかわる固有名詞部分を抽出し、抽出された固有名詞部分を伏字加工するものがある(例えば、特許文献1、特許文献2参照)。この手法では、単語辞書に特定不可能にしたい単語を登録しておき、その辞書を利用して形態素解析することにより、プライバシーに関する固有名詞部分を抽出する。
【0004】
しかしながら、この手法は、抽出された固有名詞部分が誤っているときの修正手段や、単語辞書の更新手段は提供していない。
【0005】
【特許文献1】
特開2002−259363公報
【0006】
【特許文献2】
特開2002−259368公報
【0007】
【発明が解決しようとする課題】
このように、従来は、文書中から固有名詞部分を検出し伏字加工する際、検出された固有名詞部分が誤っているときの修正、固有名詞部分の検出に利用する単語辞書を更新できないという問題点があった。
【0008】
そこで、本発明は上記問題点に鑑み、文書中から検出した固有名詞部分の確認と修正が容易に行える文書処理方法および装置を提供することを目的とする。
【0009】
また、文書中の固有名詞部分の検出に利用する単語辞書を容易に更新することができる文書処理方法および装置を提供することを目的とする。
【0010】
【課題を解決するための手段】
本発明は、マスキングすべき文字列またはその一部を記憶する辞書を基に、入力文書からマスキング対象箇所を検出し、この検出されたマスキング対象箇所を記憶手段に記憶するとともに、マスキング対象箇所を表示画面上に表示し、記憶手段に記憶されたマスキング対象箇所を、表示画面上でユーザにより修正されたマスキング対象箇所に書き換え、入力文書中の当該記憶手段に記憶されたマスキング対象箇所をマスキングすることにより、文書中から検出した固有名詞部分の確認と修正が容易に行える。
【0011】
また、表示画面上に表示された文書中で、ユーザにより指示された新たなマスキング対象箇所を上記記憶手段に記憶し、当該記憶手段に記憶された新たなマスキング対象箇所の文字列を上記辞書に記憶することにより、文書中の固有名詞部分の検出に利用する単語辞書を容易に更新することができる。
【0012】
また、入力した複数の文字列の中から、各文字列の文字数と、各文字列を構成する文字種と、各文字列の既存文書中の出現頻度のうちの少なくとも1つを基に、前記辞書に記憶する文字列を選択し、この選択された文字列のうち形態素解析できない文字列と、選択された文字列のうち各文字列を形態素解析した結果得られた各文節と上記辞書を基にマスキング対象箇所として検出することができない文字列を上記辞書に記憶することにより、企業内の既存データベースや広く入手可能な市販データベースを利用して、文書中の固有名詞部分の検出に利用する単語辞書の構築、更新が容易に行える。
【0013】
【発明の実施の形態】
以下、本発明の実施形態について図面を参照して説明する。
【0014】
図1は、本実施形態に係る文書処理装置を適用した文書マスキング装置の構成を示すブロック図である。なお、本実施形態における文書マスキング装置は、たとえば磁気ディスクなどの記録媒体に記録されたプログラムを読み込み、このプログラムによって動作が制御されるコンピュータによって実現可能である。
【0015】
文書マスキング装置は、入力部101と、制御部102と、出力部103と、一時記憶部104と、辞書登録部105と、データ選別部106と、頻度算出部107と、既存文書記憶部108と、マスキング対象特定部109と、形態素解析部110と、マスキングルール記憶部111と、単語辞書112と、マスキング修正部113と、マスキング確定部114と、伏字加工部115とから構成されている。
【0016】
入力手段としての入力部101は、処理対象となる文書やデータを、たとえばメモリや磁気ディスク、光ディスクなどから取り込む(入力する)。また、ユーザの指示やキー入力を、たとえばキーボードやマイクなどから取り込む。
【0017】
制御部102は、入力部101から入力した情報を受け取り解析した後、当該入力した情報を処理するために必要な各構成部へ、その処理のために必要な情報を送る。各構成部での処理結果は、再び制御部102に返されて出力部103を介して出力される。出力部103では、出力すべき情報(出力情報)を、たとえばディスプレイに表示したり、スピーカから音声にて出力したりする。制御部102の処理動作の詳細は後述する。
【0018】
一時記憶部104は、処理結果などを一時的に記憶する記憶領域であり、たとえばRAMや磁気ディスクなどからなる。一時記憶部104には、マスキング結果リスト104a、登録候補リスト104bが記憶される。各リストに記憶される情報については後述する。
【0019】
辞書登録部105は、制御部102を介して、入力部101から入力した登録候補データを受け取ると、データ選別部106を起動して、登録候補データをデータ選別部106へ渡す。
【0020】
データ選別部106は、頻度算出部107、形態素解析部110、マスキング対象特定部109を起動して、受け取った登録候補データの中から、単語辞書112への登録候補として有効なデータ(単語)を選別する。データ選別部106の処理動作の詳細は後述する。
【0021】
頻度算出部107は、既存文書記憶部108に記憶されている文書(既存文書)を参照して、登録候補データの既存文書中の出現頻度を算出する。
【0022】
マスキング対象特定部109は、制御部102を介して文書を受け取り、形態素解析部110を起動し、マスキングルール記憶部111に記憶されているマスキングルールと、マスキングすべき(伏字で置き換えるべき)文字列またはその一部を記憶する単語辞書112を参照して、文書中のマスキング対象箇所(伏字で置き換える文字列)を検出(特定)する。マスキング対象特定部109の処理動作の詳細は後述する。
【0023】
形態素解析部110は、単語辞書112を参照して、形態素解析を行う。形態素解析部110の処理動作は広く公知であるので、説明を省略する。
【0024】
マスキング対象特定部109の処理結果は、制御部102を介して、マスキング結果リスト104aとして記憶され、出力部103を介して、たとえばディプレイなどに表示される。
【0025】
マスキング修正部113は、制御部102を介して、マスキング対象箇所に対するユーザの修正指示を受け取り、その情報をマスキング結果リスト104aに記憶する。
【0026】
マスキング確定部114は、制御部102を介して、マスキング対象箇所に対するユーザの確定指示を受け取り、その情報をマスキング結果リスト104aに記憶する。
【0027】
伏字加工部115は、制御部102を介して、ユーザの伏字加工指示を受け取り、確定されたマスキング対象箇所をあらかじめ設定された文字や記号や塗り潰し、空白等の伏字で置換えて、その結果を出力部103を介して、たとえばディプレイなどに表示する。
【0028】
次に、上記各部の詳細についてフローチャートを用いて説明する。
【0029】
(a)制御部102の処理動作
図2は制御部102の処理動作を示すフローチャートである。
【0030】
まず、ステップS201では、ユーザの指示がマスキング対象箇所の特定であるか否か判定する。マスキング対象箇所の特定である場合はステップS202に進む。そうでない場合は、ステップS211に進む。
【0031】
ステップS202では、入力部101を介して処理対象の文書を取り込み、ステップS203に進む。
【0032】
ステップS203では、マスキング対象特定部109を起動し、ステップS204に進む。
【0033】
ステップS204では、ユーザの指示がマスキング対象箇所の修正であるか否か判定する。マスキング対象箇所の修正である場合はステップS205に進む。そうでない場合は、ステップS206に進む。
【0034】
ステップS205では、マスキング修正部113を起動し、ステップS206に進む。ステップS206では、ユーザの指示がマスキング対象箇所の確定であるか否か判定する。マスキング対象箇所の確定である場合はステップS207に進む。そうでない場合は、処理を終了する。
【0035】
ステップS207では、マスキング確定部114を起動し、ステップS208に進む。ステップS208では、ユーザの指示がマスキング対象箇所の伏字加工であるか否か判定する。マスキング対象箇所の伏字加工である場合はステップS209に進む。そうでない場合は、ステップS210に進む。
【0036】
ステップS209では、伏字加工部115を起動し、ステップS210に進む。ステップS210では、ユーザの指示がマスキング対象箇所の辞書登録であるか否か判定する。マスキング対象箇所の辞書登録である場合には、ステップS213に進む。そうでない場合は、処理を終了する。
【0037】
一方、ステップS201からステップS211に進んだ場合は、ステップS211では、ユーザの指示が一括辞書登録であるか否か判定する。一括辞書登録である場合はステップS212に進む。そうでない場合は処理を終了する。
【0038】
ステップS212では、入力部101を介して登録候補データを取り込み、ステップS213に進む。ここで入力部101を介して入力する登録候補データとしては、例えば、電子化された電話帳等のデータに含まれている氏名、住所等である。一括登録の場合、電話帳などとして記録されている氏名、住所等に含まれている氏名や地名などの単語を単語辞書112に自動的に一括登録することができる。
【0039】
ステップS213では、辞書登録部105を起動する。辞書登録部105は、データ選別部106を起動する。データ選別部106は、入力した登録候補データの中から、単語辞書112への登録候補として有効なデータ(単語)を選別するので、辞書登録部105はその選別された単語を単語辞書112に登録し、処理を終了する。
【0040】
図5は、単語辞書112のデータ構造の一例を示す。単語辞書には、各単語の表記、読み、品詞、属性等の情報が記憶されている。特に、単語辞書112に記憶されている各単語の属性は、(ステップS203において)マスキング対象特定部109が、入力された文書中の単語がマスキング対象であるか否かを判定する際に用いられる。
【0041】
このようにして、制御部102は、ユーザの指示に基づき、入力部101が取り込んだ情報を必要な処理部に送り、各処理部の起動の制御を行う。
【0042】
(b)マスキング対象特定部の処理動作
マスキング対象特定部109の処理動作について、図3に示すフローチャートを参照して説明する。まず、ステップS301では、マスキング対象特定部109では、入力部101から入力した処理対象となる文書を読み込み、ステップS302に進む。
【0043】
ステップS302では、変数Nに文書件数を、文書数をカウントする変数iに初期値としての「1」をセットし、ステップS303に進む。ステップS303で、iがN以下であるか否か判定する。iがN以下である場合、ステップS304に進む。iがNより大きい場合は、処理を終了する。
【0044】
ステップS304で、形態素解析部110を起動し、i番目に読み込まれた文書、すなわち、文書[i]の形態素解析を行い、ステップS305に進む。
【0045】
ここで、図7を参照して形態素解析について簡単に説明する。例えば、図7(a)に示すような文が、形態素解析の処理対象であるとする。この文を文節、単語に分割して、各単語に対する品詞を付加することにより、図7(b)に示すような形態素解析結果が得られる。なお、文節、単語に分割できないときは、形態素解析ができない、あるいは形態素解析が失敗した、ということであり、文節、単語に分割できたときは形態素解析が成功した、ということである。図7(b)において、記号「/」は文節の区切り、記号「+」は文節内での単語の区切り、記号< >で囲まれた文字列は品詞を示している。
【0046】
なお、文節、単語など少なくとも1つの文字からなるものを、簡単に文字列とも呼ぶ。
【0047】
図3の説明に戻り、ステップS305では、変数Sに文節数を、文節数をカウントする変数kに初期値として「1」をセットし、ステップS306に進む。ステップS306では、kがS以下であるか否か判定する。kがS以下である場合は、ステップS307に進む。kがSより大きい場合は、ステップS310に進む。なお、以下の説明で、第k番目の文節を文節[k]と呼ぶ。
【0048】
ステップS307では、文節[k]と、その次の文節[k+1]は、マスキングルール記憶部111に記憶されているマスキングルールの条件を満たすか否か判定する。その際、単語辞書112に登録された、「属性」情報等を参照する。2つの文節のそれぞれに含まれている各単語を単語辞書112から検索し、そのような単語が単語辞書112に存在するときには、その属性を読み出す。この2つの文節に含まれる単語の属性の対応関係がマスキングルールとして記憶されているときには(条件を満たすルールが存在する場合は)、ステップS308に進む。そうでない場合は、ステップS309に進む。
【0049】
図6は、マルキングルール記憶部111に記憶されているマスキングルールの一例を示したものである。各ルールは、条件と結果により記述されている。たとえば、1番目のルールでは、文節[k]の属性が企業名であったら、文節[k]は企業名であると特定する。文節[k+1]の欄が空欄であるときは、そのルールが1文節のルールであることを示している。また、たとえば、4番目のルールでは、文節[k]の品詞が未知語、文節[k+1]の属性が人名共起語であったら、文節[k]は人名と特定する。ここでは、1文節または2文節のルールの例を示したが、3文節以上のルールであってもよい。なお、3文節以上のルールの場合は、その数に応じた文節(文節[k]、文節[k+1]、文節[k+2]、…)とルールとのマッチングを行う。
【0050】
図3の説明に戻り、ステップS308で、条件を満たす文節(ルールにマッチした少なくとも1つの文節)をマスキング対象箇所と特定し、マスキング結果リスト104aとして記憶し、ステップS309に進む。
【0051】
図8に、マスキング結果リスト104aの一例を示す。マスキング結果リスト104aには、マスキング対象箇所として特定された文節の表記、すなわち、マスキング対象表記と、当該文節の前側3文字、その後側3文字、マスキング対象表記の開始位置、文字数、種類、確定の有無、伏字加工の有無、登録の有無の9個の情報が記憶される。ステップS308が終了した段階では、図8に示すように、確定、伏字加工、登録の有無の欄は未記入である。
【0052】
図3の説明に戻り、ステップS309では、kを1つインクリメントし、ステップS306へ戻り、文書[i]中の全ての文節について、ステップS307〜ステップS308の処理を繰り返す。また、ステップS310では、iを1つインクリメントし、ステップS303へ戻り、入力された全ての文書について、ステップS304〜ステップS309の処理を繰り返す。
【0053】
このようにして、マスキング対象特定部109は、形態素解析部110における形態素解析およびマスキングルールを用いて、各文書中のマスキング対象箇所を特定する。特定されたマスキング対象箇所は、マスキング結果リスト104aとして、図8に示すように記憶され、出力部103を介して、たとえばディスプレイなどに表示される。
【0054】
(c)データ選別部の処理動作
図2のステップS213における辞書登録処理のデータ選別部106の処理動作について、図4に示すフローチャートを参照して説明する。
【0055】
まず、ステップ401では、データ選別部106は、辞書登録部105に入力した処理対象となるデータを読み込み、登録候補リスト104bとして記憶し、ステップS402に進む。処理対象となるデータとは、一括辞書登録の場合には、入力部101から読み込まれる登録候補データであり、マスキング対象箇所の辞書登録の場合(すなわち、後述する、マスキング対象の修正結果に基づく単語辞書の更新の場合)には、マスキング結果リスト104aに記憶されるデータのうち登録指示のあるデータ(たとえば、図9に示すように、「登録」欄に「○」印の付加されている単語)である。
【0056】
ここでは、ユーザの指示が一括辞書登録である場合(図2のステップS211)の図2のステップS213における処理動作、すなわち、図2のステップS212において入力部101から読み込まれる登録候補データを基に単語辞書112を更新する場合を例にとり説明する。
【0057】
図10は、登録候補リスト104bとして記憶される情報の一例である。登録候補リスト104bには、入力部101から読み込まれた各登録候補データについて、その表記、種類、出現頻度、形態素解析が成功か否か、マスキング対象特定が成功か否か、選別結果の6個の情報が記述される。ステップS401が終了した段階では、図10に示すように、各登録候補データの表記と種類以外の欄は未記入である。
【0058】
図4の説明に戻り、ステップS402では、変数Nにデータ件数を、データ数をカウントする変数iに初期値「1」をセットし、ステップS403に進む。ステップS403で、iがN以下であるか否か判定する。iがN以下である場合は、ステップS404に進む。iがNより大きい場合は、処理を終了する。なお、ここでは、第i番目の登録候補データをデータ[i]と呼ぶ。
【0059】
ステップS404で、データ[i]の表記の文字列長(文字数)は所定値α以上であるか否か判定する。ここで、αとはあらかじめ設定しておく閾値で、たとえばαは「2」と設定されているとする。文字列長がα以上である場合は、ステップS405に進む。文字列長がαより小さい場合は、当該データ[i]は、単語辞書112への登録対象から除くべく、ステップS413に進む。
【0060】
ステップS405では、データ[i]の表記の文字列構成は平仮名のみであるか否か判定する。平仮名のみである場合は、当該データ[i]は、単語辞書112への登録対象から除くべく、ステップS413に進む。平仮名以外の文字種を含む場合はステップS406に進む。
【0061】
ステップS406では、まず頻度算出部107を起動する。頻度算出部107は、既存文書記憶部108に記憶されている既存文書中の、データ[i]の表記の出現頻度を算出し、その情報を登録候補リスト104bの「出現頻度」の欄に記憶し、ステップS407に進む。ステップS407で、出現頻度が所定値β以上であるか否か判定する。ここで、βとはあらかじめ設定しておく閾値で、たとえばβは「3」と設定されているとする。出現頻度がβ以上である場合は、ステップS408に進む。出現頻度がβより小さい場合は、当該データ[i]は、単語辞書112への登録対象から除くべく、ステップS413に進む。
【0062】
ステップS408では、形態素解析部110を起動して、出現頻度がβ以上のデータ[i]の表記を形態素解析し、ステップS409に進む。ステップS409で、形態素解析に成功したか否か判定する。成功した場合はステップS410に進む。失敗した場合は、当該データ[i]を単語辞書112へ登録すべく、ステップS412に進む。なお、形態素解析の結果は、図11に示すように、登録候補リスト104bの「形態素解析」欄に記憶される(図11では、形態素解析に成功したときは「○」印、失敗したときは「×」印で表している)。
【0063】
ステップS410では、マスキング対象特定部109を起動して、図3に示すように、マスキングルールを基に、データ[i]の表記からマスキング対象箇所を特定し、ステップS411に進む。
【0064】
ステップS411で、データ[i]の表記をマスキング対象箇所として特定できたか否か判定する。特定できた場合は、当該データ[i]は、現状の単語辞書112からマスキング対象箇所として特定可能であり、今回わざわざ単語辞書112へ新規登録する必要はないので、単語辞書112への登録対象から除くべく、ステップS413に進む。特定できなかった場合は、データ[i]を単語辞書112へ登録すべく、ステップS412に進む。なお、ここでの判定結果は、図11に示すように、登録候補リスト104bの「マスキング対象特定」欄に記憶される(図11では、特定可能なときは「○」印、特定できないときは「×」印で表している)。
【0065】
ステップS409またはステップS411から、ステップS412に進んだ場合、ステップS412で、データ[i]は単語辞書112に登録すると判定し、その結果を登録候補リスト104bに記憶し(図11では、「選別結果」欄に「○」印で表している)、ステップS414に進む。
【0066】
一方、ステップS404、ステップS405、ステップS407、ステップS411から、ステップS413に進んだ場合、ステップS413では、データ[i]は単語辞書112に登録しないと判定し、その結果を登録候補リスト104bに記憶し(図11では、「選別結果」欄に「×」印で表している)、ステップS414に進む。
【0067】
ステップS414で、iを1つインクリメントし、ステップS403に戻り、全てのデータの登録候補データについて、ステップS404〜ステップS413の処理を繰り返す。
【0068】
このようにして、データ選別部106は、頻度算出部107、形態素解析部110、マスキング対象特定部109を用いて、文字列長がα以上で平仮名以外の文字を含む、既存文書中の出現頻度がβ以上である登録候補データのうち、形態素解析ができない、現状の単語辞書112でマスキング対象として特定することができない、のうちのいずれか1つを満たすものを、単語辞書112に登録する、有効な文字列として選別する。その結果は、図11に示すように、登録候補リスト104bの「選別結果」欄に記憶される。
【0069】
データ選別部106のステップS412の処理が終了した段階では、図11に示すようになる。すなわち、「山田太朗」と「林政治」の2つが、単語辞書112への有効な登録候補として選別されている。この選別された登録候補データは、種類から得られる属性や品詞とともに、単語辞書112へ図12に示したように追加登録される。その際、新規に登録する単語を、辞書登録部105,制御部102を介して、出力部103から、例えば、図13に示すように表示して、ユーザに、読み方や、品詞、属性、登録の有無を問い合わせてから単語辞書112に登録してもよい。また、この画面上でユーザにより登録指示のあったものだけを単語辞書112に登録してもよい。その際、図13に示した画面上に入力された「読み」や「品詞」、「属性」を、単語辞書112に登録する。
【0070】
(d)マスキング対象の修正結果に基づく単語辞書の更新
さて、図1に示した文書マスキング装置に対し、ユーザから、マスキング対象箇所の特定が指示されて、図2のステップS203のマスキング対象特定処理(図3参照)により、入力部101から入力した処理対象の文書から、図8に示したような、マスキング結果リスト104aが得られたとする。
【0071】
図14は、マスキング結果リスト104aの表示例であって、文書表示画面の一例を示したものである。
【0072】
出力部103は、当該処理対象の文書から得られた図8に示したマスキング結果リスト104を基に、入力部101から入力した処理対象の文書を、図14に示したように表示する。
【0073】
図14では、マスキング対象として求められた語、「A社」「通信研究所」「山田太郎」などが、処理対象の文書中で、他の箇所と区別できるよう、反転表示や強調表示などの特殊表示が施される。
【0074】
例えば、図2のステップS203のマスキング対象特定処理により、図14に示したような画面が表示されたとき、図2のステップS204において、ユーザが、マスキング対象箇所の修正を指示(例えば、当該画面上に設けられた所定のボタンを選択する等)したとき、ステップS205において、マスキング修正部113が起動される。そして、このとき、ユーザが、たとえば「通信研究所」をマウス等を用いて選択し、その選択指示がマスキング修正部113に送られる。ユーザは、この選択したマスキング対象の文字列を「情報通信研究所」となるように、処理対象の文書中の当該マスキング対象箇所の直前直後の少なくとも1つの文字を追加する修正の指示をマスキング修正部113から入力すると、マスキング修正部113を介して制御部102により、マスキング結果リスト104aは、図9に示すように、「マスキング対象表記」欄のユーザにより修正されたマスキング対象箇所が「通信研究所」から「情報通信研究所」に書き換えられる。図9に示したマスキング結果リストに基づき、画面表示も、図15に示すように更新される。
【0075】
なお、ユーザによるマスキング対象箇所の修正としては、上記のような修正の他に、当該マスキング対象箇所の文字列から少なくとも1つの文字を削除する修正もある。この修正は、例えば、処理対象の文書中から検出されたマスキング対象箇所「通信研究所」から先頭の2文字「通信」を削除して、「研究所」に修正するような場合である。この場合も、やはり、上記同様にして、マスキング結果リスト104aは、「マスキング対象表記」欄のユーザにより修正されたマスキング対象箇所が「通信研究所」から「研究所」に書き換えられる。そして、この書き換えられたマスキング結果リストに基づき、画面表示も更新される。
【0076】
また、ユーザによるマスキング対象箇所の修正としては、上記2例の他に、さらに、新たなマスキング対象箇所を追加指定する場合もある。例えば、図14に示した画面上で、図14には、図示されていないが、「正月一日」という人名が当該処理対象の文書中に存在するが、これが、マスキング対象箇所としてマスキング対象特定部109により検出(特定)されなかったとする。この場合、ユーザは、この文字列を指定すると、マスキング結果リスト104aの「マスキング対象表記」欄にユーザにより追加されたマスキング対象箇所「正月一日」が書き加えられる。その結果としてのマスキング結果リストに基づき、画面表示も、上記同様にして更新される。
【0077】
次に、ユーザがマスキング対象箇所の確定を指示(例えば、当該画面上に設けられた所定のボタンを選択する等)すると(図2のステップS206)、マスキング確定部114が起動し(図2のステップS207)、マスキング結果リスト104aは、図9に示すように、各マスキング対象の「確定」欄に確定された旨が記録され(図9では、「○」印で表されている)、画面表示も、図16に示すように、反転表示されていた箇所が下線表示に変わり、修正された個所を含めて、マスキング対象箇所が確定されたことを示している。
【0078】
次に、ユーザがマスキング対象箇所の伏字加工を指示(例えば、当該画面上に設けられた所定のボタンを選択する等)すると(図2のステップS208)、伏字加工部115が起動し(図2のステップS209)、マスキング結果リスト104aは、図9に示すように、各マスキング対象の「伏字加工」欄に伏字加工が指示された旨が記録され(図9では、「○」印で表されている)、画面表示も図17に示すように、各マスキング対象箇所が、たとえば記号「×」で置き換えられる。
【0079】
なお、図2の上記ステップS204〜ステップS210において、マスキング箇所の修正、マスキングの確定指示、伏字加工の指示、単語辞書112への登録指示は、図18に示すような画面上からでも可能である。
【0080】
図18は、図1のステップS203で得られた、図8に示したマスキング結果リスト104aの他の表示例を示したものである。
【0081】
図18に示す画面へは、図14から図17の文書表示画面上に設けられた「リスト一覧画面へ」ボタンB1のいずれかをマウス等を用いて選択する(押す)ことにより遷移することができる。
【0082】
図18に示す画面表示例では、処理対象の文書から検出されて、マスキング結果リスト104aに記憶されたマスキング対象箇所の表記「A社」「通信研究所」「山田太郎」などが、文脈を示す前後の文字列とともに、種類別にリストとして表示されている。なお、図18に示すようなリスト一覧表示は、その表示指示がなされた時点におけるマスキング結果リスト104aの内容を基に表示されるので、この表示指示がなされる以前に、ユーザによりマスキング対象箇所の修正がなされた場合には、その修正結果がマスキング結果リスト104aに記憶されているので、その修正後のマスキング対象箇所が図18に示すように表示されることになる。
【0083】
さて、図18に示すリスト一覧表示画面には、マスキング確定指示のための「確定」指示領域と、単語辞書への「登録」指示領域と、「伏字加工」指示領域とが、各マスキング対象に設けられている。
【0084】
図18に示した画面上で、ユーザがマスキング対象として検出された「通信研究所」をマウス等を用いて選択し、その選択指示が入力部101を介して制御部102に送られる。ユーザは、この選択したマスキング対象の単語を「情報通信研究所」となるように、マスキングする範囲を変更して(「情報通信研究所」に修正して)、「A社」「情報通信研究所」「山田太郎」の「確定」指示領域と「伏字加工」指示領域にチェック(ここでは、「×」印)を入力し、「情報通信研究所」の「登録」指示領域にチェックを入力すると、画面は図19のようになる。
【0085】
図19に示した画面表示の状態において、画面中央下「確定実行」ボタンB3を押すと、チェックを入れた表記が確定される。すなわち、マスキング修正部113が起動して(図2のステップS205)、マスキング結果リスト104aは、図9に示すように、「マスキング対象表記」欄のユーザにより修正されたマスキング対象箇所が「通信研究所」から「情報通信研究所」に変更される。また、マスキング確定部114が起動して(図2のステップS207)、マスキング結果リスト104aは、図9に示すように、各マスキング対象の「確定」欄に確定された旨が記録され(図9では、「○」印で表されている)。ここで、さらに、「文書画面へ」ボタンB2を押すと、画面は図16に示したように、前述同様、反転表示されていた箇所が下線表示に変わり、修正された個所を含めて、マスキング対象箇所が確定されたことを示している。
【0086】
また、図19に示した画面表示の状態において、画面中央下「伏字加工実行」ボタンB5を押すと、チェックを入れた表記が伏字加工される。すなわち、伏字加工部115が起動し(図2のステップS209)、マスキング結果リスト104aは、図9に示すように、各マスキング対象の「伏字加工」欄に伏字加工が指示された旨が記録される(図9では、「○」印で表されている)。ここで、さらに、「文書画面へ」ボタンB2を押すと、画面は図17に示したように、前述同様、各マスキング対象箇所が、たとえば記号「×」で置換される。
【0087】
また、図19に示した画面表示の状態において、画面中央下「登録実行」ボタンB4を押すと(図2のステップS210)、辞書登録部105が起動し、単語辞書112に、登録欄にチェック(記号「×」)を入れた表記が登録される。このとき、図4に示したフローチャートに従って、チェックが入力された表記は、辞書登録部105を解してデータ選別部106へ入力し、この入力した単語のうち、文字列長、既存文書中の出現頻度、形態素解析の結果、マスキング対象特定結果を基に、有効な登録候補と判定されたものだけを単語辞書112に登録する。なお、マスキング結果リスト104aの「登録」欄に登録する旨が記憶された(「○」印が記録された)語は、データ選別部106での図4に示した処理を経ずに、そのまま単語辞書112に登録するようにしてもよい。また、図18や図19に示したような、単語辞書への登録指示のための「登録」欄を設けずに、確定の指示のあった、マスキング対象箇所の文字列は全て、データ選別部106での図4に示した処理を経て、選別された文字列を単語辞書に登録するようにしてもよい。
【0088】
マスキング結果リスト104aは、マスキング修正部113、マスキング確定部114、伏字加工部115、辞書登録部105の各構成部の処理動作により、図9のように更新されている。すなわち、図14〜図17に示した画面上で操作したときと同様に、修正されたマスキング対象表記とその前後の表記が変更になり、「確定」欄、「伏字加工」欄、「登録」欄に、ユーザの指示に応じた情報が記入されている。
【0089】
このように、図14〜図17に示した文書表示画面上、図18〜図19に示したリスト一覧表示画面上にて、マスキング対象箇所の確認、修正、確定、伏字加工を行うことができる。また、リスト一覧表示画面上からは、マスキング対象の修正内容を反映させた辞書登録を指示することができる。
【0090】
なお、上記のように、マスキング対象の修正結果で単語辞書112を更新する場合、例えば、上記例の場合、表記「通信研究所」を「情報通信研究所」に修正する場合も、図13と同様に、この「情報通信研究所」という語をユーザに表示するとともに、その読み方や、品詞、属性、登録の有無を問い合わせてもよい。そして、この画面上でユーザにより登録指示のあったものだけを単語辞書112に登録してもよい。その際、図13に示した画面上に入力された「読み」や「品詞」、「属性」を、単語辞書112に登録してもよい。
【0091】
なお、マスキング箇所の修正により、単語辞書から単語を削除する場合も、上記同様に行うことができる。例えば、図15や図18に示した画面に表示されたマスキング対象のうち、マスキング対象から除きたい語の反転表示や強調表示などの特殊表示を解除する操作を行い、その後、「確定実行」ボタンB3を操作したり、「登録実行」ボタンB4を操作するなどして、マスキングリスト結果リスト104a上で、削除の旨を記録する。例えば、マスキング結果リスト104aには、このために、「削除」欄が設けられていてもよい。「削除」欄に「○」印が記録されている単語は、その後、辞書登録部105により、単語辞書112から削除する。
【0092】
また、リスト一覧表示画面では、マスキング対象として特定された文字列を、その読み方、種類毎にソートして表示したり、同じ文字列が複数あるときは、そのうちの1つを表示するようにしてもよい。
【0093】
以上説明したように、上記実施形態によれば、マスキングすべき文字列またはその一部を記憶する単語辞書を基に、入力部101から入力した文書からマスキング対象特定部109において、マスキング対象箇所を特定(検出)し、この検出されたマスキング対象箇所をマスキング結果リスト104a(記憶手段)に記憶するとともに、このマスキング結果リストに記憶されたマスキング対象箇所を表示画面上に表示する。表示されたマスキング対象箇所のいずれかがユーザにより修正されると、マスキング結果リストに記憶されたマスキング対象箇所を、ユーザにより修正されたマスキング対象箇所に書き換え、この書き換えられたマスキング結果リストに記憶されたマスキング対象箇所を基に、文書中の当該マスキング対象箇所をマスキングすることにより、検出されたマスキング対象箇所(伏字に置き換えるべき固有名詞等)の確認と修正が容易に行える。
【0094】
また、表示画面上に表示された文書中で、ユーザにより指示された新たなマスキング対象箇所をマスキング結果リストに記憶し、後にこのリストに記憶された新たなマスキング対象箇所の文字列を単語辞書に記憶することにより、表示画面上に表示されたマスキング対象箇所の確認、修正とともに、この修正内容に基づき、固有名詞等の検出に利用する単語辞書を容易に更新することができる。
【0095】
また、入力部101から複数の文字列を入力し、データ選別部106において、この複数の文字列の中から、各文字列の文字数と、各文字列を構成する文字種と、各文字列の既存文書中の出現頻度と、各文字列の形態素解析の結果のうちの少なくとも1つを基に、単語辞書に記憶する文字列を選択し、この選択された文字列のうち形態素解析できない文字列、選択された文字列のうち各文字列を形態素解析した結果得られた各文節と単語辞書を基にマスキング対象箇所として検出することができない文字列を、単語辞書に記憶することにより、マスキング対象箇所の検出に用いる単語辞書112が容易に構築、更新することができる。
【0096】
このように、上記実施形態によれば、入力文書から検出されたマスキング対象箇所の確認と修正が容易に行えるとともに、入力文書中から検出されたマスキング対象箇所を高精度に検出することのできる単語辞書の構築と更新が容易に行える。
【0097】
従って、上記実施形態に係る文書処理装置によれば、文書からマスキング対象箇所を高精度に検出し、マスキング対象箇所を伏字に置き換えたり、塗り潰す等して秘匿することができ、当該文書中の固有名詞等のプライバシー情報の侵害を事前に防止し、文書の共有および流通を容易にする。
【0098】
本発明の実施の形態に記載した本発明の手法は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、DVDなど)、半導体メモリなどの記録媒体に格納して頒布することもできる。
【0099】
なお、本発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。さらに、上記実施形態には種々の段階の発明は含まれており、開示される複数の構成要件における適宜な組み合わせにより、種々の発明が抽出され得る。例えば、実施形態に示される全構成要件から幾つかの構成要件が削除されても、発明が解決しようとする課題の欄で述べた課題(の少なくとも1つ)が解決でき、発明の効果の欄で述べられている効果(のなくとも1つ)が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。
【0100】
【発明の効果】
以上説明したように本発明によれば、文書中から検出された固有名詞部分の確認と修正が容易に行える。
【0101】
また、文書中の固有名詞部分の検出に利用する単語辞書を容易に更新することができる。
【図面の簡単な説明】
【図1】 本発明の一実施形態にかかる文書マスキング装置の構成例を示す図。
【図2】 制御部の処理動作を説明するためのフローチャート。
【図3】 マスキング対象特定部の処理動作を説明するためのフローチャート。
【図4】 データ選別部の処理動作を説明するためのフローチャート。
【図5】 単語辞書のデータ構造の一例を示した図。
【図6】 マスキングルールの一例を示した図。
【図7】 形態素解析について説明するための図。
【図8】 マスキング結果リストに記憶される情報を説明するための図。
【図9】 マスキング結果リストに記憶される情報を説明するための図。
【図10】 登録候補リストに記憶される情報を説明するための図。
【図11】 登録候補リストに記憶される情報を説明するための図。
【図12】 単語辞書の更新結果の一例を示した図。
【図13】 単語辞書に記憶する情報を入力するための画面表示例を示した図。
【図14】 マスキング対象箇所を表示する文書表示画面の一例を示した図。
【図15】 修正されたマスキング対象箇所を表示する文書表示画面の一例を示した図。
【図16】 マスキング対象箇所が確定されたときの文書表示画面上の一例を示した図。
【図17】 マスキング対象箇所をマスキングしたときの文書表示画面の一例を示した図。
【図18】 マスキング対象箇所を表示するリスト一覧表示画面の一例を示した図。
【図19】 修正されたマスキング対象箇所等を表示するリスト一覧表示画面の一例を示した図。
【符号の説明】
101…入力部、102…制御部、103…出力部、104…一時記憶部、105…辞書登録部、106…データ選別部、107…頻度算出部、108…既存文書記憶部、109…マスキング対象特定部、110…形態素解析部、111…マスキングルール記憶部、112…単語辞書、113…マスキング修正部、114…マスキング確定部、115…伏字加工部
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a document processing method and apparatus for replacing a proper noun portion related to privacy in a document with a prone character to make it unidentifiable.
[0002]
[Prior art]
If you try to share or divert existing electronic documents such as e-mails, internal reports, daily reports, weekly reports, etc., the privacy information of proper nouns may be infringed depending on the document. For this reason, it has been necessary to deal with it by deleting or hiding the proper nouns related to the privacy information in the document manually.
[0003]
On the other hand, there is a technique in which a proper noun part related to privacy is extracted from a document, and the extracted proper noun part is processed as a letter (for example, refer to Patent Document 1 and Patent Document 2). In this method, a word to be made unidentifiable is registered in a word dictionary, and a proper noun portion related to privacy is extracted by performing morphological analysis using the dictionary.
[0004]
However, this method does not provide a correction means when the extracted proper noun part is incorrect or a word dictionary update means.
[0005]
[Patent Document 1]
JP 2002-259363 A
[0006]
[Patent Document 2]
JP 2002-259368 A
[0007]
[Problems to be solved by the invention]
Thus, conventionally, when detecting a proper noun part from a document and processing it in a prose, it is impossible to correct when the detected proper noun part is incorrect, and to update the word dictionary used for detecting the proper noun part. There was a point.
[0008]
In view of the above problems, an object of the present invention is to provide a document processing method and apparatus capable of easily confirming and correcting a proper noun portion detected from a document.
[0009]
Another object of the present invention is to provide a document processing method and apparatus capable of easily updating a word dictionary used for detecting proper noun parts in a document.
[0010]
[Means for Solving the Problems]
The present invention detects a masking target location from an input document based on a dictionary storing a character string to be masked or a part thereof, stores the detected masking target location in a storage means, and stores the masking target location. The masking target portion displayed on the display screen and stored in the storage means is rewritten to the masking target portion corrected by the user on the display screen, and the masking target portion stored in the storage means in the input document is masked. As a result, the proper noun part detected from the document can be easily confirmed and corrected.
[0011]
Further, in the document displayed on the display screen, the new masking target location designated by the user is stored in the storage means, and the character string of the new masking target location stored in the storage means is stored in the dictionary. By storing the word dictionary, the word dictionary used for detecting the proper noun part in the document can be easily updated.
[0012]
Further, the dictionary is based on at least one of the number of characters of each character string, the character type constituting each character string, and the appearance frequency of each character string in an existing document among a plurality of input character strings. The character string to be stored in the selected character string, based on the character string that cannot be morphologically analyzed, the clauses obtained as a result of the morphological analysis of each character string in the selected character string, and the dictionary By storing character strings that cannot be detected as masking target parts in the above dictionary, a word dictionary used for detecting proper nouns in documents using existing databases in the company or commercially available databases Can be easily constructed and updated.
[0013]
DETAILED DESCRIPTION OF THE INVENTION
Embodiments of the present invention will be described below with reference to the drawings.
[0014]
FIG. 1 is a block diagram showing the configuration of a document masking apparatus to which the document processing apparatus according to this embodiment is applied. The document masking apparatus according to the present embodiment can be realized by a computer that reads a program recorded on a recording medium such as a magnetic disk and whose operation is controlled by this program.
[0015]
The document masking apparatus includes an input unit 101, a control unit 102, an output unit 103, a temporary storage unit 104, a dictionary registration unit 105, a data selection unit 106, a frequency calculation unit 107, and an existing document storage unit 108. The masking target specifying unit 109, the morpheme analyzing unit 110, the masking rule storage unit 111, the word dictionary 112, the masking correcting unit 113, the masking determining unit 114, and the prone character processing unit 115 are configured.
[0016]
An input unit 101 as an input unit takes in (inputs) a document or data to be processed from, for example, a memory, a magnetic disk, or an optical disk. Also, user instructions and key inputs are captured from, for example, a keyboard or a microphone.
[0017]
After receiving and analyzing the information input from the input unit 101, the control unit 102 sends information necessary for the processing to each component necessary for processing the input information. The processing results in each component are returned to the control unit 102 and output via the output unit 103. In the output unit 103, information to be output (output information) is displayed on, for example, a display, or is output by sound from a speaker. Details of the processing operation of the control unit 102 will be described later.
[0018]
The temporary storage unit 104 is a storage area for temporarily storing processing results and the like, and includes, for example, a RAM or a magnetic disk. The temporary storage unit 104 stores a masking result list 104a and a registration candidate list 104b. Information stored in each list will be described later.
[0019]
When the dictionary registration unit 105 receives registration candidate data input from the input unit 101 via the control unit 102, the dictionary registration unit 105 activates the data selection unit 106 and passes the registration candidate data to the data selection unit 106.
[0020]
The data selection unit 106 activates the frequency calculation unit 107, the morpheme analysis unit 110, and the masking target specifying unit 109, and selects valid data (words) as registration candidates in the word dictionary 112 from the received registration candidate data. Sort out. Details of the processing operation of the data selection unit 106 will be described later.
[0021]
The frequency calculation unit 107 refers to the document (existing document) stored in the existing document storage unit 108 and calculates the appearance frequency of the registration candidate data in the existing document.
[0022]
The masking target specifying unit 109 receives the document via the control unit 102, activates the morphological analysis unit 110, and the masking rules stored in the masking rule storage unit 111 and the character string to be masked (replaced by the abbreviation) Alternatively, by referring to the word dictionary 112 that stores a part of it, a masking target portion (a character string to be replaced with a letter) in the document is detected (specified). Details of the processing operation of the masking target specifying unit 109 will be described later.
[0023]
The morpheme analyzer 110 refers to the word dictionary 112 and performs morpheme analysis. Since the processing operation of the morphological analysis unit 110 is widely known, a description thereof will be omitted.
[0024]
The processing result of the masking target specifying unit 109 is stored as a masking result list 104 a via the control unit 102 and displayed on a display or the like via the output unit 103.
[0025]
The masking correction unit 113 receives a user's correction instruction for the masking target portion via the control unit 102, and stores the information in the masking result list 104a.
[0026]
The masking confirmation unit 114 receives a user confirmation instruction for the masking target portion via the control unit 102, and stores the information in the masking result list 104a.
[0027]
The script processing unit 115 receives a user's script processing instruction via the control unit 102, replaces the determined masking target portion with preset characters, symbols, fills, blanks, etc., and outputs the result. For example, it is displayed on a display via the unit 103.
[0028]
Next, details of each of the above-described units will be described using a flowchart.
[0029]
(A) Processing operation of the control unit 102
FIG. 2 is a flowchart showing the processing operation of the control unit 102.
[0030]
First, in step S201, it is determined whether or not the user's instruction specifies a masking target portion. If the masking target part is specified, the process proceeds to step S202. Otherwise, the process proceeds to step S211.
[0031]
In step S202, a document to be processed is acquired via the input unit 101, and the process proceeds to step S203.
[0032]
In step S203, the masking target specifying unit 109 is activated, and the process proceeds to step S204.
[0033]
In step S204, it is determined whether or not the user's instruction is correction of a masking target portion. When it is correction of the masking target part, the process proceeds to step S205. Otherwise, the process proceeds to step S206.
[0034]
In step S205, the masking correction unit 113 is activated, and the process proceeds to step S206. In step S206, it is determined whether or not the user's instruction is to confirm the masking target portion. If it is determined that the masking target portion is determined, the process proceeds to step S207. If not, the process ends.
[0035]
In step S207, the masking determination unit 114 is activated, and the process proceeds to step S208. In step S208, it is determined whether or not the user's instruction is a masking process for a portion to be masked. If it is the masking process for the masking target part, the process proceeds to step S209. Otherwise, the process proceeds to step S210.
[0036]
In step S209, the letter processing unit 115 is activated, and the process proceeds to step S210. In step S210, it is determined whether or not the user's instruction is dictionary registration of a masking target portion. If it is the dictionary registration of the masking target part, the process proceeds to step S213. If not, the process ends.
[0037]
On the other hand, if the process proceeds from step S201 to step S211, it is determined in step S211 whether or not the user instruction is batch dictionary registration. If it is batch dictionary registration, the process proceeds to step S212. Otherwise, the process is terminated.
[0038]
In step S212, registration candidate data is taken in via the input unit 101, and the process proceeds to step S213. Here, the registration candidate data input through the input unit 101 is, for example, a name, an address, and the like included in data such as an electronic telephone book. In the case of batch registration, words such as names and place names included in names, addresses, etc. recorded as a telephone book can be automatically registered in the word dictionary 112 in a batch.
[0039]
In step S213, the dictionary registration unit 105 is activated. The dictionary registration unit 105 activates the data selection unit 106. Since the data selection unit 106 selects valid data (words) as registration candidates for the word dictionary 112 from the input registration candidate data, the dictionary registration unit 105 registers the selected words in the word dictionary 112. Then, the process ends.
[0040]
FIG. 5 shows an example of the data structure of the word dictionary 112. The word dictionary stores information such as notation, reading, part of speech, and attribute of each word. In particular, the attribute of each word stored in the word dictionary 112 is used when (in step S203) the masking target specifying unit 109 determines whether or not a word in the input document is a masking target. .
[0041]
In this manner, the control unit 102 sends information captured by the input unit 101 to a necessary processing unit based on a user instruction, and controls activation of each processing unit.
[0042]
(B) Processing operation of masking target specifying unit
The processing operation of the masking target specifying unit 109 will be described with reference to the flowchart shown in FIG. First, in step S301, the masking target specifying unit 109 reads a document to be processed input from the input unit 101, and proceeds to step S302.
[0043]
In step S302, the number of documents is set in the variable N, and “1” as an initial value is set in the variable i for counting the number of documents, and the process proceeds to step S303. In step S303, it is determined whether i is N or less. If i is N or less, the process proceeds to step S304. If i is greater than N, the process ends.
[0044]
In step S304, the morpheme analysis unit 110 is activated to perform morphological analysis of the i-th read document, that is, the document [i], and the process proceeds to step S305.
[0045]
Here, the morphological analysis will be briefly described with reference to FIG. For example, it is assumed that a sentence as shown in FIG. 7A is a morphological analysis processing target. By dividing this sentence into phrases and words and adding parts of speech for each word, a morphological analysis result as shown in FIG. 7B is obtained. Note that when it cannot be divided into clauses and words, it means that morphological analysis cannot be performed or morphological analysis has failed, and when it can be divided into phrases and words, it means that morphological analysis has succeeded. In FIG. 7B, the symbol “/” is a phrase delimiter, the symbol “+” is a word delimiter in the phrase, and the character string enclosed by the symbol <> indicates the part of speech.
[0046]
In addition, what consists of at least 1 character, such as a clause and a word, is also called a character string simply.
[0047]
Returning to the description of FIG. 3, in step S305, the number of clauses is set in the variable S, and “1” is set as an initial value in the variable k for counting the number of clauses, and the process proceeds to step S306. In step S306, it is determined whether k is S or less. If k is equal to or less than S, the process proceeds to step S307. If k is larger than S, the process proceeds to step S310. In the following description, the kth clause is referred to as clause [k].
[0048]
In step S307, it is determined whether or not the clause [k] and the next clause [k + 1] satisfy the conditions of the masking rules stored in the masking rule storage unit 111. At that time, “attribute” information and the like registered in the word dictionary 112 are referred to. Each word included in each of the two clauses is searched from the word dictionary 112, and when such a word exists in the word dictionary 112, its attribute is read. When the correspondence relationship between the attributes of the words included in the two phrases is stored as a masking rule (when a rule that satisfies the condition exists), the process proceeds to step S308. Otherwise, the process proceeds to step S309.
[0049]
FIG. 6 shows an example of a masking rule stored in the marking rule storage unit 111. Each rule is described by a condition and a result. For example, in the first rule, if the attribute of the clause [k] is a company name, the clause [k] is specified as the company name. When the phrase [k + 1] field is blank, it indicates that the rule is a one-sentence rule. For example, in the fourth rule, if the part of speech of the clause [k] is an unknown word and the attribute of the clause [k + 1] is a personal name co-occurrence word, the clause [k] is specified as a personal name. Here, an example of a rule of one or two clauses is shown, but a rule of three or more clauses may be used. In the case of a rule having three or more clauses, matching of the rules with clauses (phrase [k], clause [k + 1], clause [k + 2],...) Corresponding to the number is performed.
[0050]
Returning to the description of FIG. 3, in step S308, a clause that satisfies the condition (at least one clause that matches the rule) is identified as a masking target portion, stored as a masking result list 104a, and the process proceeds to step S309.
[0051]
FIG. 8 shows an example of the masking result list 104a. In the masking result list 104a, the notation of the clause specified as the masking target portion, that is, the masking target notation, the front three characters of the clause, the subsequent three characters, the start position of the masking target notation, the number of characters, the type, and the confirmation Nine pieces of information including presence / absence, presence / absence processing, and registration / non-registration are stored. At the stage where step S308 has been completed, as shown in FIG.
[0052]
Returning to the description of FIG. 3, in step S309, k is incremented by one, and the process returns to step S306, and the processes in steps S307 to S308 are repeated for all the clauses in the document [i]. In step S310, i is incremented by 1, and the process returns to step S303 to repeat the processes in steps S304 to S309 for all input documents.
[0053]
In this way, the masking target specifying unit 109 uses the morpheme analysis and masking rules in the morpheme analysis unit 110 to specify the masking target part in each document. The identified masking target portion is stored as a masking result list 104a as shown in FIG. 8 and displayed on the display or the like via the output unit 103, for example.
[0054]
(C) Processing operation of the data selection unit
The processing operation of the data selection unit 106 in the dictionary registration process in step S213 in FIG. 2 will be described with reference to the flowchart shown in FIG.
[0055]
First, in step 401, the data selection unit 106 reads data to be processed input to the dictionary registration unit 105, stores it as a registration candidate list 104b, and proceeds to step S402. The data to be processed is registration candidate data read from the input unit 101 in the case of batch dictionary registration, and in the case of dictionary registration of a masking target portion (that is, a word based on the correction result of the masking target described later) In the case of updating the dictionary, among the data stored in the masking result list 104a, data for which a registration instruction has been given (for example, as shown in FIG. ).
[0056]
Here, when the user instruction is batch dictionary registration (step S211 in FIG. 2), the processing operation in step S213 in FIG. 2, that is, based on the registration candidate data read from the input unit 101 in step S212 in FIG. A case where the word dictionary 112 is updated will be described as an example.
[0057]
FIG. 10 is an example of information stored as the registration candidate list 104b. In the registration candidate list 104b, for each registration candidate data read from the input unit 101, the notation, type, appearance frequency, whether morphological analysis is successful, whether masking target identification is successful, and six selection results are displayed. Is described. At the stage where step S401 is completed, fields other than the notation and type of each registration candidate data are not filled in as shown in FIG.
[0058]
Returning to the description of FIG. 4, in step S402, the number of data is set in the variable N, and the initial value “1” is set in the variable i for counting the number of data, and the process proceeds to step S403. In step S403, it is determined whether i is N or less. If i is N or less, the process proceeds to step S404. If i is greater than N, the process ends. Here, the i-th registration candidate data is referred to as data [i].
[0059]
In step S404, it is determined whether the character string length (number of characters) in the notation of data [i] is equal to or greater than a predetermined value α. Here, α is a threshold value set in advance. For example, α is set to “2”. If the character string length is greater than or equal to α, the process proceeds to step S405. If the character string length is less than α, the data [i] proceeds to step S413 so as to be excluded from the registration target in the word dictionary 112.
[0060]
In step S405, it is determined whether or not the character string structure of the data [i] is only hiragana. In the case of hiragana only, the data [i] proceeds to step S413 to be excluded from the registration target in the word dictionary 112. If a character type other than hiragana is included, the process proceeds to step S406.
[0061]
In step S406, first, the frequency calculation unit 107 is activated. The frequency calculation unit 107 calculates the appearance frequency of the notation of the data [i] in the existing document stored in the existing document storage unit 108, and stores the information in the “appearance frequency” column of the registration candidate list 104b. Then, the process proceeds to step S407. In step S407, it is determined whether the appearance frequency is greater than or equal to a predetermined value β. Here, β is a threshold value set in advance. For example, β is set to “3”. When the appearance frequency is β or more, the process proceeds to step S408. If the appearance frequency is lower than β, the data [i] proceeds to step S413 to be excluded from the registration target in the word dictionary 112.
[0062]
In step S408, the morpheme analysis unit 110 is activated to analyze the notation of data [i] whose appearance frequency is β or more, and the process proceeds to step S409. In step S409, it is determined whether the morphological analysis is successful. If successful, the process proceeds to step S410. If unsuccessful, the process advances to step S412 to register the data [i] in the word dictionary 112. As shown in FIG. 11, the result of the morpheme analysis is stored in the “morpheme analysis” column of the registration candidate list 104b (in FIG. 11, when the morpheme analysis is successful, “◯” is marked, and when it is unsuccessful, "X").
[0063]
In step S410, the masking target specifying unit 109 is activated, and as shown in FIG. 3, the masking target part is specified from the notation of the data [i] based on the masking rule, and the process proceeds to step S411.
[0064]
In step S411, it is determined whether or not the notation of the data [i] can be specified as the masking target portion. If it can be specified, the data [i] can be specified as a masking target part from the current word dictionary 112 and does not need to be newly registered in the word dictionary 112 this time. In order to remove it, the process proceeds to step S413. If it cannot be specified, the process proceeds to step S412 to register the data [i] in the word dictionary 112. The determination result here is stored in the “masking target specification” field of the registration candidate list 104b as shown in FIG. 11 (in FIG. 11, when it can be specified, “◯” mark, when it cannot be specified) "X").
[0065]
If the process proceeds from step S409 or step S411 to step S412, in step S412, it is determined that the data [i] is registered in the word dictionary 112, and the result is stored in the registration candidate list 104b (in FIG. "" In the "" column), the process proceeds to step S414.
[0066]
On the other hand, if the process proceeds from step S404, step S405, step S407, or step S411 to step S413, it is determined in step S413 that the data [i] is not registered in the word dictionary 112, and the result is stored in the registration candidate list 104b. (In FIG. 11, “x” is indicated in the “selection result” column), and the process proceeds to step S414.
[0067]
In step S414, i is incremented by one, and the process returns to step S403, and the processing of step S404 to step S413 is repeated for registration candidate data of all data.
[0068]
In this way, the data selection unit 106 uses the frequency calculation unit 107, the morpheme analysis unit 110, and the masking target specifying unit 109 to generate an appearance frequency in an existing document that includes characters other than hiragana and a character string length of α. Among the registration candidate data having a value equal to or larger than β, the one that satisfies any one of the following cannot be specified as a masking target in the current word dictionary 112, which cannot be morphologically analyzed, is registered in the word dictionary 112. Select as a valid string. The result is stored in the “selection result” column of the registration candidate list 104b as shown in FIG.
[0069]
At the stage where the process of step S412 of the data selection unit 106 is completed, the process is as shown in FIG. That is, “Taro Yamada” and “Hayashi Politics” are selected as valid registration candidates in the word dictionary 112. This selected registration candidate data is additionally registered in the word dictionary 112 as shown in FIG. 12 together with attributes and parts of speech obtained from the types. At that time, a word to be newly registered is displayed from the output unit 103 via the dictionary registration unit 105 and the control unit 102, for example, as shown in FIG. 13, and is read to the user, part of speech, attribute, registration. It may be registered in the word dictionary 112 after inquiring about the presence or absence. In addition, only those instructed by the user on this screen may be registered in the word dictionary 112. At that time, “reading”, “part of speech”, and “attribute” input on the screen shown in FIG. 13 are registered in the word dictionary 112.
[0070]
(D) Updating the word dictionary based on the correction result of the masking target
Now, the user is instructed to specify the masking target part to the document masking apparatus shown in FIG. 1, and the process is input from the input unit 101 by the masking target specifying process (see FIG. 3) in step S203 of FIG. It is assumed that a masking result list 104a as shown in FIG. 8 is obtained from the target document.
[0071]
FIG. 14 is a display example of the masking result list 104a and shows an example of a document display screen.
[0072]
Based on the masking result list 104 shown in FIG. 8 obtained from the processing target document, the output unit 103 displays the processing target document input from the input unit 101 as shown in FIG.
[0073]
In FIG. 14, words such as “Company A”, “Communication Research Laboratories”, “Taro Yamada”, and the like, which are required as masking targets, are highlighted or highlighted so that they can be distinguished from other parts in the processing target document. Special indication is given.
[0074]
For example, when the screen as shown in FIG. 14 is displayed by the masking target specifying process in step S203 of FIG. 2, in step S204 of FIG. 2, the user instructs the correction of the masking target portion (for example, the screen). In step S205, the masking correction unit 113 is activated. At this time, for example, the user selects “communication laboratory” using a mouse or the like, and the selection instruction is sent to the masking correction unit 113. The user corrects the masking correction instruction to add at least one character immediately before and immediately after the masking target portion in the processing target document so that the selected character string to be masked becomes “Information and Communication Laboratory”. When input from the unit 113, the masking result list 104a is displayed in the masking result list 104a by the control unit 102 via the masking correction unit 113, as shown in FIG. To “Information and Communication Laboratories”. Based on the masking result list shown in FIG. 9, the screen display is also updated as shown in FIG.
[0075]
Note that the correction of the masking target portion by the user includes correction for deleting at least one character from the character string of the masking target portion in addition to the above correction. This correction is, for example, a case where the first two characters “communication” are deleted from the masking target location “communication laboratory” detected in the document to be processed and corrected to “laboratory”. Also in this case, in the same manner as described above, in the masking result list 104a, the masking target portion modified by the user in the “masking target notation” column is rewritten from “communication laboratory” to “laboratory”. The screen display is also updated based on the rewritten masking result list.
[0076]
In addition to the above two examples, the user may additionally specify a new masking target location as the masking target location correction. For example, on the screen shown in FIG. 14, although not shown in FIG. 14, a person name “New Year's Day” exists in the document to be processed. It is assumed that no detection (specification) is performed by the unit 109. In this case, when the user designates this character string, the masking target portion “New Year's Day” added by the user is added to the “masking target notation” field of the masking result list 104a. Based on the resulting masking result list, the screen display is also updated in the same manner as described above.
[0077]
Next, when the user gives an instruction to confirm the masking target location (for example, by selecting a predetermined button provided on the screen) (step S206 in FIG. 2), the masking confirmation unit 114 is activated (in FIG. 2). In step S207), as shown in FIG. 9, the masking result list 104a records that it has been confirmed in the “determined” column for each masking target (indicated by “◯” in FIG. 9), and is displayed on the screen. As shown in FIG. 16, the display also shows that the highlighted part has been changed to underlined display, and the masking target part including the corrected part has been confirmed.
[0078]
Next, when the user gives an instruction to process a masked portion (for example, a predetermined button provided on the screen is selected) (step S208 in FIG. 2), the script processing unit 115 is activated (FIG. 2). Step S209), in the masking result list 104a, as shown in FIG. 9, the fact that the masking process is instructed is recorded in the “masking process” column of each masking target (in FIG. 9, the masking result list 104a is represented by a mark “◯”). As shown in FIG. 17, each masking target portion is replaced with, for example, the symbol “x”.
[0079]
In step S204 to step S210 in FIG. 2, a masking location correction, a masking confirmation instruction, a prosecution processing instruction, and a registration instruction to the word dictionary 112 can be performed from the screen as shown in FIG. .
[0080]
FIG. 18 shows another display example of the masking result list 104a shown in FIG. 8 obtained in step S203 of FIG.
[0081]
The screen shown in FIG. 18 can be changed by selecting (pressing) one of the “to list list screen” buttons B1 provided on the document display screens shown in FIGS. it can.
[0082]
In the screen display example shown in FIG. 18, the notation “Company A”, “Communication Research Laboratories”, “Taro Yamada”, etc. of the masking target part detected from the document to be processed and stored in the masking result list 104a indicate the context. It is displayed as a list by type, along with the preceding and following character strings. The list list display as shown in FIG. 18 is displayed based on the contents of the masking result list 104a at the time when the display instruction is given. When the correction is made, the correction result is stored in the masking result list 104a, and the masking target portion after the correction is displayed as shown in FIG.
[0083]
In the list list display screen shown in FIG. 18, a “confirmation” instruction region for masking confirmation instruction, a “registration” instruction region to the word dictionary, and a “bend processing” instruction region are provided for each masking target. Is provided.
[0084]
On the screen shown in FIG. 18, the user selects “communication laboratory” detected as a masking target using a mouse or the like, and the selection instruction is sent to the control unit 102 via the input unit 101. The user changes the masking range so that the selected masking target word becomes “Information and Communication Laboratory” (corrected to “Information and Communication Laboratory”), and “Company A” and “Information and Communication Research” Enter “Check” (in this case, “×”) in the “Confirm” instruction area and “Future processing” instruction area of “Taro” and “Taro Yamada”, and enter a check in the “Register” instruction area of “Information and Communication Laboratories” Then, the screen becomes as shown in FIG.
[0085]
In the state of the screen display shown in FIG. 19, when the “confirm execution” button B3 is pressed at the bottom center of the screen, the checked notation is confirmed. That is, the masking correction unit 113 is activated (step S205 in FIG. 2), and the masking result list 104a includes a masking target portion corrected by the user in the “masking target notation” column as shown in FIG. Will be changed to “Information and Communication Laboratories”. Further, the masking confirmation unit 114 is activated (step S207 in FIG. 2), and the masking result list 104a is recorded in the “confirmation” column for each masking target as shown in FIG. 9 (FIG. 9). In this case, it is indicated by “○”.) Here, when the “To Document Screen” button B2 is further pressed, as shown in FIG. 16, on the screen, the highlighted part is changed to an underlined display as described above, and the masked part including the corrected part is masked. This indicates that the target location has been confirmed.
[0086]
Further, in the screen display state shown in FIG. 19, when the “bottom processing” button B5 at the center bottom of the screen is pressed, the checked notation is processed. That is, the prone processing unit 115 is activated (step S209 in FIG. 2), and the masking result list 104a records that the proficiency processing is instructed in the “prone processing” column for each masking target, as shown in FIG. (In FIG. 9, it is represented by “◯” mark). Here, when the “To Document Screen” button B2 is further pressed, as shown in FIG. 17, the masked portion is replaced with, for example, the symbol “x” as described above.
[0087]
Further, in the screen display state shown in FIG. 19, when the “registration execution” button B4 is pressed at the bottom center of the screen (step S210 in FIG. 2), the dictionary registration unit 105 is activated and the word dictionary 112 checks the registration column. A notation including (symbol “×”) is registered. At this time, according to the flowchart shown in FIG. 4, the notation in which the check is input is input to the data selection unit 106 through the dictionary registration unit 105, and among the input words, the character string length, Based on the appearance frequency, the result of morphological analysis, and the masking target specifying result, only those determined as valid registration candidates are registered in the word dictionary 112. It should be noted that the word stored in the “registration” field of the masking result list 104a (recorded with “◯” mark) is not subjected to the processing shown in FIG. It may be registered in the word dictionary 112. Further, all the character strings of the masking target parts for which the confirmation instruction is given without providing the “registration” field for the instruction to register in the word dictionary as shown in FIG. 18 or FIG. The selected character string may be registered in the word dictionary through the processing shown in FIG.
[0088]
The masking result list 104a is updated as shown in FIG. 9 by processing operations of the respective components of the masking correction unit 113, the masking determination unit 114, the concealment processing unit 115, and the dictionary registration unit 105. That is, in the same manner as when operating on the screen shown in FIGS. 14 to 17, the modified masking target notation and the notation before and after it are changed, and the “Confirm” column, “Fuzzy processing” column, “Register” Information corresponding to the user's instruction is entered in the column.
[0089]
As described above, the masking target portion can be confirmed, corrected, confirmed, and processed in the letter form on the document display screens shown in FIGS. 14 to 17 and the list list display screens shown in FIGS. . Further, from the list list display screen, it is possible to instruct dictionary registration reflecting the correction contents to be masked.
[0090]
As described above, when the word dictionary 112 is updated with the correction result of the masking target, for example, in the case of the above example, the notation “communication research institute” may be modified to “information communication research institute”. Similarly, the word “information and communication research institute” may be displayed to the user and inquired about how to read it, the part of speech, the attribute, and the presence / absence of registration. Then, only those instructed by the user on this screen may be registered in the word dictionary 112. At this time, “reading”, “part of speech”, and “attribute” input on the screen shown in FIG. 13 may be registered in the word dictionary 112.
[0091]
It should be noted that when a word is deleted from the word dictionary by correcting the masking portion, the same operation as described above can be performed. For example, among the masking targets displayed on the screen shown in FIG. 15 or FIG. 18, an operation for canceling special display such as reverse display or highlighting of a word to be excluded from the masking target is performed, and then a “confirm execution” button. The fact of deletion is recorded on the masking list result list 104a by operating B3 or operating the “registration execution” button B4. For example, the masking result list 104a may be provided with a “delete” column for this purpose. Words with “o” marks recorded in the “delete” column are then deleted from the word dictionary 112 by the dictionary registration unit 105.
[0092]
Also, on the list list display screen, character strings specified as masking targets are sorted and displayed for each reading method and type, or when there are multiple identical character strings, one of them is displayed. Also good.
[0093]
As described above, according to the above embodiment, the masking target location is determined in the masking target specifying unit 109 from the document input from the input unit 101 based on the word dictionary storing the character string to be masked or a part thereof. The detected masking target location is stored in the masking result list 104a (storage means), and the masking target location stored in the masking result list is displayed on the display screen. When one of the displayed masking target locations is corrected by the user, the masking target location stored in the masking result list is rewritten with the masking target location corrected by the user, and stored in the rewritten masking result list. By masking the masking target part in the document based on the masking target part, it is possible to easily confirm and correct the detected masking target part (such as a proper noun to be replaced with a letter).
[0094]
Further, in the document displayed on the display screen, the new masking target portion designated by the user is stored in the masking result list, and the character string of the new masking target portion stored later in this list is stored in the word dictionary. By storing the information, it is possible to easily update the word dictionary used for detecting proper nouns and the like based on the contents of the correction along with the confirmation and correction of the masking target portion displayed on the display screen.
[0095]
Also, a plurality of character strings are input from the input unit 101, and the data selection unit 106 selects the number of characters of each character string, the character type constituting each character string, and the existing character strings from the plurality of character strings. Based on at least one of the appearance frequency in the document and the result of morphological analysis of each character string, a character string to be stored in the word dictionary is selected, and a character string that cannot be morphologically analyzed among the selected character strings, By storing in the word dictionary a character string that cannot be detected as a masking target location based on each phrase and word dictionary obtained as a result of morphological analysis of each character string in the selected character string, The word dictionary 112 used for the detection can be easily constructed and updated.
[0096]
As described above, according to the above-described embodiment, the masking target portion detected from the input document can be easily confirmed and corrected, and the masking target portion detected from the input document can be detected with high accuracy. Dictionaries can be easily constructed and updated.
[0097]
Therefore, according to the document processing apparatus according to the above-described embodiment, the masking target portion can be detected from the document with high accuracy, and the masking target portion can be concealed by replacing or filling the masking target portion. Prevent infringement of privacy information such as proper nouns in advance and facilitate document sharing and distribution.
[0098]
The method of the present invention described in the embodiment of the present invention is a program that can be executed by a computer, such as a magnetic disk (flexible disk, hard disk, etc.), an optical disk (CD-ROM, DVD, etc.), a semiconductor memory, etc. It can be stored in a medium and distributed.
[0099]
In addition, this invention is not limited to the said embodiment, In the implementation stage, it can change variously in the range which does not deviate from the summary. Furthermore, the above embodiments include inventions at various stages, and various inventions can be extracted by appropriately combining a plurality of disclosed constituent elements. For example, even if some constituent elements are deleted from all the constituent elements shown in the embodiment, the problem (at least one of them) described in the column of problems to be solved by the invention can be solved, and the column of the effect of the invention If at least one of the effects described in (1) is obtained, a configuration in which this configuration requirement is deleted can be extracted as an invention.
[0100]
【The invention's effect】
As described above, according to the present invention, the proper noun part detected from the document can be easily confirmed and corrected.
[0101]
In addition, the word dictionary used for detecting proper noun parts in the document can be easily updated.
[Brief description of the drawings]
FIG. 1 is a diagram showing a configuration example of a document masking apparatus according to an embodiment of the present invention.
FIG. 2 is a flowchart for explaining a processing operation of a control unit.
FIG. 3 is a flowchart for explaining a processing operation of a masking target specifying unit;
FIG. 4 is a flowchart for explaining a processing operation of a data selection unit.
FIG. 5 is a diagram showing an example of a data structure of a word dictionary.
FIG. 6 is a diagram showing an example of a masking rule.
FIG. 7 is a diagram for explaining morphological analysis.
FIG. 8 is a diagram for explaining information stored in a masking result list;
FIG. 9 is a diagram for explaining information stored in a masking result list;
FIG. 10 is a diagram for explaining information stored in a registration candidate list.
FIG. 11 is a diagram for explaining information stored in a registration candidate list.
FIG. 12 is a diagram showing an example of a word dictionary update result.
FIG. 13 is a diagram showing a screen display example for inputting information stored in a word dictionary.
FIG. 14 is a diagram showing an example of a document display screen that displays a portion to be masked.
FIG. 15 is a diagram showing an example of a document display screen that displays a corrected masking target portion.
FIG. 16 is a diagram showing an example on a document display screen when a masking target portion is confirmed.
FIG. 17 is a diagram showing an example of a document display screen when a masking target portion is masked.
FIG. 18 is a diagram showing an example of a list list display screen for displaying masking target portions.
FIG. 19 is a diagram showing an example of a list list display screen that displays a corrected masking target portion and the like.
[Explanation of symbols]
DESCRIPTION OF SYMBOLS 101 ... Input part 102 ... Control part 103 ... Output part 104 ... Temporary memory | storage part 105 ... Dictionary registration part 106 ... Data selection part 107 ... Frequency calculation part 108 ... Existing document memory | storage part 109 ... Masking object Specific part 110: Morphological analysis part 111 ... Masking rule storage part 112 ... Word dictionary 113 ... Masking correction part 114 ... Masking confirmation part 115 ... Prone word processing part

Claims (12)

各単語の表記及び属性を含む、形態素解析に用いる辞書を記憶する第1の記憶手段と、
マスキングすべき文字列中の各文節に含まれる単語の属性の配列を記憶する第2の記憶手段と、
第3の記憶手段と、
文書処理手段と、
を備えた文書処理装置における文書処理方法であって、
前記文書処理手段が、前記第1の記憶手段に記憶された辞書に、各単語の表記及びその属性を含む辞書データを登録する第1の登録ステップと、
前記文書処理手段が、文書を入力する入力ステップと、
前記文書処理手段が、前記形態素解析により、前記文書を文節及び単語に分割する分割ステップと、
前記文書処理手段が、前記文書から、前記第2の記憶手段に記憶されている前記属性の配列を有する、1または連続する複数の文節を、マスキング対象箇所として検出する検出ステップと、
前記文書処理手段が、前記検出ステップで検出されたマスキング対象箇所を前記第3の記憶手段に記憶する第1の記憶ステップと、
前記文書処理手段が、前記文書を表示画面に表示するとともに、該文書中に前記第3の記憶手段に記憶されたマスキング対象箇所を表示する表示ステップと、
(a)前記表示画面上に表示された前記文書中で前記マスキング対象箇所がユーザにより修正された場合には、前記文書処理手段が、前記第3の記憶手段に記憶された該マスキング対象箇所を、修正されたマスキング対象箇所に書き換え、(b)前記表示画面上に表示された前記文書中で新たなマスキング対象箇所がユーザにより指示された場合には、前記文書処理手段が、該新たなマスキング対象箇所を前記第3の記憶手段に記憶する修正ステップと、
前記文書処理手段が、前記文書中の前記第3の記憶手段に記憶されたマスキング対象箇所をマスキングするマスキングステップと、
前記文書処理手段が、前記第3の記憶手段に記憶された新たなマスキング対象箇所のうち、ユーザにより指示されたマスキング対象箇所の文字列の表記及びその属性を含む新たな辞書データを前記辞書に登録する第2の登録ステップと、
を有することを特徴とする文書処理方法。
First storage means for storing a dictionary used for morphological analysis, including notation and attributes of each word;
Second storage means for storing an array of word attributes included in each clause in the character string to be masked;
A third storage means;
Document processing means;
A document processing method in a document processing apparatus comprising:
A first registration step in which the document processing means registers dictionary data including the notation of each word and its attributes in the dictionary stored in the first storage means;
An input step in which the document processing means inputs a document;
The document processing means divides the document into phrases and words by the morphological analysis,
A step of detecting, from the document, one or a plurality of consecutive clauses having the attribute array stored in the second storage unit as a masking target portion from the document;
A first storage step in which the document processing means stores the masking target portion detected in the detection step in the third storage means;
The document processing means displaying the document on a display screen and displaying a masking target portion stored in the third storage means in the document; and
(A) When the masking target location in the document displayed on the display screen is corrected by the user, the document processing means displays the masking target location stored in the third storage means. (B) when a new masking target location is designated by the user in the document displayed on the display screen, the document processing means performs the new masking target location. A correction step of storing the target portion in the third storage means;
A masking step in which the document processing means masks a masking target portion stored in the third storage means in the document;
Among the new masking target locations stored in the third storage unit, the document processing unit stores new dictionary data including the notation of the character string of the masking target location designated by the user and its attributes in the dictionary. A second registration step to register;
A document processing method.
各単語の表記及び属性を含む、形態素解析に用いる辞書を記憶する第1の記憶手段と、
マスキングすべき文字列中の各文節に含まれる単語の属性の配列を記憶する第2の記憶手段と、
第3の記憶手段と、
文書処理手段と、
を備えた文書処理装置における文書処理方法であって、
前記文書処理手段が、前記第1の記憶手段に記憶された辞書に、各単語の表記及びその属性を含む辞書データを登録する第1の登録ステップと、
前記文書処理手段が、文書を入力する入力ステップと、
前記文書処理手段が、前記形態素解析により、前記文書を文節及び単語に分割する分割ステップと、
前記文書処理手段が、前記文書から、前記第2の記憶手段に記憶されている前記属性の配列を有する、1または連続する複数の文節を、マスキング対象箇所として検出する検出ステップと、
前記文書処理手段が、前記検出ステップで検出されたマスキング対象箇所を前記第3の記憶手段に記憶する第1の記憶ステップと、
前記文書処理手段が、前記文書を表示画面に表示するとともに、該文書中に前記第3の記憶手段に記憶されたマスキング対象箇所を表示する表示ステップと、
(a)前記表示画面上に表示された前記文書中で前記マスキング対象箇所がユーザにより修正された場合には、前記文書処理手段が、前記第3の記憶手段に記憶された該マスキング対象箇所を、修正されたマスキング対象箇所に書き換え、(b)前記表示画面上に表示された前記文書中で新たなマスキング対象箇所がユーザにより指示された場合には、前記文書処理手段が、該新たなマスキング対象箇所を前記第3の記憶手段に記憶する修正ステップと、
前記文書処理手段が、前記文書中の前記第3の記憶手段に記憶されたマスキング対象箇所をマスキングするマスキングステップと、
前記文書処理手段が、前記第3の記憶手段に記憶された新たなマスキング対象箇所のうち、ユーザにより登録指示されたマスキング対象箇所の文字列から、文字列長が予め定められた値以上で、且つ平仮名以外の文字を含み、且つ既存文書中の出現頻度が予め定められた値以上の文字列であって、形態素解析できない文字列あるいは現状の前記辞書ではマスキング対象箇所として検出できない文字列を、前記辞書に記憶する文字列として選択する第1の選択ステップと、
この第1の選択ステップで選択された文字列の表記及びその属性を含む新たな辞書データを前記辞書に登録する第2の登録ステップと、
を有することを特徴とする文書処理方法。
First storage means for storing a dictionary used for morphological analysis, including notation and attributes of each word;
Second storage means for storing an array of word attributes included in each clause in the character string to be masked;
A third storage means;
Document processing means;
A document processing method in a document processing apparatus comprising:
A first registration step in which the document processing means registers dictionary data including the notation of each word and its attributes in the dictionary stored in the first storage means;
An input step in which the document processing means inputs a document;
The document processing means divides the document into phrases and words by the morphological analysis,
A step of detecting, from the document, one or a plurality of consecutive clauses having the attribute array stored in the second storage unit as a masking target portion from the document;
A first storage step in which the document processing means stores the masking target portion detected in the detection step in the third storage means;
The document processing means displaying the document on a display screen and displaying a masking target portion stored in the third storage means in the document; and
(A) When the masking target location in the document displayed on the display screen is corrected by the user, the document processing means displays the masking target location stored in the third storage means. (B) when a new masking target location is designated by the user in the document displayed on the display screen, the document processing means performs the new masking target location. A correction step of storing the target portion in the third storage means;
A masking step in which the document processing means masks a masking target portion stored in the third storage means in the document;
Among the new masking target locations stored in the third storage means, the document processing means has a character string length equal to or greater than a predetermined value from the character string of the masking target location designated by the user. And a character string that includes characters other than hiragana and has an appearance frequency in an existing document that is equal to or higher than a predetermined value, and that cannot be detected as a masking target location in the current dictionary, A first selection step of selecting as a character string to be stored in the dictionary;
A second registration step of registering in the dictionary new dictionary data including the notation of the character string selected in the first selection step and its attributes;
A document processing method.
前記ユーザによる前記表示画面上に表示されたマスキング対象箇所への修正は、当該マスキング対象箇所に、前記文書中の当該マスキング対象箇所の直前直後の少なくとも1つの文字を追加する修正と、当該マスキング対象箇所の文字列から少なくとも1つの文字を削除する修正のうちの少なくとも1つであることを特徴とする請求項1または2記載の文書処理方法。  The correction to the masking target location displayed on the display screen by the user includes the correction of adding at least one character immediately before and after the masking target location in the document to the masking target location, 3. The document processing method according to claim 1, wherein the document processing method is at least one of corrections for deleting at least one character from a character string at a location. 前記第1の登録ステップは、
複数の文字列を含むリストを入力するステップと、
前記複数の文字列のうち、前記第2の記憶手段に記憶されている配列を有する文節からなる文字列を除いた文字列群から、文字列長が予め定められた値以上で、且つ平仮名以外の文字を含み、且つ既存文書中の出現頻度が予め定められた値以上の文字列であって、形態素解析できない文字列あるいは現状の前記辞書ではマスキング対象箇所として検出できない文字列を、前記辞書に記憶する文字列として選択する第2の選択ステップと、
この第2の選択ステップで選択された文字列の表記及びその属性を含む新たな辞書データを前記辞書に登録するステップと、
を含むことを特徴とする請求項1または2記載の文書処理方法。
The first registration step includes:
Entering a list containing multiple strings;
Of the plurality of character strings, a character string length is equal to or greater than a predetermined value from a character string group excluding a character string including a phrase having an arrangement stored in the second storage unit , and other than a hiragana character And a character string having an appearance frequency in an existing document that is equal to or higher than a predetermined value and that cannot be morphologically analyzed or that cannot be detected as a masking target location in the current dictionary. A second selection step for selecting as a character string to be stored;
Registering new dictionary data including the notation of the character string selected in the second selection step and its attributes in the dictionary;
The document processing method according to claim 1, further comprising:
前記第1の登録ステップは、
複数の文字列を含むリストを入力するステップと、
前記複数の文字列の中から、文字列長が予め定められた値以上で、且つ平仮名以外の文字を含み、且つ既存文書中の出現頻度が予め定められた値以上の文字列を選択する第3の選択ステップと、
この第3の選択ステップで選択された文字列のうち、形態素解析できない文字列の表記及びその属性を含む新たな辞書データを前記辞書に登録するステップと、
前記第3の選択ステップで選択された文字列のうち、各文字列を形態素解析した結果得られた各文節に含まれる単語の属性の配列が、前記第2の記憶手段に記憶されていない文字列の表記及びその属性を含む新たな辞書データを前記辞書に登録するステップと、
を含むことを特徴とする請求項1または2記載の文書処理方法。
The first registration step includes:
Entering a list containing multiple strings;
A character string whose character string length is equal to or greater than a predetermined value and includes characters other than hiragana and whose appearance frequency in an existing document is equal to or greater than a predetermined value is selected from the plurality of character strings. 3 selection steps;
Of the character strings selected in the third selection step, registering new dictionary data including the notation of the character string that cannot be morphologically analyzed and its attributes in the dictionary;
Of the character strings selected in the third selection step, the character attribute array included in each clause obtained as a result of morphological analysis of each character string is not stored in the second storage means. Registering new dictionary data including column notation and its attributes in the dictionary;
The document processing method according to claim 1, further comprising:
各単語の表記及び属性を含む、形態素解析に用いる辞書を記憶する第1の記憶手段と、
マスキングすべき文字列中の各文節に含まれる単語の属性の配列を記憶する第2の記憶手段と、
文書を入力する手段と、
前記形態素解析により、前記文書を文節及び単語に分割する手段と、
前記文書から、前記第2の記憶手段に記憶されている前記属性の配列を有する、1または連続する複数の文節を、マスキング対象箇所として検出する検出手段と、
この検出手段で検出されたマスキング対象箇所を記憶する第3の記憶手段と、
前記文書を表示画面に表示するとともに、該文書中に前記第3の記憶手段に記憶されたマスキング対象箇所を表示する表示手段と、
前記表示画面上に表示された前記文書中で前記マスキング対象箇所がユーザにより修正された場合には、前記第3の記憶手段に記憶された該マスキング対象箇所を、修正されたマスキング対象箇所に書き換え、(b)前記表示画面上に表示された前記文書中で新たなマスキング対象箇所がユーザにより指示された場合には、該新たなマスキング対象箇所を前記第3の記憶手段に記憶する修正手段と、
前記文書中の前記第3の記憶手段で記憶されたマスキング対象箇所をマスキングする手段と、
前記第3の記憶手段に記憶された新たなマスキング対象箇所のうち、ユーザにより指示されたマスキング対象箇所の文字列の表記及びその属性を含む新たな辞書データを前記辞書に登録する第1の登録手段と、
を具備したことを特徴とする文書処理装置。
First storage means for storing a dictionary used for morphological analysis, including notation and attributes of each word;
Second storage means for storing an array of word attributes included in each clause in the character string to be masked;
A means of entering a document;
Means for dividing the document into clauses and words by the morphological analysis;
Detecting means for detecting, from the document, one or a plurality of continuous clauses having the attribute array stored in the second storage means as masking target portions;
A third storage means for storing the masking target portion detected by the detection means;
Display means for displaying the document on a display screen and displaying a masking target portion stored in the third storage means in the document;
When the masking target part in the document displayed on the display screen is corrected by the user, the masking target part stored in the third storage unit is rewritten with the corrected masking target part. (B) a correction means for storing the new masking target location in the third storage means when a new masking target location is designated by the user in the document displayed on the display screen; ,
Means for masking a masking target portion stored in the third storage means in the document;
First registration for registering new dictionary data including notation and attribute of a character string of a masking target location designated by a user among new masking target locations stored in the third storage means in the dictionary Means,
A document processing apparatus comprising:
各単語の表記及び属性を含む、形態素解析に用いる辞書を記憶する第1の記憶手段と、
マスキングすべき文字列中の各文節に含まれる単語の属性の配列を記憶する第2の記憶手段と、
文書を入力する手段と、
前記形態素解析により、前記文書を文節及び単語に分割する手段と、
前記文書から、前記第2の記憶手段に記憶されている前記属性の配列を有する、1または連続する複数の文節を、マスキング対象箇所として検出する検出手段と、
この検出手段で検出されたマスキング対象箇所を記憶する第3の記憶手段と、
前記文書を表示画面に表示するとともに、該文書中に前記第3の記憶手段に記憶されたマスキング対象箇所を表示する表示手段と、
前記表示画面上に表示された前記文書中で前記マスキング対象箇所がユーザにより修正された場合には、前記第3の記憶手段に記憶された該マスキング対象箇所を、修正されたマスキング対象箇所に書き換え、(b)前記表示画面上に表示された前記文書中で新たなマスキング対象箇所がユーザにより指示された場合には、該新たなマスキング対象箇所を前記第3の記憶手段に記憶する修正手段と、
前記文書中の前記第3の記憶手段で記憶されたマスキング対象箇所をマスキングする手段と、
前記第3の記憶手段に記憶された新たなマスキング対象箇所のうち、ユーザにより登録指示されたマスキング対象箇所の文字列から、文字列長が予め定められた値以上で、且つ平仮名以外の文字を含み、且つ既存文書中の出現頻度が予め定められた値以上の文字列であって、形態素解析できない文字列あるいは現状の前記辞書ではマスキング対象箇所として検出できない文字列を、前記辞書に記憶する文字列として選択する第1の選択手段と、
この第1の選択手段で選択された文字列の表記及びその属性を含む新たな辞書データを前記辞書に登録する第1の登録手段と、
を具備したことを特徴とする文書処理装置。
First storage means for storing a dictionary used for morphological analysis, including notation and attributes of each word;
Second storage means for storing an array of word attributes included in each clause in the character string to be masked;
A means of entering a document;
Means for dividing the document into clauses and words by the morphological analysis;
Detecting means for detecting, from the document, one or a plurality of continuous clauses having the attribute array stored in the second storage means as masking target portions;
A third storage means for storing the masking target portion detected by the detection means;
Display means for displaying the document on a display screen and displaying a masking target portion stored in the third storage means in the document;
When the masking target part in the document displayed on the display screen is corrected by the user, the masking target part stored in the third storage unit is rewritten with the corrected masking target part. (B) a correction means for storing the new masking target location in the third storage means when a new masking target location is designated by the user in the document displayed on the display screen; ,
Means for masking a masking target portion stored in the third storage means in the document;
Among the new masking target locations stored in the third storage means, characters other than the hiragana character string whose length is longer than a predetermined value from the character string of the masking target location designated by the user A character string that is included in the existing document and that has a frequency of appearance equal to or higher than a predetermined value, and that cannot be detected as a masking target location in the current dictionary, First selection means for selecting as a column;
First registration means for registering new dictionary data including the notation of the character string selected by the first selection means and its attributes in the dictionary;
A document processing apparatus comprising:
前記ユーザによる前記表示画面上に表示されたマスキング対象箇所への修正は、当該マスキング対象箇所に、前記文書中の当該マスキング対象箇所の直前直後の少なくとも1つの文字を追加する修正と、当該マスキング対象箇所の文字列から少なくとも1つの文字を削除する修正のうちの少なくとも1つであることを特徴とする請求項6または7記載の文書処理装置。  The correction to the masking target location displayed on the display screen by the user includes the correction of adding at least one character immediately before and after the masking target location in the document to the masking target location, 8. The document processing apparatus according to claim 6, wherein the document processing apparatus is at least one of corrections for deleting at least one character from a character string at a location. 複数の文字列を含むリストを入力する手段と、
前記複数の文字列のうち、前記第2の記憶手段に記憶されている配列を有する文節からなる文字列を除いた文字列群から、文字列長が予め定められた値以上で、且つ平仮名以外の文字を含み、且つ既存文書中の出現頻度が予め定められた値以上の文字列であって、形態素解析できない文字列あるいは現状の前記辞書ではマスキング対象箇所として検出できない文字列を、前記辞書に記憶する文字列として選択する第2の選択手段と、
この第2の選択手段で選択された文字列の表記及びその属性を含む新たな辞書データを前記辞書に登録する第2の登録手段と、
をさらに具備したことを特徴とする請求項7または8記載の文書処理装置。
Means for entering a list containing multiple strings;
Of the plurality of character strings, a character string length is equal to or greater than a predetermined value from a character string group excluding a character string including a phrase having an arrangement stored in the second storage unit, and other than a hiragana character And a character string having an appearance frequency in an existing document that is equal to or higher than a predetermined value and that cannot be morphologically analyzed or that cannot be detected as a masking target location in the current dictionary. Second selection means for selecting as a character string to be stored;
Second registration means for registering new dictionary data including the notation of the character string selected by the second selection means and its attributes in the dictionary;
The document processing apparatus according to claim 7, further comprising:
複数の文字列を含むリストを入力する手段と、
前記複数の文字列の中から、文字列長が予め定められた値以上で、且つ平仮名以外の文字を含み、且つ既存文書中の出現頻度が予め定められた値以上の文字列を選択する第3の選択手段と、
この第3の選択手段で選択された文字列のうち、形態素解析できない文字列の表記及びその属性を含む新たな辞書データを前記辞書に登録する手段と、
前記第3の選択手段で選択された文字列のうち、各文字列を形態素解析した結果得られた各文節に含まれる単語の属性の配列が、前記第2の記憶手段に記憶されていない文字列の表記及びその属性を含む新たな辞書データを前記辞書に登録する手段と、
をさらに具備したことを特徴とする請求項7または8記載の文書処理装置。
Means for entering a list containing multiple strings;
A character string whose character string length is equal to or greater than a predetermined value and includes characters other than hiragana and whose appearance frequency in an existing document is equal to or greater than a predetermined value is selected from the plurality of character strings. 3 selection means;
Of the character strings selected by the third selection means, means for registering new dictionary data including the notation of the character string that cannot be morphologically analyzed and its attributes in the dictionary;
Among the character strings selected by the third selection means, the character attribute array included in each clause obtained as a result of morphological analysis of each character string is not stored in the second storage means. Means for registering in the dictionary new dictionary data including column notation and attributes thereof;
The document processing apparatus according to claim 7, further comprising:
コンピュータを、
各単語の表記及び属性を含む、形態素解析に用いる辞書を記憶する第1の記憶手段、
マスキングすべき文字列中の各文節に含まれる単語の属性の配列を記憶する第2の記憶手段、
文書を入力する手段、
前記形態素解析により、前記文書を文節及び単語に分割する手段、
前記文書から、前記第2の記憶手段に記憶されている前記属性の配列を有する、1または連続する複数の文節を、マスキング対象箇所として検出する検出手段、
この検出手段で検出されたマスキング対象箇所を記憶する第3の記憶手段、
前記文書を表示画面に表示するとともに、該文書中に前記第3の記憶手段に記憶されたマスキング対象箇所を表示する表示手段、
前記表示画面上に表示された前記文書中で前記マスキング対象箇所がユーザにより修正された場合には、前記第3の記憶手段に記憶された該マスキング対象箇所を、修正されたマスキング対象箇所に書き換え、(b)前記表示画面上に表示された前記文書中で新たなマスキング対象箇所がユーザにより指示された場合には、該新たなマスキング対象箇所を前記第3の記憶手段に記憶する修正手段、
前記文書中の前記第3の記憶手段で記憶されたマスキング対象箇所をマスキングする手段、
前記第3の記憶手段に記憶された新たなマスキング対象箇所のうち、ユーザにより指示されたマスキング対象箇所の文字列の表記及びその属性を含む新たな辞書データを前記辞書に登録する登録手段、
として機能させるためのプログラム。
Computer
First storage means for storing a dictionary used for morphological analysis, including the notation and attributes of each word;
Second storage means for storing an array of word attributes included in each clause in the character string to be masked;
A means of entering documents,
Means for dividing the document into clauses and words by the morphological analysis;
Detecting means for detecting, from the document, one or a plurality of consecutive clauses having the attribute arrangement stored in the second storage means as masking target portions;
A third storage means for storing the masking target portion detected by the detection means;
Display means for displaying the document on a display screen and displaying a masking target portion stored in the third storage means in the document;
When the masking target part in the document displayed on the display screen is corrected by the user, the masking target part stored in the third storage unit is rewritten with the corrected masking target part. (B) When a new masking target location is instructed by the user in the document displayed on the display screen, a correction unit that stores the new masking target location in the third storage unit,
Means for masking a portion to be masked stored in the third storage means in the document;
Of the new masking target locations stored in the third storage means, registration means for registering new dictionary data including the notation of the character string of the masking target location designated by the user and its attributes in the dictionary,
Program to function as.
コンピュータを、
各単語の表記及び属性を含む、形態素解析に用いる辞書を記憶する第1の記憶手段、
マスキングすべき文字列中の各文節に含まれる単語の属性の配列を記憶する第2の記憶手段、
文書を入力する手段、
前記形態素解析により、前記文書を文節及び単語に分割する手段、
前記文書から、前記第2の記憶手段に記憶されている前記属性の配列を有する、1または連続する複数の文節を、マスキング対象箇所として検出する検出手段、
この検出手段で検出されたマスキング対象箇所を記憶する第3の記憶手段、
前記文書を表示画面に表示するとともに、該文書中に前記第3の記憶手段に記憶されたマスキング対象箇所を表示する表示手段、
前記表示画面上に表示された前記文書中で前記マスキング対象箇所がユーザにより修正された場合には、前記第3の記憶手段に記憶された該マスキング対象箇所を、修正されたマスキング対象箇所に書き換え、(b)前記表示画面上に表示された前記文書中で新たなマスキング対象箇所がユーザにより指示された場合には、該新たなマスキング対象箇所を前記第3の記憶手段に記憶する修正手段、
前記文書中の前記第3の記憶手段で記憶されたマスキング対象箇所をマスキングする手段、
前記第3の記憶手段に記憶された新たなマスキング対象箇所のうち、ユーザにより登録指示されたマスキング対象箇所の文字列から、文字列長が予め定められた値以上で、且つ平仮名以外の文字を含み、且つ既存文書中の出現頻度が予め定められた値以上の文字列であって、形態素解析できない文字列あるいは現状の前記辞書ではマスキング対象箇所として検出できない文字列を、前記辞書に記憶する文字列として選択する第1の選択手段、
この第1の選択手段で選択された文字列の表記及びその属性を含む新たな辞書データを前記辞書に登録する登録手段、
として機能させるためのプログラム。
Computer
First storage means for storing a dictionary used for morphological analysis, including the notation and attributes of each word;
Second storage means for storing an array of word attributes included in each clause in the character string to be masked;
A means of entering documents,
Means for dividing the document into clauses and words by the morphological analysis;
Detecting means for detecting, from the document, one or a plurality of consecutive clauses having the attribute arrangement stored in the second storage means as masking target portions;
A third storage means for storing the masking target portion detected by the detection means;
Display means for displaying the document on a display screen and displaying a masking target portion stored in the third storage means in the document;
When the masking target part in the document displayed on the display screen is corrected by the user, the masking target part stored in the third storage unit is rewritten with the corrected masking target part. (B) When a new masking target location is instructed by the user in the document displayed on the display screen, a correction unit that stores the new masking target location in the third storage unit,
Means for masking a portion to be masked stored in the third storage means in the document;
Among the new masking target locations stored in the third storage means, characters other than the hiragana character string whose length is longer than a predetermined value from the character string of the masking target location designated by the user A character string that is included in the existing document and that has a frequency of appearance equal to or higher than a predetermined value, and that cannot be detected as a masking target location in the current dictionary, A first selection means for selecting as a column;
Registration means for registering new dictionary data including notation of the character string selected by the first selection means and its attributes in the dictionary;
Program to function as.
JP2003012201A 2003-01-21 2003-01-21 Document processing method, document processing apparatus, and program Expired - Fee Related JP4005925B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003012201A JP4005925B2 (en) 2003-01-21 2003-01-21 Document processing method, document processing apparatus, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003012201A JP4005925B2 (en) 2003-01-21 2003-01-21 Document processing method, document processing apparatus, and program

Publications (2)

Publication Number Publication Date
JP2004227141A JP2004227141A (en) 2004-08-12
JP4005925B2 true JP4005925B2 (en) 2007-11-14

Family

ID=32900885

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003012201A Expired - Fee Related JP4005925B2 (en) 2003-01-21 2003-01-21 Document processing method, document processing apparatus, and program

Country Status (1)

Country Link
JP (1) JP4005925B2 (en)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4066033B1 (en) * 2007-08-22 2008-03-26 Sky株式会社 Client terminal monitoring system
JP5460359B2 (en) 2010-01-29 2014-04-02 インターナショナル・ビジネス・マシーンズ・コーポレーション Apparatus, method, and program for supporting processing of character string in document
JP5686150B2 (en) * 2013-03-07 2015-03-18 キヤノンマーケティングジャパン株式会社 Information processing apparatus, information processing method, and computer program
JP6024768B2 (en) * 2015-01-23 2016-11-16 キヤノンマーケティングジャパン株式会社 Information processing apparatus, information processing method, and computer program
JP5990609B2 (en) * 2015-02-25 2016-09-14 京セラドキュメントソリューションズ株式会社 Image forming apparatus
JP2018026037A (en) * 2016-08-12 2018-02-15 株式会社リコー Information processing apparatus, information processing system, program, and information processing method
JP2020154778A (en) * 2019-03-20 2020-09-24 富士ゼロックス株式会社 Document processing device and program

Also Published As

Publication number Publication date
JP2004227141A (en) 2004-08-12

Similar Documents

Publication Publication Date Title
KR100931466B1 (en) Electronic dictionary device and dictionary search method of electronic dictionary device
JPH08506444A (en) Handwriting recognition method of likely character strings based on integrated dictionary
JP4005925B2 (en) Document processing method, document processing apparatus, and program
US20040267737A1 (en) Database search system
JP4534557B2 (en) Information display control device and information display control processing program
JP3442422B2 (en) Synonym information creation apparatus and method
JP4015661B2 (en) Named expression extraction device, method, program, and recording medium recording the same
JP2004046388A (en) Information processing system and character correction method
JP3154875B2 (en) Kanji conversion learning device
JP2001134602A (en) Method and device for analyzing address and recording medium with address analysis program recorded thereon
JP2000268039A (en) Retrieving device and recording medium
JP3099425B2 (en) Kana-kanji conversion device and method
JP3329476B2 (en) Kana-Kanji conversion device
JPH0546607A (en) Document reading aloud device
JP2715971B2 (en) Information input device
JPH0785040A (en) Inscription nonuniformity detecting method and kana/ kanji converting method
JPH03209564A (en) Literature data registering method
JP2000311170A (en) Text information extracting method
JP2022103685A (en) Information processing system, information processing method, and program
JP3447127B2 (en) Machine translation equipment
JPH06332934A (en) Device for referring to electronic dictionary
JPH07319891A (en) Document registration/retrieval system
JP2003316376A (en) Device and method for registering unknown word
JPH0728956A (en) Erroneously reading correction supporting method
JPH10198693A (en) Device and method for address book management

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040609

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050920

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050927

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061114

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070110

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070313

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070425

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070821

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070824

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100831

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100831

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110831

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120831

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120831

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130831

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees