[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2020086405A - 情報処理装置、情報処理システム及び情報処理プログラム - Google Patents

情報処理装置、情報処理システム及び情報処理プログラム Download PDF

Info

Publication number
JP2020086405A
JP2020086405A JP2018225798A JP2018225798A JP2020086405A JP 2020086405 A JP2020086405 A JP 2020086405A JP 2018225798 A JP2018225798 A JP 2018225798A JP 2018225798 A JP2018225798 A JP 2018225798A JP 2020086405 A JP2020086405 A JP 2020086405A
Authority
JP
Japan
Prior art keywords
character
sentence
information processing
replacement
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018225798A
Other languages
English (en)
Inventor
浩一 長田
Koichi Osada
浩一 長田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2018225798A priority Critical patent/JP2020086405A/ja
Publication of JP2020086405A publication Critical patent/JP2020086405A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Controls And Circuits For Display Device (AREA)

Abstract

【課題】特定の置換条件に合致する文字を字形が異なる文字へ置換する時間を短縮できる。【解決手段】情報処理装置1は、文章に記載される第1文字の字形と異なる字形の第2文字の画像を示す文字画像に基づき、前記第2文字の画像データを生成する画像データ生成部2と、前記文章において、前記第1文字の前又は後に位置する文字が特定の置換条件に合致するとき、前記第2文字の画像データに基づき前記第1文字を前記第2文字に置き換える文字置換部3と、を備える。【選択図】図1

Description

本発明は、情報処理装置、情報処理システム及び情報処理プログラムに関する。
特許文献1には、文字の字形の切り換え機能を持たないアプリケーションによる文章印刷であっても、ユーザが希望する異体字の字形での印刷を可能にする技術が開示される。特許文献1に開示される技術では、印刷データから複数の異体字データを持つ文字コードが検出され、複数の異体字が候補字形として表示器の画面に表示され、表示器の画面に表示された候補字形をユーザが参照しながら印刷に使う文字の字形を選択することで、字形が異なる文字への置換が行われる。
しかしながら、特許文献1に代表される技術では、特定の置換条件に合致する文字だけを、字形が異なる文字へ一括変更することができない。従って、ユーザは、特定の置換条件に合致する文字だけを選択する必要があるため、置換対象の文字数が増えるほどユーザに多大な負担がかかると共に、作業時間が長時間に及ぶという問題があった。
本発明は、上記課題に鑑み、特定の置換条件に合致する文字を字形が異なる文字へ置換する時間を短縮する。
上記課題に鑑み、本発明に係る情報処理装置は、文章に記載される第1文字の字形と異なる字形の第2文字の画像を示す文字画像に基づき、前記第2文字の画像データを生成する画像データ生成部と、前記文章において、前記第1文字の前又は後に位置する文字が特定の置換条件に合致するとき、前記第2文字の画像データに基づき前記第1文字を前記第2文字に置き換える文字置換部と、を備える。
本発明によれば、特定の置換条件に合致する文字を字形が異なる文字へ置換する時間を短縮できるという効果を奏する。
本発明の実施の形態に係る情報処理装置の機能ブロックを示す一例の図である。 フォントの字形の違いを示す図である。 本実施の形態に係る情報処理装置の動作を説明するためのフローチャートである。 イメージバリアブルプログラムによる文字画像の置換前後のイメージを示す図である。 イメージバリアブルデータの画像に置き換えるイメージを示す第1図である。 イメージバリアブルデータの画像に置き換えるイメージを示す第2図である。 文章に記載される文字の一部が置換される様子を説明するための図である。 第1変形例に係る情報処理装置1のの機能ブロックを示す一例の図である。 第1変形例に係る情報処理装置1の動作を説明するためのフローチャートである。 第2変形例に係る情報処理装置1の機能ブロックを示す一例の図である。 第2変形例に係る情報処理装置1の動作を説明するためのフローチャートである。 第3変形例に係る情報処理装置1の機能ブロックを示す一例の図である。 第3変形例に係る情報処理装置1の動作を説明するためのフローチャートである。 本発明の実施の形態に係る情報処理装置1を実現するためのハードウェア構成例を示す図である。 本実施の形態に係る情報処理装置1を備えた情報処理システム1Aの構成例を示す図である。 置換条件提案部4又は置換条件提案部41に適用される機械学習部400の一例を示す図である。
以下、本発明を実施するための形態について図面を用いて説明する。
実施の形態.
図1は本発明の実施の形態に係る情報処理装置の機能ブロックを示す一例の図である。情報処理装置1は、PC(Personal Computer)などである。情報処理装置1は、画像データ生成部2、文字置換部3、第1格納部10及び第2格納部20を備える。画像データ生成部2は、ユーザが生成した、文章に記載される第1文字の字形と異なる字形の第2文字の画像を示す文字画像に基づき、第2文字の画像データをユーザが生成する。文字置換部3は、当該文章において、第1文字の前又は後に位置する文字が特定の置換条件に合致するか否かを判定し、判定の結果、第1文字の前又は後に位置する文字が特定の置換条件に合致するとき、第2文字の画像データに基づき第1文字を前記第2文字に置き換える。特定の置換条件についての説明は後述する。文字置換部3によって文字が置き換えられた文章のデータは、不図示のメモリに格納される。
情報処理装置1は、例えば、過去に作成された文書中に、「JIS 90」に従った字形が複数記載されている場合、それらの字形の内、特定の置換条件に合致するものだけを「JIS 2004」に従った字形に変更することができるように構成されている。なお、変更前後の字形の種類はこれらに限定されるものではない。以下では、従来の問題点とフォントの字形について説明し、その後、情報処理装置1の動作を説明する。
過去に作成した文書に含まれている文字の字形を一括して変更したいという要望が存在する。字形は、特定の骨格を有する文字の現れた形(デザイン)を意味する。デザインが同一の文字同士であっても、文字を形作る線の数、この線の太さ、文字を形作る点の数、この点の角度などが異なる場合があるため、文字を形作る線、点などが異なる文字同士は、字形は異なると言える。例えば、文字集合に関する代表的な規格には、1990年に改正された「JIS X 0208」と、2004年に改正された「JIS X 0213」とが存在する。「JIS X 0208」は、日本語表記、地名、人名などで用いられる図形文字を含む、情報交換用の2バイト符号化文字集合を規定する日本工業規格である。「JIS X 0208」の規格名称は、「7ビット及び8ビットの2バイト情報交換用符号化漢字集合」である。「JIS X 0208」は前述した「JIS 90」に相当する。「JIS X 0213」は、「JIS 90」を拡張した、日本語用の符号化文字集合を規定する日本工業規格である。「JIS X 0213」の規格名称は、「7ビット及び8ビットの2バイト情報交換用符号化拡張漢字集合」である。「JIS X 0213」は前述した「JIS 2004」に相当する。
「JIS 2004」と「JIS 90」は何れも文字集合の規格であり、字形を規定する規格ではない。規格書に使われている字形は、あくまでも例示であって、規範ではない。しかしながら、各社がフォントを作成する際、規格書の例示字形を尊重する傾向があり、結果的に「JIS 2004」に従ったフォントと、「JIS 90」に従ったフォントとが存在する。これらのフォントの一例を図2に示す。
図2はフォントの字形の違いを示す図である。図2の左側には、「JIS 2004」に従ったフォントの字形が示される。図2の右側には、「JIS 90」に従ったフォントの字形が示される。「つじ」を示す2種類の漢字を比較した場合、「JIS 2004」に従ったフォントの字形は、「JIS 90」に従ったフォントの字形と異なる。「かつ」を示す2種類の漢字についても、「JIS 2004」に従ったフォントの字形は、「JIS 90」に従ったフォントの字形と異なる。
ここで、例えば、過去に作成された文書中に、「JIS 90」に従った字形が複数記載されている場合、それら全ての字形を「JIS 2004」に従った字形に変更したい、すなわち置換したいという要望が存在する。「JIS 90フォント」と「JIS 2004フォント」との両方が、置換対象の文字以外の全文字について、同一の字形を有する場合、文書中で指定されるフォント名を「JIS 90フォント」から「JIS 2004フォント」に変更するだけで、文章中に記載される全ての字形を一括変更できる。しかしながら、「JIS 90フォント」と「JIS 2004フォント」の内、同一デザインで提供されているものは、「MS 明朝」、「MS ゴシック」など、一部のフォントに限られている。そのため、過去に使用された「JIS 90字形」のフォントに対して、同一デザインの「JIS 2004字形」のフォントは提供されていないことが多い。この場合、「JIS 90字形」を「JIS 2004字形」に一括変更するためには、「JIS 2004字形」のフォントを独自に用意する必要があった。ただし、フォントの作成には多大な費用と時間がかかるため、字形の一括変更は容易ではなかった。
さらに、過去に作成された文書に「JIS 90字形」のフォントが利用している場合において、この文章中の複数の文字の内、特定の置換条件に合致する文字の字形のみを、「JIS 2004字形」に変更したい、という要望も存在する。例えば、「辻A太郎」と「辻B子」の名前が、同一文書に混在していると仮定する。さらに、この文書には「JIS 90字形」のフォントが使われており、「つじ」を表す漢字は、全て一点しんにょうの「辻」と仮定する。ここで、「辻B子」さんの「辻」は本人の強い希望に基づき二点しんにょうの「辻」に変更し、「辻A太郎」さんの「辻」は本人の希望に基づき一点しんにょうのままとする場合について説明する。
この文書には、以下の特徴があるものとする。
第1特徴として、「辻A太郎」は、同一文書中に「辻客員教授」と表記されることがある。また「客員教授の辻先生」と表記されることもある。この場合、「客員教授」は必ず「辻」の前又は後の10文字以内に存在するものとする。
第2特徴として、「辻B子」は、同一文書中に「辻名誉教授」と表記されることがある。また「名誉教授の辻先生」と表記されることもある。この場合、「名誉教授」は必ず「辻」の前後10文字以内に存在するものとする。
第3特徴として、「辻A太郎」さんに関する記述と、「辻B子」さんに関する記述とは、文章中で互いに離れて記載されており、例えば「辻」の前後10文字以内に「客員教授」と「名誉教授」の両方が存在することはないものとする。さらに、「辻A太郎」の前後10文字以内に「名誉教授」が存在することはなく、「辻B子」の前後10文字以内に「客員教授」が存在することもないものとする。
このように特徴のある文章において、特定の置換条件が満たされているときだけ、「辻B子」という文字列の一点しんにょうの「辻」を、二点しんにょうの「辻」に変更する、という要望に対応する必要がある。特定の置換条件は、例えば「辻B子」という文字列の前後10文字以内、又は「辻」の前後10文字以内に、「名誉教授」が存在する場合、一点しんにょうの「辻」を二点しんにょうの「辻」に変更し、それ以外の場合、一点しんにょうの「辻」のままにする、という条件である。
人名以外の固有名詞でも、同様の要望がある。例えば、作品名、曲名などに使われている文字に異体字が存在する場合がある。例えば、山梨県の地名である大菩薩峠を解説した文書がある。この文書には「JIS 90字形」のフォントが使われているものとする。この文書には、中里介山の小説「大菩薩峠」に言及している部分がある。ところが、作者の遺族の強い要望により、小説名「大菩薩峠」の「薩」だけを「JIS 2004字形」の「薩」に変更する必要があるとする。そして、この文書では、小説名の「大菩薩峠」が、必ず"小説「大菩薩峠」"、"大菩薩峠という小説"などの形式で記載されており、「大菩薩峠」という文字列の前後7文字以内には、「小説」という文字列が必ず存在するものとする。すなわち、「大菩薩峠」という文字列の前後7文字以内に「小説」という文字列が存在するとき、「大菩薩峠」は必ず小説名を表す。この場合、「大菩薩峠」の前後7文字以内に「小説」という文字列が存在するときだけ、「小説」という文字列の前後7文字以内に存在する「薩」を「JIS 2004字形」の「薩」に変更し、「小説」という文字列の前後7文字以内に存在していない「薩」に関しては「JIS 90字形」のまま残す、という要望に対応する必要がある。
このように、特定の置換条件に合致する文字の字形のみを変更する場合、特許文献1に代表される従来技術は、特定の置換条件を判定する手段を備えていないため、特定の置換条件に合致する文字の字形のみを一括して変更することが困難であった。このような問題を解決するため、本実施の形態に係る情報処理装置1は、文章中の特定の文字について、当該文字の前又は後に位置する文字が特定の置換条件に合致するとき、字形が異なる文字に置き換えるように構成されている。以下では、情報処理装置1の動作を説明する。
図3は本実施の形態に係る情報処理装置の動作を説明するためのフローチャートである。ステップS1において、ユーザによって、イメージバリアブルプログラム用の文字画像データが生成される。イメージバリアブルプログラムは、バリアブル印刷を実行させるためのプログラムである。バリアブル印刷は、入力データに基づいて、印刷する内容を変えて印刷を行うことである。バリアブル印刷は、オフィスで行われる「差し込み印刷」を高機能化したものと考えてよい。イメージバリアブルプログラムは、バリアブル印刷の手法を使い、写真、絵画などの中に、文字を画像として埋め込むプログラムである。主に名前入りカレンダー、ダイレクトメールに使われている。本実施の形態では、イメージバリアブルプログラムが図1に示される画像データ生成部2として機能する。
本実施の形態では、イメージバリアブルプログラムに、例えば「FusionPro Expression」(登録商標)が利用される。「FusionPro Expression」(登録商標)は、データと画像を組み合わせ、パーソナライズの画像を生成するバリアブル印刷用ソフトウェアである。「FusionPro Expression」(登録商標)によれば、ユーザが独自に準備した画像などを挿入し、ユニークなオリジナルデザインを作成することができる。なお、イメージバリアブルプログラムは、バリアブル印刷を実行させるためのプログラムであればよく、「FusionPro Expression」(登録商標)に限定されるものではない。
イメージバリアブルプログラムの中には、「画像文字」(Image Character)機能を持つものがある。これは、文字列を構成する各文字の字形を、文字ごとに用意した画像に置き換えて出力するものである。図4はイメージバリアブルプログラムによる文字画像の置換前後のイメージを示す図である。図4には、例えば文章中の文字「M」、「A」及び「X」が、これらに対応する文字画像に置き換えられた例が示される。図4の左側の文字が文章中の文字であり、図4の右側の文字が文字画像に置き換えられた文字である。文字画像には、PNG(画像データを圧縮して記録するファイル形式の一つ)、TIFなどの画像形式ファイルが、1文字ごとに用意される。「M」、「A」及び「X」などの文字の画像形式ファイルに、「文字コード.拡張子」のファイル名を与えることにより、イメージバリアブルプログラムが文字画像ファイルを識別できるようにする。例えば、上記の「M」の文字画像ファイルは、「M」という文字の画像形式ファイルに、「Mの文字コード.png」、「Mの文字コード.tif」などのファイル名を与えることによって作成される。このようにして作成されたデータが、前述したイメージバリアブルプログラム用の文字画像データである。
イメージバリアブルプログラムで扱われる文字画像ファイルは、装飾文字であることが多いが、本実施の形態に係る情報処理装置1で利用される文字画像ファイルは、装飾文字ではなく、通常のフォントである。
図3に戻り、ステップS2において、画像データ生成部2は、イメージバリアブルプログラム用の文字画像データを用いて、イメージバリアブルデータを生成する。
前述した「FusionPro Expression」(登録商標)には、「FusionPro VDP CREATOR」(登録商標)が組み合わされる。「FusionPro VDP CREATOR」(登録商標)は、バリアブル印刷プログラムの一例(差し込み印刷プログラムの一例)であり、図1に示される文字置換部3として機能する。本実施の形態では、バリアブル印刷プログラムが図1に示される文字置換部3として機能する。
ステップS3において、文字置換部3は、文章中の特定の文字について、当該文字の前又は後に位置する文字が特定の置換条件に合致するか否かを判定する。当該文字の前又は後に位置する文字が特定の置換条件に合致する場合(ステップS3、Yes)、ステップS4の処理が実行される。当該文字の前又は後に位置する文字が特定の置換条件に合致しない場合(ステップS3、No)、文字が置換されることなく、処理動作が終了する。
なお、ステップS3において、特定の文字の前又は後に位置する文字が特定の置換条件に合致するか否かの判定方法の詳細については後述する。
ステップS4において、文字置換部3は、文書中の指定されたフィールド(テキストフレーム)の文字をすべて、イメージバリアブルデータの画像に置き換える。すなわち、文字置換部3は、文章中の特定の文字のみを、イメージバリアブルデータの画像に置き換えるように構成されている。画像の置き換え方法を図5及び図6を用いて説明する。
図5はイメージバリアブルデータの画像に置き換えるイメージを示す第1図である。図5の左側の画面100Aには、文書中のテキストフレームTFが指定されている。図5の右側の画面100Bには、背景画像BGIが指定されている。このようにテキストフレームTF及び背景画像BGIが設定された後、バリアブル印刷プログラムが実行される。すると、バリアブル印刷プログラムは、テキストフレームTFの「Thessa」の部分を、差し込みデータ(名前の一覧など)から読み込んだ文字列(「MAX」など)に置き換え、さらに文字列を構成する各文字「M」、「A」、「X」を、それぞれに対応する画像に置き換える。このように、バリアブル印刷プログラムでは、ユーザが作成した文字画像ファイルに対応する文字を文書の中から検索し、見つかった文字すべてを、対応する画像に置き換える。なお、文字の検索は、例えばJISコードが利用されるが、JISコードに限定されない。例えば、文章中の文字のJISコードと、イメージバリアブルデータに変化された文字のJISコードが比較され、JISコードが一致する文字の画像が置換される。
バリアブル印刷プログラムが実行されることにより置き換えられた文字画像の例を図6に示す。図6はイメージバリアブルデータの画像に置き換えるイメージを示す第2図である。図6に示すように、図5の画面100Aで指定されたテキストフレームTFに変更が加えられている。このように置き換えられた画像は、PDFファイルとして保存される。
なお、本実施の形態では、イメージバリアブルプログラムとして機能する画像データ生成部2と、バリアブル印刷プログラムとして機能する文字置換部3とは、ユーザがテキストフレームTFを指定しなくても、文書全体を処理対象とみなすように構成されている。
次に、実際の文章に記載される文字の一部が置換される様子を、図7を用いて説明する。図7は文章に記載される文字の一部が置換される様子を説明するための図である。ステップS1では、画像作成プログラム(ペイントソフトプログラムなど)を利用して文字画像データが作成される。作成された文字画像データは、イメージバリアブルプログラム用文字画像データとして、第1格納部10に格納される。
ここでは、イメージバリアブルプログラム用文字画像データの画像形式ファイルに、以下のようなファイル名が与えられている。「辻」のファイル名は「92D2.tif」である。「薩」のファイル名は「8E46.tif」である。
ステップS2では、第1格納部10に格納されたデータが、イメージバリアブルプログラムによって、バリアブル印刷プログラムが参照できるデータ形式(*.fpx)に変換される。変換されたデータはイメージバリアブルデータとして、第2格納部20に格納される。
ステップS3では、バリアブル印刷プログラムによって、文書ファイル内が検索され、文字列置き換え条件を示す情報に基づき、文章中の特定の文字の前又は後に位置する文字が、特定の置換条件に合致するか否かが判定される。以下では、説明の便宜上、「文字列置き換え条件」を単に「置換条件」と称する場合がある。置換条件を示す情報は第1格納部10又は第2格納部20に格納されている。置換条件の一例は、以下の通りである。
例えば第1置換条件は、「辻B子」及び「辻」の前後10文字以内に「名誉教授」が存在する場合、「名誉教授」の前後10文字以内に存在する一点しんにょうの「辻」を、イメージバリアブルデータ「92D2.tif」に置き換える、というものである。
第2置換条件は、「大菩薩峠」の前後7文字以内に「小説」が存在する場合、「小説」という文字列の前後7文字以内に存在する「薩」を、イメージバリアブルデータ「8E46.tif」に置き換える、というものである。
ステップS4では、ステップS3の判定結果に従って、文字が置き換えられる。文字が置き換えられた文章は、PDF形式で所定の記憶部に格納される。なお、文字の置換方法は、元の文字を抜き出して、文字が抜き出した部分に新しい文字を埋め込むことでもよいし、元の文字の部分に新しい文字を重ねてもよい。
なお、置換条件は、上記の例に限定されるものではない。置換条件は、特定の文字列ABC(単一文字Aであってもよい)の前後n文字以内に、別の特定文字列DEF(単一文字Dであってもよい)を検出したとき、文字列ABC (又は単一文字A)を別の文字列XYZ(又は単一文字X)に置き換える、という条件でもよい。nは1以上の自然数である。
また、置換条件は、例えば、敬称の有無、敬称の種類、称号の有無、敬称の種類に基づく条件にしてもよい。例えば「辻名誉教授」又は「辻B子名誉教授」という文字列に含まれる、一点しんにょうの「辻」は、二点しんにょうの「辻」に置き換えるが、この文字列以外の文字列、例えば「辻客員教授」又は「辻A太郎客員教授」に含まれる、一点しんにょうの「辻」は、一点しんにょうの「辻」のままにする、という条件を採用してもよい。
また、置換条件は、例えば、文章の分野別の辞書に基づく条件にしてもよい。例えば、料理関係の文章に記載される一点しんにょうの「辻」は、二点しんにょうの「辻」に置き換えるが、音楽関係の文章に記載される一点しんにょうの「辻」は、一点しんにょうの「辻」のままにする、という条件を採用してもよい。この場合、分野別の辞書データが例えば第1格納部10などに格納されており、文字置換部3は、この辞書データを参照することによって、文書中に出現する語彙の種類、語彙の使用頻度を判定する。これにより、文字置換部3は、例えば、文章に記載される「辻A太郎のお料理教室」、「辻A太郎のレシピ」などの文字列に含まれる一点しんにょうの「辻」は、二点しんにょうの「辻」に置き換える。また、文字置換部3は、別の文章に記載される「辻A太郎の音楽学校」、「辻A太郎が作曲した交響曲」などの文字列に含まれる一点しんにょうの「辻」は、一点しんにょうの「辻」のままにする。
なお、このような置換条件を応用することによって、置換される文字を逆にするようにしてもよい。例えば、料理分野の文章に記載される特定の文字列に含まれる二点しんにょうの「辻」は、一点しんにょうの「辻」に置き換え、音楽分野の文章に記載される特定の文字列に含まれる一点しんにょうの「辻」は、二点しんにょうの「辻」に置き換える、ということも可能である。
なお、ユーザの期待通りの置換結果が得られるような置換条件を最初から設定することは難しいため、このような置換条件を設定するためには、ある程度の試行錯誤を経て、文字の置き換え精度を高めていくことが必要である。以下では、置換条件を最適化する構成例について説明する。
図8は第1変形例に係る情報処理装置1の機能ブロックを示す一例の図である。図8に示される情報処理装置1は、画像データ生成部2及び文字置換部3に加えて、置換条件提案部4及び修正受付部6を備える。
図9は第1変形例に係る情報処理装置1の動作を説明するためのフローチャートである。ステップS1〜4の処理動作は、図3に示される処理動作と同様のため、説明を割愛する。
前述した第1置換条件に従って、ステップS3による置換が行われた結果、ユーザの期待通りの置換が行われない場合、ユーザの手作業によって、ユーザの期待通りの置換が行われない部分(文字)の置換、すなわち文字の修正を修正受付部6が受け付ける。(ステップS5)。
このようにして文字が修正される前の文章の内容を示す情報と、文字が修正された後の文章の内容を示す情報とは、置換条件を示す情報と対応付けて、第1格納部10又は第2格納部20に格納される。
置換条件提案部4は、第1格納部10又は第2格納部20に格納されたこれらの情報に基づき、置換条件毎に、文字が修正される前後の文章を比較して、置換条件と置換された文字との相関関係を分析する(ステップS6)。
具体的には、一点しんにょうの「辻」を二点しんにょうの「辻」に置換するための、2つの置換条件が存在していると仮定する。例えば、一方の置換条件(前述した第1置換条件)は、一点しんにょうの「辻」の前後10文字以内に「名誉教授」が存在するときには一点しんにょうの「辻」を二点しんにょうの「辻」に置き換えるという置換条件である。他方の置換条件(ユーザが気づいていない潜在的なルールである第2置換条件)は、例えば、一点しんにょうの「辻」の前後50文字以内に「ヴァイオリン」又は「バイオリン」が存在するときには一点しんにょうの「辻」を二点しんにょうの「辻」に置き換えるという置換条件である。置換条件提案部4は、これらの置換条件と、置換された文字との相関関係を分析する。
これにより、第1置換条件で置換される場合よりも、第2置換条件で置換される方が、置換の精度が高いと判定することができる。すなわち、置換の誤りが少ない置換条件(例えば第2置換条件)を判定することができる。この判定の結果、置換条件提案部4は、第1置換条件の代わりに第2置換条件を、修正が少ない置換条件としてユーザに提案する(ステップS7)。
置換条件提案部4は、置換条件の提案を以下に示すような方法でユーザに通知する(ステップS8)。置換条件提案部4は、例えば情報処理装置1に接続される表示部に置換条件の内容を示すメッセージを表示させてもよいし、情報処理装置1に接続される音声出力部から、置換条件の内容を示す音声メッセージを出力させてもよい。
図10は第2変形例に係る情報処理装置1の機能ブロックを示す一例の図である。図10に示される情報処理装置1は、画像データ生成部2及び文字置換部3に加えて、置換条件提案部41を備える。置換条件提案部41は、効率の良い文字置き換え作業を実現するために、ユーザが置換条件を考案しなくても推奨される置換条件を提案する機能である。
図11は第2変形例に係る情報処理装置1の動作を説明するためのフローチャートである。ステップS1〜4の処理動作は、図3に示される処理動作と同様のため、説明を割愛する。
例えば、文字の置換が行われる前後の文章の一定範囲(例えば先頭から5分の1の範囲)について、文字の置き換え(修正)が手作業で行われ、修正受付部6がユーザによる修正を受け付けたと仮定する(ステップS15)。
このようにして文字が修正される前の文章の内容を示す情報と、文字が修正された後の文章の内容を示す情報とが、文字が置換された範囲を示す情報と対応付けて、第1格納部10又は第2格納部20に複数格納される。
置換条件提案部41は、第1格納部10又は第2格納部20に格納されたこれらの情報を参照することで、文字が修正される前の文章の一定範囲内の文章内容と、文字が修正された後の文章の一定範囲内の文章内容とを比較する。ここで比較される一定範囲は、修正前後の文書の同じ箇所であるとする。そして、置換条件提案部41は、修正される前の文章内容と修正された文章内容との相関関係を分析する(ステップS16)。
置換条件提案部41は、分析の結果、ユーザが文字の置き換えを行った一定範囲以外の範囲について、文字の置き換えを実行する置換条件を推定して、第1格納部10又は第2格納部20に格納する。また、置換条件提案部41は、推定した置換条件を以下に示すような方法でユーザに通知する(ステップS17)。
例えば情報処理装置1に接続される表示部に推定した置換条件の内容を示すメッセージを表示させてもよいし、情報処理装置1に接続される音声出力部から、推定した置換条件の内容を示す音声メッセージを出力させてもよい。その結果、ユーザは、置換条件を考案しなくても、情報処理装置1が推定した置換条件を利用して、効率の良い文字置き換え作業を実現できる。
図12は第3変形例に係る情報処理装置1の機能ブロックを示す一例の図である。図12に示される情報処理装置1は、画像データ生成部2及び文字置換部3に加えて、誤字通知部5を備える。誤字通知部5は、元の文書中に記述されている文字を置換条件に照合した結果、元の文書中に記述されている文字に誤りがある場合、そのことをユーザに通知する機能である。
図13は第3変形例に係る情報処理装置1の動作を説明するためのフローチャートである。ステップS1〜4の処理動作は、図3に示される処理動作と同様のため、説明を割愛する。
誤字通知部5は、文字が修正される前の文章の内容を示す情報と、文字が修正された後の文章の内容を示す情報と、誤字判定条件とを用いて、元の文書中に存在する誤りを検出する(ステップS25)。
上記の例で言えば、一点しんにょうの「辻」を含む「辻名誉教授」を、二点しんにょうの「辻」を含む「辻名誉教授」に置き換える、という置換条件を元に、誤字判定条件が作成される。
ここでの誤字判定条件は、例えば、「辻XX教授」の「XX」が「名誉」と一致するか否かである。誤字通知部5は、文字が修正される前の文章の内容を確認し、「辻XX教授」という文字列の「XX」が「名誉」以外の文字である場合、「名誉」以外の文字を含む文字列、例えば「辻客員教授」に対しては、一点しんにょうが正しいと判定する。
このような判定処理を行うことにより、誤字通知部5は、「辻客員教授」の「辻」が二点しんにょうで表記されている場合、一点しんにょうが正しいと判定し、例えば「辻客員教授の辻は一点しんにょうの誤りではありませんか?」などのメッセージをユーザに通知する(ステップS26)。メッセージは、表示メッセージでもよいし音声メッセージでもよい。これにより、ユーザは、文字の置き換え前の文章中の「辻客員教授」の「辻」が、二点しんにょうで表記されている場合でも、この「辻」は二点しんにょうではなく一点しんにょうが本来正しいということを知ることができる。
なお、誤字通知部5の機能は、第2変形例及び第3変形例に係る情報処理装置1に組み合わせることも可能である。
図14は本発明の実施の形態に係る情報処理装置1を実現するためのハードウェア構成例を示す図である。情報処理装置1は、プロセッサ101と、RAM(Random Access Memory)、ROM(Read Only Memory)などで構成されるメモリ102と、ネットワークに接続するための入出力インタフェース103とにより実現することが可能である。プロセッサ101、メモリ102及び入出力インタフェース103は、バス104に接続され、バス104を介して、データ、制御情報などの受け渡しを相互に行うことが可能である。
情報処理装置1を実現する場合、情報処理装置1用のプログラムをメモリ102に格納しておき、このプログラムをプロセッサ101が実行することにより、情報処理装置1の画像データ生成部2、文字置換部3、置換条件提案部4、修正受付部6、置換条件提案部41、誤字通知部5などが実現される。情報処理装置1用のプログラムは、画像データ生成部2、文字置換部3、置換条件提案部4、置換条件提案部41、誤字通知部5などの機能を実行するプログラムである。入出力インタフェース103は、文字画像データを第1格納部10に保存するときなどに利用される。
以上に説明したように本実施の形態に係る情報処理装置1は、文章に記載される第1文字の字形と異なる字形の第2文字の画像を示す文字画像に基づき、第2文字の画像データを生成する画像データ生成部2と、文章において、第1文字の前又は後に位置する文字が特定の置換条件に合致するとき、第2文字の画像データに基づき第1文字を第2文字に置き換える文字置換部3とを備える。この構成により、特定の置換条件に合致する文字だけを、字形が異なる文字へ一括変更できる。従って、ユーザは特定の置換条件に合致する文字だけを選択する必要がなくなり、ユーザにかかる負担が大幅に軽減され、文字置換の作業時間が大幅に短縮される。
図15は本実施の形態に係る情報処理装置1を備えた情報処理システム1Aの構成例を示す図である。情報処理システム1Aは、情報処理装置1と、通信ネットワーク200と、処理装置であるサーバ300とを備える。サーバ300は、通信ネットワーク200を介して、情報処理装置1と通信可能に接続される。情報処理システム1Aによれば、例えばサーバ300に保管された文字画像データを利用して文字の置換が可能であり、情報処理装置1の汎用性を高めることができる。
また実施の形態に係る情報処理プログラムは、コンピュータに、文章に記載される第1文字の字形と異なる字形の第2文字の画像を示す文字画像に基づき、第2文字の画像データを生成させ、文章において、第1文字の前又は後に位置する文字が特定の置換条件に合致するとき、第2文字の画像データに基づき第1文字を第2文字に置き換えさせる。実施の形態に係る情報処理プログラムによれば、特定の置換条件に合致する文字だけを、字形が異なる文字へ一括変更できる。従って、ユーザは特定の置換条件に合致する文字だけを選択する必要がなくなり、ユーザにかかる負担が大幅に軽減され、文字置換の作業時間が大幅に短縮される。
図16は置換条件提案部4又は置換条件提案部41に適用される機械学習部400の一例を示す図である。機械学習とは、コンピュータに人のような学習能力を獲得させるための技術であり、コンピュータが、データ識別等の判断に必要なアルゴリズムを、事前に取り込まれる学習データから自律的に生成し、新たなデータについてこれを適用して予測を行う技術のことをいう。機械学習方法の一例を以下に説明する。
(教師あり学習)事前に与えられたサンプルとなるデータをもとにデータの識別や法則性の導出を行う手法(例:回帰分析、SVM(サポートベクターマシーン))。
(教師なし学習)サンプルとなるデータがない状態で、実データそのものを解析することで、データに存在する本質的な構造や特徴を抽出する手法(例:k平均法(K-Means)、潜在的意味インデックス(LSI)、トピックモデル手法(LDA))。
(半教師学習)少数のサンプルを用いて学習をおこない、その後ある程度の実データを分類して、その結果のうち高い確度のものをサンプルと捉えなおして再度学習をする手法。(例:ブートストラップ法、Adaboost)
(構造学習)個別にデータを推定せず、データ全体の構造に最適化した形で個々の推定をまとめて行う手法。(例:構造化SVM、条件付き確率場(CRF))。
(強化学習)サンプルが存在しないが、代わりに学習した後からフィードバック情報を得ることでさらなる学習の手がかりとする手法。(例:バンディットアルゴリズム、UCBアルゴリズム)。
(深層学習)人の脳の構造をソフトウェア的に模倣するニューラルネットという手法を多層化し、高度化を図った手法(例:制限付きボルツマン機械、Category2Vec)。図16には、例えばニューラルネットで構成された機械学習部400が示される。
上記の機械学習のための学習方法は、教師あり学習、教師なし学習、半教師学習、構造学習、強化学習、深層学習のいずれかの方法でもよく、さらに、これらの学習方法を組み合わせた学習方法でもよく、機械学習のための学習方法は問わない。
置換条件提案部4は、修正後の文章と修正前の文章とを用いて機械学習された機械学習部400である場合、分析対象の文章の分野、置換条件などを問わずに、置換の誤りが少ない置換条件を判定することが可能になる。
置換条件提案部41は、修正後の文章の一定範囲に記述された文字と、修正前の文章の内、一定範囲と同じ範囲に記述された文字とを用いて、機械学習された機械学習部400である場合、最適な置換条件を速やかに提案することができる。
1:情報処理装置
1A:情報処理システム
2:画像データ生成部
3:文字置換部
4:置換条件提案部
5:誤字通知部
6:修正受付部
10:第1格納部
20:第2格納部
41:置換条件提案部
100A:画面
100B:画面
101:プロセッサ
102:メモリ
103:入出力インタフェース
104:バス
200:通信ネットワーク
300:サーバ
400:機械学習部
特開2014−081753号公報

Claims (9)

  1. 文章に記載される第1文字の字形と異なる字形の第2文字の画像を示す文字画像に基づき、前記第2文字の画像データを生成する画像データ生成部と、
    前記文章において、前記第1文字の前又は後に位置する文字が特定の置換条件に合致するとき、前記第2文字の画像データに基づき前記第1文字を前記第2文字に置き換える文字置換部と、
    を備える情報処理装置。
  2. ユーザによる前記文字置換部で置換された第2文字を含む前記文章に対する修正を受け付ける修正受付部をさらに有する請求項1に記載の情報処理装置。
  3. 前記修正受付部がユーザによる前記文章に対する修正を受け付けた場合、当該修正後の文章と、修正前の文章とを比較することによって、前記第2文字への置換に用いられた複数の前記置換条件と、置換された前記第2文字との相関関係を分析し、置換の誤りが少ない前記置換条件を、表示メッセージ又は音声メッセージで通知する置換条件提案部を備える請求項2に記載の情報処理装置。
  4. 前記置換条件提案部は、前記修正後の文章と修正前の文章とを用いて、機械学習された機械学習部である請求項3に記載の情報処理装置。
  5. 前記修正受付部がユーザによる前記文章の一定範囲に対する修正を受け付けた場合、当該修正後の文章の前記一定範囲に記述された文字と、修正前の文章の内、前記一定範囲と同じ範囲に記述された文字とを比較することによって、修正前の前記一定範囲内の文章内容と、修正後の前記一定範囲の文章内容との相関関係を分析して、前記文章の一定範囲以外に対する前記置換条件を、表示メッセージ又は音声メッセージで通知する置換条件提案部を備える請求項2に記載の情報処理装置。
  6. 前記置換条件提案部は、当該修正後の文章の一定範囲に記述された文字と、前記第1文字が記載される文章の内、前記一定範囲と同じ範囲に記述された文字とを用いて、機械学習された機械学習部である請求項5に記載の情報処理装置。
  7. 前記第2文字へ置換される前の文章に記載の文字が誤りであることを判定する誤字判定条件に基づき、前記置換条件に合致する文字が誤字であることを検出し、検出した結果を表示メッセージ又は音声メッセージで通知する誤字通知部を備える請求項3から6の何れか一項に記載の情報処理装置。
  8. 請求項1から7の何れか一項に記載の情報処理装置と、通信ネットワークと、前記通信ネットワークを介して前記情報処理装置と通信可能に接続される処理装置とを備える情報処理システム。
  9. コンピュータに、
    文章に記載される第1文字の字形と異なる字形の第2文字の画像を示す文字画像に基づき、前記第2文字の画像データを生成させ、
    前記文章において、前記第1文字の前又は後に位置する文字が特定の置換条件に合致するとき、前記第2文字の画像データに基づき前記第1文字を前記第2文字に置き換えさせる
    情報処理プログラム。
JP2018225798A 2018-11-30 2018-11-30 情報処理装置、情報処理システム及び情報処理プログラム Pending JP2020086405A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018225798A JP2020086405A (ja) 2018-11-30 2018-11-30 情報処理装置、情報処理システム及び情報処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018225798A JP2020086405A (ja) 2018-11-30 2018-11-30 情報処理装置、情報処理システム及び情報処理プログラム

Publications (1)

Publication Number Publication Date
JP2020086405A true JP2020086405A (ja) 2020-06-04

Family

ID=70908123

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018225798A Pending JP2020086405A (ja) 2018-11-30 2018-11-30 情報処理装置、情報処理システム及び情報処理プログラム

Country Status (1)

Country Link
JP (1) JP2020086405A (ja)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04328628A (ja) * 1991-04-26 1992-11-17 Oki Electric Ind Co Ltd フォント・データ取り出し方式
US5535119A (en) * 1992-06-11 1996-07-09 Hitachi, Ltd. Character inputting method allowing input of a plurality of different types of character species, and information processing equipment adopting the same
JPH08202333A (ja) * 1995-01-25 1996-08-09 Fuji Xerox Co Ltd 文字処理装置
JPH08292753A (ja) * 1995-04-24 1996-11-05 Matsushita Electric Ind Co Ltd 連綿文字合成装置
US6954898B1 (en) * 1999-07-23 2005-10-11 International Business Machines Corporation Method of standardizing character information in electronic documents
JP2006092223A (ja) * 2004-09-24 2006-04-06 Sharp Corp 携帯通信端末及び多言語表示制御方法
JP2017174424A (ja) * 2016-03-16 2017-09-28 株式会社リコー 情報処理システム、情報処理方法及びプログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04328628A (ja) * 1991-04-26 1992-11-17 Oki Electric Ind Co Ltd フォント・データ取り出し方式
US5535119A (en) * 1992-06-11 1996-07-09 Hitachi, Ltd. Character inputting method allowing input of a plurality of different types of character species, and information processing equipment adopting the same
JPH08202333A (ja) * 1995-01-25 1996-08-09 Fuji Xerox Co Ltd 文字処理装置
JPH08292753A (ja) * 1995-04-24 1996-11-05 Matsushita Electric Ind Co Ltd 連綿文字合成装置
US6954898B1 (en) * 1999-07-23 2005-10-11 International Business Machines Corporation Method of standardizing character information in electronic documents
JP2006092223A (ja) * 2004-09-24 2006-04-06 Sharp Corp 携帯通信端末及び多言語表示制御方法
JP2017174424A (ja) * 2016-03-16 2017-09-28 株式会社リコー 情報処理システム、情報処理方法及びプログラム

Similar Documents

Publication Publication Date Title
US10783409B2 (en) Font replacement based on visual similarity
JP6596511B2 (ja) デジタルグラフィックノベルの自動翻訳
KR100860210B1 (ko) 폰트 선택 방법
JPH0776969B2 (ja) 文書処理装置
US11733785B2 (en) Stylizing text by providing alternate glyphs
TWI567569B (zh) Natural language processing systems, natural language processing methods, and natural language processing programs
US20200285324A1 (en) Character inputting device, and non-transitory computer readable recording medium storing character inputting program
JP2005292958A (ja) 教師データ作成装置およびプログラム、言語解析処理装置およびプログラム、ならびに要約処理装置およびプログラム
US7661065B2 (en) Systems and methods that facilitate improved display of electronic documents
JP2020086405A (ja) 情報処理装置、情報処理システム及び情報処理プログラム
KR102040088B1 (ko) 템플릿을 이용한 개인화 폰트 생성 방법 및 시스템
CN116562240A (zh) 文本生成方法、计算机设备及计算机存储介质
JP2017091383A (ja) 画像形成装置、画像形成方法及び画像形成プログラム
JP4770285B2 (ja) 画像処理装置及びその制御プログラム
EP4386615A1 (en) Method and system for improving immersive reading of electronic documents
KR102556563B1 (ko) 텍스트 범위에 대한 폰트 갱신 방법 및 디바이스
WO2024116381A1 (ja) 表記ゆれ指摘装置、表記ゆれ指摘方法、及びプログラム
KR20150085282A (ko) 전자 문서의 첨삭을 위한 단말의 동작 방법
US11720303B1 (en) Social media influenced personalized printing
CN116070638B (zh) 一种中文语句特征构造的训练更新方法及系统
JPH0581247A (ja) 文書整形方法
WO2024127249A1 (en) Method and system for improving immersive reading of electronic documents
Khaltarkhuu et al. Developing a traditional Mongolian script digital library
van Lit Philology: Standards for Digital Editing
JP2019061298A (ja) 情報処理装置、コンピュータプログラム及び文章表示方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210915

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220628

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220726

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220915

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20221206