[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2001043212A - 電子文書における文字情報の正規化方法 - Google Patents

電子文書における文字情報の正規化方法

Info

Publication number
JP2001043212A
JP2001043212A JP11209094A JP20909499A JP2001043212A JP 2001043212 A JP2001043212 A JP 2001043212A JP 11209094 A JP11209094 A JP 11209094A JP 20909499 A JP20909499 A JP 20909499A JP 2001043212 A JP2001043212 A JP 2001043212A
Authority
JP
Japan
Prior art keywords
font
electronic document
character
information
comparison table
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11209094A
Other languages
English (en)
Inventor
Haruhiko Nakai
治彦 中居
Akio Kido
彰夫 木戸
Yoshihiko Enomoto
義彦 榎本
Tetsuji Oda
哲治 織田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP11209094A priority Critical patent/JP2001043212A/ja
Priority to TW089104602A priority patent/TW518480B/zh
Priority to US09/539,025 priority patent/US6954898B1/en
Priority to SG200003914A priority patent/SG92723A1/en
Priority to CNB001216074A priority patent/CN1149502C/zh
Publication of JP2001043212A publication Critical patent/JP2001043212A/ja
Priority to HK01105006A priority patent/HK1034349A1/xx
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/109Font handling; Temporal or kinetic typography

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 プラットフォームもしくは電子文書作成シス
テム毎に異なる様々なフォントを用いて作成された電子
文書を、情報の質の劣化なくして、情報の蓄積および交
換用にフォント使用の正規化を行うことができる電子文
書における文字情報の正規化方法を提供する。 【解決手段】 電子文書中で使用されているフォント
と、置換すべきターゲットフォントセット中のフォント
との比較を行うことにより、実際のフォント置換の際に
参照されるフォント対照表を自動生成するフェーズと、
自動生成されたフォント対照表を利用者に提示して、利
用者が対照表の誤りを修正するフェーズと、修正された
フォント対照表を元に、電子文書中で実際にフォントの
置換を行うフェーズと、から本発明の電子文書における
文字情報の正規化方法を構成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、電子文書中の非標
準のフォントセットを使用した文字を、対応する標準フ
ォントセット中の文字で置き換えることにより、電子文
書における文字情報の正規化を行う方法に関するもので
ある。
【0002】
【従来の技術】従来、電子文書中のフォントの使用は、
その文書の作成者に委ねられていた。また、ワープロ等
の電子文書処理装置にインストールされているフォント
は、機器毎に異なり、さらに、特定言語の基本的なもの
に限られていた。そのため、複数言語をある電子文書中
で表現したいと思う作成者や、基本フォントセットに含
まれていない文字を使用したいと思う作成者は、外字と
してその文字のフォントを定義し、電子文書中で使用し
てきた。このことは、紙の上に印字された形での文書の
交換に際しては問題に成り得なかったが、近年普及しつ
つある、インターネットを通じての電子的な文書の交換
や、電子図書館への電子文書の登録に際しては、大きな
問題となってきた。
【0003】電子文書の作成者と読者が、文字情報を正
確に受け渡すためには、両者が同じフォントセットと文
字符号を持たなければならない。しかし、プラットフォ
ーム毎に使用できるフォントセットが異なるという現状
を考えれば、情報交換に使われるフォーマット上、すな
わち、インターネットの回線上を流れるフォーマット上
や電子図書館もしくは企業内のセントラルファイル上に
格納されるデータのフォーマット上では、文字情報は標
準のフォントを用いた正規化されたものでなくてはなら
ない。
【0004】
【発明が解決しようとする課題】従来より、電子文書の
作成システム上ではフォントの置き換えは可能であった
が、その置き換えは文字符号情報をそのままの形で保存
して、フォント情報だけを他のフォントに置き換えると
いったものであった。例えば外字フォントは、通常独立
したフォントとして定義され、その中での文字のインデ
ックスは文字の定義順に決められるのが普通であった。
そのため、たとえユニコード・フォントのように世界中
の主要な文字(通常の電子文書処理システムではサポー
トされていない数千語にわたるJISの補助漢字をも含
む)の全てを含むような大きなフォントセットが使用さ
れることになっても、フォント中の文字のインデックス
(文字符号)が異なるために、フォントの置換を行うこ
とができなかった。
【0005】あえてフォントの置換を行おうとすると、
利用者は手動で電子文書中の文字符号の符号値を変えな
ければならなかった。また、それをするためには、利用
者は元の電子文書中で使用されているフォントのインデ
ックスと、置換先の対応する文字のインデックスを知ら
なければならない。電子図書館での電子文書の蓄積を考
える場合、蓄積されるべき文書の作成者は不特定多数に
のぼり、その全ての文書で使用されているフォントセッ
トと、そのフォントセット中の文字のインデックスを記
憶して、いちいち手動でフォントの正規化を行うことは
実質的に無理であった。
【0006】結果として、従来の電子文書の文字情報を
取り扱う電子図書館や社内のセントラルファイルにおい
ては、電子文書の正規化をあきらめ、作成されたままの
かたちで文書の蓄積を行うしかなかった。そのため、電
子文書の作成者と利用者のフォント環境の違いから文字
化けが生じ、電子文書の交換に不都合が生じたり、Ti
er−0等の資源の限られたシステムにおいては、他の
システムで作成された電子文書を表示および処理できな
かったりしていた。また、特開平7−319854号公
報において、効果的な外字フォントファイルの作成と配
布を目的とした外字管理システムが開示されているが、
この技術は閉じられたネットワーク環境における外字フ
ォントの管理に関するものであり、この技術をそのまま
本発明の対象となる電子文書における文字情報の正規化
に適用することはできなかった。
【0007】本発明の目的は上述した課題を解消して、
プラットフォームもしくは電子文書作成システム毎に異
なる様々なフォントを用いて作成された電子文書を、情
報の質の劣化なくして、情報の蓄積および交換用にフォ
ント使用の正規化を行うことができる電子文書における
文字情報の正規化方法を提供しようとするものである。
【0008】
【課題を解決するための手段】本発明の電子文書におけ
る文字情報の正規化方法は、電子文書中の非標準のフォ
ントセットを使用した文字を、対応する標準フォントセ
ット中の文字で置き換えることにより、電子文書におけ
る文字情報の正規化を行う方法に関する。すなわち、電
子文書中で使用されているフォントと、置換すべきター
ゲットフォントセット中のフォントとの比較を行うこと
により、実際のフォント置換の際に参照されるフォント
対照表を自動生成するフェーズと、自動生成されたフォ
ント対照表を利用者に提示して、利用者が対照表の誤り
を修正するフェーズと、修正されたフォント対照表を元
に、電子文書中で実際にフォントの置換を行うフェーズ
と、から本発明の電子文書における文字情報の正規化方
法を構成する。
【0009】本発明では、上述した構成をとることで、
外字を使用して作られた電子文書の標準フォントセット
例えばユニコード・フォントへの変換や部分的に外国語
文書が存在する電子文書の標準フォントセットへの変換
が可能となり、類似字形や外国語文書の情報交換および
蓄積が可能となる。
【0010】本発明の好適例として、フォント対照表を
自動生成するフェーズが、ソースとなる電子文書、その
電子文書中で使用されているフォントセット、正規化を
行うターゲットフォントセット、以前の変換で作製され
た対照表、字形比較の対象を限定するルールセットおよ
び漢字の部首ごとのマッピングに関するルールセットを
記述したフォント対象情報を入力とし、フォント対照表
の候補リストを出力する。また、似た文字間でのマッピ
ングについて重み付け情報を参照ファイルとして出力す
る。さらに、フォント対照表の候補リストが、ソースフ
ォント中の一文字と、それに対応する可能性があるター
ゲットフォント中の複数の文字との組を一要素とするリ
ストである。さらにまた、ターゲットフォント中の複数
の文字に対して優先順位情報を付加する。また、フォン
ト対照表が、ソースフォントセットとそのソースフォン
トセット中の文字符号の組みと、ターゲットフォントセ
ットとそのターゲットフォントセット中の文字符号の組
みとの対応関係を要素とするリストである。いずれの場
合も、フォント対照表を自動生成するフェーズを好適に
実施することができる。
【0011】また、本発明の好適例として、フォント対
照表を自動生成するフェーズにおけるフォントの比較
を、OCR(optical character reader)の技術を使用
して自動的に行う。さらに、フォント対照表の誤りを修
正するフェーズが、フォント対照表の候補リストをエン
トリー毎に表示し、利用者にその候補の中から一つを選
ばせる処理である。さらにまた、フォントの置換を行う
フェーズが、フォント対照表と、ソースの電子文書の構
造を記述したルールセットとを入力とし、ソース電子文
書で使用されているフォントおよび文字符号の正規化を
行う。また、置換すべきフォントセットがユニコード・
フォントによるフォントセットである。いずれの場合も
本発明を好適に実施することができる。
【0012】
【発明の実施の形態】図1は本発明の電子文書における
文字情報の正規化方法の概念を説明するためのフローチ
ャートである。図1に従って本発明を説明すると、ま
ず、電子文書中で使用されているフォントと、置換すべ
きフォントセット中の文字(フォント)との比較を行う
ことにより、実際のフォント置換の際に参照されるフォ
ント対照表を自動生成するフォント対照表自動生成フェ
ーズを実施し、フォント対照表の候補リストを作成す
る。次に、自動生成されたフォント対照表を利用者に提
示して、利用者が対照表の誤りを修正するフォント対照
表修正フェーズを実施し、新しいフォント対照表を作成
する。最後に、修正されたフォント対照表を元に、電子
文書中で実際にフォントの置換を行うフォント置換フェ
ーズを実施し、正規化された電子文書を得ている。
【0013】上述した本発明の電子文書における文字情
報の正規化方法を利用する可能性のある分野としては、
電子図書館、文書管理システム、PDA等のハンドヘル
ドデバイス(バベーシブコンピューティング環境)をサ
ポートする中間サーバー、WEBパブリッシング、WE
Bブラウザー等があげられる。その一例として、利用者
の作成した外字を含む電子文書をユニコード・フォント
に正規化する場合を考える。この場合は、利用者が独自
に定義した外字だけでなく通常の文字についてもユニコ
ード・フォントに正規化する必要がある。通常の文字に
ついては、予め利用者の作成した電子文書のフォント例
えばMS明朝とユニコード・フォントとの間にフォント
インデックスの対照表が存在するため、その対照表を元
に簡単に正規化を行うことができる。
【0014】外字の正規化について、本発明の電子文書
における文字情報の正規化方法を利用する。まず、各外
字に対し、上述したフォント対照表自動作成フェーズを
実施し、各外字に一致あるいは類似するユニコード・フ
ォントを求め、フォント対照表の候補リストをフォント
対照表として一旦作成する。通常、フォント対照表の候
補リストは、各外字に対し複数のユニコード・フォント
となる。次に、フォント対照表修正フェーズを実施し、
フォント対照表の候補リストを利用者に提示すること
で、利用者が対照表の誤りを修正、すなわち、候補リス
トの中から1つのフォントを選んだり、外字に対応する
ユニコード・フォントがない場合は、類似するユニコー
ド・フォントに割り付けたり、対応無しとしてユニコー
ド・フォントの外字として登録したりして、フォント対
照表の修正を行う。ユニコード・フォントは数千のJI
S補助漢字をもサポートしているため、利用者の作成し
た外字のほとんどをユニコード・フォントに対応させる
ことができる。最後に、修正されたフォント対照表を元
に、電子文書中で実際にフォントの置換を行うフォント
置換フェーズを実施し、ユニコード・フォントに正規化
された電子文書を得ることができる。
【0015】以下、各フェーズ毎に詳細な説明を行う。 (1)フォント対照表自動生成フェーズについて:本フ
ェーズは、ソースとなる電子文書、その電子文書中で使
用されているフォントセット、正規化を行うターゲット
フォントセット、以前の変換で作成された対照表、字形
比較の対象を限定するルールセットおよび漢字の部首ご
とのマッピング(「一点しんにゅう」と「二点しんにゅ
う」、草冠の真ん中が切れているものと切れていないも
の、などを同一の部首と認めるか認めないで別の文字と
するか)に関するルールセットを記述したフォント対照
指示情報を入力とし、フォント対照表の候補リストを出
力する。この発明の好適な実装においては、本フェーズ
実行において評価した似た文字間でのマッピングの重み
付け情報を参照ファイルとして出力しておき、次回の実
行の際に参照してもよい。
【0016】フォント対照表は、ソースフォントセット
とそのフォントセット中の文字符号(フォントインデッ
クス)の組と、ターゲットフォントセットとそのフォン
トセット中の対応する文字の文字符号の組との対応関係
を要素とするリストである。フォント対照指示情報は、
ソースのどのフォントセットをターゲットのどのフォン
トセットと対応ずけるか、および、ソースフォントセッ
ト中で字形比較の対照とするフォント群と、ターゲット
フォント中の比較対照となるフォント群を指示する情報
からなる。フォント対照表の候補リストは、ソースフォ
ント中の一文字と、それに対応する可能性があるターゲ
ットフォント中の複数文字との組を一要素とするリスト
である。本発明の好適な実装においては、ターゲットフ
ォント中の文字に対して優先順位情報を付加し、次のフ
ェーズでの人手によるフォント対照表の確定作業の助け
とすることもできる。
【0017】字形の比較はOCRの技術を使用して以下
の手順で行われる。 ターゲットフォントセットから比較対照となる文字群
の図形パターンを作成する。 電子文書中の1文字を抜き出し、符号値を調べる。 符号値が図形情報比較の対象となる文字のものである
なら、 A.ソースフォントセットからその文字の図形パターン
を作成する。 B.得られた図形パターンを、で得られた文字群の図
形パターンと比較し、似た図形パターンの組を対照表の
候補リストに追加する。その際、好適な実装において
は、候補リストの中での優先順位情報を追加する。 上記、の処理を繰り返す。
【0018】(2)フォント対照表修正フェーズについ
て:本フェーズは、前フェーズで得られたフォント対照
表の候補リストと、以前の本フェーズの実行の結果得ら
れたフォント対照表とを入力とし、最終的なフォント対
照表を出力する。本フェーズでは、前フェーズで得られ
たフォント対照表の候補リストをエントリーごとに表示
し、利用者にその候補の中から一つを選ばせることを主
たる処理とする。本発明の好適な実装では、利用者が選
んだ候補が、以前の処理で作成したフォント対照表のエ
ントリーと矛盾が生じた場合、もしくは、多対一、一対
多のマッピングを利用者が指示した場合、本フェーズの
処理システムはその旨を利用者にワーニングとして指摘
し、再考をうながしてもよい。また、本発明の好適な実
装では、利用者にフォント対照表の候補リストを提示す
る際、候補となる文字の属性(文字の名前、文字の意
味、文字種名、その他文字を特定するのに参考になる情
報)を表示する機能を持たせてもよい。
【0019】(3)フォント置換フェーズについて:前
フェーズの出力であるフォント対照表と、ソースの電子
文書の構造を記述したルールセットと、ターゲットの電
子文書(ソースと同形式でもよい)の構造を記述したル
ールセットとを入力とし、ソース電子文書で使用されて
いるフォントおよび文字符号の正規化を行う。この際、
ソースとターゲット間で電子文書の形式および構造が異
なった場合、このフェーズで電子文書の形式変換を同時
におこなってもよい。
【0020】以上詳細に説明した本発明の電子文書にお
ける文字情報の正規化方法は、上述した本発明の目的で
ある、プラットフォームもしくは電子文書作成システム
ごとに異なる様々なフォントを用いて作成された電子文
書を、情報の質の劣化なくして、情報の蓄積および交換
用にフォント使用の正規化を行うこと、に加えて、以下
に列記する様々な目的に使用でき様々な効果を得ること
ができる。 (1) 様々な文字符号を用いて作成された電子文書の文字
符号を、インターネット標準の多国悟文字符号であるユ
ニコードに変換することにより、インターネット標準の
文書記述言語であるXMLへの変換を容易にし、電子文
書のWEB上での公開を可能にすることができる。 (2) 様々な文字符号を用いて作成された電子文書の文字
符号を、特定の文字符号に正規化することにより、電子
図書館や企業のセントラルファイル上での情報検索の効
率を上げることができる。
【0021】(3) 正規化された文字符号、文字フォント
を用いて蓄積および交換される電子文書を、クライアン
ト環境においてクライアント環境特有の文字符号および
フォントに逆変換することにより、情報交換に用いられ
るフォントを持たない環境でも、類似の文字を使用して
その電子文書を表示することを可能にすることができ
る。 (4) 正規化された文字符号、文字フォントを用いて蓄積
および交換される電子文書を、クライアント環境におい
てクライアント環境特有の文字符号およびフォントに逆
変換することにより、クライアント環境での情報処理の
効率をあげることができる。 (5) 文字符号およびフォントの正規化に際して参照され
る対照表、もしくは、置換のための命令セットを半自動
的に行うことにより、利用者の付加を減らし、前記の文
書の正規化のための作業量を実質的な範囲まで引き下げ
ることができる。
【0022】(6) Tier−0等の資源の少ない(フォ
ントが少ない、もしくは、効率的な文書処理のために、
元の電子文書の文字符号からそのシステムの文字符号へ
の変換テーブルおよび機能を持たない)システムで、他
のシステムで作成された文書の表示および処理をさせよ
うとした場合、その電子文書のアクセスの際アクセス経
路上の中間サーバーに対して、その資源の少ないクライ
アント環境にオプティマイズした文書の正規化を依頼す
ることにより、クライアント環境で処理可能な形式に電
子文書の形式変更を行わせることができる。 (7) 従来単独でしか行えなかったフォントや文字符号の
置換を、過去において行われた別の文書の正規化を参照
しながら行うことによって、文字符号およびフォントの
対照表の自動生成の効率を上げることができる。 (8) 過去において行われた別の文書の正規化を参照しな
がら文字符号およびフォントの対照表の自動生成を行う
ことによって、過去のマッピングの経験を生かし、マッ
ピングミスの可能性を削減することができる。ここで、
マッピングミスとしては、以下の場合が考えられる。 ・ターゲットのフォントセットの中に、字形の似た文字
が複数存在した場合、間違った方のマッピングをとって
しまうこと、もしくは、マッピングにゆれが生じてしま
うこと。 ・ソースのフォントセットの中に、字形の似た文字が複
数存在した場合、その複数の文字をターゲットの一つの
文字にマップしてしまうこと。
【0023】(9) ソースとターゲットもフォントセット
の中で、自動的に字形の比較を行うフォント群を特定す
ることによって、マッピングが事前に定義できる文字
(フォント)についての比較を避け、対照表自動生成の
効率を上げることができる。 (10) ソースとターゲットもフォントセットの中で、自
動的に字形の比較を行うフォント群を特定することによ
って、マッピングが事前に定義できる文字(フォント)
についての比較を避け、利用者の意図しない対照表が生
成される(例えば、JISの第一水準の文字がJISの
第二水準の文字にマップされる)危険性を低減すること
ができる。 (11) ソースに含まれる特定のフォントを比較するター
ゲットのフォントを規定することによって、タイプフェ
ースが異なるフォントの比較によるマッピングの正確性
の低下を低減することができる。 (12) 言語とその言語によって使用されるフォントセッ
トとの関係に注目することにより、対照表自動生成時に
おいてリンギスティックなルールの導入を可能にするこ
とができる。このことにより、字形情報の比較によって
得られた変換対象文字を、前後の文字と接続して単語に
し、さらに対照表の自動生成の精度を上げることができ
る。
【0024】
【発明の効果】以上の説明から明らかなように、本発明
によれば、外字を使用して作られた電子文書の標準フォ
ントセット例えばユニコード・フォントへの変換や部分
的に外国語文書が存在する電子文書の標準フォントセッ
トへの変換が可能となり、類似字形や外国語文書の情報
交換および蓄積が可能となる。
【図面の簡単な説明】
【図1】 本発明の電子文書における文字情報の正規化
方法の概念を説明するためのフローチャートである。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 木戸 彰夫 神奈川県大和市下鶴間1623番地14 日本ア イ・ビー・エム株式会社 大和事業所内 (72)発明者 榎本 義彦 神奈川県大和市下鶴間1623番地14 日本ア イ・ビー・エム株式会社 大和事業所内 (72)発明者 織田 哲治 神奈川県大和市下鶴間1623番地14 日本ア イ・ビー・エム株式会社 大和事業所内 Fターム(参考) 5B009 RA14 TA11

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 電子文書中で使用されているフォント
    と、置換すべきターゲットフォントセット中のフォント
    との比較を行うことにより、実際のフォント置換の際に
    参照されるフォント対照表を自動生成するフェーズと、
    自動生成されたフォント対照表を利用者に提示して、利
    用者が対照表の誤りを修正するフェーズと、修正された
    フォント対照表を元に、電子文書中で実際にフォントの
    置換を行うフェーズと、からなることを特徴とする電子
    文書における文字情報の正規化方法。
  2. 【請求項2】 前記フォント対照表を自動生成するフェ
    ーズが、ソースとなる電子文書、その電子文書中で使用
    されているフォントセット、正規化を行うターゲットフ
    ォントセット、以前の変換で作製された対照表、字形比
    較の対象を限定するルールセットおよび漢字の部首ごと
    のマッピングに関するルールセットを記述したフォント
    対象情報を入力とし、フォント対照表の候補リストを出
    力する請求項1記載の電子文書における文字情報の正規
    化方法。
  3. 【請求項3】 似た文字間でのマッピングについて重み
    付け情報を参照ファイルとして出力する請求項2記載の
    電子文書における文字情報の正規化方法。
  4. 【請求項4】 前記フォント対照表の候補リストが、ソ
    ースフォント中の一文字と、それに対応する可能性があ
    るターゲットフォント中の複数の文字との組を一要素と
    するリストである請求項2記載の電子文書における文字
    情報の正規化方法。
  5. 【請求項5】 前記ターゲットフォント中の複数の文字
    に対して優先順位情報を付加する請求項4記載の電子文
    書における文字情報の正規化方法。
  6. 【請求項6】 前記フォント対照表が、ソースフォント
    セットとそのソースフォントセット中の文字符号の組み
    と、ターゲットフォントセットとそのターゲットフォン
    トセット中の文字符号の組みとの対応関係を要素とする
    リストである請求項1記載の電子文書における文字情報
    の正規化方法。
  7. 【請求項7】 前記フォント対照表を自動生成するフェ
    ーズにおけるフォントの比較を、OCR(optical char
    acter reader)の技術を使用して自動的に行う請求項1
    記載の電子文書における文字情報の正規化方法。
  8. 【請求項8】 前記フォント対照表の誤りを修正するフ
    ェーズが、フォント対照表の候補リストをエントリー毎
    に表示し、利用者にその候補の中から一つを選ばせる処
    理である請求項1記載の電子文書における文字情報の正
    規化方法。
  9. 【請求項9】 前記フォントの置換を行うフェーズが、
    フォント対照表と、ソースの電子文書の構造を記述した
    ルールセットとを入力とし、ソース電子文書で使用され
    ているフォントおよび文字符号の正規化を行う請求項1
    記載の電子文書における文字情報の正規化方法。
  10. 【請求項10】 前記置換すべきフォントセットがユニ
    コード・フォントによるフォントセットである請求項1
    記載の電子文書における文字情報の正規化方法。
JP11209094A 1999-07-23 1999-07-23 電子文書における文字情報の正規化方法 Pending JP2001043212A (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP11209094A JP2001043212A (ja) 1999-07-23 1999-07-23 電子文書における文字情報の正規化方法
TW089104602A TW518480B (en) 1999-07-23 2000-03-14 Method of standardizing character information in electronic document
US09/539,025 US6954898B1 (en) 1999-07-23 2000-03-30 Method of standardizing character information in electronic documents
SG200003914A SG92723A1 (en) 1999-07-23 2000-07-13 Method of standardizing character information in electronic documents
CNB001216074A CN1149502C (zh) 1999-07-23 2000-07-20 标准化电子文档中字符信息的方法
HK01105006A HK1034349A1 (en) 1999-07-23 2001-07-17 Method of standardizing character information in electronic documents.

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11209094A JP2001043212A (ja) 1999-07-23 1999-07-23 電子文書における文字情報の正規化方法

Publications (1)

Publication Number Publication Date
JP2001043212A true JP2001043212A (ja) 2001-02-16

Family

ID=16567197

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11209094A Pending JP2001043212A (ja) 1999-07-23 1999-07-23 電子文書における文字情報の正規化方法

Country Status (6)

Country Link
US (1) US6954898B1 (ja)
JP (1) JP2001043212A (ja)
CN (1) CN1149502C (ja)
HK (1) HK1034349A1 (ja)
SG (1) SG92723A1 (ja)
TW (1) TW518480B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014182789A (ja) * 2013-03-15 2014-09-29 Fuji Xerox Co Ltd ドキュメントを編集する装置、方法及びプログラム

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001306601A (ja) * 2000-04-27 2001-11-02 Canon Inc 文書処理装置及びその方法、及びそのプログラムを格納した記憶媒体
US7197706B1 (en) * 2000-08-30 2007-03-27 Celartem Inc. Method and system for ensuring accurate font matching in documents
US7584419B1 (en) 2002-06-28 2009-09-01 Microsoft Corporation Representing non-structured features in a well formed document
US7523394B2 (en) * 2002-06-28 2009-04-21 Microsoft Corporation Word-processing document stored in a single XML file that may be manipulated by applications that understand XML
US7562295B1 (en) 2002-06-28 2009-07-14 Microsoft Corporation Representing spelling and grammatical error state in an XML document
US7533335B1 (en) 2002-06-28 2009-05-12 Microsoft Corporation Representing fields in a markup language document
US7607081B1 (en) 2002-06-28 2009-10-20 Microsoft Corporation Storing document header and footer information in a markup language document
US7650566B1 (en) 2002-06-28 2010-01-19 Microsoft Corporation Representing list definitions and instances in a markup language document
DE10260135B4 (de) * 2002-12-20 2006-11-09 OCé PRINTING SYSTEMS GMBH Verfahren, Computerprogrammprodukt und Dokumentenausgabesystem zur Verarbeitung eines Dokumentendatenstroms
JP2005332088A (ja) * 2004-05-18 2005-12-02 Canon Inc 文書生成装置およびファイル変換システム
CN101008940B (zh) * 2006-01-27 2012-08-01 北京书生国际信息技术有限公司 自动处理字体缺失的方法与装置
US7937658B1 (en) * 2006-04-21 2011-05-03 Adobe Systems Incorporated Methods and apparatus for retrieving font data
US8055945B2 (en) 2009-02-02 2011-11-08 International Business Machines Corporation Systems, methods and computer program products for remote error resolution reporting
JP5154533B2 (ja) * 2009-11-27 2013-02-27 株式会社エヌ・ティ・ティ・ドコモ プログラム生成装置およびプログラム
CN102081594B (zh) * 2009-11-27 2014-02-05 株式会社理光 从可移植电子文档中提取字符外接矩形的设备和方法
JP5645481B2 (ja) * 2010-05-28 2014-12-24 キヤノン株式会社 装置、方法、及びプログラム
KR101450435B1 (ko) * 2013-02-28 2014-10-13 서울시스템 주식회사 폰트 파일 수정 변환 방법, 그 시스템, 및 컴퓨터로 읽을 수 있는 기록매체
CN104331391B (zh) * 2013-07-22 2018-02-02 北大方正集团有限公司 文档格式转换装置和文档格式转换方法
US9547629B2 (en) * 2013-11-29 2017-01-17 Documill Oy Efficient creation of web fonts
CN104850316B (zh) * 2015-04-29 2019-02-12 小米科技有限责任公司 电子图书字体调整方法及装置
JP2020086405A (ja) * 2018-11-30 2020-06-04 株式会社リコー 情報処理装置、情報処理システム及び情報処理プログラム
US11715317B1 (en) * 2021-12-27 2023-08-01 Konica Minolta Business Solutions U.S.A., Inc. Automatic generation of training data for hand-printed text recognition

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5167013A (en) * 1990-09-28 1992-11-24 Xerox Corporation User definable font substitutions with equivalency indicators
US5257323A (en) * 1991-05-29 1993-10-26 Canon Kabushiki Kaisha Selection agent for a symbol determination system with multiple character recognition processors
DE4305713A1 (de) * 1993-02-25 1994-09-01 Hoechst Ag Verfahren und Vorrichtung zur gleichmäßigen Verteilung einer kleinen Menge Flüssigkeit auf Schüttgütern
US5506940A (en) * 1993-03-25 1996-04-09 International Business Machines Corporation Font resolution method for a data processing system to a convert a first font definition to a second font definition
CA2125608A1 (en) * 1993-06-30 1994-12-31 George M. Moore Method and system for providing substitute computer fonts
JPH07121513A (ja) 1993-10-22 1995-05-12 Matsushita Electric Ind Co Ltd 外字処理方法および外字処理装置
JPH07141337A (ja) 1993-11-12 1995-06-02 Hitachi Ltd データ通信ネットワークシステム
JPH07271777A (ja) 1994-03-31 1995-10-20 Fujitsu Ltd 分散情報処理システムにおける文字コード管理方式
JPH07319854A (ja) 1994-05-25 1995-12-08 Hitachi Ltd 外字管理システム
US6389178B1 (en) * 1994-07-28 2002-05-14 Lucent Technologies Inc. Method of downsampling documents
JPH08230254A (ja) * 1995-02-24 1996-09-10 Brother Ind Ltd 印字装置
CA2233023A1 (en) * 1995-09-25 1997-04-03 Edward A. Taft Optimum access to electronic documents
US6038575A (en) * 1996-09-11 2000-03-14 Intel Corporation Method of sharing glyphs between computers having graphical user interfaces
JP3639713B2 (ja) 1997-03-19 2005-04-20 富士通株式会社 文字コード変換装置および記録媒体
US6360223B1 (en) * 1997-12-22 2002-03-19 Sun Microsystems, Inc. Rule-based approach to object-relational mapping strategies
US6426751B1 (en) * 1999-04-01 2002-07-30 Adobe Systems Incorporated Font feature file processing

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014182789A (ja) * 2013-03-15 2014-09-29 Fuji Xerox Co Ltd ドキュメントを編集する装置、方法及びプログラム

Also Published As

Publication number Publication date
US6954898B1 (en) 2005-10-11
CN1282071A (zh) 2001-01-31
SG92723A1 (en) 2002-11-19
TW518480B (en) 2003-01-21
CN1149502C (zh) 2004-05-12
HK1034349A1 (en) 2001-10-19

Similar Documents

Publication Publication Date Title
JP2001043212A (ja) 電子文書における文字情報の正規化方法
EP1416394B1 (en) Method for selecting a font
US8044961B2 (en) Automatic synthesis of font tables for character layout
US20020120647A1 (en) Application data error correction support
US7676741B2 (en) Structural context for fixed layout markup documents
US10095672B2 (en) Method and apparatus for synchronizing financial reporting data
JP2002507301A (ja) レイアウトサービスライブラリを用いたパラグラフのレイアウト方法
JP4502615B2 (ja) 類似文検索装置、類似文検索方法、およびプログラム
CN109857389B (zh) 模型数据生成方法、装置、计算机设备及存储介质
US6738763B1 (en) Information retrieval system having consistent search results across different operating systems and data base management systems
US20050094172A1 (en) Linking font resources in a printing system
US7356458B1 (en) Multi-language correspondence/form generator
US20130031460A1 (en) Using a common input/output format to generate a page of an electronic document
JP4797507B2 (ja) 翻訳装置、翻訳システムおよびプログラム
KR20060102614A (ko) 네트워크를 통하여 접속된 폰트 서버들을 이용한 다국어번역 및 변환된 서체 이미지 데이터 제공 방법 및 시스템
JPH10283368A (ja) 情報処理装置及びその方法
JP2003132078A (ja) データベース構築装置、データベース構築方法、データベース構築プログラム、記録媒体
JP6379676B2 (ja) 出力プログラム、出力装置、および出力方法
JP2003162533A (ja) スキーマ統合変換システム、スキーマ統合変換方法およびスキーマ統合変換用プログラム
JP4294386B2 (ja) 異表記正規化処理装置、異表記正規化処理プログラムおよび記憶媒体
JP4147763B2 (ja) データベース構築装置、データベース構築方法、データベース構築プログラム、記録媒体
Greulich Indexing with Excel, Part 5. Conversions 3
JP4192457B2 (ja) データベース構築装置、データベース構築方法、データベース構築プログラム、記録媒体
JP2002207723A (ja) 拡張文字の処理方法
JP2011175343A (ja) データ処理装置、データ処理方法、及びデータ処理プログラム

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040803