JP4004060B1 - 文字検索方法 - Google Patents
文字検索方法 Download PDFInfo
- Publication number
- JP4004060B1 JP4004060B1 JP2007097568A JP2007097568A JP4004060B1 JP 4004060 B1 JP4004060 B1 JP 4004060B1 JP 2007097568 A JP2007097568 A JP 2007097568A JP 2007097568 A JP2007097568 A JP 2007097568A JP 4004060 B1 JP4004060 B1 JP 4004060B1
- Authority
- JP
- Japan
- Prior art keywords
- character
- code
- digit
- search
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 239000000470 constituent Substances 0.000 claims abstract description 13
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 description 28
- 230000006835 compression Effects 0.000 description 20
- 238000007906 compression Methods 0.000 description 20
- 238000012545 processing Methods 0.000 description 20
- 230000006870 function Effects 0.000 description 9
- 238000003780 insertion Methods 0.000 description 7
- 230000037431 insertion Effects 0.000 description 7
- 230000001174 ascending effect Effects 0.000 description 6
- 230000002354 daily effect Effects 0.000 description 6
- 230000003203 everyday effect Effects 0.000 description 6
- 240000000220 Panda oleosa Species 0.000 description 5
- 235000016496 Panda oleosa Nutrition 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000012905 input function Methods 0.000 description 3
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 2
- 244000046052 Phaseolus vulgaris Species 0.000 description 2
- 210000001072 colon Anatomy 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 241000196324 Embryophyta Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
- G06F40/129—Handling non-Latin characters, e.g. kana-to-kanji conversion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/53—Processing of non-Latin text
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
- Processing Or Creating Images (AREA)
Abstract
【解決手段】 検索文字の構成要素の間隙を、縦方向及び横方向に分割して、この分割の可否をコードに置き換えることで文字をコード化して分類し、前記分類コードを入力することにより文字の検索を可能とし、その後得られた検索文字の意味を多言語や動画等で表示することで文字理解を可能とした文字検索方法。
【選択図】図3
Description
この発明によれば、文字論理式入力手段10から入力された文字論理式に含まれる文字の部品を文字部品特定手段11において特定し、これを文字論理式に代入して部品論理式を作成する。作成した部品論理式を部品論理式演算手段12において演算し、演算結果として得られた部品の集合を検索条件として該当文字特定手段13が文字部品データベース15を参照し、該当する文字を特定するものである。
前記記憶手段30に文字データベースを記憶するに際し、文字の構成要素間に間隙がある場合は分割線が引け、間隙がない場合は分割線が引けないという判断基準に基づき、文字に対し縦方向、横方向の順で略十文字形に分割線が引けるか否かを、文字の上、下、左、右の4つの部分ごとに順に判断し、分割線が引ける場合は数字の1、引けない場合は数字の0で表し、この数字を前記上、下、左、右の順に、4桁の数字の1桁目、2桁目、3桁目、4桁目に対応するそれぞれの桁に割り当てることで文字をコード化して文字4分割コードとし、該文字4分割コードとそれに対応する文字または文字画像、多言語、動画ファイルをデータベースとして分類して記憶しておき、
前記入力手段10が、前記文字4分割コードの入力を受け付けるステップと、
前記演算手段20が、前記入力を受け付けた文字4分割コードと前記記憶手段30に記憶された文字4分割コードとを照合し、これらの文字4分割コードが合致した場合に、該文字4分割コードに対応する文字または文字画像、多言語、動画ファイルを前記表示手段40に表示するステップと、により構成され、
文字や文字の構成要素に関する知識のない者が入力した文字4分割コードから対応する文字または文字画像を検索表示することを可能とし、得られた文字または文字画像の意味を多言語や動画で理解することも可能とした文字検索方法にある。
前記記憶手段30に文字データベースを記憶するに際し、文字の構成要素間に間隙がある場合は分割線が引け、間隙がない場合は分割線が引けないという判断基準に基づき、文字に対し縦方向、横方向の順で略十文字形に分割線が引けるか否かを、文字の上、下、左、右の4つの部分ごとに順に判断し、分割線が引ける場合は数字の1、引けない場合は数字の0で表し、この数字を前記上、下、左、右の順に、4桁の数字の1桁目、2桁目、3桁目、4桁目に対応するそれぞれの桁に割り当てることで文字をコード化して文字4分割コードとし、該文字4分割コードの直後に文字発音情報をアルファベットで併記することにより前記文字4分割コード及び該文字発音情報の組み合わせに対応する文字または文字画像、多言語、動画ファイルをデータベースとして分類して記憶しておき、
前記入力手段10が、前記文字4分割コード及び該文字発音情報の組み合わせの入力を受け付けるステップと、
前記演算手段20が、前記入力を受け付けた文字4分割コード及び該文字発音情報の組み合わせと前記記憶手段30に記憶された文字4分割コード及び該文字発音情報の組み合わせとを照合し、これらの文字4分割コード及び該文字発音情報の組み合わせが合致した場合に、該文字4分割コード及び該文字発音情報の組み合わせに対応する文字または文字画像、多言語、動画ファイルを前記表示手段40に表示するステップと、により構成され、
文字や文字の発音知識を持つ者が入力した文字4分割コード及び該文字発音情報の組み合わせから対応する文字または文字画像を検索表示することを可能とし、得られた文字または文字画像の意味を多言語や動画で理解することも可能とした文字検索方法にある。
また、本発明の要旨とするところは、文字4分割コード及び文字文法意味情報の入力を受け付けるための入力手段10と、検索文字の構成要素の間隙をコード化した文字4分割コード及び該文字文法意味情報に対応する文字データベースや文字検索プログラムを記憶するための記憶手段30と、入力情報と文字データベースの照合を行うための演算手段20と、検索結果を表示するための表示手段40とを備えた検索装置における文字検索方法であって、
前記記憶手段30に文字データベースを記憶するに際し、文字の構成要素間に間隙がある場合は分割線が引け、間隙がない場合は分割線が引けないという判断基準に基づき、文字に対し縦方向、横方向の順で略十文字形に分割線が引けるか否かを、文字の上、下、左、右の4つの部分ごとに順に判断し、分割線が引ける場合は数字の1、引けない場合は数字の0で表し、この数字を前記上、下、左、右の順に、8桁の数字の1桁目、2桁目、3桁目、4桁目の順に対応するそれぞれの桁に割り当てることで文字をコード化して文字4分割コードとし、該文字の分割線と異なる箇所にさらに分割可能な構成要素間の間隙があるか否かを5桁目に数字で表し、該文字の構成要素の多寡を6桁目に数字で表すことによりコード化し、このコードに続けて名詞かそれ以外かという文法情報を7桁目に数字で表し、人間かそれ以外かという意味情報を数字で8桁目に表すことでコード化し、前記文字4分割コード及び該文字に関する該文字文法情報と意味情報のコードを組み合わせて8桁のコードとし、それに対応する文字または文字画像、多言語、動画ファイルをデータベースとして分類して記憶しておき、
前記入力手段10が、前記8桁のコードを受け付けるステップと、
前記演算手段20が、前記入力を受け付けた前記8桁のコードと前記記憶手段30に記憶された前記8桁のコードとを照合し、これらの前記8桁のコードが合致した場合に、該8桁のコードに対応する文字または文字画像、多言語、動画ファイルを前記表示手段40に表示するステップと、により構成され、
文字に関する文法や意味の知識を持つ者が入力した前記8桁のコードから対応する文字または文字画像を検索表示することを可能とし、得られた文字または文字画像の意味を多言語や動画で理解することも可能とした文字検索方法にある。
特に、漢字等の文字知識や文字処理システムを持たない欧米人などが漢字等を検索する場合にASCIIコードなどの1バイト系の文字処理装置でも本発明の文字を分割したコードを数字等で入力し、文字を検索することができる。さらに検索した文字の意味も多言語や動画で容易に理解することができる。
また、前記検索文字の発音情報を前記コードと一緒に入力して分類することにより、漢字の発音などの文字知識を持つ人には従来の発音情報のみの検索方法よりも文字検索効率を向上させることができる。
本発明は、図1の記憶手段にコードに対応する文字データベースと処理プログラムを記憶しておくだけで、図2に示すプログラムを実行し検索を行うことができ、発音情報と分類コードを仮名漢字変換ソフト(フロントエンドプロセッサー)のユーザー辞書に追加登録するだけで、文字検索効率を向上させることができる。
たとえばインターネット上に公開されている日本語の漢字辞書ホームページをダウンロードしてパソコンや携帯電話などの情報機器上で辞書検索をする場合を想定する。図4に示すような文字4分割コードと漢字を分類し表組み形式で閲覧できる漢字辞書ホームページをZIP方式などで圧縮したファイルとしてダウンロードして解凍し、パソコンの記憶手段30などに予め記憶しておく。
たとえば図1の入力手段10から1111という4分割文字コードを入力し、予め記憶手段30に記憶した図4の文字データベースを図1の演算手段20で照合した結果、図4の「語」の直前の行にカーソルキーが置かれていた場合には、「語」の左側の「1111」が強調表示されるので、引き続き検索を続けたい場合は、ホームページ閲覧ソフトやワープロソフトの検索機能の「次を検索」ボタンを押すと次の行の「競」の左側の「1111」が強調表示される。このようにして順次目的とする文字を検索することができる。
オンライン検索の場合は、図1の記憶手段30等に一時的に閲覧しているHTML形式のファイルが記憶されている状態にあるので、パソコン等の電源を切りキャッシュメモリが消去されるとダウンロード閲覧のように継続的な利用はできないが、ダウンロードをする手間がかからず、常時記憶手段30などの容量を確保する必要がないという利点がある。
S100はたとえばホームページ形式の漢字辞書などを検索するための作業の開始を表す。S200は図1の入力手段10から文字4分割コードを入力することを表す。S300は後述する文字4分割コードの書式を照合用に書式変換するか否かを判断することを表す。もし、変換する必要がある場合にはS400においてたとえばホームページに予め記述されたJAVA(登録商標)Scriptなどのスクリプトを利用するなどして書式変換処理を行った後、S500において図1の演算手段20を用いて入力した文字4分割コードとデータベースの文字4分割コードを照合処理することを表す。S300において書式の変換が必要ないと判断する場合には、入力した文字4分割コードの書式のままS500の照合処理を行う。
書式変換とは、たとえば図4の文字4分割コードは4桁の数字が全て1もしくは0で表す書式だが、これを1234と全ての桁を異なる数字で表す書式で入力した場合、1以外の数字は全て1に置換するという簡単なスクリプトをホームページ上で処理させることなどをいう。
そして、文字を分割できる場所を1、分割できない場所を0という数字で表し、上→下→左→右の順序に、1または0の組み合わせから成る4桁の数字で検索対象の文字を表し分類し、これを「文字4分割コード」または略称で「コード」と呼ぶ。また愛称として「ケーキカット法」などの名称を用いることにより、コードの適用規則を比喩により理解しやすくできる。
そして、検索や表示などの処理は必要に応じて優先度の高いコードを優先度の低いコードよりも先に適用できる。
前記コードのうち1011は、図3に示すように、上→左→右の順に分割したことを意味し、例えば「啓」という文字が相当する
前記コードのうち1101は、図3に示すように、上→下→右の順に分割したことを意味し、例えば「仁」という文字が相当する
前記コードのうち0111は、図3に示すように、下→左→右の順に分割したことを意味し、例えば「六」という文字が相当する
前記コードのうち1110は、図3に示すように、上→下→左の順に分割したことを意味し、例えば「部」という文字が相当する。
この3番目の優先度コードはケーキを2分割するように文字を分類したコードである。これらのコード間は同一優先度である。
前記コードのうち1100は、図3に示すように、上→下の順に分割したことを意味し、例えば「北」という文字が相当する。
前記コードのうち0011は、左→右の順に分割したことを意味し、例えば「豆」という文字が相当する。
この4番目の優先度コードはケーキを2分割するように文字を分類したコードである。これらのコード間は同一優先度である。
この場合、2分割のコードという条件は前記3番目の優先度コードと同様であるが、「できるだけ平等に分割する」という条件が適用できないので4番目の規則よりも3番目の規則を優先するのである。
前記コードのうち1001は、上→右の順に分割したことを意味し、例えば「犬」という文字が相当する。
前記コードのうち0101は、下→右の順に分割したことを意味し、例えば「庁」という文字が相当する。
前記コードのうち0110は、下→左の順に分割したことを意味し、例えば「寸」という文字が相当する。
前記コードのうち1010は、上→左の順に分割したことを意味し、例えば「火」という文字が相当する。
「火」は1001とも分割できるが、本発明では重複してデータベースを作成することにより、どちらのコードを入力しても目的の文字が検索できるよう冗長性を許してもよい。
従って、0000という分割不可能なコードのみを最も優先度の低いコードとして採用する。このコードに相当する文字は、例えば図3の「口」である。
1文字の文字コード書式には5種類の書式がある。
昇順の例は1234、1204などであり、降順の例は4321、4021などであり、任意順の例は2341、2401などであり、非分割の例は0000である。
「10進数非省略書式」の例を「10進数省略書式」で表すと、昇順の例は1234、124などであり、降順の例は4321、421などであり、任意順の例は2341、241などであり非分割の例は0である。
たとえば、次のような1桁の表示が可能となる。2進数の0000は16進数で0と表し、2進数の0101(10進数の5)は16進数では5と表し、2進数の1010(10進数の10)は16進数ではAと表し、2進数の1111(10進数の15)は16進数ではFと表すので、習熟すると入力が大幅に効率化できる。
たとえば図4の「北」と「山」という2文字からなる「北山」という苗字を4分割文字コードで表す場合、2進数書式では、図4の4分割コード「1100」と「0000」をつなげて「11000000」と8桁の数字で表すことができるので、もし名簿などを作成する場合は、図4の4分割コードに「11000000」を加え、その右側に「北山」という文字を併記すればよい。
しかし、数字の羅列が見分けにくいとか、数字の0をたくさん入力するのに手間がかかるなどというさまざまな理由から、文字列にも書式の規定が必要となる。
例えば1234は、区切り記号を挿入すれば1234(1文字のコード)か12−34(2文字列のコード列)かが識別できる。
例えば、「大」の16進数圧縮書式は「#0#」、連想文字圧縮書式は「Z」である。
あるいは、前記3つの構成要素が割り当てられたキーを「T」→「K」→「G」とアルファベットで置き換える。
図10の1は『現代漢語詞典』という単語辞典に掲載された「YI」という発音の単漢字リストであり、全部で109字ある。
図10の2は『新華字典』という漢字字典に掲載された「SHI」という発音の単漢字リストであり、全部で67字ある。
図10の3は日本のJISに相当する中国の国家標準(GB)コードに含まれる「LI」という発音の単漢字リストであり、全部で75字ある。
仮にフロントエンドプロセッサーが1回に表示する同音漢字変換候補数を10字とすれば、たとえば「YI」の変換操作にスペースバーを最大で11回近くたたいて探す必要があり不便であった。
従来の画数という字形情報はかなり厳密な適用を前提としていたので外国人や初学者には習得が難しかった。そこで、本発明は、前記5桁の分割コードに続く6桁目に、漢字を一見して「複雑そうか?」「シンプルか?」という直感的な印象で分類できる程度の字画情報を導入した。
たとえばHSKと呼ばれる外国人向けの中国語認定試験に含まれる常用語彙6892単語を576通りの分類で割れば、約12単語であるから、1分類で約12単語が平均の包含数となる。この程度の数であれば、例えば常用中国語で読み方の分からない単語を検索する際に、5桁コードを2回(2文字分)入力するだけで、検索候補数が12単語前後となり、ワープロの漢字変換候補数1回分と殆どかわらないという結果が得られ、実用に耐えるのである。
発音と文字4分割コードの組み合わせ書式も同様に、例えば発音と4分割コードを全角イコール(=)記号などを挿入して組み合わせ情報であることを明示し、かつ、全角の@(アット)などの記号を組み合わせ情報の先頭と末尾に挿入する。
@しょうわ=1204−1200@ 昭和 名詞 リンク
たとえば、「きしゃのきしゃはいいとおもう。」と入力した場合、いくつかの変換の可能性がある。以下に示す4つの例はいずれも文法的な誤りがない変換候補だが、ほとんどのフロントエンドプロセッサーはどれか1つの変換しかできない。
貴社の記者はいいと思う。
汽車の記者はいいと思う。
記者の喜捨はいいと思う。
貴社の汽車はいいと思う。
@0034−1200=きしゃ@の@1230−0000=きしゃ@はいいとおもう。
@1234−0000=きしゃ@の@1230−0000=きしゃ@はいいとおもう。
@1230−0000=きしゃ@の@0034−1204=きしゃ@はいいとおもう。
@0034−1200=きしゃ@の@1234−0000=きしゃ@はいいとおもう。
なお、分割コードと発音の順番は逆でもかまわない。
分野別書式を用いると、さらに精密な漢字検索が可能となる。
たとえば、小規模な専門用語辞書などに限定して検索を行う場合、先頭の@に続けて例えば「かな」で専門用語辞書名を入力し、続けてコロン(:)等を入力して検索範囲を限定する。
@みょうじ:かただ=1034−0000@と予め図4の4分割コード欄に登録し、文字欄に堅田と同じ行に登録し、ユーザー辞書登録しておけば、苗字専門用語辞書(「みょうじ」と略称)内からのみ検索変換されるので、専門辞書に登録していない次のような同音語は変換候補として表示されないので精度が向上する。
@かただ=1034−1204@ 型だ
@しょうわ”38”ねん=1204−1200−”38”−0000@
なお、発音部の引用符号は省略してもよい。
検索したい漢字の発音は知らないが、その漢字を構成する部品要素の発音(音や訓)を知っている場合、部品要素の発音をセミコロン(;)等を挿入して列記し、文字コードと組み合わせることができる。ただし、部品の読みの先頭と末尾にもセミコロン(;)等を付加する。
@;い;おに;き;=1230@
1バイト系の処理機能しかない情報機器等でフォルダ名やファイル名に4分割文字コードを利用する場合、文字コードの簡易書式を用いる。CD-Rにデータファイルを保存する場合のISO-9660規格を基準にするとファイル名は半角大文字アルファベット8字以内、拡張子は3文字以内で記号はアンダースコア( _ )が利用できるため、ファイル名の末尾にアンダースコア( _ )に続き次の略称を付ける。アンダースコアとアルファベット略称を合わせて「識別子」と呼ぶ。
2進数書式_B(Binary Numberの略称)
10進数書式_D(Decimal Numberの略称)
日常語書式_C(a Commonly used Wordの略称)
16進数書式_H(Hexadecimal Numberの略称)
連想書式_A(Association of Ideaの略称)
(全て半角)→GO1234_D.HTM
「2進数(ビット)書式」は0と1のみを使うため、例えば携帯電話の数字ボタンやパソコン数字キーやマウス左右ボタン、ゲーム機コントローラの左右ボタン、入力機能を備えたテレビリモコンなどほとんどの既存装置類の必要最小限の入力手段で入力や表示が可能である。
例えば、@41201043@→12041034のように処理する。
例えば、@412−143@→124−134→12041034のように処理する。
例えば、(16進数)DB→(2進数)11011011のように処理する。
次に説明する実施形態では、名詞とそれ以外の品詞という情報を文法情報とするが、これに限定されず、たとえば主語と述語という構文情報を文法情報として使ってもよい。
次に説明する実施形態では、人間に関するか人間以外かという情報を意味情報とするが、そのほかたとえば動物と植物とそれ以外のもののように分類方法は任意である。
20 演算手段
30 記憶手段
40 表示手段
Claims (3)
- 文字4分割コード等の入力を受け付けるための入力手段10と、検索文字の構成要素の間隙をコード化した文字4分割コードに対応する文字データベースや文字検索プログラムを記憶するための記憶手段30と、入力情報と文字データベースの照合を行うための演算手段20と、検索結果を表示するための表示手段40とを備えた検索装置における文字検索方法であって、
前記記憶手段30に文字データベースを記憶するに際し、文字の構成要素間に間隙がある場合は分割線が引け、間隙がない場合は分割線が引けないという判断基準に基づき、文字に対し縦方向、横方向の順で略十文字形に分割線が引けるか否かを、文字の上、下、左、右の4つの部分ごとに順に判断し、分割線が引ける場合は数字の1、引けない場合は数字の0で表し、この数字を前記上、下、左、右の順に、4桁の数字の1桁目、2桁目、3桁目、4桁目に対応するそれぞれの桁に割り当てることで文字をコード化して文字4分割コードとし、該文字4分割コードとそれに対応する文字または文字画像、多言語、動画ファイルをデータベースとして分類して記憶しておき、
前記入力手段10が、前記文字4分割コードの入力を受け付けるステップと、
前記演算手段20が、前記入力を受け付けた文字4分割コードと前記記憶手段30に記憶された文字4分割コードとを照合し、これらの文字4分割コードが合致した場合に、該文字4分割コードに対応する文字または文字画像、多言語、動画ファイルを前記表示手段40に表示するステップと、により構成され、
文字や文字の構成要素に関する知識のない者が入力した文字4分割コードから対応する文字または文字画像を検索表示することを可能とし、得られた文字または文字画像の意味を多言語や動画で理解することも可能とした文字検索方法。 - 文字4分割コード及び文字発音情報の入力を受け付けるための入力手段10と、検索文字の構成要素の間隙をコード化した文字4分割コード及び該文字発音情報の組み合わせに対応する文字データベースや文字検索プログラムを記憶するための記憶手段30と、入力情報と文字データベースの照合を行うための演算手段20と、検索結果を表示するための表示手段40とを備えた検索装置における文字検索方法であって、
前記記憶手段30に文字データベースを記憶するに際し、文字の構成要素間に間隙がある場合は分割線が引け、間隙がない場合は分割線が引けないという判断基準に基づき、文字に対し縦方向、横方向の順で略十文字形に分割線が引けるか否かを、文字の上、下、左、右の4つの部分ごとに順に判断し、分割線が引ける場合は数字の1、引けない場合は数字の0で表し、この数字を前記上、下、左、右の順に、4桁の数字の1桁目、2桁目、3桁目、4桁目に対応するそれぞれの桁に割り当てることで文字をコード化して文字4分割コードとし、該文字4分割コードの直後に文字発音情報をアルファベットで併記することにより前記文字4分割コード及び該文字発音情報の組み合わせに対応する文字または文字画像、多言語、動画ファイルをデータベースとして分類して記憶しておき、
前記入力手段10が、前記文字4分割コード及び該文字発音情報の組み合わせの入力を受け付けるステップと、
前記演算手段20が、前記入力を受け付けた文字4分割コード及び該文字発音情報の組み合わせと前記記憶手段30に記憶された文字4分割コード及び該文字発音情報の組み合わせとを照合し、これらの文字4分割コード及び該文字発音情報の組み合わせが合致した場合に、該文字4分割コード及び該文字発音情報の組み合わせに対応する文字または文字画像、多言語、動画ファイルを前記表示手段40に表示するステップと、により構成され、
文字や文字の発音知識を持つ者が入力した文字4分割コード及び該文字発音情報の組み合わせから対応する文字または文字画像を検索表示することを可能とし、得られた文字または文字画像の意味を多言語や動画で理解することも可能とした文字検索方法。 - 文字4分割コード及び文字文法意味情報の入力を受け付けるための入力手段10と、検索文字の構成要素の間隙をコード化した文字4分割コード及び該文字文法意味情報に対応する文字データベースや文字検索プログラムを記憶するための記憶手段30と、入力情報と文字データベースの照合を行うための演算手段20と、検索結果を表示するための表示手段40とを備えた検索装置における文字検索方法であって、
前記記憶手段30に文字データベースを記憶するに際し、文字の構成要素間に間隙がある場合は分割線が引け、間隙がない場合は分割線が引けないという判断基準に基づき、文字に対し縦方向、横方向の順で略十文字形に分割線が引けるか否かを、文字の上、下、左、右の4つの部分ごとに順に判断し、分割線が引ける場合は数字の1、引けない場合は数字の0で表し、この数字を前記上、下、左、右の順に、8桁の数字の1桁目、2桁目、3桁目、4桁目の順に対応するそれぞれの桁に割り当てることで文字をコード化して文字4分割コードとし、該文字の分割線と異なる箇所にさらに分割可能な構成要素間の間隙があるか否かを5桁目に数字で表し、該文字の構成要素の多寡を6桁目に数字で表すことによりコード化し、このコードに続けて名詞かそれ以外かという文法情報を7桁目に数字で表し、人間かそれ以外かという意味情報を数字で8桁目に表すことでコード化し、前記文字4分割コード及び該文字に関する該文字文法情報と意味情報のコードを組み合わせて8桁のコードとし、それに対応する文字または文字画像、多言語、動画ファイルをデータベースとして分類して記憶しておき、
前記入力手段10が、前記8桁のコードを受け付けるステップと、
前記演算手段20が、前記入力を受け付けた前記8桁のコードと前記記憶手段30に記憶された前記8桁のコードとを照合し、これらの前記8桁のコードが合致した場合に、該8桁のコードに対応する文字または文字画像、多言語、動画ファイルを前記表示手段40に表示するステップと、により構成され、
文字に関する文法や意味の知識を持つ者が入力した前記8桁のコードから対応する文字または文字画像を検索表示することを可能とし、得られた文字または文字画像の意味を多言語や動画で理解することも可能とした文字検索方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007097568A JP4004060B1 (ja) | 2007-03-19 | 2007-04-03 | 文字検索方法 |
PCT/JP2008/054073 WO2008114618A1 (ja) | 2007-03-19 | 2008-03-06 | 文字検索方法 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007071097 | 2007-03-19 | ||
JP2007097568A JP4004060B1 (ja) | 2007-03-19 | 2007-04-03 | 文字検索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP4004060B1 true JP4004060B1 (ja) | 2007-11-07 |
JP2008262248A JP2008262248A (ja) | 2008-10-30 |
Family
ID=38769822
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007097568A Expired - Fee Related JP4004060B1 (ja) | 2007-03-19 | 2007-04-03 | 文字検索方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP4004060B1 (ja) |
WO (1) | WO2008114618A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110390251B (zh) * | 2019-05-15 | 2022-09-30 | 上海海事大学 | 一种基于多神经网络模型融合处理的图像文字语义分割方法 |
CN110413810A (zh) * | 2019-07-31 | 2019-11-05 | 中国工商银行股份有限公司 | 生僻字处理方法及系统 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5543617A (en) * | 1978-09-22 | 1980-03-27 | Nippon Telegr & Teleph Corp <Ntt> | Retrieving system for chinese character information |
JPH05151197A (ja) * | 1991-11-14 | 1993-06-18 | Chinka Oka | コンピユータに漢字を入力する方法 |
JPH0844728A (ja) * | 1994-07-29 | 1996-02-16 | Sanyo Electric Co Ltd | 漢字構成情報の設定方法及びその装置 |
JPH08272802A (ja) * | 1995-03-31 | 1996-10-18 | Fuji Xerox Co Ltd | 文章情報処理装置 |
JPH09160912A (ja) * | 1995-12-07 | 1997-06-20 | Dainippon Printing Co Ltd | 図形文字データベース管理システムおよび個人情報記録媒体発行システム |
JPH1040245A (ja) * | 1996-07-19 | 1998-02-13 | Saitama Nippon Denki Kk | 漢字入力装置 |
JPH1083393A (ja) * | 1996-09-06 | 1998-03-31 | Dainippon Printing Co Ltd | 文字入力装置および文字入力方法 |
JP2000330976A (ja) * | 1999-05-19 | 2000-11-30 | Omron Corp | ハングル文字入力方法およびその方法を用いた文字入力装置、ならびにその方法を実施するためのプログラムが記録された記録媒体 |
-
2007
- 2007-04-03 JP JP2007097568A patent/JP4004060B1/ja not_active Expired - Fee Related
-
2008
- 2008-03-06 WO PCT/JP2008/054073 patent/WO2008114618A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2008114618A1 (ja) | 2008-09-25 |
JP2008262248A (ja) | 2008-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4037608B2 (ja) | 減少されたキーボード明瞭化システム | |
US9715333B2 (en) | Methods and systems for improved data input, compression, recognition, correction, and translation through frequency-based language analysis | |
US8276066B2 (en) | Input method for optimizing digitize operation code for the world characters information and information processing system thereof | |
US8199112B2 (en) | Character input device | |
CN102455845B (zh) | 一种文字输入方法和装置 | |
US20100309137A1 (en) | All-in-one chinese character input method | |
US8099416B2 (en) | Generalized language independent index storage system and searching method | |
WO2007121673A1 (fr) | Procédé et dispositif d'amélioration de la vitesse de saisie de caractères chinois | |
JP4004060B1 (ja) | 文字検索方法 | |
JP4487614B2 (ja) | 情報表示制御装置、及びプログラム | |
Saharia et al. | LuitPad: a fully unicode compatible Assamese writing software | |
JP3419205B2 (ja) | 情報検索装置 | |
JP2008059169A (ja) | 中国語例文検索装置および中国語例文検索処理プログラム | |
JP4922030B2 (ja) | 文字列検索装置、方法及びプログラム | |
JP2008140074A (ja) | 例文検索装置および例文検索処理プログラム | |
CN101868772A (zh) | 用于加速中文输入中的候选选择的方法 | |
KR20230037415A (ko) | 한글 문장예측 입력시스템 | |
KR20240029703A (ko) | 멀티 포인터를 활용한 문자 입력시스템 | |
JP3710157B2 (ja) | 漢字語句処理方法及び装置 | |
Elumeze et al. | Intelligent Predictive Text Input System using Japanese Language | |
WO2004107211A1 (ja) | 電子辞書 | |
JP2002117025A (ja) | かな漢字変換装置およびかな漢字変換方法 | |
KR20020092880A (ko) | 워드프로그램들의 문자입력을 보조하는 스크린 키보드의구성 및 그 사용방법 | |
Hindmarsh | Investigating the effects of corpus and configuration on assistive input methods | |
Mladenov et al. | Integrated system for Japanese word processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070820 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070820 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4004060 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100831 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100831 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130831 Year of fee payment: 6 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |