以下、添付図面と参照しながら、本出願の例示的な実施例について説明したが、理解を容易にするために、本出願の実施例の様々な詳細が含まれており、それらは例示的なものにすぎないと考えるべきである。したがって、当業者であれば、本出願の範囲及び精神から逸脱することなく、本明細書で説明された実施例に対して種々な変更と修正を行うことができることを認識されたい。同様に、明確かつ簡単明瞭にするために、以下の説明では、公知の機能と構造についての説明を省略する。
上述したように、ドキュメント又は画像内の構造化情報(構造化データとも呼ばれる。)に対する認識と抽出は、大量の紙ドキュメントの情報構造化を実現するための重要な技術の1つである。しかし、従来の構造化情報の認識・抽出方法には、様々な欠陥と不足があるため、構造化情報の認識・抽出性能が悪くなる。例えば、テンプレートに基づく構造化情報抽出方法は、テンプレートマッチング方式を用いてドキュメント内の構造化情報を抽出する。一部の固定体裁のドキュメントにとって、キー値(key-value)ペアの分布パタンは比較的固定的である。したがって、このようなテンプレートマッチング方法は、定義されたテンプレート上で良好な機能を果たすことができるが、それは、予め定義された体裁を有するドキュメントしか処理できず、他の体裁のドキュメントに直接拡張することができないため、汎化性に乏しい。また、テンプレートマッチング方法には、さらに、キー値データのタグ付けコストが高いという問題がある。
一方、通常のドキュメント構造化システムは、ターゲットの検出と分割に基づく方法によりドキュメントの解析を行うものが多い。このため、典型的なタグ付け情報には、文字検出枠、文字コンテンツ、キー値(KV)のマッチング関係が含まれる可能性があり、そのため、タグ付けコストがとても高くて汎化性に乏しい。機械学習の発展に伴い、ドキュメント情報の構造化は、単語の複数分類という問題になってきた。つまり、抽出する必要のある一部のタグを与え、ドキュメントにおける全ての単語を分類し、各々の単語があるタグに属するか否かを判断する。同様に、このような機械学習に基づく単語分類方法のタグ付けコストも高く、これは、各々の単語に対して複数分類とタグ付けを行う必要があるからである。また、当該方法に用いられるシンプルな分類器は、単語の意味情報を理解することができない恐れがあるので、トレーニングで利用されていない単語に対する汎化性に乏しい。
また、深層学習に基づく構造化情報抽出方法は、エンドツーエンドのネットワークモデルフレームワーク、即ち、画像と文字の埋め込み結果を一緒に畳み込みニューラルネットワーク又はグラフネットワークに送り込んでエンドツーエンドのトレーニングを行うことを採用するのが多い。しかし、このような深層学習に基づくエンドツーエンドフレームワークのデータのタグ付けコストも非常に高く、文字の位置、テキスト情報だけでなく、キーと値の関係にもタグ付けする必要がある。また、深層学習に基づくアルゴリズムは、いずれもデータ駆動型であるため、データの取得が難しいことにより、深層学習に基づくモデルの汎化能力を高めることが難しくなる。
従来の方案における上記問題及び他の潜在的な問題に鑑み、本開示の実施例は、画像から構造化情報を段階的に抽出する技術案を提案する。本開示の技術案において、コンピューティング機器は、まず、画像内の複数のテキストアイテムを認識することができる。続いて、コンピューティング機器は、認識された複数のテキストアイテムを第1の集合と第2の集合に分割することができ、ここで、第1の集合は、名称テキストアイテム(例えば、キー値ペアのうちのキー)を含み、第2の集合は、コンテンツテキストアイテム(例えば、キー値ペアのうちの値)を含む。次に、コンピューティング機器は、第1の集合と第2の集合とのマッチングを実行して、名称テキストアイテムにマッチングするコンテンツテキストアイテムを決定することができる。その後、コンピューティング機器は、マッチングする名称テキストアイテム及びコンテンツテキストアイテムを出力することにより、画像内の構造化情報の抽出を実現することができる。
これから分かるように、従来の方案とは異なり、本開示の技術案によって提案される構造化情報抽出プロセスは、複数の段階に分けられることができるため、抽出プロセス全体が固定テンプレートに依存せず、過剰なデータにタグ付けする必要もなく、それにより、汎化可能性を向上させるとともに、データのタグ付けコストを削減した。また、各々の段階を単独で最適化することができ、かつ、各段階を最適化するためのデータは、エンドツーエンドモデルに用いられるデータよりも取得しやすいため、抽出プロセス全体の性能を向上させることがより容易になる。
一方、段階的な構造化情報抽出プロセスに対応して、本開示の技術案によって提案される構造化情報抽出システムは、複数のモジュールに分解されることができ、それにより、各モジュールを別々にトレーニングすることができるため、トレーニング用データの取得の難しさが低下した。例えば、各モジュールは、まず、汎用のデータを用いてトレーニングしてから、インクリメンタル学習に基づいて、少量の本開示の適用シーンについてのデータを用いてモジュールの微調整を行うことができるため、各モジュールをトレーニングするためのデータをより容易に取得し、さらに、トレーニング後の各モジュールの正確率を向上させることができる。要するに、本開示の実施例は、画像内の構造化情報を抽出するための方法又はシステムの性能を向上させることができる。
図1は、本開示の一部の実施例をその中で実施できる例示環境100を示す模式図である。図1に示すように、例示環境100は、画像110と、コンピューティング機器120とを含み得る。一部の実施例において、画像110は、紙ドキュメント又はファイルの写真又は電子データ(スキャン)などの、テキスト情報を提示又は記録したいずれの画像であってもよい。他の実施例において、画像110は、紙ドキュメントと関係のない、電子形式で生成されて使用されるテキスト情報付きのいずれの画像であってもよい。より一般的に、画像110は、情報がテキスト形式で記載されたいずれのドキュメント又はファイルであってもよい。図1の例示において、画像110は、テキストアイテム115-1~115-18を含んでもよく、即ち、画像110には、情報がテキストアイテム115-1~115-18の形式で提示又は記録されている。本明細書で使用されるように、テキストアイテムとは、情報を記録する意味で個別に考慮することが可能なテキスト単位を言う。つまり、単一のテキストアイテムは、理解可能な情報を独立で表現するか、又は示すことができる。例えば、テキストアイテムは、情報をキャリアするための単一の文字、単語、フレーズ、語句や段落などであり得る。本開示の文脈において、説明の便宜上、テキストアイテムは、文字行、文字セグメント、フィールドなどと呼ばれる場合もあり、これらの用語は、本明細書では交換して使用できる。
なお、図1に描いたテキストアイテム115-1~115-18を囲んだ点線枠は、単に模式的なものにすぎず、テキストアイテム115-1~115-18の画像110内の概略位置及び範囲を示すためのものであり、これらの点線枠が画像110に実際に存在するわけではない。また、図1に描いた画像110の特定の大きさ及び形状、画像110内のテキストアイテム115-1~115-18の特定の数、特定の大きさ、特定の延伸方向、特定の位置及び特定の配置は、単に例示的なものにすぎず、いずれの方式で本開示の範囲を制限することを意図しない。他の実施例において、画像110は、任意の適宜な大きさ及び形状を有してもよく、画像110は、任意の適宜な数のテキストアイテムを有してもよく、テキストアイテムは、任意の適宜な大きさ、任意の適宜な延伸方向、任意の適宜な位置及び任意の適宜な配置などを有してもよい。また、本開示の文脈において、中国語を例示としてテキストアイテム115-1~115-18のコンテンツを説明したが、中国語のコンテンツは、単に例示的なものにすぎず、いずれの方式で本開示の範囲を制限することを意図しない。本開示の実施例は、いずれの言語の文字又は記号にも同じく適用される。
画像110内のテキストアイテム115-1~115-18の理解をより容易にするため、ここでは、画像110が「餐飲服務許可証(ケータリングサービスライセンス)」の写真であるという具体的な一例示について説明する。当該具体的な例示において、テキストアイテム115-1は「餐飲服務許可証」、テキストアイテム115-2は「粤餐証字xxxx号」、テキストアイテム115-3は「会社名」、テキストアイテム115-4は「XX餐飲管理有限会社」、テキストアイテム115-5は「法定代表者(担当者)」、テキストアイテム115-6は「張三(法定代表者)」、テキストアイテム115-7は「住所」、テキストアイテム115-8は「XX省XX市XX路XX号」、テキストアイテム115-9は「カテゴリ」、テキストアイテム115-10は「ファーストフード店」、テキストアイテム115-11は「備考」、テキストアイテム115-12は「ファーストフードの製販(全部、半製品を用いて加工する。含まれていないもの:和え物、生のシーフード、飾られたケーキ)」、テキストアイテム115-13は「有効期間」、テキストアイテム115-14は「XX年XX月XX日~XX年XX月XX日」、テキストアイテム115-15は「有効期間満了後10日以内に認証発行部門に更新を書面申請してください」、テキストアイテム115-16は「認証発行機関」、テキストアイテム115-17は「XX市場監督管理局XX支部」、かつ、テキストアイテム115-18は「XX年XX月XX日」であってもよい。なお、ここに列挙されたテキストアイテム115-1~115-18の具体的な文字情報は、模式的なものにすぎず、いずれの方式で本開示の範囲を制限することを意図するものではない。本開示の実施例は、任意の文字情報を記載するためのテキストアイテムに適用されることができる。
示したように、画像110のテキストアイテム115-1~115-18を使用して記載した情報に対して構造化認識と抽出を行うために、画像110をコンピューティング機器120に入力してもよい。コンピューティング機器120は、まず、画像110に記録されているテキストアイテム115-1~115-18を認識することができる。次に、コンピューティング機器120は、テキストアイテム115-1~115-18を名称テキストアイテムの第1の集合117及びコンテンツテキストアイテムの第2の集合119に分類することができる。つまり、第1の集合117は、名称テキストアイテムからなるテキストアイテム集合であり、第2の集合119は、コンテンツテキストアイテムからなる集合である。本明細書で使用されるように、名称テキストアイテムとは、情報の名称又は名目を表すテキストアイテムを意味し、即ち、名称テキストアイテムは、ある情報の名称又は総称と見なすことができる。一部の実施例において、名称テキストアイテムは、キー値ペアの意味でのキー(key)に対応することができる。他の実施例において、名称テキストアイテムの意味は、コンピューティング機器120のユーザ又は管理者によって定義又は設定されてもよく、続いて、ユーザ又は管理者は、カスタマイズされた意味にしたがって名称テキストアイテムの第1の集合117を決定するように、コンピューティング機器120を構成することができる。
一方、本明細書で使用されるように、コンテンツテキストアイテムは、情報のコンテンツ又はエンティティを表すテキストアイテムを指すものであってもよく、つまり、コンテンツテキストアイテムは、ある情報のコンテンツ又は中身であると考えられてもよい。一部の実施例において、コンテンツテキストアイテムは、キー値ペアの意味での値(value)に対応することができる。他の実施例において、コンテンツテキストアイテムの意味は、コンピューティング機器120のユーザ又は管理者によって定義又は設定されてもよく、続いて、ユーザ又は管理者は、カスタマイズされた意味によってコンテンツテキストアイテムの第2の集合119を決定するように、コンピューティング機器120を構成することができる。より一般的に、本開示の実施例における「名称テキストアイテム」は、情報の名称を示すことに限らず、情報を表す意味で他の「コンテンツテキストアイテム」とペアになり得るテキストアイテムを指し得る。同様に、「コンテンツテキストアイテム」は、情報のコンテンツを示すことに限らず、情報を表現する意味で他の「名称テキストアイテム」とペアになり得るテキストアイテムを指し得る。
例えば、画像110が「餐飲服務許可証」の写真である上述の具体的な例示について、コンピューティング機器120は、テキストアイテム115-1、115-3、115-5、115-7、115-9、115-11、115-13及び115-16が名称テキストアイテムであると決定することができるため、第1の集合117は、これらの名称テキストアイテムを含み得る。また、コンピューティング機器120は、テキストアイテム115-2、115-4、115-6、115-8、115-10、115-12、115-14、115-15、115-17及び115-18がコンテンツテキストアイテムであると決定することができるため、第2の集合119は、これらのコンテンツテキストアイテムを含み得る。
テキストアイテム115-1~115-18を第1の集合117及び第2の集合119に分類した後、コンピューティング機器120は、第1の集合117と第2の集合119とのマッチング125を実行することにより、マッチングする名称テキストアイテム及びコンテンツテキストアイテム130を決定することができる。続いて、コンピューティング機器120は、マッチングする名称テキストアイテム及びコンテンツテキストアイテム130を出力することにより、画像110の構造化情報に対する認識と抽出を実現することができる。例えば、一部の実施例において、コンピューティング機器120は、第1の集合117及び第2の集合119内の全てのマッチングする名称テキストアイテム及びコンテンツテキストアイテムを決定して出力することができる。無論、他の実施例において、例えばコンピューティング機器120は、ユーザ又は管理者の設定に応じて、又は、特定の適用シーンにおいて、画像110内の全てのマッチングする名称テキストアイテムとコンテンツテキストアイテムの部分集合を認識して出力することもでき、例えば、マッチングする名称テキストアイテム及びコンテンツテキストアイテムを1ペア又は所定数のペアだけ出力する。
したがって、本開示の実施例におけるコンピューティング機器120は、体裁を汎化することが可能な構造化情報のスマート認識・抽出システムと見なされ得る。コンピューティング機器120は、入力されたいずれか1つの画像(例えば、画像110)に対して、画像処理又は情報処理を段階的に行った後、画像110内の全てのペアになった名称テキストアイテムとコンテンツテキストアイテム、又はその部分集合を出力することができる。無論、画像110に構造化情報が記録されていない場合、コンピューティング機器120は、マッチングする名称テキストアイテム及びコンテンツテキストアイテムが画像110に存在しないと決定することができ、かつ、出力操作を実行しないか、又はマッチングする名称テキストアイテム及びコンテンツテキストアイテムが存在しないことを表すための指示を出力する。さらに、コンピューティング機器120は、画像110に対してスマート処理を行って、自然言語に関する処理結果を出力するため、コンピューティング機器120によってコンピュータビジョンと自然言語処理などの人工知能技術が実現されると考えることもできる。
一部の実施例において、コンピューティング機器120は、コンピューティング機能及び/又は制御機能を実現可能な任意の機器を含んでもよく、それは、いずれのタイプの固定コンピューティング機器、モバイルコンピューティング機器又はポータブルコンピューティング機器であってもよく、専用コンピュータ、汎用コンピュータ、デスクトップコンピュータ、ラップトップコンピュータ、ノートパソコン、ネットブックコンピュータ、タブレットコンピュータ、マルチメディアコンピュータ、携帯電話、汎用プロセッサ、マイクロプロセッサ、マイクロコントローラ、又はステートマシンを含むが、これらに限定されない。コンピューティング機器120は、個別のコンピューティング機器、又はコンピューティング機器の組み合わせ、例えば、デジタルシグナルプロセッサ(DSP)とマイクロプロセッサの組み合わせ、複数のマイクロプロセッサ、1つ以上のマイクロプロセッサとDSPコアとの組み合わせ、又はいずれの他のこのような構成として実施され得る。
さらに、図1は、本開示の実施例に関連するオブジェクト、ユニット、要素又はコンポーネントを模式的に示すのにすぎないことを理解されたい。実践において、例示環境100は、他のオブジェクト、ユニット、要素やコンポーネントなどをさらに含み得る。また、図1に示すオブジェクト、ユニット、要素又はコンポーネントの特定の数は、模式的なものにすぎず、いずれの方式で本開示の範囲を制限することを意図しない。他の実施例において、例示環境100は、オブジェクト、ユニット、要素やコンポーネントなどを任意の適宜な数含むことができる。したがって、本開示の実施例は、図1で描かれた具体的なシーンに限らず、構造化情報を認識・抽出するためのいずれの技術環境にも一般的に適用される。以下、図2を参照しながら、本開示の実施例の構造化情報を認識・抽出するための例示プロセスについて説明する。
図2は、本開示の実施例による情報処理方法の例示プロセス200を示すフローチャートである。一部の実施例において、例示プロセス200は、例示環境100におけるコンピューティング機器120によって実施されてよく、例えばコンピューティング機器120のプロセッサ又は処理ユニットによって実施されるか、又はコンピューティング機器120の様々な機能モジュールによって実施されてもよい。他の実施例において、例示プロセス200は、例示環境100から独立したコンピューティング機器によって実施されてもよく、又は、例示環境100における他のユニット又はモジュールによって実現されてもよい。説明の便宜上、図1を参照して例示プロセス200を説明する。
枠210において、コンピューティング機器120は、画像110内の複数のテキストアイテム115-1~115-18を認識することができる。言い換えれば、コンピューティング機器120は、画像110にテキストアイテム115-1~115-18があることを検出することができるだけでなく、テキストアイテム115-1~115-18内の各テキストアイテムがどのような文字又は記号からなっているかを識別することもできる。なお、コンピューティング機器120は、様々な異なる方式を用いて画像110内のテキストアイテム115-1~115-18を認識することができる。例えば、コンピューティング機器120は、光学式文字認識(OCR)技術を使用して画像110内のテキストアイテム115-1~115-18を認識することができる。また、例えば、コンピューティング機器120は、トレーニングされたエンドツーエンドの、畳み込みニューラルネットワークに基づく文字認識モデルを使用して、画像110内のテキストアイテム115-1~115-18を認識することができる。他の実施例において、コンピューティング機器120は、まず、テキストアイテム115-1~115-18の画像110において対応するテキストアイテム領域を検出し、続いて、これらのテキストアイテム領域からテキストアイテム115-1~115-18をそれぞれ認識することができる。以下、図3から図6を参照しながら、このような実施例について説明する。
枠220において、コンピューティング機器120は、テキストアイテム115-1~115-18の意味に基づいて、テキストアイテム115-1~115-18を名称テキストアイテムの第1の集合117とコンテンツテキストアイテムの第2の集合119に分割することができる。なお、コンピューティング機器120は、いずれの適宜な方式を使用してテキストアイテム115-1~115-18の意味に基づいて第1の集合117と第2の集合119に分割することができることは分かるべきである。1つの例示的な方式として、コンピューティング機器120は、あるテキストアイテムのキーワードを認識することにより、当該テキストアイテムの意味を決定してから、当該テキストアイテムの意味に基づいて、当該テキストアイテムが名称テキストアイテムに属するか、又はコンテンツテキストアイテムに属するかを決定することができる。例えば、画像110が「餐飲服務許可証」の写真であるという具体的な例示において、コンピューティング機器120は、テキストアイテム115-3の「会社名」に「会社」及び/又は「名称」というキーワードが含まれていることを認識することができ、それにより、当該テキストアイテムの意味とはエンティティタイプである「会社」又はエンティティ名称を指し、情報の名目に属し、さらに、テキストアイテム115-3が名称テキストアイテムであると決定する。また、例えば、コンピューティング機器120は、テキストアイテム115-4の「XX餐飲管理有限会社」に「会社」というキーワードが含まれていることを認識することができ、それにより、当該テキストアイテムの意味は、ある会社の具体的な名称であり、情報のコンテンツに属し、さらに、テキストアイテム115-4がコンテンツテキストアイテムであると決定する。
別の例示的な方式として、コンピューティング機器120は、名称テキストアイテムのリスト及びコンテンツテキストアイテムのリストを記憶したり又はそれにアクセスしたりすることができ、この2つのリストは、テキストアイテムの意味によって予め決定されて記録されたものであってもよい。この場合、コンピューティング機器120は、テキストアイテム115-1~115-18における各テキストアイテムについて、テキストアイテムをこの2つのリストに照会することができ、さらに、テキストアイテムが名称テキストアイテムであるか、又はコンテンツテキストアイテムであるかを決定することができる。例えば、画像110が「餐飲服務許可証」の写真であるという具体的な例示において、コンピューティング機器120が名称テキストアイテムのリストからテキストアイテム115-1を照会した場合、コンピューティング機器120は、テキストアイテム115-1が名称テキストアイテムであると決定することができる。また、例えば、コンピューティング機器120がコンテンツテキストアイテムのリストからテキストアイテム115-2を照会した場合、コンピューティング機器120は、テキストアイテム115-2がコンテンツテキストアイテムであると決定することができる。コンピューティング機器120は、2つのリストの両方からも照会されなかったテキストアイテムに対して、テキストアイテムの意味に応じてそれが名称テキストアイテムであるか、又はコンテンツテキストアイテムであるかを決定してから、それを対応するリストに追加することができる。
他の実施例において、コンピューティング機器120は、トレーニングされた、機械学習に基づく意味分類モデルを使用して、名称テキストアイテムの第1の集合117及びコンテンツテキストアイテムの第2の集合119を決定することができる。例えば、コンピューティング機器120に、トレーニングされた意味分類モデルを実施することができ、かつ、テキストアイテム115-1~115-18をそれぞれ意味分類モデルに入力することができ、それにより、意味分類モデルは、各テキストアイテムが名称テキストアイテムであるか、又はコンテンツテキストアイテムであるかを判断して、対応する分類結果を出力することができる。以下、図7から図10を参照しながら、このような実施例について説明する。
枠230において、コンピューティング機器120は、テキストアイテム115-1~115-18の画像110の配置に基づいて、第1の集合117の名称テキストアイテムにマッチングする第2の集合119のコンテンツテキストアイテムを決定するために、第1の集合117と第2の集合119とのマッチングを実行することができる。本明細書で使用されるように、名称テキストアイテムとコンテンツテキストアイテムとの「マッチング」とは、名称テキストアイテム及びコンテンツテキストアイテムを関連付けて提供し、かつ、より完全な情報を共同で提供することができるということを言う。例えば、名称テキストアイテムがキー値ペアのうちのキーである場合、それにマッチングするコンテンツテキストアイテムは、キー値ペアのうちの値であってもよい。より一般的に、本明細書で使用されるように、マッチングする名称テキストアイテム及びコンテンツテキストアイテムは、それらが共同で提供され又は表示されるように、いずれの形式で関連付けられたか又は互いに対応する名称テキストアイテム及びコンテンツテキストアイテムを指し得る。
したがって、画像110が「餐飲服務許可証」の写真であるといいう具体的な例示において、名称テキストアイテム115-3とコンテンツテキストアイテム115-4とがマッチングすると考えることができ、名称テキストアイテム115-5とコンテンツテキストアイテム115-6とがマッチングすると考えることができ、名称テキストアイテム115-7とコンテンツテキストアイテム115-8とがマッチングすると考えることができ、名称テキストアイテム115-9とコンテンツテキストアイテム115-10とがマッチングすると考えることができ、名称テキストアイテム115-11とコンテンツテキストアイテム115-12とがマッチングすると考えることができ、名称テキストアイテム115-13とコンテンツテキストアイテム115-14とがマッチングすると考えることができ、かつ、名称テキストアイテム115-16とコンテンツテキストアイテム115-17とがマッチングすると考えることができる。しかし、本開示の実施例において、コンピューティング機器120は、名称テキストアイテムとコンテンツテキストアイテムとの間の意味関係に基づいて、両方間のマッチング関係を決定することではないことを指摘すべきである。その代りに、コンピューティング機器120は、名称テキストアイテム及びコンテンツテキストアイテムの画像110における配置、即ち、各テキストアイテムの位置、全体的な配列、及びテキストアイテム間の位置関係などに基づいて、名称テキストアイテムとコンテンツテキストアイテムとの間のマッチング関係を決定する。
具体的に、コンピューティング機器120は、様々な異なる方式で、画像における各テキストアイテムの配置に応じて、名称テキストアイテムとコンテンツテキストアイテムとのマッチングを実行することができる。例えば、画像110において、ある名称テキストアイテムにマッチングするコンテンツテキストアイテムは、一般的に、当該名称テキストアイテムに最も近いコンテンツテキストアイテムである。したがって、一部の実施例において、第1の集合117における各々の名称テキストアイテムについて、コンピューティング機器120は、当該名称テキストアイテムに最も近いコンテンツテキストアイテムを、当該名称テキストアイテムにマッチングするコンテンツテキストアイテムとして決定することができる。無論、同様な方式で、コンピューティング機器120は、第2の集合119における各々のコンテンツテキストアイテムについても、当該コンテンツテキストアイテムに最も近い名称テキストアイテムを、当該コンテンツテキストアイテムにマッチングする名称テキストアイテムとして決定することができる。
追加的に又は代替的に、画像110において、ある名称テキストアイテムにマッチングするコンテンツテキストアイテムは、通常、当該名称テキストアイテムと同じ水平方向におけるコンテンツテキストアイテムである。したがって、一部の実施例において、コンピューティング機器120は、第1の集合117における各々の名称テキストアイテムについて、当該名称テキストアイテムと同じ水平方向におけるコンテンツテキストアイテムを、当該名称テキストアイテムにマッチングするコンテンツテキストアイテムとして決定することができる。無論、同様な方式で、コンピューティング機器120は、第2の集合119における各々のコンテンツテキストアイテムについても、当該コンテンツテキストアイテムと同じ水平方向における名称テキストアイテムを、当該コンテンツテキストアイテムにマッチングする名称テキストアイテムとして決定することができる。なお、他の実施例において、画像110における情報配列方式は、左右配列ではなく、即ち、マッチングする名称テキストアイテム及びコンテンツテキストアイテムの画像110における位置は左右配列の関係ではなく、例えば、上下配列の関係などである可能性もある。この場合、マッチングする名称テキストアイテムとコンテンツテキストアイテムとの位置関係は、同じ水平方向にあるとは限らず、画像110の情報配列方式に基づいて具体的に決定されてもよい。
他の実施例において、マッチングする名称テキストアイテム及びコンテンツテキストアイテムを決定するコンピューティング機器120の正確率を向上させるために、コンピューティング機器120は、名称テキストアイテムとコンテンツテキストアイテムとのマッチング条件を予め設定することができる。一部の実施例において、コンピューティング機器120が、マッチングしない名称テキストアイテム及びコンテンツテキストアイテムを、マッチングすると決定する可能性を低減するために、マッチング条件を、経験、画像110における情報配列方式、及び/又はマッチングする名称テキストアイテムとコンテンツテキストアイテムの位置関係に基づいて決定することができる。したがって、2つの名称テキストアイテム及びコンテンツテキストアイテムが所定のマッチング条件に合致しない場合、コンピューティング機器120は、この2つのテキストアイテムがマッチングしないと決定することができ、それにより、名称テキストアイテムとコンテンツテキストアイテムとを誤マッチングすることを回避する。以下、図11から図15を参照しながら、このような実施例について説明する。
枠240において、コンピューティング機器120は、マッチングする名称テキストアイテム及びコンテンツテキストアイテムを出力することができる。例えば、コンピューティング機器120は、マッチングする名称テキストアイテム及びコンテンツテキストアイテムをペアにして出力することができ、それにより名称テキストアイテムとコンテンツテキストアイテムとのマッチング関係を表すことができる。一部の実施例において、コンピューティング機器120は、テキストの形式を用いてマッチングする名称テキストアイテム及びコンテンツテキストアイテムを出力することができる。例えば、画像110が「餐飲服務許可証」の写真であるという具体的な例示において、コンピューティング機器120は、下記の書式にしたがってマッチングする名称テキストアイテム及びコンテンツテキストアイテムをペアにして出力することができる。名称テキストアイテム115-3:コンテンツテキストアイテム115-4、即ち、会社名:XX餐飲管理有限会社、名称テキストアイテム115-5:コンテンツテキストアイテム115-6、即ち、法定代表者(担当者):張三(法定代表者)、・・・、名称テキストアイテム115-16:コンテンツテキストアイテム115-17、即ち、認証発行機関:XX市場監督管理局XX支部などである。選択的に、マッチングする名称テキストアイテムとコンテンツテキストアイテムの出力形式は、{名称テキストアイテム115-3、コンテンツテキストアイテム115-4}、即ち{会社名、XX餐飲管理有限会社}、{名称テキストアイテム115-5、コンテンツテキストアイテム115-6}、即ち{法定代表者(担当者)、張三(法定代表者)}、・・・、{名称テキストアイテム115-16、コンテンツテキストアイテム115-17}、即ち{認証発行機関、XX市場監督管理局XX支部}など出会ってもよい。他の実施例において、コンピューティング機器120は、グラフィカル表現の形式で、マッチングする名称テキストアイテム及びコンテンツテキストアイテムを出力することもできる。以下、図16を参照しながら、このような実施例について説明する。
これから分かるように、本開示の実施例による例示プロセス200は、汎用画像(又はドキュメント)の段階的な情報構造化方法を提案しているので、構造化情報抽出プロセス全体が固定のテンプレートに依存せず、過剰なデータにタグ付けする必要もなく、それにより、汎化可能性を向上させるとともに、データのタグ付けコストを削減した。また、各々の段階は単独で最適化することが可能であり、各段階を最適化するためのデータは、エンドツーエンドモデルに用いられるデータよりも取得することがより容易であるため、構造化情報抽出プロセス全体の性能を向上させることがより容易になる。
一方、例示プロセス200を実行するためのコンピューティング機器120は、複数のモジュールが例示プロセス200の複数の段階をそれぞれ実施することを実現でき、かつ、各モジュールを別々にトレーニングすることができる。具体的には、後でさらに詳述されるように、各段階のモジュールは、いずれも汎用データを用いてトレーニングしてから、インクリメンタル学習に基づいて少量のシーンデータを用いてモジュールの微調整を行うことができる。この方式で、各段階のモジュールをトレーニングするためのデータをより容易に取得し、より多くのトレーニング用データにより、各モジュールの正確率を著しく向上させるとともに、良い汎化能力を実現することができ、エンドツーエンドモデルのトレーニング用データの取得コストが高く、トレーニング収束が難しく、汎化性に乏しいというコールドブートの問題を回避する。
前文の図2の枠210を説明した際に言及したように、一部の実施例において、コンピューティング機器120は、まず、テキストアイテム115-1~115-18の画像110内の対応するテキストアイテム領域を検出し、続いて対応するテキストアイテム領域からテキストアイテム115-1~115-18をそれぞれ認識することができる。より具体的には、コンピューティング機器120は、機械学習(例えば、深層学習)に基づくテキストアイテム検出モデルを使用して、画像110内でテキストアイテム115-1~115-18が位置する各テキストアイテム領域を検出することができる。そして、コンピューティング機器120は、機械学習(例えば、深層学習)に基づく文字認識モデルを使用して、テキストアイテム領域内のテキストアイテム115-1~115-18を認識することができる。この方式で、画像110内のテキストアイテム115-1~115-18に対する認識を、2つの異なる段階に分けることができ、各段階は、それぞれ異なる機能に着目することが可能になるため、特殊用途の機能を有する機械学習モデルを利用してそれぞれ実行することができ、それにより、テキストアイテム115-1~115-18の検出正確性を向上させることができる。以下、図3から図6を参照しながら、このような実施例について説明する。
図3は、本開示の実施例によるテキストアイテム検出モデル310及び文字認識モデル320に基づいて画像110内のテキストアイテム115-1~115-18を認識することを示す模式図である。図3に示すように、画像110のテキストアイテム115-1~115-18を認識するために、コンピューティング機器120にテキストアイテム検出モデル310及び文字認識モデル320を実施することができる。テキストアイテム検出モデル310は、画像110の複数のテキストアイテム領域315、即ち、テキストアイテム115-1~115-18の画像110において対応する画像領域を検出するために用いられてもよい。一部の実施例において、検出するターゲット単位がテキストアイテム(フィールド又は文字行とも呼ばれる。)であるため、テキストアイテム検出モデル310は、フィールドレベルの文字行検出器と呼ばれてもよく、それはフィールドレベルの文字行検出を実行することができる。一方、文字認識モデル320は、複数のテキストアイテム領域315に含まれている文字、即ち、テキストアイテム115-1~115-18のそれぞれにどのような文字が含まれているかを認識するために用いられてもよい。
したがって、図3の例において、画像110がコンピューティング機器120に入力されると、コンピューティング機器120は、まず、テキストアイテム検出モデル310に基づいて、画像110から複数のテキストアイテム領域315を検出することができる。続いて、コンピューティング機器120は、文字認識モデル320に基づいて、複数のテキストアイテム領域315からテキストアイテム115-1~115-18をそれぞれ認識することができる。具体的には、コンピューティング機器120は、テキストアイテム115-1~115-18が位置している複数のテキストアイテム領域315を文字認識モデル320に送り込んで文字認識を行うことにより、画像110における全てのテキストアイテム情報を得る。一部の実施例において、文字認識の正確性を向上させるために、コンピューティング機器120は、テキストアイテム検出モデル310によって取得された画像110における複数のテキストアイテム領域315を適宜に外へ拡張し、例えば、幅を0.15倍、又は高さを0.15倍に拡張することができる。続いて、コンピューティング機器120は、文字認識を実行するように、全ての拡張された画像領域を文字認識モデル320に送り込むことができる。
一部の実施例において、テキストアイテム検出モデル310及び文字認識モデル320は、機械学習(例えば、深層学習)に基づくニューラルネットワークモデルであってもよい。例えば、テキストアイテム検出モデル310は、残余ネットワークResnet-50の高効率かつ正確なシーンテキスト(Efficient and Accuracy Scene Text、EAST)文字検出ネットワークに基づいて実現されるものであってもよい。また、例えば、文字認識モデル320は、残余ネットワークResnet~101を基にするコネクショニスト時間分類(Connectionist temporal classification、CTC)文字認識モデルであってもよい。他の実施例において、テキストアイテム検出モデル310及び文字認識モデル320は、適宜な他の深層学習モデルであってもよい。別の実施例において、テキストアイテム検出モデル310及び文字認識モデル320は、非機械学習モデルを用いて実現することができる。
図4は、本開示の実施例によるテキストアイテム検出モデル310によって検出されたテキストアイテム領域315-1~315-18を示す模式図である。図4に示すように、図1に描いた画像110について、テキストアイテム検出モデル310は、画像110にテキストアイテム115-1~115-18があることを検出し、かつ、画像110に矩形枠の形でテキストアイテム115-1~115-18が位置しているテキストアイテム領域315-1~315-18をマークすることができる。例えば、テキストアイテム検出モデル310は、テキストアイテム115-1を含むテキストアイテム領域315-1、テキストアイテム115-2を含むテキストアイテム領域315-2、・・・、及びテキストアイテム115-18を含むテキストアイテム領域315-18をマークすることができる。なお、図4においてテキストアイテム領域315-1~315-18を矩形枠として描くことは例示にすぎず、いずれの方式で本開示の範囲を制限することを意図しない。他の実施例において、テキストアイテム領域315-1~315-18は、いずれの適宜な形状を有するか、又はテキストアイテム領域315-1~315-18のうちの1つ以上のテキストアイテム領域は、他のテキストアイテム領域と異なる形状を有することができる。
一部の実施例において、テキストアイテム検出モデル310は、テキストアイテム領域315-1~315-18をマークする以外、テキストアイテム領域315-1~315-18内の各テキストアイテム領域の画像110での位置座標を提供することもできる。例えば、一部の実施例において、コンピューティング機器120は、テキストアイテム領域315-1~315-18の位置座標を利用して後続の名称テキストアイテムとコンテンツテキストアイテムとのマッチングを実行することができる。一例示として、テキストアイテム領域315-1~315-18が矩形枠である場合、テキストアイテム検出モデル310は、テキストアイテム領域315-1~315-18の4つの角点の座標を提供すること、又は1つの角点の座標及び矩形枠の幅と高さを提供することなどができる。無論、テキストアイテム領域315-1~315-18が他の形状である場合、テキストアイテム検出モデル310は、これらの形状に適する他の適宜な方式にしたがって、テキストアイテム領域315-1~315-18の位置座標を提供することができる。
一部の実施例において、テキストアイテム検出モデル310は、構造化情報抽出の技術シーンについて特別に設計とトレーニングしたモデルであってもよいが、このような専用モデルのトレーニング用データは、取得し難い恐れがあり、それは、構造化情報を抽出するシーンデータを取得するコストが高い、即ち、構造化データの取得が難しいという問題があるからである。したがって、他の実施例において、シーンデータを取得するコストが高いという問題を回避するため、かつ、改めて新しいモデルをトレーニングすることが、既存のモデルに基づいて調整することよりも費用がかかるということを考慮すると、本開示の実施例は、インクリメンタル学習の方式で既存の汎用モデルを最適化することにより、テキストアイテム検出モデル310を実施することができる。例えば、テキストアイテム検出モデル310を実施するプロセスにおいて、コンピューティング機器120は、まず、汎用データに基づいてトレーニングした汎用モデルを取得してから、少量のシーンデータを使用して汎用モデルに対してインクリメンタル学習を行うことにより、インクリメンタル学習後の汎用モデル(即ち、テキストアイテム検出モデル310)が、改めてトレーニングされた新しいモデルより良い性能と低いコストを有することができる。以下、図5及び図6を参照しながら、このような実施例について説明する。
図5は、本開示の実施例による初期テキストアイテム検出モデル510に対してインクリメンタル学習535を実行することによりテキストアイテム検出モデル310を構築することを示す模式図である。図5に示すように、テキストアイテム検出モデル310は、専用データ515に基づいて初期テキストアイテム検出モデル510に対してインクリメンタル学習535を実行することによって構築され得る。例えば、コンピューティング機器120は、モデル供給側から初期テキストアイテム検出モデル510を取得し、続いて専用データ515を使用して初期テキストアイテム検出モデル510に対してインクリメンタル学習535を実行することにより、テキストアイテム検出モデル310を生成することができる。本明細書で使用されるように、「専用データ」とは、構造化情報の認識・抽出技術シーンについてのデータを指し得る。より一般的に、「専用データ」は、本開示の実施例に係る技術シーンに関連するデータを指し得る。一部の実施例において、専用データ515は、タグ付けされた名称テキストアイテム及びコンテンツテキストアイテムを含んでもよく、それにより初期テキストアイテム検出モデル510が本開示の実施例における名称テキストアイテム及びコンテンツテキストアイテムの特徴をインクリメンタル学習することができる。本開示の文脈において、名称テキストアイテム及びコンテンツテキストアイテムへのタグ付けは、フィールドレベルのタグ付けと呼ばれてもよい。
なお、コンピューティング機器120が初期テキストアイテム検出モデル510に対してインクリメンタル学習535を実行することを上に説明したが、このような説明は、例示的なものにすぎず、いずれの方式で本開示の範囲を制限することを意図しない。他の実施例において、コンピューティング機器120とは異なる1つ以上のコンピューティング機器は、初期テキストアイテム検出モデル510に対してインクリメンタル学習535を実行することにより、テキストアイテム検出モデル310を生成することができる。そして、コンピューティング機器120は、当該1つ以上のコンピューティング機器から、インクリメンタル学習535により構築されたテキストアイテム検出モデル310を直接取得して、画像110内のテキストアイテム領域を検出するために用いることができる。
また、図5に示すように、初期テキストアイテム検出モデル510は、汎用データ505を用いてトレーニング525を行うことができるので、初期テキストアイテム検出モデル510は、汎用テキストアイテム検出モデル510と呼ばれてもよい。本明細書で使用されるように、「汎用データ」は、構造化情報の認識・抽出の技術シーンに特定的に向けられないデータを指し得る。より一般的に、「汎用データ」は、本開示の実施例に係る技術シーンに不特定的に向けられたデータを指し得る。なお、初期テキストアイテム検出モデル510のトレーニング525は、通常、コンピューティング機器120によって実行されなく、また、初期テキストアイテム検出モデル510のトレーニング525及びインクリメンタル学習535は、同じコンピューティング機器によって完成されなくてもよい。無論、一部の実施例において、初期テキストアイテム検出モデル510のトレーニング525及びインクリメンタル学習535は、いずれもコンピューティング機器120によって実行されてもよい。
なお、図5の例において、初期テキストアイテム検出モデル510は、専用データ515を用いてインクリメンタル学習を行うのではなく、汎用データ505を用いてトレーニングを行う。汎用データ(例えば、フィールド行検出用トレーニング用データ)は、一般に、意味情報、空間位置などの方式にしたがって区切られてタグ付けされるので、キーと値を良く区切ることができないが、多くのキー値フィールドのデータを改めてタグ付けして専門のモデルをトレーニングするコストは高い。これに比べて、汎用データ505をトレーニングして得られた初期テキストアイテム検出モデル510を基に、テキストアイテム検出モデル310は、専用データ515を使用してインクリメンタル学習を実行した。例えば、少量のキー値フィールドレベルのデータを用いて微調整を行うことにより、テキストアイテム検出モデル310は、キー値フィールド検出の知識を迅速に取得することができる。テキストアイテムの検出効果から言えば、初期テキストアイテム検出モデル510は、画像110における各テキストアイテムを正確に検出することができない恐れがあるのに対して、テキストアイテム検出モデル310は、画像110における各テキストアイテムを正確に検出することができる。以下、図6を参照しながら、これについて説明する。
図6は、本開示の実施例による初期テキストアイテム検出モデル510により検出されたテキスト領域を示す模式図である。図6に示すように、図1で描かれた画像110について、図4で描かれたテキストアイテム検出モデル310がテキストアイテム領域315-1~315-18を検出することと比較して、汎用テキストアイテム検出モデル510は、テキストアイテム領域315-1、315-2、315-11、315-12、315-15及び315-18を検出することができ、それは、これらのテキストアイテム領域に対応するテキストアイテムの近傍に、距離が近い他のテキストアイテムがないからである。しかし、テキストアイテム検出モデル310がテキストアイテム領域315-1~315-18を検出することと比較して、汎用テキストアイテム検出モデル510は、テキストアイテム領域315-3~315-10、315-13、315-14、315-16及び315-17を検出することができず、それは、これらのテキストアイテム領域に対応するテキストアイテムの近傍に、距離が近い他のテキストアイテムがあるからである。具体的には、テキストアイテム領域315-3及び315-4に対応するテキストアイテム115-3と115-4との距離が近く、汎用テキストアイテム検出モデル510は専用データ515に基づくインクリメンタル学習を行っていないため、汎用テキストアイテム検出モデル510は、テキストアイテム115-3及び115-4の全体をテキストアイテム領域615-1として検出する。同様に、示されたように、汎用テキストアイテム検出モデル510は、テキストアイテム115-5及び115-6の全体をテキストアイテム領域615-2として検出し、テキストアイテム115-7及び115-8の全体をテキストアイテム領域615-3として検出し、テキストアイテム115-9及び115-10の全体をテキストアイテム領域615-4として検出し、テキストアイテム115-13及び115-14の全体をテキストアイテム領域615-5として検出し、かつテキストアイテム115-16及び115-17の全体をテキストアイテム領域615-6として検出する。
上記で図2の枠220を説明した際に言及したように、一部の実施例において、コンピューティング機器120は、トレーニングされた機械学習に基づく意味分類モデルを使用して、名称テキストアイテムの第1の集合117及びコンテンツテキストアイテムの第2の集合119を決定することができる。例えば、コンピューティング機器120にトレーニングされた意味分類モデルを実施することができ、そしてテキストアイテム115-1~115-18を意味分類モデルにそれぞれ入力することができ、それにより、意味分類モデルは、各テキストアイテムが名称テキストアイテムであるか、又はコンテンツテキストアイテムであるかを判断して、対応する分類結果を出力することができる。機械学習(例えば、深層学習)に基づく意味分類モデルで、テキストアイテムを分類するコンピューティング機器120の効率及び正確性を向上させることができる。以下、図7から図10を参照しながら、このような実施例について説明する。
図7は、本開示の実施例による意味分類モデル710に基づいてテキストアイテム115-1~115-18を名称テキストアイテムの第1の集合117とコンテンツテキストアイテムの第2の集合118に分割することを示す模式図である。図7に示すように、テキストアイテム115-1~115-18を分類するために、コンピューティング機器120に意味分類モデル710を実施することができ、それは、各テキストアイテムが名称テキストアイテムであるか、又はコンテンツテキストアイテムであるかを決定することができる。したがって、画像110内のテキストアイテム115-1~115-18を認識した後、コンピューティング機器120は、意味分類モデル710に基づいて、テキストアイテム115-1~115-18における各テキストアイテムが名称テキストアイテムであるか、又はコンテンツテキストアイテムであるかを決定することができ、それにより、名称テキストアイテムからなる第1の集合117及びコンテンツテキストアイテムからなる第2の集合119が得られる。一部の実施例において、意味分類モデル710は、言語の意味を理解する自然言語処理ERNIE(Enhanced Representation through kNowledge IntEgration)に基づいてモデルであってもよい。他の実施例において、意味分類モデル710は、適宜な他の深層学習モデルであってもよい。別の実施例において、意味分類モデル710は、非機械学習モデルを用いて実施することができる。
一部の実施例において、意味分類モデル710は、構造化情報抽出の技術シーンについて特別に設計とトレーニングしたモデルであってもよいが、このような専用モデルのトレーニング用データは、取得し難い恐れがあり、それは、構造化情報を抽出するシーンデータを取得するコストが高い、即ち、構造化データの取得が難しいという問題があるからである。したがって、他の実施例において、シーンデータを取得するコストが高いという問題を回避するため、かつ、改めて新しいモデルをトレーニングすることが、既存のモデルに基づいて調整することよりも費用がかかるということを考慮すると、本開示の実施例は、インクリメンタル学習の方式で既存の汎用モデルを最適化することにより、意味分類モデル710を実施することができる。例えば、意味分類モデル710を実施するプロセスにおいて、コンピューティング機器120は、まず、汎用データに基づいてトレーニングした汎用モデルを取得しから、少量のシーンデータを使用して汎用モデルに対してインクリメンタル学習を行うことにより、インクリメンタル学習後の汎用モデル(即ち、意味分類モデル710)が、改めてトレーニングされた新しいモデルより良い性能と低いコストを有することができる。以下、図8を参照しながら、このような実施例について説明する。
図8は、本開示の実施例による初期意味分類モデル810に対してインクリメンタル学習835を実行することにより意味分類モデル710を構成することを示す模式図である。図8に示すように、意味分類モデル710は、専用データ815に基づいて初期意味分類モデル810に対してインクリメンタル学習835を実行することにより構築され得る。例えば、コンピューティング機器120は、モデル供給側から初期意味分類モデル810を取得し、続いて専用データ815を使用して初期意味分類モデル810に対してインクリメンタル学習835を実行することにより、意味分類モデル710を生成することができる。本明細書で使用されるように、「専用データ」とは、構造化情報の認識・抽出技術シーンについてのデータを指し得る。より一般的に、「専用データ」は、本開示の実施例に係る技術シーンに関連するデータを指し得る。一部の実施例において、専用データ815は、タグ付けされた名称テキストアイテム及びコンテンツテキストアイテムを含んでもよく、それにより初期意味分類モデル810が本開示の実施例における名称テキストアイテム及びコンテンツテキストアイテムの特徴をインクリメンタル学習することができる。本開示の文脈において、名称テキストアイテム及びコンテンツテキストアイテムへのタグ付けは、フィールドレベルのタグ付けと呼ばれてもよい。
なお、コンピューティング機器120が初期意味分類モデル810に対してインクリメンタル学習835を実行することを上に説明したが、このような説明は、例示的なものにすぎず、いずれの方式で本開示の範囲を制限することを意図しない。他の実施例において、コンピューティング機器120とは異なる1つ以上のコンピューティング機器は、初期意味分類モデル810に対してインクリメンタル学習835を実行することにより、意味分類モデル710を生成することができる。そして、コンピューティング機器120は、当該1つ以上のコンピューティング機器から、インクリメンタル学習835により構築された意味分類モデル710を直接取得して、テキストアイテム115-1~115-18を第1の集合117と第2の集合119に分割するために用いることができる。上述したように、一部の実施例において、意味分類モデル710は、言語の意味を理解するERNIEに基づく意味エンティティ認識モデルであってもよい。これらの実施例において、ERNIEは、語形論、文法、意味という3つの段階で予めトレーニングされたモデルを提供しているので、コンピューティング機器120は、少量のデータに基づいてインクリメンタル学習して性能の優れたキー値エンティティ分類モデルを得ることができる。例えば、より良い汎化性を得るために、コンピューティング機器120は、汎用コーパスから、ERNIEモデルに対してインクリメンタル学習を実行するためのキー値の言語材料を直接収集することができ、それにより、トレーニング用データを取得するコストを極めて大きく削減した。
また、図8に示すように、初期意味分類モデル810は、汎用データ805を用いてトレーニング825を行うことができるので、初期意味分類モデル810は、汎用意味分類モデル810と呼ばれてもよい。本明細書で使用されるように、「汎用データ」は、構造化情報の認識・抽出の技術シーンに特定的に向けられないデータを指し得る。より一般的に、「汎用データ」は、決定に本開示の実施例に係る技術シーンを対象として決定しないデータを一般的に指し得る。なお、初期意味分類モデル810のトレーニング825は、通常、コンピューティング機器120によって実行されなく、また、初期意味分類モデル810のトレーニング825及びインクリメンタル学習835は、同じコンピューティング機器によって完成されなくてもよい。無論、一部の実施例において、初期意味分類モデル810のトレーニング825及びインクリメンタル学習835は、いずれもコンピューティング機器120によって実行されてもよい。
図9は、本開示の実施例による意味分類モデル710の例示構造900を示す。一部の実施例において、例示構造900は、ERNIEに基づくモデルのであってもよい。これらの実施例において、言語の意味を理解する意味理解モデルERNIEはドキュメント情報を構造化する技術シーンに使用されるため、ERNIEモデルは、トレーニング集合内の汎用の名称テキストアイテム及びコンテンツテキストアイテム(例えば、キー及び値)の意味を理解することができ、それにより、様々な体裁の名称テキストアイテム及びコンテンツテキストアイテム(例えば、キー及び値)に対してより良い汎化能力を有し、さらに複数タイプの典型的な低周波カテゴリを直接サポートすることができる。他の実施例において、意味分類モデル710の例示構造900は、他の適宜な機械学習モデルに基づいて構築されてもよい。
図9に示すように、例示構造900は、入力と埋め込み(embedding)モジュール910と、エンコーダモジュール920と、分類器モジュール930とを含む。図9の例示において、入力と埋め込みモジュール910は、4つの埋め込みベクトルを使用して、入力されるテキストアイテムを表すことができる。この4つの埋め込みベクトルは、Token埋め込みベクトル912と、語句埋め込みベクトル914と、位置埋め込みベクトル916と、マスク埋め込みベクトル918とを含む。
Token埋め込みベクトル912を得るために、コンピューティング機器120は、入力されたテキストアイテムを文字、単語、又は他の言語単位にしたがって区切って、1つ以上のTokenを得ることができる。言い換えれば、Tokenとは、テキストアイテムが区切られた後の文字、単語、又は他の言語単位を言う。続いて、コンピューティング機器120は、所定のマッピング関係(例えば、所定の字典や辞典など)に基づいて各々のTokenのシリアル番号を決定することができる。次に、コンピューティング機器120は、Tokenのシリアル番号を埋め込み層に入力することにより、あるTokenのToken埋め込みベクトル(例えば、128又は512次元)を得ることができる。図9の例示において、あるテキストアイテムは、Token1、Token2、Token3、・・・、TokenNに区切られる。Token埋め込みベクトル912-1~912-Nは、これらのTokenの埋め込みベクトルをそれぞれ表す。さらに、1番目のToken埋め込みベクトル912-0は、例示構造900が分類タスクに用いられることを表し、[CLS]とマークされる。
語句埋め込みベクトル914は、各々のTokenがある語句の番号を指示するために用いられ、ここで、各々のTokenが、いずれも同じテキストアイテムに属するため、同じ語句にあると考えることができる。したがって、図9の例において、Token1、Token2、Token3、・・・、TokenNの語句埋め込みベクトル914-1~914-Nは、いずれも語句番号0のベクトルを表す。また、語句埋め込みベクトル914-0も、語句番号0を示すように設定される。位置埋め込みベクトル916は、例示構造900に複数のTokenの語句における順番を理解させるためのものであるため、入力と埋め込みベクトルに、各々のTokenのテキストアイテムにおける位置情報の位置埋め込みベクトル916を追加した。図9の例において、Token1、Token2、Token3、・・・、TokenNの位置埋め込みベクトル916-1~916-Nは、それぞれ、位置1から位置Nのベクトルを表す。また、位置埋め込みベクトル916-0は、位置0を表すように設定される。マスク埋め込みベクトル918は、各々のTokenが遮蔽されたか否かを指示するために用いられ、ここで、各々のTokenはいずれも遮蔽されていないため、図9の例において、Token1、Token2、Token3、・・・、TokenNのマスク埋め込みベクトル918-0~919-Nは、いずれも、遮蔽しないことを表す指示値1.0のベクトルである。また、マスク埋め込みベクトル918-0も、指示値1.0のベクトルに設定される。図9の例において、入力と埋め込みモジュール910は、入力されたテキストアイテムの各々のTokenの4つの埋め込みベクトルを加算して入力ベクトルを得ることができ、これにより、テキストアイテムは、入力ベクトルのシーケンスとしてエンコードされることができる。
一部の実施例において、エンコーダモジュール920は、ERNIEに基づくモデルを用いて構築されてもよく、12個のエンコーダと、12個のアテンションヘッドとを含み得る。したがって、入力と埋め込みモジュール910は、入力ベクトルのシーケンスをエンコーダモジュール920の最下層のエンコーダに入力することができる。エンコーダモジュール920の各層のエンコーダは、セルフアテンションメカニズム及びフィードフォワードニューラルネットワークを使用して入力ベクトルのシーケンスをエンコードすることができ、続いてエンコード結果を前の層のエンコーダに伝送することができる。以下、図10を参照しながら、エンコーダモジュール920の構造を詳しく説明する。図9に示すように、エンコーダモジュール920から出力されたベクトルは、分類器モジュール930によって分類されることができ、それにより、例示構造900によるテキストアイテムの分類結果940、例えば、キー値エンティティの分類結果を得ることができる。一部の実施例において、分類器モジュール930は、ERNIEモデルに基づいて構築された、いずれの適宜なネットワーク構造を有する分類器を含み得る。なお、図9に列挙されたいずれの特定の値又は数は、例示的なものにすぎず、いずれの方式で本開示の範囲を制限することを意図しない。他の実施例において、これらの値又は数は、いずれもいずれの他の適切な値を取ってもよい。
図10は、本開示の実施例による意味分類モデル710の例示構造900におけるエンコーダモジュール920の例示構造を示す。図10に示すように、例示構造900におけるエンコーダモジュール920は、12個のエンコーダ920-1~920-12をカスケード連結することにより構成され、かつ、各々のエンコーダは、いずれもさらに2層に分けられることができる。一般性を失うことなく、エンコーダ920-2を例示と仮定すると、それは、セルフアテンション層1020と、フィードフォワードニューラルネットワーク1030とを含み得る。示されるように、入力1010は、エンコーダモジュール920の最下層のエンコーダ920-1に提供されてもよい。一部の実施例において、入力1010は、あるToken(例えば、「張」、「三」など)の入力ベクトルであってもよい。
各々のセルフアテンション層(例えば、セルフアテンション層1020)において、入力ベクトルは、まず、3つの行列それぞれと乗算して、照会ベクトル、キーベクトル及び値ベクトルを得ることができる。各々のエンコーダのセルフアテンション層が、あるTokenをエンコードするとき、語句にある全てのTokenの表現(例えば、値ベクトル)に重み付けして合計することができ、ここで、重みはToken間の相関性を表現し、それにより、セルフアテンション層の当該位置での出力を得る。一部の実施例において、上述の相関性は、あるTokenの表現(例えば、キーベクトル)とエンコードされたTokenの表現(例えば、照会ベクトル)とのドット積によって、かつ、softmax関数によって得ることができる。
一部の実施例において、セルフアテンション層(例えば、セルフアテンション層1020)は、「マルチヘッド」アテンションメカニズムを用いることもでき、当該メカニズムによって、入力されたToken埋め込みベクトル(又は、低位エンコーダからのベクトル)を異なる表現用部分空間に投影するために、モデルが異なる位置に注目する能力を拡張することができる。その例示として、各エンコーダのセルフアテンション層(例えば、セルフアテンション層1020)は、12個のアテンションヘッドを用いてもよい。
セルフアテンション層(例えば、セルフアテンション層1020)は、複数のアテンションヘッドの出力行列を、行列の乗算を行うことで1つの出力行列に圧縮して、フィードフォワードニューラルネットワーク層(例えば、フィードフォワードニューラルネットワーク層1030)に送ることができる。一部の実施例において、各々のエンコーダ(即ち、各々の位置)のフィードフォワードニューラルネットワーク層は、共有パラメータであってもよい。なお、図10に列挙されたいずれの特定の値又は数は、例示的なものにすぎず、いずれの方式で本開示の範囲を制限することを意図しない。他の実施例において、これらの値又は数は、いずれもいずれの他の適切な値を取ってもよい。
上記で図2の枠230を説明した際に言及したように、一部の実施例において、マッチングする名称テキストアイテム及びコンテンツテキストアイテムを決定するコンピューティング機器120の正確率を向上させるために、コンピューティング機器120は、名称テキストアイテムとコンテンツテキストアイテムとのマッチング条件を予め設定することができる。例えば、コンピューティング機器120がマッチングしない名称テキストアイテム及びコンテンツテキストアイテムを、マッチングすると決定する可能性を低減するために、マッチング条件を、経験、画像110における情報配列方式、及び/又はマッチングする名称テキストアイテムとコンテンツテキストアイテムの位置関係に基づいて決定することができる。したがって、2つの名称テキストアイテム及びコンテンツテキストアイテムが所定のマッチング条件に合致しない場合、コンピューティング機器120は、この2つのテキストアイテムがマッチングしないと決定することができ、それにより、名称テキストアイテムとコンテンツテキストアイテムとを誤マッチングすることを回避する。この方式により、コンピューティング機器120が、マッチングする名称テキストアイテム及びコンテンツテキストアイテムを決定する効率及び正確性を向上させることができる。以下、図11から図15を参照しながら、このような実施例について説明する。
図11は、本開示の実施例による名称テキストアイテムの第1の集合117とコンテンツテキストアイテムの第2の集合119とのマッチングを実行するための例示プロセス1100を示すフローチャートである。一部の実施例において、例示プロセス1100は、例示環境100におけるコンピューティング機器120によって実施されてよく、例えばコンピューティング機器120のプロセッサ又は処理ユニットによって実施されるか、又はコンピューティング機器120の様々な機能モジュールによって実施されてもよい。他の実施例において、例示プロセス1100は、例示環境100から独立したコンピューティング機器によって実施されるか、又は例示環境100における他のユニット又はモジュールによって実施されてもよい。説明の便宜上、図1を参照して例示プロセス1100を説明する。
枠1110において、コンピューティング機器120は、名称テキストアイテムの第1の集合117におけるマッチング対象の名称テキストアイテムについて、それにマッチングするコンテンツテキストアイテムの候補集合を決定することができる。言い換えれば、マッチング対象の名称テキストアイテムに対して、コンピューティング機器120は、さきにそれにマッチングする可能性があるコンテンツテキストアイテムの候補集合を決定し、そしてそれにマッチングする可能性がないコンテンツテキストアイテムを排除することができる。一部の実施例において、例えば、第1の集合117と第2の集合119とのマッチングを実行する初期段階において、コンピューティング機器120は、第2の集合119を初期的に候補集合として決定することができる。つまり、マッチングの初期段階において、例えば、1番目のマッチング対象の名称テキストアイテムに対して、コンピューティング機器120は、全てのコンテンツテキストアイテムを上記候補集合として決定することができる。こうすると、コンピューティング機器120は、全てのコンテンツテキストアイテムがいずれも候補集合にあることを確保し、マッチングする可能性のあるコンテンツテキストアイテムを漏らすことを回避できる。例えば、画像110において、コンピューティング機器120が第1の集合117における名称テキストアイテム115-1から2つの集合のマッチングを実行し、即ち、名称テキストアイテム115-1が1番目のマッチング対象の名称テキストアイテムであると仮定すると、コンピューティング機器120は、第2の集合119の全体を名称テキストアイテム115-1にマッチングするコンテンツテキストアイテムの候補集合として決定することができる。
なお、ある名称テキストアイテムのマッチング中に、その候補集合は、変化し続ける恐れがある。例えば、画像110において、第2の集合119の全体を初期的に名称テキストアイテム115-1の候補集合として決定した後、後で、コンピューティング機器120によってコンテンツテキストアイテム115-2が名称テキストアイテム115-1にマッチングしないと決定された場合、コンピューティング機器120は、名称テキストアイテム115-1の候補集合からコンテンツテキストアイテム115-2を除去することができる。一部の実施例において、あるマッチング対象の名称テキストアイテムについて、コンピューティング機器120は、あるコンテンツテキストアイテムが前に既に他の名称テキストアイテムとのマッチングに成功したことを決定すると、コンピューティング機器120は、マッチング対象の名称テキストアイテムについての候補集合から、既に他の前テキストアイテムとのマッチングに成功したコンテンツテキストアイテムを除去することができる。例えば、画像110において、コンピューティング機器120は、名称テキストアイテム115-5にマッチングするコンテンツテキストアイテムを決定しようとするが、この前に、コンピューティング機器120は既に、コンテンツテキストアイテム115-4が名称テキストアイテム115-3にマッチングすることを決定したと仮定すると、コンピューティング機器120は、名称テキストアイテム115-5にマッチングするコンテンツテキストアイテムの候補集合からコンテンツテキストアイテム115-4を除去することができる。
枠1120において、コンピューティング機器120は、マッチング対象の名称テキストアイテムにマッチングするコンテンツテキストアイテムの候補集合から、マッチング対象の名称テキストアイテムに最も近い候補コンテンツテキストアイテムを決定することができる。例えば、画像110において、名称テキストアイテム115-1がマッチング対象の名称テキストアイテムである場合、コンピューティング機器120は、コンテンツテキストアイテム115-2が名称テキストアイテム115-1に最も近いコンテンツテキストアイテムであると決定することができる。また、例えば、画像110において、名称テキストアイテム115-3がマッチング対象の名称テキストアイテムである場合、コンピューティング機器120は、コンテンツテキストアイテム115-4が名称テキストアイテム115-3に最も近いコンテンツテキストアイテムであると決定することなどができる。
一般的に、コンピューティング機器120は、いずれの適宜な方式を用いて2つのテキストアイテム間の距離を決定することができる。例えば、コンピューティング機器120は、まず、2つのテキストアイテムの画像110の2つの中心点を決定し、続いて、2つのテキストアイテム間の距離として、この2つの中心点間の距離を算出することができる。また、例えば、コンピューティング機器120は、2つのテキストアイテムの画像110内での最も近い2つの画素点を決定し、続いて、この2つの画素点間の距離を2つのテキストアイテム間の距離とすることができる。他の実施例において、コンピューティング機器120は、先に、2つのテキストアイテムに関連する2つの矩形領域を決定し、続いて、2つの矩形領域の角点間の距離に基づいて2つのテキストアイテム間の距離を決定することができる。以下、図13及び図14を参照しながら、このような実施例について説明する。
枠1130において、コンピューティング機器120は、マッチング対象の名称テキストアイテムに最も近い候補コンテンツテキストアイテムがマッチング条件を満たすか否かを決定することができる。本明細書で使用されるように、「マッチング条件」とは、マッチングする名称テキストアイテム及びコンテンツテキストアイテムが満たす必要のある必要条件を言う。一部の実施例において、マッチング条件は、ユーザ、管理者又は技術者によって、具体的な技術環境及び適用要件に応じて予め決定されてもよい。ある名称テキストアイテムと、あるコンテンツテキストアイテムとが所定のマッチング条件を満たさない場合、この2つのテキストアイテムはマッチングしないと考えることができる。一方、あるマッチング対象の名称テキストアイテムについて、それにマッチングするコンテンツテキストアイテムの候補集合には、所定のマッチング条件を満たすコンテンツテキストアイテムが複数存在する可能性がある。この場合、コンピューティング機器120は、マッチング対象の名称テキストアイテムに最も近く、かつ、マッチング条件に合致するコンテンツテキストアイテムを、マッチング対象の名称テキストアイテムにマッチングすると決定することができる。したがって、枠1120において、候補コンテンツテキストアイテムが、マッチング対象の名称テキストアイテムに最も近いテキストアイテムであるとすでに決定された後、コンピューティング機器120は、候補コンテンツテキストアイテムがマッチング対象の名称テキストアイテムにマッチングするか否かを決定するために、候補コンテンツテキストアイテムが所定のマッチング条件を満たすか否かを判断することができる。
一部の実施例において、マッチング条件は、候補コンテンツテキストアイテムとマッチング対象の名称テキストアイテムとの位置関係が画像110内の情報配置構造に合致することを含み得る。本明細書で使用されるように、「情報配置構造」とは、画像110の平面上での画像110に記録された情報の配列方式であり、一般的に、ほとんどのマッチングする名称テキストアイテムとコンテンツテキストアイテムとの位置配列関係に対応する。画像110内の様々な文字情報を1つのドキュメントと見なすと、曖昧さを生じない前提で、本明細書の画像110の情報配置構造は、ドキュメント構造又はドキュメントメイン構造と呼ばれてもよい。例えば、画像110の情報配置構造は、左右構造、右左構造及び上下構造などであり得る。
具体的には、左右構造とは、画像110が順方向に置かれたとき、マッチングする名称テキストアイテム及びコンテンツテキストアイテムは、名称テキストアイテムが左側、コンテンツテキストアイテムが右側にある方式に従って配列されるものを言う。右左構造とは、画像110が順方向に置かれたとき、マッチングする名称テキストアイテム及びコンテンツテキストアイテムは、名称テキストアイテムが右側、コンテンツテキストアイテムが左側にある方式に従って配列されるものを言う。上下構造とは、画像110が順方向に置かれたとき、マッチングする名称テキストアイテム及びコンテンツテキストアイテムは、名称テキストアイテムが上側、コンテンツテキストアイテムが下側にある方式に従って配列されるものを言う。したがって、上述の情報配置構造に関するマッチング条件により、コンピューティング機器120は、位置関係が画像110の情報配置構造に合致しない名称テキストアイテムとコンテンツテキストアイテムとを、マッチングすると決定することを回避でき、それにより、誤マッチングの可能性を低減する。
コンピューティング機器120は、様々な適宜な方式を用いて画像110の情報配置構造を決定することができる。例えば、コンピューティング機器120は、名称テキストアイテムの第1の集合117及びコンテンツテキストアイテムの第2の集合119の、画像110での位置分布を統計することができる。名称テキストアイテムとコンテンツテキストアイテムとは、主に左右に離間して分布され、かつ、最左側の一列のテキストアイテムが名称テキストアイテムであると、コンピューティング機器120は、画像110の情報配置構造が左右構造であると決定することができる。名称テキストアイテムとコンテンツテキストアイテムとは、主に左右に離間して分布され、かつ、最左側一列のテキストアイテムがコンテンツテキストアイテムである場合、コンピューティング機器120は、画像110の情報配置構造が右左構造であると決定することができる。名称テキストアイテムとコンテンツテキストアイテムとは、主に上下に離間して分布される場合、コンピューティング機器120は、画像110の情報配置構造が上下構造であると決定することができる。
他の実施例において、同じ画像におけるマッチングする名称テキストアイテム及びコンテンツテキストアイテムは、一般的に画像の情報配置構造に合致し、かつ、マッチングする名称テキストアイテムとコンテンツテキストアイテムとの距離が、一般的に最も近いことを考慮すると、コンピューティング機器120は、第1の集合117及び第2の集合119における距離が最も近い名称テキストアイテム及びコンテンツテキストアイテムに基づいて、画像110の情報配置構造を決定することができる。この方式により、コンピューティング機器120が画像110の情報配置構造を決定するプロセスを簡素化することができ、それによりコンピューティング機器120のコンピューティングオーバーヘッドを低減する。
具体的には、コンピューティング機器120は、まず、第1の集合117及び第2の集合119から、距離が最も小さい参照名称テキストアイテムと参照コンテンツテキストアイテムとを決定することができる。言い換えれば、全ての名称テキストアイテム及びコンテンツテキストアイテムにおいて、当該参照名称テキストアイテムと当該参照コンテンツテキストアイテムとの間の距離が、最も小さい。例えば、図1を参照して、画像110において全ての名称テキストアイテム及びコンテンツテキストアイテムのうち、名称テキストアイテム115-5とコンテンツテキストアイテム115-6との間の距離が最も小さいと仮定と、コンピューティング機器120は、名称テキストアイテム115-5を参照名称テキストアイテムとし、コンテンツテキストアイテム115-6を参照コンテンツテキストアイテムとすることができる。
続いて、コンピューティング機器120は、参照名称テキストアイテムと参照コンテンツテキストアイテムとの位置関係に基づいて、画像110の情報配置構造を決定することができる。例えば、図1の例において、コンピューティング機器120は、名称テキストアイテム115-5とコンテンツテキストアイテム115-6が概略的に同じ水平方向にあり、かつ名称テキストアイテム115-5がコンテンツテキストアイテム115-6の左側にあると決定することができる。したがって、コンピューティング機器120は、名称テキストアイテム115-5とコンテンツテキストアイテム115-6とが左右構造であると決定することができるため、コンピューティング機器120は、画像110の情報配置構造が左右構造であるとさらに決定することができる。一部の実施例において、コンピューティング機器120は参照名称テキストアイテム及び参照コンテンツテキストアイテムを、マッチングする名称テキストアイテムとコンテンツテキストアイテムの第1のペアとして直接決定し、後で、それらがマッチング条件を満たすか否かを判断せずに、マッチングする名称テキストアイテム及びコンテンツテキストアイテムとして出力することができる。
一部の状況では、画像110の情報配置構造を決定するための参照名称テキストアイテムと参照コンテンツテキストアイテムとの位置関係が、判断しやすいように明確ではない。この場合、コンピューティング機器120は、参照名称テキストアイテム及び参照コンテンツテキストアイテムの中心点の連結線と参照方向とがなす夾角に基づいて、画像110の情報配置構造を定量的に決定することができる。以下、図12を参照しながら、このような実施例について説明する。
図12は、本開示の実施例による参照名称テキストアイテム115-5及び参照コンテンツテキストアイテム115-6の中心点の連結線1210-1220と、参照方向1230との間の夾角1240を示す模式図である。図12の例示において、依然として、画像110における名称テキストアイテム115-5が画像110の参照名称テキストアイテムであり、かつコンテンツテキストアイテム115-6が画像110の参照コンテンツテキストアイテムであると仮定する。しかし、このような仮定は、例示的なものにすぎず、いずれの方式で本開示の範囲を制限することを意図しないことは理解できるだろう。他の実施例において、画像110における各テキストアイテムは、他の配置を有する可能性があるため、参照名称テキストアイテム及び参照コンテンツテキストアイテムは、いずれの他の名称テキストアイテム及びコンテンツテキストアイテムである可能性がある。
図12に示すように、画像110の情報配置構造を決定するために、コンピューティング機器120は、まず、参照名称テキストアイテム115-5の中心点1210、及び参照コンテンツテキストアイテム115-6の中心点1220を決定することができる。一部の実施例において、コンピューティング機器120は、参照名称テキストアイテム115-5に係る全ての画素の中心点に基づいて中心点1210を決定し、かつ同様に、参照コンテンツテキストアイテム115-6に係る全ての画素の中心点に基づいて中心点1220を決定することができる。他の実施例において、コンピューティング機器120は、参照名称テキストアイテム115-5に対応するテキストアイテム領域315-5に基づいて中心点1210を決定し、かつ同様に、参照コンテンツテキストアイテム115-6に対応するテキストアイテム領域315-6に基づいて中心点1220を決定することができる。
中心点1210及び1220が決定された後、コンピューティング機器120は、参照名称テキストアイテム115-5及び参照コンテンツテキストアイテム115-6の中心点の連結線1210-1220と参照方向1230とがなす夾角1240を決定することができる。本明細書で使用されるように、参照方向とは、画像110が順方向に置かれたとき、画像110が位置する平面上のある決定方向である。図12の例において、参照方向1230は、水平方向であってもよい。しかし、水平方向を参照方向1230とすることは、例示的なものにすぎず、いずれの方式で本開示の範囲を制限することを意図しないと指摘すべきである。他の実施例において、参照方向1230は、画像110が位置する平面上のいずれの方向であってもよいが、参照方向1230の選択は、画像110の情報配置構造を決定するための角度範囲に影響を与える。
具体的に、コンピューティング機器120が、夾角1240が第1の角度範囲に属すると決定すると、コンピューティング機器120は、画像110の情報配置構造が左右構造であると決定することができる。例えば、参照方向1230が水平方向である場合、第1の角度範囲は、-30°~30°であってもよい。代わりに、コンピューティング機器120は、夾角1240が第2の角度範囲に属すると決定すると、画像110の情報配置構造が上下構造であると決定することができる。例えば、参照方向1230が水平方向である場合、第2の角度範囲は、210°~330°であってもよい。代わりに、コンピューティング機器120は、夾角1240が第3角度範囲に属すると決定すると、画像110の情報配置構造が右左構造であると決定することができる。例えば、参照方向1230が水平方向である場合、第3角度範囲は、150°~210°であってもよい。コンピューティング機器120が、夾角1240が上記3つの角度範囲に属さないと決定すると、コンピューティング機器120は、画像110の情報配置構造が未知の構造であると決定することができる。このような方式により、画像110の情報配置構造を、夾角1240の大きさに基づいて定量的に決定することができ、それにより、コンピューティング機器120が情報配置構造を決定する操作性と正確性が向上する。ここに列挙された具体的な角度値は、例示的なものにすぎず、いずれの方式で本開示の範囲を制限することを意図しないことは理解できるだろう。他の実施例において、上記各角度範囲の境界値は、いずれの適宜な角度値であってもよい。
マッチング条件は、画像110の情報配置構造に基づく上記マッチング条件に加え、又はその代わりに、候補コンテンツテキストアイテムとマッチング対象の名称テキストアイテムとの間の距離が閾値距離未満であることをさらに含み得る。これは、テキストアイテム間の距離が閾値距離より大きい名称テキストアイテム及びコンテンツテキストアイテムがマッチングするとみなされないことを意味する。したがって、コンピューティング機器120は、距離が遠すぎる名称テキストアイテム及びコンテンツテキストアイテムがマッチングすると決定することを回避することができ、それにより、誤マッチングの可能性を低減する。一部の実施例において、上記閾値距離は、ユーザ、管理者又は技術者によって、具体的な技術環境及び適用要件に応じて予め決定されてもよい。他の実施例において、コンピューティング機器120は、既にマッチングすると決定された名称テキストアイテムとコンテンツテキストアイテムとの間の距離に基づいて、上記閾値距離を決定することができる。
具体的には、複数組の名称テキストアイテム及びコンテンツテキストアイテムが既にマッチングすると決定された場合、コンピューティング機器120は、当該複数組の名称テキストアイテムとコンテンツテキストアイテムとの間の複数の距離を決定することができる。続いて、コンピューティング機器120は、当該複数の距離の平均値に基づいて閾値距離を決定することができる。こうすると、閾値距離は、マッチングする名称テキストアイテムとコンテンツテキストアイテムとの間の平均距離に基づいて決定されるため、閾値距離の合理性を高めることができる。例えば、コンピューティング機器120は、当該複数の距離の平均値の5倍を閾値距離として決定してもよい。ここに列挙された具体的な倍数は、単に模式的なものにすぎず、いずれの方式で本開示の範囲を制限することを意図しないと指摘すべきである。他の実施例において、コンピューティング機器120は、複数の距離の平均値又は当該平均値の他の適宜な倍数を閾値距離として直接決定することができる。
マッチング条件は、情報配置構造及び閾値距離に基づく上記マッチング条件に加え、又はその代わりに、候補コンテンツテキストアイテム及びマッチング対象の名称テキストアイテムの中心点の連結線と参照方向(例えば、図12における参照方向1230)とがなす夾角と、参照夾角との間の差が閾値角度未満であることを含み得る。候補コンテンツテキストアイテム及びマッチング対象の名称テキストアイテムの中心点の連結線と参照方向とがなす夾角は、上記図12についての説明を参照して同様に決定することができる。当該マッチング条件は、名称テキストアイテム及びコンテンツテキストアイテムに関連する夾角と参照夾角との偏差が閾値角度よりも大きい又は小さい場合、マッチングするとはみなされないことを意味する。したがって、コンピューティング機器120は、角度偏差が大きすぎる名称テキストアイテム及びコンテンツテキストアイテムを、マッチングすると決定することを回避でき、それにより、誤マッチングの可能性を低減する。一部の実施例において、参照夾角及び閾値角度は、ユーザ、管理者又は技術者によって、具体的な技術環境及び適用要件に応じて予め決定されてもよい。
他の実施例において、コンピューティング機器120は、既にマッチングすると決定された名称テキストアイテム及びコンテンツテキストアイテムに関連する夾角に基づいて、上記参照夾角を決定することができる。こうすると、参照夾角は、マッチングする名称テキストアイテム及びコンテンツテキストアイテムに関する平均夾角に基づいて決定されるものであるため、参照夾角の合理性を高めることができる。具体的には、複数組の名称テキストアイテム及びコンテンツテキストアイテムが既にマッチングすると決定された場合、コンピューティング機器120は、マッチングする複数組の名称テキストアイテム及びコンテンツテキストアイテムの中心点の連結線と、参照方向(例えば、図12における参照方向1230)とがなす複数の夾角を決定することができる。続いて、コンピューティング機器120は、複数の夾角の平均値に基づいて上記参照夾角を決定することができる。例えば、コンピューティング機器120は、複数の夾角の平均値を参照夾角とすることができる。
図11を参照すると、枠1140において、コンピューティング機器120が、候補コンテンツテキストアイテムがマッチング条件を満たすと決定すると、コンピューティング機器120は、候補コンテンツテキストアイテムがマッチング対象の名称テキストアイテムにマッチングすると決定することができる。例えば、画像110において、名称テキストアイテム115-3がマッチング対象の名称テキストアイテムであり、コンテンツテキストアイテム115-4が候補コンテンツテキストアイテムであると仮定すると、コンピューティング機器120は、コンテンツテキストアイテム115-4がマッチング条件を満たすと決定することができ、さらに、コンテンツテキストアイテム115-4が名称テキストアイテム115-3にマッチングすると決定することができる。また、例えば、画像110において、名称テキストアイテム115-16がマッチング対象の名称テキストアイテムであり、コンテンツテキストアイテム115-17が候補コンテンツテキストアイテムであると仮定すると、コンピューティング機器120は、コンテンツテキストアイテム115-17がマッチング条件を満たすと決定することができ、さらに、コンテンツテキストアイテム115-17が名称テキストアイテム115-16にマッチングすると決定することができる。
枠1150において、コンピューティング機器120が、候補コンテンツテキストアイテムがマッチング条件を満たさないと決定すると、コンピューティング機器120は、マッチング対象の名称テキストアイテムにマッチングするコンテンツテキストアイテムの候補集合から現在の候補コンテンツテキストアイテムを除去することができる。こうすると、コンピューティング機器120は、マッチング対象の名称テキストアイテムにマッチングするコンテンツテキストアイテムの候補集合にあるコンテンツテキストアイテムはいずれもマッチングするか否かが判断されていないものであることを確保することができ、それにより、反復的に候補集合に対して、マッチングするコンテンツテキストアイテムを決定することができる。例えば、画像110において、名称テキストアイテム115-1がマッチング対象の名称テキストアイテムであり、コンテンツテキストアイテム115-2が候補コンテンツテキストアイテムであると仮定すると、コンピューティング機器120は、コンテンツテキストアイテム115-2がマッチング条件を満たさないと決定することができ、さらに、名称テキストアイテム115-1にマッチングするコンテンツテキストアイテムの候補集合からコンテンツテキストアイテム115-2を除去することができる。また、例えば、画像110において、名称テキストアイテム115-16がマッチング対象の名称テキストアイテムであり、コンテンツテキストアイテム115-18が候補コンテンツテキストアイテムであると仮定すると、コンピューティング機器120は、コンテンツテキストアイテム115-18がマッチング条件を満たさないと決定することができ、さらに、名称テキストアイテム115-16にマッチングするコンテンツテキストアイテムの候補集合からコンテンツテキストアイテム115-18を除去することができる。
枠1160において、コンピューティング機器120は、除去された候補コンテンツテキストアイテムの数が閾値に達したか否かを決定することができる。一部の実施例において、ここでの閾値は、ユーザ、管理者又は技術者によって、具体的な技術環境及び適用要件に応じて予め決定されてもよく、例えば、当該閾値は、3に設定されてもよい。ここに列挙された具体的な値は、例示的なものにすぎず、いずれの方式で本開示の範囲を制限することを意図しないことは理解できるだろう。他の実施例において、当該閾値は、いずれの他の適宜な値に設定されてもよい。閾値が3に設定される上記状況では、画像110において、名称テキストアイテム115-1がマッチング対象の名称テキストアイテムであると仮定すると、コンピューティング機器120は、候補集合からコンテンツテキストアイテム115-2を除去した後、除去した候補コンテンツテキストアイテムの数が1で、まだ閾値3に達していないと決定できるため、枠1110に戻って名称テキストアイテム115-1のために候補集合を再決定することができる。
続いて、コンピューティング機器120は、コンテンツテキストアイテム115-4が名称テキストアイテム115-1にマッチングしないと決定できるため、候補集合からコンテンツテキストアイテム115-4を除去する。候補集合からコンテンツテキストアイテム115-4を除去した後、コンピューティング機器120は、除去した候補コンテンツテキストアイテムの数が2であり、まだ閾値3に達していないと決定できるため、枠1110に戻って名称テキストアイテム115-1のために候補集合を再決定することができる。また、例えば、画像110において、名称テキストアイテム115-16がマッチング対象の名称テキストアイテムであり、コンテンツテキストアイテム115-18が候補コンテンツテキストアイテムであると仮定すると、コンピューティング機器120は、候補集合からコンテンツテキストアイテム115-18を除去した後、除去した候補コンテンツテキストアイテムの数が1であり、まだ閾値3に達していないと決定できるため、枠1110に戻って名称テキストアイテム115-16のために候補集合を再決定することができる。
枠1170において、コンピューティング機器120は、除去された候補コンテンツテキストアイテムの数が閾値に達したと決定すると、マッチング対象の名称テキストアイテムにマッチングするコンテンツテキストアイテムがないと決定することができる。これは、距離の近いいくつかのコンテンツテキストアイテムは、既にマッチング対象の名称テキストアイテムにマッチングしないと決定されており、マッチング対象の名称テキストアイテムからより遠いコンテンツテキストアイテムは、通常、マッチング対象の名称テキストアイテムにマッチングするコンテンツテキストアイテムではないため、候補集合における各々のコンテンツテキストアイテムがマッチング条件を満たすか否かを判断せず、マッチング対象の名称テキストアイテムにマッチングするコンテンツテキストアイテムがないと早めに決定することができる。この方式により、コンピューティング機器120は、マッチング対象の名称テキストアイテムのためにマッチングするコンテンツテキストアイテムを決定するためのオーバーヘッドを低減することができる。上記閾値が3に設定された場合、画像110において、名称テキストアイテム115-1がマッチング対象の名称テキストアイテムであると仮定すると、コンピューティング機器120は、コンテンツテキストアイテム115-2、115-4及び115-6がマッチング条件を満たさないと順次決定し、さらに、名称テキストアイテム115-1にマッチングするコンテンツテキストアイテムの候補集合からコンテンツテキストアイテム115-2、115-4及び115-6を除去することができる。したがって、コンテンツテキストアイテム115-6を除去した後、コンピューティング機器120は、除去した候補コンテンツテキストアイテムの数が3であり、既に閾値3に達したと決定できるため、名称テキストアイテム115-1にマッチングするコンテンツテキストアイテムがないと決定する。
上記で図11の枠1120を説明した際に言及したように、一部の実施例において、コンピューティング機器120は、先に、2つのテキストアイテムに関連する2つの矩形領域を決定し、続いて、2つの矩形領域の角点間の距離に基づいて2つのテキストアイテムの距離を決定することができる。この方式により、名称テキストアイテムと候補コンテンツテキストアイテムとの間の距離の決定するコンピューティング機器120の効率及び正確性を高めることができる。以下、図13及び図14を参照しながら、このような実施例について説明する。
図13は、本開示の実施例によるマッチング対象の名称テキストアイテムと候補コンテンツテキストアイテムとの間の距離を決定するための例示プロセス1300を示すフローチャートである。一部の実施例において、例示プロセス1300は、例示環境100におけるコンピューティング機器120によって実施されてもよく、例えば、コンピューティング機器120のプロセッサ又は処理ユニットによって実施されてもよく、又は、コンピューティング機器120の様々な機能モジュールによって実施されてもよい。他の実施例において、例示プロセス1300は、例示環境100から独立したコンピューティング機器によって実施されるか、又は、例示環境100における他のユニット又はモジュールによって実施されてもよい。
図14は、本開示の実施例による2つのテキストアイテムに対応する2つの矩形領域に基づいて2つのテキストアイテム間の距離を決定することを示す模式図である。図14の例において、一般性を失うことなく、画像110における名称テキストアイテム115-13は、マッチング対象の名称テキストアイテムの例示として、コンテンツテキストアイテム115-14は候補コンテンツテキストアイテムの例示として使用される。なお、図14で描かれた距離の決定方式は、本開示の実施例におけるいずれの2つのテキストアイテム間の距離に適用できることを理解されたい。
図13及び図14を参照すると、枠1310において、コンピューティング機器120は、マッチング対象の名称テキストアイテム115-13の画像110において対応する第1の矩形領域1415-13を決定することができる。具体的には、コンピューティング機器120は、第1の矩形領域1415-13の4つの角点A1、B1、C1及びD1の参照座標系(例えば、画素座標系又は画像座標系など)における座標位置を検出することができる。一部の実施例において、図4を参照して説明した上記テキストアイテム検出モデル310によって検出されたテキストアイテム領域315-13は、矩形形状であってもよい。これらの実施例において、コンピューティング機器120は、テキストアイテム領域315-13を第1の矩形領域1415-13とすることができる。他の実施例において、テキストアイテム検出モデル310によって検出されたテキストアイテム領域315-13が矩形形状ではないと、コンピューティング機器120は、画像110内で名称テキストアイテム115-13が位置する画素範囲に基づいて第1の矩形領域1415-13を決定することができる。他の実施例において、テキストアイテム領域315-13が矩形であるか否かに問わず、コンピューティング機器120は、第1の矩形領域1415-13を別途に決定することができる。
枠1320において、コンピューティング機器120は、画像110内で候補コンテンツテキストアイテム115-14に対応する第2の矩形領域1415-14を決定することができる。具体的には、コンピューティング機器120は、第2の矩形領域1415-14の4つの角点A2、B2、C2及びD2の参照座標系(例えば、画素座標系又は画像座標系など)における座標位置を検出することができる。一部の実施例において、図4を参照して説明した上記テキストアイテム検出モデル310によって検出されたテキストアイテム領域315-14は、矩形形状であってもよい。これらの実施例において、コンピューティング機器120は、テキストアイテム領域315-14を第2の矩形領域1415-14とすることができる。他の実施例において、テキストアイテム検出モデル310によって検出されたテキストアイテム領域315-14が矩形形状ではないと、コンピューティング機器120は、画像110内で名称テキストアイテム115-14が位置する画素範囲に基づいて第2の矩形領域1415-14を決定することができる。他の実施例において、テキストアイテム領域315-14が矩形であるか否かに問わず、コンピューティング機器120は、第2の矩形領域1415-14を別途に決定することができる。
枠1330において、第1の矩形領域1415-13と第2の矩形領域1415-14との角点間の距離に基づいて、コンピューティング機器120は、候補コンテンツテキストアイテム115-14とマッチング対象の名称テキストアイテム115-13との間の距離を決定することができる。例えば、第1の矩形領域1415-13及び第2の矩形領域1415-14の大きさが大きく異なる可能性があるため、候補コンテンツテキストアイテム115-14とマッチング対象の名称テキストアイテム115-13との間の距離をより正確に決定するために、コンピューティング機器120は、角点間距離D1A2と角点間距離C1B2の平均値を2つのテキストアイテム間の距離として決定することができる。他の実施例において、コンピューティング機器120は、角点間距離D1A2又は角点間距離C1B2を2つのテキストアイテム間の距離として単独で決定してもよく、こうすると、コンピューティング機器120のコンピューティングの複雑性を低減することができる。
別の実施例において、コンピューティング機器120は、第1の矩形領域1415-13と第2の矩形領域1415-14との対応する角点間の距離に基づいて、2つのテキストアイテムの距離を決定することができる。こうすると、画像110の情報配置構造が左右構造又は右左構造ではない場合、コンピューティング機器120は、2つのテキストアイテム間の距離をより合理的に決定することができる。例えば、コンピューティング機器120は、角点間距離A1A2、角点間距離B1B2、角点間距離C1C2及び角点間距離D1D2のうちの1つを2つのテキストアイテム間の距離とすることができる。また、例えば、コンピューティング機器120は、これらの角点間距離のうちの2つ以上の角点間距離の平均値を2つのテキストアイテム間の距離とすることができる。より一般的に、コンピューティング機器120は、第1の矩形領域1415-13及び第2の矩形領域1415-14のいずれか2つの角点間の距離に基づいて2つのテキストアイテム間の距離を決定することができる。例えば、画像110の情報配置構造が上下構造であると決定した場合、コンピューティング機器120は、角点間距離B1A2及び角点間距離C1D2の一方又は両方に基づいて2つのテキストアイテム間の距離を決定することができる。
図15は、本開示の別の実施例による名称テキストアイテムとコンテンツテキストアイテムとの局所最近傍マッチングを実行し、かつ、マッチングする名称テキストアイテム及びコンテンツテキストアイテムを出力し、又は、マッチングしない名称テキストアイテム及びコンテンツテキストアイテムを追加的に出力するための例示プロセス1500を示すフローチャートである。一部の実施例において、例示プロセス1500は、例示環境100におけるコンピューティング機器120によって実施されてもよく、例えば、コンピューティング機器120のプロセッサ又は処理ユニットによって実施されるか、又は、コンピューティング機器120の様々な機能モジュールによって実施されてもよい。他の実施例において、例示プロセス1500は、例示環境100から独立したコンピューティング機器によって実施されるか、又は、例示環境100における他のユニット又はモジュールによって実施されてもよい。説明の便宜上、図1を参照して例示プロセス1500を説明する。
例示プロセス1500を説明するために、コンピューティング機器120は、画像110においてN個の名称テキストアイテム117-1~117-N及びM個のコンテンツテキストアイテム119-1~119-Mを既に決定したと仮定する。例示プロセス1500において、コンピューティング機器120は、局所最近傍測量に基づくアルゴリズムを用い、それは、名称テキストアイテムとコンテンツテキストアイテムとの間の空間位置関係を利用して、局所最近傍アルゴリズムに基づいて、マッチングする名称テキストアイテム及びコンテンツテキストアイテムを発見的に探す。したがって、当該アルゴリズムは、左右、上下、右左などのよく見られる情報配置構造をサポートすることができる。本開示の文脈において、例示プロセス1500は、局所最近傍測量に基づく名称テキストアイテムとコンテンツテキストアイテムのマッチング(例えば、キー値マッチング)と呼ばれてもよい。
枠1510において、コンピューティング機器120は、N個の名称テキストアイテム117-1~117-N及びM個のコンテンツテキストアイテム119-1~119-Mに対して距離行列DNMを確立することができ、ここで、Nは名称テキストアイテムの数であり、Mはコンテンツテキストアイテムの数である。名称テキストアイテムとコンテンツテキストアイテムとの間の距離は、上記方式によって決定することができ、ここでは繰り返して説明しない。例えば、名称テキストアイテムとコンテンツテキストアイテムの矩形枠の大きさは大きく異なる可能性があるため、テキストアイテム間の距離は、名称テキストアイテム矩形枠の右上角点、右下角点のそれぞれと、コンテンツテキストアイテム矩形枠の左上角点、左下角点との距離の平均値を算出することにより得ることができる。したがって、画像110が「餐飲服務許可証」の写真である例示において、距離行列DNMを確立するための入力は、・・・、「法定代表者(担当者)、{x1,y1,x2,y2}」、「住所、{x1,y1,x2,y2}」・・・、などの名称テキストアイテムと、・・・、「張三(法定代表者)、{x1,y1,x2,y2}」、「XX省XX市XX路XX号、{x1,y1,x2,y2}」・・・、などのコンテンツテキストアイテムとであってもよく、ここで、{x1,y1,x2,y2}は、名称テキストアイテムの矩形枠の右上角点と右下角点の座標、及びコンテンツテキストアイテムの矩形枠の左上角点と左下角点の座標を表す。
枠1520において、コンピューティング機器120は、距離が最も近い名称テキストアイテム及びコンテンツテキストアイテムに基づいて画像110内の情報配置構造を決定することができる。画像110の情報配置構造の決定方式は、上記図11及び図12の説明を参照することができ、ここでは繰り返して説明しない。枠1530において、コンピューティング機器120は、1つの名称テキストアイテムについて、それに最も近いX個のコンテンツテキストアイテムを決定し、そして距離の遠近にしたがってX個のコンテンツテキストアイテムがマッチング条件を満たすか否かを順次決定することができる。例えば、マッチング条件は、コンテンツテキストアイテムと名称テキストアイテムの位置関係が画像110内の情報配置構造に一致することを含み得る。無論、マッチング条件は、距離及び夾角に関する条件をさらに含んでもよく、ここでは繰り返して説明しないが、詳細は上記説明を参照してください。
一部の実施例において、コンピューティング機器120は、距離が最も近い参照名称テキストアイテム及び参照コンテンツテキストアイテムを、既にマッチングすると決定したと仮定すると、コンピューティング機器120は、残りN~1個の名称テキストアイテムに対してマッチングを実行することができる。具体的には、コンピューティング機器120は、各々の名称テキストアイテムがトラバースされるまで下記のプロセスを繰り返してもよい。毎回、距離行列DNMにおける最小値
、即ち、i番目の名称テキストアイテムとj番目のコンテンツテキストアイテムの距離が最も短いことを見出し、続いて、それがマッチング条件を満たすか否かを判断する。一部の状況では、複数のコンテンツテキストアイテム間の距離が近い可能性があるため、コンピューティング機器120は、ある名称テキストアイテムに最も近いX個(例えば、3個)のコンテンツテキストアイテムを見出して、名称テキストアイテム及びX個のコンテンツテキストアイテムがマッチング条件を満たすか否かを順次判断することができる。
枠1540において、コンピューティング機器120は、当該名称テキストアイテムについて、マッチングに成功したか否か、即ち、マッチングするコンテンツテキストアイテムを見出したか否かを決定することができる。枠1550において、X個のコンテンツテキストアイテムにマッチング条件を満たすコンテンツテキストアイテムがあると、それと名称テキストアイテムとのマッチングは成功した。マッチングするコンテンツテキストアイテムを見出すと、コンピューティング機器120は、マッチングする名称テキストアイテム及びコンテンツテキストアイテムを出力することができる。一部の実施例において、コンピューティング機器120は、距離行列DNMにおける既にマッチングに成功した名称テキストアイテムが位置する行全体を無限大に設定してもよい。枠1560において、X個のコンテンツテキストアイテムと名称テキストアイテムが、両方ともマッチングに失敗すると、コンピューティング機器120は、この名称テキストアイテムにマッチングするコンテンツテキストアイテムがないと決定することができる。マッチングするコンテンツテキストアイテムが見出されていない場合、コンピューティング機器120は、マッチングに成功していない名称テキストアイテム及びコンテンツテキストアイテムを選択的に出力することができる。枠1570において、N個の名称テキストアイテム117-1~117-Nに対してマッチングプロセスをN回繰り返して実行して、コンピューティング機器120は、N個の名称テキストアイテム117-1~117-Nのために、マッチングするコンテンツテキストアイテムをそれぞれ決定することができる。
図15において出力を表すための枠1505に示すように、N個の名称テキストアイテム117-1~117-Nのそれぞれについて、マッチングするコンテンツテキストアイテムを決定するか、又はそれにマッチングするコンテンツテキストアイテムがないことを決定した後、コンピューティング機器120は、マッチングする名称テキストアイテム及びコンテンツテキストアイテムを出力することができる。図15の例示において、出力1505は、テキストの形式を用いてマッチングに成功した名称テキストアイテム及びコンテンツテキストアイテムを順次列挙する。例えば、画像110が「餐飲服務許可証」の写真であるという具体的な例示において、出力1505は、法定代表者(担当者):張三(法定代表者)、住所:XX省XX市XX路XX号などを含むことができる。上記で図2の枠240を説明した際に言及したように、一部の実施例において、コンピューティング機器120は、さらに、グラフィカル表現の形式を用いてマッチングする名称テキストアイテム及びコンテンツテキストアイテムを出力することができる。これにより、コンピューティング機器120は、マッチングする名称テキストアイテムとコンテンツテキストアイテムとの間のマッチング関係をより一層直観的にユーザに見せることができる。以下、図16を参照しながら、このような実施例について説明する。
図16は、本開示の実施例による名称テキストアイテムとコンテンツテキストアイテムとのマッチング関係を指示するためのグラフィカル表現を示す模式図である。図16に示すように、コンピューティング機器120は、マークされた画像110を出力することができ、ここで、それぞれ異なる色又は形状のマーク枠を使用して、名称テキストアイテムの第1の集合117及びコンテンツテキストアイテムの第2の集合119をマークすることができる。具体的には、コンピューティング機器120は、青色又は矩形のマーク枠を使用して画像110における全ての名称テキストアイテムをマークし、赤色又は楕円形のマーク枠を使用して画像110における全てのコンテンツテキストアイテムをマークすることができる。ここに列挙された色及び形状は、例示的なものにすぎず、いずれの方式で本開示の範囲を制限することを意図しないと指摘すべきである。他の実施例において、コンピューティング機器120は、いずれの区別可能な色、形状又は他の特徴を使用して第1の集合117及び第2の集合119をマークすることができる。
図16の例において、テキストアイテム領域315-1~315-18をテキストアイテム115-1~115-18のマーク枠とする。これにより、マークされた画像110を出力するとき、コンピューティング機器120は、テキストアイテム115-1~115-18を認識するために検出したテキストアイテム領域315-1~315-18を反復で利用することができ、それにより、マークするためにコンピューティング機器120の操作が追加されることを回避し、コンピューティング機器120のオーバーヘッドを節約した。無論、他の実施例において、コンピューティング機器120は、マークされた画像110を出力するために、テキストアイテム115-1~115-18のマーク枠を別途に表示してもよい。
図16で描かれた出力方式で、コンピューティング機器120は、名称テキストアイテムとコンテンツテキストアイテムとのマッチング関係を指示するためのグラフィカル表現を出力することができる。例えば、コンピューティング機器120は、テキストアイテム領域315-3の左上角点とテキストアイテム領域315-4の左上角点との間に、名称テキストアイテム115-3とコンテンツテキストアイテム115-4とのマッチング関係を指示するための連結線1610をマークすることができる。同様に、コンピューティング機器120は、連結線1620をマークして名称テキストアイテム115-5とコンテンツテキストアイテム115-6とのマッチング関係を指示することができ、連結線1620をマークして名称テキストアイテム115-7とコンテンツテキストアイテム115-8とのマッチング関係を指示することができ、連結線1640をマークして名称テキストアイテム115-9とコンテンツテキストアイテム115-10とのマッチング関係を指示することができ、連結線1650をマークして名称テキストアイテム115-11とコンテンツテキストアイテム115-12とのマッチング関係を指示することができ、連結線1660をマークして名称テキストアイテム115-13とコンテンツテキストアイテム115-14とのマッチング関係を指示することができ、かつ、連結線1670をマークして名称テキストアイテム115-16とコンテンツテキストアイテム115-17とのマッチング関係を指示することができる。
一部の実施例において、連結線1610~1670は、名称テキストアイテムのマーク枠及びコンテンツテキストアイテムのマーク枠に対して、テキストアイテム間のマッチング関係を強調表示するために、異なる色(例えば、緑色)でマークされてもよい。一部の実施例において、連結線1610~1670は、名称テキストアイテムのマーク枠及びコンテンツテキストアイテムのマーク枠に対して、テキストアイテム間のマッチング関係を強調表示するために、より太い線でマークしてもよい。図16で描かれたマッチング関係を指示するための連結線1610~1670は、例示的なものにすぎず、いずれの方式で本開示の範囲を制限することを意図しないことは理解できるだろう。
他の実施例において、コンピューティング機器120は、いずれの他のグラフィカル表現を使用して名称テキストアイテムとコンテンツテキストアイテムとのマッチング関係を指示することができる。例えば、マッチング関係を指示するための連結線は、名称テキストアイテムのマーク枠とコンテンツテキストアイテムのマーク枠の他の位置とを連結してよく、連結線は、曲線又は他の形式の線に設定されてもよく、連結線の色及び太さは、他の適宜な設定が可能である、などがある。より一般的に、コンピューティング機器120は、画像形式の出力において、テキストアイテムのマッチング関係を指示できるいずれのグラフィカル表現を表示することができる。
図17は、本開示の実施例による情報処理のための示例装置1700を示すブロック図である。一部の実施例において、装置1700は、図1のコンピューティング機器120に含まれるか、又はコンピューティング機器120として実装することができる。
図17に示すように、装置1700は、認識モジュール1710と、分割モジュール1720と、マッチングモジュール1730と、出力モジュール1740とを含み得る。認識モジュール1710は、画像内の複数のテキストアイテムを認識するように構成される。分割モジュール1720は、複数のテキストアイテムの意味に基づいて、複数のテキストアイテムを名称テキストアイテムの第1の集合とコンテンツテキストアイテムの第2の集合に分割するように構成される。マッチングモジュール1730は、画像における複数のテキストアイテムの配置に基づいて、第1の集合と第2の集合とのマッチングを実行して、第1の集合の名称テキストアイテムにマッチングする第2の集合のコンテンツテキストアイテムを決定するように構成される。出力モジュール1740は、マッチングする名称テキストアイテム及びコンテンツテキストアイテムを出力するように構成される。
一部の実施例において、認識モジュール1710は、テキストアイテム検出モジュールと、テキストアイテム認識モジュールとを含む。テキストアイテム検出モジュールは、テキストアイテム検出モデルに基づいて、画像から複数のテキストアイテム領域を検出するように構成される。テキストアイテム認識モジュールは、文字認識モデルに基づいて、複数のテキストアイテム領域から複数のテキストアイテムを認識するように構成される。
一部の実施例において、テキストアイテム検出モデルは、専用データに基づいて初期テキストアイテム検出モデルのインクリメンタル学習を実行することにより構築され、ここで、初期テキストアイテム検出モデルは、汎用データを用いてトレーニングされたものであり、専用データは、タグ付けされた名称テキストアイテム及びコンテンツテキストアイテムを含む。
一部の実施例において、分割モジュール1720は、テキストアイテムタイプ決定モジュールを含む。テキストアイテムタイプ決定モジュールは、意味分類モデルに基づいて、複数のテキストアイテムにおける各テキストアイテムが名称テキストアイテムであるか、又はコンテンツテキストアイテムであるかを決定するように構成される。
一部の実施例において、意味分類モデルは、専用データに基づいて初期意味分類モデルのインクリメンタル学習を実行することにより構築され、ここで、初期意味分類モデルは、汎用データを用いてトレーニングされたものであり、専用データは、タグ付けされた名称テキストアイテム及びコンテンツテキストアイテムを含む。
一部の実施例において、マッチングモジュール1730は、候補集合決定モジュールと、候補コンテンツテキストアイテム決定モジュールと、マッチング判定モジュールとを含む。候補集合決定モジュールは、第1の集合におけるマッチング対象の名称テキストアイテムについて、マッチングするコンテンツテキストアイテムの候補集合を決定するように構成される。候補コンテンツテキストアイテム決定モジュールは、候補集合からマッチング対象の名称テキストアイテムに最も近い候補コンテンツテキストアイテムを決定するように構成される。マッチング判定モジュールは、候補コンテンツテキストアイテムがマッチング条件を満たすと決定すると、候補コンテンツテキストアイテムはマッチング対象の名称テキストアイテムにマッチングすると決定するように構成される。
一部の実施例において、装置1700は、除去モジュールをさらに含む。除去モジュールは、候補コンテンツテキストアイテムがマッチング条件を満たさないと決定すると、候補集合から候補コンテンツテキストアイテムを除去するように構成される。
一部の実施例において、装置1700は、マッチング終了モジュールをさらに含む。マッチング終了モジュールは、候補集合から除去されたコンテンツテキストアイテムの数が閾値に達したと決定すると、マッチング対象の名称テキストアイテムにマッチングするコンテンツテキストアイテムがないと決定するように構成される。
一部の実施例において、候補集合決定モジュールは、候補集合初期決定モジュールを含む。候補集合初期決定モジュールは、第2の集合を初期的に候補集合として決定するように構成される。
一部の実施例において、マッチング条件は、候補コンテンツテキストアイテムとマッチング対象の名称テキストアイテムとの位置関係が画像内の情報配置構造に合致すること、候補コンテンツテキストアイテムとマッチング対象の名称テキストアイテムとの間の距離が閾値距離未満であること、候補コンテンツテキストアイテム及びマッチング対象の名称テキストアイテムの中心点の連結線と参照方向とがなす夾角と、参照夾角との差が閾値角度未満であることのうちの少なくとも1つを含む。
一部の実施例において、装置1700は、参照テキストアイテム決定モジュールと、情報配置構造決定モジュールとをさらに含む。参照テキストアイテム決定モジュールは、第1の集合及び第2の集合から距離が最も小さい参照名称テキストアイテム及び参照コンテンツテキストアイテムを決定するように構成される。情報配置構造決定モジュールは、参照名称テキストアイテムと参照コンテンツテキストアイテムとの位置関係に基づいて、情報配置構造を決定するように構成される。
一部の実施例において、情報配置構造決定モジュールは、夾角決定モジュールと、左右構造決定モジュールと、上下構造決定モジュールと、右左構造決定モジュールとを含む。夾角決定モジュールは、参照名称テキストアイテム及び参照コンテンツテキストアイテムの中心点の連結線と参照方向とがなす夾角を決定するように構成される。左右構造決定モジュールは、夾角が第1の角度範囲に属すると決定された場合、情報配置構造が左右構造であると決定するように構成される。上下構造決定モジュールは、夾角が第2の角度範囲に属すると決定された場合、情報配置構造が上下構造であると決定するように構成される。右左構造決定モジュールは、夾角が第3角度範囲に属すると決定された場合、情報配置構造が右左構造であると決定するように構成される。
一部の実施例において、装置1700は、マッチングテキストアイテム距離決定モジュールと、閾値距離決定モジュールとをさらに含む。マッチングテキストアイテム距離決定モジュールは、マッチングする複数組の名称テキストアイテムとコンテンツテキストアイテムとの間の複数の距離を決定するように構成される。閾値距離決定モジュールは、複数の距離の平均値に基づいて、閾値距離を決定するように構成される。
一部の実施例において、装置1700は、マッチングテキストアイテム夾角決定モジュールと、参照夾角決定モジュールとをさらに含む。マッチングテキストアイテム夾角決定モジュールは、マッチングする複数組の名称テキストアイテムとコンテンツテキストアイテムの中心点の連結線と、参照方向とがなす複数の夾角を決定するように構成される。参照夾角決定モジュールは、複数の夾角の平均値に基づいて、参照夾角を決定するように構成される。
一部の実施例において、装置1700は、第1の矩形領域決定モジュールと、第2の矩形領域決定モジュールと、距離決定モジュールとをさらに含む。第1の矩形領域決定モジュールは、マッチング対象の名称テキストアイテムに対応する画像内の第1の矩形領域を決定するように構成される。第2の矩形領域決定モジュールは、候補コンテンツテキストアイテムに対応する画像内の第2の矩形領域を決定するように構成される。距離決定モジュールは、第1の矩形領域及び第2の矩形領域の角点間の距離に基づいて、候補コンテンツテキストアイテムとマッチング対象の名称テキストアイテムとの間の距離を決定するように構成される。
一部の実施例において、出力モジュール1740は、グラフィカル表現出力モジュールを含む。グラフィカル表現出力モジュールは、名称テキストアイテムとコンテンツテキストアイテムとのマッチング関係を指示するためのグラフィカル表現を出力するように構成される。
本出願の実施例によれば、本出願は、コンピュータプログラムを提供し、コンピュータプログラムは、コンピュータに本出願によって提供される情報処理方法を実行させる。
図18は、本開示の実施例を実施するために用いることができる示例電子機器1800を示すブロック図である。図18に示すように、電子機器1800は、中央処理ユニット(CPU)1801を含み、それは、読み取り専用メモリ(ROM)1802に記憶されているコンピュータプログラム命令、又は記憶ユニット1808からランダムアクセスメモリ(RAM)1803にローディングされたコンピュータプログラム命令にしたがって、様々な適宜な動作と処理を実行することができる。RAM1803に、機器1800の操作に必要な様々なプログラムとデータを記憶することもできる。CPU1801、ROM1802とRAM1803は、バス1804を介して互いに接続される。入力/出力(I/O)インターフェース1805もバス1804に接続される。
電子機器1800における複数の部材は、I/Oインターフェース1805に接続され、例えばキーボード、マウスなどの入力ユニット1806と、例えば様々なディスプレイ、スピーカなどの出力ユニット1807と、例えば磁気ディスク、光ディスクなどの記憶ユニット1808と、例えばネットワークカード、モデム、無線通信用トランシーバーなどの通信ユニット1809と、を含む。通信ユニット1809によって、電子機器1800がインターネットなどのコンピュータネットワーク及び/又は様々な電気通信ネットワークを介して他の機器と情報/データを交換することが可能になる。
例示プロセス200、1100、1300、1500などの上述した各プロセス及び処理は、処理ユニット1801によって実行可能である。例えば、一部の実施例において、例示プロセス200、1100、1300、1500は、コンピュータソフトウェアプログラムとして実装でき、記憶ユニット1808などの機械読み取り可能な媒体に物理的に含まれる。一部の実施例において、コンピュータプログラムの一部又は全部は、ROM1802及び/又は通信ユニット1809を介して電子機器1800にローディング及び/又はインストールされることができる。コンピュータプログラムが、RAM1803にローディングされてCPU1801によって実行されると、上述した例示プロセス200、1100、1300、1500の1つ以上のステップを実行することができる。
本明細書で使用されるように、「含む」という用語及びその類似語は、制限のない包含、即ち、「含むが、それに限定されない」という意味で理解すべきである。「に基づく」という用語は、「少なくとも一部が…に基づく」という意味で理解すべきである。「一実施例」又は「当該実施例」という用語は、「少なくとも1つの実施例」という意味で理解すべきである。「第1の」、「第2の」などの用語は、異なる又は同じオブジェクトを指し得る。本明細書に他の明示的及び暗黙的な定義が含まれている可能性もある。
本明細書で使用されるように、「決定」という用語は、様々な動作をカバーしている。例えば、「決定」は、演算、算出、処理、導出、調査、検索(例えば、テーブル、データベース又は他のデータ構造から検索)、確認などを含むことができる。さらに、「決定」は、受信(例えば、情報の受信)、アクセス(例えば、メモリのデータにアクセス)などを含み得る。さらに、「決定」は、解析、選択、選別、確立などを含み得る。
本開示の実施例は、ハードウェア、ソフトウェア、又はソフトウェアとハードウェアの組み合わせによって実現できることに留意されたい。ハードウェア部分は、専用ロジックによって実装でき、ソフトウェア部分は、メモリに記憶されて、マイクロプロセッサ又は専用設計ハードウェアなどの適宜命令実行システムによって実現できる。当業者であれば、上記機器及び方法は、コンピュータ実行可能な命令を使用したり、及び/又は、プロセッサ制御コードに含まれたりすることによって実現でき、例えば、プログラム可能なメモリ、又は光学や電子信号キャリアのデータキャリアにおいてこのようなコード提供することを理解できる。
また、添付図面において、本開示の方法の操作を特定の順序で説明したが、これは、これらの操作を当該特定の順序にしたがって実行する必要があること、又は、所望の結果を達成するために、示された全ての操作を実行する必要があることを要求又は暗示するわけではない。むしろ、フローチャートで描かれたステップは、実行順序を変更することができる。追加的に又は選択的に、一部のステップを省略すること、複数のステップを1つのステップに組み合わせて実行すること、及び/又は、1つのステップを複数のステップに分解して実行することができる。また、本開示による2つ以上の装置の特徴と機能に基づいて、1つの装置に具現化してもよいことに留意されたい。これに反して、上に説明した1つの装置の特徴及び機能を、複数の装置によって具現化されるように分割してもよい。
いくつかの具体的な実施例を参照して本開示を説明したが、本開示は、開示された具体的な実施例に制限されないことに留意されたい。本開示は、添付の特許請求の範囲の精神と範囲内で行われた様々な修正及び等価の配置を網羅することを意図している。