JP2022550195A

JP2022550195A - テキスト認識方法、装置、機器、記憶媒体及びコンピュータプログラム

Info

Publication number: JP2022550195A
Application number: JP2022520075A
Authority: JP
Inventors: 文佳王; 学博劉; 恩澤謝
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2020-04-30
Filing date: 2021-04-20
Publication date: 2022-11-30
Also published as: CN111553290A; WO2021218706A1

Abstract

本発明の実施例は、テキスト認識方法、装置、機器及び記憶媒体を提供する。第１テキスト画像の特徴マップを取得し、前記特徴マップに含まれる少なくとも１つの特徴シーケンスに基づいて前記第１テキスト画像を処理することにより、前記第１テキスト画像よりも大きな解像度の第２テキスト画像を取得し、第１テキスト画像中の画像ブロック同士が関連性を有するため、上記方式によってテキスト同士の関連性を有効的に利用して解像度の低い第１テキスト画像を解像度の高い第２テキスト画像に回復することができ、更に前記第２テキスト画像に対してテキスト認識を行うことにより、第１テキスト画像中のテキスト内容を認識することができる。【選択図】図２

Description

本発明は、コンピュータビジョン技術分野に関し、特にテキスト認識方法、装置、機器及び記憶媒体に関する。

低解像度のテキスト画像は、日常生活において非常によく見られる。例えば、携帯電話等の、画像収集機器が実装された端末機器で収集されるテキスト画像の解像度が低い可能性はある。これらの画像が細部の内容情報を失ったため、画像中のテキストに対する認識正確率が低い。従来のテキスト認識方式では、一般的に画像のテクスチャを再構築してから、再構築された画像に基づいてテキスト認識を行う。しかし、このような方式の認識正確率が低かった。

本発明は、テキスト認識方法、装置、機器及び記憶媒体を提供する。

本発明の実施例の第１態様は、テキスト認識方法を提供する。前記テキスト認識方法は、第１テキスト画像の特徴マップを取得するステップであって、前記特徴マッが少なくとも１つの特徴シーケンスを含むステップと、前記少なくとも１つの特徴シーケンスに基づいて前記第１テキスト画像を処理し、第２テキスト画像を取得するステップと、前記第２テキスト画像に対してテキスト認識を行うステップと、を含み、前記特徴シーケンスは、前記第１テキスト画像中の少なくとも２つの画像ブロックの間の関連性を表すために用いられ、前記第２テキスト画像の解像度は、前記第１テキスト画像の解像度よりも大きい。

幾つかの実施例において、前記第１テキスト画像の特徴マップを取得するステップは、前記第１テキスト画像の複数のチャンネル図と前記第１テキスト画像に対応する２値画像とを取得することと、前記複数のチャンネル図及び前記２値画像に対して特徴抽出を行い、前記第１テキスト画像の特徴マップを取得することと、を含む。

幾つかの実施例において、前記第１テキスト画像の特徴マップを取得するステップは、前記第１テキスト画像を予めトレーニングされたニューラルネットワークに入力し、前記ニューラルネットワークから出力された特徴マップを取得することを含む。

幾つかの実施例において、前記ニューラルネットワークは、前記第１テキスト画像に基づいて中間画像を生成することと、前記中間画像に対して特徴抽出を行い、前記特徴マップを取得することとにより、前記特徴マップを取得し、前記中間画像のチャンネル数は、前記第１テキスト画像のチャンネル数よりも大きい。

幾つかの実施例において、前記ニューラルネットワークは、少なくとも１つの畳み込みニューラルネットワーク及び双方向長短期記憶ネットワークを含み、前記少なくとも１つの畳み込みニューラルネットワークの出力端は、前記双方向長短期記憶ネットワークの入力端に接続され、前記第１テキスト画像の特徴シーケンスを取得することは、前記第１テキスト画像を前記少なくとも１つの畳み込みニューラルネットワークに入力し、前記少なくとも１つの畳み込みニューラルネットワークから出力された中間画像を取得することと、前記中間画像を前記双方向長短期記憶ネットワークに入力し、前記双方向長短期記憶ネットワークから出力された前記特徴マップを取得することと、を含む。

幾つかの実施例において、前記ニューラルネットワークは、順次接続される複数のサブネットワークを含み、前記第１テキスト画像を予めトレーニングされたニューラルネットワークに入力し、前記ニューラルネットワークから出力された特徴マップを取得することは、前記複数のサブネットワークのうちの第ｉサブネットワークから出力された第ｉ出力画像を前記複数のサブネットワークのうちの第ｉ＋１サブネットワークに入力することにより、前記第ｉ＋１サブネットワークを介して第ｉ＋１中間画像を生成し、前記第ｉ＋１中間画像に対して特徴抽出を行い、第ｉ＋１出力画像を取得することと、第Ｎ出力画像を前記特徴マップとして特定することと、を含み、
前記第ｉ＋１中間画像のチャンネル数は、前記第ｉ出力画像のチャンネル数よりも大きく、ｉ及びＮは、正整数であり、Ｎは、サブネットワークの総数であり、１≦ｉ≦Ｎ－１、Ｎ≧２であり、第１出力画像を取得することは、第１サブネットワークが前記第１テキスト画像に基づいて第１中間画像を生成し、前記第１中間画像に対して特徴抽出を行い、第１出力画像を取得することを含む。

幾つかの実施例において、前記テキスト認識方法は、前記少なくとも１つの特徴シーケンスに基づいて前記第１テキスト画像を処理する前に、前記第１テキスト画像のチャンネル数と前記特徴マップのチャンネル数とが同じとなるように、前記第１テキスト画像を処理するステップを更に含む。

幾つかの実施例において、前記テキスト認識方法は、第２テキスト画像が取得された後、前記第２テキスト画像のチャンネル数と前記第１テキスト画像のチャンネル数とが同じとなるように、前記第２テキスト画像を処理するステップを更に含み、前記第２テキスト画像に対してテキスト認識を行うステップは、処理後の第２テキスト画像に対してテキスト認識を行うことを含む。

幾つかの実施例において、前記テキスト認識方法は、少なくとも１グループのトレーニング画像に基づいて前記ニューラルネットワークをトレーニングするステップを更に含み、各グループのトレーニング画像は、第１トレーニング画像及び第２トレーニング画像を含み、前記第１トレーニング画像と前記第２トレーニング画像とは、同じテキストを含み、前記第１トレーニング画像の解像度は、第１解像度閾値よりも小さく、前記第２トレーニング画像の解像度は、第２解像度閾値よりも大きく、前記第１解像度閾値は、前記第２解像度閾値以下である。

幾つかの実施例において、前記少なくとも１グループのトレーニング画像に基づいて前記ニューラルネットワークをトレーニングするステップは、前記第１トレーニング画像を前記ニューラルネットワークに入力し、前記ニューラルネットワークの出力画像を取得することと、前記第１トレーニング画像に対応する第２トレーニング画像と前記出力画像とに基づいて損失関数を特定することと、前記損失関数に基づいて前記ニューラルネットワークに対して教師ありトレーニングを行うことと、を含む。

幾つかの実施例において、前記損失関数は、第１損失関数と第２損失関数とのうちの少なくとも１つを含み、前記第１損失関数は、前記第１トレーニング画像と前記第２トレーニング画像とにおける各対応画素の平均二乗偏差に基づいて特定され、及び／又は、前記第２損失関数は、前記第１トレーニング画像と前記第２トレーニング画像とにおける各対応画素の勾配場の差に基づいて特定される。

幾つかの実施例において、前記テキスト認識方法は、前記少なくとも１グループのトレーニング画像に基づいて前記ニューラルネットワークをトレーニングする前に、前記第１トレーニング画像と前記第２トレーニング画像とを整列させるステップを更に含む。

幾つかの実施例において、前記第１トレーニング画像と第２トレーニング画像とを整列させるステップは、予めトレーニングされた空間変換ネットワークを介して前記第１トレーニング画像を処理することにより、前記第１トレーニング画像中のテキストと前記第２トレーニング画像中のテキストとを整列させることを含む。

幾つかの実施例において、前記第１トレーニング画像は、第１焦点距離が設定された第１画像収集装置が第１位置における撮影対象を撮影したものであり、前記第２トレーニング画像は、第２焦点距離が設定された第２画像収集装置が前記第１位置における前記撮影対象を撮影したものであり、前記第１焦点距離は、前記第２焦点距離よりも小さい。

本発明の実施例の第２態様は、テキスト認識装置を提供する。前記テキスト認識装置は、第１テキスト画像の特徴マップであって少なくとも１つの特徴シーケンスを含む特徴マップを取得するための取得モジュールと、前記少なくとも１つの特徴シーケンスに基づいて前記第１テキスト画像を処理し、第２テキスト画像を取得するための第１処理モジュールと、第２テキスト画像に対してテキスト認識を行うためのテキスト認識モジュールと、を備え、前記特徴シーケンスは、前記第１テキスト画像中の少なくとも２つの画像ブロックの間の関連性を表すために用いられ、前記第２テキスト画像の解像度は、前記第１テキスト画像の解像度よりも大きい。

幾つかの実施例において、前記取得モジュールは、前記第１テキスト画像の複数のチャンネル図と前記第１テキスト画像に対応する２値画像とを取得するための第１取得手段と、前記複数のチャンネル図及び前記２値画像に対して特徴抽出を行い、前記第１テキスト画像の特徴マップを取得するための特徴抽出手段と、を備える。

幾つかの実施例において、前記取得モジュールは、前記第１テキスト画像を予めトレーニングされたニューラルネットワークに入力し、前記ニューラルネットワークから出力された特徴マップを取得する。

幾つかの実施例において、前記ニューラルネットワークは、前記第１テキスト画像に基づいて中間画像を生成し、前記中間画像に対して特徴抽出を行い、前記特徴マップを取得することにより、前記特徴マップを取得する。前記中間画像のチャンネル数は、前記第１テキスト画像のチャンネル数よりも大きい。

幾つかの実施例において、前記ニューラルネットワークは、少なくとも１つの畳み込みニューラルネットワーク及び双方向長短期記憶ネットワークを含み、前記少なくとも１つの畳み込みニューラルネットワークの出力端は、前記双方向長短期記憶ネットワークの入力端に接続され、前記取得モジュールは、前記第１テキスト画像を前記少なくとも１つの畳み込みニューラルネットワークに入力し、前記少なくとも１つの畳み込みニューラルネットワークから出力された中間画像を取得するための第２取得手段と、前記中間画像を前記双方向長短期記憶ネットワークに入力し、前記双方向長短期記憶ネットワークから出力された前記特徴マップを取得するための第３取得手段と、を備える。

幾つかの実施例において、前記ニューラルネットワークは、順次接続される複数のサブネットワークを含み、前記取得モジュールは、前記複数のサブネットワークのうちの第ｉサブネットワークから出力された第ｉ出力画像を前記複数のサブネットワークのうちの第ｉ＋１サブネットワークに入力することにより、前記第ｉ＋１サブネットワークを介して第ｉ＋１中間画像を生成し、前記第ｉ＋１中間画像に対して特徴抽出を行い、第ｉ＋１出力画像を取得し、第Ｎ出力画像を前記特徴マップとして特定し、前記第ｉ＋１中間画像のチャンネル数は、前記第ｉ出力画像のチャンネル数よりも大きく、ｉ及びＮは、正整数であり、Ｎは、サブネットワークの総数であり、１≦ｉ≦Ｎ－１、Ｎ≧２であり、第１出力画像を取得することは、第１サブネットワークが前記第１テキスト画像に基づいて第１中間画像を生成し、前記第１中間画像に対して特徴抽出を行い、第１出力画像を取得することを含む。

幾つかの実施例において、前記装置は、前記少なくとも１つの特徴シーケンスに基づいて前記第１テキスト画像を処理する前に、前記第１テキスト画像のチャンネル数と前記特徴マップのチャンネル数とが同じとなるように、前記第１テキスト画像を処理するための第２処理モジュールを更に備える。

幾つかの実施例において、前記装置は、第２テキスト画像が取得された後、前記第２テキスト画像のチャンネル数と前記第１テキスト画像のチャンネル数とが同じとなるように、前記第２テキスト画像を処理するための第３処理モジュールを更に備え、前記テキスト認識モジュールは、処理後の第２テキスト画像に対してテキスト認識を行う。

幾つかの実施例において、前記装置は、少なくとも１グループのトレーニング画像に基づいて前記ニューラルネットワークをトレーニングするためのトレーニングモジュールを更に備え、各グループのトレーニング画像は、第１トレーニング画像及び第２トレーニング画像を含み、前記第１トレーニング画像と前記第２トレーニング画像とは、同じテキストを含み、前記第１トレーニング画像の解像度は、第１解像度閾値よりも小さく、前記第２トレーニング画像の解像度は、第２解像度閾値よりも大きく、前記第１解像度閾値は、前記第２解像度閾値以下である。

幾つかの実施例において、前記トレーニングモジュールは、前記第１トレーニング画像を前記ニューラルネットワークに入力し、前記ニューラルネットワークの出力画像を取得するための入力手段と、前記第１トレーニング画像に対応する第２トレーニング画像と前記出力画像とに基づいて損失関数を特定するための特定手段と、前記損失関数に基づいて前記ニューラルネットワークに対して教師ありトレーニングを行うためのトレーニング手段と、を備える。

幾つかの実施例において、前記装置は、前記少なくとも１グループのトレーニング画像に基づいて前記ニューラルネットワークをトレーニングする前に、前記第１トレーニング画像と前記第２トレーニング画像とを整列させるための整列モジュールを更に備える。

幾つかの実施例において、前記整列モジュールは、予めトレーニングされた空間変換ネットワークを介して前記第１トレーニング画像を処理することにより、前記第１トレーニング画像中のテキストと前記第２トレーニング画像中のテキストとを整列させる。

本発明の実施例の第３態様は、コンピュータ可読記憶媒体を提供する。当該コンピュータ可読記憶媒体には、コンピュータプログラムが記憶され、当該プログラムがプロセッサによって実行されたときに、何れかの実施例に記載の方法は、実施される。

本発明の実施例の第４態様は、コンピュータ機器を提供する。当該コンピュータ機器は、メモリと、プロセッサと、メモリに記憶されてプロセッサで運転され得るコンピュータプログラムとを含み、前記プロセッサは、前記プログラムを実行したときに、何れかの実施例に記載の方法を実施する。

本発明の実施例の第５態様は、コンピュータプログラムを提供する。前記コンピュータプログラムがプロセッサによって実行されたときに、何れかの実施例に記載の方法は、実施される。

本発明の実施例では、第１テキスト画像の特徴マップを取得し、前記特徴マップに含まれる少なくとも１つの特徴シーケンスに基づいて前記第１テキスト画像を処理することにより、前記第１テキスト画像よりも大きな解像度の第２テキスト画像を取得し、第１テキスト画像中の画像ブロック同士が関連性を有するため、上記方式によってテキスト同士の関連性を有効的に利用して解像度の低い第１テキスト画像を解像度の高い第２テキスト画像に回復することができ、更に前記第２テキスト画像に対してテキスト認識を行うことにより、第１テキスト画像中のテキスト内容を認識することができ、テキスト認識の正確率を向上させる。

上述した一般的な記述と後文の詳細記述が単に例示的なものと解釈的なものであり、本発明を制限するものではないことは、理解されるべきである。

ここでの図面は、明細書に組み込まれて明細書の一部を構成する。これらの図面は、本発明に合致する実施例を示しつつ、明細書とともに本発明の解決手段を説明するために用いられる。
本発明の実施例のテキスト画像の模式図一である。本発明の実施例のテキスト画像の模式図二である。本発明の実施例のテキスト画像の模式図三である。本発明の実施例のテキスト認識方法のフローチャートである。本発明の実施例の画像間の不整列現象の模式図である。本発明の実施例のテキスト認識方法の全体フローの模式図である。本発明の実施例のテキスト認識装置のブロック図である。本発明の実施例のコンピュータ機器の構造模式図である。

ここで、例示的な実施例を詳細に説明する。その例示は、図面に示される。以下の記述は、図面に係る際、別途示さない限り、異なる図面における同じ符号が同じ又は類似する要素を示す。以下の例示的な実施例に記述される実施形態が本発明と一致する全ての実施形態を代表するわけではない。逆に、それらは、単に添付する特許請求の範囲に詳細に記述されるような、本発明の幾つかの態様に一致する装置及び方法の例である。

本発明で使用される用語は、単に特定の実施例を記述する目的であり、本発明を制限するためのものではない。本発明及び添付する特許請求の範囲で使用される単数形式の「１種」、「前記」及び「当該」も、文脈から他の意味を明瞭で分かる場合でなければ、複数の形式を含むことを意図する。理解すべきことは、本文で使用される用語「及び／又は」が、１つ又は複数の関連する列挙項目を含む如何なる或いは全ての可能な組み合わせを指す。また、本文における用語「少なくとも１種」は、複数種のうちの何れか１種又は複数種のうちの少なくとも２種の任意の組み合わせを指す。

理解すべきことは、本発明において第１、第２、第３等の用語を用いて各種の情報を記述するが、これらの情報は、これらの用語に限定されるものではない。これらの用語は、単に同一のタイプの情報同士を区分するために用いられる。例えば、本発明の範囲を逸脱しない限り、第１情報が第２情報と呼称されてもよく、類似的に、第２情報が第１情報と呼称されてもよい。これは、コンテキストに依存する。例えば、ここで使用される言葉「場合」は、「…とき」や「…ときに」あるいは「特定の状況に応じて」として解釈されてもよい。

当業者が本発明の実施例における技術案をより良好に理解でき、且つ本発明の実施例の上記目的、特徴およびメリットがより分かりやすくなるように、以下に図面を組み合わせて本発明の実施例における技術案をより詳細に説明する。

日常生活では、一般的にテキスト画像からテキスト情報を認識する必要があり、即ち、テキスト認識を行う必要がある。幾つかのテキスト画像（例えば、携帯電話等の、画像収集機器が実装された端末機器で収集されたテキスト画像）の解像度が低い。これらの解像度の低い画像が細部の内容情報を失ったため、画像中のテキストに対する認識正確率が低くなる。この問題は、特にシーンテキスト画像（ＳｃｅｎｅＴｅｘｔＩｍａｇｅ、ＳＴＩ）にとって深刻である。シーンテキスト画像は、自然シーンにおいて撮影された、テキスト情報を含む画像である。シーンテキスト画像中のテキスト情報は、身分証明書番号、乗車券、広告看板、ナンバープレート等のうちの少なくとも１つを含んでもよいが、それらに限定されない。図１Ａ～図１Ｃは、テキスト情報の例示を示す。異なるシーンテキスト画像中のテキストの特徴の差異が大きく、例えば、テキストの大きさ、フォント、色、明るさ及び／又はねじれの変形度合いが異なる可能性があるため、走査されたドキュメント画像中のテキストを認識するよりも、シーンテキスト画像に対してテキスト認識を行う難易度は、遥かに大きい。これにより、シーンテキスト画像に対する認識正確率は、印刷体テキスト画像に対する認識正確率よりも低くなる。

従来のテキスト認識方式は、一般的にテキスト画像中の隣接画素の色での類似性を先に利用して、事前定義の方式で隣接画素の色の間を補間することにより、テキスト画像のテクスチャを再構築し、次に、再構築されたテキスト画像に基づいてテキスト認識を行う。このようなテキスト認識方式は、比較的に鮮明なテキスト画像に対する認識正確率が高いが、低解像度のテキスト画像に対する認識正確率が急激に下がる。これに鑑みて、本発明の実施例は、テキスト認識方法を提供する。図２に示すように、前記方法は、ステップ２０１～ステップ２０３を含んでもよい。

ステップ２０１では、第１テキスト画像の特徴マップを取得し、前記特徴マップは、少なくとも１つの特徴シーケンスを含み、前記特徴シーケンスは、前記第１テキスト画像中の少なくとも２つの画像ブロックの間の関連性を表すために用いられる。

ステップ２０２では、前記少なくとも１つの特徴シーケンスに基づいて前記第１テキスト画像を処理し、第２テキスト画像を取得し、前記第２テキスト画像の解像度は、前記第１テキスト画像の解像度よりも大きい。

ステップ２０３では、前記第２テキスト画像に対してテキスト認識を行う。

ステップ２０１では、前記第１テキスト画像中のテキストは、文字、記号及び数字のうちの少なくとも１種を含んでもよい。幾つかの実施例において、前記第１テキスト画像は、自然シーンで撮影された画像であってもよく、前記第１テキスト画像中のテキストは、自然シーンでの各種のタイプのテキストであってもよい。例えば、前記第１テキスト画像は、身分証明書の画像であってもよく、前記第１テキスト画像中のテキストは、身分証明書における身分証明書番号及び氏名である。更に例えば、前記第１テキスト画像は、広告看板の画像であってもよく、前記第１テキスト画像中のテキストは、広告看板におけるスローガンである。他の幾つかの実施例において、前記第１テキスト画像は、印刷体文字を含む画像であってもよい。実際の応用において、前記第１テキスト画像は、解像度が低いことによってテキスト認識正確率が所定の正確率閾値よりも低くなるテキスト画像であってもよい。

１つの単語若しくはフレーズを構成する各文字、又は１つの単語を構成する各アルファベットは、ランダムに組み合わせられたものではない。例えば、１グループのテキスト「打*鼠」（「モ*ラ叩き」）については、「打地鼠」（「モグラ叩き」）がよく出現する１つのフレーズであるため、「*」の内容が「地」（「グ」）である確率が非常に大きい。このようにコンテキストからテキスト内容を推定する方式は、テキストの間の関連性を利用するものである。テキスト間が強い関連性を有することは、一般的である。したがって、第１テキスト画像に対して特徴抽出を行い、前記第１テキスト画像の特徴マップを取得してもよい。詳細に言えば、それぞれ水平方向及び／又は垂直方向において第１テキスト画像に対して特徴抽出を行い、前記第１テキスト画像の少なくとも１つの特徴シーケンスを取得してもよい。各特徴シーケンスは、前記第１テキスト画像中の少なくとも２つの画像ブロックの間の関連性を表すために用いられてもよい。

幾つかの実施例において、各画素点は、１つの画像ブロックとされてもよく、前記特徴シーケンスにおける各要素は、前記第１テキスト画像中の隣接画素点の間の関連性を表すために用いられてもよい。他の幾つかの実施例において、複数の隣接する画素点は、共同して１つの画像ブロックとされてもよく、前記特徴シーケンスにおける各要素は、前記第１テキスト画像中の隣接画像ブロックの間の関連性を表すために用いられてもよい。

多くの場合に、第１テキスト画像の背景が単色であり、且つ背景の色とテキストの色とが一般的に異なるため、第１テキスト画像に対応する２値画像に基づいて第１テキスト画像中のテキストの概略位置を特定してもよい。背景色とテキスト色との差異が大きい場合に、２値画像でテキスト位置を特定する方式により、比較的に正確な結果を取得することができる。また、第１テキスト画像のチャンネル図に基づいて第１テキスト画像中のテキストの色を特定してもよい。したがって、幾つかの実施例において、前記第１テキスト画像の複数のチャンネル図と前記第１テキスト画像に対応する２値画像とを取得し、前記複数のチャンネル図及び前記２値画像に対して特徴抽出を行い、前記第１テキスト画像の特徴マップを取得してもよい。

ただし、前記２値画像は、第１テキスト画像の平均グレースケール値に基づいて取得されてもよい。詳細に言えば、第１テキスト画像中の各画素点の平均グレースケール値を算出し、画素値が当該平均グレースケール値よりも大きい画素点のグレースケール値を第１グレースケール値として特定し、画素値が当該平均グレースケール値以下である画素点のグレースケール値を第２グレースケール値として特定し、前記第１グレースケール値が前記第２グレースケール値よりも大きい。幾つかの実施例において、前記第１グレースケール値と前記第２グレースケール値との差は、所定画素値よりも大きくてもよい。例えば、前記第１グレースケール値が２５５であってもよく、前記第２グレースケール値が０であってもよい。これにより、前記二値図における各画素点は、それぞれ黒色画素点又は白色画素点である。このように、背景画素点の画素値とテキスト画素点の画素値との差異を増加可能であり、テキストに対する位置決めがより正確になる。前記チャンネル図は、ＲＧＢ（ＲｅｄＧｒｅｅｎＢｌｕｅ、赤緑青）画像のＲチャンネル、Ｇチャンネル及びＢチャンネルのチャンネル図であってもよく、画像の色を表すための他のチャンネルのチャンネル図であってもよい。

幾つかの実施例において、前記第１テキスト画像を予めトレーニングされたニューラルネットワークに入力し、前記ニューラルネットワークから出力された特徴マップを取得してもよい。前記ニューラルネットワークは、畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ、ＣＮＮ）、長短期記憶ネットワーク（Ｌｏｎｇ－ＳｈｏｒｔＴｅｒｍＭｅｍｏｒｙ、ＬＳＴＭ）又は他のタイプのニューラルネットワークであってもよく、複数種のニューラルネットワークを組み合わせたニューラルネットワークであってもよい。幾つかの実施例において、双方向長短期記憶ネットワーク（ＢｉｄｉｒｅｃｔｉｏｎａｌＬｏｎｇ－ＳｈｏｒｔＴｅｒｍＭｅｍｏｒｙ、ＢＬＳＴＭ）を採用して前記特徴マップを取得するとともに、前記第１テキスト画像に対して水平方向及び垂直方向において特徴抽出を行うことにより、再構築された第２テキスト画像のロバスト性を向上させてもよい。

前記ニューラルネットワークは、前記第１テキスト画像に基づいて中間画像を生成してから、前記中間画像に対して特徴抽出を行って前記特徴マップを取得してもよく、前記中間画像のチャンネル数は、前記第１テキスト画像のチャンネル数よりも大きい。チャンネル数が前記第１テキスト画像のチャンネル数よりも大きい中間画像を生成することにより、前記第１テキスト画像中の特徴の豊富度を増加可能であり、これによって再構築された第２テキスト画像の解像度を向上させることができる。実際の応用において、前記ニューラルネットワークは、少なくとも１つの畳み込みニューラルネットワーク及び１つの双方向長短期記憶ネットワークを含んでもよく、前記少なくとも１つの畳み込みニューラルネットワークのうちの各畳み込みニューラルネットワークは、順次接続され、前記双方向長短期記憶ネットワークは、前記少なくとも１つの畳み込みニューラルネットワークのうちの最後１つの畳み込みニューラルネットワークに接続される。前記少なくとも１つの畳み込みニューラルネットワークを介して前記中間画像を生成し、双方向長短期記憶ネットワークを介して特徴抽出を行ってもよい。

更に、前記ニューラルネットワークは、順次接続される複数のサブネットワークを含み、各サブネットワークの構造は、上記実施例における単一のニューラルネットワークの構造と同じであり、ここで繰り返し説明しない。前記ニューラルネットワークにおける、前から後へ数える場合の第ｉ位のサブネットワークを第ｉサブネットワークと呼称すれば、前記複数のサブネットワークのうちの第ｉサブネットワークから出力された第ｉ出力画像を前記複数のサブネットワークのうちの第ｉ＋１サブネットワークに入力することにより、前記第ｉ＋１サブネットワークを介して第ｉ＋１中間画像を生成してもよい。前記第ｉ＋１中間画像に対して特徴抽出を行い、第ｉ＋１出力画像を取得し、第Ｎ出力画像を前記特徴マップとして特定してもよい。前記第ｉ＋１中間画像のチャンネル数は、前記第ｉ出力画像のチャンネル数よりも大きく、ｉ及びＮは、正整数であり、Ｎは、サブネットワークの総数であり、１≦ｉ≦Ｎ－１、Ｎ≧２である。第１出力画像を取得することは、第１サブネットワークが前記第１テキスト画像に基づいて第１中間画像を生成し、前記第１中間画像に対して特徴抽出を行い、第１出力画像を取得することを含む。

つまり、第１サブネットワークは、第１テキスト画像に基づいて第１中間画像を生成し、第１中間画像に対して特徴抽出を行って第１出力画像を取得し、第１出力画像を第２サブネットワークに入力する。第１中間画像のチャンネル数は、第１テキスト画像のチャンネル数よりも大きい。第２サブネットワークは、第１出力画像に基づいて第２中間画像を生成し、第２中間画像に対して特徴抽出を行って第２出力画像を取得し、第２出力画像を第３サブネットワークに入力する。第２中間画像のチャンネル数は、第１出力画像のチャンネル数よりも大きい。これをもって類推する。複数のカスケードのサブネットワークを介して、第１テキスト画像中の特徴を十分に抽出可能であるため、再構築された第２テキスト画像の解像度を更に向上させることができる。

ステップ２０２では、前記特徴シーケンスに基づいて、ｐｉｘｅｌｓｈｕｆｆｌｅ等のようなアップサンプリング方式を採用して前記第１テキスト画像に対してアップサンプリング処理を行い、前記第１テキスト画像に対応する第２テキスト画像を取得してもよい。更に、ステップ２０１において生成された特徴マップのチャンネル数が第１テキスト画像のチャンネル数よりも大きい場合に、ステップ２０２では、前記少なくとも１つの特徴シーケンスに基づいて前記第１テキスト画像を処理する前に、前記第１テキスト画像のチャンネル数と前記特徴マップのチャンネル数とが同じとなるように、前記第１テキスト画像を処理してもよい。その後、特徴マップ中の特徴シーケンスに基づいて処理後の第１テキスト画像を処理し、第２テキスト画像を取得する。本ステップにおいて第１テキスト画像を処理することで第１テキスト画像のチャンネル数を増加する過程は、畳み込みニューラルネットワークを採用して実現され得る。

これを基に、第２テキスト画像が取得された後、前記第２テキスト画像のチャンネル数と前記第１テキスト画像のチャンネル数とが同じとなるように、前記第２テキスト画像を処理してもよい。即ち、第２テキスト画像を４チャンネルに復元する。この過程は、１つの畳み込みニューラルネットワークにて実現され得る。

幾つかの実施例において、ステップ２０１において採用されたニューラルネットワークは、複数グループのトレーニング画像に基づいてトレーニングされて得るものであってもよく、各グループのトレーニング画像は、同一テキストを有する第１トレーニング画像及び第２トレーニング画像を含み、前記第１トレーニング画像と前記第２トレーニング画像とは、同じテキストを含む。前記第１トレーニング画像の解像度は、所定の第１解像度閾値よりも小さく、前記第２トレーニング画像の解像度は、所定の第２解像度閾値よりも大きく、前記第１解像度閾値は、前記第２解像度閾値以下である。前記第１トレーニング画像を低解像度（ＬｏｗＲｅｓｏｌｕｔｉｏｎ、ＬＲ）画像と呼称し、前記第２トレーニング画像を高解像度（ＨｉｇｈＲｅｓｏｌｕｔｉｏｎ、ＨＲ）画像と呼称してもよい。

テキスト画像データセットは、予め確立されてもよく、前記テキスト画像データセットは、複数のテキスト画像ペアを含んでもよく、各テキスト画像ペアは、１つの低解像度のテキスト画像と、前記低解像度のテキスト画像に対応する１つの高解像度のテキスト画像とを含む。前記テキスト画像ペアにおけるテキストは、各種の自然シーンでのテキストであってもよく、前記自然シーンは、町、図書館、商店、交通手段内部等のシーンのうちの少なくとも１つを含んでもよいが、それらに限定されない。

他の幾つかの実施例において、以下のニューラルネットワークを１つの総的なニューラルネットワークとし、前記第１トレーニング画像及び第２トレーニング画像によって直接前記総的なニューラルネットワークをトレーニングしてもよい。当該ニューラルネットワークは、特徴抽出を行うことで特徴マップを取得するためのニューラルネットワーク、特徴抽出の前に第１テキスト画像を処理することで第１テキスト画像のチャンネル数を増加するための畳み込みニューラルネットワーク、及び、第２テキスト画像が取得された後で第２テキスト画像に対してチャンネル回復を行う畳み込みニューラルネットワークを含んでもよい。

詳細に言えば、前記第１トレーニング画像を前記ニューラルネットワークに入力し、前記ニューラルネットワークの出力画像を取得し、前記第１トレーニング画像に対応する第２トレーニング画像と前記出力画像とに基づいて損失関数を特定し、前記損失関数に基づいて前記ニューラルネットワークに対して教師ありトレーニングを行ってもよい。

前記損失関数は、各種のタイプの損失関数であってもよく、２種又は２種以上の損失関数の組み合わせであってもよい。幾つかの実施例において、前記損失関数は、第１損失関数と第２損失関数とのうちの少なくとも１つを含み、前記第１損失関数は、第１トレーニング画像と第２トレーニング画像とにおける各対応画素の平均二乗誤差に基づいて特定されてもよく、例えば、Ｌ２損失関数であってもよい。他の幾つかの実施例において、前記第２損失関数は、第１トレーニング画像と第２トレーニング画像とにおける各対応画素の勾配場の差に基づいて特定されてもよく、例えば、グラジエントプロファイル損失関数（ＧｒａｄｉｅｎｔＰｒｏｆｉｌｅＬｏｓｓ、ＧＰＬ）であってもよい。

グラジエントプロファイル損失関数Ｌ_ＧＰの定義は、下記のようになる。

ただし、∇Ｉ_ｈｒ（Ｘ）は、ＨＲ画像の画素ｘにおける勾配場を表し、∇Ｉ_ｓｒ（Ｘ）は、ＨＲ画像に対応する超解像度画像（例えば、図４における出力画像）の画素ｘにおける勾配場を表し、ｘ₀は、画素の下限を表し、ｘ_１は、画素の上限を表し、Ｅは、エネルギーの計算を表し、数式中の「｜｜∇Ｉ_ｈｒ（Ｘ）－∇Ｉ_ｓｒ（Ｘ）｜｜_１」の添え字１は、Ｌ１損失関数の計算を表す。

勾配場は、テキスト画像のテキスト特徴及び背景特徴を生き生きと示した。また、ＬＲ画像が常により広い勾配場曲線を有するが、ＨＲ画像の勾配場曲線がより狭い。ＨＲ画像の勾配場が取得された後、複雑な数学演算を行わずに勾配場曲線をより狭く圧縮してもよい。したがって、グラジエントプロファイル損失関数を採用することにより、テキスト特徴と背景特徴との間の鋭い境界を再構築可能であり、テキストと背景とをより良好に区切ることに寄与し、より明確な形状を生成することができ、トレーニングされたニューラルネットワークが一層確実になる。

従来のモデルトレーニング方式では、一般的に高解像度画像に対してダウンサンプリングを行う方式によって低解像度画像（このような方式によって生成された低解像度画像を人工低解像度画像と呼称する）を人工的に生成してから、人工低解像度画像によってモデルトレーニングを行う。しかし、このような人工低解像度画像よりも、真実の低解像度画像（撮影焦点距離が長い等の原因による低解像度画像）は、解像度が一般的に低く、より多様化になる。また、非常に多い場合に、テキスト画像中のテキストは、多様な形状、分散した撮影光照及び異なる背景を有する。したがって、人工低解像度画像にてトレーニングされたモデルにより、テキスト画像の特徴マップを良好に取得することができないため、テキスト認識の正確率が低い。

上記問題を解決すべく、本発明の実施例で採用される第１トレーニング画像及び第２トレーニング画像は、何れも実画像、即ち、異なる焦点距離によって撮影された画像である。前記第１トレーニング画像は、第１焦点距離が設定された第１画像収集装置が第１位置における撮影対象を撮影したものであり、前記第２トレーニング画像は、第２焦点距離が設定された第２画像収集装置が前記第１位置における前記撮影対象を撮影したものであり、前記第１焦点距離は、前記第２焦点距離よりも小さい。前記第１画像収集装置と前記第２画像収集装置は、同一の画像収集装置であってもよく、異なる画像収集装置であってもよい。幾つかの実施例において、第１焦点距離の値は、２４ｍｍ～１２０ｍｍの間にあってもよく、例えば、７０ｍｍであってもよい。他の幾つかの実施例において、第２焦点距離の値は、１２０ｍｍ～２４０ｍｍの間にあってもよく、例えば、１５０ｍｍであってもよい。更に、前記第１焦点距離と前記第２焦点距離との数は、何れも複数あってもよく、且つ複数の前記第１焦点距離のうちの各第１焦点距離は、何れも複数の前記第２焦点距離のうちの最小の第２焦点距離よりも小さい。例えば、前記第１焦点距離は、３５ｍｍ、５０ｍｍ及び７０ｍｍ等を含んでもよく、前記第２焦点距離は、１５０ｍｍ、１７０ｍｍ及び１９０ｍｍ等を含んでもよい。

テキスト画像データセットにおけるテキスト画像ペアを用いてモデルトレーニングを行う際に、一般的に、テキスト画像ペア中のテキスト画像からテキストを含む領域を切り出してから、テキスト画像ペア中の低解像度のテキスト画像から切り出された画像領域を第１トレーニング画像とし、テキスト画像ペア中の高解像度のテキスト画像から切り出された画像領域を第２トレーニング画像とする。切り出された第１トレーニング画像と第２トレーニング画像とのサイズは、同じである。

同一テキスト画像ペア中のテキストが同じであるため、処理効率が向上するように、一般的にテキスト画像ペア中の１つの画像を参照画像とし、切り出しすべき領域の当該参照画像における位置を取得してから、前記位置に基づいてもう１つの画像に対して切り出しを行う。例えば、テキスト画像ペア中の高解像度画像を参照画像とし、高解像度画像中のテキストの位置に基づいて低解像度画像に対して切り出しを行ってもよい。しかし、撮影中においてカメラが移動する等の原因により、各画像の中心点位置が異なるため、上記方式によって切り出しを行うと、取得された第１トレーニング画像と第２トレーニング画像とにおけるテキストの位置は、異なる。このような現象は、図３に示すように、不整列（ｍｉｓａｌｉｇｎｍｅｎｔ）と呼称される。不整列により、モデルは、誤って１つの画像の背景部分をもう１つの画像の文字部分に対応させ、誤った画素対応情報を学習して、ゴースト問題が発生してしまう。

したがって、上記問題を解決すべく、幾つかの実施例において、同一テキストを有する第１トレーニング画像及び第２トレーニング画像に基づいてニューラルネットワークトレーニングを行う前に、前記第１トレーニング画像と第２トレーニング画像とを整列させてもよい。具体的に、予めトレーニングされたモデルを介して第１トレーニング画像を処理することにより、第１トレーニング画像と第２トレーニング画像とを整列させてもよい。前記モデルは、第１トレーニング画像に対して補間及び平行移動を行うことにより、第１トレーニング画像と第２トレーニング画像とを整列させてもよい。前記予めトレーニングされたモデルは、空間変換ネットワーク（ＳｐａｔｉａｌＴｒａｎｓｆｏｒｍａｔｉｏｎＮｅｔｗｏｒｋｓ、ＳＴＮ）であってもよい。画像整列により、ゴースト問題を効果的に軽減し、トレーニングされたニューラルネットワークの正確率を向上させることができる。

各グループのトレーニング画像のうちの第１トレーニング画像及び第２トレーニング画像の数は、何れも１である。画像をより良好に認識するために、全ての画像を水平方向まで回転させてから、回転後の第１トレーニング画像及び第２トレーニング画像に基づいてニューラルネットワークのトレーニングを行ってもよい。

前記第１トレーニング画像と前記第２トレーニング画像とのサイズが所定値に達するように、前記第１トレーニング画像と前記第２トレーニング画像とのうちの少なくとも１つに対してスケーリング処理を行ってもよい。詳細に言えば、前記第１トレーニング画像が第１サイズに達するように、画素サイズが第１サイズよりも小さい第１トレーニング画像に対してアップサンプリング処理を行ってもよい。前記第２トレーニング画像が第２サイズに達するように、画素サイズが第２サイズよりも小さい第２トレーニング画像に対してアップサンプリング処理を行ってもよい。ただし、前記第１サイズは、前記第２サイズよりも小さい。実践中から発見されるように、テキスト画像の画素高度が１６に達した場合に、テキスト画像を再構築することでテキスト認識効果を大きく向上させることができ、テキスト画像の画素高度が小さすぎると、テキスト画像を再構築しても、認識結果も理想的ではない。したがって、画素高度１６を第１サイズとして決定してもよい。更に、前記第１サイズは、６４×１６の画素サイズと設定されてもよい。その一方、画素高度が３２を超えた場合に、画素サイズを増加しても、テキスト認識の効果向上度合いが大きくないため、画素高度３２を第２サイズとして決定してもよい。更に、前記第２サイズは、１２８×３２の画素サイズと設定されてもよい。

前記テキスト画像データセットから、一部の画像ペアをテストセットとして選択してもよい。当該テストセットは、トレーニングされたニューラルネットワークの性能をテストするために用いられる。前記画像ペアのうちの低解像度画像の解像度に応じて、前記テストセットを３つのサブセットに分けてもよい。第１サブセットにおける低解像度画像の解像度は、所定の第３解像度閾値よりも小さく、第２サブセットにおける低解像度画像の解像度は、前記第３解像度閾値よりも大きく且つ所定の第４解像度閾値よりも小さく、第３サブセットにおける低解像度画像の解像度は、所定の第４解像度閾値よりも大きく、前記第３解像度閾値は、前記第４解像度閾値よりも小さい。幾つかの実施例において、前記テストセットにおける低解像度画像の解像度範囲に基づいて第３解像度閾値及び第４解像度閾値を設定してもよい。３つのサブセットをそれぞれ用いてニューラルネットワークの性能をテストし、３つのサブセットに対応するテスト結果に基づいてニューラルネットワークの性能を特定してもよい。

図４は、本発明の実施例のテキスト認識方法の全体フローを示す。まず、総的なニューラルネットワークトレーニングを行う。第１トレーニング画像をニューラルネットワークに入力する。ここでのニューラルネットワークは、特徴抽出を行うためのニューラルネットワーク、及び、第１テキスト画像のチャンネル数を増減するためのニューラルネットワーク、例えば、畳み込みニューラルネットワークを含んでもよく、トレーニング画像を整列させるためのニューラルネットワーク、例えば、空間変換ネットワークも含んでもよい。ここで、特徴抽出を行うための各ニューラルネットワークは、１つのシーケンス残差モジュール（ＳｅｑｕｅｎｔｉａｌＲｅｓｉｄｕａｌＢｌｏｃｋ、ＳＲＢ）と呼称されてもよく、各ＳＲＢは、２つの畳み込みニューラルネットワークと１つの双方向長短期記憶ネットワーク（ＢＬＳＴＭ）とを含んでもよい。まず、第１トレーニング画像と第２トレーニング画像とを整列させ、次に、整列された第１トレーニング画像と第２トレーニング画像とを畳み込みニューラルネットワークを介して処理することで第１トレーニング画像のチャンネル数を増加し、その後、畳み込みニューラルネットワークによって処理された第１トレーニング画像を複数のカスケードされたシーケンス残差モジュールに入力して特徴抽出を行わせることで第１トレーニング画像の特徴マップを取得してもよい。その後、当該特徴マップに対してアップサンプリングモジュールを介してアップサンプリング処理を行ってから、畳み込みニューラルネットワークを介してアップサンプリング後の画像のチャンネル数を元のチャンネル数に回復することにより、第１トレーニング画像に対応する出力画像を取得する。前記出力画像と第１トレーニング画像に対応する第２トレーニング画像とに基づいてＬ２損失関数及びグラジエントプロファイル損失関数を算出し、上記２つの損失関数によって総的なニューラルネットワークに対して教師ありトレーニングを行うことにより、前記総的なニューラルネットワークパラメータを取得する。前記総的なニューラルネットワークのトレーニングが完了された後、処理すべき第１テキスト画像を前記総的なニューラルネットワークに入力する。前記総的なニューラルネットワークの出力画像は、第２テキスト画像そのものである。第２テキスト画像に対してテキスト認識を行い、テキスト認識結果を取得する。

当業者であれば理解できるように、具体的な実施形態の上記方法において、各ステップの記載順は、厳格な実行順を意味せず、実施手順について如何なる限定もなすことではない。各ステップの具体的な実行順は、その機能及び可能な内在論理で特定されるべきである。

図５に示すように、本発明は、画像処理装置を更に提供する。前記装置は、下記のモジュールを備える。

取得モジュール５０１は、第１テキスト画像の特徴マップを取得し、前記特徴マップは、少なくとも１つの特徴シーケンスを含み、前記特徴シーケンスは、前記第１テキスト画像中の少なくとも２つの画像ブロックの間の関連性を表すために用いられる。

第１処理モジュール５０２は、前記少なくとも１つの特徴シーケンスに基づいて前記第１テキスト画像を処理し、第２テキスト画像を取得し、前記第２テキスト画像の解像度は、前記第１テキスト画像の解像度よりも大きい。

テキスト認識モジュール５０３は、第２テキスト画像に対してテキスト認識を行う。

幾つかの実施例において、前記ニューラルネットワークは、順次接続される複数のサブネットワークを含み、前記取得モジュールは、前記複数のサブネットワークのうちの第ｉサブネットワークから出力された第ｉ出力画像を前記複数のサブネットワークのうちの第ｉ＋１サブネットワークに入力することにより、前記第ｉ＋１サブネットワークを介して第ｉ＋１中間画像を生成し、前記第ｉ＋１中間画像に対して特徴抽出を行い、第ｉ＋１出力画像を取得し、第Ｎ出力画像を前記特徴マップとして特定し、前記第ｉ＋１中間画像のチャンネル数は、前記第ｉ出力画像のチャンネル数よりも大きく、ｉ及びＮは、正整数であり、Ｎは、サブネットワークの総数であり、１≦ｉ≦Ｎ－１、Ｎ≧２であり、第１出力画像を取得することは、第１サブネットワークが前記第１テキスト画像に基づいて第１中間画像を生成し、前記第１中間画像に対して特徴抽出を行い、第１特徴マップを取得することを含む。

幾つかの実施例において、前記装置は、前記少なくとも１つの特徴シーケンスに基づいて前記第１テキスト画像を処理する前に、前記第１テキスト画像のチャンネル数と前記特徴マップのチャンネル数とが同じとするように、前記第１テキスト画像を処理するための第２処理モジュールを更に備える。

幾つかの実施例において、前記装置は、第２テキスト画像が取得された後、前記第２テキスト画像のチャンネル数と前記第１テキスト画像のチャンネル数とが同じとするように、前記第２テキスト画像を処理するための第３処理モジュールと、処理後の第２テキスト画像に対してテキスト認識を行うための前記テキスト認識モジュールとを更に備える。

幾つかの実施例において、本発明の実施例に係る装置が有する機能又は含むモジュールは、上記方法実施例に記述された方法を実行可能である。その具体的な実施は、上記方法実施例の記述を参照すればよい。簡素化のために、ここで繰り返し説明しない。

本明細書の実施例は、コンピュータ機器を更に提供する。当該コンピュータ機器は、メモリと、プロセッサと、メモリに記憶されてプロセッサで運転され得るコンピュータプログラムとを少なくとも含む。プロセッサは、前記プログラムを実行したときに上記何れかの実施例に記載の方法を実施する。

本発明の実施例は、コンピュータ機器を更に提供する。当該コンピュータ機器は、メモリと、プロセッサと、メモリに記憶されてプロセッサで運転され得るコンピュータプログラムとを含み、前記プロセッサは、前記プログラムを実行したときに何れかの実施例に記載の方法を実施する。

図６は、本明細書の実施例に係るより具体的な演算機器のハードウェア構造の模式図を示す。当該機器は、プロセッサ６０１、メモリ６０２、入力／出力インターフェース６０３、通信インターフェース６０４及びバス６０５を備えてもよい。プロセッサ６０１、メモリ６０２、入力／出力インターフェース６０３及び通信インターフェース６０４は、バス６０５を介してそれらの機器内部における互いの通信接続を実施する。

プロセッサ６０１は、汎用のＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、中央処理装置）、マイクロプロセッサ、特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ、ＡＳＩＣ）、又は１つ或いは複数の集積回路等の方式によって実現されてもよく、関連するプログラムを実行することにより、本明細書の実施例に係る技術案を実現する。

メモリ６０２は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ、読み出し専用メモリ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ランダムアクセスメモリ）、静的記憶機器、動的記憶機器等の形態を採用して実現され得る。メモリ６０２は、オペレーティングシステム及び他のアプリケーションプログラムを記憶してもよく、ソフトウェア又はファームウェアにて本明細書の実施例に係る技術案を実施する際に、関連するプログラムコードは、メモリ６０２に保存されてプロセッサ６０１によって呼び出されて実行される。

入力／出力インターフェース６０３は、入力／出力モジュールに接続されて、情報の入力及び出力を図る。入力／出力モジュールは、ユニットとして機器（図示せず）内に配置されてもよく、機器に外付けされて対応する機能を提供してもよい。入力機器は、キーボード、マウス、タッチスクリーン、マイク、各種のセンサ等を含んでもよく、出力機器は、表示器、スピーカ、振動器、パイロットランプ等を含んでもよい。

通信インターフェース６０４は、通信モジュール（図示せず）に接続されて、自機器と他の機器との通信相互作用を図る。通信モジュールは、有線方式（例えば、ＵＳＢ、回線等）によって通信を実施してもよく、無線方式（例えば、移動ネットワーク、ＷＩＦＩ、ブルートゥース（登録商標）等）によって通信を実施してもよい。

バス６０５は、機器の各ユニット（例えば、プロセッサ６０１、メモリ６０２、入力／出力インターフェース６０３及び通信インターフェース６０４）の間で情報を伝送する通路を含む。

説明すべきことは、上記機器がプロセッサ６０１、メモリ６０２、入力／出力インターフェース６０３、通信インターフェース６０４及びバス６０５のみを示したが、具体的な実施過程において、当該機器が正常運転を実現するために必要な他のユニットを更に備えてもよい。また、当業者であれば理解できるように、上記機器は、図に示す全てのユニットを含むとは限らず、本明細書の実施例の技術案を実現するために必要なユニットのみを含んでもよい。

本明細書の実施例は、コンピュータ可読記憶媒体を更に提供する。当該コンピュータ可読記憶媒体には、コンピュータプログラムが記憶され、当該プログラムがプロセッサによって実行されたときに、上記何れかの実施例に記載の方法は、実施される。

本明細書の実施例は、コンピュータプログラムを更に提供する。前記コンピュータプログラムがプロセッサによって実行されたときに、上記何れかの実施例に記載の方法は、実施される。

コンピュータ可読媒体は、永久性及び非永久性のもの、移動可能及び移動不可能な媒体を含み、如何なる方法や技術で情報の記憶を実施してもよい。情報は、コンピュータ可読指令、データ構造、プログラムのモジュール又は他のデータであってもよい。コンピュータの記憶媒体の例は、相変化メモリ(ＰＲＡＭ)、スタティックランダムアクセスメモリ(ＳＲＡＭ)、ダイナミックランダムアクセスメモリ(ＤＲＡＭ)、他のタイプのランダムアクセスメモリ(ＲＡＭ)、読み取り専用メモリ(ＲＯＭ)、電気的に消去可能なプログラム可能な読み取り専用メモリ(ＥＥＰＲＯＭ)、フラッシュ記憶体若しくは他のメモリ技術、読み取り専用光ディスク・読み取り専用メモリ(ＣＤ－ＲＯＭ)、デジタル・バーサタイル・ディスク(ＤＶＤ)又は他の光学記憶形態、磁気カセット型テープ、テープ・磁気ディスク記憶若しくは他の磁気記憶機器、又は、演算機器によってアクセスされ得る情報を記憶するための如何なる他の非伝送媒体も含むが、それらに限定されない。本明細書での定義によれば、コンピュータ可読媒体は、変調されたデータ信号や搬送波のような、一時的なコンピュータ可読媒体（ｔｒａｎｓｉｔｏｒｙｍｅｄｉａ）を含まない。

以上の実施形態の記述により、当業者は、本明細書の実施例がソフトウェアプラス必須の汎用ハードウェアプラットフォームの方式で実現され得ることを明白に理解できる。このような理解を基に、本明細書の実施例の技術案は、本質的に又は従来技術に対して貢献を与える部分がソフトウェア製品の形式で体現されてもよい。当該コンピュータソフトウェア製品は、記憶媒体、例えば、ＲＯＭ／ＲＡＭ、磁気ディスク、光ディスク等に記憶され、幾つかの指令を含むことで一台のコンピュータ機器（パソコン、サーバ又はネットワーク機器等であってもよい）に本明細書の各実施例又は実施例の一部に記載の方法を実行させてもよい。

上記実施例で説明されるシステム、装置、モジュール若しくは手段は、具体的にコンピュータチップ又は実体によって実施されてもよく、又はある機能を有する製品によって実施されてもよい。１つの典型的な実施機器は、コンピュータである。コンピュータの具体的な形態は、パソコン、ラップトップコンピュータ、携帯電話、カメラ電話、スマートフォン、パーソナルデジタルアシスタント、メディアプレーヤー、ナビゲーション機器、電子メール送受信機器、ゲームコンソール、タブレットコンピュータ、ウェアラブル機器又はこれらの機器のうちの任意何種かの機器の組み合わせであってもよい。

本発明における各実施例は、何れも漸進の方式で記述され、各実施例は、他の実施例との相違点を重点的に説明し、各実施例同士の同じ又は類似する部分が互いに参照すればよい。特に装置実施例は、方法実施例に基本的に類似するため、記述が相対的に簡単であり、関連箇所が方法実施例の部分の説明を参照すればよい。上述した装置実施例は、単に模式的なものである。上記分離部品として説明されたモジュールが物理的に分離されるものであってもよくでなくてもよい。本明細書の実施例の技術案を実施するときに、各モジュールの機能を同一又は複数のソフトウェア及び／又はハードウェアで実現可能である。実際の需要に応じてその中の一部又は全部のモジュールを選択して本実施例の技術案の目的を果たすことが可能である。当業者は、進歩性に値する労力を掛けずに、理解して実施可能である。

本願は、２０２０年０４月３０日に提出された、出願番号が２０２０１０３６２５１９．Ｘであって発明の名称が「テキスト認識方法、装置、機器及び記憶媒体」である中国特許出願の優先権を要求し、当該中国特許出願に開示された全ての内容が引用によって本願に組み込まれる。

Claims

テキスト認識方法であって、
第１テキスト画像の特徴マップを取得するステップであって、前記特徴マップが少なくとも１つの特徴シーケンスを含むステップと、
前記少なくとも１つの特徴シーケンスに基づいて前記第１テキスト画像を処理し、第２テキスト画像を取得するステップと、
前記第２テキスト画像に対してテキスト認識を行うステップと、を含み、
前記特徴シーケンスは、前記第１テキスト画像中の少なくとも２つの画像ブロックの間の関連性を表すために用いられ、前記第２テキスト画像の解像度は、前記第１テキスト画像の解像度よりも大きいことを特徴とするテキスト認識方法。
前記第１テキスト画像の特徴マップを取得するステップは、
前記第１テキスト画像の複数のチャンネル図と前記第１テキスト画像に対応する２値画像とを取得することと、
前記複数のチャンネル図及び前記２値画像に対して特徴抽出を行い、前記第１テキスト画像の特徴マップを取得することと、を含むことを特徴とする請求項１に記載のテキスト認識方法。
前記第１テキスト画像の特徴マップを取得するステップは、
前記第１テキスト画像を予めトレーニングされたニューラルネットワークに入力し、前記ニューラルネットワークから出力された特徴マップを取得することを含むことを特徴とする請求項１又は２に記載のテキスト認識方法。
前記ニューラルネットワークは、
前記第１テキスト画像に基づいて中間画像を生成することと、
前記中間画像に対して特徴抽出を行い、前記特徴マップを取得することとにより、前記特徴マップを取得し、
ただし、前記中間画像のチャンネル数は、前記第１テキスト画像のチャンネル数よりも大きいことを特徴とする請求項３に記載のテキスト認識方法。
前記ニューラルネットワークは、少なくとも１つの畳み込みニューラルネットワークと双方向長短期記憶ネットワークとを含み、前記少なくとも１つの畳み込みニューラルネットワークの出力端は、前記双方向長短期記憶ネットワークの入力端に接続され、
前記第１テキスト画像の特徴シーケンスを取得することは、
前記第１テキスト画像を前記少なくとも１つの畳み込みニューラルネットワークに入力し、前記少なくとも１つの畳み込みニューラルネットワークから出力された中間画像を取得することと、
前記中間画像を前記双方向長短期記憶ネットワークに入力し、前記双方向長短期記憶ネットワークから出力された前記特徴マップを取得することと、を含むことを特徴とする請求項３又は４に記載のテキスト認識方法。
前記ニューラルネットワークは、順次接続される複数のサブネットワークを含み、
前記第１テキスト画像を予めトレーニングされたニューラルネットワークに入力し、前記ニューラルネットワークから出力された特徴マップを取得することは、
前記複数のサブネットワークのうちの第ｉサブネットワークから出力された第ｉ出力画像を前記複数のサブネットワークのうちの第ｉ＋１サブネットワークに入力することにより、前記第ｉ＋１サブネットワークを介して第ｉ＋１中間画像を生成し、前記第ｉ＋１中間画像に対して特徴抽出を行い、第ｉ＋１出力画像を取得することと、
第Ｎ出力画像を前記特徴マップとして特定することと、を含み、
前記第ｉ＋１中間画像のチャンネル数は、前記第ｉ出力画像のチャンネル数よりも大きく、ｉ及びＮは、正整数であり、Ｎは、サブネットワークの総数であり、１≦ｉ≦Ｎ－１、Ｎ≧２であり、
第１出力画像を取得することは、第１サブネットワークが前記第１テキスト画像に基づいて第１中間画像を生成し、前記第１中間画像に対して特徴抽出を行い、第１出力画像を取得することを含むことを特徴とする請求項３から５の何れか一項に記載のテキスト認識方法。
前記少なくとも１つの特徴シーケンスに基づいて前記第１テキスト画像を処理する前に、前記第１テキスト画像のチャンネル数と前記特徴マップのチャンネル数とが同じとなるように、前記第１テキスト画像を処理するステップを更に含むことを特徴とする請求項１から６の何れか一項に記載のテキスト認識方法。
前記テキスト認識方法は、
第２テキスト画像が取得された後、前記第２テキスト画像のチャンネル数と前記第１テキスト画像のチャンネル数とが同じとなるように、前記第２テキスト画像を処理するステップを更に含み、
前記第２テキスト画像に対してテキスト認識を行うステップは、
処理後の第２テキスト画像に対してテキスト認識を行うことを含むことを特徴とする請求項７に記載のテキスト認識方法。
前記テキスト認識方法は、
少なくとも１グループのトレーニング画像に基づいて前記ニューラルネットワークをトレーニングするステップを更に含み、
各グループのトレーニング画像は、第１トレーニング画像及び第２トレーニング画像を含み、前記第１トレーニング画像と前記第２トレーニング画像とは、同じテキストを含み、
前記第１トレーニング画像の解像度は、第１解像度閾値よりも小さく、前記第２トレーニング画像の解像度は、第２解像度閾値よりも大きく、前記第１解像度閾値は、前記第２解像度閾値以下であることを特徴とする請求項３から８の何れか一項に記載のテキスト認識方法。
前記少なくとも１グループのトレーニング画像に基づいて前記ニューラルネットワークをトレーニングするステップは、
前記第１トレーニング画像を前記ニューラルネットワークに入力し、前記ニューラルネットワークの出力画像を取得することと、
前記第１トレーニング画像に対応する第２トレーニング画像と前記出力画像とに基づいて損失関数を特定することと、
前記損失関数に基づいて前記ニューラルネットワークに対して教師ありトレーニングを行うことと、を含むことを特徴とする請求項９に記載のテキスト認識方法。
前記損失関数は、第１損失関数と第２損失関数とのうちの少なくとも１つを含み、
前記第１損失関数は、前記第１トレーニング画像と前記第２トレーニング画像とにおける各対応画素の平均二乗誤差に基づいて特定され、及び／又は、
前記第２損失関数は、前記第１トレーニング画像と前記第２トレーニング画像とにおける各対応画素の勾配場の差に基づいて特定されることを特徴とする請求項１０に記載のテキスト認識方法。
前記少なくとも１グループのトレーニング画像に基づいて前記ニューラルネットワークをトレーニングする前に、前記第１トレーニング画像と前記第２トレーニング画像とを整列させるステップを更に含むことを特徴とする請求項９から１１の何れか一項に記載のテキスト認識方法。
前記第１トレーニング画像と第２トレーニング画像とを整列させるステップは、
予めトレーニングされた空間変換ネットワークを介して前記第１トレーニング画像を処理することにより、前記第１トレーニング画像中のテキストと前記第２トレーニング画像中のテキストとを整列させることを含むことを特徴とする請求項１２に記載のテキスト認識方法。
前記第１トレーニング画像は、第１焦点距離が設定された第１画像収集装置が第１位置における撮影対象を撮影したものであり、
前記第２トレーニング画像は、第２焦点距離が設定された第２画像収集装置が前記第１位置における前記撮影対象を撮影したものであり、
前記第１焦点距離は、前記第２焦点距離よりも小さいことを特徴とする請求項９から１３の何れか一項に記載のテキスト認識方法。
テキスト認識装置であって、
第１テキスト画像の特徴マップを取得するための取得モジュールであって、前記特徴マップが少なくとも１つの特徴シーケンスを含む取得モジュールと、
前記少なくとも１つの特徴シーケンスに基づいて前記第１テキスト画像を処理し、第２テキスト画像を取得するための第１処理モジュールと、
第２テキスト画像に対してテキスト認識を行うためのテキスト認識モジュールと、を備え、
前記特徴シーケンスは、前記第１テキスト画像中の少なくとも２つの画像ブロックの間の関連性を表すために用いられ、前記第２テキスト画像の解像度は、前記第１テキスト画像の解像度よりも大きいことを特徴とするテキスト認識装置。
コンピュータプログラムが記憶されるコンピュータ可読記憶媒体であって、
当該プログラムがプロセッサによって実行されたときに、請求項１から１４の何れか一項に記載のテキスト認識方法は、実施されることを特徴とするコンピュータ可読記憶媒体。
コンピュータ機器であって、
メモリと、プロセッサと、メモリに記憶されてプロセッサで運転されるコンピュータプログラムと、を含み、
前記プロセッサは、前記プログラムを実行したときに、請求項１から１４の何れか一項に記載のテキスト認識方法を実施することを特徴とするコンピュータ機器。
コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサによって実行されたときに、請求項１から１４の何れか一項に記載のテキスト認識方法は、実施されることを特徴とするコンピュータプログラム。