JP2018045359A - Image processing device and image processing program - Google Patents
Image processing device and image processing program Download PDFInfo
- Publication number
- JP2018045359A JP2018045359A JP2016178469A JP2016178469A JP2018045359A JP 2018045359 A JP2018045359 A JP 2018045359A JP 2016178469 A JP2016178469 A JP 2016178469A JP 2016178469 A JP2016178469 A JP 2016178469A JP 2018045359 A JP2018045359 A JP 2018045359A
- Authority
- JP
- Japan
- Prior art keywords
- image
- module
- area
- region
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
Description
本発明は、画像処理装置及び画像処理プログラムに関する。 The present invention relates to an image processing apparatus and an image processing program.
特許文献1には、画像情報をもとに人物等の動作を認識する画像認識方法、及びその画像認識方法を用いた画像処理装置を提供することを課題とし、画像処理装置は、背景の前で動作する人物等の被写体を撮像する撮像手段と、その動画データをフレーム画像に分離するフレーム分離手段と、そのフレーム画像を複数の小領域に分割する領域分割手段と、背景画像データを記憶する背景画像記憶手段と、その背景画像データを利用して各小領域内に人物等を表す特徴領域が含まれるかどうかを判定し数値列データに変換する変換手段と、その数値列データをニューラルネットワークに適用してパターンコードを生成する知識処理手段と、そのパターンコードをもとに動作の内容を認識する動作認識手段とを備えることが開示されている。 In Patent Document 1, it is an object to provide an image recognition method for recognizing an action of a person or the like based on image information, and an image processing apparatus using the image recognition method. An image pickup means for picking up an image of a subject such as a person, a frame separation means for separating the moving image data into frame images, an area dividing means for dividing the frame image into a plurality of small areas, and background image data are stored. Background image storage means, conversion means for determining whether each small area includes a feature region representing a person or the like by using the background image data, and converting it into numeric string data, and the numeric string data as a neural network It is disclosed that it comprises knowledge processing means for generating a pattern code by applying to the above and an action recognition means for recognizing the contents of the action based on the pattern code.
特許文献2には、HCIシステムにおける手と手指示点の位置決め方法及び手指のジェスチャ決定方法を提供することを課題とし、手位置決め方法は、被制御領域の画像を連続取得して、前景物が含まれる画像列を取得する段階と、撮像した前記画像から前景画像を抽出し、抽出した前記前景画像の2値化処理を行って、2値化前景画像を生成する段階と、前記2値化前景画像の最小凸包の画素頂点集合を取得し、該最小凸包の各画素頂点を中心点に、手が含まれる候補領域として関心領域を構築する段階と、構築した前記各関心領域から手画像特徴を抽出し、パターン認識方法により、前記候補領域における前記手が含まれる関心領域を決定する段階とを含むことが開示されている。 Patent Document 2 has an object to provide a hand-to-hand pointing point positioning method and a finger gesture determination method in an HCI system. The hand positioning method continuously acquires images of a controlled region, and a foreground object is obtained. Obtaining a sequence of included images; extracting a foreground image from the captured image; performing binarization processing on the extracted foreground image to generate a binarized foreground image; and binarization Obtaining a set of pixel vertices of the minimum convex hull of the foreground image, constructing a region of interest as a candidate region including a hand around each pixel vertex of the minimum convex hull, and hand from the constructed regions of interest Extracting an image feature, and determining a region of interest in which the hand is included in the candidate region by a pattern recognition method.
特許文献3には、物体を含む画像から視認対象物体を検出する場合に客観的な検出結果を得ることが可能な画像の物体検出装置を提供することを課題とし、画像の物体検出装置は、複数の物体を含む画像をパルスニューラルネットワークに入力することによって、画像内で経時的に変遷する看者の注視点を時系列データとして検出する注視点検出部と、注視点検出部が検出した注視点を基準として画像内に注視点視野領域を設定する注視点視野領域設定部と、複数の物体のうち注視点視野領域設定部が設定した注視点視野領域に含まれる物体を視認対象物体として検出する物体検出部と、物体検出部が視認対象物体を検出する毎に検出された視認対象物体に関する所定の検出情報を蓄積して記憶する検出情報記憶部と、を備えることが開示されている。 In Patent Document 3, it is an object to provide an image object detection device capable of obtaining an objective detection result when a visual target object is detected from an image including an object. By inputting an image containing multiple objects to the pulse neural network, the gazing point detection unit that detects the gaze point of the viewer that changes over time in the image as time series data, and the gazing point detected by the gazing point detection unit A gazing point visual field setting unit that sets a gazing point visual field region in an image based on the viewpoint, and an object included in the gazing point visual field region set by the gazing point visual field setting unit among a plurality of objects is detected as a visual target object. And a detection information storage unit that accumulates and stores predetermined detection information related to the visual target object detected each time the object detection unit detects the visual target object. To have.
画像を対象とした機械学習(以下、単に学習ともいう)が行われている。対象の周辺の領域も含めることによって、対象であることが判明する場合がある。
しかし、画像から対象の領域だけを学習の対象とした技術では、その領域の周辺の領域を考慮した学習とはならない。一方、単に領域を拡大して学習したのでは、どの領域を認識すればよいのかが不明である。
Machine learning (hereinafter also simply referred to as learning) for images is performed. By including the area around the object, it may be proved to be the object.
However, in the technique in which only the target area is learned from the image, the learning is not performed in consideration of the area around the area. On the other hand, if learning is performed by simply enlarging a region, it is unclear which region should be recognized.
本発明の要旨とするところは、次の各項の発明に存する。
請求項1の発明は、画像から対象が存在する領域を検出する検出手段と、前記領域を拡大する拡大手段と、前記拡大された領域で、前記画像から第1の画像を切り出す切出手段と、前記検出手段によって検出された領域内の対象から第2の画像を生成する生成手段と、前記第1の画像と前記第2の画像を用いて、機械学習を行う学習手段を有する画像処理装置である。
The gist of the present invention resides in the inventions of the following items.
The invention of claim 1 is a detection means for detecting an area where an object exists from an image, an enlargement means for enlarging the area, and a cutout means for cutting out a first image from the image at the enlarged area. An image processing apparatus comprising: generating means for generating a second image from an object in the region detected by the detecting means; and learning means for performing machine learning using the first image and the second image. It is.
請求項2の発明は、前記生成手段は、前記対象の第1の部分と対象以外の第2の部分とを分けた第2の画像を生成する、請求項1に記載の画像処理装置である。 The invention according to claim 2 is the image processing apparatus according to claim 1, wherein the generation unit generates a second image in which the first part of the target and the second part other than the target are separated. .
請求項3の発明は、前記生成手段は、前記第1の部分を第1の値とし、前記第2の部分を第2の値とした2値画像として、第2の画像を生成する、請求項2に記載の画像処理装置である。 According to a third aspect of the present invention, the generating means generates a second image as a binary image having the first portion as a first value and the second portion as a second value. The image processing apparatus according to Item 2.
請求項4の発明は、前記生成手段は、前記第1の画像と同じ大きさの第2の画像を生成する、請求項3に記載の画像処理装置である。 The invention according to claim 4 is the image processing apparatus according to claim 3, wherein the generation means generates a second image having the same size as the first image.
請求項5の発明は、文字を前記対象とし、前記学習手段は、前記検出手段によって検出された領域内の画像が文字であるか否かを学習する、請求項1に記載の画像処理装置である。 The invention according to claim 5 is the image processing apparatus according to claim 1, wherein the object is a character, and the learning unit learns whether or not the image in the region detected by the detection unit is a character. is there.
請求項6の発明は、前記学習手段は、文字である可能性を示す数値と文字ではない可能性を示す数値を出力する、請求項5に記載の画像処理装置である。 The invention according to claim 6 is the image processing apparatus according to claim 5, wherein the learning means outputs a numerical value indicating the possibility of being a character and a numerical value indicating a possibility of not being a character.
請求項7の発明は、画像から対象が存在する領域を検出する検出手段と、前記領域を拡大する拡大手段と、前記拡大された領域で、前記画像から第1の画像を切り出す切出手段と、前記検出手段によって検出された領域内の対象から第2の画像を生成する生成手段と、請求項1から6のいずれか一項に記載の画像処理装置による学習結果を用いた認識を行う認識手段を有する画像処理装置である。 According to a seventh aspect of the present invention, there is provided a detecting means for detecting an area where an object is present from an image, an enlarging means for enlarging the area, and a cutting means for extracting a first image from the image at the enlarged area. Recognition that performs recognition using a learning result by the image processing apparatus according to any one of claims 1 to 6, and a generation unit that generates a second image from an object in an area detected by the detection unit An image processing apparatus having means.
請求項8の発明は、コンピュータを、画像から対象が存在する領域を検出する検出手段と、前記領域を拡大する拡大手段と、前記拡大された領域で、前記画像から第1の画像を切り出す切出手段と、前記検出手段によって検出された領域内の対象から第2の画像を生成する生成手段と、前記第1の画像と前記第2の画像を用いて、機械学習を行う学習手段として機能させるための画像処理プログラムである。 According to an eighth aspect of the present invention, there is provided a computer for detecting a region where a target exists from an image, an enlarging unit for enlarging the region, and a cutout for cutting out a first image from the image at the enlarged region. Functioning as output means, generation means for generating a second image from the object in the region detected by the detection means, and learning means for performing machine learning using the first image and the second image This is an image processing program.
請求項9の発明は、コンピュータを、画像から対象が存在する領域を検出する検出手段と、前記領域を拡大する拡大手段と、前記拡大された領域で、前記画像から第1の画像を切り出す切出手段と、前記検出手段によって検出された領域内の対象から第2の画像を生成する生成手段と、請求項8に記載の画像処理プログラムによる学習結果を用いた認識を行う認識手段として機能させるための画像処理プログラムである。 According to the ninth aspect of the present invention, there is provided a computer for detecting a region in which an object exists from an image, a magnifying unit for enlarging the region, and a cutout for cutting out a first image from the image at the enlarged region. And a generating unit that generates a second image from an object within the region detected by the detecting unit, and a recognizing unit that performs recognition using a learning result obtained by the image processing program according to claim 8. This is an image processing program.
請求項1の画像処理装置によれば、認識すべき対象の領域を明確にしつつ、対象が存在する領域の周辺の領域を含めた機械学習を行うことができる。 According to the image processing apparatus of the first aspect, it is possible to perform machine learning including a region around a region where the target exists while clarifying a target region to be recognized.
請求項2、3の画像処理装置によれば、対象の第1の部分と対象以外の第2の部分とを分けた第2の画像が機械学習の対象となる。 According to the image processing apparatus of the second and third aspects, the second image obtained by dividing the first part of the target and the second part other than the target is the target of machine learning.
請求項4の画像処理装置によれば、統一された大きさの領域の画像を用いて学習される。 According to the image processing apparatus of the fourth aspect, learning is performed using an image of a region having a uniform size.
請求項5、6の画像処理装置によれば、検出された領域内の画像が文字であるか否かについての学習が行われる。 According to the image processing apparatus of the fifth and sixth aspects, learning is performed as to whether or not the image in the detected area is a character.
請求項7の画像処理装置によれば、認識すべき対象の領域を明確にしつつ、対象が存在する領域の周辺の領域を含めた認識を行うことができる。 According to the image processing apparatus of the seventh aspect, it is possible to perform recognition including the area around the area where the target exists, while clarifying the target area to be recognized.
請求項8の画像処理プログラムによれば、認識すべき対象の領域を明確にしつつ、対象が存在する領域の周辺の領域を含めた機械学習を行うことができる。 According to the image processing program of the eighth aspect, it is possible to perform machine learning including a region around a region where the target exists while clarifying a target region to be recognized.
請求項9の画像処理プログラムによれば、認識すべき対象の領域を明確にしつつ、対象が存在する領域の周辺の領域を含めた認識を行うことができる。 According to the image processing program of the ninth aspect, it is possible to perform recognition including the area around the area where the target exists while clarifying the target area to be recognized.
以下、図面に基づき本発明を実現するにあたっての好適な一実施の形態の例を説明する。
図1は、本実施の形態(画像認識学習装置100)の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、それらのモジュールとして機能させるためのコンピュータ・プログラム(コンピュータにそれぞれの手順を実行させるためのプログラム、コンピュータをそれぞれの手段として機能させるためのプログラム、コンピュータにそれぞれの機能を実現させるためのプログラム)、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するという意味である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係等)の場合にも用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態にしたがって、又はそれまでの状況・状態にしたがって定まることの意を含めて用いる。「予め定められた値」が複数ある場合は、それぞれ異なった値であってもよいし、2以上の値(もちろんのことながら、全ての値も含む)が同じであってもよい。また、「Aである場合、Bをする」という記載は、「Aであるか否かを判断し、Aであると判断した場合はBをする」の意味で用いる。ただし、Aであるか否かの判断が不要である場合を除く。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」(社会システム)にすぎないものは含まない。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスク、RAM(Random Access Memory)、外部記憶媒体、通信回線を介した記憶装置、CPU(Central Processing Unit)内のレジスタ等を含んでいてもよい。
Hereinafter, an example of a preferred embodiment for realizing the present invention will be described with reference to the drawings.
FIG. 1 shows a conceptual module configuration diagram of a configuration example of the present embodiment (image recognition learning apparatus 100).
The module generally refers to components such as software (computer program) and hardware that can be logically separated. Therefore, the module in the present embodiment indicates not only a module in a computer program but also a module in a hardware configuration. Therefore, the present embodiment is a computer program for causing these modules to function (a program for causing a computer to execute each procedure, a program for causing a computer to function as each means, and a function for each computer. This also serves as an explanation of the program and system and method for realizing the above. However, for the sake of explanation, the words “store”, “store”, and equivalents thereof are used. However, when the embodiment is a computer program, these words are stored in a storage device or stored in memory. This means that control is performed so as to be stored in the apparatus. Modules may correspond to functions one-to-one, but in mounting, one module may be configured by one program, or a plurality of modules may be configured by one program, and conversely, one module May be composed of a plurality of programs. The plurality of modules may be executed by one computer, or one module may be executed by a plurality of computers in a distributed or parallel environment. Note that one module may include other modules. Hereinafter, “connection” is used not only for physical connection but also for logical connection (data exchange, instruction, reference relationship between data, etc.). “Predetermined” means that the process is determined before the target process, and not only before the process according to this embodiment starts but also after the process according to this embodiment starts. Also, if it is before the target processing, it is used in accordance with the situation / status at that time or with the intention to be decided according to the status / status up to that point. When there are a plurality of “predetermined values”, they may be different values, or two or more values (of course, including all values) may be the same. In addition, the description of “do B when A” is used to mean “determine whether or not A and do B when A”. However, the case where it is not necessary to determine whether or not A is excluded.
In addition, the system or device is configured by connecting a plurality of computers, hardware, devices, and the like by communication means such as a network (including one-to-one correspondence communication connection), etc., and one computer, hardware, device. The case where it implement | achieves by etc. is also included. “Apparatus” and “system” are used as synonymous terms. Of course, the “system” does not include a social “mechanism” (social system) that is an artificial arrangement.
In addition, when performing a plurality of processes in each module or in each module, the target information is read from the storage device for each process, and the processing result is written to the storage device after performing the processing. is there. Therefore, description of reading from the storage device before processing and writing to the storage device after processing may be omitted. Here, the storage device may include a hard disk, a RAM (Random Access Memory), an external storage medium, a storage device via a communication line, a register in a CPU (Central Processing Unit), and the like.
本実施の形態である画像認識学習装置100は、画像認識のための機械学習を行うものであって、図1の例に示すように、画像受付モジュール105、文字切取モジュール110、領域抽出モジュール115、領域拡大モジュール120、マップ画像生成モジュール125、画像切出モジュール130、正解付与モジュール135、機械学習モジュール140、学習結果出力モジュール145を有している。
The image
画像受付モジュール105は、文字切取モジュール110、画像切出モジュール130と接続されている。画像受付モジュール105は、画像を受け付けて、その画像を文字切取モジュール110へ渡す。画像を受け付けるとは、例えば、スキャナ、カメラ等で画像を読み込むこと、ファックス等で通信回線を介して外部機器から画像を受信すること、ハードディスク(コンピュータに内蔵されているものの他に、ネットワークを介して接続されているもの等を含む)等に記憶されている画像を読み出すこと等が含まれる。画像は、2値画像、多値画像(カラー画像を含む)であってもよい。受け付ける画像は、1枚であってもよいし、複数枚であってもよい。画像受付モジュール105が受け付ける画像には、対象の画像が含まれている。また、画像の内容として、対象が写り込んだ写真画像、広告宣伝用のパンフレット等であってもよい。
また、ここで対象とは、例えば、文字、人物(顔、顔の一部、体、体の一部等)、物(自動車、飛行機等の人工物、山、川等の自然物、犬、猫等の動物)等がある。以下、対象として文字を例示するが、人物、物等であってもよい。文字画像が含まれている画像として、例えば、看板、標識、値札等を撮影した画像が該当する。
The
In addition, here, for example, a character, a person (a face, a part of a face, a body, a part of a body, etc.), an object (an artificial object such as a car or an airplane, a natural object such as a mountain, a river, a dog, a cat, etc.) Etc.). Hereinafter, although a character is illustrated as an object, a person, an object, etc. may be sufficient. As an image including a character image, for example, an image obtained by photographing a signboard, a sign, a price tag, or the like is applicable.
文字切取モジュール110は、画像受付モジュール105、領域抽出モジュール115、マップ画像生成モジュール125と接続されている。文字切取モジュール110は、画像から対象である文字が存在する領域を検出する。例えば、文字切取モジュール110は、MSER(Maximally Stable External Regions)処理を行う。MSER処理は、文字が存在する領域のバウンディングボックス(bounding box、外接矩形ともいわれる)を取得する処理である。
領域抽出モジュール115は、文字切取モジュール110、領域拡大モジュール120、マップ画像生成モジュール125と接続されている。領域抽出モジュール115は、文字切取モジュール110が検出した領域を抽出する。具体的には、画像受付モジュール105が受け付けた元画像における矩形領域の位置と大きさを示す値によって領域を特定する。例えば、矩形領域の左上角の位置(X座標、Y座標)、矩形領域の幅、高さの組み合わせ等がある。
The
The
領域拡大モジュール120は、領域抽出モジュール115、画像切出モジュール130と接続されている。領域拡大モジュール120は、領域を拡大する。なお、拡大された後の領域を、以下、「切り取り領域」ともいう。ここでの拡大は、領域を大きくすることであって、いわゆる画像の拡大処理(解像度を高める処理)ではない。拡大は、予め定められた値(幅をXドット、高さをYドット等)だけ、矩形領域を大きくすることであってもよいし、矩形領域の幅と高さに予め定められた倍率(1以上)を乗算して大きくしてもよいし、隣接している矩形領域の少なくとも一部が含まれるように、矩形領域を拡大する等してもよい。また、この拡大の中心は、矩形領域の中心としてもよいし、矩形領域の左上角等としてもよい。
The
マップ画像生成モジュール125は、文字切取モジュール110、領域抽出モジュール115、機械学習モジュール140と接続されている。マップ画像生成モジュール125は、文字切取モジュール110によって検出された領域内の対象から第2の画像を生成する。
また、マップ画像生成モジュール125は、対象の第1の部分(以下、関心領域ともいう)と対象以外の第2の部分とを分けた第2の画像を生成するようにしてもよい。この第2の画像は、いわゆるマップ画像(マスク画像)である。「第1の部分」とは、文字そのものを示す形を示す部分である。「第2の部分」とは、第1の部分以外の部分であって、いわゆる背景である。
さらに、マップ画像生成モジュール125は、第1の部分を第1の値とし、第2の部分を第2の値とした2値画像として、第2の画像を生成するようにしてもよい。2値画像であるので、マスク処理として、元画像とEOR処理を行うことによって、その画像を切り出すことができるようになる。
さらに、マップ画像生成モジュール125は、第1の画像と同じ大きさ(サイズ)の第2の画像を生成するようにしてもよい。ここで「第1の画像と同じ大きさ」とは、領域拡大モジュール120によって拡大された後の領域の大きさのことである。これによって、統一された大きさの画像を用いて学習することができるようになる。同じ大きさの画像を扱うことは、ベクトルの次元数が同じであることを意味する。もちろんのことながら、第1の画像と第2の画像は、画像受付モジュール105が受け付けた元画像内における位置も同じである。したがって、第1の画像と第2の画像は、元画像内の同じ部分画像(対象が存在する領域の画像)を対象としたものであり、後述するように第1の画像はその部分画像そのものであり、第2の画像はその部分画像のマップ画像である。
The map
Further, the map
Further, the map
Further, the map
画像切出モジュール130は、画像受付モジュール105、領域拡大モジュール120、機械学習モジュール140と接続されている。画像切出モジュール130は、領域拡大モジュール120によって拡大された領域で、画像受付モジュール105が受け付けた画像から第1の画像(以下、候補領域画像ともいう)を切り出す。もちろんのことながら、領域拡大モジュール120によって拡大された領域内には、文字切取モジュール110が切り出した領域が含まれているので、対象の画像が含まれていることになり、その周辺画像も含まれることになる。周辺画像には、他の対象が存在することもあり、文字切取モジュール110で検出された対象が、真に対象であるか否かを、より明確に判定することができることになる。対象が文字である場合は、文字切取モジュール110で検出された文字に隣接している文字を含めて、画像切出モジュール130は切り出すことになる。例えば、文字切取モジュール110で検出された文字画像が「1」であった場合、その形状だけでは、文字であるか否かを判定することが困難であることが多い。しかし、その周囲に他の文字(「8」、「日」等)があれば、「1」という文字があると判定しやすくなる。つまり、判定の精度を高めることができるようになる。一方、単に、領域内に複数の対象があるというだけでは、どれが学習の対象であるかが判然としないことになる。そこで、マップ画像生成モジュール125が生成した第2の画像も、機械学習モジュール140による学習の入力対象としたものである。
The
正解付与モジュール135は、機械学習モジュール140と接続されている。正解付与モジュール135は、文字切取モジュール110によって検出された領域内の画像に対する正解(教師データ)を、機械学習モジュール140に与えるものである。対象が文字である場合は、文字切取モジュール110によって検出された領域内の画像が文字であるか否かを示す情報、その文字の文字コード等がある。
The correct
機械学習モジュール140は、マップ画像生成モジュール125、画像切出モジュール130、正解付与モジュール135、学習結果出力モジュール145と接続されている。機械学習モジュール140は、画像切出モジュール130によって切り出された第1の画像とマップ画像生成モジュール125によって生成された第2の画像を用いて、機械学習を行う。この機械学習は、文字切取モジュール110によって切り出された対象を認識するための学習であり、その対象があるか否か、その対象が何であるか等の判定をするための学習である。具体的には、対象が文字である場合、文字切取モジュール110が検出した画像は、文字であるか否か、その文字は何の文字あるか(一般的な文字認識)等を行うための学習である。そして、機械学習モジュール140は、文字であるか否かを学習する場合は、文字である可能性を示す数値と文字ではない可能性を示す数値を出力するようにしてもよい。
機械学習モジュール140が行う機械学習として、例えば、CNN(Convolutional Neural Networks)、サポートベクターマシン(SVM:Support Vector Machine)等がある。以下、CNNを例示して説明する。CNNでは、大量の学習データにより、自動的に画像の特徴抽出方法を学習する。そして、学習後は、CNNに画像を入力するだけで特徴量を抽出し、認識(ラベリング)を行うことができる。なお、CNNは、画像に写る物体の位置が多少ずれていても、そのずれを吸収する処理(後述するConvolution処理、Pooling処理)が組み込まれている。特に、R−CNN(Regions with Convolutional Neural Network)では、画像から文字切取モジュール110、領域抽出モジュール115で対象の領域を抽出し、抽出した領域を基準に画像の切り取りを行う。切り取られた画像(候補領域画像)をCNN(機械学習モジュール140)に入力し対象の認識を行う。そして、文字領域に適用した場合、前述したように、MSERによって領域を抽出し、抽出された領域を切り出し、CNNに入力しラベリングを行う。なお、CNNの出力はスコアでも文字認識結果でもよい。もちろんのことながら、正解付与モジュール135を不要として教師なし学習を行うようにしてもよい。
The
Examples of the machine learning performed by the
学習結果出力モジュール145は、機械学習モジュール140と接続されている。学習結果出力モジュール145は、学習結果を画像認識装置200に渡す。具体的には、学習結果は、機械学習が終了したCNNであり、画像認識装置200の認識モジュール240として機能する。
The learning
図2は、本実施の形態(画像認識装置200)の構成例についての概念的なモジュール構成図である。
本実施の形態である画像認識装置200は、画像認識学習装置100による学習結果を用いて画像認識を行うものであって、図2の例に示すように、画像受付モジュール205、文字切取モジュール210、領域抽出モジュール215、領域拡大モジュール220、マップ画像生成モジュール225、画像切出モジュール230、認識モジュール240、認識結果出力モジュール245を有している。。
なお、画像認識装置200における画像受付モジュール205、文字切取モジュール210、領域抽出モジュール215、領域拡大モジュール220、マップ画像生成モジュール225、画像切出モジュール230は、図1の例に示した画像認識学習装置100の画像受付モジュール105、文字切取モジュール110、領域抽出モジュール115、領域拡大モジュール120、マップ画像生成モジュール125、画像切出モジュール130と同等の処理、機能を有している。したがって、画像認識学習装置100と画像認識装置200は、これらのモジュールを共有して用いてもよい。なお、これらのモジュールの説明は省略する。
画像受付モジュール205は、文字切取モジュール210、画像切出モジュール230と接続されている。
文字切取モジュール210は、画像受付モジュール205、領域抽出モジュール215、マップ画像生成モジュール225と接続されている。
領域抽出モジュール215は、文字切取モジュール210、領域拡大モジュール220、マップ画像生成モジュール225と接続されている。
領域拡大モジュール220は、領域抽出モジュール215、画像切出モジュール230と接続されている。
マップ画像生成モジュール225は、文字切取モジュール210、領域抽出モジュール215、認識モジュール240と接続されている。
画像切出モジュール230は、画像受付モジュール205、領域拡大モジュール220、認識モジュール240と接続されている。
FIG. 2 is a conceptual module configuration diagram of a configuration example of the present embodiment (image recognition apparatus 200).
The
The
The
The
The
The
The map
The
認識モジュール240は、マップ画像生成モジュール225、画像切出モジュール230、認識結果出力モジュール245と接続されている。認識モジュール240は、画像認識学習装置100の機械学習モジュール140による学習結果を用いた認識を行う。例えば、画像認識学習装置100によって機械学習されたCNNを用いて認識を行う。具体的には、対象が文字である場合、文字切取モジュール210が検出した画像は、文字であるか否か、その文字は何の文字あるか(一般的な文字認識)等の認識を行う。
認識結果出力モジュール245は、認識モジュール240と接続されている。認識結果出力モジュール245は、認識モジュール240による認識結果を出力する。例えば、認識結果を、ディスプレイ等の表示装置に表示すること、プリンタ等の印刷装置で印刷すること、データベース等の記憶装置へ書き込むこと、メモリーカード等の記憶媒体に記憶すること、他の情報処理装置へ渡すこと等が含まれる。
The
The recognition
図3は、本実施の形態を利用したシステム構成例を示す説明図である。
図3(a)に示す例は、画像認識学習装置100は、画像取得装置310と接続されている。いわゆるスタンドアロン型のシステム構成である。画像取得装置310は、スキャナ、カメラ等である。そして、学習結果を画像認識装置200に埋め込む。
図3(b)に示す例は、画像認識装置200は、画像撮影装置320と接続されている。いわゆるスタンドアロン型のシステム構成である。画像撮影装置320は、スキャナ、カメラ等である。画像認識装置200と画像撮影装置320を一体型の構成とした認識装置としてもよい。
図3(c)に示す例は、ユーザー端末330A、ユーザー端末330B、ユーザー端末330C、画像処理装置350は、通信回線390を介してそれぞれ接続されている。通信回線390は、無線、有線、これらの組み合わせであってもよく、例えば、通信インフラとしてのインターネット、イントラネット等であってもよい。また、画像処理装置350による機能は、クラウドサービスとして実現してもよい。
画像処理装置350は、画像認識学習装置100、画像認識装置200を有している。例えば、学習用の画像をユーザー端末330Aが、画像処理装置350に送信し、画像認識学習装置100で学習した後、ユーザー端末330A、ユーザー端末330B、ユーザー端末330C等で、撮影した画像を画像処理装置350に送信し、画像認識装置200による認識結果を返信してもよい。また、前述したように、画像認識学習装置100と画像認識装置200には共通するモジュールがあるので、画像認識学習装置100と画像認識装置200を一体型の構成として、画像認識学習装置100として利用した後に、画像認識装置200として利用するようにしてもよい。
FIG. 3 is an explanatory diagram showing a system configuration example using the present embodiment.
In the example illustrated in FIG. 3A, the image
In the example shown in FIG. 3B, the
In the example illustrated in FIG. 3C, the user terminal 330 </ b> A, the user terminal 330 </ b> B, the user terminal 330 </ b> C, and the
The
図4は、本実施の形態による処理例を示すフローチャートである。画像認識学習装置100による学習処理例である。
ステップS402では、画像受付モジュール105は、画像を受け付ける。ここでの画像は、学習対象である。
ステップS404では、文字切取モジュール110は、文字切取処理を行う。例えば、MSER処理を行う。
ステップS406では、領域抽出モジュール115は、領域を抽出する(入力画像のXY座標で取得する)。
ステップS408では、領域拡大モジュール120は、抽出された領域(切り取り領域)の範囲を拡大する。
FIG. 4 is a flowchart showing an example of processing according to this embodiment. It is an example of a learning process by the image
In step S402, the
In step S404, the
In step S406, the
In step S408, the
ステップS410では、画像切出モジュール130は、入力画像から切り取り領域で画像(候補領域画像)を切り出す。
ステップS412では、マップ画像生成モジュール125は、関心領域とそれ以外の領域を2値で埋めた画像(マップ画像)を作成する。
ステップS414では、機械学習モジュール140は、候補領域画像とマップ画像を受け付ける。
ステップS416では、機械学習モジュール140は、機械学習を行う。もちろんのことながら、ステップS402からステップS416までの処理を、複数回繰り返して行う。
ステップS418では、学習結果出力モジュール145は、学習結果を出力する。
In step S410, the
In step S412, the map
In step S414, the
In step S416, the
In step S418, the learning
図5は、本実施の形態による処理例を示すフローチャートである。画像認識装置200による認識処理例である。
ステップS502では、画像受付モジュール205は、画像を受け付ける。ここでの画像は、認識対象である。
ステップS504では、文字切取モジュール210は、文字切取処理を行う。例えば、MSER処理を行う。
ステップS506では、領域抽出モジュール215は、領域を抽出する(入力画像のXY座標で取得する)。
ステップS508では、領域拡大モジュール220は、抽出された領域(切り取り領域)の範囲を拡大する。
FIG. 5 is a flowchart showing an example of processing according to the present embodiment. It is an example of recognition processing by the
In step S502, the
In step S504, the
In step S506, the
In step S508, the
ステップS510では、画像切出モジュール230は、入力画像から切り取り領域で画像(候補領域画像)を切り出す。
ステップS512では、マップ画像生成モジュール225は、関心領域とそれ以外の領域を2値で埋めた画像(マップ画像)を作成する。
ステップS514では、認識モジュール240は、候補領域画像とマップ画像を受け付ける。
ステップS516では、認識モジュール240は、認識処理を行う。
ステップS518では、認識結果出力モジュール245は、認識結果を出力する。
In step S510, the
In step S512, the map
In step S514, the
In step S516, the
In step S518, the recognition
図6は、本実施の形態による処理例を示す説明図である。画像認識装置200による認識処理の具体例を示すものである。
ステップS602では、画像受付モジュール205は、画像650を受け付ける。
ステップS604では、文字切取モジュール210は、MSER処理を行って、MSER処理画像652を生成する。
ステップS606では、領域抽出モジュール215は、領域を抽出して、MSER領域画像654のXY座標(例えば、左上角の座標、幅、高さ)を取得する。
ステップS608では、領域拡大モジュール220は、切り取り領域を拡大する。ここでは、MSER領域656をMSER拡大領域658のように拡大し、領域660を拡大領域662のように拡大する。
ステップS610−1では、画像切出モジュール230は、画像650から候補領域画像664を切り取る。
ステップS610−2では、マップ画像生成モジュール225は、MSER拡大領域でのマップ画像666を作成する。
ステップS612では、認識モジュール240は、CNNを行う。そして、認識結果出力モジュール245は、認識結果であるスコア670を出力する。ステップS612の処理については、図7の例を用いて説明する。
FIG. 6 is an explanatory diagram showing a processing example according to the present embodiment. A specific example of recognition processing by the
In step S602, the
In step S604, the
In step S606, the
In step S608, the
In step S610-1, the
In step S610-2, the map
In step S612, the
図7は、本実施の形態による処理例を示す説明図である。候補領域画像664とマップ画像666をもとにスコア670を算出する。候補領域画像664は、抽出した領域と周辺領域を含んだ画像である。マップ画像666は、関心領域を表した画像である。
ステップS702では、候補領域画像664に対して、conv1処理を行う。つまり、1回目の、Convolution(畳み込み)処理を行う。具体的には、フィルタ処理を行い、Convolution Layer(conv1処理結果)を作成する。
ステップS704では、conv1処理結果に対して、pool1処理を行う。つまり、1回目のPooling(レイヤの縮小)処理を行う。具体的には、画像の圧縮を行い、Pooling Layer(pool1処理結果)を作成する。
FIG. 7 is an explanatory diagram illustrating a processing example according to the present exemplary embodiment. A
In step S702, conv1 processing is performed on the
In step S704, a pool1 process is performed on the conv1 process result. That is, the first Pooling (layer reduction) process is performed. Specifically, the image is compressed to create a Pooling Layer (pool 1 processing result).
ステップS706では、pool1処理結果に対して、conv2処理を行う。つまり、2回目のConvolution処理を行う。
ステップS708では、conv2処理結果に対して、pool2処理を行う。つまり、2回目のPooling処理を行う。
ステップS710では、pool2処理結果に対して、conv3処理を行う。つまり、3回目のConvolution処理を行う。
ステップS712では、conv3処理結果に対して、conv4処理を行う。つまり、4回目のConvolution処理を行う。
ステップS714では、conv4処理結果に対して、conv5処理を行う。つまり、5回目のConvolution処理を行う。
In step S706, the conv2 process is performed on the pool1 process result. That is, the second Convolution process is performed.
In step S708, a pool2 process is performed on the conv2 process result. That is, the second pooling process is performed.
In step S710, conv3 processing is performed on the pool2 processing result. That is, the third Convolution process is performed.
In step S712, conv4 processing is performed on the conv3 processing result. That is, the fourth Convolution process is performed.
In step S714, conv5 processing is performed on the conv4 processing result. That is, the fifth Convolution process is performed.
ステップS702a〜ステップS714aの処理は、候補領域画像664ではなくマップ画像666を対象する以外は、ステップS702〜ステップS714の処理と同等である。
ステップS702aでは、マップ画像666に対して、conv1−a処理を行う。
ステップS704aでは、conv1−a処理結果に対して、pool1−a処理を行う。
ステップS706aでは、pool1−a処理結果に対して、conv2−a処理を行う。
ステップS708aでは、conv2−a処理結果に対して、pool2−a処理を行う。
ステップS710aでは、pool2−a処理結果に対して、conv3−a処理を行う。
ステップS712aでは、conv3−a処理結果に対して、conv4−a処理を行う。
ステップS714aでは、conv4−a処理結果に対して、conv5−a処理を行う。
The processing of step S702a to step S714a is the same as the processing of step S702 to step S714 except that the
In step S702a, conv1-a processing is performed on the
In step S704a, a pool1-a process is performed on the conv1-a process result.
In step S706a, the conv2-a process is performed on the pool1-a process result.
In step S708a, pool2-a processing is performed on the conv2-a processing result.
In step S710a, conv3-a processing is performed on the pool2-a processing result.
In step S712a, conv4-a processing is performed on the conv3-a processing result.
In step S714a, conv5-a processing is performed on the conv4-a processing result.
ステップS716では、conv5処理結果とconv5−a処理結果に対して、fc1処理を行う。
ステップS718では、fc1処理結果に対して、fc2処理を行う。
ステップS720では、fc2処理結果に対して、fc3処理を行う。そして、スコア670として、文字領域スコア772と非文字領域スコア774を出力する。
ステップS716〜ステップS720で、3層のFully Connect処理を行う。つまり、ステップS702〜ステップS714で生成された特徴マップを入力して識別を行う。
In step S716, the fc1 process is performed on the conv5 process result and the conv5-a process result.
In step S718, fc2 processing is performed on the fc1 processing result.
In step S720, the fc3 process is performed on the fc2 process result. Then, a character area score 772 and a non-character area score 774 are output as the
In steps S716 to S720, a three-layer Full Connect process is performed. That is, the feature map generated in steps S702 to S714 is input for identification.
ここで、領域を拡大する意味について、具体例を用いて説明する。図8は、本実施の形態による処理例を示す説明図である。
ステップS802では、画像受付モジュール105は、画像850を受け付ける。この画像850内には、複数の文字(図8の例では、「alarm」)が撮影されている。
ステップS804では、文字切取モジュール110は、画像850に対して、MSER処理を行う。そして、1つの文字としてMSER領域画像852(図8の例では、「l」)を検出する。
ステップS806では、領域抽出モジュール115は、MSER領域画像852からMSER領域画像854を抽出する。具体的には、MSER領域画像852のバウンディングボックスであるMSER領域画像854の左上角のXY座標、幅、高さを抽出する。
なお、領域画像856は、MSER領域画像854に対応して、画像850から切り出した画像である。この領域画像856だけでは、文字「I」なのか、それに類似する物体なのか判別ができない。つまり、本実施の形態を用いない技術(従来の技術)では、領域画像856だけを機械学習の入力としているので、領域画像856のような画像に対しては、文字であるか画像であるかの判定精度が低かった。
Here, the meaning of enlarging the region will be described using a specific example. FIG. 8 is an explanatory diagram showing a processing example according to the present embodiment.
In step S <b> 802, the
In step S804, the
In step S806, the
The
ステップS808では、領域拡大モジュール120は、切り取り領域を拡大する。具体的には、MSER領域画像854を幅と高さの大きい方に合わせて整形(正方形化)して、正方MSER領域画像858を生成している。
なお、正方領域画像860は、正方MSER領域画像858に対応して、画像850から切り出した画像である。
ステップS810では、領域拡大モジュール120は、切り取り領域を拡大する。具体的には、正方MSER領域画像858を縦横ともに2倍して、マップ画像862を生成している。
なお、候補領域画像864は、マップ画像862に対応して、画像850から切り出した画像である。つまり、領域を拡大することによって、文字切取モジュール110が抽出した領域に対応する領域画像856の周辺領域を機械学習に加えることができるようになった。具体的には、画像「I」の近辺には画像「a」があり、画像「I」は文字であるとする判定を補助する情報となる。具体的には、「文字の周辺には文字がある可能性が高い」ということが機械学習されることとなる。しかし、単に、領域を拡大しただけでは(候補領域画像864だけでは)、どの部分を判定すればよいかの情報が失われてしまう。そこで、本来の判定対象となっている部分を示すマップ画像862も機械学習の入力としている。つまり、マップ画像862により判定する部分が明確なため、それ以外の部分(図8の例では、画像「a」)は補助情報として取り扱えることとなる。
In step S808, the
The
In step S810, the
The
図9を参照して、本実施の形態の画像認識学習装置100、画像認識装置200のハードウェア構成例について説明する。図9に示す構成は、例えばパーソナルコンピュータ(PC)等によって構成されるものであり、スキャナ等のデータ読み取り部917と、プリンタ等のデータ出力部918を備えたハードウェア構成例を示している。
A hardware configuration example of the image
CPU(Central Processing Unit)901は、前述の実施の形態において説明した各種のモジュール、すなわち、画像受付モジュール105、文字切取モジュール110、領域抽出モジュール115、領域拡大モジュール120、マップ画像生成モジュール125、画像切出モジュール130、正解付与モジュール135、機械学習モジュール140、学習結果出力モジュール145、画像受付モジュール205、文字切取モジュール210、領域抽出モジュール215、領域拡大モジュール220、マップ画像生成モジュール225、画像切出モジュール230、認識モジュール240、認識結果出力モジュール245等の各モジュールの実行シーケンスを記述したコンピュータ・プログラムにしたがった処理を実行する制御部である。
A CPU (Central Processing Unit) 901 includes various modules described in the above-described embodiments, that is, the
ROM(Read Only Memory)902は、CPU901が使用するプログラムや演算パラメータ等を格納する。RAM(Random Access Memory)903は、CPU901の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を格納する。これらはCPUバス等から構成されるホストバス904により相互に接続されている。
A ROM (Read Only Memory) 902 stores programs used by the
ホストバス904は、ブリッジ905を介して、PCI(Peripheral Component Interconnect/Interface)バス等の外部バス906に接続されている。
The
キーボード908、マウス等のポインティングデバイス909は、操作者により操作されるデバイスである。ディスプレイ910は、液晶表示装置又はCRT(Cathode Ray Tube)等があり、各種情報をテキストやイメージ情報として表示する。また、ポインティングデバイス909とディスプレイ910の両方の機能を備えているタッチスクリーン等であってもよい。
A
HDD(Hard Disk Drive)911は、ハードディスク(フラッシュ・メモリ等であってもよい)を内蔵し、ハードディスクを駆動し、CPU901によって実行するプログラムや情報を記録又は再生させる。ハードディスクには、対象としている画像、切り取られた画像、学習対象となる画像等が格納される。さらに、その他の各種データ、各種コンピュータ・プログラム等が格納される。
An HDD (Hard Disk Drive) 911 includes a hard disk (may be a flash memory or the like), drives the hard disk, and records or reproduces a program executed by the
ドライブ912は、装着されている磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体913に記録されているデータ又はプログラムを読み出して、そのデータ又はプログラムを、インタフェース907、外部バス906、ブリッジ905、及びホストバス904を介して接続されているRAM903に供給する。なお、リムーバブル記録媒体913も、データ記録領域として利用可能である。
The
接続ポート914は、外部接続機器915を接続するポートであり、USB、IEEE1394等の接続部を持つ。接続ポート914は、インタフェース907、及び外部バス906、ブリッジ905、ホストバス904等を介してCPU901等に接続されている。通信部916は、通信回線に接続され、外部とのデータ通信処理を実行する。データ読み取り部917は、例えばスキャナであり、ドキュメントの読み取り処理を実行する。データ出力部918は、例えばプリンタであり、ドキュメントデータの出力処理を実行する。
The
なお、図9に示す画像認識学習装置100、画像認識装置200のハードウェア構成は、1つの構成例を示すものであり、本実施の形態は、図9に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア(例えば特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)等)で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続している形態でもよく、さらに図9に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、特に、パーソナルコンピュータの他、携帯情報通信機器(携帯電話、スマートフォン、モバイル機器、ウェアラブルコンピュータ等を含む)、情報家電、ロボット、複写機、ファックス、スキャナ、プリンタ、複合機(スキャナ、プリンタ、複写機、ファックス等のいずれか2つ以上の機能を有している画像処理装置)などに組み込まれていてもよい。
Note that the hardware configurations of the image
なお、説明したプログラムについては、記録媒体に格納して提供してもよく、また、そのプログラムを通信手段によって提供してもよい。その場合、例えば、前記説明したプログラムについて、「プログラムを記録したコンピュータ読み取り可能な記録媒体」の発明として捉えてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通等のために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、ブルーレイ・ディスク(Blu−ray(登録商標) Disc)、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM(登録商標))、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)、SD(Secure Digital)メモリーカード等が含まれる。
そして、前記のプログラムの全体又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、又は無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分若しくは全部であってもよく、又は別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して記録されていてもよい。また、圧縮や暗号化等、復元可能であればどのような態様で記録されていてもよい。
The program described above may be provided by being stored in a recording medium, or the program may be provided by communication means. In that case, for example, the above-described program may be regarded as an invention of a “computer-readable recording medium recording the program”.
The “computer-readable recording medium on which a program is recorded” refers to a computer-readable recording medium on which a program is recorded, which is used for program installation, execution, program distribution, and the like.
The recording medium is, for example, a digital versatile disc (DVD), which is a standard established by the DVD Forum, such as “DVD-R, DVD-RW, DVD-RAM,” and DVD + RW. Standard “DVD + R, DVD + RW, etc.”, compact disc (CD), read-only memory (CD-ROM), CD recordable (CD-R), CD rewritable (CD-RW), Blu-ray disc ( Blu-ray (registered trademark) Disc), magneto-optical disk (MO), flexible disk (FD), magnetic tape, hard disk, read-only memory (ROM), electrically erasable and rewritable read-only memory (EEPROM (registered trademark)) )), Flash memory, Random access memory (RAM) SD (Secure Digital) memory card and the like.
Then, the whole or a part of the program may be recorded on the recording medium for storage or distribution. Also, by communication, for example, a local area network (LAN), a metropolitan area network (MAN), a wide area network (WAN), a wired network used for the Internet, an intranet, an extranet, or a wireless communication It may be transmitted using a transmission medium such as a network or a combination of these, or may be carried on a carrier wave.
Furthermore, the program may be a part or all of another program, or may be recorded on a recording medium together with a separate program. Moreover, it may be divided and recorded on a plurality of recording media. Further, it may be recorded in any manner as long as it can be restored, such as compression or encryption.
100…画像認識学習装置
105…画像受付モジュール
110…文字切取モジュール
115…領域抽出モジュール
120…領域拡大モジュール
125…マップ画像生成モジュール
130…画像切出モジュール
135…正解付与モジュール
140…機械学習モジュール
145…学習結果出力モジュール
200…画像認識装置
205…画像受付モジュール
210…文字切取モジュール
215…領域抽出モジュール
220…領域拡大モジュール
225…マップ画像生成モジュール
230…画像切出モジュール
240…認識モジュール
245…認識結果出力モジュール
310…画像取得装置
320…画像撮影装置
330…ユーザー端末
350…画像処理装置
390…通信回線
DESCRIPTION OF
Claims (9)
前記領域を拡大する拡大手段と、
前記拡大された領域で、前記画像から第1の画像を切り出す切出手段と、
前記検出手段によって検出された領域内の対象から第2の画像を生成する生成手段と、
前記第1の画像と前記第2の画像を用いて、機械学習を行う学習手段
を有する画像処理装置。 Detecting means for detecting a region where the target exists from the image;
Enlarging means for enlarging the area;
Cutting means for cutting out a first image from the image in the enlarged region;
Generating means for generating a second image from the object in the area detected by the detecting means;
An image processing apparatus comprising learning means for performing machine learning using the first image and the second image.
請求項1に記載の画像処理装置。 The generating means generates a second image obtained by dividing the first part of the object and the second part other than the object;
The image processing apparatus according to claim 1.
請求項2に記載の画像処理装置。 The generating means generates a second image as a binary image having the first portion as a first value and the second portion as a second value.
The image processing apparatus according to claim 2.
請求項3に記載の画像処理装置。 The generating means generates a second image having the same size as the first image;
The image processing apparatus according to claim 3.
前記学習手段は、前記検出手段によって検出された領域内の画像が文字であるか否かを学習する、
請求項1に記載の画像処理装置。 Character as the object,
The learning means learns whether the image in the area detected by the detection means is a character;
The image processing apparatus according to claim 1.
請求項5に記載の画像処理装置。 The learning means outputs a numerical value indicating the possibility of being a character and a numerical value indicating a possibility of not being a character,
The image processing apparatus according to claim 5.
前記領域を拡大する拡大手段と、
前記拡大された領域で、前記画像から第1の画像を切り出す切出手段と、
前記検出手段によって検出された領域内の対象から第2の画像を生成する生成手段と、
請求項1から6のいずれか一項に記載の画像処理装置による学習結果を用いた認識を行う認識手段
を有する画像処理装置。 Detecting means for detecting a region where the target exists from the image;
Enlarging means for enlarging the area;
Cutting means for cutting out a first image from the image in the enlarged region;
Generating means for generating a second image from the object in the area detected by the detecting means;
An image processing apparatus comprising: a recognition unit configured to perform recognition using a learning result obtained by the image processing apparatus according to claim 1.
画像から対象が存在する領域を検出する検出手段と、
前記領域を拡大する拡大手段と、
前記拡大された領域で、前記画像から第1の画像を切り出す切出手段と、
前記検出手段によって検出された領域内の対象から第2の画像を生成する生成手段と、
前記第1の画像と前記第2の画像を用いて、機械学習を行う学習手段
として機能させるための画像処理プログラム。 Computer
Detecting means for detecting a region where the target exists from the image;
Enlarging means for enlarging the area;
Cutting means for cutting out a first image from the image in the enlarged region;
Generating means for generating a second image from the object in the area detected by the detecting means;
An image processing program for causing a machine to perform machine learning using the first image and the second image.
画像から対象が存在する領域を検出する検出手段と、
前記領域を拡大する拡大手段と、
前記拡大された領域で、前記画像から第1の画像を切り出す切出手段と、
前記検出手段によって検出された領域内の対象から第2の画像を生成する生成手段と、
請求項8に記載の画像処理プログラムによる学習結果を用いた認識を行う認識手段
として機能させるための画像処理プログラム。 Computer
Detecting means for detecting a region where the target exists from the image;
Enlarging means for enlarging the area;
Cutting means for cutting out a first image from the image in the enlarged region;
Generating means for generating a second image from the object in the area detected by the detecting means;
The image processing program for functioning as a recognition means which performs recognition using the learning result by the image processing program of Claim 8.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016178469A JP6828333B2 (en) | 2016-09-13 | 2016-09-13 | Image processing equipment and image processing program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016178469A JP6828333B2 (en) | 2016-09-13 | 2016-09-13 | Image processing equipment and image processing program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018045359A true JP2018045359A (en) | 2018-03-22 |
JP6828333B2 JP6828333B2 (en) | 2021-02-10 |
Family
ID=61693153
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016178469A Active JP6828333B2 (en) | 2016-09-13 | 2016-09-13 | Image processing equipment and image processing program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6828333B2 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020047213A (en) * | 2018-09-21 | 2020-03-26 | 富士ゼロックス株式会社 | Character string recognition device and character string recognition program |
CN111612157A (en) * | 2020-05-22 | 2020-09-01 | 四川无声信息技术有限公司 | Training method, character recognition method, device, storage medium and electronic equipment |
JP2022505115A (en) * | 2018-10-15 | 2022-01-14 | ホアウェイ・テクノロジーズ・カンパニー・リミテッド | Image processing methods and equipment and devices |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015088168A (en) * | 2013-09-25 | 2015-05-07 | 国際航業株式会社 | Learning sample creation device, learning sample creation program, and automatic recognition device |
JP2015191334A (en) * | 2014-03-27 | 2015-11-02 | キヤノン株式会社 | Information processor and information processing method |
-
2016
- 2016-09-13 JP JP2016178469A patent/JP6828333B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015088168A (en) * | 2013-09-25 | 2015-05-07 | 国際航業株式会社 | Learning sample creation device, learning sample creation program, and automatic recognition device |
JP2015191334A (en) * | 2014-03-27 | 2015-11-02 | キヤノン株式会社 | Information processor and information processing method |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020047213A (en) * | 2018-09-21 | 2020-03-26 | 富士ゼロックス株式会社 | Character string recognition device and character string recognition program |
JP7172351B2 (en) | 2018-09-21 | 2022-11-16 | 富士フイルムビジネスイノベーション株式会社 | Character string recognition device and character string recognition program |
JP2022505115A (en) * | 2018-10-15 | 2022-01-14 | ホアウェイ・テクノロジーズ・カンパニー・リミテッド | Image processing methods and equipment and devices |
JP7226851B2 (en) | 2018-10-15 | 2023-02-21 | ホアウェイ・テクノロジーズ・カンパニー・リミテッド | Image processing method, apparatus and device |
US12026863B2 (en) | 2018-10-15 | 2024-07-02 | Huawei Technologies Co., Ltd. | Image processing method and apparatus, and device |
CN111612157A (en) * | 2020-05-22 | 2020-09-01 | 四川无声信息技术有限公司 | Training method, character recognition method, device, storage medium and electronic equipment |
CN111612157B (en) * | 2020-05-22 | 2023-06-30 | 四川无声信息技术有限公司 | Training method, character recognition device, storage medium and electronic equipment |
Also Published As
Publication number | Publication date |
---|---|
JP6828333B2 (en) | 2021-02-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6575132B2 (en) | Information processing apparatus and information processing program | |
US8391607B2 (en) | Image processor and computer readable medium | |
JP6187323B2 (en) | Image processing apparatus and image processing program | |
US11670067B2 (en) | Information processing apparatus and non-transitory computer readable medium | |
JP6828333B2 (en) | Image processing equipment and image processing program | |
US10643097B2 (en) | Image processing apparatuses and non-transitory computer readable medium | |
US9830531B2 (en) | Image processing apparatus, image processing method and non-transitory computer readable medium storing image processing program | |
US10924620B2 (en) | Document reading guidance for operator using feature amount acquired from image of partial area of document | |
US10026185B2 (en) | Image processing device, non-transitory computer readable medium, and method for image alignment | |
JP5737387B2 (en) | Image processing device | |
JP6303671B2 (en) | Image processing apparatus and image processing program | |
JP5742367B2 (en) | Image processing apparatus and image processing program | |
JP6606885B2 (en) | Image processing apparatus and image processing program | |
JP6852364B2 (en) | Image processing equipment and image processing program | |
JP5206890B1 (en) | Image processing apparatus and image processing program | |
JP2017010187A (en) | Image processing device and image processing program | |
JP6241311B2 (en) | Image processing apparatus and image processing program | |
US20130236101A1 (en) | Information processing apparatus, non-transitory computer readable medium, and information processing method | |
JP6323009B2 (en) | Image processing apparatus and image processing program | |
JP7342518B2 (en) | Image processing device and image processing program | |
JP4882929B2 (en) | Image processing apparatus and image processing program | |
JP2011065311A (en) | Image processor and image processing program | |
JP2016151978A (en) | Image processing apparatus and image processing program | |
JP5747604B2 (en) | Image processing apparatus and image processing program | |
JP2017111720A (en) | Image processing device and image processing program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190830 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201013 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201027 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201208 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201222 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210104 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6828333 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |