WO2012046426A1 - 物体検出装置、物体検出方法および物体検出プログラム - Google Patents
物体検出装置、物体検出方法および物体検出プログラム Download PDFInfo
- Publication number
- WO2012046426A1 WO2012046426A1 PCT/JP2011/005542 JP2011005542W WO2012046426A1 WO 2012046426 A1 WO2012046426 A1 WO 2012046426A1 JP 2011005542 W JP2011005542 W JP 2011005542W WO 2012046426 A1 WO2012046426 A1 WO 2012046426A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- scene
- input image
- image
- detection
- occurrence probability
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Definitions
- the present invention relates to an object detection device, an object detection method, and an object detection program for detecting an object in an image taken by a user without restriction.
- a function to detect an object from an image taken with a photographing system such as a still camera or a video camera makes it possible to adjust the shutter speed and focus suitable for the object, and to perform image processing, so that a beautiful image can be easily taken.
- information related to an object can be superimposed and displayed at the position, application to the camera industry and the information display field is expected.
- a method for detecting an object in an image a method has been proposed in which a rectangular area for object detection is set, and the entire image is scanned to determine whether a desired object is present in the rectangular area.
- Non-Patent Document 1 describes an object detection method that assumes “people” as detection targets.
- a rectangular area size for detecting “people” in an image is set from three aspect ratios, and the entire area is scanned by scanning the rectangular area. "Person" is detected.
- Non-Patent Document 2 describes an object detection method that assumes a “cat face” as a detection target.
- a rectangular area size for detecting a “cat face” is set for each type of feature, and after scanning the rectangular area over the entire image, two types are detected.
- the “cat face” is detected by integrating the results based on the characteristics of.
- Patent Document 1 describes an object detection method that is supposed to detect an object (white line, preceding vehicle, road obstacle) on the road ahead of the vehicle.
- object detection is performed after limiting a region for detecting a feature point of an object from an image.
- Patent Document 2 describes an object detection method that assumes that a model registered in a database is located in an image. In the object detection method described in Patent Document 2, a range in which the probability that an object exists is estimated to be high is obtained, and object detection is performed on that region.
- Non-Patent Document 1 and Non-Patent Document 2 a rectangular area and a detection area for detecting an object are determined decisively. For this reason, it is difficult to say that a rectangular area and a detection area are suitably determined for a photographed scene. For example, a “person” photographed in a city has many standing positions, but a “person” photographed in a park or sandy beach may lie down. That is, the rectangular area may differ depending on the scene even for the same object. In addition, there may be a case where an area where no object exists in the image is set as a detection area. In these cases, a decrease in the object detection rate and an increase in the false detection rate are possible.
- an object of the present invention is to provide an object detection device, an object detection method, and an object detection program that can accurately detect an object from an image captured by a user without any particular restriction.
- the object detection device can determine which scene an input image is based on information indicating characteristics of an image captured in the scene associated with the scene in which the image is captured and features extracted from the input image.
- a scene membership degree calculating means for calculating a scene membership degree, which is information indicating whether the scene belongs to, an object occurrence information indicating an occurrence probability of an object for each scene, and an input image calculated by the scene membership degree calculating means
- Object occurrence probability calculating means for calculating the occurrence probability of the object with respect to the input image based on the scene membership degree of the object, and the object occurrence probability with respect to the input image calculated by the object occurrence probability calculation means.
- an object detecting means for detecting.
- the object detection method is based on information indicating characteristics of an image captured in the scene associated with the scene where the image is captured and features extracted from the input image.
- the occurrence probability of the object with respect to the input image is calculated, and the object is detected from the input image using the calculated occurrence probability of the object with respect to the input image.
- the object detection program is based on information indicating characteristics of an image captured in the scene associated with the scene where the image is captured, and characteristics extracted from the input image.
- Processing for calculating scene attribution which is information indicating to which scene the input image belongs, object occurrence information indicating the occurrence probability of the object for each scene, and input image calculated by the scene attribution calculation means A process of calculating an occurrence probability of an object with respect to the input image based on the scene belonging degree of the image and a process of detecting an object from the input image using the calculated occurrence probability of the object with respect to the input image.
- FIG. 1 is a block diagram illustrating a configuration example of an object detection device according to a first embodiment of the present invention.
- the object detection device 100 shown in FIG. 1 includes an image input device 110, a data processing unit 120, a data storage unit 130, and an object detection result output device 140.
- the image input device 110 inputs an image captured by an imaging system such as a still camera or a video camera to the scene attribution degree calculation unit 121.
- the data processing unit 120 includes a scene attribution degree calculating unit 121, an object occurrence probability calculating unit 122, and an object detecting unit 123.
- the data processing unit 120 is realized by a CPU that operates according to a program, for example.
- FIG. 1 shows an example in which the scene membership degree calculating unit 121, the object occurrence probability calculating unit 122, and the object detecting unit 123 are realized by one data processing unit 120. However, each unit is a separate unit. It can also be realized.
- the data storage unit 130 includes a scene feature storage unit 131, an object occurrence information storage unit 132, and an object photographing information storage unit 133.
- the data storage unit 130 is realized by a storage device such as a memory. 1 shows an example in which the scene feature storage unit 131, the object occurrence information storage unit 132, and the object shooting information storage unit 133 are realized by one data storage unit 130, but each storage unit is separately provided. It can also be realized as a unit.
- Scene attribution calculating means 121 extracts features from the input image.
- the scene attribution level calculation unit 121 compares the extracted feature with the feature of each scene stored in the scene feature storage unit 131 to determine what kind of scene (scene, stage, etc.) the image has taken. To do. That is, the scene attribution level calculation unit 121 calculates an attribution level that indicates to which scene the image belongs.
- the scene feature storage unit 131 stores a feature vector group describing a scene as information indicating the feature of each scene. These feature vectors are associated with scenes in advance.
- the scene attribution level calculation unit 121 calculates the scene attribution level by comparing the feature vector extracted from a certain image with the feature vector associated with the scene.
- the object occurrence probability calculating unit 122 is configured to generate an object for the input image based on the scene belonging degree calculated by the scene belonging degree calculating unit 121 and the object occurrence information for each scene stored in the object occurrence information storage unit 132.
- the occurrence probability of is calculated.
- the object occurrence information storage unit 132 stores information on an object that occurs for each scene, that is, object occurrence information for each scene.
- the object shooting information storage unit 133 stores object shooting information indicating what position and size the object tends to be shot at the time of shooting for each scene.
- the object photographing information is information indicating a region where an object is likely to appear in the photographed image, such as the position and size of the object that is likely to appear in the photographed image for each scene.
- the object photographing information is preferably statistical information. Note that the object photographing information is not limited to information that directly indicates the range of an area where an object is likely to appear, such as the position and size of the appearing object.
- the object photographing information may be, for example, color information that is likely to exist in the object. In such a case, the detection area may be determined based on the color likely to be in the object.
- the object detection unit 123 sets a detection area to be applied to the input image based on the object shooting information stored in the object shooting information storage unit 133.
- the object detection means 123 scans the detection area of the input image using an object detector and calculates the detection result as reliability.
- the reliability is the reliability that, for each area that is a determination unit included in the detection area of the input image, what is reflected in the area is an object to be detected. Further, the object detection unit 123 obtains the object position likelihood in the input image based on the occurrence probability of the object with respect to the input image calculated by the object occurrence probability calculation unit 122 and the calculated reliability.
- the object detection result output device 140 determines an area in which the object position likelihood is set to a certain value or more by the object detection unit 123 as the object detection result. Then, the object detection result output device 140 outputs the object detection result to a display device such as a display.
- FIG. 2 is a flowchart showing an example of the operation of the present embodiment.
- the image input device 110 acquires an image acquired from a still camera or a video camera or an image posted to the WEB, and inputs the image to the scene attribution degree calculation means 121 (step S1).
- Scene attribution degree calculation means 121 performs feature extraction from the input image and generates a feature vector for identifying the scene (step S2). Then, the scene attribution level calculation unit 121 compares the generated feature vector with the feature vector for each scene stored in the scene feature storage unit 131, and expresses to what scene the input image belongs. The degree of attribution is calculated (step S3).
- the distance between the feature vector generated from the input image and the feature vector of the scene A is LA
- the distance between the feature vector with the scene B is LB.
- the scene belonging degree calculating unit 121 calculates the belonging degree of the input image to the scene A as LA / (LA + LB) and calculates the belonging degree of the input image to the scene B as LB / (LA + LB).
- a feature such as SIFT (Scale-Invariant Feature Transform) or HOG (Histograms of Oriented Gradients) may be used. For example, about hundreds of representative features may be calculated using a clustering method, and a histogram represented by representative features as bins (classes) may be used as the feature vector. Since the feature vector associated with the scene is stored in the scene feature storage unit 131, the degree of belonging Pr (Sj
- the matching method may be histogram matching between feature vectors, or may be a matching by learning using a classifier such as SVM (Support vector machine).
- the object occurrence probability calculating unit 122 includes the scene belonging degree Pr (Sj
- S j ) of each object in each scene is used as the occurrence information.
- the coefficient i represents the number of object types
- the coefficient j represents the number of scene types.
- the object detection unit 123 refers to the object shooting information storage unit 133 that stores object shooting information such as the position and size of an object that appears for each scene, and makes it easy for the object to appear in the image area.
- I) of the object representing is calculated based on the following equation (2) (step S5).
- the detection area of the object detector may be determined based on the calculated object existence position probability Pr area (PosO i
- the object detection unit 123 scans the image using the object detector, and calculates the object position in the image as the reliability Pr detector (PosO i
- the object detection means 123 includes the object position likelihood Pr (PosO i
- the object detection result output device 140 determines the object position by setting a threshold for the calculated object position likelihood. Then, the object detection result output device 140 outputs the determined object position to a display device such as a display.
- the scene feature storage unit 131 stores a dictionary for identifying a scene from which a feature has been extracted from an image including a scene to be identified in advance.
- SIFT features are extracted from image groups classified into scenes of “town”, “autumn leaves”, “office”, “park”, “indoor”, “mountain”, and “beach”.
- a representative feature vector having a cluster center as a representative feature vector is calculated from the features extracted from all images using a clustering technique such as K-means. Then, a histogram using the representative feature vector in the bin is generated for each image. The number of bins in the histogram may be determined by experiment so that the recognition rate becomes high.
- a dictionary for identifying the scene is generated.
- the histogram is learned using SVM, and the support vector of the learning result is stored in the scene feature storage unit 131 as a dictionary.
- SVM is used for the discriminator, the discriminator is not limited to SVM.
- a scene may be identified by the distance between histograms. In that case, the histogram is stored in the scene feature storage unit 131 as a dictionary.
- the object occurrence information storage unit 132 stores occurrence information of objects existing in the scene in advance for each scene. For example, the occurrence probability may be calculated as the occurrence information, and the result may be stored in the object occurrence information storage unit 132.
- the occurrence probability is expressed by (number of objects including an object in the scene) / (total number of scenes).
- FIG. 3A is an explanatory diagram illustrating an example of an object for which occurrence information is obtained
- FIG. 3B is an explanatory diagram illustrating an example of a scene for which occurrence information is obtained
- FIG. 3C is a diagram illustrating scenes S 1 and S 2 . It is explanatory drawing which shows an example of the occurrence probability of each object.
- the object occurrence information storage unit 132 stores an object list including an object ID and an object name, a scene list including a scene ID and a scene classification name, and an occurrence probability of each object for each scene in the list. May be.
- the object occurrence information storage unit 132 may store the number of the objects included in the scene as the occurrence information. In this way, the object occurrence information storage unit 132 only needs to add the number of objects that include the object in the scene, and can suppress the recalculation time of the probability when addition frequently occurs. . In this case, the occurrence probability may be obtained by the object occurrence probability calculation means 122 only once at the time of execution.
- the occurrence information may include information that weights the number of objects in addition to whether or not the object is included in the scene. For example, it is assumed that there is one image including “car” in 100 “city” images classified in advance for the scene. The number of “cars” included in one image is nine. On the other hand, it is assumed that 100 images classified as “park” include “car” in one image. Note that the number of “cars” included in one image is one. In such a case, since the occurrence probability of the object is calculated by (number of objects included in the scene) / (total number of scenes), both the scene “town” and the scene “park” have the same occurrence probability (0. 01). Further, the occurrence probability of the scene “town” may be set to nine times the occurrence probability of the scene “park” in consideration of the number of cars.
- the object shooting information storage unit 133 stores object shooting information such as the position and size at which an object is shot in the image. For example, in the scene “town”, when the “car” is located around the center of the image, the object photographing information Pr (PosO 1
- FIG. 4 shows the position of the “car” on the image, and shows an area where the “car” tends to exist as the color becomes darker.
- the probability that “car” exists in the scene “town” is represented by a pattern on the image plane.
- a probability on the image plane is converted into array data and stored as object photographing information.
- FIG. 5 a 100 ⁇ 100 array is prepared, and the probability that a “car” exists at each position on the screen plane is associated with a component of each array. Then, this arrangement may be used as data indicating the probability Pr (PosO 1
- each component may hold the probability that an object exists at the position corresponding to that component.
- FIG. 6 is an explanatory diagram showing the correspondence between the existence probability on the image plane and the array data. As shown in FIG. 6, since the probability 0.9 is set near the center of the array in the array data, in the case of the scene “town”, “car” is 0.9 (90%) near the center in the image. ) With the probability of.
- the object photographing information may include information indicating the size of the rectangular area for detecting the object in addition to such position information.
- the scene attribution level calculation unit 121 performs the same process on the input image as when the feature vector stored in the scene feature storage unit 131 is generated. That is, the scene attribution level calculation unit 121 extracts the above-described SIFT feature from the input image, and generates a histogram using the representative feature vector in the bin as a feature vector describing the scene. By inputting the feature vector to the classifier, the degree of belonging to each scene is calculated.
- FIG. 8 is an explanatory diagram showing an example of the calculation result of the scene attribution degree for the input image in this example. As shown in FIG.
- the object occurrence probability calculation means 122 calculates the occurrence probability of the object included in the image based on the above-described equation (1) from the object occurrence probability for each scene based on the calculated degree of belonging to each scene. To do. For example, assume that the object occurrence probability for each scene is given as shown in FIG. In this case, the degree of membership Pr (S 1
- the object occurrence probability calculation unit 122 calculates the occurrence probability of each object for all scenes, and then performs normalization based on Expression (1) to calculate the occurrence probability of each object with respect to the input image.
- FIG. 9 is an explanatory diagram illustrating an example of the calculation result of the occurrence probability of each object with respect to the input image.
- I) 0.1 is obtained as Pr (O 4
- the object detection unit 123 refers to the object shooting information stored in the object shooting information storage unit 133, and determines a detection region to be scanned by the object detector based on the above equation (2). When there is object size information, the object detection unit 123 may also determine the size to which the object detector is applied.
- FIG. 10 is an explanatory diagram illustrating a calculation example of the existence position probability of the “car” with respect to the input image “town”.
- the object detection unit 123 represents the probability indicating the position of the “car” with respect to the input image “town”, that is, where the “car” is likely to exist when the input image is the scene “city”. The existence position probability is calculated.
- the object detection unit 123 includes the existence position probability Pr (PosO 1
- the presence position probability is obtained by multiplying by the degree of membership Pr (S 1
- I) 0.8.
- the object detection means 123 has a probability indicating the position of “car” with respect to the input image “autumn leaves”, a probability indicating the position of “car” with respect to the input image “office”,.
- a position that is likely to exist for all scenes is calculated for each object, such as a probability that represents the position of “bike”, a probability that represents the position of “desk” in the input image “beach”. After that, the object detection unit 123 performs normalization based on the calculation result of the denominator, so that the presence position probability Pr area (PosO i
- FIG. 11 is an explanatory diagram illustrating an example of an object detection method and an example of a detection result by an object detector.
- the probability of showing the value of “car” likelihood for the rectangular area ⁇ is obtained.
- erroneous detection may occur depending on the accuracy of object detection.
- the object detection unit 123 uses the expression (3) to calculate the object occurrence probability Pr (Oi
- I) representing the ease of appearance of the object in the region is applied, and the object position likelihood in the image is calculated for each object. That is, the probability that the target object exists for the region in the image is calculated.
- FIG. 12 is an explanatory diagram illustrating an example of calculating the object position likelihood for the “car” with respect to the input image. In FIG. 12, the correct calculation result of the array data is not shown, but finally, the result as shown in the upper part is obtained. In this example, a threshold is set for the calculated object position likelihood, and an area having a likelihood equal to or greater than the threshold is set as an object detection result.
- FIG. 13 is an explanatory diagram showing an example in which the detection result by the object detector and the object detection result by the object position likelihood obtained by the present embodiment are compared for the object “car”, “person”, and “desk”. .
- the detection result of each object by the object detector is shown on the left side
- the detection result of each object by the object position likelihood of the object obtained in this embodiment is shown on the right side.
- a region having a likelihood equal to or greater than the threshold value for each object is illustrated as a region where the object is detected.
- the present embodiment it is possible to reduce false detection at a place where it is difficult to appear, which is generated as a result of only the object detector.
- the object to be detected since the object to be detected is not limited, the object can be accurately detected from the image captured by the user without any particular restriction.
- the degree of scene attribution is calculated from the captured image, and the occurrence information of the object included in the scene and the statistical information (object shooting information) such as the position and size of the object appearing for each scene are used.
- the detection target object and the detection target region are set or weighted.
- object detection can be performed in a state similar to that in which a suitable rectangular area or detection area is set depending on the scene, and object detection accuracy can be improved and false detection can be reduced.
- it is based on statistical information it is possible to automatically calculate a rectangular area size and a detection area for a general still image taken by a user.
- FIG. 14 is an explanatory diagram showing another display example of the object detection result.
- the detection result areas of the respective objects may be integrated and displayed as the detection result of the object in the entire image.
- the object detection result is displayed from the object detection result of each object shown in FIG. 13, assuming that only “car” and “person” are detected as the object detection result in the entire image. ing.
- only the object occurrence probability is applied.
- An embodiment in which the position likelihood is obtained is also possible.
- the object occurrence probability is applied to the input image calculated by the object occurrence probability calculating unit 122, for example, an object erroneously detected from an image in which no object can exist depending on the scene may be excluded from the detection result. it can.
- the object photographing information storage unit 133 may be omitted.
- FIG. 15 is a block diagram illustrating a configuration example of the object detection device according to the second exemplary embodiment of the present invention.
- the object detection apparatus of this embodiment is different from the first embodiment shown in FIG. 1 in that the data processing unit 120 further includes a detection priority calculation unit 124.
- the detection priority calculation means 124 calculates the priority of the object or area detected by the object detector. In an environment where processing time is limited, it is necessary to efficiently detect an object from an image. Therefore, the detection priority calculation means 124 calculates the priority for the object or detection area to be detected so as to meet the given condition, and selects the object or detection area to be detected as necessary. Set to be limited.
- the detection processing time is proportional to the number of detected objects and the size of the detection target area. For this reason, when the detection processing time is determined, the detection priority calculation unit 124 calculates the detection target region from the detection processing time and the number of detected objects after setting the ratio of the number of detected objects. Now, assume that the ratio of the number of detected objects is set to 80%. In this case, in the example illustrated in FIG. 9, “car”, “bike”, and “building” are the detection target objects in descending order of occurrence probability of the objects included in the image. Further, the detection priority calculation unit 124 detects in order from the region having the highest location probability based on the location probability Pr area (PosO i
- the detection priority calculation unit 124 calculates the object detection result Pr detector (PosO i
- the processing after obtaining the detection target object and the detection area is the same as that in the first embodiment.
- the object detection unit 123 applies the appearance position distribution in which the area is similarly limited to the detection result of the limited detection area, and thereby the object position likelihood of only that area.
- FIG. 16 is an explanatory diagram illustrating a calculation example when the detection area is limited.
- the detection priority calculation unit 124 calculates the number of detection target objects and the detection area within the processing time from the statistical information. Therefore, accurate object detection can be performed even in an environment where the processing time is limited.
- FIG. 17 is a block diagram showing an outline of the present invention.
- the object detection apparatus shown in FIG. 17 includes a scene attribution degree calculation unit 201, an object occurrence probability calculation unit 202, and an object detection unit 203.
- the scene attribution level calculation unit 201 determines which scene the input image is based on the information indicating the characteristics of the image captured in the scene associated with the scene where the image is captured and the characteristics extracted from the input image.
- the scene attribution level which is information indicating whether or not the image belongs to the scene, is calculated.
- the scene attribution level calculation unit 201 is disclosed as, for example, the scene attribution level calculation unit 121.
- the object occurrence probability calculating means 202 is based on the object occurrence information indicating the occurrence probability of the object for each scene and the scene belonging degree of the input image calculated by the scene belonging degree calculating means 201. Is calculated.
- the object occurrence probability calculating unit 202 is disclosed as, for example, the object occurrence probability calculating unit 122.
- the object detection unit 203 detects an object from the input image using the occurrence probability of the object with respect to the input image calculated by the object occurrence probability calculation unit 202.
- the object detection unit 203 is disclosed as, for example, the object detection unit 123.
- the object detection unit 203 reflects each region in the input image by reflecting the object occurrence probability with respect to the input image calculated by the object occurrence probability calculation unit 202 in the detection result obtained from the object detector (not shown).
- the object may be detected from the input image by calculating the object position likelihood that represents the probability that the target object exists in FIG.
- the occurrence probability of an object for each scene indicated by the object occurrence information may be information calculated based on the number of objects included in a captured image classified in advance by scene.
- the object occurrence probability calculating means 202 calculates the object occurrence probability for all scenes with respect to the input image, and based on the calculated object occurrence probability for all scenes, the object occurrence probability for the input image is calculated. An occurrence probability may be calculated.
- FIG. 18 is a block diagram showing another configuration example of the object detection apparatus according to the present invention. As shown in FIG. 18, the object detection apparatus may further include an object appearance position distribution calculation unit 204 and a detection priority calculation unit 205.
- the object appearance position distribution calculating means 204 is based on the scene belonging degree of the input image and object photographing information that is information indicating an area where the object is likely to appear in the photographed image for each scene. Is calculated.
- the object appearance distribution calculating unit 204 is disclosed as a function of the object detecting unit 123, for example.
- the object shooting information may be information indicating a position and a size at which an object is likely to appear in an image shot in the scene for each pre-classified scene.
- the object detecting unit 203 further uses the object appearance position distribution in the input image calculated by the object appearance position distribution calculating unit 204 to obtain an object from the input image. May be detected.
- the object detection unit 203 determines a detection target region based on the appearance position distribution of the object in the input image calculated by the object appearance position distribution calculation unit 204, and detects the detection target region obtained from the object detector.
- the object may be detected from the input image by reflecting the occurrence probability of the object with respect to the input image in the result.
- the object appearance position distribution calculating unit 204 generates the appearance of the object in the input image based on the scene belonging degree of the input image and the object photographing information which is information indicating the area where the object is likely to appear in the photographed image for each scene.
- the object location probability for each region of the input image may be calculated.
- the object detection means 203 reflects the occurrence probability of the object with respect to the input image and the existence position probability of the object with respect to each area of the input image in the detection result for the input image obtained from the object detector.
- the object may be detected from the input image by calculating the object position likelihood indicating the probability that the object exists in each region of the input image.
- the detection priority calculation unit 205 sets the priority of the object to be detected based on the occurrence probability of the object with respect to the input image calculated by the object occurrence probability calculation unit 202.
- the detection priority calculation unit 205 sets an object to be detected so that the time required for the object detection process falls within a predetermined time, and the object appears in the scene attribution level of the input image and the captured image.
- the detection target area may be set based on the object location probability with respect to each area of the input image calculated based on object photographing information that is information indicating an easy area for each scene.
- the present invention can be applied to uses such as an object detection device that detects a desired object from an image and a program for realizing the object detection device on a computer. Further, the present invention can be applied to a use of changing the focus according to an object in an image or performing image processing for each object using an object detection function.
- Object detection apparatus 110 Image input device 120 Data processing part 121 Scene attribution degree calculation means 122 Object occurrence probability calculation means 123 Object detection means 124 Detection priority calculation means 130 Data storage part 131 Scene feature storage part 132 Object occurrence information storage part 133 Object photographing information storage unit 140 Object detection result output device 201 Scene attribution degree calculation means 202 Object occurrence probability calculation means 203 Object detection means 204 Object appearance position distribution calculation means 205 Detection priority calculation means
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
Abstract
画像が撮影されるシーンと対応づけられた当該シーンで撮影された画像の特徴を示す情報と、入力画像から抽出される特徴とに基づいて、入力画像がどのシーンに属しているかを割合で表した情報であるシーン帰属度を算出するシーン帰属度算出手段と、シーン毎に物体の生起確率を示す物体生起情報と、シーン帰属度算出手段によって算出された入力画像のシーン帰属度とに基づいて、入力画像に対する物体の生起確率を算出する物体生起確率算出手段と、物体生起確率算出手段によって算出された入力画像に対する物体の生起確率を用いて、入力画像から物体を検出する物体検出手段とを備える。
Description
本発明は、ユーザが制約なく撮影した画像中の物体を検出する物体検出装置、物体検出方法および物体検出プログラムに関する。
スチルカメラやビデオカメラといった撮影システムで撮影した画像から物体を検出する機能を利用すると、物体に適したシャッタースピードやフォーカスの調整、画像処理が行えるので、簡単にきれいな画像を撮影することができる。また、物体に関する情報をその位置に重畳表示することができるので、カメラ産業や情報表示分野への適用が期待されている。画像中の物体を検出する方法として、物体検出用の矩形領域を設定し、画像全体を走査してその矩形領域内に所望の物体が存在するかどうかを判定する方法が提案されている。
例えば、非特許文献1には、検出対象として「人」を想定した物体検出方法が記載されている。非特許文献1に記載されている物体検出方法では、画像中から「人」を検出する際の矩形領域サイズを3種類の縦横比から設定し、画像全体に対して矩形領域を走査して「人」を検出している。
また、非特許文献2には、検出対象として「猫の顔」を想定した物体検出方法が記載されている。非特許文献2に記載されている物体検出方法では、「猫の顔」を検出する際の矩形領域サイズを特徴の種類ごとに設定し、画像全体に対して矩形領域を走査した後、2種類の特徴による結果を統合して「猫の顔」を検出している。
また、特許文献1には、車両前方の路上にある物体(白線、先行車両、路上障害物)を検出することを想定した物体検出方法が記載されている。特許文献1に記載されている物体検出方法では、画像中から物体の特徴点を検出する領域を限定した上で、物体検出を行っている。
また、特許文献2には、データベースに登録されているモデルが画像中のどこにあるかを検出することを想定した物体検出方法が記載されている。特許文献2に記載されている物体検出方法では、物体が存在する確率が高いと推定される範囲を求め、その領域に対して物体検出を行っている。
Q.ZhusS, Avidan, M.Yeh and K.Cheng, "Fast Human Detection Using a Cascade of Histograms of Oriented Gradients", IEEE Computer Vision and Pattern Recognition, Vol. 2, Jun 2006, p.1491-1498.
Weiwei Zhang, Jian Sun, and Xiaoou Tang, "Cat Head Detection -How to Effectively Exploit Shape and Texture Features", The 10th ECCV, LNSC.5305. Marseille, France, IEEE, Oct 2008, p.802-816.
非特許文献1や非特許文献2に記載されている物体検出方法では、物体を検出するための矩形領域や検出領域が断定的に決定される。そのため、撮影されたシーンに対して好適に矩形領域や検出領域が決定されるとは言い難い。例えば、街で撮影された「人」は立位が多いが、公園や砂浜で撮影された「人」は横になっている場合もある。すなわち、同じ物体でもシーンによって矩形領域が異なる場合がある。また、画像中から物体が存在しえない領域を検出領域としてしまう場合もある。これらの場合、物体検出率の低下および誤検出率の増加が考えられる。
なお、特許文献1や特許文献2に記載されている物体検出方法では、物体検出を行う領域を制限することで、検出対象物体以外を検出してしまう誤検出を低減している。しかし、特許文献1に記載されている物体検出方法では、検出領域をヒューリスティックに設定している。そのため、カメラの高さや画角が変わった場合や、ユーザが一般的に撮影した画像を利用する場合、検出領域を設定することは困難である。また、特許文献2に記載されている物体検出方法では、物体が存在する確率が高い領域を、前後フレームの差分情報から求めている。そのため、一枚の撮影画像からその領域を求めることは困難である。
そこで、本発明は、ユーザが特に制約なく撮影した画像中から物体を精度よく検出することができる物体検出装置、物体検出方法および物体検出プログラムを提供することを目的とする。
本発明による物体検出装置は、画像が撮影されるシーンと対応づけられた当該シーンで撮影された画像の特徴を示す情報と、入力画像から抽出される特徴とに基づいて、入力画像がどのシーンに属しているかを割合で表した情報であるシーン帰属度を算出するシーン帰属度算出手段と、シーン毎に物体の生起確率を示す物体生起情報と、シーン帰属度算出手段によって算出された入力画像のシーン帰属度とに基づいて、入力画像に対する物体の生起確率を算出する物体生起確率算出手段と、物体生起確率算出手段によって算出された入力画像に対する物体の生起確率を用いて、入力画像から物体を検出する物体検出手段とを備えたことを特徴とする。
また、本発明による物体検出方法は、画像が撮影されるシーンと対応づけられた当該シーンで撮影された画像の特徴を示す情報と、入力画像から抽出される特徴とに基づいて、入力画像がどのシーンに属しているかを割合で表した情報であるシーン帰属度を算出し、シーン毎に物体の生起確率を示す物体生起情報と、シーン帰属度算出手段によって算出された入力画像のシーン帰属度とに基づいて、入力画像に対する物体の生起確率を算出し、算出された入力画像に対する物体の生起確率を用いて、入力画像から物体を検出することを特徴とする。
また、本発明による物体検出プログラムは、コンピュータに、画像が撮影されるシーンと対応づけられた当該シーンで撮影された画像の特徴を示す情報と、入力画像から抽出される特徴とに基づいて、入力画像がどのシーンに属しているかを割合で表した情報であるシーン帰属度を算出する処理、シーン毎に物体の生起確率を示す物体生起情報と、シーン帰属度算出手段によって算出された入力画像のシーン帰属度とに基づいて、入力画像に対する物体の生起確率を算出する処理、および算出された入力画像に対する物体の生起確率を用いて、入力画像から物体を検出する処理を実行させることを特徴とする。
本発明によれば、ユーザが特に制約なく撮影した画像中から物体を精度よく検出することができる。
実施形態1.
以下、本発明の実施形態を図面を参照して説明する。図1は、本発明の第1の実施形態の物体検出装置の構成例を示すブロック図である。図1に示す物体検出装置100は、画像入力装置110と、データ処理部120と、データ記憶部130と、物体検出結果出力装置140とを備える。
以下、本発明の実施形態を図面を参照して説明する。図1は、本発明の第1の実施形態の物体検出装置の構成例を示すブロック図である。図1に示す物体検出装置100は、画像入力装置110と、データ処理部120と、データ記憶部130と、物体検出結果出力装置140とを備える。
画像入力装置110は、スチルカメラやビデオカメラといった撮像システムで撮影した画像をシーン帰属度算出手段121に入力する。
また、データ処理部120は、シーン帰属度算出手段121と、物体生起確率算出手段122と、物体検出手段123とを含む。データ処理部120は、例えば、プログラムに従って動作するCPUによって実現される。なお、図1では、シーン帰属度算出手段121、物体生起確率算出手段122、物体検出手段123が1つのデータ処理部120によって実現される例を示しているが、各手段はそれぞれ別々のユニットとして実現することも可能である。
また、データ記憶部130は、シーン特徴記憶部131と、物体生起情報記憶部132と、物体撮影情報記憶部133とを含む。データ記憶部130は、メモリ等の記憶装置によって実現される。なお、図1では、シーン特徴記憶部131、物体生起情報記憶部132、物体撮影情報記憶部133が1つのデータ記憶部130によって実現される例を示しているが、各記憶部はそれぞれ別々のユニットとして実現することも可能である。
シーン帰属度算出手段121は、入力された画像から特徴を抽出する。シーン帰属度算出手段121は、抽出した特徴とシーン特徴記憶部131に格納されているシーン毎の特徴と照合して、その画像がどのようなシーン(場面、舞台等)を撮影したものか判断する。すなわち、シーン帰属度算出手段121は、その画像がどのシーンに属しているかを割合で表した帰属度を算出する。シーン特徴記憶部131は、シーン毎の特徴を示す情報として、シーンを記述する特徴ベクトル群を格納している。これらの特徴ベクトルは、あらかじめシーンと対応付けされている。シーン帰属度算出手段121は、ある画像から抽出された特徴ベクトルと、シーンと対応付けされた特徴ベクトルとの照合を行うことで、シーン帰属度を算出する。
物体生起確率算出手段122は、シーン帰属度算出手段121によって算出されたシーンの帰属度と、物体生起情報記憶部132に格納されているシーン毎の物体生起情報とに基づいて、入力画像に対する物体の生起確率を算出する。物体生起情報記憶部132は、シーン毎に生起する物体の情報、すなわちシーン毎の物体生起情報を格納している。
物体撮影情報記憶部133は、シーン毎に物体が撮影時にどのような位置や大きさで撮影される傾向にあるかを示す物体撮影情報を格納している。物体撮影情報は、例えば、シーンごとの撮影画像に出現しやすい物体の位置や大きさといった撮影画像において物体が出現しやすい領域を示す情報である。物体撮影情報は、統計的な情報であることが好ましい。なお、物体撮影情報は、出現する物体の位置や大きさといった物体の出現しやすい領域の範囲等を直接に示す情報に限られない。物体撮影情報は、例えば、物体にありそうな色の情報であってもよい。このような場合には、物体にありそうな色を元に検出領域を決定すればよい。
物体検出手段123は、物体撮影情報記憶部133に格納されている物体撮影情報に基づいて、入力画像に適用する検出領域を設定する。物体検出手段123は、物体検出器を用いて入力画像の検出領域を走査し、検出結果を信頼度として算出する。なお、ここでいう信頼度とは、入力画像の検出領域に含まれる判定単位とされた各領域について、当該領域に写っているものが検出対象の物体である信頼度である。さらに、物体検出手段123は、物体生起確率算出手段122によって算出された入力画像に対する物体の生起確率と、算出した信頼度とに基づいて、入力画像における物体位置尤度を求める。
物体検出結果出力装置140は、物体検出手段123によって物体位置尤度が一定値以上とされた領域を物体検出結果と決定する。そして、物体検出結果出力装置140は、その物体検出結果をディスプレイ等の表示デバイスに出力する。
次に、本実施形態の動作を説明する。図2は、本実施形態の動作の一例を示すフローチャートである。
まず、画像入力装置110は、スチルカメラやビデオカメラから取得した画像やWEBに投稿された画像を取得し、シーン帰属度算出手段121にその画像を入力する(ステップS1)。
シーン帰属度算出手段121は、入力画像から特徴抽出を行い、シーンを識別するための特徴ベクトルを生成する(ステップS2)。そして、シーン帰属度算出手段121は、生成した特徴ベクトルをシーン特徴記憶部131に格納されているシーン毎の特徴ベクトルと照合し、入力画像がどのようなシーンに属しているかを割合で表した帰属度を算出する(ステップS3)。
例えば、入力画像から生成した特徴ベクトルとシーンAの特徴ベクトルとの距離をLA、シーンBとの特徴ベクトルとの距離をLBとする。このとき、シーン帰属度算出手段121は、シーンAへの入力画像の帰属度をLA/(LA+LB)と算出し、シーンBへの入力画像の帰属度をLB/(LA+LB)と算出する。
特徴ベクトルとして、SIFT(Scale-Invariant Feature Transform )やHOG(Histograms of Oriented Gradients)といった特徴を利用してもよい。例えば、クラスタリング手法を用いて数百程度の代表特徴を算出し、代表特徴をビン(階級)とするヒストグラム表現で示したものを特徴ベクトルとして用いてもよい。シーン特徴記憶部131にはシーンに対応付けされた特徴ベクトルが格納されているので、入力画像から算出された特徴ベクトルと照合することで、各シーンへの帰属度Pr(Sj|I)を算出する。照合方法は、特徴ベクトル間のヒストグラムマッチングでもよいし、SVM(Support vector machine)といった識別器を用いた学習による照合でもよい。
物体生起確率算出手段122は、シーン帰属度算出手段121で算出したシーンへの帰属度Pr(Sj|I)と、物体生起情報記憶部132に格納されている、シーンごとに存在する物体の生起情報から、入力画像に対する物体の生起確率Pr(Oi|I)を以下の式(1)に基づいて算出する(ステップS4)。ここでは生起情報として、各シーンにおける各物体の生起確率Pr(Oi|Sj)を用いている。なお、式(1)において、係数iは物体種類数を表し、係数jはシーン種類数を表している。
また、物体検出手段123は、シーン毎に出現する物体の位置や大きさといった物体撮影情報を格納している物体撮影情報記憶部133を参照して、画像領域内での物体の出現しやすさを表す物体の存在位置確率Prarea(PosOi|I)を以下の式(2)に基づいて算出する(ステップS5)。このとき、算出した物体の存在位置確率Prarea(PosOi|I)を基に物体検出器の検出領域を決定してもよい。例えば、物体の存在位置確率が0%または所定のしきい値未満である領域を検出領域から除外するようにしてもよい。ここで検出領域を限定すれば、物体検出器の検出処理の処理時間を短縮させることができる。
次いで、物体検出手段123は、物体検出器を用いて画像を走査し、画像中の物体位置を信頼度Prdetector(PosOi|I)として算出する(ステップS6)。物体検出手段123は、物体の画像領域内での存在位置確率Prarea(PosOi|I)、入力画像に対する物体の生起確率Pr(Oi|I)と共に、物体位置尤度Pr(PosOi|I)を式(3)に基づいて算出する(ステップS7)。
物体検出結果出力装置140は、算出した物体位置尤度に対して閾値を設定することで物体位置を決定する。そして、物体検出結果出力装置140は、決定した物体位置をディスプレイ等の表示デバイスに出力する。
次に、具体的な実施例を用いて本発明を実施するための最良の形態の動作を説明する。
まず、データ記憶部130に格納しているデータの生成方法を説明する。シーン特徴記憶部131は、あらかじめ識別対象としたいシーンを含む画像から特徴抽出が行われたシーンを識別するための辞書を記憶する。
例えば、「街」「紅葉」「オフィス」「公園」「室内」「山」「浜辺」のシーンに分類した画像群からSIFT特徴が抽出される。全画像から抽出された特徴から、K-meansといったクラスタリング手法を用いて、クラスタ中心を代表の特徴ベクトルとする代表特徴ベクトルが算出される。そして、ビンに代表特徴ベクトルを用いたヒストグラムを画像ごとに生成する。ヒストグラムのビン数は認識率が高くなるように実験により数を決定してもよい。
次に、シーンを識別するための辞書を生成する。生成したヒストグラムを用いてシーン識別を行うため、SVMを用いてヒストグラムを学習し、学習結果のサポートベクターを辞書としてシーン特徴記憶部131に格納する。なお、ここでは、識別器にSVMを用いたが、識別器は、SVMに限定されるものではない。ヒストグラム間の距離でシーンを識別してもよい。その場合、ヒストグラムを辞書としてシーン特徴記憶部131に格納する。
物体生起情報記憶部132は、あらかじめシーンごとに、そのシーンに存在する物体の生起情報を記憶する。例えば、生起情報として生起確率を算出し、その結果を物体生起情報記憶部132に格納してもよい。生起確率は、(シーン中にある物体が含まれる枚数)/(全シーン枚数)で表される。
例えば、あらかじめシーンについて分類した「街」画像100枚中に、「車」「バイク」「建物」「人」「道路」「木」「机」が含まれている画像がそれぞれ、25枚、5枚、4枚、5枚、15枚、1枚、0枚であったとする。この場合、「街」シーンにおける各物体の生起確率は、0.25、0.05、0.04、0.05、0.15、0.01、0となる。同様にして他のシーンについても物体の生起確率が算出される。例えば、シーン「街」(S1)、シーン「紅葉」(S2)についての各物体Oiの生起確率Pr(Oi|S1)、Pr(Oi|S2)が図3のように格納される。図3(a)は生起情報を求める物体の一例を示す説明図であり、(b)は生起情報を求めるシーンの一例を示す説明図であり、(c)はシーンS1、S2についての各物体の生起確率の一例を示す説明図である。なお、物体生起情報記憶部132は、物体IDと物体名とを含む物体一覧と、シーンIDとシーン分類名とを含むシーン一覧と、一覧にある各シーンについての各物体の生起確率とを記憶してもよい。
また、物体生起情報記憶部132は、生起情報として、シーン中に当該物体が含まれる枚数を記憶してもよい。このようにすることで、物体生起情報記憶部132は、シーン中に当該物体が含まれる枚数のみを加算するだけでよく、追加が頻繁に発生する場合の確率の再計算時間を抑えることができる。なお、この場合、生起確率を、実行時に一度だけ物体生起確率算出手段122が求めてもよい。
また、生起情報が、シーン中に物体が含まれるかどうかに加えて、その物体の個数を重み付けとする情報を含んでいてもよい。例えば、あらかじめシーンについて分類した「街」画像100枚中に「車」が含まれている画像が1枚であったとする。なお、その1枚の画像に含まれている「車」の台数は9台である。一方で、シーン「公園」として分類された画像100枚中に「車」が含まれている画像も1枚であったとする。なお、その1枚の画像に含まれている「車」の台数は1台である。そのような場合、物体の生起確率は(シーン中に当該物体が含まれる枚数)/(全シーン枚数)で算出されるため、シーン「街」およびシーン「公園」はともに同じ生起確率(0.01)になる。さらに、車の台数を考慮して、シーン「街」の生起確率をシーン「公園」の生起確率の9倍としてもよい。
物体撮影情報記憶部133は、画像中に物体がどの位置や大きさで撮影されているかといった物体撮影情報を格納している。例えば、シーン「街」において、「車」が画像の中央部を中心に位置する場合、物体撮影情報Pr(PosO1|S1)は、図4のように表現される。
図4は、画像上での「車」の位置を表しており、色が濃くなるほど「車」が存在しやすい領域を示している。なお、図4では物体の位置情報として、シーン「街」の場合に「車」が存在する確率を画像平面上の模様で表している。実際には、このような画像平面上の確率を配列のデータに変換して物体撮影情報として格納する。例えば、図5に示すように、100×100の配列を用意し、画面平面状の各位置に「車」が存在する確率を各配列の成分と対応させる。そして、この配列を、シーン「街」の場合に画面平面上の各位置において「車」が存在する確率Pr(PosO1|S1)を示すデータとして用いてもよい。そのような場合には、各成分の値にはその成分が対応する位置に物体が存在する確率を保持すればよい。また、図6は、画像平面上の存在確率と配列データとの対応関係を示す説明図である。図6に示すように、配列データでは配列の中心付近に確率0.9が設定されていることから、画像では、シーン「街」の場合に中心付近に「車」が0.9(90%)の確率で存在することがわかる。
なお、物体撮影情報には、このような位置情報以外に、物体を検出するための矩形領域の大きさを示す情報を含んでいてもよい。
次に、ユーザにより撮影された画像(入力)から物体を検出する動作を説明する。以下では、図7に示す画像が入力された場合を例に説明する。なお、図7に示す画像は白黒表示となっているが、実際はカラー表示であるとする。
まず、シーン帰属度算出手段121は、シーン特徴記憶部131に格納されている特徴ベクトルを生成した場合と同様の処理を入力画像に対して行う。つまり、シーン帰属度算出手段121は、入力画像から前述のSIFT特徴を抽出し、ビンに代表特徴ベクトルを用いたヒストグラムを、シーンを記述する特徴ベクトルとして生成する。特徴ベクトルが識別器に入力されることにより、各シーンに対する帰属度が算出される。図8は、本例における入力画像に対するシーン帰属度の算出結果の一例を示す説明図である。図8に示すように、ここでは、シーン「街」(S1)に対する帰属度として0.8が求まり、シーン「紅葉」(S2)に対する帰属度として0.01が求まり、シーン「オフィス」(S3)に対する帰属度として0.02が求まり、シーン「公園」(S4)に対する帰属度として0.04が求まり、シーン「室内」(S5)に対する帰属度として0.05が求まり、シーン「山」(S6)に対する帰属度として0.05が求まり、シーン「浜辺」(S7)に対する帰属度として0.03が求まったものとする。
次に、物体生起確率算出手段122は、算出された各シーンの帰属度を基に、シーンごとの物体生起確率から画像中に含まれる物体の生起確率を上述の式(1)に基づいて算出する。例えば、シーン毎の物体生起確率が図3(c)のように与えられたとする。この場合、シーン「街」(S1)に対する帰属度Pr(S1|I)は0.8であり(図8参照。)、シーン「街」(S1)における「車」(O1)の生起確率Pr(O1|S1)は0.25(図3(c)参照。)である。よって、当該入力画像が街のシーンであると仮定した場合の当該画像(街)における「車」(O1)の生起確率は、0.8*0.25=0.2となる。同様に、シーン「紅葉」(S2)に対する帰属度Pr(S2|I)は0.01であり、シーン「紅葉」(S2)における「車」(O1)の生起確率Pr(O1|S2)は0.01である。よって、当該入力画像が紅葉のシーンであると仮定した場合の当該画像(紅葉)における「車」(O1)の生起確率は、0.01*0.01=0.0001となる。このように、物体生起確率算出手段122は、すべてのシーンについて各物体の生起確率を算出した後、式(1)に基づき正規化を行うことで、入力画像に対する各物体の生起確率を算出する。図9は、入力画像に対する各物体の生起確率の算出結果の一例を示す説明図である。
なお、図9では、入力画像に対する「車」(O1)の生起確率Pr(O1|I)として0.3が求まり、入力画像に対する「バイク」(O2)の生起確率Pr(O2|I)として0.2が求まり、入力画像に対する「建物」(O3)の生起確率Pr(O3|I)として0.2が求まり、入力画像に対する「人」(O4)の生起確率Pr(O4|I)として0.1が求まり、入力画像に対する「道路」(O5)の生起確率Pr(O5|I)として0.15が求まり、入力画像に対する「木」(O6)の生起確率Pr(O6|I)として0.05が求まり、入力画像に対する「机」(O7)の生起確率Pr(O7|I)として0が求まった例を示している。
次に、物体検出手段123は、物体撮影情報記憶部133に格納されている物体撮影情報を参照して、上述の式(2)に基づき物体検出器で走査する検出領域を決定する。なお、物体の大きさ情報がある場合、物体検出手段123は、物体検出器を適用する大きさも同時に決定してもよい。
例えば、物体撮影情報として図4に示すような、シーンごとの物体の位置情報として、画像平面上の存在確率が与えられたとする。この場合、式(2)の左辺の分子は、それら各確率に、その物体のシーン帰属度を掛けることで算出される。図10は、入力画像「街」に対する「車」の存在位置確率の算出例を示す説明図である。図10に示す例では、物体検出手段123は、入力画像「街」に対する「車」の位置を示す確率、すなわち入力画像がシーン「街」である場合に「車」がどこに存在しそうかを表す存在位置確率を算出している。具体的には、物体検出手段123は、物体撮影情報に含まれるシーン「街」における「車」の存在位置確率Pr(PosO1|S1)と、入力画像のシーン「街」(S1)に対する帰属度Pr(S1|I)=0.8とを乗算して存在位置確率を求めている。同様に、物体検出手段123は、入力画像「紅葉」に対する「車」の位置を示す確率、入力画像「オフィス」に対する「車」の位置を示す確率、・・・、入力画像「街」における「バイク」の位置を表す確率、・・・、入力画像「浜辺」における「机」位置を表す確率など、各物体について全てのシーンについて存在しそうな位置を算出する。その後、物体検出手段123は、分母の算出結果をもとに正規化を行うことで、入力画像における物体の出現位置分布として、各物体の画像領域内での存在位置確率Prarea(PosOi|I)を求める。
次いで、物体検出手段123は、物体検出を実行する。図11は、物体検出方法の例および物体検出器による検出結果の例を示す説明図である。図11に示すように、本例では、物体検出器に入力画像を矩形領域αを用いて走査させることによって、矩形領域αに対して「車」らしさの値を示す確率を得る。このとき、図11に示すように、物体検出の精度によっては誤検出が発生する場合がある。
物体検出結果が得られると、物体検出手段123は、式(3)を用いて、物体検出結果に対して、入力画像に対する物体の生起確率Pr(Oi|I))と、画像領域内の各領域での物体の出現しやすさを表した物体の存在位置確率Prarea(PosOi|I)とを適用し、物体ごとに画像中の物体位置尤度を算出する。すなわち、その画像内の領域について対象物体が存在している確からしさを算出する。図12は、入力画像に対する「車」についての物体位置尤度の算出例を示す説明図である。なお、図12では、配列のデータの正しい計算結果は図示省略しているが、最終的には上段に示す図のような結果が得られる。本例では、算出した物体位置尤度に対して閾値を設定し、閾値以上の尤度を持つ領域を物体検出結果とする。
また、図13は、物体「車」「人」「机」について、物体検出器による検出結果と本実施形態によって求めた物体位置尤度による物体検出結果とを比較した例を示す説明図である。図13に示す例では、左側に物体検出器による各物体の検出結果を示し、右側に本実施形態で求める物体の物体位置尤度による各物体の検出結果を示している。図13に示す例では、各物体の物体位置尤度に基づき、各物体について閾値以上の尤度を持つ領域をその物体が検出された領域として示している。
図13にも示すように、本実施形態によれば、物体検出器のみの結果で発生していた、出現しにくい場所での誤検出を低減することができる。また、本実施形態によれば、検出対象とする物体が限定されないので、ユーザが特に制約なく撮影した画像中から物体を精度よく検出することができる。
すなわち、本実施形態では、撮影画像からシーン帰属度を算出し、シーンに含まれる物体の生起情報や、シーン毎に出現する物体の位置や大きさといった統計的な情報(物体撮影情報)を用いて、検出対象物体や検出対象領域を設定または重み付けをしている。これにより、同じ物体でもシーンによって好適な矩形領域や検出領域を設定したのと同様の状態で物体検出を行うことができ、物体検出精度の向上、誤検出の低下が可能になる。また、統計的な情報に基づくため、ユーザが撮影した一般的な静止画に対しても、自動で矩形領域サイズや検出領域を算出することが可能になる。
また、図14は、物体検出結果の他の表示例を示す説明図である。物体検出結果の表示としては、例えば、図14に示すように、各各物体の検出結果領域を統合させて画像全体における物体の検出結果にして表示してもよい。なお、図14に示す例では、図13に示した各物体の物体検出結果から、画像全体における物体の検出結果として「車」と「人」のみが検出されたものとして物体検出結果を表示している。
なお、上記説明では、物体検出器の検出結果に対して、統計情報に基づき算出した物体の生起確率と出現位置分布とを適用する例を示したが、物体の生起確率のみを適用して物体位置尤度を求めるといった実施形態も可能である。物体生起確率算出手段122によって算出される入力画像に対する物体生起確率を適用した場合には、例えば、シーンによっては物体が存在しえない画像から誤って検出された物体を検出結果から除外することができる。なお、物体の生起確率のみを適用する場合には、物体撮影情報記憶部133を省略してもよい。
実施形態2.
次に、本発明の第2の実施形態について説明する。図15は、本発明の第2の実施形態の物体検出装置の構成例を示すブロック図である。図15に示すように、本実施形態の物体検出装置は、図1に示す第1の実施形態と比べて、データ処理部120が、さらに検出優先度算出手段124を備える点が異なる。
次に、本発明の第2の実施形態について説明する。図15は、本発明の第2の実施形態の物体検出装置の構成例を示すブロック図である。図15に示すように、本実施形態の物体検出装置は、図1に示す第1の実施形態と比べて、データ処理部120が、さらに検出優先度算出手段124を備える点が異なる。
検出優先度算出手段124は、物体検出器が検出する物体や領域の優先度を算出する。処理時間が限られた環境では、効率よく画像中から物体を検出する必要がある。そのため、検出優先度算出手段124は、与えられた条件に合致するよう、検出対象とする物体や検出領域に対して優先度を算出して、必要に応じて検出対象とする物体や検出領域を限定する設定を行う。
検出処理時間は、検出物体数と検出対象領域の大きさに比例する。そのため、検出処理時間が決まっている場合には、検出優先度算出手段124は、検出物体数の割合を設定した後で、検出対象領域を検出処理時間と検出物体数とから算出する。今、検出物体数の割合を80%と設定したとする。この場合、図9に示す例では、画像中に含まれる物体の生起確率の高い順から「車」「バイク」「建物」が検出対象物体となる。さらに、検出優先度算出手段124は、指定した検出処理時間に収まるまで、各物体の画像領域内での存在位置確率Prarea(PosOi|I)に基づき、存在位置確率が高い領域から順に検出対象領域を選定する。なお、本実施形態では、物体検出手段123に代わり、検出優先度算出手段124が各物体の画像領域内での存在位置確率を求める。
例えば、処理時間上、4つの要素(領域)しか処理できないとする。この場合、検出優先度算出手段124は、物体の存在位置確率の高い値を持つ要素での位置(例えば、図16の領域β)についてのみ、物体検出結果Prdetector(PosOi|I)を算出するようにする。なお、検出対象物体と検出領域を求めた後の処理は、第1の実施形態と同じである。なお、検出領域を限定した場合、物体検出手段123は、限定された検出領域の検出結果に対して、同様に領域を限定した出現位置分布を適用することにより、その領域のみの物体位置尤度Prdetector(PosOi|I)を算出する。図16は、検出領域を限定した場合の算出例を示す説明図である。
第2の実施形態では、検出優先度算出手段124が、処理時間に収まる検出対象物体数や検出領域を統計情報から算出する。このため、処理時間が限られた環境でも精度のよい物体検出を行うことができる。
次に、本発明の概要を説明する。図17は、本発明の概要を示すブロック図である。図17に示す物体検出装置は、シーン帰属度算出手段201と、物体生起確率算出手段202と、物体検出手段203とを備えている。
シーン帰属度算出手段201は、画像が撮影されるシーンと対応づけられた当該シーンで撮影された画像の特徴を示す情報と、入力画像から抽出される特徴とに基づいて、入力画像がどのシーンに属しているかを割合で表した情報であるシーン帰属度を算出する。シーン帰属度算出手段201は、上記実施形態では、例えば、シーン帰属度算出手段121として開示されている。
物体生起確率算出手段202は、シーン毎に物体の生起確率を示す物体生起情報と、シーン帰属度算出手段201によって算出された入力画像のシーン帰属度とに基づいて、入力画像に対する物体の生起確率を算出する。物体生起確率算出手段202は、上記実施形態では、例えば、物体生起確率算出手段122として開示されている。
物体検出手段203は、物体生起確率算出手段202によって算出された入力画像に対する物体の生起確率を用いて、入力画像から物体を検出する。物体検出手段203は、上記実施形態では、例えば、物体検出手段123として開示されている。
例えば、物体検出手段203は、物体検出器(図示省略)から得られる検出結果に、物体生起確率算出手段202によって算出された入力画像に対する物体の生起確率を反映させて、入力画像内の各領域において対象物体が存在している確からしさを表す物体位置尤度を算出することによって、入力画像から物体を検出してもよい。
例えば、物体生起情報が示すシーン毎の物体の生起確率は、予めシーン別に分類された撮影画像に含まれる物体数に基づいて算出された情報であってもよい。
また、物体生起確率算出手段202は、入力画像に対して、すべてのシーンについての物体の生起確率を算出し、算出されたすべてのシーンについての物体の生起確率を基に、入力画像に対する物体の生起確率を算出してもよい。
また、図18は、本発明による物体検出装置の他の構成例を示すブロック図である。図18に示すように、物体検出装置は、さらに、物体出現位置分布算出手段204や、検出優先度算出手段205を備えていてもよい。
物体出現位置分布算出手段204は、入力画像のシーン帰属度と、撮影画像において物体が出現しやすい領域をシーン毎に示す情報である物体撮影情報とに基づいて、入力画像における物体の出現位置分布を算出する。物体出現分布算出手段204は、上記実施形態では、例えば、物体検出手段123の一機能として開示されている。
例えば、物体撮影情報は、予め分類されたシーン毎に、当該シーンで撮影された画像において物体が出現しやすい位置および大きさを示す情報であってもよい。
また、物体出現位置分布算出手段204を備える構成において、例えば、物体検出手段203は、さらに物体出現位置分布算出手段204によって算出された入力画像における物体の出現位置分布を用いて、入力画像から物体を検出してもよい。
また、例えば、物体検出手段203は、物体出現位置分布算出手段204によって算出された入力画像における物体の出現位置分布に基づいて検出対象領域を決定し、物体検出器から得られる検出対象領域に対する検出結果に、入力画像に対する物体の生起確率を反映させることによって、入力画像から物体を検出してもよい。
また、物体出現位置分布算出手段204は、入力画像のシーン帰属度と、撮影画像において物体が出現しやすい領域をシーン毎に示す情報である物体撮影情報とに基づいて、入力画像における物体の出現位置分布として、入力画像の各領域に対する物体の存在位置確率を算出してもよい。そのような場合には、物体検出手段203は、物体検出器から得られる入力画像に対する検出結果に、入力画像に対する物体の生起確率と、入力画像の各領域に対する物体の存在位置確率とを反映させて、入力画像の各領域において物体が存在している確からしさを表す物体位置尤度を算出することによって、入力画像から物体を検出してもよい。
また、検出優先度算出手段205は、物体生起確率算出手段202によって算出された入力画像に対する物体の生起確率に基づいて、検出対象とする物体の優先度を設定する。
また、検出優先度算出手段205は、物体検出処理にかかる時間が所定の時間内に収まるように、検出対象とする物体を設定するとともに、入力画像のシーン帰属度と撮影画像において物体が出現しやすい領域をシーン毎に示す情報である物体撮影情報とに基づいて算出される入力画像の各領域に対する物体の存在位置確率に基づいて検出対象領域を設定してもよい。
以上、実施形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2010年10月6日に出願された日本特許出願2010-226725を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本発明を、画像から所望の物体を検出する物体検出装置や、物体検出装置をコンピュータに実現するためのプログラムといった用途に適用できる。また、本発明を、物体検出機能を用いて、画像中の物体に応じてフォーカスを変更したり、物体毎に画像処理を行う用途にも適用できる。
100 物体検出装置
110 画像入力装置
120 データ処理部
121 シーン帰属度算出手段
122 物体生起確率算出手段
123 物体検出手段
124 検出優先度算出手段
130 データ記憶部
131 シーン特徴記憶部
132 物体生起情報記憶部
133 物体撮影情報記憶部
140 物体検出結果出力装置
201 シーン帰属度算出手段
202 物体生起確率算出手段
203 物体検出手段
204 物体出現位置分布算出手段
205 検出優先度算出手段
110 画像入力装置
120 データ処理部
121 シーン帰属度算出手段
122 物体生起確率算出手段
123 物体検出手段
124 検出優先度算出手段
130 データ記憶部
131 シーン特徴記憶部
132 物体生起情報記憶部
133 物体撮影情報記憶部
140 物体検出結果出力装置
201 シーン帰属度算出手段
202 物体生起確率算出手段
203 物体検出手段
204 物体出現位置分布算出手段
205 検出優先度算出手段
Claims (10)
- 画像が撮影されるシーンと対応づけられた当該シーンで撮影された画像の特徴を示す情報と、入力画像から抽出される特徴とに基づいて、入力画像がどのシーンに属しているかを割合で表した情報であるシーン帰属度を算出するシーン帰属度算出手段と、
シーン毎に物体の生起確率を示す物体生起情報と、前記シーン帰属度算出手段によって算出された入力画像のシーン帰属度とに基づいて、入力画像に対する物体の生起確率を算出する物体生起確率算出手段と、
前記物体生起確率算出手段によって算出された入力画像に対する物体の生起確率を用いて、入力画像から物体を検出する物体検出手段とを備えた
ことを特徴とする物体検出装置。 - 入力画像のシーン帰属度と、撮影画像において物体が出現しやすい領域をシーン毎に示す情報である物体撮影情報とに基づいて、入力画像における物体の出現位置分布を算出する物体出現位置分布算出手段を備え、
物体検出手段は、さらに前記物体出現位置分布算出手段によって算出された入力画像における物体の出現位置分布を用いて、入力画像から物体を検出する
請求項1に記載の物体検出装置。 - 物体検出手段は、物体出現位置分布算出手段によって算出された入力画像における物体の出現位置分布に基づいて検出対象領域を決定し、物体検出器から得られる検出対象領域に対する検出結果に、入力画像に対する物体の生起確率を反映させることによって、入力画像から物体を検出する
請求項2に記載の物体検出装置。 - 物体出現位置分布算出手段は、入力画像のシーン帰属度と、撮影画像において物体が出現しやすい領域をシーン毎に示す情報である物体撮影情報とに基づいて、入力画像における物体の出現位置分布として、入力画像の各領域に対する物体の存在位置確率を算出し、
物体検出手段は、物体検出器から得られる入力画像に対する検出結果に、入力画像に対する物体の生起確率と、入力画像の各領域に対する物体の存在位置確率とを反映させて、入力画像の各領域において物体が存在している確からしさを表す物体位置尤度を算出することによって、入力画像から物体を検出する
請求項2に記載の物体検出装置。 - 物体生起情報が示すシーン毎の物体の生起確率は、予めシーン別に分類された撮影画像に含まれる物体数に基づいて算出された情報である
請求項1から請求項4のうちのいずれか1項に記載の物体検出装置。 - 物体生起確率算出手段は、入力画像に対して、すべてのシーンについての物体の生起確率を算出し、算出されたすべてのシーンについての物体の生起確率を基に、入力画像に対する物体の生起確率を算出する
請求項1から請求項5のうちのいずれか1項に記載の物体検出装置。 - 物体生起確率算出手段によって算出された入力画像に対する物体の生起確率に基づいて、検出対象とする物体の優先度を設定する検出優先度算出手段を備えた
請求項1から請求項6のうちのいずれか1項に記載の物体検出装置。 - 検出優先度算出手段は、物体検出処理にかかる時間が所定の時間内に収まるように、検出対象とする物体を設定するとともに、入力画像のシーン帰属度と撮影画像において物体が出現しやすい領域をシーン毎に示す情報である物体撮影情報とに基づいて算出される入力画像の各領域に対する物体の存在位置確率に基づいて検出対象領域を設定する
請求項7に記載の物体検出装置。 - 画像が撮影されるシーンと対応づけられた当該シーンで撮影された画像の特徴を示す情報と、入力画像から抽出される特徴とに基づいて、入力画像がどのシーンに属しているかを割合で表した情報であるシーン帰属度を算出し、
シーン毎に物体の生起確率を示す物体生起情報と、前記シーン帰属度算出手段によって算出された入力画像のシーン帰属度とに基づいて、入力画像に対する物体の生起確率を算出し、
算出された入力画像に対する物体の生起確率を用いて、入力画像から物体を検出する
ことを特徴とする物体検出方法。 - コンピュータに、
画像が撮影されるシーンと対応づけられた当該シーンで撮影された画像の特徴を示す情報と、入力画像から抽出される特徴とに基づいて、入力画像がどのシーンに属しているかを割合で表した情報であるシーン帰属度を算出する処理、
シーン毎に物体の生起確率を示す物体生起情報と、前記シーン帰属度算出手段によって算出された入力画像のシーン帰属度とに基づいて、入力画像に対する物体の生起確率を算出する処理、および
算出された入力画像に対する物体の生起確率を用いて、入力画像から物体を検出する処理
を実行させるための物体検出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012537577A JPWO2012046426A1 (ja) | 2010-10-06 | 2011-09-30 | 物体検出装置、物体検出方法および物体検出プログラム |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010226725 | 2010-10-06 | ||
JP2010-226725 | 2010-10-06 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2012046426A1 true WO2012046426A1 (ja) | 2012-04-12 |
Family
ID=45927433
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2011/005542 WO2012046426A1 (ja) | 2010-10-06 | 2011-09-30 | 物体検出装置、物体検出方法および物体検出プログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JPWO2012046426A1 (ja) |
WO (1) | WO2012046426A1 (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013254262A (ja) * | 2012-06-05 | 2013-12-19 | Toshiba Corp | 移動体検出装置、移動体検出システム、および、移動体検出方法 |
JP2013257182A (ja) * | 2012-06-11 | 2013-12-26 | Canon Inc | 画像処理装置及び画像処理方法 |
JP2015082245A (ja) * | 2013-10-23 | 2015-04-27 | キヤノン株式会社 | 画像処理装置、画像処理方法及びプログラム |
JP2015099571A (ja) * | 2013-11-20 | 2015-05-28 | オリンパス株式会社 | 対象物位置特定システム、および対象物位置特定方法 |
JP2015158712A (ja) * | 2014-02-21 | 2015-09-03 | 株式会社東芝 | 学習装置、密度計測装置、学習方法、学習プログラム、及び密度計測システム |
JP2016091202A (ja) * | 2014-10-31 | 2016-05-23 | 株式会社豊田中央研究所 | 自己位置推定装置及び自己位置推定装置を備えた移動体 |
JP2017157201A (ja) * | 2016-02-29 | 2017-09-07 | トヨタ自動車株式会社 | 人間を中心とした場所認識方法 |
US11113555B2 (en) | 2017-03-23 | 2021-09-07 | Nec Corporation | Object detection apparatus, traffic monitoring system, method of controlling an object detection apparatus and program |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000293694A (ja) * | 1999-04-07 | 2000-10-20 | Toyota Motor Corp | シーン認識装置 |
JP2010154187A (ja) * | 2008-12-25 | 2010-07-08 | Nikon Corp | 撮像装置 |
-
2011
- 2011-09-30 WO PCT/JP2011/005542 patent/WO2012046426A1/ja active Application Filing
- 2011-09-30 JP JP2012537577A patent/JPWO2012046426A1/ja not_active Withdrawn
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000293694A (ja) * | 1999-04-07 | 2000-10-20 | Toyota Motor Corp | シーン認識装置 |
JP2010154187A (ja) * | 2008-12-25 | 2010-07-08 | Nikon Corp | 撮像装置 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013254262A (ja) * | 2012-06-05 | 2013-12-19 | Toshiba Corp | 移動体検出装置、移動体検出システム、および、移動体検出方法 |
JP2013257182A (ja) * | 2012-06-11 | 2013-12-26 | Canon Inc | 画像処理装置及び画像処理方法 |
US9621856B2 (en) | 2012-06-11 | 2017-04-11 | Canon Kabushiki Kaisha | Image processing apparatus and image processing method |
JP2015082245A (ja) * | 2013-10-23 | 2015-04-27 | キヤノン株式会社 | 画像処理装置、画像処理方法及びプログラム |
JP2015099571A (ja) * | 2013-11-20 | 2015-05-28 | オリンパス株式会社 | 対象物位置特定システム、および対象物位置特定方法 |
JP2015158712A (ja) * | 2014-02-21 | 2015-09-03 | 株式会社東芝 | 学習装置、密度計測装置、学習方法、学習プログラム、及び密度計測システム |
JP2016091202A (ja) * | 2014-10-31 | 2016-05-23 | 株式会社豊田中央研究所 | 自己位置推定装置及び自己位置推定装置を備えた移動体 |
JP2017157201A (ja) * | 2016-02-29 | 2017-09-07 | トヨタ自動車株式会社 | 人間を中心とした場所認識方法 |
US10049267B2 (en) | 2016-02-29 | 2018-08-14 | Toyota Jidosha Kabushiki Kaisha | Autonomous human-centric place recognition |
US11113555B2 (en) | 2017-03-23 | 2021-09-07 | Nec Corporation | Object detection apparatus, traffic monitoring system, method of controlling an object detection apparatus and program |
Also Published As
Publication number | Publication date |
---|---|
JPWO2012046426A1 (ja) | 2014-02-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12020474B2 (en) | Image processing apparatus, image processing method, and non-transitory computer-readable storage medium | |
WO2012046426A1 (ja) | 物体検出装置、物体検出方法および物体検出プログラム | |
US10216979B2 (en) | Image processing apparatus, image processing method, and storage medium to detect parts of an object | |
CN109829398B (zh) | 一种基于三维卷积网络的视频中的目标检测方法 | |
JP6482195B2 (ja) | 画像認識装置、画像認識方法及びプログラム | |
CN111639616B (zh) | 一种基于深度学习的重身份识别方法 | |
JP5121506B2 (ja) | 画像処理装置、画像処理方法、プログラム及び記憶媒体 | |
JP4479478B2 (ja) | パターン認識方法および装置 | |
JP6032921B2 (ja) | 物体検出装置及びその方法、プログラム | |
JP6921694B2 (ja) | 監視システム | |
JP6112801B2 (ja) | 画像認識装置及び画像認識方法 | |
US20110091113A1 (en) | Image processing apparatus and method, and computer-readable storage medium | |
US9740965B2 (en) | Information processing apparatus and control method thereof | |
US8111877B2 (en) | Image processing device and storage medium storing image processing program | |
US20070058836A1 (en) | Object classification in video data | |
JP2001307096A (ja) | 画像認識装置及び方法 | |
JP2016095808A (ja) | 物体検出装置、物体検出方法、画像認識装置及びコンピュータプログラム | |
JP2014093023A (ja) | 物体検出装置、物体検出方法及びプログラム | |
JP5936561B2 (ja) | 画像における外観及びコンテキストに基づく物体分類 | |
CN109902576B (zh) | 一种头肩图像分类器的训练方法及应用 | |
WO2019171779A1 (ja) | 物体検出装置、物体検出方法、およびプログラム | |
JP2008251039A (ja) | 画像認識システム及びその認識方法並びにプログラム | |
JP6384167B2 (ja) | 移動体追跡装置及び移動体追跡方法、並びにコンピュータ・プログラム | |
JP5335554B2 (ja) | 画像処理装置及び画像処理方法 | |
JP2014010633A (ja) | 画像認識装置、画像認識方法、及び画像認識プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 11830360 Country of ref document: EP Kind code of ref document: A1 |
|
WWE | Wipo information: entry into national phase |
Ref document number: 2012537577 Country of ref document: JP |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 11830360 Country of ref document: EP Kind code of ref document: A1 |