WO2006080568A1 - 文字読取り装置、文字読取り方法及び該文字読取り装置に用いられる文字読取り制御プログラム - Google Patents
文字読取り装置、文字読取り方法及び該文字読取り装置に用いられる文字読取り制御プログラム Download PDFInfo
- Publication number
- WO2006080568A1 WO2006080568A1 PCT/JP2006/301898 JP2006301898W WO2006080568A1 WO 2006080568 A1 WO2006080568 A1 WO 2006080568A1 JP 2006301898 W JP2006301898 W JP 2006301898W WO 2006080568 A1 WO2006080568 A1 WO 2006080568A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- character
- character string
- candidate
- partial
- extracting
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/16—Image preprocessing
- G06V30/166—Normalisation of pattern dimensions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/625—License plates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Definitions
- the present invention relates to a character reading device, a character reading method, and a character reading control program used in the character reading device, and more particularly, an input image obtained by photographing an image including characters such as a car license plate from an oblique direction.
- the present invention relates to a character reading device suitable for use in reading characters, a character reading method, and a character reading control program used in the character reading device. Background art
- the shape when the circumscribed quadrilateral of the character part of the license plate is viewed from the front is the standard.
- the vehicle is stored as a quadrilateral, the vehicle travel path is imaged by a video camera, and an image including the foreground or the background of the traveling vehicle is captured in response to the vehicle detection.
- the license plate character is cut out, the circumscribed quadrilateral of the cut out character portion is obtained, and the coordinate conversion parameter set is determined so that this circumscribed quadrilateral is similar to the upper standard quadrilateral.
- Coordinate transformation is performed using this coordinate transformation parameter set to obtain a face-to-face image of the license plate portion, and each character is recognized from the face-to-face image.
- an image of a vehicle including a license plate is captured from an oblique direction by an imaging device and stored as an image.
- the size of the license plate image and the position of the serial number on the license plate are read by the image correction device. Based on the size of the image, the distortion caused by taking the same license plate image from an oblique direction is corrected, and the image plate after normalization is normalized to a certain size by the image normalization device. . Thereafter, a character recognition process is performed on the license plate image by the character recognition device.
- a number of geometrically deformed license plate images are prepared in advance as reference images, and all the reference images and input images are matched using matched fills. Matched filtering (correlation) is performed.
- the present invention has been made in view of the above circumstances, and even when reading characters of an input image obtained by photographing an image including characters from an oblique direction, the characters are robust against geometrical deformation and read at high speed and with high accuracy. It is an object to provide a character reader that can It is said. Disclosure of the invention
- the invention according to claim 1 is characterized in that: a character candidate region extracting unit that extracts a candidate character region that is a candidate recognized as the character from an input image including characters; and a continuous character candidate region
- a character candidate region extracting unit that extracts a partial character string that is a set of a plurality of characters, a character string candidate extracting unit that extracts a character string candidate from a combination of the partial character strings, and the character string candidate It is characterized by comprising character recognition means for performing character recognition.
- the partial character string extraction unit obtains a stable feature amount with respect to projective transformation or affine transformation for the input image from an arbitrary combination of the character candidate regions, and uses the feature amount.
- the positional relationship of the character candidate areas is evaluated, and the partial character string is extracted based on the evaluation result.
- the invention according to claim 3 is characterized in that the feature amount is a cross ratio obtained from the height, width and distance of any two character candidate regions.
- the invention according to claim 4 is configured such that the partial character string extraction unit compares the feature amount with data of a dictionary created in advance, and extracts the partial character string based on the comparison result. It is characterized by that.
- the invention according to claim 5 is characterized in that a range of possible values of the feature amount is stored as data in the dictionary.
- the invention according to claim 6 is provided with peripheral information extracting means for extracting peripheral information representing information described in the vicinity of the character string candidate, wherein the character recognizing means includes the character string candidate,
- the configuration is characterized by recognizing peripheral information.
- the surrounding information extraction unit obtains a base vector from the character string candidates, represents a positional relationship of the character candidate regions with a coefficient of the base vector, and uses the coefficient to It is characterized in that it evaluates the relationship and extracts the peripheral information of the character string candidate based on the evaluation result.
- the invention according to claim 8 is characterized in that the peripheral information extracting means creates the coefficient in advance. Compared with dictionary data, the peripheral information of the character string candidates is extracted based on the comparison result.
- the character reading method according to the invention of claim 9 includes a character candidate region extraction process for extracting a character candidate region that is a candidate recognized as the character from an input image including characters, and a plurality of continuous character candidate regions.
- a partial character string extraction process for extracting a partial character string that is a set of characters, a character string candidate extraction process for extracting a character string candidate from a combination of the partial character strings, and character recognition for the character string candidate It is characterized by character recognition processing.
- the invention according to claim 10 is characterized in that, in the partial character string extraction process, a stable feature quantity is obtained for projective transformation or affine transformation for the input image from an arbitrary combination of the character candidate areas, and the feature quantity is obtained. And evaluating the positional relationship of the character candidate areas, and extracting the partial character string based on the evaluation result.
- the invention according to claim 11 is characterized in that the feature amount is a cross ratio obtained from the height, width, and distance of any two of the character candidate regions.
- the invention according to claim 12 is a character reading control program that is executed on a computer and causes the computer to be controlled as a character reading device, and is recognized as the character from an input image including the character by the computer.
- a character candidate area extracting function for extracting a character candidate area that is a candidate for a character a partial character string extracting function for extracting a partial character string that is a set of a plurality of consecutive characters from the character candidate area, and the partial character string
- a character string candidate extracting function for extracting a character string candidate from the combination and a character recognition function for performing character recognition on the character string candidate.
- the invention according to claim 13 is characterized in that, in the partial character string extraction function, a stable feature amount with respect to projective transformation or affine transformation for the input image is obtained from an arbitrary combination of the character candidate regions, and the feature amount is obtained. It is characterized in that the positional relationship between the character candidate regions is evaluated and the process of extracting the partial character string is executed based on the evaluation result.
- the character candidate region extraction unit extracts a character candidate region as a candidate recognized as a character from the input image including the character, and the partial character string extraction unit continues from the character candidate region.
- a substring that is a set of multiple characters is extracted, Character string candidates are extracted from the combination of the partial character strings by the character string candidate extracting means, and character recognition is performed on the character string candidates by the character recognizing means, so an image including characters is taken from an oblique direction. Even when reading characters in the input image, it is robust against geometric deformation and can read characters with high speed and high accuracy.
- the partial character string extraction means obtains a stable feature amount with respect to projective transformation or affine transformation for the input image from an arbitrary combination of character candidate regions, and uses this feature amount to determine the positional relationship of the character candidate regions. Since partial character strings are extracted based on the evaluation results, even when reading characters in an input image obtained by photographing an image containing characters from an oblique direction, it is robust against geometrical deformation, is fast and high A character reader that reads characters with high accuracy can be realized.
- the peripheral information extraction unit extracts peripheral information representing information described in the vicinity of the character string candidate, even when reading characters in an input image obtained by capturing an image including characters from an oblique direction, the geometric information is extracted. It is possible to realize a character reading device that is robust against anatomical deformation and reads characters with high speed and high accuracy.
- FIG. 1 is a block diagram showing an electrical configuration of a character reader according to an embodiment of the present invention.
- FIG. 2 is a flowchart for explaining the operation of the character reader shown in FIG.
- FIG. 3 is a diagram for explaining an example of feature values used when creating a partial character string.
- FIG. 4 is a diagram showing an example of the cross ratio used for evaluation of character string candidates.
- FIG. 5 is a diagram showing an example of the cross ratio used when extracting hiragana.
- FIG. 6 is a diagram showing an example of the basis vector used when extracting the classification number.
- FIG. 7 is a diagram showing an example of extracting a rectangle adjacent to the normal rectangle.
- FIG. 8 is a diagram showing an example of extracting the constituent elements of the name of the land transport station.
- FIG. 9 is a diagram showing an example of a base vector used for detecting the left end of the land transport station name part.
- FIG. 10 is a diagram illustrating an example of extracting recognition results from a plurality of cutout candidates.
- Image input part image input means
- Character candidate color extraction part character candidate color extraction means
- Character candidate area extraction part character candidate area extraction means
- Partial character string extraction part Partial Character string extraction means
- 5 Character string candidate extraction unit (character string candidate extraction means)
- 6 Peripheral information Extraction section (peripheral information extraction means)
- 7 Character recognition section (character recognition means) BEST MODE FOR CARRYING OUT THE INVENTION
- a stable feature value is obtained for projective transformation or affine transformation of the input image from an arbitrary combination of character candidate regions, and the positional relationship of the character candidate regions is evaluated using this feature amount.
- a character reader that extracts partial character strings, extracts character string candidates from combinations of the partial character strings, and performs character recognition on the character string candidates.
- FIG. 1 is a block diagram showing an electrical configuration of a character reader according to an embodiment of the present invention.
- the character reader of this example includes an image input unit 1, a character candidate color extracting unit 2, a character candidate region extracting unit 3, a partial character string extracting unit 4, and a character string candidate extracting unit. 5, a peripheral information extraction unit 6, a character recognition unit 7, and a control unit 8.
- the image input unit 1 includes, for example, a CCD (charge coupled device) camera and captures an image of an object to be photographed as an input image.
- the character candidate color extracting unit 2 extracts a color component corresponding to the character from the input image captured by the image input unit 1 as a character candidate color.
- the character candidate region extraction unit 3 labels the character candidate colors extracted by the character candidate color extraction unit 2 and extracts character candidate regions that become candidates recognized as characters.
- This labeling is a process of giving the same label (number) to pixels connected to each other and giving different labels to non-connected pixels. This makes it easy to count independent pixel clumps and to analyze the shape of connected components.
- the partial character string extraction unit 4 extracts a partial character string that is a set of a plurality of consecutive characters in the same character string from the character candidate regions extracted by the character candidate region extraction unit 3.
- the partial character string extraction unit 4 obtains a stable feature amount with respect to projective transformation or affine transformation for the image captured by the image input unit 1 from an arbitrary combination of character candidate regions. Using this feature amount, the positional relationship of the same character candidate area is evaluated. The partial character string is extracted based on the evaluation result. The feature amount is a cross ratio obtained from the height, width, and distance of any two candidate character regions. Then, the partial character string extraction unit 4 compares the feature quantity with a dictionary created in advance, and extracts a partial character string based on the comparison result.
- the character string candidate extraction unit 5 extracts character string candidates from the combination of partial character strings extracted by the partial character string extraction unit 4.
- the peripheral information extraction unit 6 extracts peripheral information representing information described around the character string candidates extracted by the character string candidate extraction unit 5.
- the peripheral information extraction unit 6 obtains a basis vector from the character string candidates, expresses the positional relationship of the character candidate regions with the coefficients of the basic vector, and evaluates the positional relationship using the coefficients. Based on the evaluation result, peripheral information of the same character string candidate is extracted. In this case, the peripheral information extraction unit
- the character recognition unit 7 performs character recognition on the character string candidates extracted by the character string candidate extraction unit 5 and the peripheral information extracted by the peripheral information extraction unit 6.
- the control unit 8 includes a CPU (Central Processing Unit) 8 a that controls the entire character reader, and a ROM (Read Only Memory) 8 b in which a character reading control program for operating the CPU 8 a is recorded. have.
- CPU Central Processing Unit
- ROM Read Only Memory
- FIG. 2 is a flowchart explaining the operation of the character reader shown in Fig. 1
- Fig. 3 is a diagram explaining an example of feature values used when creating a partial character string
- Fig. 4 is used for evaluating character string candidates.
- Fig. 5 shows an example of the cross ratio
- Fig. 5 shows an example of the cross ratio used when extracting hiragana
- Fig. 6 shows an example of the basis vector used when extracting the classification number.
- Fig. 7 Fig. 8 is a diagram showing an example of extracting a rectangle adjacent to the reference rectangle
- Fig. 8 is a diagram showing an example of extracting a component of the land transport station name
- Fig. 9 is for detecting the left end of the land transport station name portion.
- FIG. 10 is a diagram illustrating examples of basis vectors to be used
- FIG. 10 is a diagram illustrating an example of extracting recognition results from a plurality of extraction candidates.
- the image of the object to be photographed is displayed by the image input unit 1. Captured as an input image (step A1, image input processing).
- the color component corresponding to the character is extracted as a character candidate color by the character candidate color extraction unit 2 (step A2, character candidate color extraction process).
- a color component having a high appearance frequency in the input image is extracted as a main color
- the input image is decomposed into images for each extracted main color
- the main color in the decomposed image is A plurality of images having a predetermined relationship are combined, and each of these combined images is used as a character candidate color.
- Character candidate area extraction unit 3 extracts character candidate areas by labeling character candidate colors (step A 3, character candidate area extraction process).
- This character candidate area includes, for example, information on connected components of pixels of character candidate colors and circumscribed rectangle information on the connected components.
- the partial character string extraction unit 4 extracts, as a partial character string, a rectangle that is likely to be a set of consecutive multiple characters in the character string from the circumscribing rectangle information of the input character candidate area (step A4, part String extraction process).
- Geometrical deformation is expressed by the posture (speed, direction, distance) of an image sensor such as a CCD and the distance from the object to be projected to the projection center of the image sensor.
- feature quantities 2 to 5 represented by the following equations (2) to (5) are obtained.
- Feature 1 (compare ratio) is relatively stable when the character width and character spacing are constant. However, since the character is approximated by a circumscribed rectangle, it is completely invariant for projective transformation. It will not be a large amount. Therefore, the feature quantity 1 is compared with the partial character string feature evaluation dictionary, and based on the comparison result, it is determined that the two rectangles are partial character strings.
- this partial character string feature evaluation dictionary for example, a range of possible values of the feature amount 1 is stored as data.
- the substring feature evaluation dictionary for example, prepares multiple images of signboards and license plates that have undergone geometric deformation, extracts consecutive two-character circumscribed rectangles from these images, and uses these features. It is created by finding quantity 1 and storing the maximum and minimum values of feature 1 as data.
- the partial character string feature evaluation dictionary stores the average value of feature value 1,
- a partial character string feature evaluation dictionary can be created for each type of partial character string. For example, the characters used in the serial number of the license plate (the four-digit number in the second line) are ,
- N is a number other than 1
- the possible combinations of substrings are “ ⁇ ”, “ ⁇ 1”, “ ⁇ ⁇ ”, “1 1 ”,“ 1 ⁇ ”,“ 1 one ”,“ ⁇ 1 ”,“ ⁇ ⁇ ”,
- the ratio of the aspect ratio of two rectangles is used as feature quantity 2
- partial character strings are extracted by evaluating whether two characters have the same aspect ratio. Also, for example, even if the partial character string has a different aspect ratio, such as “1 1”, it is determined as a partial character string by comparing the ratio with the partial character string feature evaluation dictionary. Also, as the feature quantity 3, the aspect ratio of the first character of a partial character string is obtained, and the feature quantity 3 and feature quantity 2 are used at the same time.
- feature quantity 4 it is also possible to use feature quantity 4 or feature quantity 5.
- the character width is the same, so feature 5 is relatively stable.
- the character widths of the two are greatly different, so the feature amount 5 is not stable, but the character height is the same. It becomes relatively stable.
- these feature amount 2 to feature amount 5 can also be used to create a partial character string feature evaluation dictionary and store the range of each feature amount (maximum value and minimum value).
- the average value of each feature amount can be stored, and the average value and variance of each feature can also be stored.
- a dictionary for substring feature evaluation is created by storing the average vector and covariance matrix.
- the feature amounts shown in the equations (1) to (5) are obtained by calculation, and these feature amounts are stored in the data stored in the partial character string feature evaluation dictionary in advance.
- multiple partial character strings are extracted from the image.
- the partial character string information the first character rectangle and the second character rectangle information, which are constituent elements of the partial character string, are stored. For example, in the case of a license plate serial number, Information indicating whether it is a column (eg “ ⁇ ”, “1 N”, “N—”, etc.) is also stored at the same time.
- the partial character strings extracted by the partial character string extraction unit 4 are concatenated by the character string candidate extraction unit 5 and output as character string candidates from the character string candidate extraction unit 5 (step A5, character string candidates). Extraction process).
- the algorithm in this character string candidate extraction process will be described. For example, if a partial character string consists of two character candidate rectangles, when creating a character string candidate by concatenating the partial character strings, in order to concatenate two partial character strings, The second character of a substring is the first character of the other substring It must be a condition. Under this condition, multiple character string candidates may be extracted from the input partial character string information.
- the character string candidate to be extracted is a serial number
- the number of characters contained in the character string is limited to 4 or 5 characters, so a character string consisting of 3 or 4 partial character strings. Only candidates are extracted as serial number candidates.
- the layout of the center points of the rectangles that are the elements of the connected substrings is evaluated to determine whether they are aligned in a straight line. Only character string candidates arranged in a line are set as candidates for serial numbers. For the evaluation of whether or not they are arranged in a straight line, using the coordinates of the center point of each rectangle, for example, the residual is obtained from regression analysis or the least squares method, and if this is below a predetermined threshold If it is determined to be linear or if the contribution of the first principal component by the principal component analysis is greater than or equal to a predetermined threshold, it is determined to be linear.
- the range of the cross ratio (A s P s ZP s B s) / (A s Q s / Q s B s)
- an image of a license plate that has undergone geometric deformation Prepare multiple sheets, take out the circumscribed rectangles other than the serial number hyphens from these images, find the cross ratio from the X coordinates of the center of each rectangle, and store the maximum and minimum values, respectively. It is also possible to determine the range by storing the average value of the cross ratio or by storing the average value and variance.
- the peripheral information extraction unit 6 extracts information described around the character string candidates extracted by the character string candidate extraction unit 5 (step A6, peripheral information extraction processing). For example, in the case of a license plate, after the serial number is extracted, information corresponding to the hiragana, land transport station name and classification number is extracted. The algorithm in this peripheral information extraction process will be described.
- hiragana is extracted after candidates for sequence numbers are extracted, as shown in Fig. 5 (a), the location where the center point of hiragana exists on the straight line obtained from the center point of the character string candidate. If point Bl, Q1, and P1 are set with point A1, then the cross ratio is calculated. For example, prepare a number of images of license plates that have undergone geometric deformation, take out serial numbers and circumscribed rectangles of hiragana from these images, and create points Al and Bl as shown in Fig. 5 (a).
- Fig. 5 (b) it is possible to set the points A2, B2, Q2, and P2 and perform the same processing, and take the average value of the points A1 and A2 and It is also possible to use as the center point. In this case, not only the center point where the hiragana is written but also its range is estimated, and the combination of all rectangles existing in the estimated range is determined as the hiragana region.
- ⁇ Ql X (PI Ql ZQ2 B2) Is estimated as the width and height of Hiragana.
- PI Ql ZQ2 B2 is a predetermined constant, for example, set in the range of 0.4 to 0.6.
- the estimated hiragana center point, width, and height define the possible hiragana region, and all the rectangles contained in this region are the components of hiragana.
- “included in the region” may be, for example, a case where the entire rectangle is within the region, or a case where the center point of the rectangle is within the region.
- Hiragana is represented by a single connected component, such as the Arabic numerals used for serial numbers. Hiragana is extracted with high accuracy if it is determined that a set of multiple rectangles is hiragana. If the hiragana and serial number candidates listed on the second line of the license plate are extracted, the classification number and land transport station name candidates listed on the first line are extracted.
- classification number extraction will be described. Since it is difficult to estimate the projection parameters using only the sequence number and hiragana information extracted so far, the first line uses relatively stable features for affine transformation. Also, since the last digit of the serial number does not contain a hyphen “one” or dot “•”, it always contains a number, so the height of the last digit is a stable amount. Also, if you set the vector from the center of the character of the last digit of the series number to the center of the previous character, this is also a stable amount regardless of the character described.
- V a X + b y
- the coefficients a and b are relatively stable to the affine transformation. For this reason, a rectangle corresponding to the last digit of the classification number is extracted by extracting a rectangle whose coefficients a and b fall within a predetermined range.
- the predetermined range is, for example, preparing multiple images of a picker plate that has undergone geometric deformation, and the last two digits of the serial number and the last digit of the classification number for each image. Take out the rectangles, place the origin o at the center of the rectangle corresponding to the last digit of the sequence number, create the basis vectors x and y, and set the coordinates of the rectangle center corresponding to the last digit of the classification number.
- V a X + b y
- the coefficients a and b are calculated as follows, and the maximum and minimum values of the coefficients a and b are stored. Also, the average vector and covariance matrix are stored by storing the average values of the coefficients a and b, or considering the coefficients a and b as two-dimensional feature vectors. In such a method, multiple rectangles may be extracted as candidates for the last digit of the classification number. Therefore, among the rectangles extracted as candidates for the last digit of the classification number, only the rectangle with the maximum rightmost value (xe) is selected as the rectangle corresponding to the last digit of the classification number. To do.
- the rectangle corresponding to the last digit of the classification number is set as the reference rectangle, and the center point Xm on the X axis of a rectangle is smaller than the left end BXs of the reference rectangle, and the center point Ym on the Y axis Is between the lower end BY s and the upper end BY e of the reference rectangle and the ratio of the height h of the rectangle to the height Bh of the reference rectangle hZBh is between 0.8 and 1.2, the classification number It is determined that the rectangle candidate corresponds to the second digit from the end, but at this point, multiple rectangles may be extracted as candidates. Therefore, among the rectangles extracted as candidates, the rectangle with the smallest distance between the center of the rectangle and the reference rectangle is extracted as the rectangle corresponding to the second digit from the last.
- the rectangle corresponding to the 2nd digit from the last is reconverted to the reference rectangle, and evaluation is performed using the same criteria, and the rectangle that satisfies the criteria is extracted as a rectangle that has the possibility of becoming the 3rd digit from the last. Is done. Since it is difficult to know the number of digits of the classification number in advance, the rectangle with the possibility of the third digit is not necessarily the rectangle corresponding to the classification number, and may be part of the name of the land transport station. Therefore, it is necessary to determine the number of digits while referring to the character recognition result. In this embodiment, it is determined by referring to the recognition result of the character recognition unit 7. Therefore, here, a rectangle with the possibility of the third digit from the end is extracted as a temporary candidate.
- the bottom line 1 b and the top line 1 t are extracted using the upper and lower ends of the last two digits of the extracted classification number.
- the bottom line lb shows the center point (xml, ys 1) of the lower side of the rectangle corresponding to the last digit of the classification number and the center point (xm 2, ys 2) of the lower side of the rectangle corresponding to the second digit from the end.
- the top line I t is a straight line connecting the center points (xml, yel) and (xm2, ye 2) of the upper side of each rectangle.
- the rectangle whose center is located in the area between these two lines (bottom line lb and top line I t) is the rectangle that constitutes the name of the Land Transport Bureau.
- each of these land transport station name rectangles is set as a reference rectangle, and the center point Xm on the X axis of a rectangle is smaller than the left end BX s of the reference rectangle as shown in Fig. 7, and the Y axis The center point Ym at is between the bottom BY s and top BYe of the reference rectangle The distance between the centers of the rectangles is 1Z4 or less of the perimeter of both rectangles.
- the rectangles of the components of the serial number, hiragana, classification number, and land transport station name that have been extracted so far If there is a rectangle that does not apply to any of the rectangles, the rectangle is registered as the component rectangle of the new land transport station name.
- the left end of the name of the Land Transport Bureau is estimated by referring to the range of values of the coefficients a 2 and b2 specific to the position of the screw on the left side of the predetermined license plate.
- the range of values of the coefficients a2 and b2 that are specific to the screw position is, for example, preparing multiple images of the amper plate that is undergoing geometric deformation.
- the rectangle corresponding to the screw is extracted, the origin o2 and the base vectors x2 and y2 are obtained from them, and the coordinates of the rectangle center corresponding to the screw are
- the mean vector and covariance matrix are stored by storing the average values of the coefficients a 2 and b 2 and considering the coefficients a 2 and b 2 as two-dimensional feature vectors.
- the maximum and minimum values of coefficients a2 and b2 and the average value of coefficients a2 and b2 are similarly applied to the leftmost rectangle that forms the character of the name of the Land Transport Bureau.
- the mean vector and covariance matrix are stored by considering the coefficients a2 and b2 as two-dimensional feature vectors.
- the serial number of the license plate may start with both a number and a dot, and the basis vector y2 is obtained from the height of the last digit of the serial number, and the basis vector y in Fig. 6 Because the same thing is used, the estimation accuracy for the position of the left screw on the license plate may not be high, so make sure that the rectangle that is the screw or the left is the component of the name of the land transport station If it is impossible to determine whether it is a screw or a rectangular component of the name of the land transport station, the recognition result of the character recognition unit 7 is referred to by making a decision and making multiple candidates. It is decided by this.
- the range of coefficients a 2 and b 2 is as follows: Range 1 where only screws are present, Range 2 where both screws and land station name components exist, and Range 3 where only land station name components exist.
- Range 1 where only screws are present
- Range 2 where both screws and land station name components exist
- Range 3 where only land station name components exist
- the rectangles that are likely to be constituent elements of the name of the Land Transport Bureau are extracted only as rectangles that are within the same range 2 as temporary candidates.
- the character recognition unit 7 performs character recognition for each of these extracted parts, that is, the serial number, hiragana, and classification number for each name of the Land Transport Bureau. At this time, since the serial number and hiragana are not already ambiguous in the rectangle extraction, normal character recognition processing is performed for each area. On the other hand, in the first line of the license plate, the name of the land transport station and the classification number are written, but the number of digits of the classification number is unknown, and the left end of the land transport station name is not always obtained with good accuracy. It may not be. From this, as shown in Fig. 10, character recognition processing is performed for all the possibility of clipping, and the most probable candidate of the recognition result is the extraction result of the land transport station name and classification number.
- the accuracy of character recognition is expressed as a character recognition score.
- “Evaluation method of character recognition results in address reading” in “Technical Research Report of IEICE PRMU98-160, Ishidera et al.”
- [Distance value of 2nd recognition result Z Distance value of 1st recognition result] is used as the character recognition score. Candidates that become larger are taken as the result of extraction and recognition.
- the character candidate color extraction unit 2 extracts a plurality of character candidate colors.
- multiple character string candidates may be extracted for each character candidate color.
- the sum of the recognition scores is the maximum. Is recognized as the license plate recognition result.
- the partial character string extraction unit 4 obtains a stable feature quantity for projective transformation or affine transformation from any two rectangles obtained by labeling, and the feature quantity is statistically calculated.
- the character string candidate extraction unit 5 further continues the partial character strings in a straight line with a predetermined pitch. The character string corresponding to the serial number can be extracted quickly and accurately even for license plates taken from an oblique direction.
- the peripheral information extraction unit 6 obtains a stable feature quantity for the projective transformation and affine transformation using the information on the character string of the serial number, and compares this feature quantity with a statistically learned dictionary.
- the rectangle corresponding to the hiragana, classification number, and name of the Land Transport Bureau is extracted, it is possible to extract these character strings at high speed and with high accuracy even for a license plate taken from an oblique direction. Therefore, even for a recognition target such as a license plate photographed from an oblique direction, it is robust against geometric deformation and can recognize all information described on the license plate with high speed and accuracy.
- the character candidate region extraction unit extracts a character candidate region as a candidate recognized as a character from an input image including characters, and the partial character string extraction unit extracts the same character candidate.
- a partial character string that is a set of a plurality of consecutive characters from the area is extracted, the character string candidate extraction means extracts the character string candidate from the combination of the partial character strings, and the character recognition means extracts the character string candidate. Since character recognition is performed, even when reading characters in an input image taken from an oblique direction, the characters can be read with high speed and high accuracy.
- the partial character string extraction means obtains a stable feature amount with respect to projective transformation or affine transformation for the input image from an arbitrary combination of character candidate regions, and uses this feature amount to determine the positional relationship of the character candidate regions. Since partial character strings are extracted based on the evaluation results, even when reading characters in an input image obtained by photographing an image containing characters from an oblique direction, it is robust against geometrical deformation, is fast and high Character reading that reads characters with precision A take-off device can be realized.
- the peripheral information extraction unit extracts peripheral information representing information described in the vicinity of the character string candidate, even when reading characters in an input image obtained by capturing an image including characters from an oblique direction, the geometric information is extracted. It is possible to realize a character reading device that is robust against anatomical deformation and reads characters with high speed and high accuracy.
- the present invention can be applied to the reading of characters written on a road sign or a signboard, or a video caption, for example, in addition to a license plate.
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Character Input (AREA)
- Character Discrimination (AREA)
Abstract
部分文字列抽出部4で、ラベリングで得られた矩形の任意の2つから射影変換やアフィン変換に対して安定な特徴量が求められ、この特徴量を辞書と比較することにより、部分文字列が抽出される。文字列候補抽出部5では、部分文字列が直線的に連続し、かつ定められたピッチになっているか否かの評価も射影変換に安定な特徴量に基づいて行われ、斜めから撮影されたナンバープレートに対して、一連番号に対応する文字列が抽出される。周辺情報抽出部6では、一連番号の文字列に関する情報を用いて射影変換やアフィン変換に対して安定な特徴量が求められ、この特徴量を辞書と比較することにより、斜めから撮影されたナンバープレートに対しても、文字列が高速かつ精度良く抽出される。
Description
明細書 文字読取り装置、 文字読取り方法及び該文字読取り装置に用いられる文字読取 り制御プログラム 技術分野
この発明は、 文字読取り装置、 文字読取り方法及び該文字読取り装置に用いら れる文字読取り制御プログラムに係り、 特に、 自動車のナンバープレートなどの ような文字を含む画像を斜め方向から撮影した入力画像の文字を読み取る場合に 用いて好適な文字読取り装置、 文字読取り方法及び該文字読取り装置に用いられ る文字読取り制御プログラムに関する。 背景技術
自動車のナンパ一プレートなどのような文字を含む画像を C C D (電荷結合素 子) カメラなどで斜め方向から撮影した入力画像の文字を読み取る文字読取り装 置は、 従来から多く提案されている。 このような文字読取り装置は、 正面から撮 影されずに斜め方向から撮影されたことに起因する幾何学変形を受けたナンバー プレートの画像を補正して認識するようになっている。
従来、 この種の技術としては、 たとえば、 次のような文献に記載されたものが ある。
特開平 0 7— 1 1 4 6 8 9号公報 (以下、 文献 1 ) に記載された車両登録番号 認識方法では、 ナンバープレートの文字部の外接四辺形を正面から見た場合の形 状が標準四辺形として記憶され、 車両走行路がビデオカメラで撮像され、 車両検 出に対応して走行車両の前景又は後景を含む画像が取り込まれる。
そして、 ナンバープレート部の文字が切り出され、 切り出された文字部の外接四 辺形が求められ、 この外接四辺形が上 標準四辺形と相似形状となるような座標 変換パラメ一夕セットが決定され、 この座標変換パラメ一タセットを用いて座標 変換が行われ、 ナンバープレート部の正対画像を得て、 同正対画像から各文字が 認識される。 これにより、 ナンバープレートと車体の色が同系色の場合にエッジ
検出が困難あるいは処理が複雑で時間がかかるという問題点が解決する。
特開 2 0 0 2— 0 0 7 9 6 1号公報 (以下、 文献 2 ) に記載されたナンバープ レート認識装置では、 ナンバープレートを含む車両の画像が撮像装置により斜め 方向から撮像されて画像記憶装置に記憶される場合、 画像切り出し装置により撮 像画像からナンバープレート画像が抽出及び切り出された後、 画像補正装置によ り、 同ナンバープレート画像の大きさやナンバープレート上の一連番号数字の位 置や大きさに基づいて、 同ナンバープレート画像を斜め方向から撮像したことに よる歪みが補正されると共に、 画像正規化装置により同補正後のナンバープレー ト画像が一定の大きさに正規化される。 この後、 文字認識装置により、 ナンバー プレート画像に対して文字認識処理が行われる。 これにより、 様々な距離や角度 で撮影される車両の画像から簡易かつ正確なナンバープレートの認識が行われる。 ところが、 上記各文献に記載された技術では、 先ず始めにナンバープレート部 の一連番号の文字が切り出されてからナンバープレートの画像を補正するように なっているが、 幾何学変形が大きくなると、 ナンバープレートから文字を切り出 すこと自体が困難になるという問題点がある。 この問題に対処する技術として、 江浪他著、第 1 0回画像センシングシンポジウム講演論文集 B— 1 0、 「マッチド フィルタを用いたナンバープレート位置認識法、 一距離 '向きの影響排除—」 P. 69-74 (以下、 文献 3 ) に記載されたものがある。
この文献 3に記載されたナンバープレート位置認識法では、 幾何学変形を受け た多数のナンバープレート画像が参照画像として予め用意され、 マッチドフィル 夕を用いて全ての参照画像と入力画像との間でマッチドフィルタリング (相関) が行われる。
しかしながら、 上記従来の技術では、 次のような問題点があった。
すなわち、 文献 3に記載されたナンバープレート位置認識法では、 全ての参照 画像と入力画像との間でマッチドフィルタリングが行われるため、 非常に多くの 計算量を必要とし、 処理時間が長くなるという問題点がある。
この発明は、 上述の事情に鑑みてなされたもので、 文字を含む画像を斜め方向 から撮影した入力画像の文字を読み取る場合でも、 幾何学的な変形に頑健で高速 かつ高精度で文字を読み取ることが可能な文字読取り装置を提供することを目的
としている。 発明の開示
上記課題を解決するために、 請求項 1記載の発明は、 文字を含む入力画像から 前記文字として認識される候補となる文字候補領域を抽出する文字候補領域抽出 手段と、 前記文字候補領域から連続する複数の文字の集合である部分文字列を抽 出する部分文字列抽出手段と、 前記部分文字列の組合せから文字列候補を抽出す る文字列候補抽出手段と、 前記文字列候補に対して文字認識を行う文字認識手段 とを備えてなることを特徴としている。
請求項 2記載の発明は、 前記部分文字列抽出手段が、 前記文字候補領域の任意 の組合せから前記入力画像に対する射影変換又はァフィン変換に対して安定な特 徴量を求め、 この特徴量を用いて前記文字候補領域の位置関係の評価を行い、 こ の評価結果に基づいて前記部分文字列を抽出する構成であることを特徴としてい る。
請求項 3記載の発明は、 前記特徴量が、 任意の 2つの文字候補領域の高さ、 幅 及び距離から求められる複比であることを特徴としている。
請求項 4記載の発明は、 前記部分文字列抽出手段は、 前記特徴量を予め作成さ れた辞書のデータと比較し、 この比較結果に基づいて前記部分文字列を抽出する 構成とされていることを特徴としている。
請求項 5記載の発明は、 前記辞書には、 前記特徴量の取り得る値の範囲がデー 夕として記憶されることを特徴としている。
請求項 6記載の発明は、 前記文字列候補の周辺に記載されている情報を表す周 辺情報を抽出する周辺情報抽出手段が設けられ、 前記文字認識手段は、 前記文字 列候補に加え、 前記周辺情報を認識する構成であることを特徴としている。
請求項 7記載の発明は、 前記周辺情報抽出手段は、 前記文字列候補から基底べ クトルを求め、 前記文字候補領域の位置関係を前記基底べクトルの係数で表し、 該係数を用いて前記位置関係の評価を行い、 この評価結果に基づいて前記文字列 候補の周辺情報を抽出する構成であることを特徴としている。
請求項 8記載の発明は、 前記周辺情報抽出手段が、 前記係数を、 予め作成され
た辞書のデータと比較し、 この比較結果に基づいて前記文字列候補の周辺情報を 抽出する構成であることを特徴としている。
請求項 9記載の発明による文字読取り方法は、 文字を含む入力画像から前記文 字として認識される候補となる文字候補領域を抽出する文字候補領域抽出処理と、 前記文字候補領域から連続する複数の文字の集合である部分文字列を抽出する部 分文字列抽出処理と、 前記部分文字列の組合せから文字列候補を抽出する文字列 候補抽出処理と、 前記文字列候補に対して文字認識を施す文字認識処理とを行う ことを特徴としている。
請求項 1 0記載の発明は、 前記部分文字列抽出処理において、 前記文字候補領 域の任意の組合せから前記入力画像に対する射影変換又はァフィン変換に対して 安定な特徴量を求め、 当該特徴量を用いて前記文字候補領域の位置関係の評価を 行い、この評価結果に基づいて前記部分文字列を抽出することを特徴としている。 請求項 1 1記載の発明は、 前記特徴量を、 任意の 2つの前記文字候補領域の高 さ、 幅及び距離から求められる複比とすることを特徴としている。
請求項 1 2記載の発明は、 コンピュータ上で実行され、 前記コンピュータを文 字読取り装置として制御させるための文字読取り制御プログラムであって、 前記 コンピュータに、 文字を含む入力画像から前記文字として認識される候補となる 文字候補領域を抽出する文字候補領域抽出機能と、 前記文字候補領域から連続す る複数の文字の集合である部分文字列を抽出する部分文字列抽出機能と、 前記部 分文字列の組合せから文字列候補を抽出する文字列候補抽出機能と、 前記文字列 候補に対して文字認識を行う文字認識機能を実行させることを特徴としている。 請求項 1 3記載の発明は、 前記部分文字列抽出機能において、 前記文字候補領 域の任意の組合せから前記入力画像に対する射影変換又はァフィン変換に対して 安定な特徴量を求め、 当該特徴量を用いて前記文字候補領域の位置関係の評価を 行い、 この評価結果に基づいて前記部分文字列を抽出する処理を実行することを 特徴としている。
この発明の構成によれば、 文字候補領域抽出手段で、 文字を含む入力画像から 文字として認識される候補となる文字候補領域が抽出され、 部分文字列抽出手段 で、同文字候補領域から連続する複数の文字の集合である部分文字列が抽出され、
文字列候補抽出手段で、 同部分文字列の組合せから文字列候補が抽出され、 文字 認識手段で、 同文字列候補に対して文字認識が行われるので、 文字を含む画像を 斜め方向から撮影した入力画像の文字を読み取る場合でも、 幾何学的な変形に頑 健で高速かつ高精度で文字を読み取ることができる。
また、 部分文字列抽出手段は、 文字候補領域の任意の組合せから入力画像に対 する射影変換又はァフィン変換に対して安定な特徴量を求め、 この特徴量を用い て同文字候補領域の位置関係の評価を行い、 この評価結果に基づいて部分文字列 を抽出するので、 文字を含む画像を斜め方向から撮影した入力画像の文字を読み 取る場合でも、 幾何学的な変形に頑健で高速かつ高精度で文字を読み取る文字読 取り装置を実現できる。 また、 周辺情報抽出手段は、 文字列候補の周辺に記載さ れている情報を表す周辺情報を抽出するので、 文字を含む画像を斜め方向から撮 影した入力画像の文字を読み取る場合でも、 幾何学的な変形に頑健で高速かつ高 精度で文字を読み取る文字読取り装置を実現できる。 図面の簡単な説明
図 1は、 この発明の実施例である文字読取り装置の電気的構成を示すブロック 図である。
図 2は、 図 1の文字読取り装置の動作を説明するフローチャートである。
図 3は、 部分文字列作成時に用いる特徴量の例を説明する図である。
図 4は、 文字列候補の評価に用いる複比の例を示す図である。
図 5は、 ひらがなを抽出する際に用いる複比の例を示す図である。
図 6は、 分類番号を抽出する際に用いる基底べクトルの例を示す図である。 図 7は、 碁準矩形に隣接する矩形を抽出する際の例を示す図である。
図 8は、 陸運局名の構成要素を抽出する例を示す図である。
図 9は、陸運局名の部分の左端検出に用いる基底べクトルの例を示す図である。 図 1 0は、 複数の切り出し候補から認識結果を抽出する例を示す図である。 1:画像入力部(画像入力手段)、 2:文字候補色抽出部(文字候補色抽出手段)、 3 :文字候補領域抽出部 (文字候補領域抽出手段)、 4:部分文字列抽出部 (部分 文字列抽出手段)、 5 :文字列候補抽出部 (文字列候補抽出手段)、 6 :周辺情報
抽出部 (周辺情報抽出手段)、 7 :文字認識部 (文字認識手段) 発明を実施するための最良の形態
文字候補領域の任意の組合せから入力画像に対する射影変換又はァフィン変換 に対して安定な特徴量を求め、 この特徴量を用いて文字候補領域の位置関係の評 価を行い、 この評価結果に基づいて部分文字列を抽出し、 同部分文字列の組合せ から文字列候補を抽出し、 同文字列候補に対して文字認識を行う文字読取り装置 を提供する。 (実施例)
図 1は、 この発明の実施例である文字読取り装置の電気的構成を示すブロック 図である。
この例の文字読取り装置は、 同図に示すように、 画像入力部 1と、 文字候補色 抽出部 2と、 文字候補領域抽出部 3と、 部分文字列抽出部 4と、 文字列候補抽出 部 5と、周辺情報抽出部 6と、文字認識部 7と、制御部 8とから構成されている。 画像入力部 1は、 たとえば C C D (電荷結合素子) カメラなどで構成され、 撮影 の対象となる物体の画像を入力画像として取り込む。 文字候補色抽出部 2は、 画 像入力部 1で取り込まれた入力画像から文字に対応する色成分を文字候補色とし て抽出する。
文字候補領域抽出部 3は、 文字候補色抽出部 2で抽出された文字候補色をラベ リングして、 文字として認識される候補となる文字候補領域を抽出する。 このラ ベリングとは、 互いに連結している画素に対して同じラベル (番号) を付け、 非 連結の画素には異なるラベルを与える処理である。 これにより、 独立している画 素集塊の計数を行ったり、 連結している成分の形状解析が容易に行われる。
部分文字列抽出部 4は、 文字候補領域抽出部 3で抽出された文字候補領域から 同一文字列中で連続する複数の文字の集合である部分文字列を抽出する。
特に、 この実施例では、 部分文字列抽出部 4は、 字候補領域の任意の組合せか ら、 画像入力部 1で取り込まれた画像に対する射影変換又はァフィン変換に対し て安定な特徴量を求め、 この特徴量を用いて同文字候補領域の位置関係の評価を
行い、 この評価結果に基づいて部分文字列を抽出する。 上記特徴量は、 任意の 2 つの文字候補領域の高さ、 幅及び距離から求められる複比である。 そして、 部分 文字列抽出部 4は、 上記特徴量を予め作成された辞書と比較し、 この比較結果に 基づいて部分文字列を抽出する。
文字列候補抽出部 5は、 部分文字列抽出部 4で抽出された部分文字列の組合せ から文字列候補を抽出する。
周辺情報抽出部 6は、 文字列候補抽出部 5で抽出された文字列候補の周辺に記 載されている情報を表す周辺情報を抽出する。 特に、 この実施例では、 周辺情報 抽出部 6は、 文字列候補から基底ベクトルを求め、 文字候補領域の位置関係を同 基底ベクトルの係数で表し、 同係数を用いて同位置関係の評価を行い、 この評価 結果に基づいて同文字列候補の周辺情報を抽出する。 この場合、 周辺情報抽出部
6は、 上記係数を、 予め作成された辞書と比較し、 この比較結果に基づいて上記 文字列候補の周辺情報を抽出する。
文字認識部 7は、 文字列候補抽出部 5で抽出された文字列候補、 及び周辺情報 抽出部 6で抽出された周辺情報に対して文字認識を行う。 制御部 8は、 この文字 読取り装置全体を制御する C P U (中央処理装置) 8 a及び同 C P U 8 aを動作 させるための文字読取り制御プログラムが記録された R OM (リード ·オンリ · メモリ) 8 bを有している。
図 2は、 図 1の文字読取り装置の動作を説明するフローチヤ一ト、 図 3が、 部 分文字列作成時に用いる特徴量の例を説明する図、 図 4は、 文字列候補の評価に 用いる複比の例を示す図、 図 5が、 ひらがなを抽出する際に用いる複比の例を示 す図、 図 6は、 分類番号を抽出する際に用いる基底ベクトルの例を示す図、 図 7 が、 基準矩形に隣接する矩形を抽出する際の例を示す図、 図 8は、 陸運局名の構 成要素を抽出する例を示す図、 図 9が、 陸運局名の部分の左端検出に用いる基底 ベクトルの例を示す図、 及び図 1 0が、 複数の切り出し候補から認識結果を抽出 する例を示す図である。
これらの図を参照して、 この例の文字読取り装置に用いられる文字読取り方法 の処理内容について説明する。
この文字読取り装置では、 撮影の対象となる物体の画像が画像入力部 1により
入力画像として取り込まれる (ステップ A 1、 画像入力処理)。 入力画像は、 文字 候補色抽出部 2で文字に対応する色成分が文字候補色として抽出される (ステツ プ A 2、 文字候補色抽出処理)。 この場合、 たとえば、 入力画像中の出現頻度の高 い色成分が主要色として抽出され、 同入力画像が、 抽出された主要色毎の画像に 分解され、 分解された画像のうちの主要色が所定の関係にある複数の画像が組み 合わされ、 これらの組合せ画像がそれぞれ文字候補色とされる。 文字候補領域抽 出部 3では、 文字候補色をラベリングすることにより文字候補領域が抽出される (ステップ A 3、 文字候補領域抽出処理)。 この文字候補領域は、 たとえば、 文字 候補色の画素の連結成分の情報及び同連結成分の外接矩形情報からなる。
部分文字列抽出部 4では、 入力された文字候補領域の外接矩形情報から、 文字 列中の連続する複数文字の集合になる可能性の高い矩形が部分文字列として抽出 される (ステップ A4、 部分文字列抽出処理)。
この部分文字列抽出処理におけるアルゴリズムについて説明する。
カメラで撮影された看板などの画像は、 幾何学的な変形を受けているが、 その 変形過程は、 射影変換で表現される。 幾何学的な変形は、 CCDなどの画像セン ザの姿勢 (速度、 方向、 距離) と、 撮影対象物から同画像センサの投影中心まで の距離によって表現されるが、この射影変換に対して不変な量として複比がある。 たとえば、 図 3に示すように、 連結成分の外接矩形に対して、 ある 2つの外接矩 形から、 X軸上に点 A, B, P, Qを取ると、 次式 (1) で表される特徴量 1と して複比が求められる。 また、 その他の特徴量として、 次式 (2) 乃至 (5) で 表される特徴量 2乃至特徴量 5が求められる。
特徴量 1= (APZPB) / (AQ/QB)
特徴量 2= (Wl /HI ) / (W2 ZH2 )
特徴量 3=W1 /HI
特徴量 4=D12/ (Wl +W2 +H1 +H2
特徴量 5 =D 12 (Wl +W2 )
特徴量 1 (複比) は、 文字幅及び文字間隔が一定の場合、 比較的安定な量とな るが、 文字を外接矩形で近似しているため、 射影変換に対しては、 完全に不変な 量とはならない。
そこで、 特徴量 1を部分文字列特徴評価用辞書と比較し、 この比較結果に基づ いて上記 2つの矩形が部分文字列であると判定される。 この部分文字列特徴評価 用辞書には、 たとえば、 特徴量 1の取り得る値の範囲がデ一夕として記憶されて いる。 部分文字列特徴評価用辞書は、 たとえば、 幾何学的変形を受けている看板 やナンバープレートの画像を複数枚準備し、 これらの画像から連続する 2文字の 外接矩形を取り出しておき、 それらの特徴量 1を求め、 同特徴量 1の最大値と最 小値をデータとして記憶することにより作成される。
また、 部分文字列特徴評価用辞書は、 特徴量 1の平均値を記憶したり、 特徴量
1の平均値及び分散を記憶したりすることにより作成される。 また、 部分文字列 特徴評価用辞書は、部分文字列の種類毎に作成することも可能であり、たとえば、 ナンバープレートの一連番号 (2行目に記載の 4桁の数字) に使われる文字は、
「 ·」、 「―」、 「 1 J、 「2」 〜 「0」 の 1 2種類であるが、 これを、 「 ·」、 「一」、
「1」、 「N] (Nは 1以外の数字) の 4種類に大別すると、部分文字列として可能 な組合せは、 「· ·」、 「· 1」、 「· Ν」、 「1 1」、 「 1 Ν]、 「 1一」、 「Ν 1」、 「Ν Ν」、
「Ν—」、 「― 1」、 「― Ν」 の 1 1通りになり、 これらの 1 1種類毎に特徴量 1の 範囲 (最大値及び最小値) を記憶したり、 特徴量 1の平均値を記憶したり、 特徴 量 1の平均値と分散を記憶したりすることにより作成される。
また、 ある 2つの矩形が部分文字列になるか否かを評価する場合、 特徴量 1以 外の特徴量を用いることも可能であり、 たとえば、 特徴量 2として 2つの矩形の 縦横比の比率を求め、 この量によって、 ある 2文字が同じような縦横比になって いるか否かの評価を行うことにより、 部分文字列の抽出が行われる。 また、 たと えば 「1一」 のように、 縦横比が異なる部分文字列の場合にも、 その比率を部分 文字列特徴評価用辞書と比較することにより、 部分文字列として判定される。 また、 特徴量 3として、 ある部分文字列の先頭の文字の縦横比を求め、 特徴量 3及び特徴量 2を同時に用いることにより、 部分文字列が 「1一」 であるとか、
「 · 1」 であるといったことが大略的に判定される。 このような判定が行われる と、 たとえばナンバープレートの場合、 「 '一」 という組合せや 「8 ·」 という部 分文字列は有り得ないので、 これらの部分文字列を抽出しないようにすることが 可能になる。 また、 特徴量 3を用いると、 1文字目の縦横比が大きすぎたり小さ
すぎると判定された場合、 「 ·」、 「一」、 「1」 及び「N] の 4種類に大別された文 字のいずれにも分類されないとして、 このような文字を 1文字目とする部分文字 列を作成しないようにすることもできる。
また、 特徴量 4又は特徴量 5を用いることも可能である。 すなわち、 ナンバー プレートの文字に使われる文字の 「 ·」 と 「1」 の関係を評価する場合、 文字幅 が同じであるので、 特徴量 5は比較的安定している。 一方、 文字の 「5」 と 「1」 のような場合は、 両者の文字幅が大きく異なるため、 特徴量 5では安定にならな いが、 文字高さが同じになるので、 特徴量 4は比較的安定になる。
これらの特徴量 2から特徴量 5も、 特徴量 1と同様に、 部分文字列特徴評価用 辞書を作成することが可能であり、 各特徴量の範囲 (最大値と最小値) を記憶し たり、 各特徴量の平均値を記憶したり、 各特徴の平均値及び分散を記憶すること もできる。 また、 特徴量 1から特徴量 5までを 5次元の特徴量と考え、 平均べク トル及び共分散行列を記憶することにより部分文字列特徴評価用辞書が作成され る。
そして、 ある 2つの外接矩形の組合せに対して、 式 (1 ) 乃至式 (5 ) に示す 特徴量を計算によって求め、 これらの特徴量を予め部分文字列特徴評価用辞書に 格納されたデータと比較することによって、 今着目している 2つの外接矩形が文 字列中の連続する 2文字 (部分文字列) であるか否かが判定される。 この判定処 理を、 あらゆる 2つの外接矩形の組合せに対して行うことにより、 画像中から複 数の部分文字列が抽出される。 部分文字列の情報としては、 部分文字列の構成要 素である 1文字目の矩形と 2文字目の矩形情報が格納され、 たとえば、 ナンバー プレートの一連番号の場合には、 どのような部分文字列であるかを表す情報 (た とえば、 「 · ·」 や 「1 N」、 「N—」 など) も同時に格納される。
部分文字列抽出部 4で抽出された部分文字列は、 文字列候補抽出部 5で連結さ れ、 同文字列候補抽出部 5から文字列候補として出力される (ステップ A 5、 文 字列候補抽出処理)。この文字列候補抽出処理におけるアルゴリズムについて説明 する。 たとえば、 部分文字列が 2つの文字候補矩形から成っている場合、 部分文 字列を連結することにより文字列候補を作成する際に、 ある 2つの部分文字列が 連結するためには、 一方の部分文字列の 2文字目が他方の部分文字列の 1文字目
になっていることが条件となる。 この条件により、 入力された部分文字列情報か ら複数の文字列候補が抽出されることもある。
また、 この条件だけでなく、 文法的により詳しい評価を行うこともできる。 た とえば、ナンバープレートの一連番号の場合、 「· 1」 という部分文字列と「1一」 という部分文字列が連結することは文法的に有り得ないので、 このような部分文 字列は作成しないようにすることもできる。
また、 抽出したい文字列候補が一連番号だった場合には、 文字列に含まれる文 字の数が 4文字又は 5文字に限られているので、 3つか 4つの部分文字列から成 る文字列候補のみが一連番号の候補として抽出される。
また、 上記のような文法的な評価を行った後、 連結された部分文字列の各要素 となる矩形の中心点の配置を評価し、 直線的に並んでいるか否かを判定して、 直 線的に並んでいる文字列候補だけを一連番号の候補とする。 直線的に並んでいる か否かの評価には、 各矩形の中心点の座標を用いて、 たとえば、 回帰分析や最小 自乗法などから残差を求め、 これが予め決められた閾値以下であれば直線的であ ると判定したり、 主成分分析による第一主成分の寄与度が予め決められた閾値以 上であれば、 直線的であると判定される。
また、 一連番号の候補を抽出する場合、 図 4に示すように、 点 A s, B s, P s, Q sを取り、 複比 (A s P s Z P s B s ) / (A s Q s /Q s B s ) を計算 し、 この値が予め定められた一定の範囲内に入っている文字列候補のみを一連番 号の候補とする。 ここで、 複比 (A s P s Z P s B s ) / (A s Q s /Q s B s ) の範囲を予め決めるには、 たとえば、 幾何学的変形を受けているナンバープレー トの画像を複数枚準備し、 これらの画像から一連番号のハイフン以外の外接矩形 を取り出しておき、 それらの矩形中心の X座標から、 それぞれ複比を求めて最大 値及び最小値を記憶することにより範囲を決めることができ、 また、 複比の平均 値を記憶したり、 同平均値及び分散を記憶することにより、 範囲を決めることも 可能である。
図 4のように点 A s , B s , P s , Q sを取る意義について説明する。 ハイフ ンの有無は記載されている文字に依存するが、 八ィフン以外の文字の中心点の配 置は全ての場合で基本的に同じになるという性質があるので、 ハイフン以外の文
字の中心点を取れば、 ハイフンの有無にかかわらず全ての一連番号に対して同じ 処理を行うことができる。
周辺情報抽出部 6では、 文字列候補抽出部 5で抽出された文字列候補の周辺に 記載されている情報が抽出される(ステップ A 6、周辺情報抽出処理)。たとえば、 ナンバープレートの場合、 一連番号が抽出された後に、 ひらがな、 陸運局名及び 分類番号に対応する情報が抽出される。 この周辺情報抽出処理におけるアルゴリ ズムについて説明する。
まず、 一連番号の候補が抽出された後に、 ひらがなを抽出する場合、 図 5 (a) に示すように、 文字列候補の中心点から求めた直線上で、 ひらがなの中心点が存 在する個所を点 A1 として点 Bl , Q1, P1を設定すると、 複比が計算される。 たとえば、 幾何学的変形を受けているナンバープレートの画像を複数枚準備し、 これらの画像から一連番号及びひらがなの外接矩形を取り出しておき、 図 5 (a) に示すように、 点 Al , Bl , Ql , P1 を取って複比の平均値を予め求め、 ひ らがなの中心点を推定する際には、 予め求めておいた複比の平均値から逆算する ことにより、 ひらがなの中心点が推定される。
また、 図 5 (b) に示すように、 点 A2 , B2 , Q2 , P2 を設定して同様の 処理を行うことも可能であるし、 点 A1 と点 A2 との平均値を取って、 ひらがな の中心点とすることも可能である。 この場合、 ひらがなが記載されている中心点 だけでなく、 その範囲も推定し、 推定された範囲内に存在する全ての矩形を組み 合わせたものが、 ひらがなの領域であると判定される。
たとえば、 一連番号の 1文字目と 2文字目の中心間距離 PI Q1 、 及び一連番 号の 3文字目と 4字目の中心間距離 Q2 B2 を用いて、 αίΧΡΙ Ql X (PI Ql ZQ2 B2 ) がひらがなの幅と高さとして推定される。 ここで、 は、 予め定め られた定数であり、 たとえば 0. 4から 0. 6の範囲に設定される。 推定された ひらがなの中心点と幅と高さによって、 ひらがなの存在可能領域が定義され、 こ の領域に含まれる全ての矩形がひらがなの構成要素とされる。ここで、 「領域に含 まれる」 とは、 たとえば、 矩形全体が領域内に入っている場合とすることもでき るし、 矩形の中心点が領域内に入っている場合としても良い。
ひらがなは、 一連番号に用いられるアラビア数字のような単一の連結成分で表
すことが困難な場合があるため、 複数の矩形の集合をひらがなであると判定すれ ば、 高い精度でひらがなが抽出される。 ナンバープレートの 2行目に記載されて いるひらがな及び一連番号の候補が抽出された場合、 1行目に記載されている分 類番号及び陸運局名の候補が抽出される。
まず、 分類番号の抽出について説明する。 ここまでの処理で抽出された一連番 号とひらがなの情報だけでは、 射影パラメ一夕を推定することは難しいので、 1 行目では、 ァフィン変換に対して比較的安定な特徴量を用いる。 また、 一連番号 の最後の桁にハイフン 「一」 やドット 「 ·」 が記載されることはなく、 必ず数字 が記載されているので、 最後の桁の文字の高さは安定な量である。 また、 一連番 号の最後の桁の文字の中心から、 その 1つ前の文字の中心までのべクトルを設定 すると、 これも記載されている文字に関わらず安定な量である。
そこで、 図 6に示すように、 原点 o及び基底ベクトル X , yを設定し、 分類番 号の最後の桁の中心点のべクトルを、
V = a X + b y
として表せば、 係数 a, bは、 ァフィン変換に対して比較的安定な量になる。 こ のため、 係数 a , bが予め定められた範囲内に入っている矩形を抽出することに より、 分類番号の最後の桁に対応する矩形が抽出される。
ここで、 予め定められた範囲は、 たとえば、 幾何学的変形を受けているナンパ 一プレートの画像を複数枚準備し、 各画像について一連番号の下 2桁の矩形及び 分類番号の最後の桁の矩形を取り出しておき、 それらから原点 oを一連番号の最 後の桁に対応する矩形の中心に置き、 基底ベクトル x, yを作成して分類番号の 最後の桁に対応する矩形中心の座標を、
V = a X + b y
として係数 a , bを求め、 同係数 a, bの最大値及び最小値を記憶することによ り設定される。 また、 係数 a , bの平均値を記憶したり、 同係数 a , bを 2次元 の特徴べクトルと考えることにより、平均べクトル及び共分散行列が記憶される。 このような方法では、 分類番号の最後の桁の候補として複数の矩形が抽出される 可能性がある。そこで、分類番号の最後の桁の候補として抽出された矩形のうち、 右端の値 (x e ) が最大になる矩形のみを分類番号の最後の桁に対応する矩形と
する。
次に、 図 7に示すように、 分類番号の最後の桁に対応する矩形を基準矩形とし て、 ある矩形の X軸における中心点 Xmが基準矩形の左端 BXsより小さく、 Y 軸における中心点 Ymが基準矩形の下端 BY sと上端 BY eの間にあり、 かつ矩 形の高さ hと基準矩形の高さ Bhとの比 hZBhが 0. 8から 1. 2の範囲なら ば、 分類番号の最後から 2桁目に対応する矩形候補であると判定されるが、 この 時点では、 複数の矩形が候補として抽出される可能性がある。 そこで、 候補とし て抽出された矩形の中で、 基準矩形との矩形中心間距離が最も小さいものが、 最 後から 2桁目に対応する矩形として抽出される。
同様に、 最後から 2桁目に対応する矩形を基準矩形に取り直して、 同様の基準 で評価を行い、 基準を満たした矩形は、 最後から 3桁目となる可能性をもつ矩形 であるとして抽出される。 予め分類番号の桁数を知ることは困難なので、 3桁目 となる可能性をもつ矩形は、 必ずしも分類番号に対応した矩形とは限らず、 陸運 局名の一部である可能性もあるため、 文字認識結果も参照しながら桁数を決定す る必要があり、 この実施例では、 文字認識部 7の認識結果を参照することによつ て決定される。 よって、 ここでは、 あくまでも仮の候補として、 最後から 3桁目 の可能性をもつ矩形が抽出される。
次に、 陸運局名の抽出について説明する。
陸運局名の抽出では、 始めに、 図 8に示すように、 既に抽出された分類番号の 下 2桁の矩形の上端及び下端を用いてボトムライン 1 b 及びトップライン 1 t を 抽出する。 ボトムライン lb は、 分類番号の最後の桁に対応する矩形の下辺の中 心点 (xml, y s 1) と最後から 2桁目に対応する矩形の下辺の中心点 (xm 2, y s 2) を結んだ直線であり、 トップライン I t は、 各矩形の上辺の中心点 (xml, y e l) と (xm2, y e 2) を結んだ直線である。 これらの 2つの ライン (ボトムライン lb 及びトップライン I t ) に挟まれた領域に中心が位置 する矩形を、 陸運局名を構成する構成要素の矩形とする。
また、 これらの陸運局名の構成要素の矩形一つ一つを基準矩形として、 図 7に 示すような、 ある矩形の X軸における中心点 Xmが基準矩形の左端 BX sより小 さく、 Y軸における中心点 Ymが基準矩形の下端 BY sと上端 BYeの間に入つ
ており、 かつ矩形同士の中心間距離が両者の矩形周囲長の 1Z4以下であり、 さ らに、 これまで抽出されてきた一連番号、 ひらがな、 分類番号及び陸運局名の構 成要素の矩形のどれにも当てはまらない矩形があった場合、 その矩形は、 新たな 陸運局名の構成要素の矩形として登録される。
また、 図 9に示すように、 原点 o2 、 基底ベクトル x2 , y2 を設定し、
v2 = a2x2 + b2y 2
とすれば、予め定められたナンバープレートの左側のネジの位置に固有の係数 a 2, b2 の値の範囲を参照することにより、 陸運局名の左端が推定される。 ネジの位 置に固有の係数 a2, b2の値の範囲は、 たとえば、 幾何学的変形を受けているナ ンパープレートの画像を複数準備し、 各画像について一連番号の先頭の 2文字及 び左側のネジに対応する矩形を取り出しておき、 それらから原点 o2 及び基底べ クトル x2 , y2 を求め、 ネジに対応する矩形中心の座標を、
v2 = a2x2 + b2y 2
として係数 a2, b2を求め、 同係数 a2, b 2の最大値及び最小値を、 それぞれ記 憶することにより決定される。
また、 係数 a 2, b 2の平均値を記憶したり、 同係数 a 2, b2を 2次元の特徴べ クトルと考えることにより、 平均ベクトル及び共分散行列が記憶される。 この場 合、 陸運局名の文字を構成する矩形の中で一番左に位置する矩形に対しても、 同 様に、 係数 a2, b2の最大値及び最小値、 係数 a2, b2の平均値が記憶され、 ま た、 係数 a2, b2を 2次元の特徴ベクトルと考えることにより、 平均ベクトル及 び共分散行列が記憶される。
ここで、 ナンバープレートの一連番号は、 先頭の文字が数字かドットの両方の 可能性があり、 基底ベクトル y2 は一連番号の最後の桁の高さから求め、 図 6に おける基底べクトル yと同じものを用いているため、 ナンバープレートの左側ネ ジの位置に対する推定精度が高くない可能性もあるので、 間違いなくネジである か又はそれよりも左に位置する矩形を陸運局名の構成要素の矩形から除外し、 ネ ジであるか陸運局名の構成要素の矩形かを判断しかねる場合には、 判定を保留し て多候補化することにより、 文字認識部 7の認識結果を参照することによって決 定される。
すなわち、 係数 a 2, b 2の範囲として、 ネジだけが存在する範囲 1、 ネジと陸 運局名の構成要素の両者が存在する範囲 2、 及び陸運局名の構成要素だけが存在 する範囲 3に分けて考え、 同範囲 2に入っている矩形のみを、 あくまでも仮の候 補として陸運局名の構成要素の可能性のある矩形も抽出する。
文字認識部 7では、 これら抽出された各パート、 すなわち、 一連番号、 ひらが な、 及び分類番号に対して、 陸運局名毎に文字認識が行われる。 このとき、 一連 番号及びひらがなは、 既に矩形抽出の曖昧さがないので、 各領域毎に通常の文字 認識処理が行われる。 一方、 ナンバープレートの 1行目には、 陸運局名及び分類 番号が記載されているが、 分類番号の桁数が未知であること、 及び陸運局名の左 端が必ずしも良い精度で求まらない可能性もある。 この とから、 図 1 0に示す ように、 複数の切り出しの可能性について全て文字認識処理を施し、 最も認識結 果の確からしい候補が、 陸運局名及び分類番号の抽出結果となる。
このとき、分類番号の認識では、各矩形毎に通常の文字認識処理が行われるが、 陸運局名の認識の場合、 陸運局名全体を 1つのパターンと考えて、 通常の文字認 識で用いられるようなテンプレートマッチングを行うこともできる。 また、 各矩 形の特徴抽出を行う場合、 同各矩形の縦横の比率を 1 : 4に設定してから特徵抽 出を行うような方法を用いることも可能である。
また文字認識の確からしさは、文字認識スコアとして表され、このスコアには、 たとえば、 "電子情報通信学会技術研究報告 PRMU98- 160、石寺他、 「住所読み取り における文字認識結果の評価方式」"に記載の方法を用いることができる。たとえ ば、 [ 2位認識結果の距離値 Z 1位認識結果の距離値]が文字認識スコアとして用 いられる。 最終的には、 各認識スコアの総和が最も大きくなるような候補を、 切 り出しと認識の結果とする。
この場合、 たとえば図 1 0に示すように、 切り出し候補 1の 「川崎 3 0」 と認 識した場合のスコアが最も高いので、 この結果から、 矩形番号の 2から 6 (矩形
2, 3 , 4, 5 , 6 ) までが陸運局名の構成要素であり、 矩形番号の 7と 8の矩 形 (矩形 7, 8 ) が分類番号に対応するとして、 切り出しと認識の結果が確定す る。
また、 この実施例では、 文字候補色抽出部 2で複数の文字候補色が抽出される
可能性があり、 さらに、 一つ一つの文字候補色に対しても複数の文字列候補が抽 出される可能性があるので、 これらの全ての候補に対して、 各認識スコアの総和 が最大となる認識結果が、 ナンバープレートの認識結果であると判定される。 以上のように、 この実施例では、 部分文字列抽出部 4で、 ラベリングで得られ た矩形の任意の 2つから射影変換やァフィン変換に対して安定な特徴量を求め、 この特徴量を統計的に学習した辞書と比較することにより、 連続する 2つの文字 を部分文字列として抽出し、 さらに文字列候補抽出部 5で、 部分文字列が直線的 に連続し、 かつ定められたピッチになっているか否かの評価も射影変換に対して 安定な特徴量に基づいて行うので、 斜め方向から撮影されたナンバープレートに 対しても、高速かつ精度良く一連番号に対応する文字列を抽出することができる。 また、 周辺情報抽出部 6においては、 一連番号の文字列に関する情報を用いて 射影変換やァフィン変換に対して安定な特徴量を求め、 この特徴量を統計的に学 習した辞書と比較することにより、 ひらがな、 分類番号及び陸運局名に対応する 矩形を抽出するので、 斜め方向から撮影されたナンバープレートに対しても、 高 速かつ精度良くこれらの文字列を抽出することができる。 よって、 斜め方向から 撮影されたナンバープレートのような認識対象に対しても、 幾何学的な変形に頑 健で高速に精度良くナンバープレートに記載の全情報を認識することができる。 以上説明したように本発明によれば、 文字候補領域抽出手段で、 文字を含む入 力画像から文字として認識される候補となる文字候補領域が抽出され、 部分文字 列抽出手段で、 同文字候補領域から連続する複数の文字の集合である部分文字列 が抽出され、 文字列候補抽出手段で、 同部分文字列の組合せから文字列候補が抽 出され、 文字認識手段で、 同文字列候補に対して文字認識が行われるので、 文字 を含む画像を斜め方向から撮 した入力画像の文字を読み取る場合でも、 幾何学 的な変形に頑健で高速かつ高精度で文字を読み取ることができる。
また、 部分文字列抽出手段は、 文字候補領域の任意の組合せから入力画像に対 する射影変換又はァフィン変換に対して安定な特徴量を求め、 この特徴量を用い て同文字候補領域の位置関係の評価を行い、 この評価結果に基づいて部分文字列 を抽出するので、 文字を含む画像を斜め方向から撮影した入力画像の文字を読み 取る場合でも、 幾何学的な変形に頑健で高速かつ高精度で文字を読み取る文字読
取り装置を実現できる。 また、 周辺情報抽出手段は、 文字列候補の周辺に記載さ れている情報を表す周辺情報を抽出するので、 文字を含む画像を斜め方向から撮 影した入力画像の文字を読み取る場合でも、 幾何学的な変形に頑健で高速かつ高 精度で文字を読み取る文字読取り装置を実現できる。
(産業上の利用可能性)
この発明は、 ナンバープレートの他、 たとえば道路標識や看板などに書かれた 文字の読取りや、 ビデオキャプションなどの文字を読み取る際にも適用できる。
Claims
1 . 文字を含む入力画像から前記文字として認識される候補となる文字候補 領域を抽出する文字候補領域抽出手段と、
前記文字候補領域から連続する複数の文字の集合である部分文字列を抽出する 部分文字列抽出手段と、
前記部分文字列の組合せから文字列候補を抽出する文字列候補抽出手段と、 前記文字列候補に対して文字認識を行う文字認識手段とを備えて構成されるこ とを特徴とする文字読取り装置。
2 . 前記部分文字列抽出手段は、
前記文字候補領域の任意の組合せから前記入力画像に対する射影変換又はァフ ィン変換に対して安定な特徴量を求め、 当該特徴量を用いて前記文字候補領域の 位置関係の評価を行い、 この評価結果に基づいて前記部分文字列を抽出する構成 であることを特徴とする請求項 1記載の文字読取り装置。
3 . 前記特徴量は、
任意の 2つの前記文字候補領域の高さ、 幅及び距離から求められる複比である ことを特徴とする請求項 2記載の文字読取り装置。
4. 前記部分文字列抽出手段は、
前記特徴量を、 予め作成された辞書のデータと比較し、 この比較結果に基づい て前記部分文字列を抽出する構成であることを特徴とする請求項 2又は請求項 3 記載の文字読取り装置。
5 . 前記辞書には、前記特徴量の取り得る値の範囲がデータとして記憶される ことを特徴とする請求項 4記載の文字読取り装置。
6 . 前記文字列候補の周辺に記載されている情報を表す周辺情報を抽出する
周辺情報抽出手段が設けられ、
前記文字認識手段は、
前記文字列候補に加え、 前記周辺情報を認識する構成であることを特徴とする 請求項 1から請求項 5の何れかに記載の文字読取り装置。
7 . 前記周辺情報抽出手段は、
前記文字列候補から基底べクトルを求め、 前記文字候補領域の位置関係を前記 基底ベクトルの係数で表し、 該係数を用いて前記位置関係の評価を行い、 この評 価結果に基づいて前記文字列候補の周辺情報を抽出する構成であることを特徴と する請求項 6記載の文字読取り装置。
8 . 前記周辺情報抽出手段は、
前記係数を、 予め作成された辞書のデータと比較し、 この比較結果に基づいて 前記文字列候補の周辺情報を抽出する構成であることを特徴とする請求項 7記載 の文字読取り装置。
9 . 文字を含む入力画像から前記文字として認識される候補となる文字候補 領域を抽出する文字候補領域抽出処理と、
前記文字候補領域から連続する複数の文字の集合である部分文字列を抽出する 部分文字列抽出処理と、
前記部分文字列の組合せから文字列候補を抽出する文字列候補抽出処理と、 前記文字列候補に対して文字認識を施す文字認識処理とを行うことを特徴とす る文字読取り方法。
1 0 . 前記部分文字列抽出処理において、
前記文字候補領域の任意の組合せから前記入力画像に対する射影変換又はァフ ィン変換に対して安定な特徴量を求め、 当該特徴量を用いて前記文字候補領域の 位置関係の評価を行い、 この評価結果に基づいて前記部分文字列を抽出すること を特徴とする請求項 9記載の文字読取り方法。
1 1 . 前記特徴量を、任意の 2つの前記文字候補領域の高さ、 幅及び距離から求 められる複比とすることを特徴とする請求項 1 0記載の文字読取り方法。
1 2 . コンピュータ上で実行され、前記コンピュータを文字読取り装置として制 御させるための文字読取り制御プログラムであって、
前記コンピュータに、
文字を含む入力画像から前記文字として認識される候補となる文字候補領域を 抽出する文字候補領域抽出機能と、
前記文字候補領域から連続する複数の文字の集合である部分文字列を抽出する 部分文字列抽出機能と、
前記部分文字列の組合せから文字列候補を抽出する文字列候補抽出機能と、 前記文字列候補に対して文字認識を行う文字認識機能を実行させることを特徴 とする文字読取り制御プログラム。
1 3 . 前記部分文字列抽出機能において、
前記文字候補領域の任意の組合せから前記入力画像に対する射影変換又はァフ ィン変換に対して安定な特徴量を求め、 当該特徴量を用いて前記文字候補領域の 位置関係の評価を行い、 この評価結果に基づいて前記部分文字列を抽出する処理 を実行することを特徴とする請求項 1 2記載の文字読取りプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007500663A JP4919171B2 (ja) | 2005-01-31 | 2006-01-30 | 文字読取り装置、文字読取り方法及び該文字読取り装置に用いられる文字読取り制御プログラム |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005-023428 | 2005-01-31 | ||
JP2005023428 | 2005-01-31 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2006080568A1 true WO2006080568A1 (ja) | 2006-08-03 |
Family
ID=36740575
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2006/301898 WO2006080568A1 (ja) | 2005-01-31 | 2006-01-30 | 文字読取り装置、文字読取り方法及び該文字読取り装置に用いられる文字読取り制御プログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP4919171B2 (ja) |
WO (1) | WO2006080568A1 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008252856A (ja) * | 2007-03-07 | 2008-10-16 | Osaka Prefecture Univ | 画像の補正方法、補正プログラムおよび画像歪み補正装置 |
KR20140112869A (ko) * | 2013-03-14 | 2014-09-24 | 삼성테크윈 주식회사 | 문자 인식 장치 및 방법 |
CN108596172A (zh) * | 2018-04-11 | 2018-09-28 | 航天科技控股集团股份有限公司 | 一种车联网客户端的车辆绑定装置及方法 |
CN108701234A (zh) * | 2018-03-05 | 2018-10-23 | 深圳前海达闼云端智能科技有限公司 | 车牌识别方法及云系统 |
CN110059683A (zh) * | 2019-04-15 | 2019-07-26 | 广州广电银通金融电子科技有限公司 | 一种基于端到端神经网络的大角度车牌倾斜矫正方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02206894A (ja) * | 1989-02-06 | 1990-08-16 | Nippon Telegr & Teleph Corp <Ntt> | 文字認識方法 |
JPH04142685A (ja) * | 1990-10-03 | 1992-05-15 | Ricoh Co Ltd | 行認識方式 |
JPH10240958A (ja) * | 1996-12-27 | 1998-09-11 | Fujitsu Ltd | 画像から管理情報を抽出する管理情報抽出装置および方法 |
-
2006
- 2006-01-30 JP JP2007500663A patent/JP4919171B2/ja active Active
- 2006-01-30 WO PCT/JP2006/301898 patent/WO2006080568A1/ja not_active Application Discontinuation
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02206894A (ja) * | 1989-02-06 | 1990-08-16 | Nippon Telegr & Teleph Corp <Ntt> | 文字認識方法 |
JPH04142685A (ja) * | 1990-10-03 | 1992-05-15 | Ricoh Co Ltd | 行認識方式 |
JPH10240958A (ja) * | 1996-12-27 | 1998-09-11 | Fujitsu Ltd | 画像から管理情報を抽出する管理情報抽出装置および方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008252856A (ja) * | 2007-03-07 | 2008-10-16 | Osaka Prefecture Univ | 画像の補正方法、補正プログラムおよび画像歪み補正装置 |
KR20140112869A (ko) * | 2013-03-14 | 2014-09-24 | 삼성테크윈 주식회사 | 문자 인식 장치 및 방법 |
KR102050422B1 (ko) * | 2013-03-14 | 2020-01-08 | 한화테크윈 주식회사 | 문자 인식 장치 및 방법 |
CN108701234A (zh) * | 2018-03-05 | 2018-10-23 | 深圳前海达闼云端智能科技有限公司 | 车牌识别方法及云系统 |
WO2019169532A1 (zh) * | 2018-03-05 | 2019-09-12 | 深圳前海达闼云端智能科技有限公司 | 车牌识别方法及云系统 |
CN108596172A (zh) * | 2018-04-11 | 2018-09-28 | 航天科技控股集团股份有限公司 | 一种车联网客户端的车辆绑定装置及方法 |
CN110059683A (zh) * | 2019-04-15 | 2019-07-26 | 广州广电银通金融电子科技有限公司 | 一种基于端到端神经网络的大角度车牌倾斜矫正方法 |
Also Published As
Publication number | Publication date |
---|---|
JP4919171B2 (ja) | 2012-04-18 |
JPWO2006080568A1 (ja) | 2008-08-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8059868B2 (en) | License plate recognition apparatus, license plate recognition method, and computer-readable storage medium | |
US8792715B2 (en) | System and method for forms classification by line-art alignment | |
US6754369B1 (en) | License plate reading apparatus and method | |
JP6143111B2 (ja) | 物体識別装置、物体識別方法、及びプログラム | |
US11417145B2 (en) | Tenrprint card input device, tenrprint card input method and storage medium | |
JP6278276B2 (ja) | 物体識別装置、物体識別方法、及びプログラム | |
CN107403128B (zh) | 一种物品识别方法及装置 | |
JPH08235341A (ja) | ドキュメントファイリング装置および方法 | |
JP4280355B2 (ja) | 文字認識装置 | |
WO2006080568A1 (ja) | 文字読取り装置、文字読取り方法及び該文字読取り装置に用いられる文字読取り制御プログラム | |
JP4859061B2 (ja) | 画像の補正方法、補正プログラムおよび画像歪み補正装置 | |
WO2020008628A1 (ja) | 画像処理システム、画像処理方法、及びプログラム | |
CN107403179B (zh) | 一种物品包装信息的注册方法及装置 | |
US6671417B1 (en) | Character recognition system | |
WO2020008629A1 (ja) | 画像処理システム、画像処理方法、及びプログラム | |
JP3092576B2 (ja) | 文字認識装置 | |
JP5110793B2 (ja) | 帳票識別装置 | |
JPH1125215A (ja) | 帳票種識別方法、装置および記録媒体 | |
CN111079749A (zh) | 一种带姿态校正的端到端商品价签文字识别方法和系统 | |
JP2006107534A (ja) | 文字認識方法および文字認識装置 | |
JP3914119B2 (ja) | 文字認識方法および文字認識装置 | |
JPH10154191A (ja) | 帳票識別方法及び装置並びに帳票識別プログラムを記録した媒体 | |
CN113705430B (zh) | 基于检测模型的表格检测方法、装置、设备及存储介质 | |
JP2973892B2 (ja) | 文字認識方式 | |
JP3932201B2 (ja) | 帳票種識別装置および記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application | ||
DPE1 | Request for preliminary examination filed after expiration of 19th month from priority date (pct application filed from 20040101) | ||
WWE | Wipo information: entry into national phase |
Ref document number: 2007500663 Country of ref document: JP |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 06713041 Country of ref document: EP Kind code of ref document: A1 |
|
WWW | Wipo information: withdrawn in national office |
Ref document number: 6713041 Country of ref document: EP |