[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

WO2022124017A1 - 三次元モデル生成方法及び三次元モデル生成装置 - Google Patents

三次元モデル生成方法及び三次元モデル生成装置 Download PDF

Info

Publication number
WO2022124017A1
WO2022124017A1 PCT/JP2021/041943 JP2021041943W WO2022124017A1 WO 2022124017 A1 WO2022124017 A1 WO 2022124017A1 JP 2021041943 W JP2021041943 W JP 2021041943W WO 2022124017 A1 WO2022124017 A1 WO 2022124017A1
Authority
WO
WIPO (PCT)
Prior art keywords
dimensional
points
line
image
dimensional points
Prior art date
Application number
PCT/JP2021/041943
Other languages
English (en)
French (fr)
Inventor
徹 松延
哲史 吉川
研翔 寺西
将貴 福田
右京 桂
Original Assignee
パナソニックIpマネジメント株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニックIpマネジメント株式会社 filed Critical パナソニックIpマネジメント株式会社
Priority to CN202180081018.7A priority Critical patent/CN116547493A/zh
Priority to EP21903121.8A priority patent/EP4261496A4/en
Priority to JP2022568137A priority patent/JPWO2022124017A1/ja
Publication of WO2022124017A1 publication Critical patent/WO2022124017A1/ja
Priority to US18/203,925 priority patent/US20230394754A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C11/00Photogrammetry or videogrammetry, e.g. stereogrammetry; Photographic surveying
    • G01C11/02Picture taking arrangements specially adapted for photogrammetry or photographic surveying, e.g. controlling overlapping of pictures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/239Image signal generators using stereoscopic image cameras using two 2D image sensors having a relative position equal to or related to the interocular distance
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/243Image signal generators using stereoscopic image cameras using three or more 2D image sensors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0081Depth or disparity estimation from stereoscopic image signals

Definitions

  • This disclosure relates to a three-dimensional model generation method and a three-dimensional model generation device.
  • Patent Document 1 discloses a technique for generating a three-dimensional model of a subject by using a plurality of images obtained by photographing the subject from a plurality of viewpoints.
  • the present disclosure provides a three-dimensional model generation method and the like that can improve the generation accuracy of the three-dimensional model.
  • the three-dimensional model generation method is a three-dimensional model generation method executed by a computer, in which a first image obtained by photographing a subject from a first viewpoint and the subject are the first. A second image obtained by shooting from two viewpoints is acquired, and at least in the first image, a first line composed of continuous edges and corresponding to the contour of the subject is detected. Based on the first image, the second image, and the first line, a plurality of first three-dimensional points representing the contour are generated in the three-dimensional space in the computer.
  • the three-dimensional model generation device includes a computer, and the computer captures a first image obtained by photographing a subject from a first viewpoint and an image of the subject from a second starting point.
  • the second image obtained by the above is acquired, and at least in the first image, the first line which is a first line composed of continuous edges and corresponds to the contour of the subject is detected, and the first image is described.
  • the second image, and the first line generate a plurality of first three-dimensional points representing the contour in the three-dimensional space in the computer.
  • the present disclosure may be realized as a program for causing a computer to execute the steps included in the above-mentioned three-dimensional model generation method. Further, the present disclosure may be realized as a non-temporary recording medium such as a CD-ROM that can be read by a computer that records the program. The disclosure may also be realized as information, data or signals indicating the program. The programs, information, data and signals may be distributed via a communication network such as the Internet.
  • the accuracy of three-dimensional model generation can be improved.
  • FIG. 1 is a diagram for explaining an outline of a three-dimensional model generation method according to the first embodiment.
  • FIG. 2 is a block diagram showing a characteristic configuration of the three-dimensional model generation device according to the first embodiment.
  • FIG. 3 is a diagram for explaining the search process according to the first embodiment.
  • FIG. 4 is a block diagram showing a functional configuration of the correction unit according to the first embodiment.
  • FIG. 5 is a diagram for explaining an example of the process of detecting the contour according to the first embodiment.
  • FIG. 6 is a diagram for explaining an example of the process of detecting the contour according to the first embodiment.
  • FIG. 7 is a diagram for explaining an example of a process for correcting the positions of a plurality of third three-dimensional points according to the first embodiment.
  • FIG. 1 is a diagram for explaining an outline of a three-dimensional model generation method according to the first embodiment.
  • FIG. 2 is a block diagram showing a characteristic configuration of the three-dimensional model generation device according to the first embodiment.
  • FIG. 8 is a flowchart showing an example of the operation of the three-dimensional model generation device according to the first embodiment.
  • FIG. 9 is a flowchart showing an example of details of the generation process of step S104 according to the first embodiment.
  • FIG. 10 is a diagram for explaining an example of a process of correcting the positions of a plurality of third three-dimensional points according to the modified example of the first embodiment.
  • FIG. 11 is a diagram for explaining an example of a process of correcting the positions of a plurality of third three-dimensional points according to the modified example of the first embodiment.
  • FIG. 12 is a diagram for explaining an example of a process of correcting the positions of a plurality of third three-dimensional points according to the modified example of the first embodiment.
  • FIG. 10 is a diagram for explaining an example of a process of correcting the positions of a plurality of third three-dimensional points according to the modified example of the first embodiment.
  • FIG. 12 is a diagram for explaining an example of a process of correcting the positions of
  • FIG. 13 is a diagram for explaining an example of a process of correcting the positions of a plurality of third three-dimensional points according to the modified example of the first embodiment.
  • FIG. 14 is a diagram for explaining an example of processing by the correction unit according to the second modification of the first embodiment.
  • FIG. 15 is a diagram for explaining an example of processing by the correction unit according to the second modification of the first embodiment.
  • FIG. 16 is a block diagram showing a characteristic configuration of the three-dimensional model generation device according to the second embodiment.
  • FIG. 17 is a diagram for explaining an example of a process for correcting each frame according to the second embodiment.
  • FIG. 18 is a diagram for explaining an example of a process for correcting each frame according to the second embodiment.
  • FIG. 19 is a flowchart showing an example of details of the generation process of step S104 according to the second embodiment.
  • a three-dimensional model is generated by searching for similarities between a plurality of images.
  • search for similarities when searching for similarities in one pixel of one image from another image, epipolar lines on the other image are calculated from the geometric constraints of the camera, and for multiple pixels on the epipolar lines. A search is done. Then, by performing triangulation using the pixels matched in the search for similar points and the position and orientation of the camera when the image was taken, the position of the three-dimensional point shot by the matched pixels is determined. Identify. By doing this for each of the plurality of pixels, a three-dimensional model including a plurality of three-dimensional points is generated.
  • the positions of the plurality of three-dimensional points included in the three-dimensional model are affected by the influence of the alias generated in the two-dimensional image.
  • the size of the space corresponding to one pixel of the two-dimensional image becomes large, so that the error in the position of the generated three-dimensional point becomes large. Therefore, the accuracy of the generated three-dimensional model is reduced.
  • the present disclosure provides a three-dimensional model generation method and the like that can improve the generation accuracy of the three-dimensional model.
  • the three-dimensional model generation method is a three-dimensional model generation method executed by a computer, in which a first image obtained by photographing a subject from a first viewpoint and the subject are the first. A second image obtained by shooting from two viewpoints is acquired, and at least in the first image, a first line composed of continuous edges and corresponding to the contour of the subject is detected. Based on the first image, the second image, and the first line, a plurality of first three-dimensional points representing the contour are generated in the three-dimensional space in the computer.
  • the first line corresponding to the contour of the subject is detected from the image, and in addition to the plurality of images, a plurality of first three-dimensional points are generated using the detected first line. Since the first line corresponding to the contour of the subject is detected in this way and the first three-dimensional model is generated in consideration of the first line, it is possible to reduce the error due to the alias on the image. Therefore, the accuracy of generating the first three-dimensional model can be improved.
  • the first line may be expressed in a unit smaller than the pixel unit in the first image.
  • a plurality of second three-dimensional points representing the subject in the three-dimensional space are generated, and the plurality of points are generated.
  • a plurality of third-dimensional points corresponding to the contour are identified based on the first line.
  • the positions of the plurality of third-dimensional points may be corrected.
  • a plurality of third three-dimensional points are a point cloud corresponding to the contour of the subject, and the position of the point cloud is corrected using the specified point cloud. Therefore, the position of the point cloud can be appropriately corrected according to the shape of the contour of the subject.
  • a plurality of fourth of the plurality of second three-dimensional points corresponding to the contour to which the second line corresponds based on the second line.
  • the position of the uncorrected second three-dimensional point may be corrected.
  • a plane is specified by performing a principal component analysis on the plurality of third three-dimensional points, and the plurality of third three-dimensional points are the planes.
  • the positions of the plurality of third-dimensional points may be corrected so as to approach.
  • the positions of a plurality of third-dimensional points can be accurately corrected according to the shape of the contour.
  • the first principal component that passes through the center of gravity of the plurality of third three-dimensional points and is obtained by the principal component analysis is used as a normal line.
  • a plane with a small value may be generated as the plane.
  • the positions of a plurality of third-dimensional points can be accurately corrected according to the first line which is a line segment.
  • an approximate line is generated by performing a minimum square method for the plurality of third three-dimensional points, and the plurality of third three-dimensional points are the approximate lines.
  • the positions of the plurality of third-dimensional points may be corrected so as to approach.
  • a three-dimensional point whose distance from the first viewpoint is closer than a predetermined distance may be excluded from the plurality of first three-dimensional points.
  • the processing load can be reduced without incurring a decrease in accuracy.
  • the edge detected from the image having a predetermined resolution or higher among the first image and the second image it is not necessary to use the edge detected from the image having a predetermined resolution or higher among the first image and the second image.
  • the processing load can be reduced without causing a decrease in accuracy.
  • the detection in the second image, a second line composed of continuous edges and corresponding to the contour of the subject is detected, and in the generation of the plurality of first three-dimensional points, the detection is performed.
  • the first image and the second image are corrected by using the first line and the second line, respectively, and (ii) in the corrected first image and the corrected second image. Matching may be performed to search for similarities with each other.
  • the first three-dimensional model is generated using the image corrected by using the contour, it is possible to generate the first three-dimensional model in which the error due to the alias on the image is reduced.
  • the three-dimensional model generation device includes a computer, and the computer captures a first image obtained by photographing a subject from a first viewpoint and the subject from a second starting point.
  • the second image obtained in the above is acquired, and at least in the first image, the first line consisting of continuous edges and corresponding to the contour of the subject is detected, and the first image, the said.
  • Based on the second image and the first line a plurality of first three-dimensional points representing the contour are generated in the three-dimensional space in the computer.
  • the contour of the subject is detected from the image, and in addition to the plurality of images, the first three-dimensional model is generated using the detected contour. Since the contour of the subject is detected in this way and the first three-dimensional model is generated in consideration of the contour, it is possible to reduce the error due to the alias on the image. Therefore, the accuracy of generating the first three-dimensional model can be improved.
  • each figure is a schematic diagram and is not necessarily exactly illustrated. Further, in each figure, the same reference numerals are given to substantially the same configurations, and duplicate explanations may be omitted or simplified.
  • FIG. 1 is a diagram for explaining an outline of the three-dimensional model generation method according to the first embodiment.
  • FIG. 2 is a block diagram showing a characteristic configuration of the three-dimensional model generation device 100 according to the first embodiment.
  • a three-dimensional model of a predetermined region is generated from a plurality of images taken from a plurality of different viewpoints using a plurality of image pickup devices 301.
  • the predetermined region is a region including a stationary stationary object, a moving animal body such as a person, or both of them.
  • the predetermined region is, for example, a region including at least one of a stationary stationary object and a moving animal body as a subject.
  • a predetermined area including a stationary object and an animal body there is a venue where a sports game such as basketball is held, or a space on a road where a person or a car exists.
  • the predetermined area may include not only a specific object as a subject but also a landscape or the like.
  • FIG. 1 illustrates a case where the subject 500 is a building. Further, in the following, not only a specific object to be a subject but also a predetermined area including a landscape or the like is simply referred to as a subject.
  • the three-dimensional model generation system 400 includes an image pickup device group 300 including a plurality of image pickup devices 301, an estimation device 200, and a three-dimensional model generation device 100.
  • the plurality of image pickup devices 301 are a plurality of image pickup devices that capture a predetermined area.
  • the plurality of image pickup devices 301 each shoot a subject, and the plurality of shot frames are output to the estimation device 200, respectively.
  • the image pickup device group 300 includes two or more image pickup devices 301. Further, the plurality of image pickup devices 301 capture the same subject from different viewpoints.
  • a frame is, in other words, an image.
  • the three-dimensional model generation system 400 is provided with the image pickup device group 300, but the present invention is not limited to this, and one image pickup device 301 may be provided.
  • a multi-viewpoint image consisting of a plurality of frames having different viewpoints is generated on one image pickup device 301 while moving one image pickup device 301 for a subject existing in real space. You may let me take a picture.
  • Each of the plurality of frames is a frame imaged (generated) by an image pickup device 301 whose position and orientation are different from each other. That is, the plurality of frames are frames taken from different viewpoints.
  • each image pickup device 301 may be a camera that generates a two-dimensional image, or may be a camera provided with a three-dimensional measurement sensor that generates a three-dimensional model.
  • each of the plurality of image pickup devices 301 is a camera that generates a two-dimensional image by taking a picture.
  • the plurality of image pickup devices 301 may be directly connected to the estimation device 200 by wire communication or wireless communication so that the frames captured by each can be output to the estimation device 200, or the communication device, the server, or the like is illustrated. It may be indirectly connected to the estimation device 200 via a hub that does not.
  • the frames taken by the plurality of image pickup devices 301 may be output to the estimation device 200 in real time. Also.
  • the frame may be recorded once in a memory or an external storage device such as a cloud server, and then output from those external storage devices to the estimation device 200.
  • the plurality of image pickup devices 301 may be fixed cameras such as surveillance cameras, mobile cameras such as video cameras, smartphones, or wearable cameras, and movement of drones with a shooting function or the like. It may be a camera.
  • the estimation device 200 performs camera calibration by causing one or more image pickup devices 301 to shoot a subject from a plurality of viewpoints.
  • the estimation device 200 performs camera calibration for estimating the position and orientation of the plurality of image pickup devices 301 based on the plurality of frames taken by the plurality of image pickup devices 301, for example.
  • the posture of the image pickup device 301 indicates at least one of the shooting direction of the image pickup device 301 and the inclination of the image pickup device 301.
  • the shooting direction of the image pickup device 301 is the direction of the optical axis of the image pickup device 301.
  • the inclination of the image pickup device 301 is the rotation angle of the image pickup device 301 around the optical axis from the reference posture.
  • the estimation device 200 estimates the camera parameters of the plurality of image pickup devices 301 based on the plurality of frames acquired from the plurality of image pickup devices 301.
  • the camera parameter is a parameter indicating the characteristics of the image pickup device 301, and is an internal parameter including the focal length and the image center of the image pickup device 301, and the position of the image pickup device 301 (more specifically, the three-dimensional position).
  • external parameters indicating the posture That is, the position and orientation of each of the plurality of image pickup devices 301 can be obtained by estimating the camera parameters of each of the plurality of image pickup devices 301.
  • the estimation method in which the estimation device 200 estimates the position and orientation of the image pickup device 301 is not particularly limited.
  • the estimation device 200 may estimate the position and orientation of the plurality of image pickup devices 301 by using, for example, Visual-SLAM (Simultaneus Localization and Mapping) technology.
  • the estimation device 200 may estimate the positions and orientations of the plurality of image pickup devices 301 using, for example, the Structure-From-Motion technique.
  • FIG. 3 is a diagram for explaining the search process by the restoration unit described later, but since the estimation method also performs a part of the same process, it will be described with reference to FIG.
  • the estimation device 200 uses Visual-SLAM technology or Structure-From-Motion technology to extract characteristic points from each of the plurality of frames 531 to 533 photographed by the plurality of image pickup devices 301 as feature points.
  • a search for feature points is performed to extract a set of similar similar points among a plurality of frames among the plurality of feature points. Since the estimation device 200 can identify the points on the subject 510 that are commonly reflected in the plurality of frames 531 to 533 by searching for the feature points, the estimation device 200 can use the extracted set of similar points on the subject 510.
  • the three-dimensional coordinates (that is, the three-dimensional position) of the point can be obtained by the principle of triangulation.
  • the estimation device 200 can estimate the position and orientation of each image pickup device 301 by extracting a plurality of sets of similar points and using the plurality of sets of similar points.
  • the estimation device 200 calculates three-dimensional coordinates for each set of similar points in the process of estimating the position and orientation of each image pickup device 301, and the estimation device 200 is a tertiary including a plurality of three-dimensional points indicated by the calculated plurality of three-dimensional coordinates.
  • the original model 520 may be generated.
  • Each of the plurality of three-dimensional points indicates a position on the subject in the three-dimensional space.
  • the estimation device 200 obtains the position and orientation of each image pickup device 301 and the map information as the estimation result.
  • the three-dimensional model 520 includes the three-dimensional positions of each of the plurality of three-dimensional points.
  • the three-dimensional model 520 not only displays a plurality of three-dimensional positions, but also displays the color of each three-dimensional point, the surface shape around each three-dimensional point, and information indicating which frame each three-dimensional point was generated by. It may be included.
  • the estimation device 200 may generate a three-dimensional model 520 including a sparse three-dimensional point cloud by limiting the number of sets of similar points to a predetermined number in order to speed up the estimation process. .. This is because the estimation device 200 can estimate the position and orientation of each image pickup device 301 with sufficient accuracy even if the set of similarities is limited to a predetermined number.
  • the predetermined number may be determined to be a number capable of estimating the position and orientation of each image pickup device 301 with sufficient accuracy.
  • the estimation device 200 may estimate the position and orientation of each image pickup device 301 by using a set of similar points that are similar to each other with a predetermined degree of similarity or higher. As a result, the estimation device 200 can limit the number of sets of similarities used in the estimation process to the number of sets that are similar at a predetermined degree of similarity or higher.
  • the estimation device 200 may calculate, for example, the distance between the image pickup device 301 and the subject 510 as a camera parameter based on the position and orientation of the image pickup device 301 estimated by using the above technique.
  • the three-dimensional model generation system 400 includes a distance measuring sensor, and the distance between the image pickup apparatus 301 and the subject 510 may be measured using the distance measuring sensor.
  • the estimation device 200 may be directly connected to the three-dimensional model generation device 100 by wire communication or wireless communication, or may be indirectly connected to the estimation device 200 via a hub (not shown) such as a communication device or a server. You may. As a result, the estimation device 200 outputs the plurality of frames received from the plurality of image pickup devices 301 and the plurality of camera parameters of the plurality of estimated image pickup devices 301 to the three-dimensional model generation device 100.
  • the plurality of camera parameters estimated by the estimation device 200 may be output to the three-dimensional model generation device 100 in real time. Further, the plurality of camera parameters may be once recorded in an external storage device such as a memory or a cloud server, and then output from those external storage devices to the three-dimensional model generation device 100.
  • an external storage device such as a memory or a cloud server
  • the estimation device 200 is a computer including, for example, a control program, a processing circuit such as a processor or a logic circuit that executes the control program, and a recording device such as an internal memory for storing the control program or an accessible external memory. At least have a system.
  • the three-dimensional model generation device 100 generates a three-dimensional model of a predetermined region based on a plurality of frames taken by the plurality of image pickup devices 301 and camera parameters estimated by the estimation device 200. Specifically, the three-dimensional model generation device 100 puts a three-dimensional model of a subject on a virtual three-dimensional space based on a plurality of camera parameters corresponding to each of the plurality of image pickup devices 301 and a plurality of frames. It is a device that executes the 3D model generation process to be generated.
  • the three-dimensional model of the subject is data including the three-dimensional shape of the subject and the color of the subject, which are restored on a virtual three-dimensional space from the frame in which the actual subject is photographed.
  • the three-dimensional model of the subject is a multi-viewpoint, that is, a point indicating the three-dimensional position of each of the plurality of points on the subject captured in each of the plurality of two-dimensional images taken by the plurality of image pickup devices 301 at a plurality of different viewpoints. It is a set.
  • the three-dimensional position is represented by, for example, ternary information including an X component, a Y component, and a Z component indicating the positions of the X axis, the Y axis, and the Z axis that are orthogonal to each other. That is, the three-dimensional position is represented by three-dimensional coordinates in the three-dimensional Cartesian coordinate system.
  • the three-dimensional position is not limited to being represented by the three-dimensional coordinates in the three-dimensional Cartesian coordinate system, but may be represented by the three-dimensional coordinates in the three-dimensional polar coordinate system.
  • the information including the plurality of points indicating the three-dimensional position includes not only the three-dimensional position (that is, the information indicating the coordinates) but also the information indicating the color of each point. Attribute information or the like representing the surface shape of each point and its surroundings may be included.
  • the three-dimensional model generation device 100 includes, for example, a control program, a processing circuit such as a processor or a logic circuit that executes the control program, and a recording device such as an internal memory for storing the control program or an accessible external memory. At least equipped with a computer system.
  • the three-dimensional model generation device 100 is an information processing device. The functions of each processing unit of the three-dimensional model generator 100 may be realized by software or hardware.
  • the three-dimensional model generation device 100 may store the camera parameters of the plurality of image pickup devices 301 in advance. In this case, the three-dimensional model generation system 400 does not have to include the estimation device 200. Further, the plurality of image pickup devices 301 may be wirelessly or wiredly connected to the three-dimensional model generation device 100 so as to be communicable.
  • the plurality of frames taken by the image pickup apparatus 301 may be directly output to the three-dimensional model generation apparatus 100.
  • the image pickup device 301 may be directly connected to the three-dimensional model generation device 100 by, for example, wired communication or wireless communication, or the three-dimensional model generation may be performed via a hub (not shown) such as a communication device or a server. It may be indirectly connected to the device 100.
  • the three-dimensional model generation device 100 is a device that generates a three-dimensional model from a plurality of frames.
  • the three-dimensional model generation device 100 includes a reception unit 110, a storage unit 120, an acquisition unit 130, a generation unit 140, and an output unit 150.
  • the receiving unit 110 receives from the estimation device 200 a plurality of frames taken by the plurality of image pickup devices 301 and a plurality of camera parameters estimated by the estimation device 200.
  • the receiving unit 110 has a first frame (first image) obtained by shooting the subject from the first viewpoint and a second frame (first image) obtained by shooting the subject from the second viewpoint. 2 image) and is acquired. That is, the plurality of frames received by the receiving unit 110 include the first frame and the second frame.
  • the plurality of frames are, for example, a plurality of frames obtained by photographing the subject from a plurality of different viewpoints when the subject is a stationary object.
  • the plurality of frames are, for example, a plurality of frames obtained by photographing the subject at a predetermined timing (that is, at the same time) from a plurality of viewpoints when the subject is an animal body.
  • the three-dimensional model generation device 100 performs a process of generating a first three-dimensional model using a frame set having a plurality of frames as one set as a processing unit. Framesets are sometimes referred to as multi-viewpoint images.
  • the receiving unit 110 may acquire the three-dimensional model 520 from the estimation device 200.
  • the receiving unit 110 outputs a plurality of received frames and camera parameters to the storage unit 120.
  • the receiving unit 110 is, for example, a communication interface for communicating with the estimation device 200.
  • the receiving unit 110 includes, for example, an antenna and a wireless communication circuit.
  • the receiving unit 110 includes, for example, a connector connected to a communication line and a wire communication circuit.
  • the receiving unit 110 may receive a plurality of frames from a plurality of image pickup devices 301 without going through the estimation device 200.
  • the storage unit 120 stores a plurality of frames and a plurality of camera parameters received by the reception unit 110.
  • the storage unit 120 may store the three-dimensional model 520 received by the reception unit 110.
  • the storage unit 120 may store the processing results of each processing unit included in the three-dimensional model generation device 100.
  • the storage unit 120 stores, for example, a control program executed by each processing unit included in the three-dimensional model generation device 100.
  • the storage unit 120 is realized by, for example, an HDD (Hard Disk Drive), a flash memory, or the like.
  • the acquisition unit 130 acquires a plurality of frames stored in the storage unit 120 and the camera parameters of each image pickup device 301 from the storage unit 120 and outputs them to the generation unit 140.
  • the three-dimensional model generation device 100 does not have to include the storage unit 120 and the acquisition unit 130.
  • the receiving unit 110 may output the plurality of frames received from the plurality of image pickup devices 301 and the camera parameters of each image pickup device 301 received from the estimation device 200 to the generation unit 140.
  • the generation unit 140 generates a first three-dimensional model using a plurality of frames and a plurality of camera parameters.
  • the first three-dimensional model contains a plurality of first three-dimensional points.
  • the generation unit 140 has a restoration unit 141 and a correction unit 142.
  • the restoration unit 141 generates a plurality of second three-dimensional points representing a subject in a three-dimensional space by performing matching for searching for similarities between the plurality of frames, for example, the first frame and the second frame. ..
  • the correction unit 142 corrects the positions of the plurality of second three-dimensional points. As a result, the first three-dimensional model is generated.
  • the plurality of first three-dimensional points included in the first three-dimensional model are generated by correcting at least a part of the plurality of second three-dimensional points by the correction unit 142.
  • the restoration unit 141 and the correction unit 142 will be specifically described.
  • the restoration unit 141 searches for similarities similar to the first point of the first frame among the plurality of frames from a plurality of second points in the search area based on the first point in the second frame.
  • the first frame is a frame (image) that is a reference source for the first point among the plurality of frames.
  • the second frame is one of the remaining plurality of frames excluding the first frame from the plurality of frames, and is a frame (image) to which the search for similarities similar to the first point is referred. be.
  • the first point is specifically the first pixel of one of the plurality of first pixels.
  • the plurality of first pixels are pixels included in the first frame, for example, all pixels included in the first frame.
  • the search region is a region defined by an epipolar line corresponding to the first point of the first frame in a plurality of second frames, and is, for example, a region composed of a plurality of second points on the epipolar line. ..
  • the plurality of second points are, specifically, a plurality of second pixels included in the search area.
  • the restoration unit 141 may search for similar points (similar pixels) similar to the first pixel from the plurality of second pixels included in the second frame for each of the plurality of first pixels.
  • the plurality of second pixels are, for example, all the pixels included in the second frame.
  • the restoration unit 141 may search for similarities of the first pixel by using each of the plurality of second frames as a search target, or search at least one second frame of the plurality of second frames as a search target. , The search for the similarity of the first pixel may be performed.
  • FIG. 3 is a diagram for explaining the search process by the restoration unit 141.
  • the image pickup device 301 of the first viewpoint V1 takes a picture of the first frame 531 including the subject 510
  • the image pickup device 301 of the second viewpoint V2 takes a picture of the second frame 532 including the subject 510
  • the third viewpoint V3 An example is shown in which the second frame 533 including the subject 510 is photographed by the image pickup apparatus 301 of the above.
  • a straight line connecting the position of the image pickup apparatus 301 that captured the first frame and the two-dimensional coordinates on the first frame of the first pixel for each first pixel becomes the second frame to be processed.
  • Calculate the projected epipolar line For example, as shown in FIG. 3, the restoration unit 141 calculates the epipolar line 552 projected on the second frame 532 by the straight line L1 connecting the first viewpoint V1 and the first pixel 541. Further, the restoration unit 141 calculates the epipolar line 553 in which the straight line L1 is projected on the second frame 533. Then, the restoration unit 141 searches for similarities similar to the first pixel 541 to be processed in the first frame 531 from the epipolar lines 552 and 552, respectively.
  • the restoration unit 141 calculates the degree of similarity between the first pixel and each of the plurality of second pixels in the search area. Specifically, the restoration unit 141 formulates Equation 1 with N (I, J) indicating a Normalized Cross Correlation (NCC) between a small area between the first frame and the second frame to be processed as the similarity. Calculate using. N (I, J) is represented by a numerical value between -1 and 1, and the closer to 1 is, the higher the similarity is.
  • the restoration unit 141 may calculate SSD (I, J) as the degree of similarity instead of NCC.
  • SSD Sud of Squared Difference
  • SSD (I, J) indicates that the smaller the value, the higher the similarity.
  • the restoration unit 141 identifies the second pixels 542 and 543, which have the highest degree of similarity with the first pixel 541, as similarities to the first pixel.
  • the restoration unit 141 uses the first pixel 541 and the second pixels 542 and 543 selected as similar points to the first pixel 541 to triangulate a three-dimensional point indicated by the three-dimensional coordinates of the point on the subject 510. It is calculated by the principle of.
  • the restoration unit 141 calculates one three-dimensional point corresponding to one first pixel by calculating the average of the plurality of three-dimensional points. May be generated.
  • the restoration unit 141 will add the camera identification information of the image pickup device 301 that generated each frame to the header of each frame. May be added, or a plurality of camera specific information of the plurality of image pickup devices 301 may be added to the header of the frame set including the plurality of frames.
  • the camera specific information may include identification information that identifies the image pickup device 301 to which the camera specific information corresponds, or may include camera parameters of the image pickup device 301 to which the camera specific information corresponds.
  • FIG. 4 is a block diagram showing the functional configuration of the correction unit 142.
  • the correction unit 142 has a detection unit 142a and a three-dimensional point correction unit 142b.
  • the detection unit 142a detects a line consisting of continuous edges and corresponding to the contour of the subject 510 at least in the first frame.
  • the line detected in the first frame is an example of the first line.
  • the detection unit 142a may detect an edge by using a gradient method using a first derivative with respect to the pixel value of each pixel of the first frame. Further, the detection unit 142a may detect the edge by using the Laplacian method using the second derivative with respect to the pixel value of each pixel of the first frame.
  • the edge detected by the detection unit 142a is a point (edge point) in the first frame.
  • the detection unit 142a detects continuous edges by using a plurality of edges detected on the first frame.
  • a well-known algorithm can be used for the detection unit 142a to detect continuous edges.
  • the detection unit 142a may detect continuous linear edges by using, for example, an LSD (Line Segment Detector). By using LSD, the detection unit 142a detects the start point and the end point of the continuous edge, and detects the straight line connecting the start point and the end point as the continuous edge.
  • LSD Line Segment Detector
  • the contours corresponding to the lines detected by the detection unit 142a are, for example, line segments, curves, planes, curved surfaces, and the like.
  • the contour may be a line or surface that forms part of a particular shape.
  • the specific shape may be a prism, a pyramid, a cylinder, a cone, a sphere, or the like, or a three-dimensional object formed by rotating a line segment or a curve around a certain axis of rotation, that is, a rotating body. May be good.
  • the contour may be distinguished for each type of line shape, for example.
  • the shape of the line may be a straight line (line segment) connecting two points, or a curve connecting two points.
  • the curve connecting the two points may be a smooth curve having no bent portion.
  • the line detected by the detection unit 142a may be a line having a finite length separated by two points.
  • the contour may be a surface including the detected line.
  • the contour may be a plane when the shape of the detected line is a line segment, or may be a curved surface when the shape of the detected line is a curve.
  • 5 and 6 are diagrams for explaining an example of the process of detecting a line by the detection unit 142a.
  • the detection unit 142a detects a line segment.
  • the region 561 including the linear shape of the subject 510 is shown by a broken line. Since the first frame 531 expresses the subject 510 in pixel units, the contour of the subject 510 is also expressed in pixel units. Therefore, in general, in the region 561 in which the linear shape extending in the diagonal direction of the first frame 531 is photographed, as shown in FIG. 6A, a large number of aliases in which the edges look like steps are generated. However, since the detected continuous edges are not represented in pixel units, the contour of the subject 510 is represented by the continuous edges with high reproducibility.
  • the position of the detected continuous edge is not limited to the position of the pixel because it is specified by the first-order or second-order differentiation to the brightness gradient obtained from the relationship between the position of each pixel and the pixel value. It is specified by the accuracy (minor pixel accuracy) in the area unit smaller than the pixel unit. That is, the detection unit 142a detects a line consisting of continuous edges at a position with a decimal pixel accuracy. A line consisting of continuous edges is represented by a unit smaller than a pixel unit in the first frame 531. Therefore, the continuous edge expresses the contour 562 in a region unit smaller than the pixel unit, which has high reproducibility. Further, since the detection unit 142a detects continuous edges by using the first derivative or the second derivative to the luminance gradient, it is possible to obtain the result in which the folding distortion (alias) in the plurality of pixels is offset.
  • 3D points instead of generating 3D points only from the pixels of the 1st frame 531 by using continuous edges that can express the contour of the subject 510 with high reproducibility, 3D points are generated. It is possible to generate more accurate 3D points.
  • the three-dimensional point correction unit 142b identifies a group including a plurality of third-dimensional points included in the contour corresponding to the line 562 among the plurality of second-three-dimensional points.
  • the group may include a plurality of three-dimensional points generated from a plurality of pixels through which the line 562 passes in the first frame as a plurality of third three-dimensional points.
  • the group may include a plurality of three-dimensional points generated from a plurality of pixels through which the line 562 passes in the first frame and pixels around the plurality of pixels as a plurality of third three-dimensional points. ..
  • the pixels around the plurality of pixels may include all of the plurality of pixels located closer to the pixels separated by a predetermined number from the plurality of pixels.
  • the three-dimensional point correction unit 142b specifies a group including a plurality of third-dimensional points specified in the portion corresponding to the line for each of the one or more lines detected by the detection unit 142a. ..
  • the three-dimensional point correction unit 142b corrects the positions of a plurality of third three-dimensional points belonging to the group specified by the line based on each line. Specifically, the three-dimensional point correction unit 142b identifies a plane by performing principal component analysis on a plurality of third three-dimensional points belonging to each group for each group, and the three-dimensional point correction unit 142b identifies a plane, and a plurality of third three-dimensional points. Corrects the positions of the plurality of third-dimensional points so that is closer to the plane. In this way, the three-dimensional point correction unit 142b corrects the positions of the plurality of third-dimensional points corresponding to the contours among the plurality of second-three-dimensional points. As a result, a plurality of first three-dimensional points are generated.
  • FIG. 7 is a diagram for explaining an example of a process of correcting the positions of a plurality of third three-dimensional points by the three-dimensional point correction unit 142b according to the first embodiment.
  • FIG. 7A shows a plurality of third three-dimensional points 570 belonging to one group.
  • the three-dimensional point correction unit 142b calculates the first principal component 571 and the second principal component 572 as shown in FIG. 7 (b) by performing principal component analysis on a plurality of third three-dimensional points 570. do. Specifically, the three-dimensional point correction unit 142b calculates the variance-covariance matrix of the three-dimensional coordinates of the plurality of third three-dimensional points 570, and the obtained principal component (eigenvector) has the largest magnitude in order. The two selected principal components are calculated as the first principal component 571 and the second principal component 572.
  • the three-dimensional point correction unit 142b generates a first plane based on the first principal component 571 and a second plane based on the second principal component 572 as candidate planes (candidate planes) to be used for correction.
  • the first plane is a plane that passes through the centers of gravity of the plurality of third three-dimensional points 570 and has the first principal component 571 as a normal.
  • the second plane is a plane that passes through the centers of gravity of the plurality of third three-dimensional points 570 and has the second main component 572 as a normal.
  • the three-dimensional point correction unit 142b determines, among the first plane and the second plane, a plane having a small total distance from a plurality of third three-dimensional points 570 as a plane to be used for correction.
  • the equation of the plane showing the candidate plane is expressed by the equation 3.
  • Equation 4 the distance D between this plane and the point (x0, y0, z0) is expressed by Equation 4.
  • Equation 5 The sum of the distances, Dollar, is expressed by Equation 5.
  • the three-dimensional point correction unit 142b calculates the Dollar for each of the first plane and the second plane, and determines the plane having the minimum Dollar as the correction plane 573. As a result, the three-dimensional point correction unit 142b determines the first plane based on the first principal component 571 as the correction surface 573 in the example shown in FIG. 7 (c).
  • the three-dimensional point correction unit 142b determines the first frame corresponding to the third three-dimensional point for each of the plurality of third three-dimensional points 570, as shown in FIG. 7 (d). The intersection of the projection line of the upper pixel on the third three-dimensional point and the correction surface 573 is calculated as the correction point 574.
  • the third three-dimensional point (Xn, Yn, Zn) corresponding to the pixel t ( It can be expressed as Vx, Vy, Vz).
  • the three-dimensional unit vector (Vx, Vy, Vz) corresponding to the pixel is expressed by the following equation 8 assuming a pinhole camera.
  • Equation 8 (x, y) are the two-dimensional coordinates of the pixels in the first frame.
  • (Cx, cy) is the center position of the first frame in the internal parameters of the image pickup apparatus 301 in which the first frame is photographed.
  • (Fx, fy) is the focal length in the internal parameter of the image pickup apparatus 301 in which the first frame is photographed.
  • the three-dimensional point correction unit 142b corrects the positions of the plurality of third three-dimensional points 570 to generate a first three-dimensional model including the plurality of correction points 574.
  • the plurality of correction points 574 are aligned along the line detected in the first frame. Therefore, in the generated first three-dimensional model, when viewed from the viewpoint of the first frame, the portion corresponding to the line detected in the first frame has a shape along the line.
  • the plurality of first three-dimensional points are generated as a result of the correction of the plurality of third three-dimensional points 570, the plurality of correction points 574 are included. That is, the plurality of first three-dimensional points include a plurality of uncorrected second three-dimensional points and a plurality of correction points 574 among the plurality of second three-dimensional points.
  • FIG. 8 is a flowchart showing an example of the operation of the three-dimensional model generation device 100.
  • the receiving unit 110 receives from the estimation device 200 a plurality of frames taken by the plurality of image pickup devices 301 and the camera parameters of each image pickup device 301 (S101).
  • Step S101 is an example of a step of acquiring a plurality of images.
  • the receiving unit 110 does not have to receive the plurality of frames and the plurality of camera parameters at one timing, and may receive each at different timings. That is, the acquisition of a plurality of frames and the acquisition of a plurality of camera parameters may be performed at the same timing or at different timings from each other.
  • the storage unit 120 stores a plurality of frames taken by the plurality of image pickup devices 301 received by the reception unit 110 and the camera parameters of each image pickup device 301 (S102).
  • the acquisition unit 130 acquires a plurality of frames and a plurality of camera parameters stored in the storage unit 120, and outputs the acquired plurality of frames and a plurality of camera parameters to the generation unit 140 (S103). ..
  • the generation unit 140 generates a first three-dimensional model using a plurality of frames and a plurality of camera parameters (S104).
  • the details of step S104 for generating the first three-dimensional model will be described later with reference to FIG.
  • the output unit 150 outputs the first three-dimensional model generated by the generation unit 140 (S105).
  • FIG. 9 is a flowchart showing an example of details of the generation process of step S104 by the generation unit 140.
  • the generation unit 140 performs loop 1 for each frame set of multi-viewpoint images taken at timings corresponding to each other (S111). In loop 1, loop 2 is performed for each frame set.
  • the generation unit 140 performs loop 2 for each of a plurality of first pixels of the first frame in the frame set to be processed (S112). In the loop 2, the processes of steps S113 to S116 are performed for each of the plurality of first pixels.
  • the restoration unit 141 transfers the first pixel to be processed from the plurality of second pixels on the epipolar line corresponding to the first pixel on the plurality of second frames of the frame set to be processed to the first pixel. Search for similar similarities (S113).
  • the restoration unit 141 generates a second three-dimensional point by performing a triangulation survey using the search result obtained in step S113. As a result, the restoration unit 141 generates a second three-dimensional model including a plurality of second three-dimensional points (S114). Details of steps S113 and S114 are omitted because they are described in the description of the restoration unit 141.
  • the correction unit 142 detects a line consisting of edges continuous from the first frame and corresponding to the contour of the subject (S115).
  • the correction unit 142 corrects the positions of the plurality of third-dimensional points corresponding to the detected lines among the plurality of second-three-dimensional points according to the shape of the line (S116). As a result, the correction unit 142 generates a first three-dimensional model including a plurality of first three-dimensional points. Details of steps S115 and S116 are omitted because they are described in the description of the correction unit 142.
  • Loop 2 ends when the processing of steps S113 to S116 is completed for all the first pixels included in the first frame of the frame set to be processed.
  • Loop 1 ends when loop 2 ends for all framesets.
  • the loop 2 includes both a process of generating a second three-dimensional model and a process of correcting the positions of a plurality of third three-dimensional points. Not limited to, these two processes may not be included in the same loop. That is, the loop of the process of generating the second three-dimensional model and the loop of the process of correcting the positions of the plurality of third three-dimensional points may be independent.
  • the first frame obtained by shooting the subject from the first viewpoint and the second frame obtained by shooting the subject from the second viewpoint are acquired.
  • S101 at least in the first frame, a line consisting of continuous edges and corresponding to the contour of the subject is detected (S115), and based on the first frame, the second frame, and the line, Generate a plurality of first three-dimensional points representing contours in a three-dimensional space in a computer (S116).
  • a line corresponding to the contour of the subject is detected from the frame, and in addition to the plurality of frames, a plurality of first 3D points are generated using the detected line.
  • the line corresponding to the contour of the subject is detected and a plurality of first three-dimensional points are generated in consideration of the line, it is possible to reduce the error due to the alias on the image. Therefore, the accuracy of generating the first three-dimensional model can be improved.
  • the contour represented by the plurality of first three-dimensional points in the three-dimensional space in the computer when viewed from the viewpoint corresponding to the first viewpoint is a line. It has a shape along it. That is, in the three-dimensional model generation method, since a plurality of first three-dimensional points are generated along the shape of the contour of the subject when viewed from the first viewpoint, the generation accuracy of the first three-dimensional model is improved. Can be done.
  • a plurality of subjects are expressed in a three-dimensional space in a computer by performing matching for searching for similarities between the first frame and the second frame. (S113, S114), and for the generation of a plurality of 1st 3D points (S116), the contour corresponds to the contour of the plurality of 2D points based on the line. A plurality of 3D points are specified, and the positions of the plurality of 3D points are corrected.
  • a plurality of third three-dimensional points are a point cloud corresponding to the contour, and the position of the point cloud is corrected using the specified point cloud. Therefore, the position of the point cloud can be appropriately corrected according to the shape of the contour.
  • a plane is formed by performing a principal component analysis on a plurality of third three-dimensional points. It is generated and the positions of the plurality of third-dimensional points are corrected so that the plurality of third-dimensional points approach the plane. Therefore, the positions of the plurality of third three-dimensional points can be accurately corrected according to the shape of the contour.
  • the center of gravity of the plurality of third three-dimensional points is passed and the principal component analysis is performed.
  • a plane having a small total distance from the third three-dimensional point is generated as a plane used for correction. Therefore, even if the length of the detected line is not sufficiently long, the positions of the plurality of third-dimensional points can be accurately corrected according to the line segment.
  • Modification example (Modification 1)
  • the three-dimensional model generation device 100 performs principal component analysis on a plurality of third three-dimensional points belonging to the group specified by the line to correct the surface. Is generated, and the positions of a plurality of third-dimensional points are corrected using the correction surface, but the present invention is not limited to this.
  • an approximate line is generated by performing a least squares method on a plurality of third three-dimensional points, and the positions of the plurality of third three-dimensional points are determined using the approximate line. It may be corrected.
  • the three-dimensional point correction unit 142b identifies a group including a plurality of third three-dimensional points included in the portion corresponding to the line 562 among the plurality of second three-dimensional points. Then, the three-dimensional point correction unit 142b generates an approximate line by performing a least squares method on a plurality of third three-dimensional points. The three-dimensional point correction unit 142b corrects the positions of the plurality of third-dimensional points so that the plurality of third-dimensional points approach the approximate line.
  • FIG. 10 to 13 are diagrams for explaining an example of a process of correcting the positions of a plurality of third three-dimensional points by the three-dimensional point correction unit 142b according to the modified example of the first embodiment.
  • FIG. 10 shows a plurality of third three-dimensional points 580 belonging to one group.
  • the three-dimensional point correction unit 142b projects a plurality of third three-dimensional points 580 onto the XZ plane.
  • the number of a plurality of third three-dimensional points 580 belonging to the group is n, and the coordinates of the i-th three-dimensional point in the XZ plane are (Xi, Zi). Then, it is assumed that the formula of the approximate line to be obtained is shown by the formula 9.
  • the three-dimensional point correction unit 142b can calculate a and b by the least squares method using the following equation 10.
  • the three-dimensional point correction unit 142b has a plurality of third three-dimensional points in the XZ plane when the two-dimensional plane in which the plurality of third three-dimensional points 580 exist is the XZ plane.
  • the least squares method for 580 it is possible to generate approximation lines 581 for a plurality of third three-dimensional points 580.
  • the three-dimensional point correction unit 142b calculates the intersection with the approximation line 581 for each third three-dimensional point.
  • the three-dimensional point correction unit 142b calculates the Y coordinate of the correction point on the XYZ coordinates by using the calculated coordinates of the intersection and the equation 12.
  • the three-dimensional unit vector corresponding to the pixel corresponding to the i-th third three-dimensional point is represented by the equation 14.
  • the three-dimensional point correction unit 142b samples two points from a plurality of third three-dimensional points to calculate a plane 582.
  • the normal of plane 582 is represented by equation 15 and the plane is represented by equation 16.
  • Equation 16 The normal can be obtained by the outer product of the vectors as shown in Equation 17.
  • the three-dimensional point correction unit 142b corrects the positions of the plurality of third three-dimensional points 580 to generate a first three-dimensional model including the plurality of correction points 583.
  • the plurality of correction points 583 are aligned along the line detected in the first frame. Therefore, in the generated first three-dimensional model, the contour represented by the plurality of first three-dimensional points in the three-dimensional space in the computer when viewed from the starting point corresponding to the first viewpoint has a shape along a line.
  • the plurality of correction points 583 are included. That is, the plurality of first three-dimensional points include a plurality of uncorrected second three-dimensional points and a plurality of correction points 583 among the plurality of second three-dimensional points.
  • an approximate line is generated by performing a least squares method on a plurality of third three-dimensional points.
  • the positions of the plurality of third-dimensional points are corrected so that the plurality of third-dimensional points approach the approximate line. Therefore, it is possible to accurately correct the positions of a plurality of third-dimensional points according to the approximate lines that are close to the point cloud.
  • the three-dimensional model generation device 100 may generate a surface for correction by using a plurality of third-dimensional points that have already been corrected. In this case, since the processing of the correction unit 142 is different, the processing of the correction unit 142 will be described.
  • FIG. 14 is a diagram for explaining an example of processing by the correction unit 142 according to the modification 2 of the first embodiment.
  • FIG. 15 is a diagram for explaining an example of processing by the correction unit 142 according to the second modification of the first embodiment.
  • the detection unit 142a of the correction unit 142 detects the line 601 consisting of continuous edges in the first frame 591 and corresponds to the contour of the subject. After that, the detection unit 142a detects in the second frame 592 a line 602 composed of continuous edges and corresponding to the contour of the subject.
  • the line 602 corresponds to a contour including at least a part of the contour of the subject to which the line 601 corresponds. That is, the contour corresponding to the line 602 and the contour corresponding to the line 601 include a portion overlapping with each other.
  • the line 601 corresponds to the first line, and the line 602 corresponds to the second line.
  • the detection unit 142a detects a line corresponding to the contour of the subject in the second frame 592, compares the detected line with the line 601 and matches the detected line with the line 601.
  • a line whose degree is higher than a predetermined degree of coincidence is detected as line 602.
  • the degree of coincidence between the detected line and the line 601 may be, for example, the degree of similarity between the normal vector of the detected line and the normal vector of the line 601.
  • the degree of coincidence is calculated based on the similarity between the normal vectors and the distance between the detected line in the three-dimensional space and the position of the line 601 in the three-dimensional space. You may. In this case, the degree of matching is calculated so that the shorter the distance, the greater the degree of matching. This similarity can be calculated using a well-known method.
  • the three-dimensional point correction unit 142b identifies a first group including a plurality of third three-dimensional points 610 included in the contour corresponding to the line 601 among the plurality of second three-dimensional points. As described above, the three-dimensional point correction unit 142b has a plurality of third-dimensional dimensions specified by the portion corresponding to the line 601 for each of the one or more lines 601 detected in the first frame 591 by the detection unit 142a. Identify a first group that includes point 610.
  • the three-dimensional point correction unit 142b corrects the positions of the plurality of third three-dimensional points 610 belonging to the first group specified by the line 601 based on each line 601. Specifically, the three-dimensional point correction unit 142b identifies the plane 621 by performing principal component analysis on a plurality of third three-dimensional points 601 belonging to each first group for each first group, and a plurality of planes 621 are specified. The positions of the plurality of third-dimensional points 610 are corrected so that the third three-dimensional point 601 of the above is closer to the plane 621. In this way, the three-dimensional point correction unit 142b corrects the positions of the plurality of third three-dimensional points 610 corresponding to the contour among the plurality of second three-dimensional points. As a result, a plurality of first three-dimensional points 611 are generated.
  • the three-dimensional point correction unit 142b identifies a plurality of fourth three-dimensional points 613 included in the contour corresponding to the line 602 among the plurality of second three-dimensional points.
  • the plurality of fourth three-dimensional points 613 include a plurality of corrected third three-dimensional points 611 and two uncorrected second three-dimensional points 612.
  • the three-dimensional point correction unit 142b has a plurality of fourth and third dimensions specified by the portion corresponding to the line 602 for each of the one or more lines 602 detected in the second frame 592 by the detection unit 142a. Identify a second group that includes point 613.
  • the three-dimensional point correction unit 142b corrects the positions of the plurality of fourth three-dimensional points 613 belonging to the second group specified by the line 602 based on each line 602. Specifically, the three-dimensional point correction unit 142b corrects the position of at least the uncorrected second three-dimensional point 612 among the plurality of fourth three-dimensional points 613.
  • the three-dimensional point correction unit 142b identifies the plane 622 by performing principal component analysis on a plurality of fourth three-dimensional points 613 belonging to each second group for each second group, and a plurality of fourth tertiary points. The positions of the plurality of fourth three-dimensional points 613 are corrected so that the original point 613 approaches the specified plane 622.
  • the three-dimensional point correction unit 142b may correct the positions of all the plurality of fourth three-dimensional points 613, or among the plurality of fourth three-dimensional points 613, the uncorrected second three-dimensional point. Only the position of 612 may be corrected.
  • the distance D1 from the first viewpoint V11 to the contour of the subject corresponding to the line 601 detected in the first frame 591 was detected in the second frame 592 from the second viewpoint V12. If the distance to the contour of the subject corresponding to line 602 is shorter than D2, a plurality of 4th and 3D dimensions are used by using a plane on an extension of the specified plane 621 to correct the plurality of 3D points 610. Of the points 613, at least the uncorrected second three-dimensional point 612 may be corrected.
  • a plurality of three-dimensional points 610 that have already been corrected are also used to correct at least the uncorrected second three-dimensional point 612, so that the subject is continuous. It is possible to accurately generate the positions of a plurality of first three-dimensional points corresponding to the contour.
  • FIG. 16 is a block diagram showing a characteristic configuration of the three-dimensional model generation device 100A according to the second embodiment.
  • the configuration of the three-dimensional model generation device 100A according to the second embodiment is different from that of the three-dimensional model generation device 100 according to the first embodiment. Therefore, the generation unit 140A will be described. Since the components other than the generation unit 140A of the three-dimensional model generation device 100A are the same as the components of the three-dimensional model generation device 100 of the first embodiment, the same reference numerals are given and the description thereof will be omitted.
  • the generation unit 140A is different from the generation unit 140 in that after correcting a plurality of frames, the first three-dimensional model is generated by using the corrected plurality of frames.
  • the generation unit 140A has a correction unit 141A and a restoration unit 142A.
  • the correction unit 141A detects a line consisting of continuous edges from each of the plurality of frames and corresponding to the contour of the subject. That is, the correction unit 141A detects the first line consisting of continuous edges in the first frame. Further, the correction unit 141A detects a second line composed of continuous edges in the second frame. This process is the same as the process of detecting a line from the frame of the correction unit 142 according to the first embodiment.
  • the correction unit 141A corrects each of the plurality of frames by using the lines detected in each of the plurality of frames. That is, the correction unit 141A corrects each of the first frame and the second frame by using the first line and the second line.
  • the line detected by the correction unit 141A may be a straight line (line segment) or a curved line.
  • the detected line is not represented by multiple pixels.
  • the detected line is specified at a position with decimal pixel accuracy. If the line segment is a line segment, it is a line segment connecting the start point and the end point, and if it is a curve, it is a smooth line connecting the start point and the end point.
  • a well-known algorithm can be used by the correction unit 141A to detect a line consisting of continuous edges.
  • FIG. 17 is a diagram for explaining an example of a process of correcting each frame by the correction unit 141A according to the second embodiment.
  • FIG. 17A is a diagram showing another example of the region 561 in the first embodiment. In the region 561 in the second embodiment, the pixels are missing due to the large occurrence of aliases.
  • the correction unit 141A detects the line 562 in the region 561 by processing in the same manner as the detection unit 142a of the first embodiment, as shown in FIG. 17 (b).
  • the correction unit 141A calculates the average value of the pixel groups of the plurality of pixels through which the line 562 passes as the corrected pixel value.
  • the correction unit 141A formulates the corrected pixel value I'i, where the i -th pixel value of the pixel group is I i , the corrected pixel value is I'i , and the number of pixels included in the pixel group is n. It can be calculated as shown in 18.
  • FIG. 18 is a diagram for explaining an example of a process for correcting each frame according to the second embodiment.
  • the correction unit 141A does not have to correct using the pixel values of all the pixels in the pixel group, samples one or more pixels, and corrects using the pixel values of the sampled one or more pixels. You may. For example, the frame may be corrected by replacing all the pixel values of the pixel groups of the plurality of pixels through which the line 562 passes by averaging the pixel values of one or more pixels sampled. Further, the correction unit 141A may use the line 562 to increase the resolution of the pixel group as shown in FIG. 18 (b).
  • the restoration unit 142A performs matching to search for similarities between the frames corrected by the correction unit 141A, that is, a plurality of corrected frames, that is, the corrected first frame and the corrected second frame.
  • the restoration unit 142A performs the same processing as the processing by the restoration unit 141 according to the first embodiment.
  • step S104 the operation of the three-dimensional model generator 100A will be described. Since the three-dimensional model generation device 100A has different details of step S104 in the flowchart of FIG. 8 of the first embodiment, the details of step S104 will be described.
  • FIG. 19 is a flowchart showing an example of details of the generation process of step S104 by the generation unit 140A according to the second embodiment.
  • the generation unit 140A performs a loop 11 for each frame of the frame set of the multi-viewpoint images taken at the timings corresponding to each other (S121). In the loop 11, the processes of steps S122 and S123 are performed for each frame.
  • the correction unit 141A detects the line of the subject in the frame by detecting the line consisting of continuous edges from the frame to be processed (S122).
  • the correction unit 141A corrects the frame to be processed by using the line detected in the frame (S123).
  • Loop 11 ends when steps S122 and S123 are completed for all frames.
  • the restoration unit 142A processes a plurality of corrected frames, and performs a loop 12 for each first pixel of the plurality of first pixels of the first frame among the corrected plurality of frames (S124). ). In the loop 12, the processes of steps S125 and S126 are performed for each first pixel.
  • the restoration unit 142A transfers the first pixel to be processed from the plurality of second pixels on the epipolar line corresponding to the first pixel on the plurality of second frames of the frame set to be processed to the first pixel. Search for similar similarities (S125).
  • the restoration unit 142A generates a first three-dimensional point by performing a triangulation survey using the search result obtained in step S125. As a result, the restoration unit 142A generates a first three-dimensional model including a plurality of first three-dimensional points (S126).
  • the loop 12 ends when the processing of steps S125 and S126 is completed for all the first pixels included in the first frame of the frame set to be processed.
  • the three-dimensional model generation device 100A since the first three-dimensional model is generated using the image corrected by using lines, the error due to the alias on the image is reduced. You can generate a model.
  • a plurality of frames obtained by photographing the subject from a plurality of viewpoints are acquired (S101), and one frame among the plurality of frames (first).
  • a line consisting of continuous edges from the frame) is detected (S122), and a plurality of first three-dimensional points are generated based on the plurality of frames and the lines (S126). ).
  • the three-dimensional model generation devices 100 and 100A exclude three-dimensional points whose distance from the viewpoint at which one frame is photographed is closer than a predetermined distance from the plurality of first three-dimensional points.
  • the distance from the viewpoint of a plurality of third-dimensional points corresponding to the contours to which the lines correspond is larger than a predetermined distance based on the detected lines.
  • the correction unit 142 does not have to correct the positions of the plurality of third-dimensional points by using the line. That is, the correction unit 142 does not have to correct the position of the second three-dimensional point located closer to the viewpoint than the predetermined distance among the plurality of generated second three-dimensional points. That is, the three-dimensional model generation device 100 may switch whether or not to perform correction for each line according to the distance from the viewpoint where one frame is captured to the contour of the subject to which the line corresponds.
  • the processing load can be reduced without incurring a decrease in accuracy.
  • the distance from the viewpoint of the subject when a distance from the viewpoint of the subject reflected in each frame can be obtained, the distance is closer to the viewpoint than a predetermined distance. It is not necessary to correct the pixel value of the pixel group in which the contour exists by using the line corresponding to the contour located at.
  • the distance from the viewpoint of the subject may be estimated by using the three-dimensional model 520 obtained by the estimation process by the estimation device 200. That is, the three-dimensional model generation device 100 corrects the portion of the image corresponding to the contour according to the distance from the viewpoint where one frame is captured to the contour corresponding to the line for each line. You may switch whether or not.
  • the three-dimensional model generation devices 100 and 100A may generate a plurality of first three-dimensional points without using edges detected from frames having a predetermined resolution or higher among the plurality of frames.
  • the three-dimensional model generators 100 and 100A do not have to perform a process of detecting a line for a frame having a resolution equal to or higher than a predetermined resolution. This is because the accuracy of the first three-dimensional model generated by using a frame having a resolution equal to or higher than a predetermined resolution is higher than a certain level. That is, the three-dimensional model generation devices 100 and 100A may switch whether or not to detect a line for the frame according to the resolution of the frame.
  • each processing unit included in the three-dimensional model generator or the like is realized by the CPU and the control program.
  • each component of the processing unit may be composed of one or a plurality of electronic circuits.
  • the one or more electronic circuits may be general-purpose circuits or dedicated circuits, respectively.
  • the one or more electronic circuits may include, for example, a semiconductor device, an IC (Integrated Circuit), an LSI (Large Scale Integration), or the like.
  • the IC or LSI may be integrated on one chip or may be integrated on a plurality of chips.
  • IC integrated circuit
  • LSI System LSI
  • VLSI Very Large Scale Integration
  • ULSI Ultra Large Scale Integration
  • FPGA Field Programmable Gate Array
  • the general or specific aspects of the present disclosure may be realized by a system, an apparatus, a method, an integrated circuit, or a computer program.
  • a computer-readable non-temporary recording medium such as an optical disk, HDD (Hard Disk Drive) or semiconductor memory in which the computer program is stored.
  • HDD Hard Disk Drive
  • it may be realized by any combination of a system, an apparatus, a method, an integrated circuit, a computer program and a recording medium.
  • This disclosure can be applied to a three-dimensional model generation device or a three-dimensional model generation system, and can be applied to, for example, figure creation, terrain or building structure recognition, person behavior recognition, free-viewpoint image generation, and the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Software Systems (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)
  • Apparatus For Radiation Diagnosis (AREA)

Abstract

三次元モデル生成方法は、コンピュータによって実行される三次元モデル生成方法であって、被写体を第1視点から撮影することで得られた第1画像と、被写体を第2視点から撮影することで得られた第2画像を取得し、少なくとも第1画像において、連続するエッジからなる第1線であって、被写体の輪郭に対応する第1線を検出し(S115)、第1画像、第2画像、および第1線に基づいて、コンピュータ内の三次元空間において輪郭を表現する複数の第1三次元点を生成する(S116)。

Description

三次元モデル生成方法及び三次元モデル生成装置
 本開示は、三次元モデル生成方法及び三次元モデル生成装置に関する。
 特許文献1には、被写体を複数の視点から撮影することにより得られる複数の画像を用いて、被写体の三次元モデルを生成する技術が開示されている。
特開2017-130146号公報
 三次元モデルの生成処理は、三次元モデルの生成精度を向上させることが望まれている。
 本開示は、三次元モデルの生成精度を向上させることができる三次元モデル生成方法等を提供する。
 本開示の一態様に係る三次元モデル生成方法は、コンピュータによって実行される三次元モデル生成方法であって、被写体を第1視点から撮影することで得られた第1画像と、前記被写体を第2視点から撮影することで得られた第2画像を取得し、少なくとも前記第1画像において、連続するエッジからなる第1線であって、前記被写体の輪郭に対応する第1線を検出し、前記第1画像、前記第2画像、および前記第1線に基づいて、前記コンピュータ内の三次元空間において前記輪郭を表現する複数の第1三次元点を生成する。
 また、本開示の一態様に係る三次元モデル生成装置は、コンピュータを備え、前記コンピュータは、被写体を第1視点から撮影することで得られた第1画像と、前記被写体を第2始点から撮影することで得られた第2画像を取得し、少なくとも前記第1画像において、連続するエッジからなる第1線であって、前記被写体の輪郭に対応する第1線を検出し、前記第1画像、前記第2画像、および前記第1線に基づいて、前記コンピュータ内の三次元空間において前記輪郭を表現する複数の第1三次元点を生成する。
 なお、本開示は、上記三次元モデル生成方法に含まれるステップをコンピュータに実行させるプログラムとして実現されてもよい。また、本開示は、そのプログラムを記録したコンピュータによって読み取り可能なCD-ROM等の非一時的な記録媒体として実現されてもよい。また、本開示は、そのプログラムを示す情報、データ又は信号として実現されてもよい。そして、それらプログラム、情報、データ及び信号は、インターネット等の通信ネットワークを介して配信されてもよい。
 本開示の三次元モデル生成方法などによれば、三次元モデルの生成精度を向上させることができる。
図1は、実施の形態1に係る三次元モデル生成方法の概要を説明するための図である。 図2は、実施の形態1に係る三次元モデル生成装置の特徴的な構成を示すブロック図である。 図3は、実施の形態1に係る探索処理について説明するための図である。 図4は、実施の形態1に係る補正部の機能構成を示すブロック図である。 図5は、実施の形態1に係る輪郭を検出する処理の一例について説明するための図である。 図6は、実施の形態1に係る輪郭を検出する処理の一例について説明するための図である。 図7は、実施の形態1に係る複数の第3三次元点の位置を補正する処理の一例について説明するための図である。 図8は、実施の形態1に係る三次元モデル生成装置の動作の一例を示すフローチャートである。 図9は、実施の形態1に係るステップS104の生成処理の詳細の一例を示すフローチャートである。 図10は、実施の形態1の変形例に係る複数の第3三次元点の位置を補正する処理の一例について説明するための図である。 図11は、実施の形態1の変形例に係る複数の第3三次元点の位置を補正する処理の一例について説明するための図である。 図12は、実施の形態1の変形例に係る複数の第3三次元点の位置を補正する処理の一例について説明するための図である。 図13は、実施の形態1の変形例に係る複数の第3三次元点の位置を補正する処理の一例について説明するための図である。 図14は、実施の形態1の変形例2に係る補正部による処理の一例を説明するための図である。 図15は、実施の形態1の変形例2に係る補正部による処理の一例を説明するための図である。 図16は、実施の形態2に係る三次元モデル生成装置の特徴的な構成を示すブロック図である。 図17は、実施の形態2に係る各フレームを補正する処理の一例について説明するための図である。 図18は、実施の形態2に係る各フレームを補正する処理の一例について説明するための図である。 図19は、実施の形態2に係るステップS104の生成処理の詳細の一例を示すフローチャートである。
 (本開示に至った経緯)
 特許文献1に開示されている技術では、複数の画像間における類似点を探索することで三次元モデルを生成する。一般に、類似点の探索では、一の画像の一の画素の類似点を他の画像から探索する場合、カメラの幾何制約から他の画像上のエピポーラ線が算出され、エピポーラ線上の複数の画素について探索が行われる。そして、類似点の探索でマッチングされた画素と、画像を撮影したときのカメラの位置及び姿勢とを用いて、三角測量を行うことで、マッチングされた画素で撮影された三次元点の位置を特定する。これを複数の画素のそれぞれについて行うことで、複数の三次元点を含む三次元モデルを生成する。
 しかしながら、上記のような従来技術では、二次元画像を用いて三次元モデルを生成するため、二次元画像に発生しているエイリアスの影響で、三次元モデルが含む複数の三次元点の位置の精度が低下する恐れがある。特に、被写体の位置がカメラから遠くなるほど、二次元画像一画素が対応する空間のサイズが大きくなるため、生成される三次元点の位置の誤差が大きくなる。よって、生成される三次元モデルの精度が低下する。
 そこで、本開示では、三次元モデルの生成精度を向上させることができる三次元モデル生成方法等を提供する。
 本開示の一態様に係る三次元モデル生成方法は、コンピュータによって実行される三次元モデル生成方法であって、被写体を第1視点から撮影することで得られた第1画像と、前記被写体を第2視点から撮影することで得られた第2画像を取得し、少なくとも前記第1画像において、連続するエッジからなる第1線であって、前記被写体の輪郭に対応する第1線を検出し、前記第1画像、前記第2画像、および前記第1線に基づいて、前記コンピュータ内の三次元空間において前記輪郭を表現する複数の第1三次元点を生成する。
 これによれば、画像から被写体の輪郭に対応する第1線を検出し、複数の画像に加えて、検出した第1線を用いて複数の第1三次元点を生成する。このように被写体の輪郭に対応する第1線を検出し、第1線を考慮して第1三次元モデルを生成するため、画像上のエイリアスによる誤差を低減することができる。よって、第1三次元モデルの生成精度を向上させることができる。
 また、前記第1線は、前記第1画像における画素単位より小さい単位で表現されてもよい。
 また、さらに、前記第1画像および前記第2画像において互いの類似点を探索するマッチングを行うことで、前記三次元空間において前記被写体を表現する複数の第2三次元点を生成し、前記複数の第1三次元点の生成のために、(i)前記第1線に基づいて、前記複数の第2三次元点のうち、前記輪郭に対応する複数の第3三次元点を特定し、(ii)前記複数の第3三次元点の位置を補正してもよい。
 これによれば、複数の第3三次元点が被写体の輪郭に対応する点群であると特定し、特定した点群を用いて点群の位置を補正する。このため、被写体の輪郭の形状に応じて適切に点群の位置を補正することができる。
 また、さらに、前記第2画像において、連続するエッジからなる第2線であって、前記第1線が対応する輪郭の少なくとも一部を含む輪郭に対応する第2線を検出し、前記複数の第1三次元点の生成のために、さらに、(i)前記第2線に基づいて、前記複数の第2三次元点のうち、前記第2線が対応する輪郭に対応する複数の第4三次元点であって、補正された前記複数の第3三次元点と補正されていない第2三次元点とを含む複数の第4三次元点を特定し、(ii)前記複数の第4三次元点のうち、少なくとも前記補正されていない第2三次元点の位置を補正してもよい。
 このため、被写体の連続する輪郭に対応する複数の第1三次元点の位置を精度よく生成することができる。
 また、前記複数の第1三次元点の生成のために、前記複数の第3三次元点に対して主成分分析を行うことで平面を特定し、前記複数の第3三次元点が前記平面に近づくように前記複数の第3三次元点の位置を補正してもよい。
 このため、輪郭の形状に応じて複数の第3三次元点の位置を精度よく補正することができる。
 また、前記複数の第1三次元点の生成のために、前記複数の第3三次元点の重心を通過し、かつ、前記主成分分析で得られた第1主成分を法線とする第1平面、及び、前記重心を通過し、かつ、前記主成分分析で得られた第2主成分を法線とする第2平面のうちの、前記複数の第3三次元点からの距離の総和が小さい平面を前記平面として生成してもよい。
 このため、検出した第1線の長さが十分に長くない場合であっても、線分である第1線に応じて複数の第3三次元点の位置を精度よく補正することができる。
 また、前記第1三次元点の生成のために、前記複数の第3三次元点に対して最小二乗法を行うことで近似線を生成し、前記複数の第3三次元点が前記近似線に近づくように前記複数の第3三次元点の位置を補正してもよい。
 このため、点群に近似している近似線に応じて複数の第3三次元点の位置を精度よく補正することができる。
 また、前記複数の第1三次元点の生成のために、前記第1視点からの距離が所定の距離より近い位置にある三次元点を前記複数の第1三次元点から除いてもよい。
 このように、精度が一定以上となりやすい部分において輪郭を用いずに第1三次元モデルを生成するため、精度の低下を招くことなく処理負荷を低減することができる。
 また、前記複数の第1三次元点の生成のために、前記第1画像および前記第2画像のうちで所定の解像度以上の画像から検出されたエッジを用いなくてもよい。
 このように、精度が一定以上となりやすい画像において輪郭を用いずに第1三次元モデルを生成するため、精度の低下を招くことなく処理負荷を低減することができる。
 また、前記検出では、前記第2画像において、連続するエッジからなる第2線であって、前記被写体の輪郭に対応する第2線を検出し、前記複数の第1三次元点の生成では、(i)前記第1画像および前記第2画像のそれぞれを、前記第1線および前記第2線を用いて補正し、(ii)補正後の前記第1画像および補正後の前記第2画像において互いの類似点を探索するマッチングを行ってもよい。
 これによれば、輪郭を用いて補正した画像を用いて第1三次元モデルを生成するため、画像上のエイリアスによる誤差が低減された第1三次元モデルを生成することができる。
 本開示の一態様に係る三次元モデル生成装置は、コンピュータを備え、前記コンピュータは、被写体を第1視点から撮影することで得られた第1画像と、前記被写体を第2始点から撮影することで得られた第2画像を取得し、少なくとも前記第1画像において、連続するエッジからなる第1線であって、前記被写体の輪郭に対応する第1線を検出し、前記第1画像、前記第2画像、および前記第1線に基づいて、前記コンピュータ内の三次元空間において前記輪郭を表現する複数の第1三次元点を生成する。
 これによれば、画像から被写体の輪郭を検出し、複数の画像に加えて、検出した輪郭を用いて第1三次元モデルを生成する。このように被写体の輪郭を検出し、輪郭を考慮して第1三次元モデルを生成するため、画像上のエイリアスによる誤差を低減することができる。よって、第1三次元モデルの生成精度を向上させることができる。
 以下では、本開示に係る三次元モデル生成方法等の各実施の形態について、図面を用いて詳細に説明する。なお、以下に説明する各実施の形態は、いずれも本開示の一具体例を示すものである。したがって、以下の各実施の形態で示される数値、形状、構成要素、構成要素の配置及び接続形態、ステップ、ステップの順序等は、一例であり、本開示を限定する主旨ではない。
 また、各図は、模式図であり、必ずしも厳密に図示されたものではない。また、各図において、実質的に同一の構成に対しては同一の符号を付しており、重複する説明は省略又は簡略化する場合がある。
 (実施の形態1)
 [概要]
 まず、図1を参照しながら、実施の形態1に係る三次元モデル生成方法の概要について説明する。
 図1は、実施の形態1に係る三次元モデル生成方法の概要を説明するための図である。図2は、実施の形態1に係る三次元モデル生成装置100の特徴的な構成を示すブロック図である。
 三次元モデル生成方法では、図1に示すように、複数の撮像装置301を用いて異なる複数の視点において撮影された複数の画像から所定の領域の三次元モデルを生成する。ここで、所定の領域は、静止している静止物体或いは人物等の動いている動物体、又は、その両方を含む領域である。言い換えると、所定の領域は、例えば、静止している静止物体、及び、動いている動物体のうち少なくとも一方を被写体として含む領域である。
 静止物体と動物体とを含む所定の領域の例として、バスケットボール等のスポーツの試合が行われている会場、又は、人物或いは車が存在する道路上の空間等がある。なお、所定の領域は、被写体となる特定の対象物だけではなく、風景等を含んでもよい。図1には、被写体500が建屋である場合を例示している。また、以下では、被写体となる特定の対象物だけではなく、風景等を含む所定の領域を、単に被写体ともいう。
 三次元モデル生成システム400は、図2に示すように、複数の撮像装置301を含む撮像装置群300と、推定装置200と、三次元モデル生成装置100とを備える。
 (複数の撮像装置)
 複数の撮像装置301は、所定の領域を撮影する複数の撮像装置である。複数の撮像装置301は、それぞれ被写体を撮影し、撮影した複数のフレームをそれぞれ推定装置200に出力する。本実施の形態では、撮像装置群300には、2台以上の撮像装置301が含まれる。また、複数の撮像装置301は、互いに異なる視点から同一の被写体を撮影する。フレームは、言い換えると、画像である。
 なお、三次元モデル生成システム400は、撮像装置群300を備えるとしたが、これに限らずに、1台の撮像装置301を備えてもよい。例えば、三次元モデル生成システム400では、実空間上に存在する被写体を、1台の撮像装置301を移動させながら1台の撮像装置301に互いに視点の異なる複数のフレームからなる多視点画像を生成させるように撮影させてもよい。複数のフレームのそれぞれは、位置及び姿勢の少なくとも一方が互いに異なる撮像装置301により撮影(生成)されたフレームである。つまり、複数のフレームは、互いに異なる視点から撮影されたフレームである。
 また、各撮像装置301は、二次元画像を生成するカメラであってもよいし、三次元モデルを生成する三次元計測センサを備えるカメラであってもよい。本実施の形態では、複数の撮像装置301のそれぞれは、撮影することで二次元画像を生成するカメラである。
 複数の撮像装置301は、それぞれが撮影したフレームを推定装置200に出力できるように、有線通信又は無線通信によって、推定装置200に直接接続されてもよいし、又は、通信機器若しくはサーバ等の図示しないハブを介して推定装置200に間接的に接続されてもよい。
 なお、複数の撮像装置301でそれぞれ撮影されたフレームは、リアルタイムに推定装置200に出力されてもよい。また。フレームは、一度メモリ又はクラウドサーバ等の外部記憶装置に記録された後、それらの外部記憶装置から推定装置200に出力されてもよい。
 また、複数の撮像装置301は、それぞれ監視カメラ等の固定カメラであってもよいし、ビデオカメラ、スマートフォン、又は、ウェアラブルカメラ等のモバイルカメラであってもよいし、撮影機能付きドローン等の移動カメラであってもよい。
 (推定装置)
 推定装置200は、1台以上の撮像装置301に複数の視点から被写体を撮影させることでカメラ校正を行う。推定装置200は、例えば、複数の撮像装置301でそれぞれ撮影された複数のフレームに基づいて複数の撮像装置301の位置及び姿勢を推定するカメラ校正を行う。ここで、撮像装置301の姿勢とは、撮像装置301の撮影方向、及び、撮像装置301の傾きの少なくとも一方を示す。撮像装置301の撮影方向とは、撮像装置301の光軸の方向である。撮像装置301の傾きとは、基準姿勢からの撮像装置301の光軸周りの回転角度である。
 推定装置200は、具体的には、複数の撮像装置301から取得した複数のフレームに基づいて、複数の撮像装置301のカメラパラメータを推定する。ここで、カメラパラメータとは、撮像装置301の特性を示すパラメータであり、撮像装置301の焦点距離及び画像中心等を含む内部パラメータと、撮像装置301の位置(より具体的には、三次元位置)及び姿勢を示す外部パラメータとを含む。つまり、複数の撮像装置301それぞれの位置及び姿勢は、複数の撮像装置301それぞれのカメラパラメータを推定することで得られる。
 なお、推定装置200が撮像装置301の位置及び姿勢を推定する推定方法は、特に限定されない。推定装置200は、例えば、Visual-SLAM(Simultaneous Localization and Mapping)技術を用いて複数の撮像装置301の位置及び姿勢を推定してもよい。或いは、推定装置200は、例えば、Structure-From-Motion技術を用いて複数の撮像装置301の位置及び姿勢を推定してもよい。
 ここで、図3を用いて、推定装置200による複数の撮像装置301の位置及び姿勢の推定方法について説明する。図3は、後述する復元部による探索処理について説明するための図であるが、推定方法においても一部同様の処理を行うため、図3を利用して説明する。
 推定装置200は、Visual-SLAM技術またはStructure-From-Motion技術を用いて、複数の撮像装置301で撮影された複数のフレーム531~533のそれぞれから特徴的な点を特徴点として抽出し、抽出された複数の特徴点のうち、複数のフレーム間で類似する類似点の組を抽出する、特徴点の探索を行う。推定装置200は、特徴点の探索を行うことで、複数のフレーム531~533に共通して映る被写体510上の点を特定することができるため、抽出した類似点の組を用いて被写体510上の点の三次元座標(つまり三次元位置)を三角測量の原理で求めることができる。
 このようにして、推定装置200は、類似点の組を複数抽出し、複数の類似点の組を用いることで、各撮像装置301の位置及び姿勢を推定することができる。推定装置200は、各撮像装置301の位置及び姿勢を推定する過程で、類似点の各組について三次元座標を算出し、算出した複数の三次元座標で示される複数の三次元点を含む三次元モデル520を生成してもよい。複数の三次元点のそれぞれは、三次元空間における被写体上の位置を示す。推定装置200は、各撮像装置301の位置及び姿勢と、マップ情報とを推定結果として得る。得られた三次元モデル520は、カメラパラメータとともに最適化処理されているため、所定の精度よりも精度が高い情報である。また、三次元モデル520は、複数の三次元点それぞれの三次元位置を含む。なお、三次元モデル520は、複数の三次元位置だけでなく、各三次元点の色、各三次元点の周辺の表面形状、各三次元点がどのフレームによって生成されたかを示す情報などを含んでいてもよい。
 また、推定装置200は、推定処理を高速化するために、類似点の組の数を所定の数に制限することで、疎な三次元点群を含む三次元モデル520を生成してもよい。推定装置200は、所定の数に制限された類似点の組であっても、十分な精度で各撮像装置301の位置及び姿勢を推定することができるからである。なお、所定の数は、各撮像装置301の位置及び姿勢を十分な精度で推定することができる数に決定されていてもよい。また、推定装置200は、類似点の組のうち所定の類似度以上で類似している組を用いて、各撮像装置301の位置及び姿勢を推定してもよい。この結果、推定装置200は、推定処理に用いる類似点の組の数を、所定の類似度以上で類似している組の数に制限することができる。
 また、推定装置200は、例えば、上記技術を用いて推定した撮像装置301の位置及び姿勢に基づいて、撮像装置301と被写体510との間の距離をカメラパラメータとして算出してもよい。なお、三次元モデル生成システム400は、測距センサを備え、当該測距センサを用いて撮像装置301と被写体510との間の距離が測定されてもよい。
 推定装置200は、有線通信又は無線通信によって、三次元モデル生成装置100に直接接続されてもよいし、又は、通信機器或いはサーバ等の図示しないハブを介して推定装置200に間接的に接続されてもよい。これにより、推定装置200は、複数の撮像装置301から受信した複数のフレーム、及び、推定した複数の撮像装置301の複数のカメラパラメータを三次元モデル生成装置100に出力する。
 なお、推定装置200により推定された複数のカメラパラメータは、リアルタイムに三次元モデル生成装置100に出力されてもよい。また、複数のカメラパラメータは、一度メモリ又はクラウドサーバ等の外部記憶装置に記録された後、それらの外部記憶装置から三次元モデル生成装置100に出力されてもよい。
 推定装置200は、例えば、制御プログラムと、当該制御プログラムを実行するプロセッサ又は論理回路等の処理回路と、当該制御プログラムを記憶する内部メモリ又はアクセス可能な外部メモリ等の記録装置と、を備えるコンピュータシステムを少なくとも備える。
 (三次元モデル生成装置)
 三次元モデル生成装置100は、複数の撮像装置301で撮影された複数のフレームと推定装置200で推定されたカメラパラメータとに基づいて、所定の領域の三次元モデルを生成する。具体的には、三次元モデル生成装置100は、複数の撮像装置301それぞれに対応する複数のカメラパラメータと、複数のフレームとに基づいて、被写体の三次元モデルを仮想的な三次元空間上に生成する三次元モデル生成処理を実行する装置である。
 なお、被写体の三次元モデルは、被写体の実物が撮影されたフレームから、仮想的な三次元空間上に復元された、被写体の三次元形状及び被写体の色を含むデータである。被写体の三次元モデルは、多視点の、つまり、異なる複数の視点において複数の撮像装置301で撮影された複数の二次元画像それぞれに写る被写体上の複数の点それぞれの三次元位置を示す点の集合である。
 三次元位置は、例えば、互いに直交するX軸、Y軸、及び、Z軸のそれぞれの位置を示すX成分、Y成分、及び、Z成分からなる三値情報で表される。つまり、三次元位置は、三次元直交座標系における三次元座標で表される。なお、三次元位置は、三次元直交座標系における三次元座標で表されることに限らずに、三次元極座標系おける三次元座標で表されてもよい。また、三次元位置を示す複数の点が含む情報には、三次元位置を示す位置情報の他に、三次元位置(つまり、座標を示す情報)だけでなく、各点の色を示す情報、各点及びその周辺の表面形状を表す属性情報等が含まれてもよい。
 三次元モデル生成装置100は、例えば、制御プログラムと、当該制御プログラムを実行するプロセッサ又は論理回路等の処理回路と、当該制御プログラムを記憶する内部メモリ又はアクセス可能な外部メモリ等の記録装置と、を備えるコンピュータシステムを少なくとも備える。三次元モデル生成装置100は、情報処理装置である。三次元モデル生成装置100の各処理部による機能は、ソフトウェアによって実現されてもよいし、ハードウェアによって実現されてもよい。
 また、三次元モデル生成装置100は、複数の撮像装置301のカメラパラメータを予め記憶していてもよい。この場合、三次元モデル生成システム400は、推定装置200を備えなくてもよい。また、複数の撮像装置301は、三次元モデル生成装置100と無線又は有線によって通信可能に接続されていてもよい。
 また、撮像装置301が撮影した複数のフレームは、三次元モデル生成装置100に直接出力されてもよい。この場合、撮像装置301は、例えば、有線通信又は無線通信によって、三次元モデル生成装置100に直接接続されてもよいし、又は、通信機器若しくはサーバ等の図示しないハブを介して三次元モデル生成装置100に間接的に接続されてもよい。
 続いて、図2を参照しながら、三次元モデル生成装置100の構成の詳細について説明する。
 三次元モデル生成装置100は、複数のフレームから三次元モデルを生成する装置である。三次元モデル生成装置100は、受信部110と、記憶部120と、取得部130と、生成部140と、出力部150と、を備える。
 受信部110は、推定装置200から、複数の撮像装置301が撮影した複数のフレームと、推定装置200で推定された複数のカメラパラメータと、を受信する。これにより、受信部110は、被写体を第1視点から撮影することで得られた第1フレーム(第1画像)と、当該被写体を第2視点から撮影することで得られた第2フレーム(第2画像)とを取得する。つまり、受信部110により受信された複数のフレームは、第1フレームおよび第2フレームを含む。この複数のフレームは、例えば、被写体が静止物体である場合には、被写体を異なる複数の視点から撮影することで得られた複数のフレームである。複数のフレームは、例えば、被写体が動物体である場合には、被写体を所定のタイミングで(つまり同時に)複数の視点から撮影することで得られた複数のフレームである。三次元モデル生成装置100は、複数のフレームを1セットとするフレームセットを処理単位として第1三次元モデルを生成する処理を行う。フレームセットは、多視点画像と呼ぶ場合がある。受信部110は、推定装置200から三次元モデル520を取得してもよい。受信部110は、受信した複数のフレームと、カメラパラメータとを記憶部120に出力する。
 受信部110は、例えば、推定装置200と通信するための通信インターフェースである。三次元モデル生成装置100と推定装置200とが無線通信する場合、受信部110は、例えば、アンテナと無線通信回路とを備える。或いは、三次元モデル生成装置100と推定装置200とが有線通信する場合、受信部110は、例えば、通信線に接続されるコネクタと有線通信回路とを備える。なお、受信部110は、推定装置200を介さずに、複数のフレームを複数の撮像装置301から受信してもよい。
 記憶部120は、受信部110により受信された、複数のフレーム及び複数のカメラパラメータを記憶する。記憶部120は、受信部110により受信された三次元モデル520を記憶してもよい。なお、記憶部120は、三次元モデル生成装置100が備える各処理部の処理結果を記憶してもよい。記憶部120は、例えば、三次元モデル生成装置100が備える各処理部が実行する制御プログラムを記憶する。記憶部120は、例えば、HDD(Hard Disk Drive)、フラッシュメモリ等により実現される。
 取得部130は、記憶部120に記憶されている、複数のフレームと、各撮像装置301のカメラパラメータとを記憶部120から取得し、生成部140に出力する。
 なお、三次元モデル生成装置100は、記憶部120及び取得部130を備えていなくてもよい。この場合、受信部110は、複数の撮像装置301から受信した複数のフレームと、推定装置200から受信した各撮像装置301のカメラパラメータとを生成部140に出力してもよい。
 生成部140は、複数のフレームと、複数のカメラパラメータとを用いて第1三次元モデルを生成する。第1三次元モデルは、複数の第1三次元点を含む。生成部140は、復元部141と、補正部142とを有する。復元部141は、複数のフレーム、例えば、第1フレーム及び第2フレームにおいて互いの類似点を探索するマッチングを行うことで、三次元空間において被写体を表現する複数の第2三次元点を生成する。補正部142は、複数の第2三次元点の位置を補正する。これにより、第1三次元モデルは生成される。第1三次元モデルに含まれる複数の第1三次元点は、複数の第2三次元点の少なくとも一部が補正部142により補正されることにより生成される。以下、復元部141及び補正部142について具体的に説明する。
 復元部141は、複数のフレームのうちの第1フレームの第1の点に類似する類似点を、第2フレームにおける第1の点に基づく探索領域における複数の第2の点から探索する。第1フレームは、複数のフレームのうちの第1の点の参照元となるフレーム(画像)である。第2フレームは、複数のフレームから第1フレームを除いた残りの複数のフレームのうちの一のフレームであり、第1の点に類似する類似点の探索の参照先となるフレーム(画像)である。第1の点は、具体的には、複数の第1画素のうちの一の第1画素である。複数の第1画素は、第1フレームに含まれる画素であり、例えば、第1フレームに含まれる全画素である。探索領域は、複数の第2フレームにおいて、第1フレームの第1の点に対応するエピポーラ線で規定される領域であり、例えば、エピポーラ線上の複数の第2の点により構成される領域である。複数の第2の点は、具体的には、探索領域に含まれる複数の第2画素である。
 なお、復元部141は、複数の第1画素のそれぞれについて、当該第1画素に類似する類似点(類似画素)を第2フレームに含まれる複数の第2画素から探索してもよい。複数の第2画素は、例えば、第2フレームに含まれる全画素である。また、復元部141は、複数の第2フレームのそれぞれを探索対象として、第1画素の類似点の探索を行ってもよいし、複数の第2フレームの少なくとも1つの第2フレームを探索対象として、第1画素の類似点の探索を行ってもよい。
 図3は、復元部141による探索処理について説明するための図である。図3では、第1視点V1の撮像装置301により被写体510を含む第1フレーム531が撮影され、第2視点V2の撮像装置301により被写体510を含む第2フレーム532が撮影され、第3視点V3の撮像装置301により被写体510を含む第2フレーム533が撮影された例を示している。
 復元部141は、第1画素毎に、第1フレームを撮影した撮像装置301の位置と、当該第1画素の第1フレーム上の二次元座標とを結ぶ直線が、処理対象の第2フレームに投影されたエピポーラ線を算出する。例えば、復元部141は、図3に示すように、第1視点V1と、第1画素541とを結ぶ直線L1が、第2フレーム532に投影されたエピポーラ線552を算出する。また、復元部141は、直線L1が第2フレーム533に投影されたエピポーラ線553を算出する。そして、復元部141は、第1フレーム531における処理対象の第1画素541に類似する類似点をエピポーラ線552、553上からそれぞれ探索する。
 復元部141は、第1画素と、探索領域における複数の第2画素のそれぞれとの間の類似度を算出する。具体的には、復元部141は、第1フレームと、処理対象の第2フレームとの間で小領域間のNormalized Cross Correlation(NCC)を示すN(I,J)を類似度として式1を用いて算出する。N(I,J)は、-1から1の間の数値で表され、1に近づくほど類似度が高いことを示す。
Figure JPOXMLDOC01-appb-M000001
 また、復元部141は、NCCの代わりにSSD(I,J)を類似度として算出してもよい。SSD(Sum of Squared Difference)は、第1フレームと、処理対象の第2フレームとの間の小領域間の画素値の差分の二乗和である。SSD(I,J)は、値が小さいほど類似度が高いことを示す。
Figure JPOXMLDOC01-appb-M000002
 復元部141は、第1画素541との間の類似度が最も高い第2画素542、543を第1画素の類似点として特定する。復元部141は、第1画素541と、第1画素541の類似点として選択された第2画素542、543とを用いて被写体510上の点の三次元座標で示される三次元点を三角測量の原理で算出する。
 なお、1つの第1画素について複数の三次元点が算出された場合、復元部141は、複数の三次元点の平均を算出することで1つの第1画素に対応する1つの三次元点を生成してもよい。
 なお、複数のフレームのそれぞれに、各フレームを生成した撮像装置301のカメラ特定情報が付加されていない場合、復元部141は、各フレームのヘッダに各フレームを生成した撮像装置301のカメラ特定情報を付加してもよいし、複数のフレームを含むフレームセットのヘッダに複数の撮像装置301の複数のカメラ特定情報を付加してもよい。カメラ特定情報は、当該カメラ特定情報が対応する撮像装置301を識別する識別情報を含んでいてもよいし、当該カメラ特定情報が対応する撮像装置301のカメラパラメータを含んでいてもよい。
 図4は、補正部142の機能構成を示すブロック図である。
 図4に示すように、補正部142は、検出部142a及び三次元点補正部142bを有する。
 検出部142aは、少なくとも第1フレームにおいて、連続するエッジからなる線であって、被写体510の輪郭に対応する線を検出する。第1フレームにおいて検出される線は、第1線の一例である。具体的には、検出部142aは、第1フレームの各画素が有する画素値に対して一次微分を用いる勾配法を用いてエッジを検出してもよい。また、検出部142aは、第1フレームの各画素が有する画素値に対して二次微分を用いるラプラシアン法を用いてエッジを検出してもよい。なお、検出部142aが検出するエッジは、第1フレームにおける点(エッジ点)である。
 また、検出部142aは、第1フレーム上で検出された複数のエッジを用いて、連続するエッジを検出する。検出部142aは、連続するエッジを検出するために、周知のアルゴリズムが利用可能である。検出部142aは、例えば、LSD(Line Segment Detector)を用いて、直線状の連続するエッジを検出してもよい。検出部142aは、LSDを用いることで、連続するエッジの始点と終点と検出し、始点と終点とを結ぶ直線を連続するエッジとして検出する。なお、直線状の連続するエッジを検出するアルゴリズムは、LSDに限るものではない。
 検出部142aが検出する線が対応する輪郭は、例えば、線分、曲線、平面、曲面などである。輪郭は、特定の形状の一部を構成する線又は面であってもよい。特定の形状は、角柱、角錐、円柱、円錐、球体等であってもよいし、ある回転軸の周りを線分又は曲線を回転させることで形成される立体物、つまり、回転体であってもよい。
 輪郭は、例えば、線の形状の種類毎に区別されてもよい。線の形状とは、2点を結ぶ直線(線分)であってもよいし、2点を結ぶ曲線であってもよい。2点を結ぶ曲線は、屈曲する部分を有しない滑らかな曲線であってもよい。このように、検出部142aにより検出される線は、2点で区切られる、長さが有限の線であってもよい。また、輪郭は、面の場合、検出された線を含む面であってもよい。輪郭は、検出された線の形状が線分の場合、平面であってもよいし、検出された線の形状が曲線の場合、曲面であってもよい。
 図5及び図6は、検出部142aによる線を検出する処理の一例について説明するための図である。以下では、検出部142aが線分を検出する場合を例にして説明する。
 図5では、第1フレーム531において、被写体510の直線状の形状を含む領域561が破線で示されている。第1フレーム531は、画素単位で被写体510を表現するため、被写体510の輪郭も画素単位で表現される。よって、一般的に、第1フレーム531を斜め方向に延びる直線状の形状が撮影された領域561では、図6の(a)に示すように、エッジが階段状に見えるエイリアスが大きく発生する。しかしながら、検出された連続するエッジは、画素単位で表現されるものではないため、被写体510の輪郭は、連続するエッジにより高い再現性で表現される。換言すれば、検出された連続するエッジの位置は、各画素の位置と画素値との関係から得られる輝度勾配への一次微分又は二次微分によって特定されるため、画素の位置に限定されず画素単位よりも小さい領域単位における精度(小数画素精度)で特定される。つまり、検出部142aは、連続するエッジからなる線を、小数画素精度の位置において検出する。連続するエッジからなる線は、第1フレーム531における画素単位より小さい単位で表現される。このため、連続するエッジは、高い再現性である、画素単位よりも小さい領域単位で輪郭562を表現する。また、検出部142aは、輝度勾配への一次微分又は二次微分を用いて連続するエッジを検出するため、複数の画素における折り返し歪み(エイリアス)が相殺された結果を得ることができる。
 そこで、第1フレーム531の画素のみから、三次元点を生成するのではなく、高い再現性で被写体510の輪郭を表現することができる連続するエッジを用いて三次元点を生成することで、より精度の高い三次元点を生成することができる。
 三次元点補正部142bは、複数の第2三次元点のうち、線562に対応する輪郭に含まれる複数の第3三次元点を含むグループを特定する。グループは、第1フレームのうち線562が通過する複数の画素から生成された複数の三次元点を複数の第3三次元点として含んでもよい。また、グループは、第1フレームのうち線562が通過する複数の画素と、当該複数の画素の周囲の画素とから生成された複数の三次元点を複数の第3三次元点として含んでもよい。複数の画素の周囲の画素は、当該複数の画素から所定個分離れた画素よりも近い位置に位置する複数の画素の全てを含んでもよい。このように、三次元点補正部142bは、検出部142aにより検出された1以上の線のそれぞれについて、当該線に対応する部分で特定される複数の第3三次元点を含むグループを特定する。
 そして、三次元点補正部142bは、各線に基づいて、当該線で特定されたグループに属する複数の第3三次元点の位置を補正する。具体的には、三次元点補正部142bは、グループ毎に、各グループに属する複数の第3三次元点に対して主成分分析を行うことで平面を特定し、複数の第3三次元点が平面に近づくように複数の第3三次元点の位置を補正する。このように、三次元点補正部142bは、複数の第2三次元点のうち、輪郭に対応する複数の第3三次元点の位置を補正する。これにより、複数の第1三次元点が生成される。
 図7は、実施の形態1に係る三次元点補正部142bによる複数の第3三次元点の位置を補正する処理の一例について説明するための図である。図7の(a)は、1つのグループに属する複数の第3三次元点570を示す。
 三次元点補正部142bは、複数の第3三次元点570に対して主成分分析を行うことで、図7の(b)に示すような第1主成分571及び第2主成分572を算出する。具体的には、三次元点補正部142bは、複数の第3三次元点570の三次元座標の分散共分散行列を算出し、得られた主成分(固有ベクトル)の大きさが大きいものから順に選んだ2個の主成分を第1主成分571及び第2主成分572として算出する。
 次に、三次元点補正部142bは、第1主成分571に基づく第1平面と、第2主成分572に基づく第2平面とを補正に用いる平面の候補(候補面)として生成する。第1平面は、複数の第3三次元点570の重心を通過し、かつ、第1主成分571を法線とする平面である。第2平面は、複数の第3三次元点570の重心を通過し、かつ、第2主成分572を法線とする平面である。三次元点補正部142bは、第1平面及び第2平面のうちで、複数の第3三次元点570からの距離の総和が小さい平面を補正に用いる平面として決定する。ここで、候補面を示す平面の式は、式3で示される。
 ax+by+cz+d=0   (式3)
 この場合、この平面と点(x0、y0、z0)との距離Dは、式4で表される。
Figure JPOXMLDOC01-appb-M000003
 グループに属する第3三次元点の数がn個であり、i番目の三次元点の三次元座標を(xi、yi、zi)とすると、n個の第3三次元点と候補面との距離の総和Dallは、式5で表される。
Figure JPOXMLDOC01-appb-M000004
 三次元点補正部142bは、Dallを第1平面及び第2平面のそれぞれについて算出し、Dallが最小となる平面を補正面573として決定する。この結果、三次元点補正部142bは、図7の(c)に示す例では、第1主成分571に基づく第1平面を補正面573として決定する。
 補正面を決定した後、三次元点補正部142bは、図7の(d)に示すように、複数の第3三次元点570のそれぞれについて、当該第3三次元点に対応する第1フレーム上の画素の当該第3三次元点への投影線と、補正面573との交点を補正点574として算出する。
 ここで、各第3三次元点に対応する画素に対応する三次元単位ベクトルを(Vx、Vy、Vz)とすると、画素に対応する第3三次元点(Xn、Yn、Zn)=t(Vx、Vy、Vz)と表すことができる。
 式3のように平面を表すと、tは次の式6で表される。
Figure JPOXMLDOC01-appb-M000005
 そして、補正点(X’n、Y’n、Z’n)は、次の式7で表される。
Figure JPOXMLDOC01-appb-M000006
 なお、画素に対応する三次元単位ベクトル(Vx、Vy、Vz)は、ピンホールカメラを仮定すると、次の式8で表される。
Figure JPOXMLDOC01-appb-M000007
 式8において(x、y)は、第1フレームにおける画素の二次元座標である。(cx、cy)は、第1フレームを撮影した撮像装置301の内部パラメータにおける第1フレームの中心位置である。(fx、fy)は、第1フレームを撮影した撮像装置301の内部パラメータにおける焦点距離である。
 このように、三次元点補正部142bは、複数の第3三次元点570の位置を補正することにより、複数の補正点574を含む第1三次元モデルを生成する。これにより、複数の補正点574は、第1フレームで検出された線に沿って並ぶことになる。よって、生成された第1三次元モデルでは、第1フレームの視点から見た場合、第1フレームで検出された線に対応する部分は、当該線に沿った形状を有する。また、複数の第1三次元点は、複数の第3三次元点570が補正された結果として生成されるため、複数の補正点574を含む。つまり、複数の第1三次元点は、複数の第2三次元点のうち、補正されていない複数の第2三次元点と、複数の補正点574とを含む。
 [三次元モデル生成装置の動作]
 次に、三次元モデル生成装置100の動作について、図8を用いて説明する。図8は、三次元モデル生成装置100の動作の一例を示すフローチャートである。
 まず、三次元モデル生成装置100では、受信部110が、推定装置200から、複数の撮像装置301が撮影した複数のフレームと、各撮像装置301のカメラパラメータとを受信する(S101)。ステップS101は、複数の画像を取得するステップの一例である。なお、受信部110は、複数のフレームと、複数のカメラパラメータとを1タイミングで受信しなくてもよく、それぞれを異なるタイミングで受信してもよい。つまり、複数のフレームの取得と、複数のカメラパラメータの取得とは、互いに同じタイミングで行われてもよいし、互いに異なるタイミングで行われてもよい。
 次に、記憶部120は、受信部110により受信された、複数の撮像装置301が撮影した複数のフレームと、各撮像装置301のカメラパラメータとを記憶する(S102)。
 次に、取得部130は、記憶部120に記憶されている複数のフレームと複数のカメラパラメータとを取得し、取得した複数のフレームと複数のカメラパラメータとを生成部140に出力する(S103)。
 次に、生成部140は、複数のフレームと複数のカメラパラメータとを用いて第1三次元モデルを生成する(S104)。なお、第1三次元モデルを生成するステップS104の詳細は、図9を用いて後述する。
 そして、出力部150は、生成部140において生成された第1三次元モデルを出力する(S105)。
 図9は、生成部140によるステップS104の生成処理の詳細の一例を示すフローチャートである。
 生成部140は、互いに対応するタイミングで撮影された多視点画像のフレームセット毎のループ1を行う(S111)。ループ1では、フレームセット毎にループ2を行う。
 生成部140は、処理対象のフレームセットのうちの第1フレームの複数の第1画素毎のループ2を行う(S112)。ループ2では、複数の第1画素毎にステップS113~ステップS116の処理を行う。
 復元部141は、処理対象の第1画素について、処理対象のフレームセットのうちの複数の第2フレーム上で当該第1画素に対応するエピポーラ線上の複数の第2画素から、当該第1画素に類似する類似点を探索する(S113)。
 復元部141は、ステップS113により得られた探索結果を用いて三角測量を行うことにより第2三次元点を生成する。これにより、復元部141は、複数の第2三次元点を含む第2三次元モデルを生成する(S114)。ステップS113及びステップS114の詳細は、復元部141の説明において記載したため省略する。
 補正部142は、第1フレームから連続するエッジからなる線であって、被写体の輪郭に対応する線を検出する(S115)。
 補正部142は、複数の第2三次元点のうちで、検出した線に対応する複数の第3三次元点の位置を、線の形状に応じて補正する(S116)。これにより、補正部142は、複数の第1三次元点を含む第1三次元モデルを生成する。ステップS115及びステップS116の詳細は、補正部142の説明において記載したため省略する。
 ループ2は、処理対象のフレームセットの第1フレームに含まれる全ての第1画素についてステップS113~S116の処理が終了すると終了する。
 ループ1は、全てのフレームセットについてループ2が終了すると終了する。
 なお、図9の例では、ループ2は、第2三次元モデルを生成する処理と、複数の第3三次元点の位置を補正する処理との両方の処理を含むこととしたが、これに限らずに、これらの2つの処理は、同じループに含まれていなくてもよい。つまり、第2三次元モデルを生成する処理のループと、複数の第3三次元点の位置を補正する処理のループとは、独立していてもよい。
 [効果など]
 本実施の形態に係る三次元モデル生成方法は、被写体を第1視点から撮影することで得られた第1フレームと、被写体を第2視点から撮影することで得られた第2フレームとを取得し(S101)、少なくとも第1フレームにおいて、連続するエッジからなる線であって、被写体の輪郭に対応する線を検出し(S115)、第1フレーム、第2フレーム、および線とに基づいて、コンピュータ内の三次元空間において輪郭を表現する複数の第1三次元点を生成する(S116)。
 この三次元モデル生成方法によれば、フレームから被写体の輪郭に対応する線を検出し、複数のフレームに加えて、検出した線を用いて複数の第1三次元点を生成する。このように被写体の輪郭に対応する線を検出し、線を考慮して複数の第1三次元点を生成するため、画像上のエイリアスによる誤差を低減することができる。よって、第1三次元モデルの生成精度を向上させることができる。
 また、本実施の形態に係る三次元モデル生成方法において、第1視点に対応する視点から見たときの、コンピュータ内の三次元空間において複数の第1三次元点が表現する輪郭は、線に沿った形状を有する。つまり、三次元モデル生成方法では、第1視点から見たときの被写体の輪郭の形状に沿うように複数の第1三次元点を生成するため、第1三次元モデルの生成精度を向上させることができる。
 また、本実施の形態に係る三次元モデル生成方法において、さらに、第1フレーム及び第2フレームにおいて互いの類似点を探索するマッチングを行うことで、コンピュータ内の三次元空間において被写体を表現する複数の第2三次元点を生成し(S113、S114)、複数の第1三次元点の生成(S116)のために、線に基づいて、複数の第2三次元点のうち、輪郭に対応する複数の第3三次元点を特定し、複数の第3三次元点の位置を補正する。
 これによれば、複数の第3三次元点が輪郭に対応する点群であると特定し、特定した点群を用いて点群の位置を補正する。このため、輪郭の形状に応じて適切に点群の位置を補正することができる。
 また、本実施の形態に係る三次元モデル生成方法において、複数の第1三次元点の生成(S116)のために、複数の第3三次元点に対して主成分分析を行うことで平面を生成し、複数の第3三次元点が当該平面に近づくように複数の第3三次元点の位置を補正する。このため、輪郭の形状に応じて複数の第3三次元点の位置を精度よく補正することができる。
 また、本実施の形態に係る三次元モデル生成方法において、複数の第1三次元点の生成(S116)のために、複数の第3三次元点の重心を通過し、かつ、主成分分析で得られた第1主成分を法線とする第1平面、及び、当該重心を通過し、かつ、主成分分析で得られた第2主成分を法線とする第2平面のうちの、複数の第3三次元点からの距離の総和が小さい平面を補正に用いる平面として生成する。このため、検出した線の長さが十分に長くない場合であっても、線分である線に応じて複数の第3三次元点の位置を精度よく補正することができる。
 [変形例]
 (変形例1)
 上記実施の形態1に係る三次元モデル生成方法では、三次元モデル生成装置100は、線で特定されたグループに属する複数の第3三次元点に対して主成分分析を行うことで、補正面を生成し、補正面を用いて複数の第3三次元点の位置を補正するとしたがこれに限らない。変形例1に係る三次元モデル生成方法では、複数の第3三次元点に対して最小二乗法を行うことで近似線を生成し、近似線を用いて複数の第3三次元点の位置を補正してもよい。
 この場合、補正部142における三次元点補正部142bの処理が異なるため、三次元点補正部142bの処理について説明する。
 三次元点補正部142bは、実施の形態1と同様に、複数の第2三次元点のうち、線562に対応する部分に含まれる複数の第3三次元点を含むグループを特定する。そして、三次元点補正部142bは、複数の第3三次元点に対して最小二乗法を行うことで近似線を生成する。三次元点補正部142bは、複数の第3三次元点が近似線に近づくように複数の第3三次元点の位置を補正する。
 図10~図13は、実施の形態1の変形例に係る三次元点補正部142bによる複数の第3三次元点の位置を補正する処理の一例について説明するための図である。図10は、1つのグループに属する複数の第3三次元点580を示す。
 三次元点補正部142bは、図10に示すように、複数の第3三次元点580をXZ平面に投影する。グループに属する複数の第3三次元点580の数がn個であり、XZ平面におけるi番目の三次元点の座標を(Xi、Zi)とする。そして、求める近似線の式を式9で示すものとする。
 Z=aX+b   (式9)
 このとき、三次元点補正部142bは、最小二乗法によりa及びbを以下の式10を用いて算出できる。
Figure JPOXMLDOC01-appb-M000008
 これにより、三次元点補正部142bは、図11に示すように、複数の第3三次元点580が存在する二次元平面をXZ平面としたときにおいて、XZ平面における複数の第3三次元点580に対して最小二乗法を用いて、複数の第3三次元点580の近似線581を生成することができる。
 次に、三次元点補正部142bは、図12に示すように、第1フレームが撮影されたときの視点とi番目の第3三次元点とを結ぶ直線と、近似線581との交点を補正点として算出する。具体的には、三次元点補正部142bは、補正点(X’、Y’、Z’)を通る、第1フレームが撮影されたときの撮像装置301のカメラ中心から延びる直線を、XZ座標上においてZ=cXとしたとき、この直線と近似線との交点(X’、Z’)は、式11で表される。
Figure JPOXMLDOC01-appb-M000009
 このようにして、三次元点補正部142bは、各第3三次元点について、近似線581との交点を算出する。三次元点補正部142bは、算出した交点の座標と式12とを用いて、XYZ座標上での補正点のY座標を算出する。
 Y’=nX’+nZ’    (式12)
 ここで、補正点を通る撮像装置301のカメラ中心から延びる直線は式13で表される。
Figure JPOXMLDOC01-appb-M000010
 直線の幅が無い場合、複数の第3三次元点は、同一平面上に存在することになる。ここで、i番目の第3三次元点に対応する画素に対応する三次元単位ベクトルは式14で表される。
Figure JPOXMLDOC01-appb-M000011
 この場合、三次元点補正部142bは、図13に示すように、複数の第3三次元点から2点をサンプリングして平面582を算出する。平面582の法線は、式15で表され、平面は、式16で表される。
Figure JPOXMLDOC01-appb-M000012
 nx+ny+nz=0   (式16)
 なお、法線は、式17に示すように、ベクトルの外積によって求めることができる。
Figure JPOXMLDOC01-appb-M000013
 このように、三次元点補正部142bは、複数の第3三次元点580の位置を補正することにより、複数の補正点583を含む第1三次元モデルを生成する。これにより、複数の補正点583は、第1フレームで検出された線に沿って並ぶことになる。よって、生成された第1三次元モデルでは、第1視点に対応する始点から見たときの、コンピュータ内の三次元空間において複数の第1三次元点が表現する輪郭は、線に沿った形状を有する。また、複数の第1三次元点は、複数の第3三次元点580が補正された結果として生成されるため、複数の補正点583を含む。つまり、複数の第1三次元点は、複数の第2三次元点のうち、補正されていない複数の第2三次元点と、複数の補正点583とを含む。
 また、変形例に係る三次元モデル生成方法において、第1三次元モデルの生成(S116)のために、複数の第3三次元点に対して最小二乗法を行うことで近似線を生成し、複数の第3三次元点が近似線に近づくように複数の第3三次元点の位置を補正する。このため、点群に近似している近似線に応じて複数の第3三次元点の位置を精度よく補正することができる。
 (変形例2)
 変形例2について説明する。
 変形例2に係る三次元モデル生成方法では、三次元モデル生成装置100は、既に補正した複数の第3三次元点を利用して、補正するための面を生成してもよい。この場合、補正部142の処理が異なるため、補正部142の処理について説明する。
 図14は、実施の形態1の変形例2に係る補正部142による処理の一例を説明するための図である。図15は、実施の形態1の変形例2に係る補正部142による処理の一例を説明するための図である。
 補正部142の検出部142aは、第1フレーム591において、連続するエッジからなる線601であって、被写体の輪郭に対応する線601を検出する。その後に、検出部142aは、第2フレーム592において、連続するエッジからなる線602であって、被写体の輪郭に対応する線602を検出する。線602は、線601が対応する被写体の輪郭の少なくとも一部を含む輪郭に対応する。つまり、線602が対応する輪郭と、線601が対応する輪郭とは、互いに重複する部分を含む。なお、線601は、第1線に対応し、線602は、第2線に対応する。
 具体的には、検出部142aは、第2フレーム592において被写体の輪郭に対応する線を検出し、検出した線と線601とを比較して、検出した線のうち線601との間の一致度が所定の一致度よりも高い線を線602として検出する。検出した線と線601との一致度は、例えば、検出した線の法線ベクトルと、線601の法線ベクトルとの間の類似度であってもよい。また、一致度は、法線ベクトル同士の類似度の他に、さらに、検出した線の三次元空間上の位置と、線601の三次元空間上の位置との間の距離に基づいて算出されてもよい。この場合、一致度は、この距離が短いほど一致している度合いが大きくなるように算出される。この類似度は、周知の方法を用いて算出することができる。
 三次元点補正部142bは、複数の第2三次元点のうち、線601に対応する輪郭に含まれる複数の第3三次元点610を含む第1グループを特定する。このように、三次元点補正部142bは、検出部142aにより第1フレーム591において検出された1以上の線601のそれぞれについて、当該線601に対応する部分で特定される複数の第3三次元点610を含む第1グループを特定する。
 そして、三次元点補正部142bは、各線601に基づいて、当該線601で特定された第1グループに属する複数の第3三次元点610の位置を補正する。具体的には、三次元点補正部142bは、第1グループ毎に、各第1グループに属する複数の第3三次元点601に対して主成分分析を行うことで平面621を特定し、複数の第3三次元点601が平面621に近づくように複数の第3三次元点610の位置を補正する。このように、三次元点補正部142bは、複数の第2三次元点のうち、輪郭に対応する複数の第3三次元点610の位置を補正する。これにより、複数の第1三次元点611が生成される。
 次に、三次元点補正部142bは、複数の第2三次元点のうち、線602に対応する輪郭に含まれる複数の第4三次元点613を特定する。複数の第4三次元点613は、補正された複数の第3三次元点611と、補正されていない第2三次元点612とを含む。このように、三次元点補正部142bは、検出部142aにより第2フレーム592において検出された1以上の線602のそれぞれについて、当該線602に対応する部分で特定される複数の第4三次元点613を含む第2グループを特定する。
 そして、三次元点補正部142bは、各線602に基づいて、当該線602で特定された第2グループに属する複数の第4三次元点613の位置を補正する。具体的には、三次元点補正部142bは、複数の第4三次元点613のうち、少なくとも補正されていない第2三次元点612の位置を補正する。三次元点補正部142bは、第2グループ毎に、各第2グループに属する複数の第4三次元点613に対して、主成分分析を行うことで平面622を特定し、複数の第4三次元点613が特定した平面622に近づくように複数の第4三次元点613の位置を補正する。このとき、三次元点補正部142bは、複数の第4三次元点613全ての位置を補正してもよいし、複数の第4三次元点613のうち、補正されていない第2三次元点612の位置のみを補正してもよい。
 三次元点補正部142bは、第1視点V11から、第1フレーム591において検出された線601に対応する被写体の輪郭までの距離D1が、第2視点V12から、第2フレーム592において検出された線602に対応する被写体の輪郭までの距離D2よりも短い場合、複数の第3三次元点610を補正するために特定した平面621の延長線上にある平面を用いて、複数の第4三次元点613のうちの、少なくとも補正されていない第2三次元点612を補正してもよい。
 被写体の連続する一つの形状が、1つのフレームに収まって撮影されずに、複数のフレームに亘って撮影される場合、各フレームで撮影された結果によって、複数の第1三次元点が生成されると、一つの連続している形状であるにもかかわらず、生成された複数の第1三次元点が連続する形状を表現できない恐れがある。変形例2に係る三次元モデル生成方法によれば、補正された複数の第3三次元点610を含む複数の第4三次元点613を用いて、複数の第4三次元点613のうちの、少なくとも補正されていない第2三次元点612の位置を補正する。つまり、一つの連続している形状を考慮して、既に補正された複数の第3三次元点610も用いて、少なくとも補正されていない第2三次元点612を補正するため、被写体の連続する輪郭に対応する複数の第1三次元点の位置を精度よく生成することができる。
 (実施の形態2)
 実施の形態2に係る三次元モデル生成装置100Aについて説明する。
 図16は、実施の形態2に係る三次元モデル生成装置100Aの特徴的な構成を示すブロック図である。
 実施の形態2に係る三次元モデル生成装置100Aは、実施の形態1に係る三次元モデル生成装置100と比較して、生成部140Aの構成が異なる。このため、生成部140Aについて説明する。なお、三次元モデル生成装置100Aの生成部140A以外の構成要素は、実施の形態1の三次元モデル生成装置100の構成要素と同じであるため、同じ符号を付して説明を省略する。
 生成部140Aは、具体的には、複数のフレームを補正した後で、補正後の複数のフレームを用いて、第1三次元モデルを生成する点が生成部140と異なる。生成部140Aは、補正部141Aと、復元部142Aとを有する。補正部141Aは、複数のフレームのそれぞれから連続するエッジからなる線であって、被写体の輪郭に対応する線を検出する。つまり、補正部141Aは、第1フレームにおいて、連続するエッジからなる第1線を検出する。また、補正部141Aは、第2フレームにおいて、連続するエッジからなる第2線を検出する。この処理は、実施の形態1に係る補正部142のフレームから線を検出する処理と同様である。次に、補正部141Aは、複数のフレームのそれぞれを、複数のフレームのそれぞれで検出された線を用いて補正する。つまり、補正部141Aは、第1フレーム及び第2フレームのそれぞれを、第1線および第2線を用いて補正する。
 なお、補正部141Aにより検出される線は、直線(線分)であってもよいし、曲線であってもよい。検出される線は、複数の画素で表現されない。検出される線は、小数画素精度の位置で特定される。検出される線は、線分であれば、始点と終点とを結ぶ線分であり、曲線であれば、始点と終点とを結ぶ滑らかな線である。補正部141Aは、連続するエッジからなる線を検出するために、周知のアルゴリズムが利用可能である。
 図17は、実施の形態2に係る補正部141Aによる各フレームを補正する処理の一例について説明するための図である。図17の(a)は、実施の形態1における領域561の別の例を示す図である。実施の形態2における領域561では、エイリアスが大きく発生することにより、画素が欠損している。
 補正部141Aは、領域561において、実施の形態1の検出部142aと同様に処理することで、図17の(b)に示すように、線562を検出する。補正部141Aは、線562が通過する複数の画素の画素グループの平均値を補正後の画素値として算出する。補正部141Aは、画素グループのi番目の画素値をIとし、補正後の画素値をI’とし、画素グループに含まれる画素数をnとすると補正後の画素値I’を式18に示すように算出することができる。
Figure JPOXMLDOC01-appb-M000014
 そして、補正部141Aは、線562が通過する複数の画素の画素グループの画素値の全部を補正後の画素値I’で置き換えることで、図18の(a)に示す領域590で示されるように、領域561を補正する。なお、図18は、実施の形態2に係る各フレームを補正する処理の一例について説明するための図である。
 なお、補正部141Aは、画素グループのうちの全画素の画素値を用いて補正しなくてもよく、1以上の画素をサンプリングして、サンプリングした1以上の画素の画素値を用いて、補正してもよい。例えば、サンプリングした1以上の画素の画素値の平均で、線562が通過する複数の画素の画素グループの画素値の全部を置き換えることでフレームを補正してもよい。また、補正部141Aは、線562を用いて、画素グループを図18の(b)に示すように高解像度化してもよい。
 復元部142Aは、補正部141Aにより補正されたフレーム、つまり、補正後の複数のフレーム、つまり補正後の第1フレームおよび補正後の第2フレームにおいて互いの類似点を探索するマッチングを行う。復元部142Aは、実施の形態1に係る復元部141による処理と同様の処理を行う。
 次に、三次元モデル生成装置100Aの動作について説明する。三次元モデル生成装置100Aは、実施の形態1の図8におけるフローチャートのステップS104の詳細が異なるため、ステップS104の詳細について説明する。
 図19は、実施の形態2に係る生成部140AによるステップS104の生成処理の詳細の一例を示すフローチャートである。
 生成部140Aは、互いに対応するタイミングで撮影された多視点画像のフレームセットのフレーム毎にループ11を行う(S121)。ループ11では、フレーム毎にステップS122及びステップS123の処理を行う。
 補正部141Aは、処理対象のフレームから連続するエッジからなる線を検出することで、当該フレームにおける被写体の線を検出する(S122)。
 補正部141Aは、処理対象のフレームを、当該フレームで検出された線を用いて補正する(S123)。
 ループ11は、全てのフレームについてステップS122及びステップS123が終了すると終了する。
 次に、復元部142Aは、補正後の複数のフレームを処理対象とし、補正後の複数のフレームのうちの第1フレームが有する複数の第1画素の第1画素毎のループ12を行う(S124)。ループ12では、第1画素毎にステップS125及びステップS126の処理を行う。
 復元部142Aは、処理対象の第1画素について、処理対象のフレームセットのうちの複数の第2フレーム上で当該第1画素に対応するエピポーラ線上の複数の第2画素から、当該第1画素に類似する類似点を探索する(S125)。
 復元部142Aは、ステップS125により得られた探索結果を用いて三角測量を行うことにより第1三次元点を生成する。これにより、復元部142Aは、複数の第1三次元点を含む第1三次元モデルを生成する(S126)。
 ループ12は、処理対象のフレームセットの第1フレームに含まれる全ての第1画素についてステップS125及びステップS126の処理が終了すると終了する。
 実施の形態2に係る三次元モデル生成装置100Aによれば、線を用いて補正した画像を用いて第1三次元モデルを生成するため、画像上のエイリアスによる誤差が低減された第1三次元モデルを生成することができる。
 実施の形態2に係る三次元モデル生成装置100Aにおいても、被写体を複数の視点から撮影することで得られた複数のフレームを取得し(S101)、複数のフレームのうちの1つのフレーム(第1フレーム)から連続するエッジからなる線であって、被写体の輪郭に対応する線を検出し(S122)、複数のフレームと、線とに基づいて、複数の第1三次元点を生成する(S126)。
 (その他の実施の形態)
 上記実施の形態1及び2では、被写体の輪郭に対応する線を用いて第1三次元モデルを生成する例について説明したが、全ての線を用いて第1三次元モデルを生成しなくてもよい。例えば、三次元モデル生成装置100、100Aは、1つのフレームが撮影された視点からの距離が所定の距離よりも近い位置にある三次元点を複数の第1三次元点から除く。
 例えば、実施の形態1に係る三次元モデル生成装置100は、検出された線に基づいて、線が対応する輪郭に対応する複数の第3三次元点の視点からの距離が所定の距離よりも近い位置に位置する場合、補正部142は、当該線を用いて、複数の第3三次元点の位置を補正しなくてもよい。つまり、補正部142は、生成された複数の第2三次元点のうち、所定の距離よりも視点に近い位置に位置する第2三次元点の位置を補正しなくてもよい。つまり、三次元モデル生成装置100は、各線について、1つのフレームが撮影された視点から当該線が対応する被写体の輪郭までの距離に応じて、補正を行うか否かを切り替えてもよい。
 このように、精度が一定以上となりやすい部分において線を用いずに第1三次元モデルを生成するため、精度の低下を招くことなく処理負荷を低減することができる。
 また、例えば、実施の形態2に係る三次元モデル生成装置100Aは、各フレームに映り込んでいる被写体の視点からの距離が得られる場合には、当該距離が所定の距離よりも視点に近い位置に位置する輪郭に対応する線を用いて、当該輪郭が存在する画素グループの画素値を補正しなくてもよい。例えば、被写体の視点からの距離は、推定装置200による推定処理によって得られた三次元モデル520を用いることで推定してもよい。つまり、三次元モデル生成装置100は、各線について、1つのフレームが撮影された視点から、当該線が対応する輪郭までの距離に応じて、画像のうちで当該輪郭に対応する部分の補正を行うか否かを切り替えてもよい。
 また、上記実施の形態1及び2では、複数のフレームのそれぞれについて線を検出し、検出した線を用いて第1三次元モデルを生成する例について説明したが、全てのフレームから得られた線を用いて第1三次元モデルを生成しなくてもよい。例えば、三次元モデル生成装置100、100Aは、複数のフレームの内で所定の解像度以上のフレームから検出されたエッジを用いずに、複数の第1三次元点を生成してもよい。
 例えば、三次元モデル生成装置100、100Aは、解像度が所定の解像度以上のフレームについて線を検出する処理を行わなくてもよい。これは、解像度が所定の解像度以上のフレームを用いて生成された第1三次元モデルの精度は、一定以上の高い精度であるからである。つまり、三次元モデル生成装置100、100Aは、フレームの解像度に応じて、当該フレームに対して線の検出を行うか否かを切り替えてもよい。
 このように、精度が一定以上となりやすい画像において線を用いずに複数の第1三次元点を生成するため、精度の低下を招くことなく処理負荷を低減することができる。
 以上、本開示に係る三次元モデル生成方法等について、上記各実施の形態に基づいて説明したが、本開示は、上記各実施の形態に限定されるものではない。
 例えば、上記実施の形態では、三次元モデル生成装置等が備える各処理部は、CPUと制御プログラムとによって実現されると説明した。例えば、当該処理部の構成要素は、それぞれ1つ又は複数の電子回路で構成されてもよい。1つ又は複数の電子回路は、それぞれ、汎用的な回路でもよいし、専用の回路でもよい。1つ又は複数の電子回路には、例えば、半導体装置、IC(Integrated Circuit)、又は、LSI(Large Scale Integration)等が含まれてもよい。IC又はLSIは、1つのチップに集積されてもよく、複数のチップに集積されてもよい。ここでは、IC又はLSIと呼んでいるが、集積の度合いによって呼び方が変わり、システムLSI、VLSI(Very Large Scale Integration)、又は、ULSI(Ultra Large Scale Integration)と呼ばれるかもしれない。また、LSIの製造後にプログラムされるFPGA(Field Programmable Gate Array)も同じ目的で使うことができる。
 また、本開示の全般的又は具体的な態様は、システム、装置、方法、集積回路、又は、コンピュータプログラムで実現されてもよい。或いは、当該コンピュータプログラムが記憶された光学ディスク、HDD(Hard Disk Drive)若しくは半導体メモリ等のコンピュータ読み取り可能な非一時的記録媒体で実現されてもよい。また、システム、装置、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。
 その他、各実施の形態に対して当業者が思いつく各種変形を施して得られる形態や、本開示の趣旨を逸脱しない範囲で実施の形態における構成要素及び機能を任意に組み合わせることで実現される形態も本開示に含まれる。
 本開示は、三次元モデル生成装置又は三次元モデル生成システムに適用でき、例えば、フィギュア作成、地形若しくは建物の構造認識、人物の行動認識、又は、自由視点映像の生成等に適用できる。
 100、100A  三次元モデル生成装置
 110  受信部
 120  記憶部
 130  取得部
 140、140A  生成部
 141、142A  復元部
 142、141A  補正部
 142a  検出部
 142b  三次元点補正部
 150  出力部
 200  推定装置
 300  撮像装置群
 301  撮像装置
 400  三次元モデル生成システム
 500、510  被写体
 520  三次元モデル
 531  第1フレーム
 532、533  第2フレーム
 541  第1画素
 542、543  第2画素
 552、553  エピポーラ線
 561、590  領域
 562  線
 570、580  第3三次元点
 571  第1主成分
 572  第2主成分
 573  補正面
 574、583  補正点
 581  近似線
 582  平面
 L1  直線
 D1、D2  距離
 V1、V11  第1視点
 V2、V12  第2視点
 V3  第3視点

Claims (11)

  1.  コンピュータによって実行される三次元モデル生成方法であって、
     被写体を第1視点から撮影することで得られた第1画像と、前記被写体を第2視点から撮影することで得られた第2画像を取得し、
     少なくとも前記第1画像において、連続するエッジからなる第1線であって、前記被写体の輪郭に対応する第1線を検出し、
     前記第1画像、前記第2画像、および前記第1線に基づいて、前記コンピュータ内の三次元空間において前記輪郭を表現する複数の第1三次元点を生成する
     三次元モデル生成方法。
  2.  前記第1線は、前記第1画像における画素単位より小さい単位で表現される
     請求項1に記載の三次元モデル生成方法。
  3.  さらに、
     前記第1画像および前記第2画像において互いの類似点を探索するマッチングを行うことで、前記三次元空間において前記被写体を表現する複数の第2三次元点を生成し、
     前記複数の第1三次元点の生成のために、
      (i)前記第1線に基づいて、前記複数の第2三次元点のうち、前記輪郭に対応する複数の第3三次元点を特定し、
      (ii)前記複数の第3三次元点の位置を補正する
     請求項1又は2に記載の三次元モデル生成方法。
  4.  さらに、
     前記第2画像において、連続するエッジからなる第2線であって、前記第1線が対応する輪郭の少なくとも一部を含む輪郭に対応する第2線を検出し、
     前記複数の第1三次元点の生成のために、さらに、
      (i)前記第2線に基づいて、前記複数の第2三次元点のうち、前記第2線が対応する輪郭に対応する複数の第4三次元点であって、補正された前記複数の第3三次元点と補正されていない第2三次元点とを含む複数の第4三次元点を特定し、
      (ii)前記複数の第4三次元点のうち、少なくとも前記補正されていない第2三次元点の位置を補正する
     請求項3に記載の三次元モデル生成方法。
  5.  前記複数の第1三次元点の生成のために、前記複数の第3三次元点に対して主成分分析を行うことで平面を特定し、前記複数の第3三次元点が前記平面に近づくように前記複数の第3三次元点の位置を補正する
     請求項3又は4に記載の三次元モデル生成方法。
  6.  前記複数の第1三次元点の生成のために、前記複数の第3三次元点の重心を通過し、かつ、前記主成分分析で得られた第1主成分を法線とする第1平面、及び、前記重心を通過し、かつ、前記主成分分析で得られた第2主成分を法線とする第2平面のうちの、前記複数の第3三次元点からの距離の総和が小さい平面を前記平面として生成する
     請求項5に記載の三次元モデル生成方法。
  7.  前記第1三次元点の生成のために、前記複数の第3三次元点に対して最小二乗法を行うことで近似線を生成し、前記複数の第3三次元点が前記近似線に近づくように前記複数の第3三次元点の位置を補正する
     請求項3又は4に記載の三次元モデル生成方法。
  8.  前記複数の第1三次元点の生成のために、前記第1視点からの距離が所定の距離より近い位置にある三次元点を前記複数の第1三次元点から除く
     請求項1から7のいずれか1項に記載の三次元モデル生成方法。
  9.  前記複数の第1三次元点の生成のために、前記第1画像および前記第2画像のうちで所定の解像度以上の画像から検出されたエッジを用いない
     請求項1から8のいずれか1項に記載の三次元モデル生成方法。
  10.  前記検出では、前記第2画像において、連続するエッジからなる第2線であって、前記被写体の輪郭に対応する第2線を検出し、
     前記複数の第1三次元点の生成では、(i)前記第1画像および前記第2画像のそれぞれを、前記第1線および前記第2線を用いて補正し、(ii)補正後の前記第1画像および補正後の前記第2画像において互いの類似点を探索するマッチングを行う
     請求項1又は2に記載の三次元モデル生成方法。
  11.  コンピュータを備え、
     前記コンピュータは、
     被写体を第1視点から撮影することで得られた第1画像と、前記被写体を第2始点から撮影することで得られた第2画像を取得し、
     少なくとも前記第1画像において、連続するエッジからなる第1線であって、前記被写体の輪郭に対応する第1線を検出し、
     前記第1画像、前記第2画像、および前記第1線に基づいて、前記コンピュータ内の三次元空間において前記輪郭を表現する複数の第1三次元点を生成する
     三次元モデル生成装置。
PCT/JP2021/041943 2020-12-08 2021-11-15 三次元モデル生成方法及び三次元モデル生成装置 WO2022124017A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202180081018.7A CN116547493A (zh) 2020-12-08 2021-11-15 三维模型生成方法及三维模型生成装置
EP21903121.8A EP4261496A4 (en) 2020-12-08 2021-11-15 METHOD AND DEVICE FOR CREATING A THREE-DIMENSIONAL MODEL
JP2022568137A JPWO2022124017A1 (ja) 2020-12-08 2021-11-15
US18/203,925 US20230394754A1 (en) 2020-12-08 2023-05-31 Three-dimensional model generation method, three-dimensional model generation device, and non-transitory computer readable medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020203334 2020-12-08
JP2020-203334 2020-12-08

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/203,925 Continuation US20230394754A1 (en) 2020-12-08 2023-05-31 Three-dimensional model generation method, three-dimensional model generation device, and non-transitory computer readable medium

Publications (1)

Publication Number Publication Date
WO2022124017A1 true WO2022124017A1 (ja) 2022-06-16

Family

ID=81974374

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/041943 WO2022124017A1 (ja) 2020-12-08 2021-11-15 三次元モデル生成方法及び三次元モデル生成装置

Country Status (6)

Country Link
US (1) US20230394754A1 (ja)
EP (1) EP4261496A4 (ja)
JP (1) JPWO2022124017A1 (ja)
CN (1) CN116547493A (ja)
TW (1) TW202230288A (ja)
WO (1) WO2022124017A1 (ja)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011053809A (ja) * 2009-08-31 2011-03-17 Fuji Heavy Ind Ltd 車両用白線認識装置
JP2011100174A (ja) * 2009-11-03 2011-05-19 Tokyo Institute Of Technology 車線内車両検出装置及び車線内車両検出方法
JP2013068417A (ja) * 2011-09-20 2013-04-18 Dainippon Screen Mfg Co Ltd 三次元位置・姿勢認識装置、産業用ロボット、三次元位置・姿勢認識方法、プログラム、記録媒体
JP2013250907A (ja) * 2012-06-04 2013-12-12 Ricoh Co Ltd 視差算出装置、視差算出方法及び視差算出用プログラム
JP2014235750A (ja) * 2013-06-03 2014-12-15 株式会社リコー 目標検出方法及び目標検出装置
JP2016014610A (ja) * 2014-07-02 2016-01-28 株式会社リコー カメラシステム、測距方法、およびプログラム
JP2017130146A (ja) 2016-01-22 2017-07-27 キヤノン株式会社 画像管理装置、画像管理方法及びプログラム
JP2020047049A (ja) * 2018-09-20 2020-03-26 ファナック株式会社 画像処理装置及び画像処理方法
JP2020071034A (ja) * 2018-10-29 2020-05-07 セイコーエプソン株式会社 三次元計測方法、三次元計測装置、及び、ロボットシステム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5746477B2 (ja) * 2010-02-26 2015-07-08 キヤノン株式会社 モデル生成装置、3次元計測装置、それらの制御方法及びプログラム
US9846963B2 (en) * 2014-10-03 2017-12-19 Samsung Electronics Co., Ltd. 3-dimensional model generation using edges

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011053809A (ja) * 2009-08-31 2011-03-17 Fuji Heavy Ind Ltd 車両用白線認識装置
JP2011100174A (ja) * 2009-11-03 2011-05-19 Tokyo Institute Of Technology 車線内車両検出装置及び車線内車両検出方法
JP2013068417A (ja) * 2011-09-20 2013-04-18 Dainippon Screen Mfg Co Ltd 三次元位置・姿勢認識装置、産業用ロボット、三次元位置・姿勢認識方法、プログラム、記録媒体
JP2013250907A (ja) * 2012-06-04 2013-12-12 Ricoh Co Ltd 視差算出装置、視差算出方法及び視差算出用プログラム
JP2014235750A (ja) * 2013-06-03 2014-12-15 株式会社リコー 目標検出方法及び目標検出装置
JP2016014610A (ja) * 2014-07-02 2016-01-28 株式会社リコー カメラシステム、測距方法、およびプログラム
JP2017130146A (ja) 2016-01-22 2017-07-27 キヤノン株式会社 画像管理装置、画像管理方法及びプログラム
JP2020047049A (ja) * 2018-09-20 2020-03-26 ファナック株式会社 画像処理装置及び画像処理方法
JP2020071034A (ja) * 2018-10-29 2020-05-07 セイコーエプソン株式会社 三次元計測方法、三次元計測装置、及び、ロボットシステム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
See also references of EP4261496A4
UKIDA, HIROYUKI: "3D Shape Reconstruction of Colored Object Using Image Scanner", PAPERS OF TECHNICAL MEETING IEE JAPAN (IEEJ), no. IP-04-16, 17 September 2004 (2004-09-17), pages 37 - 44, XP009537555 *

Also Published As

Publication number Publication date
JPWO2022124017A1 (ja) 2022-06-16
US20230394754A1 (en) 2023-12-07
CN116547493A (zh) 2023-08-04
TW202230288A (zh) 2022-08-01
EP4261496A4 (en) 2024-05-29
EP4261496A1 (en) 2023-10-18

Similar Documents

Publication Publication Date Title
US11830216B2 (en) Information processing apparatus, information processing method, and storage medium
WO2011013301A1 (en) Position and orientation calibration method and apparatus
WO2021140886A1 (ja) 三次元モデル生成方法、情報処理装置およびプログラム
WO2018171008A1 (zh) 一种基于光场图像的高光区域修复方法
JP2011174879A (ja) 位置姿勢推定装置及びその方法
CN107560603B (zh) 一种无人机倾斜摄影测量系统及测量方法
CN103971378A (zh) 一种混合视觉系统中全景图像的三维重建方法
JP7479324B2 (ja) 情報処理装置、情報処理方法、及びプログラム
CN112184811B (zh) 单目空间结构光系统结构校准方法及装置
US10607350B2 (en) Method of detecting and describing features from an intensity image
US20200143603A1 (en) Information processing apparatus, information processing method, and non-transitory computer-readable storage medium
CN114494462A (zh) 一种基于Yolov5和改进跟踪算法的双目相机测距方法
JP6061770B2 (ja) カメラ姿勢推定装置及びそのプログラム
CN111882655A (zh) 三维重建的方法、装置、系统、计算机设备和存储介质
WO2016135856A1 (ja) 3次元形状計測システムおよびその計測方法
US20230005216A1 (en) Three-dimensional model generation method and three-dimensional model generation device
JP6922348B2 (ja) 情報処理装置、方法、及びプログラム
JP7498404B2 (ja) 被写体の3次元姿勢推定装置、3次元姿勢推定方法、及びプログラム
WO2022124017A1 (ja) 三次元モデル生成方法及び三次元モデル生成装置
Li et al. Joint intrinsic and extrinsic lidar-camera calibration in targetless environments using plane-constrained bundle adjustment
JP3221384B2 (ja) 三次元座標計測装置
WO2019058487A1 (ja) 3次元復元画像処理装置、3次元復元画像処理方法及び3次元復元画像処理プログラムを記憶したコンピュータ読み取り可能な記憶媒体
CN116704111B (zh) 图像处理方法和设备
WO2023095375A1 (ja) 三次元モデル生成方法及び三次元モデル生成装置
Paudel et al. Localization of 2D cameras in a known environment using direct 2D-3D registration

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21903121

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022568137

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 202180081018.7

Country of ref document: CN

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2021903121

Country of ref document: EP

Effective date: 20230710