[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

WO2024005160A1 - 画像処理装置、画像処理方法、画像処理システム、およびプログラム - Google Patents

画像処理装置、画像処理方法、画像処理システム、およびプログラム Download PDF

Info

Publication number
WO2024005160A1
WO2024005160A1 PCT/JP2023/024253 JP2023024253W WO2024005160A1 WO 2024005160 A1 WO2024005160 A1 WO 2024005160A1 JP 2023024253 W JP2023024253 W JP 2023024253W WO 2024005160 A1 WO2024005160 A1 WO 2024005160A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
face
input image
person
anonymization
Prior art date
Application number
PCT/JP2023/024253
Other languages
English (en)
French (fr)
Inventor
斗紀知 有吉
Original Assignee
本田技研工業株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 本田技研工業株式会社 filed Critical 本田技研工業株式会社
Publication of WO2024005160A1 publication Critical patent/WO2024005160A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting

Definitions

  • the present invention relates to an image processing device, an image processing method, an image processing system, and a program.
  • Patent Document 1 discloses a technology that generates a composite face image by referring to face images of multiple people stored in a face image database, and enables annotation operations to be performed on the generated composite face image. .
  • Patent Document 1 protects the privacy of multiple people by having an annotator perform an annotation operation on a composite face image synthesized from facial images of multiple people.
  • characteristic information of the original image may be missing due to converting the original image to protect privacy.
  • the present invention has been made in consideration of these circumstances, and provides image processing that can generate learning data effective for training machine learning models while protecting the privacy of people depicted in facial images.
  • One of the purposes is to provide an apparatus, an image processing method, an image processing system, and a program. This in turn contributes to the development of sustainable transportation systems.
  • An image processing device includes: an image attribute acquisition unit that acquires an image attribute that is a shooting mode of an input image; an image conversion unit that performs anonymization processing on the input image; an image determination unit that determines whether or not the input image subjected to the anonymization process satisfies predetermined requirements; If it is determined that the requirements are met, predetermined processing is performed on the input image that has been subjected to the anonymization processing, and the predetermined requirements are determined according to the acquired image attributes.
  • the predetermined process is a process of saving the input image that has been subjected to the anonymization process as a target image for annotation work.
  • the predetermined process includes converting the input image that has been subjected to the anonymization process to generate a behavior prediction model that predicts the behavior of a person photographed in the input image. This is a process to save as learning information.
  • the predetermined process is a process of transmitting the input image that has been subjected to the anonymization process to an image server through a communication means.
  • the image attribute indicates whether the input image is an image of the inside of a vehicle in which a camera that imaged the input image is mounted, or an image of the outside of the vehicle. This is information that at least indicates that.
  • the anonymization process includes a process of changing the face of the person depicted in the input image to the face of another person, and the predetermined requirement is that the image attribute is If the image indicates the inside of a vehicle, it includes whether or not the line of sight direction of the person's face matches the line of sight direction of the other person's face.
  • the predetermined requirement is that the line of sight direction of the person's face and the other person
  • the predetermined requirement includes whether or not the direction of line of sight of the face of the person matches, and whether the direction of the face of the person's face matches the direction of the face of the face of the other person. If the attribute indicates that the image is an image of the outside of the vehicle, it includes whether or not the face direction of the person's face matches the face direction of the other person's face.
  • the predetermined requirement is that the line of sight direction of the person's face and the other person This does not include whether the line of sight direction of the face matches or not.
  • An image processing system includes an image attribute acquisition unit that acquires an image attribute that is a shooting mode of an input image, and an image conversion unit that performs anonymization processing on the input image. , an image determination unit that determines whether or not the input image that has been subjected to the anonymization process satisfies predetermined requirements; If it is determined that the predetermined requirements are met, predetermined processing is performed on the input image that has been subjected to the anonymization processing, and the predetermined requirements are determined according to the acquired image attributes.
  • a computer acquires an image attribute that is a shooting mode of an input image, performs anonymization processing on the input image, and performs anonymization processing on the input image. It is determined whether the input image subjected to the anonymization process satisfies predetermined requirements, and if it is determined that the input image subjected to the anonymization process satisfies the predetermined requirements, the input image subjected to the anonymization process A predetermined process is performed on the image, and the predetermined requirements are determined according to the acquired image attributes.
  • a program causes a computer to acquire an image attribute that is a shooting mode of an input image, performs anonymization processing on the input image, and performs anonymization processing on the input image. If it is determined that the input image subjected to the anonymization process satisfies the predetermined requirements, the input image subjected to the anonymization process is The predetermined requirements are determined according to the acquired image attributes.
  • FIG. 1 is a diagram showing an overview of a system 1 including an image processing device 100 according to the present embodiment.
  • 1 is a diagram illustrating an example of a functional configuration of an image processing apparatus 100 according to the present embodiment. It is a figure which shows an example of the vehicle interior image and vehicle exterior image acquired from the vehicle M1.
  • 3 is a diagram for explaining processing executed by an image processing unit 130.
  • FIG. FIG. 3 is a diagram for explaining processing executed by an image conversion unit 140.
  • FIG. 3 is a diagram illustrating an example of time-series in-vehicle images converted by the image conversion unit 140.
  • FIG. FIG. 3 is a diagram for explaining processing executed by an image determination unit 150.
  • FIG. FIG. 3 is a diagram illustrating an example of an annotation work performed by an annotator.
  • FIG. 5 is a diagram illustrating an example of driving support using a trained model 180.
  • FIG. 3 is a diagram illustrating an example of the flow of processing executed by an image conversion unit 140.
  • FIG. 3 is a diagram illustrating an example of the flow of processing executed by the image determination unit 150.
  • FIG. 1 is a diagram showing an overview of a system 1 including an image processing apparatus 100 according to the present embodiment.
  • the system 1 includes at least one vehicle M1 and one vehicle M2, an image processing device 100, and a terminal device 200.
  • vehicle M1 and vehicle M2 are illustrated as different vehicles, but these vehicles may be the same vehicle.
  • the vehicle M1 is, for example, a four-wheel drive vehicle such as a hybrid vehicle or an electric vehicle, and includes at least a camera that images the inside of the vehicle M1 and a camera that images the outside of the vehicle M1. While the vehicle M1 is traveling, the vehicle interior image and the vehicle exterior image captured by these cameras are transmitted to the image processing device 100 via a network NW such as a cellular network, a Wi-Fi network, or the Internet.
  • NW such as a cellular network, a Wi-Fi network, or the Internet.
  • the image processing device 100 is a server device that, upon receiving captured image data including an inside image and an outside image from the vehicle M1, performs image conversion to be described later on the received captured image data. This image conversion is a process for protecting the privacy of the person photographed in the in-vehicle image and the out-of-vehicle image.
  • the image processing device 100 transmits the obtained converted image data to the terminal device 200 via the network NW.
  • the terminal device 200 is a terminal device such as a desktop computer or a smartphone.
  • the user of the terminal device 200 acquires the converted image data from the image processing device 100
  • the user of the terminal device 200 performs an annotation operation to be described later on the acquired converted image data.
  • the user of the terminal device 200 transmits the annotated image data in which the annotation is added to the converted image data to the image processing device 100.
  • the image processing device 100 Upon receiving the annotated image data from the terminal device 200, the image processing device 100 uses the received annotated image data as learning data to generate a trained model, which will be described later, using an arbitrary machine learning model.
  • this trained model can output the predicted behavior (trajectory) of the person in the image outside the vehicle in response to the input of the image outside the vehicle, or output the predicted behavior (trajectory) of the person depicted in the image outside the vehicle, or This is a behavior prediction model that takes into account the line of sight of the driver in the image and calls attention to pedestrians in the image outside the vehicle.
  • the image data used as learning data at this time may be annotated image data in which annotations are added to the converted image data, or annotated image data obtained by reconverting the converted image data into captured image data while leaving the annotations as they are. It may be annotated image data (that is, annotated image data in which an annotation is added to captured image data).
  • annotated image data in which captured image data is annotated as learning data it is possible to use learning data that is more realistic and free from the effects of image conversion.
  • the image processing device 100 distributes the generated trained model to the vehicle M2 via the network NW.
  • vehicle M2 is, for example, a four-wheel drive vehicle such as a hybrid vehicle or an electric vehicle, and vehicle M2 learns at least one of an interior image and an exterior image captured by a camera while driving.
  • behavioral prediction data of people existing around the vehicle M2 is obtained.
  • the driver of the vehicle M2 can refer to the obtained behavior prediction data and utilize it for driving the vehicle M2. The details of each process will be explained below.
  • FIG. 2 is a diagram showing an example of the functional configuration of the image processing apparatus 100 according to the present embodiment.
  • the image processing device 100 includes, for example, a communication unit 110, a transmission/reception control unit 120, an image processing unit 130, an image conversion unit 140, an image determination unit 150, a trained model generation unit 160, a storage unit 170, Equipped with.
  • These components are realized by, for example, a hardware processor such as a CPU (Central Processing Unit) executing a program (software).
  • Some or all of these components are hardware (circuit parts) such as LSI (Large Scale Integration), ASIC (Application Specific Integrated Circuit), FPGA (Field-Programmable Gate Array), and GPU (Graphics Processing Unit).
  • the program may be stored in advance in a storage device (a storage device with a non-transitory storage medium) such as an HDD (Hard Disk Drive) or flash memory, or may be stored in a removable storage device such as a DVD or CD-ROM. It is stored in a medium (non-transitory storage medium), and may be installed by loading the storage medium into a drive device.
  • the storage unit 170 is, for example, an HDD, a flash memory, a RAM (Random Access Memory), or the like.
  • the storage unit 170 stores, for example, captured image data 172, converted image data 174, annotation image data 176, annotated image data 178, and a trained model 180.
  • the image processing device 100 includes a trained model generation unit 160 and a storage unit 170 that stores the trained model 180.
  • the model may be held by a server device different from the image processing device 100.
  • the communication unit 110 is an interface that communicates with the communication device 10 of the own vehicle M via the network NW.
  • the communication unit 110 includes a NIC (Network Interface Card), an antenna for wireless communication, and the like.
  • the transmission/reception control unit 120 uses the communication unit 110 to transmit and receive data with the vehicles M1 and M2 and the terminal device 200. More specifically, first, the transmission/reception control unit 120 acquires, from the vehicle M1, a plurality of in-vehicle images and out-of-vehicle images captured in chronological order by a camera mounted on the vehicle M1.
  • the time series in this case is, for example, images taken at predetermined intervals (for example, every second) in one driving cycle from the start to the stop of the vehicle M1.
  • FIG. 3 is a diagram showing an example of an inside image and an outside image acquired from the vehicle M1.
  • the left part of FIG. 3 represents the inside image acquired from vehicle M1, and the right part of FIG. 3 represents the outside image acquired from vehicle M1.
  • the in-vehicle image is captured with a camera installed to capture at least the face area of the driver of the vehicle M1, and as shown in the right part of FIG.
  • the image is captured with a camera installed so as to capture at least an image in front of the vehicle M1 in the direction of travel.
  • the transmission/reception control unit 120 stores the inside image and the outside image acquired from the vehicle M1 in the storage unit 170 in association with the image ID as captured image data 172.
  • FIG. 4 is a diagram for explaining the processing executed by the image processing unit 130.
  • the image processing unit 130 performs image processing on the captured image data 172 and obtains information such as the image attribute, face attribute, direction, etc. of each image included in the captured image data 172. More specifically, when an image is input, the image processing unit 130 processes each image included in the captured image data 172 using a trained model that outputs a classification result indicating whether the image is an inside image or an outside image. Obtain the image attribute indicating whether the image is inside the car or outside the car.
  • the image processing unit 130 calculates the face area, face size (area of the face area), and distance from the image capturing position to the face for all faces included in the image.
  • the facial attributes of each image included in the captured image data 172 are acquired using the trained model to be output.
  • the face area FA1 of the person P1 is acquired from the image inside the car
  • the face area FA2 of the person P2 the face area FA3 of the person P3, and the face area FA4 of the person P4 are acquired from the image outside the car.
  • the face areas FA1, FA2, FA3, and FA4 are acquired as rectangular areas, but the present invention is not limited to such a configuration.
  • a model may also be used.
  • the image processing unit 130 converts the captured image data 172 into captured image data 172 using a trained model that outputs at least one of the face direction and the gaze direction for all faces included in the image, for example, as a vector. Obtain the direction information of the face shown in each included image. More specifically, when the image of the captured image data 172 having the attribute of an in-vehicle image is input, the image processing unit 130 outputs the face direction and line of sight direction for all faces included in the image. Obtain direction information using the trained model.
  • the image processing unit 130 uses a trained model that outputs face directions for all faces included in the image to determine the direction. Get information. This is because, compared to images outside the car, faces in images inside the car are generally closer from the shooting position, and the faces tend to be large enough to extract the line of sight. It is from.
  • the face direction FD1 and line-of-sight direction ED1 of the person P1 are acquired from the image inside the car
  • the face direction FD2 of the person P2 the face direction FD3 of the person P3, and the face direction of the person P4 are acquired from the image outside the car.
  • FD4 has been acquired.
  • the image processing unit 130 When the image processing unit 130 acquires the image attributes, face attributes, and direction information for each image of the captured image data 172, it records these image attributes, face attributes, and direction information in association with the image. Note that in the above, as an example, the image processing unit 130 acquires image attributes, face attributes, and direction information using a trained model, but the present invention is not limited to such a configuration, and image processing The unit 130 may acquire these image attributes, face attributes, and direction information using any known method.
  • the image conversion unit 140 performs processing on the captured image data 172 processed by the image processing unit 130 to replace the face of the person in each image with the face of another person without changing the direction information of the person in each image. , using any software that implements such functionality.
  • FIG. 5 is a diagram for explaining the processing executed by the image conversion unit 140. As shown in FIG. 5, the image conversion unit 140 replaces the faces of persons P1, P2, and P3 shown in FIG. There is. On the other hand, the face of the person P4 is covered by the mosaic MS as a result of the mosaic processing performed by the image conversion unit 140.
  • the image conversion unit 140 determines whether to replace the face with another person's face or to perform mosaic processing based on the facial attributes of each face captured in each image of the captured image data 172. More specifically, the image conversion unit 140 determines whether or not the size of each face captured in each image of the captured image data 172 is equal to or larger than the first threshold Th1, and If it is determined that the face is equal to or greater than the first threshold Th1, it is determined that the face is replaced with the face of another person. On the other hand, if it is determined that the size of the face is less than the first threshold Th1, the image conversion unit 140 determines to perform mosaic processing on the face. Replacing the face of a person in a captured image with the face of another person or performing mosaic processing is an example of "anonymization processing."
  • the image conversion unit 140 also determines whether the distance of each face captured in each image of the captured image data 172 is less than or equal to the second threshold Th2, and determines whether the distance of the face is less than or equal to the second threshold Th2. If it is determined that the following is true, it is determined that the face in question is to be replaced with the face of another person. On the other hand, if it is determined that the distance between the faces is greater than the second threshold Th2, the image conversion unit 140 determines to perform mosaic processing on the face. The image conversion unit 140 repeatedly executes these determination processes for the number of faces shown in the image, and replaces each face with the face of another person or performs mosaic processing according to the determination results.
  • the image conversion unit 140 stores image data obtained by performing such processing on the captured image data 172 in the storage unit 170 as converted image data 174. This makes it possible to select useful data as learning data for generating a behavior prediction model, and to protect the privacy of the person depicted in each image when an annotator (described later) performs annotation work.
  • the image conversion unit 140 converts the face into a different person if the size of the face is greater than or equal to the first threshold Th1 and the distance between the faces is less than or equal to the second threshold Th2.
  • the face may be replaced with the face of another person. You may decide that.
  • the image conversion unit 140 selects faces to be used as learning data by performing mosaic processing on faces for which direction information acquisition has failed among the faces depicted in each image of the captured image data 172. Good too.
  • FIG. 6 is a diagram showing an example of a time-series in-vehicle image converted by the image conversion unit 140.
  • FIG. 6 shows, as an example, an example in which time-series in-vehicle images at three time points, t, t+1, and t+2, are converted.
  • These time-series in-car images are images of the same person and their faces are converted, but as shown in Figure 6, depending on the operation of the face conversion software, the face of the same person may be converted into the faces of multiple different people. It is possible. Even though the face of the same person has been converted into the faces of a plurality of different people, it is not preferable to use such converted image data as learning data as it is because it will deteriorate the accuracy of the behavior prediction model. Therefore, the image determination unit 150 determines the continuity of the time-series inside-vehicle images and outside-vehicle images by executing the process described below.
  • FIG. 7 is a diagram for explaining the processing executed by the image determination unit 150.
  • the image determination unit 150 first extracts feature points representing the face of the person captured in the converted image. For example, the image determination unit 150 extracts feature points representing the right eye REP, left eye LEP, nose NP, right mouth corner RMP, left mouth corner LMP, and ear EP of the person's face captured in the converted image.
  • the image determination unit 150 extracts feature points of faces of people tracked as the same person from each of the time-series converted images, and collates these feature points. Note that whether or not the two people have been "tracked as the same person" can be determined by, for example, associating the same person shown in the captured images at a stage before converting the images.
  • the image determination unit 150 extracts the feature points of the person shown in the converted image at time t and the feature points of the person shown in the converted image at time t+1.
  • the image determining unit 150 performs matching by determining whether these two sets of extracted feature points substantially match by translation or rotation.
  • the image determination unit 150 determines that the faces of the people tracked as the same person are still the faces of the same person even after conversion (that is, the faces are continuous It is determined that there is a gender.
  • the image determination unit 150 determines that the faces of the people tracked as the same person are not the faces of the same person after conversion (i.e., There is no continuity in the face). In that case, the image conversion unit 140 performs the conversion process again on the face determined to have no continuity.
  • the image conversion unit 140 may perform the conversion process again only on the faces that have been determined to have no continuity, or may perform the conversion process again on all human faces captured in the time-series converted images. You may do so.
  • the image conversion unit 140 may perform mosaic processing on faces determined to have no continuity without performing conversion processing again, and exclude them from targets to be used as learning data.
  • the image determination unit 150 may restrict performing predetermined processing on the time-series converted images, that is, exclude the time-series converted images from targets to be used as learning data. This makes it possible to prevent discontinuities from occurring due to unintended operations of the face conversion software.
  • the image determination unit 150 further inputs the converted image again to the above-mentioned trained model that outputs at least one of the face direction and the line-of-sight direction, and obtains the face direction FD or the line-of-sight direction ED in the converted image.
  • the image determination unit 150 determines, with respect to a person's face captured in the converted image, that the face direction FD or line-of-sight direction ED of the face is the same as the face direction FD or line-of-sight direction ED of the face captured in the captured image before conversion. Determine whether or not they substantially match.
  • both the face direction FD and line-of-sight direction ED are acquired for the in-vehicle image, and the face direction FD is acquired for the out-of-vehicle image. Therefore, the image determination unit 150 determines whether or not the face direction FD and line-of-sight direction ED substantially match between the captured image before conversion and the converted image for the in-vehicle image, and the converted image for the outside of the vehicle image. It is determined whether the face direction FD substantially matches between the previous captured image and the converted image. More specifically, for example, the image determination unit 150 calculates the angular difference between the vector representing the face direction FD in the captured image before conversion and the vector representing the face direction FD in the converted image, and calculates the calculated angle. If the difference is within the threshold, it is determined that the face directions FD substantially match. The same applies to the viewing direction ED. Satisfying the continuity of faces or the consistency of direction information is an example of a "predetermined requirement.”
  • the image conversion unit 140 determines that the face direction FD or the line-of-sight direction ED does not substantially match. Conversion processing is again performed on the photographed image for the face. At this time, the image conversion unit 140 may perform the conversion process again only on the faces determined to be substantially non-matching, or may perform the conversion process again on all faces included in the converted image including the faces determined to be substantially non-matching. The conversion process may be performed again. Furthermore, for example, the image conversion unit 140 may perform mosaic processing on faces that are determined to be substantially non-matching, without performing conversion processing again, and may exclude them from targets to be used as learning data.
  • the continuity of the transformed images executed by the image determination unit 150 described above is determined.
  • the determination process regarding the matching of the direction information and the determination process regarding the matching of the direction information may be performed not for all faces captured in the converted image but only for faces that are assumed to have a higher degree of importance.
  • the image determination unit 150 selects only those faces whose size is equal to or larger than the third threshold Th3, which is larger than the first threshold Th1, in the captured image before conversion.
  • these determination processes may be performed only for faces whose face distance is equal to or less than a fourth threshold Th4, which is smaller than the second threshold Th2.
  • the image determination unit 150 may give more importance to the face of a person who is present in the front in the direction of travel of vehicle M1 or the face of a person whose face direction is toward the front in the direction of travel of vehicle M1.
  • These determination processes may be performed assuming that the degree of failure is high.
  • re-conversion processing may be performed for that face and a face that is assumed to have a high degree of importance.
  • the image determination unit 150 stores the converted image data 174 whose continuity and consistency have been confirmed as annotation image data 176 in the storage unit 170. do.
  • the converted image data 174 is converted together with information indicating the purpose of use, for example, information indicating that the image data is annotation image data for generating a behavior prediction model that predicts the behavior of a person depicted in the input image.
  • the image data 174 may be stored in the storage unit 170 as annotation image data 176.
  • the transmission/reception control unit 120 transmits the annotation image data 176 to the terminal device 200.
  • the annotator who is the user of the terminal device 200 , generates annotated image data by performing an annotation work on the annotation image included in the received annotation image data 176 , and transmits the annotated image data to the image processing device 100 .
  • the image processing device 100 stores the received annotated image data in the storage unit 170 as annotated image data 178.
  • the converted image data 174 may be stored in the storage unit 170 as the annotation image data 176.
  • the image determination unit 150 may detect, for example, that the time-series captured images (or converted images thereof) obtained at predetermined intervals (for example, every second) in one driving cycle are missing due to a camera malfunction or the like. If there are images in the time series, it is not necessary to store all of these time-series images in the storage unit 170 as the annotation image data 176.
  • FIG. 8 is a diagram showing an example of annotation work performed by an annotator.
  • the left part of FIG. 8 represents the annotation of the converted image of the inside of the vehicle image
  • the right part of FIG. 8 represents the annotation of the converted image of the outside of the vehicle image.
  • the annotator determines whether or not the driver's viewing direction ED1 shown in the converted image is appropriate in the situation shown in the converted image of the outside of the vehicle at the same time.
  • information for example, 1 if appropriate, 0 if inappropriate
  • the converted image of the image outside the vehicle shows that there is a pedestrian on the left hand side in the vehicle's direction of travel
  • the converted image of the inside image shows that the driver is looking to the left. It is shown that.
  • the annotator provides information (i.e., 1) indicating that the driver's line of sight direction ED1 is appropriate. .
  • the annotator specifies, for example, a risk area RA in which a person depicted in the converted image, excluding the person who has been subjected to mosaic processing, is predicted to proceed to the converted image of the outside-of-vehicle image. Because the face of the person in the original image is converted into the face of another person through the processing by the image conversion unit 140 and the image determination unit 150, the privacy of the person is protected. At the same time, since the person's face direction and line of sight direction are maintained even after conversion, the annotator can accurately specify the risk area RA while referring to the face direction and line of sight direction of another person captured in the converted image. be able to. Thereby, it is possible to generate learning data that is effective for learning a machine learning model while protecting the privacy of the person depicted in the facial image.
  • a risk area RA in which a person depicted in the converted image, excluding the person who has been subjected to mosaic processing, is predicted to proceed to the converted image of the outside-of-vehicle
  • the learned model generation unit 160 uses the annotated image data 178 as learning data to generate a learned model using an arbitrary machine learning model.
  • this trained model outputs the predicted behavior (trajectory) of a person depicted in the image outside the vehicle in response to an input of an image outside the vehicle, or outputs the predicted behavior (trajectory) of a person shown in the image outside the vehicle, and This is a behavior prediction model that takes into consideration the line of sight of the driver shown in the image inside the car and calls attention to pedestrians shown in the image outside the car.
  • the trained model generation unit 160 stores the generated trained model in the storage unit 170 as a trained model 180.
  • the transmission/reception control unit 120 distributes the generated learned model 180 to the vehicle M2 via the NetArc NW.
  • the vehicle M2 uses the learned model 180 (more precisely, an application program that utilizes the learned model 180) to provide driving support to the driver of the vehicle M2.
  • FIG. 9 is a diagram showing an example of driving support using the learned model 180.
  • the inside image and the outside image taken by the camera mounted on the vehicle are input to the trained model 180, and the trained model 180 calculates the line of sight of the driver captured in the inside image.
  • this example shows an example in which driving assistance is provided by outputting information to a human machine interface (HMI) to urge the attention of pedestrians shown in the image outside the vehicle.
  • HMI human machine interface
  • the HMI displays a risk area RA2 corresponding to the pedestrian P5 shown in the image outside the vehicle, and the driver's line of sight shown in the inside image is not directed toward the pedestrian P5.
  • a warning message (“Be careful of distracted driving”) is output as text or audio information.
  • Be careful of distracted driving is output as text or audio information.
  • FIG. 10 is a diagram illustrating an example of the flow of processing executed by the image conversion unit 140.
  • the process shown in FIG. 10 is executed, for example, at the timing when an in-vehicle image or an out-vehicle image is captured by a camera mounted on the vehicle M1 and processed by the image processing unit 130.
  • the image conversion unit 140 acquires a captured image included in the captured image data 172 processed by the image processing unit 130 (step S100). Next, the image conversion unit 140 selects one face shown in the acquired captured image (step S102).
  • the image conversion unit 140 determines whether the size of the selected face is greater than or equal to the first threshold Th1 (step S104). If it is determined that the size of the selected face is greater than or equal to the first threshold Th1, the image conversion unit 140 converts the face into the face of another person (step S106). On the other hand, if it is determined that the size of the selected face is less than the first threshold Th1, the image conversion unit 140 next determines whether the distance of the selected face is less than or equal to the second threshold Th2. (Step S108).
  • step S106 converts the face into the face of another person.
  • step S110 the image conversion unit 140 performs mosaic processing on the face.
  • step S112 the image conversion unit 140 determines whether the processing has been performed on all faces shown in the acquired captured image.
  • the image conversion unit 140 obtains an image obtained by performing the processing on all the faces as a converted image.
  • the converted image data 174 is then stored in the storage unit 170 (step S114).
  • the image conversion unit 140 returns the processing to step S102. This completes the processing of this flowchart.
  • FIG. 11 is a diagram showing an example of the flow of processing executed by the image determination unit 150.
  • the process shown in FIG. 11 is, for example, the timing at which the time-series converted images are obtained by performing the above conversion process on the time-series captured images taken in one driving cycle from the start to the stop of the vehicle M1. It is executed in
  • the image determination unit 150 acquires time-series converted images (step S200). Next, the image determination unit 150 selects the face of a person who was tracked as the same person before conversion in the acquired time-series converted images (step S202).
  • step S206 if it is determined that the acquired time-series converted images are in-vehicle images, the image determination unit 150 determines whether the gaze direction and face direction of these faces match the images before conversion. Determination is made (step S210). On the other hand, if it is determined that the acquired time-series converted images are not in-vehicle images, that is, they are outside-vehicle images, the image determining unit 150 determines whether the facial directions of these faces match the images before conversion. (Step S212). If it is determined in the process of step S210 or step S212 that they do not match, the image determination unit 150 advances the process to step S208.
  • the image determination unit 150 determines that these faces have been converted normally, and applies all the faces shown in the time-series converted images. It is determined whether the process has been executed (step S214). If it is determined that the processing has been performed on all faces captured in the time-series converted images, the image determination unit 150 acquires these time-series converted images as annotation images and sends them to the transmission/reception control unit 120. The acquired annotation image is transmitted to the terminal device 200 (step S216). On the other hand, if it is determined that the process has not been performed on all faces captured in the time-series converted images, the image determination unit 150 returns the process to step S202. This completes the processing of this flowchart.
  • the anonymization process includes a process of changing the face of a person shown in the plurality of input images to the face of another person, and the predetermined requirement is that the face of the person shown in the plurality of input images is changed to the face of a different person.
  • the faces of people tracked as the same person are faces of the same person obtained through anonymization processing. That is, in this embodiment, faces that belong to the same person before the anonymization process are guaranteed to be the same person's faces even after the anonymization process, and are used as learning data. Thereby, it is possible to generate learning data that is effective for learning a machine learning model while protecting the privacy of the person depicted in the facial image.
  • the predetermined requirements include face direction information of a person tracked as the same person in a plurality of input images, and face direction information of the same person in the plurality of input images subjected to the anonymization process.
  • the predetermined requirements are determined according to the image attributes that are the shooting modes of the plurality of input images. That is, in this embodiment, a predetermined process, which is, for example, a process of saving learning information for generating a behavior prediction model, is executed in consideration of the shooting mode of each of the plurality of input images. Thereby, it is possible to generate learning data that is effective for learning a machine learning model while protecting the privacy of the person depicted in the facial image.
  • the anonymization process is performed by the first method or by the first method. determines whether to perform anonymization processing using a different second method. That is, in this embodiment, the method of anonymization processing performed on a face is changed depending on whether it is useful for learning a machine learning model. Thereby, it is possible to generate learning data that is effective for learning a machine learning model while protecting the privacy of the person depicted in the facial image.
  • the image determination unit 150 determines that the face depicted in the converted image does not meet predetermined requirements, an example will be described in which the converted image is re-converted or subjected to mosaic processing. did. However, if the image determining unit 150 determines that the predetermined requirements are not met, the image determining unit 150 does not perform the predetermined processing on the converted image, that is, it restricts the predetermined processing (the image processing such as not storing or transmitting to the server, etc.) may also be performed.
  • the image processing device 100 is implemented as a server device separate from the vehicle M1.
  • the image processing device 100 more specifically, a device having the functions of at least the image processing section 130, the image conversion section 140, and the image determination section 150 is mounted on the vehicle M1 as an on-vehicle device. It's okay.
  • the image captured by the vehicle-mounted camera is processed by the image processing unit 130 described above, anonymized by the image conversion unit 140, and determined by the image determination unit 150. Thereafter, the in-vehicle device transmits the anonymized image, in which the continuity of the face and the consistency of the direction information have been confirmed by the image determination unit 150, to an external image server.
  • the image server Upon receiving the anonymized image from vehicle M1, the image server stores the received anonymized image in the storage unit as annotation image data, and transmits the annotation image data to the annotator's terminal device 200, or 200 is permitted to access the annotation image data.
  • the image server Upon receiving the annotated image data from the terminal device 200, the image server generates a learned model 180 based on the annotated image data, and distributes the generated learned model 180 to the vehicle M2. Even in this case, similar to the present embodiment, learning data effective for learning the machine learning model can be generated while protecting the privacy of the person photographed in the face image.
  • the in-vehicle device since the in-vehicle device performs anonymization processing on the image and then sends the anonymized image to the image server, it is possible to more reliably protect the privacy of the person depicted in the facial image. can.
  • the in-vehicle device may include only some of the functions of the image processing section 130, the image conversion section 140, and the image determination section 150, and the image server may have the remaining functions.
  • the in-vehicle device may have the functions of the image processing section 130 and the image conversion section 140, and the image server may have the function of the image determination section 150, or the in-vehicle device may have the functions of the image processing section 130, and the image server The functions of the image conversion section 140 and the image determination section 150 may be provided.
  • a storage medium for storing computer-readable instructions; a processor connected to the storage medium; the processor executing the computer-readable instructions to: Obtain the image attribute that is the shooting mode of the input image, Performing anonymization processing on the input image, determining whether the input image subjected to the anonymization process satisfies predetermined requirements; If it is determined that the input image subjected to the anonymization process satisfies the predetermined requirements, performing a predetermined process on the input image subjected to the anonymization process,
  • the image processing apparatus is configured such that the predetermined requirement is determined according to the acquired image attribute.
  • Image processing device 110 Communication unit 120 Transmission/reception control unit 130 Image processing unit 140 Image conversion unit 150 Image determination unit 160 Learned model generation unit 170 Storage unit 172 Captured image data 174 Converted image data 176 Annotation image data 178 Annotated image data 180 Trained model

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Facsimile Image Signal Circuits (AREA)
  • Image Processing (AREA)

Abstract

入力画像の撮影態様である画像属性を取得する画像属性取得部と、前記入力画像に対して匿名化処理を行う画像変換部と、前記匿名化処理が施された前記入力画像が所定要件を満たすか否かを判定する画像判定部と、を備え、前記画像判定部は、前記匿名化処理が施された前記入力画像が前記所定要件を満たすと判定した場合、前記匿名化処理が施された前記入力画像に所定処理を施し、前記所定要件は、取得された前記画像属性に応じて定められるものである、画像処理装置。

Description

画像処理装置、画像処理方法、画像処理システム、およびプログラム
 本発明は、画像処理装置、画像処理方法、画像処理システム、およびプログラムに関する。
 近年、交通参加者の中でも脆弱な立場にある人々にも配慮した持続可能な輸送システムへのアクセスを提供する取り組みが活発化している。この実現に向けて自動運転技術に関する研究開発を通して交通の安全性や利便性をより一層改善する研究開発に注力している。例えば、従来、機械学習モデルの学習に用いる学習データを生成するために、個人の顔画像にアノテーションを付与する技術が知られている。特許文献1には、顔画像データベースに保存された複数人の顔画像を参照して合成顔画像を生成し、生成した合成顔画像に対してアノテーション操作を実施可能とする技術が開示されている。
特許第5930450号公報
 特許文献1に記載の技術は、複数人の顔画像から合成した合成顔画像に対してアノテーターがアノテーション操作を実行することによって、これら複数人のプライバシーを保護するものである。しかしながら、従来技術では、プライバシーを保護するために元画像を変換することに起因して、元画像の特徴情報が欠落する場合があった。その結果、顔画像に写される人物のプライバシーを保護しつつ、機械学習モデルの学習に有効な学習データを生成することができない場合があった。
 本発明は、このような事情を考慮してなされたものであり、顔画像に写される人物のプライバシーを保護しつつ、機械学習モデルの学習に有効な学習データを生成することができる画像処理装置、画像処理方法、画像処理システム、およびプログラムを提供することを目的の一つとする。そして、延いては持続可能な輸送システムの発展に寄与するものである。
 この発明に係る画像処理装置、画像処理方法、画像処理システム、およびプログラムは、以下の構成を採用した。
 (1):この発明の一態様に係る画像処理装置は、入力画像の撮影態様である画像属性を取得する画像属性取得部と、前記入力画像に対して匿名化処理を行う画像変換部と、前記匿名化処理が施された前記入力画像が所定要件を満たすか否かを判定する画像判定部と、を備え、前記画像判定部は、前記匿名化処理が施された前記入力画像が前記所定要件を満たすと判定した場合、前記匿名化処理が施された前記入力画像に所定処理を施し、前記所定要件は、取得された前記画像属性に応じて定められるものである。
 (2):上記(1)の態様において、前記所定処理は、前記匿名化処理が施された前記入力画像をアノテーション作業の対象画像として保存する処理であるものである。
 (3):上記(1)の態様において、前記所定処理は、前記匿名化処理が施された前記入力画像を、入力画像に写される人物の行動を予測する行動予測モデルを生成するための学習用情報として保存する処理であるものである。
 (4):上記(1)の態様において、前記所定処理は、前記匿名化処理が施された前記入力画像を、通信手段を通じて画像サーバに送信する処理であるものである。
 (5):上記(1)の態様において、前記画像属性は、前記入力画像が、前記入力画像を撮像したカメラが搭載された車両の内部を撮像した画像か、前記車両の外部を撮像した画像かを少なくとも示す情報であるものである。
 (6):上記(5)の態様において、前記匿名化処理は、前記入力画像に写される人物の顔を別人物の顔に変更する処理を含み、前記所定要件は、前記画像属性が前記車両の内部を撮像した画像であることを示すものである場合、前記人物の顔の視線方向と前記別人物の顔の視線方向とが一致するか否かを含むものである。
 (7):上記(6)の態様において、前記所定要件は、前記画像属性が前記車両の内部を撮像した画像であることを示すものである場合、前記人物の顔の視線方向と前記別人物の顔の視線方向とが一致するか否かと、前記人物の顔の顔方向と前記別人物の顔の顔方向とが一致するか否かと、を含むものであり、前記所定要件は、前記画像属性が前記車両の外部を撮像した画像であることを示すものである場合、前記人物の顔の顔方向と前記別人物の顔の顔方向とが一致するか否かを含むものである。
 (8):上記(6)の態様において、前記所定要件は、前記画像属性が前記車両の外部を撮像した画像であることを示すものである場合、前記人物の顔の視線方向と前記別人物の顔の視線方向とが一致するか否かを含まないものである。
 (9):上記(1)の態様において、前記画像変換部は、前記画像判定部によって、前記匿名化処理が施された前記入力画像が前記所定要件を満たさないと判定した場合、前記入力画像に前記匿名化処理を再度、施すものである。
 (10):上記(1)の態様において、前記画像変換部は、前記画像判定部によって、前記匿名化処理が施された前記入力画像が前記所定要件を満たさないと判定した場合、前記匿名化処理が施された前記入力画像に前記所定処理を施さないものである。
 (11):この発明の別の態様に係る画像処理システムは、入力画像の撮影態様である画像属性を取得する画像属性取得部と、前記入力画像に対して匿名化処理を行う画像変換部と、前記匿名化処理が施された前記入力画像が所定要件を満たすか否かを判定する画像判定部と、を備え、前記画像判定部は、前記匿名化処理が施された前記入力画像が前記所定要件を満たすと判定した場合、前記匿名化処理が施された前記入力画像に所定処理を施し、前記所定要件は、取得された前記画像属性に応じて定められるものである。
 (12):この発明の別の態様に係る画像処理方法は、コンピュータが、入力画像の撮影態様である画像属性を取得し、前記入力画像に対して匿名化処理を行い、前記匿名化処理が施された前記入力画像が所定要件を満たすか否かを判定し、前記匿名化処理が施された前記入力画像が前記所定要件を満たすと判定した場合、前記匿名化処理が施された前記入力画像に所定処理を施し、前記所定要件は、取得された前記画像属性に応じて定められるものである。
 (13):この発明の別の態様に係るプログラムは、コンピュータに、入力画像の撮影態様である画像属性を取得させ、前記入力画像に対して匿名化処理を行わせ、前記匿名化処理が施された前記入力画像が所定要件を満たすか否かを判定させ、前記匿名化処理が施された前記入力画像が前記所定要件を満たすと判定した場合、前記匿名化処理が施された前記入力画像に所定処理を施させ、前記所定要件は、取得された前記画像属性に応じて定められるものである。
 (1)~(13)によれば、顔画像に写される人物のプライバシーを保護しつつ、機械学習モデルの学習に有効な学習データを生成することができる。
本実施形態に係る画像処理装置100を含むシステム1の概要を示す図である。 本実施形態に係る画像処理装置100の機能構成の一例を示す図である。 車両M1から取得した車内画像と車外画像の一例を示す図である。 画像処理部130によって実行される処理を説明するための図である。 画像変換部140によって実行される処理を説明するための図である。 画像変換部140によって変換された時系列の車内画像の一例を示す図である。 画像判定部150によって実行される処理を説明するための図である。 アノテーターによって実行されるアノテーション作業の一例を示す図である。 学習済みモデル180を用いた運転支援の一例を示す図である。 画像変換部140によって実行される処理の流れの一例を示す図である。 画像判定部150によって実行される処理の流れの一例を示す図である。
 以下、図面を参照し、本発明の画像処理装置、画像処理方法、画像処理システム、およびプログラムの実施形態について説明する。
 [概要]
 図1は、本実施形態に係る画像処理装置100を含むシステム1の概要を示す図である。図1に示す通り、システム1は、それぞれが少なくとも一台以上の車両M1および車両M2と、画像処理装置100と、端末装置200とを含む。説明の便宜上、車両M1および車両M2とを異なる車両として図示しているが、これらの車両は同一であっても良い。
 車両M1は、例えば、ハイブリッド自動車や電気自動車などの四輪駆動車であり、少なくとも、車両M1の内部を撮像するカメラと、車両M1の外部を撮像するカメラとを含む。車両M1は、走行中、これらのカメラによって撮像された車内画像と車外画像とを、セルラー網やWi-Fi網、インターネットなどのネットワークNWを介して画像処理装置100に送信する。
 画像処理装置100は、車両M1から車内画像と車外画像とを含む撮像画像データを受信すると、受信した撮像画像データに対して、後述する画像変換を施すサーバ装置である。この画像変換は、車内画像と車外画像に写される人物のプライバシーを保護するための処理である。画像処理装置100は、得られた変換画像データを、ネットワークNWを介して端末装置200に送信する。
 端末装置200は、デスクトップパソコンやスマートフォンなどの端末装置である。端末装置200のユーザは、画像処理装置100から変換画像データを取得すると、取得した変換画像データに対して後述するアノテーションの付与作業を行う。アノテーションの付与作業が完了すると、端末装置200のユーザは、変換画像データにアノテーションが付与されたアノテーション付画像データを画像処理装置100に送信する。
 画像処理装置100は、アノテーション付画像データを端末装置200から受信すると、受信したアノテーション付画像データを学習データとして、任意の機械学習モデルを用いて、後述する学習済みモデルを生成する。この学習済みモデルは、例えば、車外画像の入力に対して、当該車外画像に写される人物の予測行動(軌道)を出力したり、車内画像および車外画像の入力に対して、当該車内画像に写される運転者の視線を考慮して、当該車外画像に写される歩行者への注意喚起を促す行動予測モデルである。
 なお、このとき学習データとして用いられる画像データは、変換画像データにアノテーションが付与されたアノテーション付画像データであってもよいし、アノテーションはそのままに、変換画像データを撮像画像データに再変換したアノテーション付画像データ(すなわち、撮像画像データにアノテーションが付与されたアノテーション付画像データ)であってもよい。撮像画像データにアノテーションが付与されたアノテーション付画像データを学習データとして用いることにより、画像変換による影響が除去された、より現実に即した学習データを用いることができる。
 画像処理装置100は、学習済みモデルを生成すると、生成した学習済みモデルを、ネットワークNWを介して車両M2に配布する。車両M1と同様、車両M2は、例えば、ハイブリッド自動車や電気自動車などの四輪駆動車であり、車両M2は、走行中、カメラによって撮像された車内画像と車外画像とのうちの少なくとも一方を学習済みモデルに入力することによって、車両M2の周辺に存在する人物の行動予測データを得る。車両M2の運転者は、得られた行動予測データを参照し、車両M2の運転に活用することができる。以下、各処理のより詳細な内容について説明する。
 [画像処理装置の機能構成]
 図2は、本実施形態に係る画像処理装置100の機能構成の一例を示す図である。画像処理装置100は、例えば、通信部110と、送受信制御部120と、画像処理部130と、画像変換部140と、画像判定部150と、学習済みモデル生成部160と、記憶部170と、を備える。これらの構成要素は、例えば、CPU(Central Processing Unit)などのハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。これらの構成要素のうち一部または全部は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)などのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予めHDD(Hard Disk Drive)やフラッシュメモリなどの記憶装置(非一過性の記憶媒体を備える記憶装置)に格納されていてもよいし、DVDやCD-ROMなどの着脱可能な記憶媒体(非一過性の記憶媒体)に格納されており、記憶媒体がドライブ装置に装着されることでインストールされてもよい。記憶部170は、例えば、HDDやフラッシュメモリ、RAM(Random Access Memory)等である。記憶部170は、例えば、撮像画像データ172と、変換画像データ174と、アノテーション用画像データ176と、アノテーション付画像データ178と、学習済みモデル180とを記憶する。なお、説明の便宜上、画像処理装置100は、学習済みモデル生成部160と、学習済みモデル180を記憶する記憶部170とを備えているが、学習済みモデルを生成する機能と、生成した学習済みモデルとは、画像処理装置100とは異なるサーバ装置が保有してもよい。
 通信部110は、ネットワークNWを介して自車両Mの通信装置10と通信するインターフェースである。例えば、通信部110は、NIC(Network Interface Card)や、無線通信用のアンテナなどを備える。
 送受信制御部120は、通信部110を用いて、車両M1およびM2と、端末装置200とデータの送受信を行う。より具体的には、まず、送受信制御部120は、車両M1から、車両M1に搭載されたカメラによって時系列に撮像された複数の車内画像と車外画像とを取得する。この場合の時系列とは、例えば、車両M1の発進から停止までの一走行サイクルにおいて所定間隔(例えば、1秒ごと)で撮像されるものである。
 図3は、車両M1から取得した車内画像と車外画像の一例を示す図である。図3の左部は、車両M1から取得した車内画像を表し、図3の右部は、車両M1から取得した車外画像を表す。図3の左部に示す通り、車内画像は、少なくとも車両M1の運転者の顔領域を撮像するようにカメラが設置された状態で撮像され、図3の右部に示す通り、車外画像は、少なくとも車両M1の進行方向前方を撮像するようにカメラが設置された状態で撮像される。送受信制御部120は、車両M1から取得した車内画像と車外画像とを画像IDに紐づけて撮像画像データ172として記憶部170に格納する。
 図4は、画像処理部130によって実行される処理を説明するための図である。画像処理部130は、撮像画像データ172に対して画像処理を施し、撮像画像データ172に含まれる各画像の画像属性、顔属性、方向などの情報を取得する。より具体的には、画像処理部130は、画像を入力すると、当該画像が車内画像か車外画像かを示す分類結果を出力する学習済みモデルを用いて、撮像画像データ172に含まれる各画像が車内画像か車外画像かを示す画像属性を取得する。
 さらに、画像処理部130は、画像を入力すると、当該画像に含まれる全ての顔について、顔領域と、顔の大きさ(顔領域の面積)と、画像の撮影位置から顔までの距離とを出力する学習済みモデルを用いて、撮像画像データ172に含まれる各画像の顔属性を取得する。図3では、一例として、車内画像からは人物P1の顔領域FA1が取得され、車外画像からは人物P2の顔領域FA2、人物P3の顔領域FA3、人物P4の顔領域FA4が取得されている。便宜上、顔領域FA1、FA2、FA3、FA4は矩形領域として取得されているが、本発明はそのような構成に限定されず、例えば、人物の顔の輪郭に沿って顔領域を取得する学習済みモデルを用いてもよい。
 さらに、画像処理部130は、画像を入力すると、当該画像に含まれる全ての顔について顔方向と視線方向のうちの少なくとも一方を例えばベクトルとして出力する学習済みモデルを用いて、撮像画像データ172に含まれる各画像に写される顔の方向情報を取得する。より具体的には、画像処理部130は、車内画像の属性を有する撮像画像データ172の画像については、画像を入力すると、当該画像に含まれる全ての顔について顔方向と視線方向とを出力する学習済みモデルを用いて、方向情報を取得する。一方、画像処理部130は、車外画像の属性を有する撮像画像データ172の画像については、画像を入力すると、当該画像に含まれる全ての顔について顔方向を出力する学習済みモデルを用いて、方向情報を取得する。これは、一般的に、車外画像に比して、車内画像に写される顔の方が撮影位置からの距離が近く、視線方向が抽出可能な程度に大きく顔が写されている傾向が高いからである。図3では、一例として、車内画像からは人物P1の顔方向FD1と視線方向ED1とが取得され、車外画像からは、人物P2の顔方向FD2、人物P3の顔方向FD3、人物P4の顔方向FD4が取得されている。
 画像処理部130は、撮像画像データ172の各画像について画像属性、顔属性、および方向情報を取得すると、当該画像に紐づけて、これら画像属性、顔属性、および方向情報を記録する。なお、上記では、一例として、画像処理部130は、学習済みモデルを用いて画像属性、顔属性、および方向情報を取得しているが、本発明はそのような構成に限定されず、画像処理部130は、任意の公知の手法を用いてこれら画像属性、顔属性、および方向情報を取得してもよい。
 画像変換部140は、画像処理部130によって処理された撮像画像データ172に対して、各画像に写される人物の方向情報を変更することなく、当該人物の顔を別人の顔に差し替える処理を、そのような機能が実装された任意のソフトウェアを用いて、実行する。図5は、画像変換部140によって実行される処理を説明するための図である。図5に示す通り、画像変換部140は、図4に示す人物P1、P2、およびP3の顔を、視線方向ED1および顔方向FD1、FD2、FD3を変更することなく別人物の顔に差し替えている。一方、人物P4の顔は、画像変換部140によりモザイク処理が施された結果、モザイクMSによって覆われている。
 すなわち、画像変換部140は、撮像画像データ172の各画像に写される各顔の顔属性に基づいて、当該顔を別人物の顔に差し替えるか、又はモザイク処理を施すかを決定する。より具体的には、画像変換部140は、撮像画像データ172の各画像に写される各顔について、当該顔の大きさが第1閾値Th1以上であるか否かを判定し、顔の大きさが第1閾値Th1以上であると判定された場合、当該顔を別人物の顔に差し替えると決定する。一方、顔の大きさが第1閾値Th1未満であると判定された場合、画像変換部140は、当該顔にモザイク処理を施すことを決定する。撮像画像に写される人物の顔を別人物の顔に差し替えるか、又はモザイク処理を施すことは、「匿名化処理」の一例である。
 また、画像変換部140は、撮像画像データ172の各画像に写される各顔について、当該顔の距離が第2閾値Th2以下であるか否かを判定し、顔の距離が第2閾値Th2以下であると判定された場合、当該顔を別人物の顔に差し替えると決定する。一方、顔の距離が第2閾値Th2より大きいと判定された場合、画像変換部140は、当該顔にモザイク処理を施すことを決定する。画像変換部140は、これらの判定処理を、画像に写される顔の数だけ繰り返し実行し、判定結果に従って各顔を別人物の顔に差し替えるか、又はモザイク処理を施す。画像変換部140は、撮像画像データ172にこのような処理を施して得られる画像データを変換画像データ174として記憶部170に格納する。これにより、行動予測モデルを生成するための学習データとして有用なデータを選別するとともに、後述するアノテーターがアノテーション作業を実施する際に、各画像に写される人物のプライバシーを保護することができる。
 なお、顔の大きさが第1閾値Th1以上であるか否かを判定する処理と、顔の距離が第2閾値Th2以下であるか否かを判定する処理は、少なくともいずれか一方が実施されればよい。両方の処理が実施される場合には、画像変換部140は、顔の大きさが第1閾値Th1以上であり、かつ顔の距離が第2閾値Th2以下である場合に、当該顔を別人物の顔に差し替えると決定してもよいし、顔の大きさが第1閾値Th1以上であるか、又は顔の距離が第2閾値Th2以下である場合に、当該顔を別人物の顔に差し替えると決定してもよい。
 さらに、画像変換部140は、撮像画像データ172の各画像に写される顔のうち、方向情報の取得に失敗した顔についてはモザイク処理を施すことによって、学習データとして活用する顔を選別してもよい。
 図6は、画像変換部140によって変換された時系列の車内画像の一例を示す図である。図6は、一例として、時点t、t+1、t+2の3つの時点における時系列の車内画像を変換した例を表している。これら時系列の車内画像は、同一人物を撮像および顔変換したものであるが、図6に示す通り、顔変換ソフトウェアの動作によっては、同一人物の顔が複数の異なる人物の顔に変換されることがあり得る。同一人物の顔が複数の異なる人物の顔に変換されたにも関わらず、そのような変換画像データをそのまま学習データとして用いることは、行動予測モデルの精度を悪化させる要因となり、好ましくない。そのため、画像判定部150は、以下で説明する処理を実行することによって、時系列の車内画像および車外画像の連続性を判定する。
 図7は、画像判定部150によって実行される処理を説明するための図である。図7に示す通り、画像判定部150は、まず、変換画像に写される人物の顔から、当該顔を表す特徴点を抽出する。例えば、画像判定部150は、変換画像に写される人物の顔から、当該顔の右目REP、左目LEP、鼻NP、右口角RMP、左口角LMP、耳EPを表す特徴点を抽出する。画像判定部150は、時系列の変換画像の各々から、同一人物として追跡された人物の顔の特徴点を抽出し、これら特徴点を照合する。なお、「同一人物として追跡された」か否かは、例えば、画像を変換する前の段階において、撮像画像に写される同一人物を対応付けておけばよい。
 図7の場合、画像判定部150は、時点tの変換画像に写される人物の特徴点と、時点t+1の変換画像に写される人物の特徴点とを抽出している。画像判定部150は、抽出したこれら2組の特徴点を並進や回転によって略一致するか否かを判定することによって照合を行う。
 照合の結果、抽出された特徴点が略一致すると判定された場合、画像判定部150は、同一人物として追跡された人物の顔が、変換後も同一人物の顔である(すなわち、顔に連続性あり)と判定する。一方、照合の結果、抽出された特徴点が略一致しないと判定された場合、画像判定部150は、同一人物として追跡された人物の顔が、変換後は同一人物の顔ではない(すなわち、顔に連続性なし)と判定する。その場合、画像変換部140は、連続性なしと判定された顔について、再度、変換処理を行う。このとき、画像変換部140は、連続性なしと判定された顔についてのみ再度、変換処理を行ってもよいし、時系列の変換画像に写される全ての人物の顔について、再度、変換処理を行ってもよい。また、例えば、画像変換部140は、連続性なしと判定された顔については、再度、変換処理を行うことなく、モザイク処理を施して、学習データとして活用する対象から除外してもよい。また、例えば、画像判定部150での判定の結果、同一人物として追跡された人物の顔が、変換後は同一人物の顔ではない(すなわち、顔に連続性なし)と判定された場合には、画像判定部150は、時系列の変換画像に対して所定処理を施すことを制限する、すなわち時系列の変換画像を学習データとして活用する対象から除外することとしてもよい。これにより、顔変換ソフトウェアの意図しない動作に起因する非連続性の発生を防止することができる。
 画像判定部150は、さらに、変換画像を、顔方向と視線方向のうちの少なくとも一方を出力する上記の学習済みモデルに再度入力し、変換画像における顔方向FD又は視線方向EDを取得する。画像判定部150は、変換画像に写される人物の顔に対して、当該顔の顔方向FD又は視線方向EDが、変換前の撮像画像に写される顔の顔方向FD又は視線方向EDと略一致するか否かを判定する。上述した通り、車内画像については顔方向FDおよび視線方向EDの双方が取得され、車外画像については顔方向FDが取得されている。そのため、画像判定部150は、車内画像については、変換前の撮像画像と変換画像との間で、顔方向FDおよび視線方向EDが略一致するか否かを判定し、車外画像については、変換前の撮像画像と変換画像との間で、顔方向FDが略一致するか否かを判定する。より具体的には、例えば、画像判定部150は、変換前の撮像画像における顔方向FDを表すベクトルと、変換画像における顔方向FDを表すベクトルとの間の角度差を算出し、算出した角度差が閾値以内である場合に、顔方向FDが略一致すると判定する。視線方向EDについても同様である。顔の連続性又は方向情報の一致性が満たされることは、「所定要件」の一例である。
 変換前の撮像画像と変換画像との間で、顔方向FD又は視線方向EDが略一致しないと判定された場合、画像変換部140は、顔方向FD又は視線方向EDが略一致しないと判定された顔について、再度、撮影画像に対して変換処理を行う。このとき、画像変換部140は、略一致しないと判定された顔についてのみ再度、変換処理を行ってもよいし、略一致しないと判定された顔を含む変換画像に含まれる全ての顔について、再度、変換処理を行ってもよい。また、例えば、画像変換部140は、略一致しないと判定された顔については、再度、変換処理を行うことなく、モザイク処理を施して、学習データとして活用する対象から除外してもよい。また、例えば、画像判定部150での判定の結果、略一致しないと判定された場合には、画像判定部150は、時系列の変換画像に対して所定処理を施すことを制限する、すなわち時系列の変換画像を学習データとして活用する対象から除外することとしてもよい。これにより、顔変換ソフトウェアの意図しない動作に起因する情報の劣化を防止することができる。
 なお、変換画像に写される顔が複数存在する場合(または、変換画像に写される顔の数が所定値以上である場合)、上述した画像判定部150によって実行される変換画像の連続性に関する判定処理と、方向情報の一致性に関する判定処理とは、変換画像に写される全ての顔についてではなく、より重要度が高いと想定される顔についてのみ実行してもよい。より重要度が高いと想定される顔の例として、画像判定部150は、変換前の撮像画像において、顔の大きさが第1閾値Th1よりも大きい第3閾値Th3以上の顔についてのみ、これらの判定処理を実行してもよいし、顔の距離が第2閾値Th2よりも小さい第4閾値Th4以下の顔についてのみ、これらの判定処理を実行してもよい。また、例えば、画像判定部150は、変換前の撮像画像において、車両M1の進行方向前方に存在する人の顔や、顔方向が車両M1の進行方向前方に向かっている人の顔をより重要度が高いと想定し、これらの判定処理を実行してもよい。また、例えば、変換画像に写されるある一つの顔について連続性又は一致性が否定された場合、当該顔と、重要度が高いと想定される顔について再変換処理を実行してもよい。
 画像判定部150は、時系列の変換画像について連続性と一致性とが確認されると、連続性と一致性とが確認された変換画像データ174をアノテーション用画像データ176として記憶部170に格納する。このとき、変換画像データ174を、利用目的を示す情報とともに、例えば入力画像に写される人物の行動を予測する行動予測モデルを生成するためのアノテーション用画像データであることを示す情報とともに、変換画像データ174をアノテーション用画像データ176として記憶部170に格納してもよい。送受信制御部120は、アノテーション用画像データ176を端末装置200に送信する。端末装置200のユーザであるアノテーターは、受信したアノテーション用画像データ176に含まれるアノテーション用画像にアノテーション作業を実施することでアノテーション付画像データを生成し、画像処理装置100に送信する。画像処理装置100は、受信したアノテーション付画像データを記憶部170にアノテーション付画像データ178として格納する。
 なお、上述した画像判定部150によって実行される変換画像の連続性に関する判定処理と、顔方向情報の一致性に関する判定処理とは、少なくとも一方が実行されればよく、連続性と一致性の少なくとも一方が成立した場合に、変換画像データ174がアノテーション用画像データ176として記憶部170に格納されてもよい。
 さらに、画像判定部150は、例えば、一走行サイクルにおいて所定間隔(例えば、1秒ごと)で得られた時系列の撮像画像(又は、その変換画像)について、カメラの不具合等に起因して欠落したものが存在する場合、これら時系列の画像の全てをアノテーション用画像データ176として記憶部170に格納しなくてもよい。
 図8は、アノテーターによって実行されるアノテーション作業の一例を示す図である。図8の左部は車内画像の変換画像へのアノテーションを表し、図8の右部は車外画像の変換画像へのアノテーションを表す。アノテーターは、車内画像の変換画像に対して、例えば、当該変換画像に写される運転者の視線方向ED1が、同一時点の車外画像の変換画像に示される状況において、適切であるか否かを示す情報(例えば、適切であれば1、不適切であれば0)を付与する。例えば、図8の場合、車外画像の変換画像は、車両進行方向の左手に歩行者が存在することを示している一方、車内画像の変換画像は、運転者が左方向に視線を向けていることを示している。換言すると、運転者は歩行者に対して適切な注意を払っていることが想定されるため、アノテーターは、運転者の視線方向ED1が適切であることを示す情報(すなわち、1)を付与する。
 さらに、アノテーターは、車外画像の変換画像に対して、例えば、モザイク処理を施された人物を除く、当該変換画像に写される人物が進行すると予測されるリスクエリアRAを指定する。画像変換部140および画像判定部150による処理により、元画像に写される人物の顔は別人物の顔に変換されているため、当該人物のプライバシーは保護されている。同時に、変換後も、人物の顔方向および視線方向は維持されているため、アノテーターは、変換画像に写される別人物の顔方向および視線方向を参照しつつ、リスクエリアRAを正確に指定することができる。これにより、顔画像に写される人物のプライバシーを保護しつつ、機械学習モデルの学習に有効な学習データを生成することができる。
 アノテーション付画像データ178が記憶部170に格納されると、学習済みモデル生成部160は、アノテーション付画像データ178を学習データとして、任意の機械学習モデルを用いて、学習済みモデルを生成する。この学習済みモデルは、上述した通り、例えば、車外画像の入力に対して、当該車外画像に写される人物の予測行動(軌道)を出力したり、車内画像および車外画像の入力に対して、当該車内画像に写される運転者の視線を考慮して、当該車外画像に写される歩行者への注意喚起を促す行動予測モデルである。学習済みモデル生成部160は、生成した学習済みモデルを学習済みモデル180として記憶部170に格納する。
 送受信制御部120は、学習済みモデル180が生成されると、生成された学習済みモデル180を、ネットアークNWを介して車両M2に配布する。車両M2は、学習済みモデル180を受信すると、当該学習済みモデル180(より正確には、学習済みモデル180を活用したアプリケーションプログラム)を用いて車両M2の運転者に対する運転支援を行う。
 図9は、学習済みモデル180を用いた運転支援の一例を示す図である。図9は、車両M2が、走行中、搭載するカメラによって撮像された車内画像および車外画像を学習済みモデル180に入力し、学習済みモデル180が、当該車内画像に写される運転者の視線を考慮して、当該車外画像に写される歩行者への注意喚起を促す情報をHMI(human machine interface)に出力することによって運転支援を行う例を表している。図9に示す通り、例えば、HMIは、車外画像に写される歩行者P5に対応するリスク領域RA2を表示すると共に、車内画像に写される運転者の視線が当該歩行者P5に向いていない場合、警告メッセージ(「脇見運転に注意して下さい」)を文字情報や音声情報として出力する。これにより、運転者の状態を考慮した運転支援を実現することができる。
 次に、図10および図11を参照して、画像処理装置100によって実行される処理の流れについて説明する。図10は、画像変換部140によって実行される処理の流れの一例を示す図である。図10に示す処理は、例えば、車両M1に搭載されるカメラによって車内画像または車外画像が撮像され、画像処理部130による処理が施されたタイミングで実行されるものである。
 まず、画像変換部140は、画像処理部130による処理が施された撮像画像データ172に含まれる撮像画像を取得する(ステップS100)。次に、画像変換部140は、取得した撮像画像に写される顔を一つ選択する(ステップS102)。
 次に、画像変換部140は、選択した顔の大きさが第1閾値Th1以上であるか否かを判定する(ステップS104)。選択した顔の大きさが第1閾値Th1以上であると判定された場合、画像変換部140は、当該顔を別人物の顔に変換する(ステップS106)。一方、選択した顔の大きさが第1閾値Th1未満であると判定された場合、画像変換部140は、次に、選択した顔の距離が第2閾値Th2以下であるか否かを判定する(ステップS108)。
 選択した顔の距離が第2閾値Th2以下であると判定された場合、画像変換部140は、ステップS106に進み、当該顔を別人物の顔に変換する。一方、選択した顔の距離が第2閾値Th2より大きいと判定された場合、画像変換部140は、当該顔にモザイク処理を施す(ステップS110)。次に、画像変換部140は、取得した撮像画像に写される全ての顔に対して処理を実行したか否かを判定する(ステップS112)。
 取得した撮像画像に写される全ての顔に対して処理を実行したと判定された場合、画像変換部140は、全ての顔に対して処理が実行したことによって得られる画像を変換画像として取得し、変換画像データ174として記憶部170に格納する(ステップS114)。一方、取得した撮像画像に写される全ての顔に対して処理を実行していないと判定された場合、画像変換部140は、処理をステップS102に戻す。これにより、本フローチャートの処理が終了する。
 図11は、画像判定部150によって実行される処理の流れの一例を示す図である。図11に示す処理は、例えば、車両M1の発進から停止までの一走行サイクルにおいて撮像された時系列の撮像画像に対して上記の変換処理を施すことによって時系列の変換画像が得られたタイミングで実行されるものである。
 まず、画像判定部150は、時系列の変換画像を取得する(ステップS200)。次に、画像判定部150は、取得した時系列の変換画像において、変換前に同一人物として追跡された人物の顔を選択する(ステップS202)。
 次に、画像判定部150は、時系列の変換画像の各々から、変換前に同一人物として追跡された人物の顔から特徴点を抽出し、照合を行うことによって、これらの顔は変換後も同一であるか否かを判定する(ステップS204)。変換後も顔が同一であると判定された場合、次に、画像判定部150は、取得した時系列の変換画像が車内画像であるか否かを判定する(ステップS206)。一方、顔が同一ではないと判定された場合、画像判定部150は、画像変換部140に、時系列の撮像画像において変換前に同一人物として追跡された人物の顔を再度、変換させる(ステップS208)。その後、画像判定部150は、再度、変換された顔に対して再度ステップS204の処理を実行する。
 ステップS206において、取得した時系列の変換画像が車内画像であると判定された場合、画像判定部150は、これらの顔の視線方向と顔方向が変換前の画像と一致しているか否かを判定する(ステップS210)。一方、取得した時系列の変換画像が車内画像ではない、すなわち、車外画像であると判定された場合、画像判定部150は、これらの顔の顔方向が変換前の画像と一致しているか否かを判定する(ステップS212)。ステップS210又はステップS212の処理において一致しないと判定された場合、画像判定部150は、処理をステップS208に進める。
 ステップS210又はステップS212の処理において一致すると判定された場合、画像判定部150は、これらの顔が正常に変換されたものであると判定し、時系列の変換画像に写される全ての顔について処理を実行したか否かを判定する(ステップS214)。時系列の変換画像に写される全ての顔に対して処理を実行したと判定された場合、画像判定部150は、これら時系列の変換画像をアノテーション用画像として取得し、送受信制御部120に取得したアノテーション用画像を端末装置200に送信させる(ステップS216)。一方、時系列の変換画像に写される全ての顔に対して処理を実行していないと判定された場合、画像判定部150は、処理をステップS202に戻す。これにより、本フローチャートの処理が終了する。
 以上の通り説明した本実施形態によれば、匿名化処理が施された複数の入力画像が所定要件を満たすと判定した場合、匿名化処理が施された複数の入力画像に所定処理を施し、当該匿名化処理は、複数の入力画像に写される人物の顔を別人物の顔に変更する処理を含み、当該所定要件は、匿名化処理が施された複数の入力画像に写された、同一人物として追跡された人物の顔が、匿名化処理によって得られる同一人物の顔であることを含む。すなわち、本実施形態では、匿名化処理前に同一人物のものであった顔は、匿名化処理においても同一人物の顔であることが保証され、学習データとして活用される。これにより、顔画像に写される人物のプライバシーを保護しつつ、機械学習モデルの学習に有効な学習データを生成することができる。
 また、本実施形態によれば、所定要件は、複数の入力画像において同一人物として追跡された人物の顔の方向情報と、前記匿名化処理が施された前記複数の入力画像における前記同一人物の顔の方向情報とが一致することを含む。すなわち、本実施形態では、匿名化処理を施しても同一人物の顔の方向情報は不変であることが保証される。これにより、顔画像に写される人物のプライバシーを保護しつつ、機械学習モデルの学習に有効な学習データを生成することができる。
 また、本実施形態によれば、所定要件は、複数の入力画像の撮影態様である画像属性に応じて定められるものである。すなわち、本実施形態では、複数の入力画像の各々の撮影態様を考慮して、例えば、行動予測モデルを生成するための学習用情報として保存する処理である所定処理が実行される。これにより、顔画像に写される人物のプライバシーを保護しつつ、機械学習モデルの学習に有効な学習データを生成することができる。
 また、本実施形態によれば、複数の入力画像の各々に写される顔の大きさ又は撮影地点から顔への距離に基づいて、第1方法により匿名化処理を施すか、第1方法とは異なる第2方法により匿名化処理を施すかを決定する。すなわち、本実施形態では、機械学習モデルの学習に有用か否かに応じて、顔に対して施す匿名化処理の方法を変更する。これにより、顔画像に写される人物のプライバシーを保護しつつ、機械学習モデルの学習に有効な学習データを生成することができる。
 [変形例]
 上述した通り、本実施形態では、画像判定部150によって、変換画像に写される顔が所定要件を満たさないと判定された場合、当該変換画像を再変換したり、モザイク処理を施す例について説明した。しかし、画像判定部150によって所定要件が満たされていないと判定された場合には、画像判定部150は変換画像に対して所定処理を施さない、すなわち、所定処理を施すことを制限する(画像保管、サーバへの送信等をしない)といった処理を行ってもよい。
 さらに、本実施形態では、画像処理装置100が、車両M1とは別体のサーバ装置として実装されている例について説明した。しかし、本実施形態の変形例として、画像処理装置100、より具体的には、少なくとも画像処理部130、画像変換部140、画像判定部150の機能を有する装置が車載装置として車両M1に搭載されてもよい。その場合、車載装置は、車載カメラが撮像した画像に、上述した画像処理部130による処理を施し、画像変換部140による匿名化を行い、画像判定部150による判定を行う。その後、車載装置は、画像判定部150によって顔の連続性と方向情報の一致性とが確認された匿名化画像を外部の画像サーバに送信する。
 画像サーバは、車両M1から匿名化画像を受信すると、受信した匿名化画像をアノテーション用画像データとして記憶部に蓄積するとともに、アノテーション用画像データをアノテーターの端末装置200に送信するか、又は端末装置200によるアノテーション用画像データへのアクセスを許可する。画像サーバは、端末装置200からアノテーション付画像データを受信すると、当該アノテーション付画像データに基づいて学習済みモデル180を生成し、生成された学習済みモデル180を車両M2に配布する。このようにしても、本実施形態と同様に、顔画像に写される人物のプライバシーを保護しつつ、機械学習モデルの学習に有効な学習データを生成することができる。さらに、本変形例によれば、車載装置が画像に匿名化処理を施した上で匿名化画像を画像サーバに送信するため、顔画像に写される人物のプライバシーをさらに確実に保護することができる。
 さらに、別の態様として、車載装置は、画像処理部130、画像変換部140、画像判定部150のうちの一部の機能のみを備え、画像サーバが残りの機能を有してもよい。例えば、車載装置は画像処理部130と画像変換部140の機能を備え、画像サーバは画像判定部150の機能を備えてもよいし、車載装置は画像処理部130の機能を備え、画像サーバは画像変換部140と画像判定部150の機能を備えてもよい。
 上記説明した実施形態は、以下のように表現することができる。
 コンピュータによって読み込み可能な命令(computer-readable instructions)を格納する記憶媒体(storage medium)と、
 前記記憶媒体に接続されたプロセッサと、を備え、
 前記プロセッサは、前記コンピュータによって読み込み可能な命令を実行することにより(the processor executing the computer-readable instructions to:)
 入力画像の撮影態様である画像属性を取得し、
 前記入力画像に対して匿名化処理を行い、
 前記匿名化処理が施された前記入力画像が所定要件を満たすか否かを判定し、
 前記匿名化処理が施された前記入力画像が前記所定要件を満たすと判定した場合、前記匿名化処理が施された前記入力画像に所定処理を施し、
 前記所定要件は、取得された前記画像属性に応じて定められるものであるように構成されている、画像処理装置。
 以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
100 画像処理装置
110 通信部
120 送受信制御部
130 画像処理部
140 画像変換部
150 画像判定部
160 学習済みモデル生成部
170 記憶部
172 撮像画像データ
174 変換画像データ
176 アノテーション用画像データ
178 アノテーション付画像データ
180 学習済みモデル
 

Claims (13)

  1.  入力画像の撮影態様である画像属性を取得する画像属性取得部と、
     前記入力画像に対して匿名化処理を行う画像変換部と、
     前記匿名化処理が施された前記入力画像が所定要件を満たすか否かを判定する画像判定部と、を備え、
     前記画像判定部は、前記匿名化処理が施された前記入力画像が前記所定要件を満たすと判定した場合、前記匿名化処理が施された前記入力画像に所定処理を施し、
     前記所定要件は、取得された前記画像属性に応じて定められるものである、
     画像処理装置。
  2.  前記所定処理は、前記匿名化処理が施された前記入力画像をアノテーション作業の対象画像として保存する処理である、
     請求項1に記載の画像処理装置。
  3.  前記所定処理は、前記匿名化処理が施された前記入力画像を、入力画像に写される人物の行動を予測する行動予測モデルを生成するための学習用情報として保存する処理である、
     請求項1に記載の画像処理装置。
  4.  前記所定処理は、前記匿名化処理が施された前記入力画像を、通信手段を通じて画像サーバに送信する処理である、
     請求項1に記載の画像処理装置。
  5.  前記画像属性は、前記入力画像が、前記入力画像を撮像したカメラが搭載された車両の内部を撮像した画像か、前記車両の外部を撮像した画像かを少なくとも示す情報である、
     請求項1に記載の画像処理装置。
  6.  前記匿名化処理は、前記入力画像に写される人物の顔を別人物の顔に変更する処理を含み、
     前記所定要件は、前記画像属性が前記車両の内部を撮像した画像であることを示すものである場合、前記人物の顔の視線方向と前記別人物の顔の視線方向とが一致するか否かを含むものである、
     請求項5に記載の画像処理装置。
  7.  前記所定要件は、前記画像属性が前記車両の内部を撮像した画像であることを示すものである場合、前記人物の顔の視線方向と前記別人物の顔の視線方向とが一致するか否かと、前記人物の顔の顔方向と前記別人物の顔の顔方向とが一致するか否かと、を含むものであり、
     前記所定要件は、前記画像属性が前記車両の外部を撮像した画像であることを示すものである場合、前記人物の顔の顔方向と前記別人物の顔の顔方向とが一致するか否かを含むものである、
     請求項6に記載の画像処理装置。
  8.  前記所定要件は、前記画像属性が前記車両の外部を撮像した画像であることを示すものである場合、前記人物の顔の視線方向と前記別人物の顔の視線方向とが一致するか否かを含まないものである、
     請求項6に記載の画像処理装置。
  9.  前記画像変換部は、前記画像判定部によって、前記匿名化処理が施された前記入力画像が前記所定要件を満たさないと判定した場合、前記入力画像に前記匿名化処理を再度、施す、
     請求項1に記載の画像処理装置。
  10.  前記画像変換部は、前記画像判定部によって、前記匿名化処理が施された前記入力画像が前記所定要件を満たさないと判定した場合、前記匿名化処理が施された前記入力画像に前記所定処理を施さない、
     請求項1に記載の画像処理装置。
  11.  入力画像の撮影態様である画像属性を取得する画像属性取得部と、
     前記入力画像に対して匿名化処理を行う画像変換部と、
     前記匿名化処理が施された前記入力画像が所定要件を満たすか否かを判定する画像判定部と、を備え、
     前記画像判定部は、前記匿名化処理が施された前記入力画像が前記所定要件を満たすと判定した場合、前記匿名化処理が施された前記入力画像に所定処理を施し、
     前記所定要件は、取得された前記画像属性に応じて定められるものである、
     画像処理システム。
  12.  コンピュータが、
     入力画像の撮影態様である画像属性を取得し、
     前記入力画像に対して匿名化処理を行い、
     前記匿名化処理が施された前記入力画像が所定要件を満たすか否かを判定し、
     前記匿名化処理が施された前記入力画像が前記所定要件を満たすと判定した場合、前記匿名化処理が施された前記入力画像に所定処理を施し、
     前記所定要件は、取得された前記画像属性に応じて定められるものである、
     画像処理方法。
  13.  コンピュータに、
     入力画像の撮影態様である画像属性を取得させ、
     前記入力画像に対して匿名化処理を行わせ、
     前記匿名化処理が施された前記入力画像が所定要件を満たすか否かを判定させ、
     前記匿名化処理が施された前記入力画像が前記所定要件を満たすと判定した場合、前記匿名化処理が施された前記入力画像に所定処理を施させ、
     前記所定要件は、取得された前記画像属性に応じて定められるものである、
     プログラム。
PCT/JP2023/024253 2022-06-30 2023-06-29 画像処理装置、画像処理方法、画像処理システム、およびプログラム WO2024005160A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022106676A JP2024006102A (ja) 2022-06-30 2022-06-30 画像処理装置、画像処理方法、画像処理システム、およびプログラム
JP2022-106676 2022-06-30

Publications (1)

Publication Number Publication Date
WO2024005160A1 true WO2024005160A1 (ja) 2024-01-04

Family

ID=89382512

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/024253 WO2024005160A1 (ja) 2022-06-30 2023-06-29 画像処理装置、画像処理方法、画像処理システム、およびプログラム

Country Status (2)

Country Link
JP (1) JP2024006102A (ja)
WO (1) WO2024005160A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014085796A (ja) * 2012-10-23 2014-05-12 Sony Corp 情報処理装置およびプログラム
JP2017187850A (ja) * 2016-04-01 2017-10-12 株式会社リコー 画像処理システム、情報処理装置、プログラム
WO2019146357A1 (ja) * 2018-01-24 2019-08-01 富士フイルム株式会社 医療画像処理装置、方法及びプログラム並びに診断支援装置、方法及びプログラム
JP2020061081A (ja) * 2018-10-12 2020-04-16 キヤノン株式会社 画像処理装置および画像処理方法
JP2020170496A (ja) * 2019-04-04 2020-10-15 ▲広▼州大学 顔認識用の年齢プライバシー保護方法及びシステム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014085796A (ja) * 2012-10-23 2014-05-12 Sony Corp 情報処理装置およびプログラム
JP2017187850A (ja) * 2016-04-01 2017-10-12 株式会社リコー 画像処理システム、情報処理装置、プログラム
WO2019146357A1 (ja) * 2018-01-24 2019-08-01 富士フイルム株式会社 医療画像処理装置、方法及びプログラム並びに診断支援装置、方法及びプログラム
JP2020061081A (ja) * 2018-10-12 2020-04-16 キヤノン株式会社 画像処理装置および画像処理方法
JP2020170496A (ja) * 2019-04-04 2020-10-15 ▲広▼州大学 顔認識用の年齢プライバシー保護方法及びシステム

Also Published As

Publication number Publication date
JP2024006102A (ja) 2024-01-17

Similar Documents

Publication Publication Date Title
US11606516B2 (en) Image processing device, image processing method, and image processing system
CN107924632B (zh) 信息处理设备、信息处理方法和程序
CN108388837B (zh) 一种用于评估自主车辆的内部的系统和方法
US11042999B2 (en) Advanced driver assist systems and methods of detecting objects in the same
US11481913B2 (en) LiDAR point selection using image segmentation
JP6601506B2 (ja) 画像処理装置、物体認識装置、機器制御システム、画像処理方法、画像処理プログラム及び車両
US11308324B2 (en) Object detecting system for detecting object by using hierarchical pyramid and object detecting method thereof
WO2019111529A1 (ja) 画像処理装置および画像処理方法
WO2024005160A1 (ja) 画像処理装置、画像処理方法、画像処理システム、およびプログラム
WO2024005074A1 (ja) 画像処理装置、画像処理方法、画像処理システム、およびプログラム
WO2024005051A1 (ja) 画像処理装置、画像処理方法、画像処理システム、およびプログラム
WO2024005073A1 (ja) 画像処理装置、画像処理方法、画像処理システム、およびプログラム
CN112241963A (zh) 基于车载视频的车道线识别方法、系统和电子设备
JP2021114048A (ja) 情報処理装置、車両、車両の制御方法、プログラム、情報処理サーバ、情報処理方法
Dai et al. [Retracted] An Intelligent Security Classification Model of Driver’s Driving Behavior Based on V2X in IoT Networks
WO2024180706A1 (ja) 画像処理装置、画像処理方法、およびプログラム
CN116872840A (zh) 车辆防撞预警方法、装置、车辆和存储介质
US12096113B2 (en) Information processing apparatus, information processing method, and program
US20230401911A1 (en) Lightweight in-vehicle critical scenario extraction system
Saadeldin et al. Real-time vehicle counting using custom YOLOv8n and DeepSORT for resource-limited edge devices
CN112883927A (zh) 司乘状态检测方法、装置及计算机可读存储介质
WO2024180709A1 (ja) 画像処理装置、画像処理方法、およびプログラム
US20230109494A1 (en) Methods and devices for building a training dataset
US20230303110A1 (en) Training of a perception model on edge of a vehicle
US20230394842A1 (en) Vision-based system with thresholding for object detection

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23831599

Country of ref document: EP

Kind code of ref document: A1