[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

WO2023181808A1 - 情報処理装置、情報処理方法、及び、記録媒体 - Google Patents

情報処理装置、情報処理方法、及び、記録媒体 Download PDF

Info

Publication number
WO2023181808A1
WO2023181808A1 PCT/JP2023/007501 JP2023007501W WO2023181808A1 WO 2023181808 A1 WO2023181808 A1 WO 2023181808A1 JP 2023007501 W JP2023007501 W JP 2023007501W WO 2023181808 A1 WO2023181808 A1 WO 2023181808A1
Authority
WO
WIPO (PCT)
Prior art keywords
imaging device
learning
control unit
information processing
user
Prior art date
Application number
PCT/JP2023/007501
Other languages
English (en)
French (fr)
Inventor
健一郎 細川
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to CN202380027930.3A priority Critical patent/CN118891885A/zh
Publication of WO2023181808A1 publication Critical patent/WO2023181808A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/90Arrangement of cameras or camera modules, e.g. multiple cameras in TV studios or sports stadiums

Definitions

  • the present disclosure relates to an information processing device, an information processing method, and a recording medium.
  • telecommunication systems have been used that allow users in remote locations to communicate by having conversations as if they were face-to-face.
  • the placement of imaging devices and display devices may be limited. Therefore, the line of sight of the users may not match, and, for example, eye contact may not be established.
  • the telecommunication system generates an image that appears to have been photographed of the first user from a virtual photographing position, based on a captured image of the first user.
  • the virtual shooting position is the second user's viewpoint position displayed on the display device.
  • the telecommunication system provides an image that is displayed on the display device as if the image was captured from the viewpoint position of the second user, with respect to a captured image of the first user captured by an imaging device disposed around the display device. Perform viewpoint conversion.
  • the telecommunication system displays the captured image that has been subjected to viewpoint conversion on a display device on the second user side.
  • the telecommunication system can match the line of sight of the first user and the second user.
  • the above-mentioned telecommunication system performs viewpoint conversion using a plurality of captured images, for example, using viewpoint interpolation technology.
  • a technique for performing viewpoint conversion using a plurality of captured images for example, a viewpoint conversion technique using machine learning is known.
  • viewpoint transformation of captured images using machine learning When performing viewpoint transformation of captured images using machine learning, if the telecommunications system learns viewpoint transformation specialized for a specific person, the accuracy of viewpoint transformation for unspecified people may deteriorate. . In other words, viewpoint conversion that is learned specifically for a specific person has reduced versatility.
  • a telecommunications system learns viewpoint conversion in a general-purpose manner, in other words, without specifying a person, there is a risk that the accuracy of viewpoint conversion for a specific person may deteriorate. That is, the accuracy of viewpoint conversion learned for an unspecified person may decrease depending on the person to be converted.
  • the present disclosure provides a mechanism that can further improve the accuracy of viewpoint conversion targeted at a specific person in viewpoint conversion targeted at an unspecified person.
  • the information processing device of the present disclosure includes a control unit.
  • the control unit causes a user to face the first imaging device among a first imaging device and a second imaging device arranged symmetrically with respect to a virtual camera set with respect to the display.
  • the output device is controlled to guide the user.
  • the control unit acquires a teacher image including a user facing the first imaging device from the first imaging device.
  • the control unit is configured to adjust the viewpoint of the second imaging device to correspond to the viewpoint of the virtual camera based on the symmetry of the first imaging device and the second imaging device with respect to the virtual camera and the teacher image. Performs conversion learning processing.
  • FIG. 1 is a diagram for explaining an overview of a telecommunications system according to an embodiment of the present disclosure.
  • FIG. 2 is a diagram showing an example of a captured image captured by an imaging device.
  • FIG. 2 is a diagram showing an example of a captured image captured by an imaging device.
  • FIG. 2 is a diagram illustrating an example arrangement of imaging devices according to an embodiment of the present disclosure.
  • FIG. 2 is a diagram illustrating an example of a converted image generated by the information processing system according to the embodiment of the present disclosure through viewpoint conversion processing.
  • FIG. 3 is a diagram for explaining an example of acquiring student images and teacher images according to an embodiment of the present disclosure.
  • FIG. 3 is a diagram for explaining an example of acquiring student images and teacher images according to an embodiment of the present disclosure.
  • FIG. 2 is a diagram illustrating an example of a network structure of a conversion model used for viewpoint conversion by the information processing system according to an embodiment of the present disclosure.
  • FIG. 2 is a diagram for explaining an example of individualized learning performed by the information processing system according to the embodiment of the present disclosure. It is a chart showing an example of combinations of imaging devices used for personalized learning according to an embodiment of the present disclosure. It is a chart showing an example of combinations of imaging devices used for personalized learning according to an embodiment of the present disclosure.
  • FIG. 7 is a diagram illustrating another example of the arrangement of the imaging device according to the embodiment of the present disclosure.
  • FIG. 1 is a block diagram illustrating a configuration example of an information processing system according to an embodiment of the present disclosure.
  • FIG. 2 is a block diagram illustrating a configuration example of a management unit according to an embodiment of the present disclosure.
  • FIG. 2 is a diagram illustrating an example of a learning data acquisition plan according to an embodiment of the present disclosure. It is a chart showing an example of a head pose according to an embodiment of the present disclosure. It is a chart showing an example of facial expressions according to an embodiment of the present disclosure.
  • FIG. 2 is a block diagram illustrating a configuration example of a learning control unit according to an embodiment of the present disclosure.
  • FIG. 2 is a block diagram illustrating a configuration example of a conversion unit according to an embodiment of the present disclosure.
  • FIG. 2 is a block diagram illustrating a configuration example of an estimation unit according to an embodiment of the present disclosure.
  • FIG. 3 is a block diagram illustrating another configuration example of the estimation unit according to the embodiment of the present disclosure.
  • FIG. 2 is a block diagram illustrating a configuration example of a UI control unit according to an embodiment of the present disclosure.
  • FIG. 2 is a diagram for explaining an example of a UI image according to an embodiment of the present disclosure.
  • FIG. 2 is a flowchart illustrating an example of the flow of UI generation processing according to an embodiment of the present disclosure. It is a flowchart which shows an example of the flow of individualized learning processing concerning an embodiment of this indication. 2 is a flowchart illustrating an example of the flow of verification processing according to an embodiment of the present disclosure.
  • 1 is a block diagram illustrating an example of a hardware configuration of an information processing device according to an embodiment.
  • similar components of the embodiments may be distinguished by attaching at least one of different alphabets and numbers after the same reference numerals.
  • a plurality of configurations having substantially the same functional configuration may be distinguished as imaging devices 300A_1, 300A_2, and 300B_1, as necessary.
  • imaging devices 300A_1, 300A_2, and 300B_1 are provided.
  • the imaging devices 300A_1, 300A_2, and 300B_1 are simply be referred to as the imaging device 300.
  • One or more embodiments (including examples and modifications) described below can each be implemented independently. On the other hand, at least a portion of the plurality of embodiments described below may be implemented in combination with at least a portion of other embodiments as appropriate. These multiple embodiments may include novel features that are different from each other. Therefore, these multiple embodiments may contribute to solving mutually different objectives or problems, and may produce mutually different effects.
  • FIG. 1 is a diagram for explaining an overview of a telecommunications system 1 according to an embodiment of the present disclosure.
  • Telecommunication system 1 includes information processing systems 10A and 10B.
  • Information processing systems 10A and 10B are connected via a network.
  • the telecommunication system 1 provides telecommunication services to the user UA who uses the information processing system 10A and the user UB who uses the information processing system 10B.
  • the telecommunication service is a service that provides interactive communication to users UA and UB located in remote locations.
  • the information processing system 10A shown in FIG. 1 includes an information processing device 100A, a display 210A, speakers 220A_1, 220A_2, and imaging devices 300A_1 to 300A_8.
  • the display 210A is a device that presents image information to the user UA according to instructions from the information processing device 100A.
  • the display 210A may display the received image received from the information processing system 10B, for example.
  • the display 210A can display images captured by the imaging devices 300A_1 to 300A_8, for example.
  • the display 210A can display, for example, a UI image generated by the information processing device 100A, other than the received image or the captured image.
  • the display 210A can display a combination of at least two of the received image, the captured image, and the UI image.
  • the speakers 220A_1 and 220A_2 are devices that present sound information to the user UA according to instructions from the information processing device 100A.
  • the speakers 220A_1 and 220A_2 can output audio information of the user UB, for example.
  • the voice information of the user UB is obtained, for example, from the information processing system 10B.
  • the speakers 220A_1 and 220A_2 can output audio information of the user UA, for example.
  • the user UA's voice information may be obtained from, for example, a microphone (not shown) included in the information processing system 10A.
  • the speakers 220A_1 and 220A_2 can output sound information other than the audio information of the users UA and UB, such as music, for example.
  • the speakers 220A_1 and 220A_2 can output a plurality of sound information in a superimposed manner.
  • the speaker 220A_1 may output the same sound information as the speaker 220A_2, or may output different sound information from the speaker 220A_2.
  • Speakers 220A_1 and 220A_2 may be arranged around display 210A, for example, or may be arranged at a position apart from display 210A.
  • the number of speakers 220A is not limited to two.
  • the number of speakers 220A may be one, or three or more. Further, the speaker 220A may be built into the display 210A or the information processing device 100A.
  • the display 210A and the speaker 220A are also collectively referred to as an output device.
  • the imaging devices 300A_1 to 300A_8 are, for example, cameras arranged around the display 210A to take images of the area around the display 210A.
  • the captured image captured by the imaging device 300A may be a moving image or a still image.
  • the imaging devices 300A_1 to 300A_8 may be built into the display 210A, or may be arranged around the display 210A as external cameras. Furthermore, the number of imaging devices 300A is not limited to eight. The number of imaging devices 300A may be at least two, and may be seven or less or nine or more.
  • the information processing device 100A controls each device included in the information processing system 10A. For example, the information processing device 100A generates information to be output from an output device. The information processing device 100A communicates with the information processing system 10B via the network.
  • the information processing system 10B is configured similarly to the information processing system 10A.
  • the information processing system 10B may have a different configuration from the information processing system 10A.
  • the number and arrangement of speakers 220B may be different from those of the information processing system 10A.
  • the number, arrangement, etc. of the imaging device 300B may be different from the information processing system 10A as long as there is symmetry described below.
  • the captured image P_2 shown in FIG. 2 is an image captured by the imaging device 300 (for example, the imaging device 300A_2 (see FIG. 1)) arranged above the display 210.
  • the captured image P_5 shown in FIG. 3 is an image captured by the imaging device 300 (for example, the imaging device 300A_5 (see FIG. 1)) arranged on the side of the display 210.
  • the information processing system 10 photographs the user U with the imaging device 300 arranged around the display 210, an image is photographed in which the user U's line of sight is directed diagonally, as shown in FIGS. 2 and 3. .
  • the image is displayed on the display 210 of the other party, it becomes difficult for the other party to make eye contact with the user U, making it difficult for the other party to make natural eye contact.
  • the information processing system 10 can photograph the user U from the front, it becomes easier for the other party to match the line of sight with the user U, making it easier to make natural eye contact.
  • the display 210 is placed in front of the user U, it is difficult for the information processing system 10 to photograph the user U from the front. For example, if the imaging device 300 is placed in front of the display 210, a portion of the display 210 will be hidden by the imaging device 300, making the other party invisible. Placing the imaging device 300 in front of the display 210 in this manner may impede smooth communication.
  • a method of photographing the user U from the front of the user U where the display 210 is placed can be considered by using a half mirror (not shown).
  • a half mirror is placed diagonally between display 210 and user U.
  • User U views the image displayed on display 210 through a half mirror.
  • a camera placed above the half mirror captures an image of the user U reflected in the half mirror.
  • the camera can photograph the user U directly facing the display 210 without interfering with the viewing experience of the user U.
  • the information processing system 10 becomes large-scale.
  • a method can be considered in which the display 210 is a transmissive display and the user U is photographed from the front of the user U where the display 210 is placed.
  • the camera is placed on the back of display 210.
  • the camera By disposing the camera on the back of the display 210 in this way, the camera can photograph the user U directly facing the display 210.
  • the performance of the display 210 may deteriorate, such as the amount of light on the display 210 becoming smaller.
  • the viewpoint of the captured image captured by the imaging device 300 is converted. There is a way to do it.
  • the information processing system 10 performs viewpoint conversion processing on the captured image captured by the imaging device 300 using, for example, machine learning, and generates a converted image captured from approximately the center of the display 210.
  • the information processing system 10 can perform learning specialized for the identified user U by acquiring student images and teacher images related to the user U in advance. (hereinafter also referred to as individualized learning). Thereby, the information processing system 10 can improve the conversion accuracy of the captured image including the specific user U.
  • the information processing system 10 performs viewpoint conversion such that the captured image is captured from the front (for example, approximately the center) of the display 210, it is desirable to perform the viewpoint conversion with higher accuracy.
  • the information processing system 10 uses the symmetry of the arrangement of the imaging device 300 to acquire the student image (learning data) and the teacher image (correct data). Thereby, the information processing system 10 can perform personalized learning specialized for the user U who uses the system in the telecommunication system 1 used by an unspecified user U.
  • FIG. 4 is a diagram illustrating an example arrangement of the imaging device 300 according to the embodiment of the present disclosure.
  • FIG. 4 schematically shows the positional relationship between the imaging device 300 and the display 210.
  • FIG. 5 is a diagram illustrating an example of a converted image generated by the information processing system 10 according to the embodiment of the present disclosure through viewpoint conversion processing.
  • the information processing system 10 converts the captured images captured by the imaging devices 300_1 to 300_8 into a converted image P_V captured by the virtual camera C_V located approximately in the center of the display 210 (see FIG. 5). That is, the information processing system 10 converts the captured image into a converted image P_V viewed from a viewpoint located approximately at the center of the display 210.
  • the converted image P_V is, for example, an image captured from the front of the user U, as shown in FIG.
  • the information processing system 10 executes viewpoint conversion processing using the captured images captured by the imaging devices 300_1 to 300_8, thereby generating a virtual image as if it were captured by the virtual camera C_V.
  • the eight imaging devices 300_1 to 300_8 shown in FIG. 4 are arranged symmetrically with respect to the virtual camera C_V.
  • the imaging device 300_1 and the imaging device 300_2 are arranged according to the relative positional relationship of the imaging device 300_4 and the virtual camera C_V.
  • the imaging devices 300_1, 300_2, and 300_4 are arranged according to the relative positional relationship of the imaging devices 300_5, 300_7 and the virtual camera C_V.
  • the imaging device 300 (for example, the imaging device 300_5) has the same relative positional relationship with the virtual camera C_V as the relative positional relationship of the other imaging devices 300 (for example, the imaging devices 300_6, 300_7). are arranged so that
  • the imaging devices 300_1, 300_3, 300_6, and 300_8 are each arranged at a corner of the display 210.
  • the imaging devices 300_2, 300_4, 300_5, and 300_7 are arranged at the edge of the display 210, respectively.
  • the arrangement of the imaging device 300 according to the relative positional relationship with the virtual camera C_V in this way is described as a symmetrical arrangement.
  • the imaging device 300 according to the present embodiment is arranged so as to have symmetry with respect to the virtual camera C_V, depending on the relative relationship with the virtual camera C_V.
  • the information processing system 10 acquires student images and teacher images including the user U, and performs viewpoint conversion learning specific to the user U.
  • FIG. 6 is a diagram for explaining an example of acquiring student images and teacher images according to the embodiment of the present disclosure.
  • the information processing system 10 performs processing for converting a captured image of an imaging device 300_2 (an example of a third imaging device; hereinafter also referred to as an input imaging device C_I) into a converted image P_V captured from a virtual camera C_V. Individualized learning will be conducted.
  • an imaging device 300_2 an example of a third imaging device; hereinafter also referred to as an input imaging device C_I
  • Individualized learning will be conducted.
  • the information processing system 10 uses the imaging device 300_4 as an imaging device (an example of a first imaging device; hereinafter also referred to as teacher imaging device C_T) for acquiring a teacher image.
  • the information processing system 10 uses the captured image captured by the teacher imaging device C_T as a teacher image (teacher data) P_T.
  • the information processing system 10 uses the imaging device 300_1 as an imaging device (an example of a second imaging device; hereinafter also referred to as student imaging device C_S) for acquiring student images.
  • the information processing system 10 uses the captured image captured by the student imaging device C_S as a student image (student data) P_S.
  • the teacher imaging device C_T and the student imaging device C_S are arranged so as to have symmetry with respect to the virtual camera C_V set for the display 210.
  • the information processing system 10 controls the output device to guide the user U to directly face (relative to) the teacher imaging device C_T.
  • the user U when the user U is directly facing (relative to) the teacher imaging device C_T, it means that the user U is located in front of the teacher imaging device C_T. More specifically, when the user U is directly facing (relative to) the teacher imaging device C_T, it means, for example, that the user U is located approximately at the center of the angle of view of the teacher imaging device C_T.
  • the information processing system 10 acquires a teacher image P_T including the user U directly facing (relative to) the teacher image capturing device C_T from the teacher image capturing device C_T.
  • the information processing system 10 acquires a student image P_S including the user U directly facing (relative to) the teacher imaging device C_T from the student imaging device C_S.
  • the information processing system 10 performs conversion processing to correspond to the viewpoint of the virtual camera C_V based on the symmetry of the teacher imaging device C_T and the student imaging device C_S with respect to the virtual camera C_V and the teacher image. Performs conversion learning processing.
  • the information processing system 10 performs a conversion process of converting a captured image captured by an input image capturing device C_I into a converted image P_V from a perspective set for the display 210 using a student image P_S and a teacher image P_T. Learn.
  • the information processing system 10 uses the student image P_S and the teacher image P_T to perform a conversion process that converts the viewpoint of the captured image captured by the input imaging device C_I into a converted image P_V as if it were captured from the virtual camera C_V. Conduct individualized learning.
  • the student image P_S and the teacher image P_T will also be collectively referred to as a learning image.
  • the input imaging device C_I is arranged at a position corresponding to the relative position of the teacher imaging device C_T and the student imaging device C_S. Specifically, the input imaging device C_I is arranged such that the relative position of the input imaging device C_I and the virtual camera C_V corresponds to the relative position of the teacher imaging device C_T and the student imaging device C_S. be done.
  • FIG. 7 is a diagram illustrating an example of a network structure of a conversion model used for viewpoint conversion by the information processing system 10 according to the embodiment of the present disclosure.
  • FIG. 8 is a diagram for explaining an example of individualized learning performed by the information processing system 10 according to the embodiment of the present disclosure.
  • FIG. 7 shows an example of a network for the conversion model.
  • the network shown in FIG. 7 includes a plurality of (multilayer) intermediate layers between an input layer INL and an output layer OUTL.
  • the input layer INL has eight input nodes N1 to N8. Captured images P_1 to P_8 captured by imaging devices 300_1 to 300_8 are input to input nodes N1 to N8, respectively.
  • the output layer OUTL has one output node.
  • the converted image P_V after viewpoint conversion is output from the output node.
  • the information processing system 10 performs additional learning (individual-specific learning) for the conversion model that has been trained for an unspecified user U.
  • the information processing system 10 performs individualized learning using the imaging device 300_2 as the input imaging device C_I, the imaging device 300_1 as the student imaging device C_S, and the imaging device 300_4 as the teacher imaging device C_T.
  • the information processing system 10 obtains the converted image P_V from the output node by inputting the student image P_S captured by the student imaging device C_S to the input node N2.
  • the input node N2 is a node to which the captured image P_2 captured by the imaging device 300_2, which is the input imaging device C_I, is input.
  • the conversion model according to the present embodiment is a model that can output the converted image P_V even when a captured image is not input to some of the input nodes N.
  • the information processing system 10 inputs a black image (an image in which all pixels are black) instead of the captured image to the input nodes N1, N3 to N8 other than the input node N2 to which the student image P_S is input. You can also do this.
  • the conversion model is configured to output the converted image P_V even if a black image is input to some of the input nodes N.
  • the information processing system 10 updates the parameters of the conversion model according to the conversion image P_V that is the output of the conversion model and the teacher image P_T captured by the teacher imaging device 300_4. In this way, the information processing system 10 performs individualized learning (relearning) on the conversion model targeted at the unspecified user U.
  • the conversion model has a neural network structure here, the structure of the conversion model is not limited to this.
  • the conversion model may input the captured images P_1 to P_8 and output the converted image P_V.
  • the conversion model can have various structures, such as CNN (Convolutional Neural Network), DNN (Deep Neural Network), RNN (Recurrent Neural Network), GAN (Generative Adversarial Network), and the like.
  • the information processing system 10 uses the imaging device 300_2 as the input imaging device C_I, the imaging device 300_1 as the student imaging device C_S, and the imaging device 300_4 as the teacher imaging device C_T.
  • the combination of the input imaging device C_I, the student imaging device C_S, and the teacher imaging device C_T is not limited to this.
  • FIGS. 9 and 10 are charts showing examples of combinations of imaging devices 300 used for personalized learning according to the embodiment of the present disclosure.
  • the combination of the imaging devices 300 used for personalized learning means the combination of the student imaging device C_S, the input imaging device C_I, and the teacher imaging device C_T.
  • the imaging devices 300_1 to 300_8 are distinguished by IDs (ID#1 to ID#8) that identify the imaging devices 300_1 to 300_8.
  • IDs ID#1 to ID#8
  • the numbers of the IDs (ID#1 to ID#8) correspond to the numbers at the end of the imaging devices 300_1 to 300_8.
  • the information processing system 10 selects one imaging device 300 as the student imaging device C_S.
  • the information processing system 10 selects the imaging device 300_6 as the student imaging device C_S, the imaging device 300_4 as the input imaging device C_I, and the imaging device 300_7 as the teacher imaging device C_T.
  • the information processing system 10 selects two imaging devices 300 as student imaging devices C_S. For example, the information processing system 10 selects the imaging devices 300_2 and 300_4 as the student imaging device C_S, the imaging devices 300_5 and 300_7 as the input imaging device C_I, and the imaging device 300_1 as the teacher imaging device C_T.
  • the information processing system 10 selects one of 28 combinations to be used for personalized learning, as shown in FIGS. 9 and 10. A combination of imaging devices 300 can be selected.
  • the information processing system 10 can select at least one combination of the combinations shown in FIGS. 9 and 10 as the combination of the imaging devices 300 used for personalized learning. When a plurality of combinations are selected, the information processing system 10 acquires learning images while sequentially switching the combinations. The information processing system 10 sequentially guides the user U to the next teacher imaging device C_T to acquire learning images.
  • a number (hereinafter also referred to as a combination number) is assigned to each combination of the imaging devices 300.
  • the combination number will be referred to when planning personalized learning, which will be described later.
  • the information processing system 10 executes personalized learning using the plurality of imaging devices 300_1 to 300_8 arranged around the display 210.
  • the information processing system 10 prompts the user U to move to an appropriate position in order to obtain an appropriate learning image.
  • the appropriate position is a position where the user U directly faces the teacher imaging device C_T.
  • the information processing system 10 performs viewpoint conversion learning using a front-facing image of the user U captured by the teacher imaging device C_T as a teacher image and using a non-front-facing image of the user U captured by the student imaging device C_S as a student image. At this time, the information processing system 10 uses the symmetry of the arrangement of the imaging device 300 to create a conversion model that generates the transformed image P_V seen from approximately the center of the display 210, where the imaging device 300 is not actually arranged. Learning can be done.
  • the information processing system 10 performs learning specifically for the individual user U. Thereby, the information processing system 10 can perform higher-quality viewpoint conversion regarding the individual user U's face in contrast to general-purpose processing that does not specify the user U.
  • the users UA and UB can face each other and make natural eye contact.
  • the telecommunication system 1 according to the embodiment of the present disclosure can provide the user U with a telepresence service with higher image quality.
  • the information processing system 10 performs additional learning (relearning) specific to the user U on the previously learned conversion model. Therefore, the information processing system 10 can perform relearning using fewer learning images compared to the case where learning specialized for user U is performed from scratch.
  • the information processing system 10 can perform relearning with a smaller number of samples (number of student images).
  • the information processing system 10 can shorten the time required to perform individualized learning by performing individualized learning with a small number of learning images. Therefore, the information processing system 10 does not need to perform individualized learning in advance, and can perform individualized learning online when user U performs telecommunications. For example, the information processing system 10 can perform personalized learning when the user U uses the telecommunications system 1 for the first time, such as when registering for user use.
  • the information processing system 10 has eight imaging devices 300_1 to 300_8 here, the number of imaging devices 300 is not limited to this.
  • the information processing system 10 only needs to have an imaging device 300 that functions as a student imaging device C_S, a teacher imaging device C_T, and an input imaging device C_I.
  • the information processing system 10 includes three imaging devices 300_2, 300_4, and 300_6 (see FIG. 4).
  • the information processing system 10 can perform individualized learning by using the imaging device 300_4 as the student imaging device C_S, the imaging device 300_6 as the teacher imaging device C_T, and the imaging device 300_2 as the input imaging device C_I.
  • the information processing system 10 includes three imaging devices 300_1, 300_2, and 300_4 (see FIG. 4).
  • the information processing system 10 can perform individualized learning by using the imaging device 300_1 as the student imaging device C_S, the imaging device 300_4 as the teacher imaging device C_T, and the imaging device 300_2 as the input imaging device C_I.
  • the information processing system 10 can perform individualized learning by using the imaging device 300_1 as the student imaging device C_S, the imaging device 300_2 as the teacher imaging device C_T, and the imaging device 300_4 as the input imaging device C_I.
  • the information processing system 10 can perform different individualized learning using the same imaging device 300.
  • the information processing system 10 can perform viewpoint conversion processing with higher accuracy using a smaller number of imaging devices 300.
  • the information processing system 10 can perform individualized learning using the two imaging devices 300. can be done.
  • FIG. 11 is a diagram showing another example of the arrangement of the imaging device 300 according to the embodiment of the present disclosure.
  • FIG. 11 schematically shows the positional relationship between the imaging device 300 and the display 210.
  • the information processing system 10 includes imaging devices 300_4 and 300_9.
  • the imaging device 300_9 is arranged outside the display 210.
  • the imaging device 300_9 is arranged such that the relative positional relationship between the imaging device 300_9 and the imaging device 300_4 is the same as the relative positional relationship between the imaging device 300_4 and the virtual camera C_V.
  • the imaging device 300_9 is on a straight line connecting the imaging device 300_4 and the virtual camera C_V, and the distance between the imaging device 300_9 and the imaging device 300_4 is the same as that between the imaging device 300_4 and the virtual camera C_V. are placed so that the distance is the same as that of
  • the information processing system 10 can perform individualized learning by using the imaging device 300_9 as the student imaging device C_S, the imaging device 300_4 as the teacher imaging device C_T, and the imaging device 300_4 as the input imaging device C_I.
  • the information processing system 10 can perform personalized learning using two imaging devices by arranging the imaging devices 300 around and outside the display 210, respectively.
  • FIG. 11 shows a case where the imaging device 300_9 is arranged outside the imaging device 300_4 of the display 210, that is, on the left side of the display 210
  • the arrangement of the imaging device 300_9 is not limited to this.
  • the imaging device 300_9 may be arranged outside the imaging device 300_2 of the display 210, that is, above the display 210.
  • the imaging device 300_9 may be arranged outside the imaging device 300_8 of the display 210, that is, on the diagonally lower right side of the display 210.
  • the number of imaging devices 300 arranged outside the display 210 is not limited to one, and may be two or more.
  • the information processing system 10 can acquire more learning images, and the accuracy of viewpoint conversion by the conversion model can be further improved.
  • the technology of the present disclosure focuses on the process of learning viewpoint transformations specific to the user U.
  • the information processing system 10 has learned in advance a conversion model that performs viewpoint conversion that is not individualized, and uses the coefficient data (parameters) of the pre-learned conversion model as initial values and additionally uses personal characteristics.
  • Implement morphological learning For example, when a transformation model is implemented with a DNN, it is common to perform additional learning.
  • the information processing system 10 can further optimize the conversion model by additionally performing individualized learning while inheriting the characteristics of the initial value.
  • the information processing system 10 can collect learning images without actually performing telepresence. Further, the information processing system 10 can acquire a teacher image by actually arranging a learning imaging device (not shown) at the position of the virtual camera C_V.
  • the information processing system 10 may use a multi-view image generated using CG (computer graphics) or the like as a learning image.
  • the information processing system 10 performs pre-learning of the conversion model using the captured images P_1 to P_8 captured by the imaging devices 300_1 to 300_8 as the student image P_S and the image captured by the learning imaging device as the teacher image P_T.
  • the individualized learning is learning that utilizes the symmetry of the arrangement of the imaging devices 300_1 to 300_8. Therefore, as described above, when the information processing system 10 additionally performs individualized learning, not all of the captured images P_1 to P_8 captured by the imaging devices 300_1 to 300_8 are input to the conversion model. For example, in the examples of FIGS. 9 and 10, one or two captured images P are input to the conversion model. In personalized learning, invalid data such as a black signal may be input to the conversion model.
  • the information processing system 10 learns a conversion model that allows input of invalid data.
  • the information processing system 10 performs preliminary learning on the assumption that additional learning will be performed in which some of the input data is invalid data.
  • the information processing system 10 learns in advance a conversion model that ignores the invalid data and performs viewpoint conversion from valid input data (for example, a student image). I'll keep it.
  • the information processing system 10 randomly selects the captured image P from the captured images P_1 to P_8 during pre-learning.
  • the information processing system 10 changes the selected captured image P to invalid data and performs viewpoint conversion learning.
  • the information processing system 10 can determine the number of captured images P to randomly select using probabilistic means.
  • the information processing system 10 can determine a number between "0" and "7" as the number of captured images P to select according to a normal distribution.
  • the information processing device 100 In order for the information processing device 100 to efficiently perform additional learning with a relatively small number of samples, the information processing device 100 has in advance the ability to generate a transformed image P_V even when a black signal with an invalid transformation model is input. This is desirable.
  • the information processing system 10 performs preliminary learning assuming in advance that invalid data will be input during additional learning. Thereby, the information processing system 10 can obtain a predictive model that has this ability in advance before additional learning.
  • the information processing system 10 can perform highly accurate non-individualized viewpoint conversion while utilizing the correlation between the viewpoints of all the imaging devices 300_1 to 300_8.
  • the correlation between all viewpoints is utilized in the pre-training of the transformation model. Therefore, in general, the greater the number of viewpoints, that is, the greater the number of imaging devices 300, the more accurate the information processing system 10 can perform prior learning. Further, as described above, the information processing system 10 can learn in advance a prediction model that accepts invalid data as part of input data.
  • the information processing system 10 executes individualized learning using the coefficients of the conversion model obtained in advance learning as initial coefficients. For example, if the prediction model is implemented using a DNN, the information processing system 10 performs learning by slightly changing the coefficients by additionally performing error backpropagation.
  • the information processing system 10 performs personalized learning using the symmetry of the arrangement of the imaging device 300. Therefore, the information processing system 10 can input invalid data to the prediction model as many input images (see FIG. 8).
  • the information processing system 10 inputs the student image P_S (captured image P_1) as the captured image P_2 into the prediction model, but inputs the student image P_S (captured image P_1) as the captured image P_2 into the prediction model, and inputs the student image P_S (captured image P_1) as the captured image P_1, P_3 to P_8 into the prediction model. Enter data.
  • the information processing system 10 performs individualized learning in which the coefficients of the conversion model are slightly changed so that viewpoint conversion can be performed using the captured image P_1 instead of the correlation between all viewpoints of the captured images P_1 to P8. .
  • the information processing system 10 sets the captured images P_2 and P_4 as the student images P_S, and sets the captured images P_1 as the teacher image P_T.
  • the information processing system 10 inputs student images P_S (captured images P_2, P_4) as captured images P_5 and P_7, and inputs invalid data such as a black signal as captured images P_1 to P_4, P_6, and P_8.
  • the information processing system 10 slightly changes the coefficients of the conversion model so that the viewpoint conversion can be performed using the correlation between the viewpoints of the captured images P_5 and P_7 instead of the correlation between all the viewpoints of the captured images P_1 to P8. Conduct individualized learning to help students learn.
  • the information processing system 10 learns a viewpoint transformation specific to an individual online.
  • the information processing system 10 performs learning by using the viewpoint correlation of the specific imaging device 300 (input imaging device C_I) instead of using the correlation between the viewpoints of all the imaging devices 300_1 to 300_8. Become.
  • online personalized learning is performed using the coefficients of the pre-trained prediction model as initial coefficients. Therefore, even if the information processing system 10 performs learning using the viewpoint correlation of a specific imaging device 300, the predictive model does not necessarily forget all the viewpoint transformations that utilize the correlations between all viewpoints acquired through prior learning. do not have.
  • the information processing system 10 can perform individualized learning by adding a device such that the prediction model does not forget the viewpoint conversion that utilizes the correlation between all viewpoints. For example, even when performing individualized learning, the information processing system 10 may occasionally insert learning that utilizes correlations between all viewpoints, which is equivalent to prior learning.
  • the information processing system 10 can improve the performance of the predictive model through individualized learning while maintaining learning using the correlation between all viewpoints.
  • the information processing system 10 inputs all captured images P_1 to P8 into the conversion model.
  • a conversion model that has undergone individualized learning can exhibit individualized performance while utilizing all captured images P_1 to P8.
  • a conversion model generally has the property that the larger the number of viewpoints, the more accurate viewpoint conversion can be performed. This property can be inherited by the predictive model even after personalized learning. Therefore, the predictive model may be able to perform viewpoint conversion with higher image quality as the number of imaging devices 300 included in the information processing system 10 increases. Therefore, the information processing system 10 may include more imaging devices 300.
  • FIG. 12 is a block diagram illustrating a configuration example of the information processing system 10 according to the embodiment of the present disclosure.
  • the information processing system 10 shown in FIG. 12 includes an information processing device 100, an output device 200, and a plurality of imaging devices 300_1 to 300_8.
  • the output device 200 is a device that visually or auditorily notifies the user U of information, such as presenting guidance information to the user U using the information processing system 10.
  • Output device 200 includes a display 210 and a speaker 220.
  • the display 210 is, for example, a display device such as an LCD (Liquid Crystal Display) or an organic EL (Electro Luminescence) display.
  • the display 210 displays various information such as guidance information and telecommunication partners.
  • the speaker 220 is a sound output device that notifies the user U of sound information.
  • the speaker 220 outputs sound information such as guidance information and the voice of a telecommunication partner.
  • the output device 200 may include devices other than the display 210 and the speaker 220.
  • the output device 200 may include, for example, a lighting device such as an LED (Light Emitting Diode) lamp or a sound output device such as a buzzer.
  • a lighting device such as an LED (Light Emitting Diode) lamp
  • a sound output device such as a buzzer.
  • the output device 200 may guide the user U toward the teacher imaging device C_T by lighting up an LED lamp placed near the imaging device 300 selected as the teacher imaging device C_T.
  • the imaging device 300 is, for example, a camera having an imaging element such as a CCD (Charge Coupled Device) image sensor or a CMOS (Complementary Metal Oxide Semiconductor) image sensor.
  • the imaging device 300 is arranged, for example, around the display 210 (see FIG. 4).
  • the imaging device 300 generates a captured image P.
  • the information processing system 10 may include various sensors other than the imaging device 300, such as a microphone and a distance measurement sensor.
  • the information processing system 10 may include input devices such as a keyboard, a mouse, and a touch panel.
  • the information processing device 100 shown in FIG. 12 includes a communication section 110, a storage section 120, and a control section 130.
  • the information processing device 100 controls the output device 200 to notify the user U of various information.
  • the information processing device 100 controls the imaging device 300 to acquire the captured image P.
  • the communication unit 110 is a communication interface that communicates with an external device (for example, another information processing device 100) via a network by wire or wirelessly.
  • the communication unit 110 shown in FIG. 12 is realized by, for example, a NIC (Network Interface Card).
  • the communication unit 110 functions as a communication means of the information processing device 100.
  • the storage unit 120 is a data readable/writable storage device such as DRAM, SRAM, flash memory, or hard disk.
  • the storage unit 120 functions as a storage means of the information processing device 100.
  • Control unit 130 The control unit 130 controls each unit of the information processing device 100.
  • the control unit 130 allows programs stored in the information processing device 100 by, for example, a CPU (Central Processing Unit), an MPU (Micro Processing Unit), a GPU (Graphics Processing Unit), etc. to use a RAM (Random Access Memory) or the like as a work area. This is achieved by executing as .
  • the control unit 130 is realized by, for example, an integrated circuit such as an ASIC (Application Specific Integrated Circuit) or an FPGA (Field Programmable Gate Array).
  • the control unit 130 includes a management unit 131, a learning control unit 132, a conversion unit 133, an estimation unit 134, and a UI control unit 135.
  • Each block (management unit 131 to UI control unit 135) constituting the control unit 130 is a functional block indicating a function of the control unit 130, respectively.
  • These functional blocks may be software blocks or hardware blocks.
  • each of the above functional blocks may be one software module realized by software (including a microprogram), or one circuit block on a semiconductor chip (die).
  • each functional block may be one processor or one integrated circuit.
  • the control unit 130 may be configured in functional units different from the above-mentioned functional blocks.
  • the functional blocks can be configured in any way.
  • control unit 130 may be configured in a functional unit different from the above-mentioned functional blocks. Furthermore, some or all of the blocks (management section 131 to UI control section 135) constituting the control section 130 may be operated by another device. For example, a control device realized by cloud computing may perform some or all of the operations of each block constituting the control unit 130.
  • the management unit 131 manages acquisition of learning data used for individualized learning performed by the learning control unit 132.
  • the management unit 131 acquires learning data in response to a request from the learning control unit 132, for example.
  • the management unit 131 generates a plan for acquiring learning data.
  • the management unit 131 guides the user U according to the plan and generates learning data.
  • the management unit 131 notifies the learning control unit 132 of the learning data.
  • the learning control unit 132 generates a personalized learning plan and executes the plan using the learning data acquired by the management unit 131.
  • the learning control unit 132 verifies the results of the individualized learning.
  • the learning control unit 132 verifies whether the learned conversion model satisfies desired viewpoint conversion accuracy.
  • the conversion unit 133 generates a converted image P_V from the captured image P using the conversion model.
  • the conversion unit 133 generates a converted image P_V by converting the viewpoint of the captured image P to the viewpoint seen from the virtual camera C_V.
  • the conversion unit 133 uses the conversion model learned by the learning control unit 132 to convert the viewpoint of the captured image P to the viewpoint seen from the virtual camera C_V.
  • the estimation unit 134 estimates the facial state of the user U using the captured image P.
  • the estimation unit 134 estimates, for example, the position of the face, the facial expression, and the direction of the head (head pose) as the facial state of the user U.
  • the estimation unit 134 estimates the facial state of the user U in response to an instruction from the management unit 131, and notifies the management unit 131 of the estimated facial state as face information.
  • the UI control unit 135 generates display information in response to instructions from the management unit 131.
  • the display information is output from the output device 200, for example.
  • the display information includes, for example, guidance information for guiding the user U.
  • the management unit 131 makes a plan regarding a method for acquiring learning data to be used when performing individualized learning. This plan includes information regarding the combination of imaging devices 300 used for personalized learning. Based on the position information of the imaging devices 300, the management unit 131 selects a combination of imaging devices 300 to be used for personalized learning, taking into consideration the symmetry of the arrangement of the imaging devices 300.
  • the management unit 131 acquires learning data according to the created plan.
  • the management unit 131 selects the teacher imaging device C_T based on the plan.
  • the management unit 131 guides the user U to directly face the selected teacher imaging device C_T.
  • the management unit 131 determines the guide target for the user U according to the facial state of the user U estimated by the estimation unit 134 and the teacher imaging device C_T.
  • the management unit 131 instructs the UI control unit 135 to create a UI for guiding the user U according to the determined guidance target.
  • the management unit 131 determines whether the user U has moved to the guidance target based on the facial state of the user U estimated by the estimation unit 134.
  • the management unit 131 acquires learning data when the user U moves to the guidance target.
  • the management unit 131 outputs the acquired learning data to the learning control unit 132.
  • the management unit 131 receives a learning data acquisition request from the learning control unit 132, it updates the plan regarding the learning data acquisition method and newly acquires learning data.
  • FIG. 13 is a block diagram illustrating a configuration example of the management unit 131 according to the embodiment of the present disclosure.
  • the management section 131 includes a creation control section 1311, a guidance control section 1312, and a data generation section 1313.
  • the creation control unit 1311 creates a learning data acquisition plan.
  • the creation control unit 1311 acquires information regarding the arrangement and position of the imaging device 300 (hereinafter referred to as camera information) from the storage unit 120, for example.
  • the camera information is information indicating, for example, the position of the imaging device 300 on the display 210, the relative positional relationship of the imaging device 300, etc., and is stored in the storage unit 120 in advance.
  • the creation control unit 1311 may acquire camera information from the imaging device 300 or an external device, for example.
  • the creation control unit 1311 creates a learning data acquisition plan by selecting at least one combination (hereinafter also simply referred to as a combination) of the imaging devices 300 to be used for personalized learning, taking into account the camera information. .
  • the creation control unit 1311 selects the imaging scene and length (shaku) of the learning data to be acquired for each selected combination.
  • the creation control unit 1311 selects the head pose and facial expression of the user U as the imaging scene.
  • the creation control unit 1311 selects, for example, the number of captured images P to be acquired (number of frames) as the length.
  • the creation control unit 1311 selects the order of learning data to be acquired.
  • FIG. 14 is a diagram illustrating an example of a learning data acquisition plan according to an embodiment of the present disclosure.
  • FIG. 14 shows a learning data acquisition plan that is executed sequentially from the start to the end.
  • the creation control unit 1311 selects a plurality of combinations from among the 28 combinations shown in FIGS. 9 and 10 in the order in which the learning data are used.
  • the creation control unit 1311 first selects the combination with combination number #13, and then selects the combination with combination number #16.
  • the creation control unit 1311 sets the combination of the student imaging device C_S as the imaging devices 300_2 and 300_4, the input imaging device C_I as the imaging devices 300_5 and 300_7, and the teacher imaging device C_T as the imaging device 300_1 as the combination of combination number #13. select.
  • the creation control unit 1311 sets the combination of the student imaging device C_S as the imaging devices 300_5 and 300_7, the input imaging device C_I as the imaging devices 300_2 and 300_4, and the teacher imaging device C_T as the imaging device 300_8 as the combination of combination number #16. select.
  • the creation control unit 1311 selects at least one head pose for each combination.
  • FIG. 15 is a chart showing an example of a head pose according to an embodiment of the present disclosure.
  • the head pose includes a plurality of poses in which the user U's head is in different directions.
  • the head poses include five head poses, pose 1 to pose 5.
  • pose 1 is a head pose in which the user U faces forward.
  • Pose 2 is a head pose in which the user U faces diagonally to the right in the figure.
  • Pose 3 is a head pose in which the user U faces diagonally to the left in the figure.
  • Pose 4 is a head pose in which the user U tilts his head to the right side in the figure.
  • Pose 5 is a head pose in which the user U tilts his head to the left in the figure.
  • the head pose may include poses other than poses 1 to 5 shown in FIG. 15, such as a pose in which the user U turns his back.
  • the creation control unit 1311 selects at least one pose from among the plurality of head poses and generates a learning data acquisition plan.
  • the creation control unit 1311 sequentially selects poses 1, 2, and 3 as head poses to be executed when the combination with combination number #13 is selected.
  • the creation control unit 1311 sequentially selects poses 4, 5, and 1 as head poses to be executed when the combination with combination number #16 is selected.
  • the creation control unit 1311 selects three head poses for one combination, but the number of head poses that the creation control unit 1311 selects is not limited to this.
  • the creation control unit 1311 may select two or less head poses for one combination, or may select four or more head poses.
  • the creation control unit 1311 selects at least one facial expression for each head pose.
  • FIG. 16 is a chart showing an example of facial expressions according to the embodiment of the present disclosure.
  • the facial expression includes a plurality of facial expressions 1, 2, 3, and so on.
  • facial expression 1 is a facial expression that shows "joy”.
  • the information processing device 100 guides the user U to make a happy facial expression.
  • Facial expression 5 is "expressionless”.
  • Facial expression 6 is the facial expression when the specified sentence 1 is uttered. In this way, facial expressions can include not only facial expressions expressing emotions but also facial expressions when a specific action (for example, utterance) is performed.
  • the number of facial expressions may be six or less.
  • the creation control unit 1311 selects at least one facial expression from a plurality of facial expressions and generates a learning data acquisition plan.
  • the creation control unit 1311 selects facial expressions 1 and 2 in order as the facial expressions. If pose 4 is selected as the head pose when selecting the combination with combination number #16, the creation control unit 1311 selects facial expressions 3, 4, and 2 in order as the facial expressions.
  • the creation control unit 1311 selects two to four facial expressions for one head pose, but the number of facial expressions that the creation control unit 1311 selects is not limited to this.
  • the creation control unit 1311 may select one facial expression for one head pose, or may select five or more facial expressions.
  • the creation control unit 1311 selects the length (number of frames) for acquiring the captured image P for each facial expression.
  • the creation control unit 1311 determines to obtain 60 frames of captured images P when the combination with combination number #13, the head pose of pose 1, and the expression 1 are selected.
  • the creation control unit 1311 determines to obtain 40 frames of captured images P.
  • the creation control unit 1311 generates a learning data acquisition plan by selecting the combination of imaging devices 300, head pose, facial expression, imaging time, etc.
  • the learning data acquisition plan shown in FIG. 14 is an example, and the creation control unit 1311 can create various plans using existing methods. It is sufficient that the information processing device 100 can acquire the learning data by utilizing the symmetry of the arrangement of the imaging device 300, and any item or plan may be adopted as the learning data acquisition plan.
  • the creation control unit 1311 can create a learning data acquisition plan based on, for example, some guidelines. For example, the creation control unit 1311 uses as many imaging devices 300 as possible to create a learning data acquisition plan so that a sufficient amount of individualized learning can be performed. The creation control unit 1311 aims to maximize the performance of viewpoint conversion by acquiring a large amount of learning data.
  • the creation control unit 1311 may create the learning data acquisition plan so as to minimize the acquisition of learning data. In this case, the creation control unit 1311 can further improve the performance of viewpoint conversion while suppressing the load on the user U.
  • the creation control unit 1311 receives a learning data acquisition request from the learning control unit 132.
  • the type of learning data to be acquired for example, a combination of imaging devices 300, a head pose, a facial expression, etc. can be specified.
  • the creation control unit 1311 Upon receiving the acquisition request, the creation control unit 1311 creates a learning data acquisition plan according to the acquisition request. Alternatively, the creation control unit 1311 updates the already created learning data acquisition plan in response to the acquisition request.
  • the creation control unit 1311 executes the created learning data acquisition plan.
  • the creation control unit 1311 selects plans to be executed sequentially from the start.
  • the creation control unit 1311 first determines to obtain 60 frames of captured images P for the combination with combination number #13, the head pose of pose 1, and the expression 1.
  • the plan for acquiring 60 frames of captured images P for the combination with combination number #13, the head pose of pose 1, and the expression 1 will also be referred to as the first scene of the learning data acquisition plan.
  • the creation control unit 1311 sets the imaging devices 300_2 and 300_4 as the student imaging device C_S, the imaging devices 300_5 and 300_7 as the input imaging device C_I, and the imaging device 300_1 as the teacher imaging device C_T.
  • the creation control unit 1311 sets the guidance goal to "the user U faces the imaging device 300_1, uses the head pose of pose 1, and makes the facial expression of expression 1."
  • the creation control unit 1311 notifies the guidance control unit 1312 of the set guidance target. Note that the creation control unit 1311 may notify the guidance control unit 1312 of camera information in addition to the guidance target.
  • the creation control unit 1311 notifies the data generation unit 1313 of the required specifications.
  • the required specifications include information regarding the combination of imaging devices 300 when acquiring learning data in the first scene and the length of the first scene (60 frames in the example of FIG. 14).
  • the required specifications may include information such as head poses and facial expressions. This information can be used by the learning control unit 132.
  • the creation control unit 1311 notifies the estimation unit 134 of the camera ID of interest.
  • the camera of interest is the imaging device 300 that the information processing device 100 guides to directly face the user U. In the case of the first scene, the information processing device 100 guides the user U to directly face the imaging device 300_1. In this case, the camera of interest is the imaging device 300_1.
  • the creation control unit 1311 notifies the estimation unit 134 of information indicating the imaging device 300_1 as the camera ID of interest.
  • the estimation unit 134 estimates the facial state of the user U.
  • the information processing device 100 guides the user U to directly face the imaging device 300_1 and executes the first scene
  • the information processing device 100 guides the user U to face the imaging device 300_1 and performs a desired head pose or pose. Acquire the learning data after confirming that the facial expression is being performed.
  • the estimation unit 134 it is sufficient for the estimation unit 134 to estimate the facial state of the user U from the captured image P_1 of the imaging device 300_1.
  • the estimation unit 134 can recognize which imaging device 300 should be used to estimate the face state. Thereby, the information processing apparatus 100 can further reduce the processing load of facial state estimation by the estimation unit 134.
  • the guidance control unit 1312 in FIG. 13 receives the guidance target from the creation control unit 1311 and receives information regarding the facial state from the estimation unit 134.
  • the guidance control unit 1312 generates guidance instructions based on the guidance target and the facial state.
  • the guidance control unit 1312 notifies the UI control unit 135 of the guidance instruction.
  • the guidance control unit 1312 generates a guidance instruction so that the facial state of the user U approaches the guidance target.
  • the information regarding the face state of user U (hereinafter also referred to as face information) is information indicating the state of user U's face at the current time.
  • the face information may be defined as sufficient information for the guidance control unit 1312 to determine whether each item of the learning data acquisition plan is satisfied.
  • the facial information includes information regarding the face position of the user U, information regarding the head pose estimation result, and information regarding the facial expression estimation result.
  • information included in the face information is not limited to the above example. Information included in the face information may be set as appropriate depending on the items of the learning data acquisition plan.
  • Face position information Information regarding the face position of the user U (hereinafter also referred to as face position information) is used to guide the user U to a desired position of the imaging device 300.
  • the guidance control unit 1312 generates a guidance instruction for guiding the user U to directly face the desired imaging device 300 by comparing the position of the desired imaging device 300 and the current face position of the user U. do.
  • the guidance instruction includes information regarding the guidance destination.
  • the UI control unit 135 guides the user U by displaying a square frame at a position where the user U's face is desired to be guided.
  • the guidance control unit 1312 may include information regarding the position and size of the square frame in the guidance instruction.
  • the guidance control unit 1312 may include the current face position information of the user U in the guidance instruction.
  • the UI control unit 135 can display as a UI a visual representation that guides the user U from the current face position to the guidance destination position (the above-mentioned square frame).
  • the guidance instruction is not limited to the information regarding the guidance destination described above.
  • the guidance instruction may be information regarding the direction and amount of movement in which the user U is to be guided. Further, the guidance instruction may further include the camera of interest ID.
  • the guidance control unit 1312 obtains, for example, position information (camera information) of the imaging device 300 from the creation control unit 1311. Alternatively, the guidance control unit 1312 may acquire camera information from the storage unit 120. Note that it is assumed that the coordinate system of the position information of the imaging device 300 and the coordinate system of the face position information are unified. Alternatively, when comparing the position of the imaging device 300 and the face position of the user U, the guidance control unit 1312 projects both positions onto the same coordinate system and performs the comparison.
  • head pose information Information regarding the estimation result of the head pose of the user U (hereinafter also referred to as head pose information) is used to guide the user U to take a desired head pose.
  • the guidance control unit 1312 generates a guidance instruction for guiding the user U to adopt the desired head pose by comparing the desired head pose with the current head pose information. If the user U has not taken the desired head pose, the guidance control unit 1312 notifies the UI control unit 135 of information specifying the desired head pose as a guidance instruction. Further, if the user U is taking a desired head pose, the guidance control unit 1312 can notify the UI control unit 135 to that effect.
  • facial expression information Information regarding the estimation result of the facial expression of the user U (hereinafter also referred to as facial expression information) is used to guide the user U to make a desired facial expression.
  • the guidance control unit 1312 generates a guidance instruction for guiding the user U to make a desired facial expression by comparing the desired facial expression and the current facial expression information. If the user U does not have the desired facial expression, the guidance control unit 1312 notifies the UI control unit 135 of information specifying the desired facial expression as a guidance instruction. Furthermore, when the user U has a desired facial expression, the guidance control unit 1312 can notify the UI control unit 135 of this fact.
  • the guidance control unit 1312 can guide the user U through all the items by presenting all the items to be guided to the user U at once. Alternatively, the guidance control unit 1312 may sequentially guide the user U by sequentially presenting a plurality of items to be guided to the user U one by one. For example, the guidance control unit 1312 may first guide the position of the user U, then guide the head pose, and finally guide the facial expression.
  • the guidance control unit 1312 can create how to guide the user U as a sub-plan of the learning data acquisition plan.
  • the creation control unit 1311 may create a sub-plan, include it in the guidance target, and notify the guidance control unit 1312.
  • the guidance control unit 1312 notifies the creation control unit 1311 of the current situation of the user U as the guidance situation.
  • the guidance control unit 1312 generates a guidance situation including face position information, head pose information, and facial expression information based on the information regarding the face situation acquired from the estimation unit 134.
  • the guidance control section 1312 notifies the data generation section 1313 of the guidance situation.
  • the guidance control unit 1312 may notify the UI control unit 135 of the guidance status.
  • the UI control unit 135 may generate a UI to be presented to the user U using the guidance situation.
  • the data generation unit 1313 acquires the required specifications from the creation control unit 1311.
  • the required specifications include information regarding the combination of imaging devices 300 when acquiring learning data and the period (length, for example, number of frames) for acquiring learning data.
  • the data generation unit 1313 acquires the captured image P of the imaging device 300.
  • the data generation unit 1313 associates which image capturing device 300 captured which captured image P, and acquires the captured image P.
  • the data generation unit 1313 acquires the guidance status from the guidance control unit 1312. When the state of the user U satisfies the guidance target, the data generation unit 1313 generates learning data that satisfies the required specifications from the acquired captured image P.
  • the data generation unit 1313 sets the captured images P_2 and P_4 among the acquired captured images P as student images P_S, the captured image P_1 as the teacher image P_T, 60 frames of each captured image P are acquired.
  • the data generation unit 1313 outputs each acquired captured image P to the learning control unit 132 as learning data for the first scene.
  • the data generation unit 1313 generates information that can be used for personalized learning, such as image type information indicating whether the acquired captured image P is a student image P_S or a teacher image P_T and camera ID information that identifies the imaging device 300. may be included in the learning data and notified to the learning control unit 132.
  • image type information indicating whether the acquired captured image P is a student image P_S or a teacher image P_T
  • camera ID information that identifies the imaging device 300.
  • the data format of the learning data is arbitrary, and an existing data format may be adopted.
  • the data generation unit 1313 can link information regarding the combination of the imaging devices 300, head poses, and facial expressions to the learning data and notify the learning control unit 132. This information can be used in personalized learning performed by the learning control unit 132.
  • the data generation unit 1313 When the data generation unit 1313 completes generation of learning data of the length requested in the acquisition request, it notifies the creation control unit 1311 that the data creation status is completed.
  • the data generation unit 1313 discards the created learning data, waits until the state of the user U satisfies the guidance target, and then acquires the learning data again.
  • the data generation unit 1313 or the guidance control unit 1312 may determine whether the guidance situation satisfies the guidance target.
  • the guidance control unit 1312 may notify the data generation unit 1313 of the determination result as the guidance situation.
  • the data generation unit 1313 notifies the creation control unit 1311 of this fact as the data creation status.
  • the creation control unit 1311 that has received the data creation status advances the learning data acquisition plan to the next scene, instructs the guidance control unit 1312 to guide the user U, and instructs the data generation unit 1313 to generate learning data. .
  • the management unit 131 has completed a plan to acquire 60 frames of captured images P for the combination number #13, the head pose 1, and the facial expression 1 as the first scene.
  • the creation control unit 1311 executes a plan to acquire 60 frames of captured images P for the combination of combination number #13, the head pose of pose 1, and the expression 2 as the second scene.
  • the creation control unit 1311 sequentially executes each scene in the learning data acquisition plan until all scenes are completed. When executing the last scene, the creation control unit 1311 can include this in the required specifications and notify the data generation unit 1313.
  • the data generation unit 1313 that has received the required specification indicating that the scene is the last scene can output information indicating that the generated learning data is the last data of the plan to the learning control unit 132 in association with the learning data. .
  • the learning control unit 132 has a function of acquiring learning data from the management unit 131 and managing the learning data.
  • the learning control unit 132 has a function of planning and executing individualized learning and updating coefficient data.
  • the learning control unit 132 has a function of notifying the management unit 131 of an acquisition request requesting acquisition of additional learning data when there is a shortage in the individualized learning.
  • FIG. 17 is a block diagram illustrating a configuration example of the learning control unit 132 according to the embodiment of the present disclosure.
  • the learning control unit 132 includes a data management unit 1321, a plan control unit 1322, and a learning execution unit 1323.
  • the data management unit 1321 acquires learning data from the management unit 131 and manages the learning data. Upon acquiring the learning data, the data management unit 1321 adds the acquired learning data to the storage unit 120. Alternatively, the data management unit 1321 may add learning data to a database (not shown) that holds learning data.
  • the data management unit 1321 manages the captured image P included in the learning data in association with attribute information such as camera ID information, combination, head pose, facial expression, and number of acquired frames.
  • the data management unit 1321 When the learning data stored in the storage unit 120 is updated, the data management unit 1321 notifies the plan control unit 1322 of the data management status.
  • the data management status includes, for example, a list file of learning data managed by the data management unit 1321.
  • the data management unit 1321 When the learning data acquired from the management unit 131 is the learning data generated at the end of the learning data acquisition plan, the data management unit 1321 generates information indicating that it is the last learning data (hereinafter also referred to as acquisition completion notification). ) is notified to the plan control unit 1322.
  • the data management unit 1321 when the data management unit 1321 receives a notification of a data request requesting learning data from the plan control unit 1322, the data management unit 1321 acquires the learning data stored in the storage unit 120 in accordance with the data request.
  • the data management unit 1321 can generate learning data and verification data by, for example, setting part of the acquired learning data as learning data used for learning and the rest as verification data used for verification. .
  • the data management unit 1321 generates learning data and verification data in a predetermined format, for example.
  • the data management unit 1321 outputs learning data and verification data to the learning execution unit 1323.
  • the plan control unit 1322 plans individualized learning and controls individualized learning. Specifically, the plan control unit 1322 refers to the data management status acquired from the data management unit 1321 and the verification results acquired from the learning execution unit 1323, and issues a learning data acquisition request to the data management unit 1321. Notice. The plan control unit 1322 performs learning so as to execute at least one of a learning instruction that instructs individualized learning using the acquired learning data, and an update instruction that instructs updating coefficient data obtained as a learning result. The execution unit 1323 is notified.
  • plan control unit 1322 refers to the data management status acquired from the data management unit 1321 and the verification results acquired from the learning execution unit 1323, and notifies the management unit 131 of a request to acquire additional learning data.
  • First learning plan For example, if the total amount of learning data generated by the management unit 131 is determined in advance, the plan control unit 1322 executes the first learning plan. It is assumed that the information that the total amount of learning data to be generated is determined in advance is shared by both the management unit 131 and the learning control unit 132.
  • the plan control unit 1322 While referring to the data management status, the plan control unit 1322 notifies the data management unit 1321 of a data request when the data management unit 1321 has acquired all the learning data. At this time, the plan control unit 1322 requests all the learning data acquired by the data management unit 1321 to be divided into learning data and verification data, for example.
  • the plan control unit 1322 notifies the learning execution unit 1323 of a learning instruction including learning data and a verification instruction including verification data.
  • the plan control unit 1322 may notify the learning instruction and the verification instruction to the learning execution unit 1323 at the same time.
  • the plan control unit 1322 may notify the learning execution unit 1323 of the learning instruction, and may notify the verification instruction after the learning execution unit 1323 finishes the individualized learning.
  • the plan control unit 1322 notifies the learning execution unit 1323 of learning instructions along with appropriate parameters (for example, hyperparameters) related to individualized learning. Parameters vary depending on the machine learning method. Parameters when machine learning is DNN include learning rate and loss function weight.
  • the plan control unit 1322 can acquire information used for personalized learning (hereinafter also referred to as learning-related information) from an external device (not shown) via the communication unit 110, for example.
  • the learning-related information includes parameters related to the above-mentioned individualized learning, information related to the network configuration of the conversion model, and the like. If the storage unit 120 stores at least part of the learning-related information in advance, the plan control unit 1322 can acquire at least part of the learning-related information from the storage unit 120.
  • the plan control unit 1322 executes the second learning plan. In this case, the plan control unit 1322 confirms that the management unit 131 has acquired all the learning data based on the acquisition completion notification included in the data management status.
  • plan control unit 1322 can generate the second learning plan in the same manner as the first learning plan, except that the total amount of learning data is not determined in advance.
  • the plan control unit 1322 descriptions of the same contents as the first study plan will be omitted.
  • the management unit 131 can acquire learning data of any size. Therefore, for example, the management unit 131 can update the learning data acquisition plan and acquire the learning data in response to a learning data acquisition request notified from the plan control unit 1322.
  • the plan control unit 1322 refers to the verification result by the learning execution unit 1323 and notifies the management unit 131 of a learning data acquisition request.
  • the information processing device 100 can efficiently perform personalized learning while flexibly changing the learning data acquisition plan.
  • the plan control unit 1322 instructs the learning execution unit 1323 to perform a learning instruction before the data management unit 1321 transmits an acquisition completion notification indicating that all learning data has been acquired. That is, the learning control unit 132 sequentially performs individualized learning when a certain amount of learning data has been acquired, without waiting for the acquisition of learning data to be completed.
  • the learning control unit 132 can notify the management unit 131 of a learning data acquisition request based on the verification result of individualized learning, and the management unit 131 can flexibly acquire learning data according to the acquisition request. Plans can be updated.
  • the plan control unit 1322 divides the learning data into learning data and verification data and requests their acquisition. Note that in the second learning plan, as well as in the first learning plan, when the data management unit 1321 notifies the plan control unit 1322 of the acquisition completion notification, the plan control unit 1322 collects the learning data and the verification data. can be requested.
  • the plan control unit 1322 After receiving the learning data and verification data, the plan control unit 1322 notifies the learning execution unit 1323 of learning instructions and verification instructions.
  • plan control unit 1322 obtains the performance evaluation results performed after learning from the learning execution unit 1323 as verification results.
  • the plan control unit 1322 identifies learning data that should be additionally acquired, that is, to be strengthened, and notifies the management unit 131 of a learning data acquisition request.
  • plan control unit 1322 instructs the learning execution unit 1323 to notify the conversion unit 133 of the learned coefficient data.
  • the plan control unit 1322 ends the individualized learning. For example, if the verification result does not reach the target even after making a predetermined number of learning data acquisition requests, the plan control unit 1322 does not issue any more acquisition requests.
  • plan control unit 1322 instructs the learning execution unit 1323 to notify the conversion unit 133 of the coefficient data of the learning with the best performance among the individualized learning executed so far as learned coefficient data.
  • the plan control unit 1322 manages the coefficient data and the verification results in a linked manner.
  • the plan control unit 1322 compares the plurality of verification results and notifies the conversion unit 133 of the coefficient data associated with the verification result with the highest performance as learned coefficient data.
  • the learning execution unit 1323 may manage the coefficient data and verification results.
  • the plan control unit 1322 notifies the learning execution unit 1323 of information indicating the verification result with the highest performance (for example, the verification ID assigned to the verification result).
  • the learning execution unit 1323 outputs coefficient data linked to the verification result specified by the verification ID to the conversion unit 133.
  • the plan control unit 1322 can notify the management unit 131 that it does not request acquisition of any more learning data. For example, when the verification result reaches the target, the plan control unit 1322 notifies the management unit 131 that no more learning data is required to be acquired.
  • the management unit 131 When the management unit 131 receives a notification from the plan control unit 1322 that there is no need to acquire any more learning data while acquiring the learning data, it ends the acquisition of the learning data. Thereby, the management unit 131 can finish acquiring the learning data even while the learning data acquisition plan is being executed.
  • plan control unit 1322 is not limited to the first study plan and second study plan described above.
  • the plan control unit 1322 can create various study plans.
  • the learning execution unit 1323 executes individualized learning.
  • the learning execution unit 1323 verifies the learning results and updates the coefficient data.
  • the learning execution unit 1323 executes individualized learning using the learning data.
  • the learning execution unit 1323 acquires coefficient data before individualized learning from the conversion unit 133.
  • the coefficient data before individualized learning is coefficient data of a conversion model learned in advance to correspond to an unspecified user U.
  • the learning execution unit 1323 uses the learning data to execute personalized learning according to the parameters related to personalized learning, and updates the coefficient data. Parameters related to individualized learning are notified to the learning execution unit 1323, for example, along with the learning instruction.
  • the imaging devices 300_2 and 300_4 are the student imaging device C_S
  • the imaging devices 300_5 and 300_7 are the input imaging device C_I
  • the imaging device 300_1 is the teacher imaging device C_T
  • the captured image P is used as learning data.
  • the learning execution unit 1323 inputs the captured images P_2 and P_4, which are the student images P_S, into the conversion model as the captured images P_5 and P_7, and obtains the converted image P_V, which is the output result.
  • the captured images P_1 to P_4, P_6, and P_8 other than the captured images P_5 and P_7 are input to the conversion model as invalid signals such as black signals, for example.
  • the learning execution unit 1323 updates the coefficient data so that the transformed image P_V approaches the captured image P_1, which is the teacher image P_T.
  • the learning execution unit 1323 verifies the updated coefficient data according to the verification instruction from the plan control unit 1322.
  • the learning execution unit 1323 executes viewpoint conversion on the verification data using a conversion model using the updated coefficient data.
  • the learning execution unit 1323 evaluates the performance of the viewpoint conversion processing result using the transformed image P_V after viewpoint conversion.
  • the learning execution unit 1323 notifies the plan control unit 1322 of the evaluation result as a verification result.
  • the verification data is data equivalent to the learning data.
  • the verification data includes a teacher image P_T and a student image P_S.
  • the learning execution unit 1323 performs viewpoint conversion processing on the student image P_S of the verification data.
  • the learning execution unit 1323 evaluates how close a processing result (converted image P_V) can be obtained to the teacher image P_T of the verification data.
  • the learning execution unit 1323 uses part of the learning data as verification data, the learning execution unit 1323 inputs the student image P_S and the black signal to the conversion model and converts it, as in the case of individualized learning. Generate image P_V.
  • the verification data is part of the learning data acquired by the management unit 131 here, the verification data is not limited to this.
  • the verification data may be data acquired in advance.
  • the verification data may include captured images P_1 to P_8 captured by all the imaging devices 300_1 to 300_8 as student images P_S.
  • the verification data may include, as the teacher image P_T, a captured image captured from approximately the center of the display 210 by a learning imaging device (not shown).
  • the user included in the verification data is a different person from the user U who learns through personalized learning.
  • the verification using the verification data is more of a verification of the viewpoint conversion process using all the imaging devices 300_1 to 300_8, rather than a verification of the viewpoint conversion process specialized for the user U through individualized learning.
  • the learning execution unit 1323 can verify whether the ability of viewpoint conversion processing using all the imaging devices 300_1 to 300_8 is not unduly impaired due to individualized learning.
  • the learning execution unit 1323 may perform either one of the verification using the learning data as the verification data and the verification using the previously photographed data as the verification data, or may perform both. If both are executed, the learning execution unit 1323 determines whether viewpoint conversion processing specialized for user U can be performed through individualized learning, and whether the ability of viewpoint conversion processing using all imaging devices 300 is unduly impaired. It is possible to perform both verifications.
  • the learning execution unit 1323 can perform individualized learning using all the learning data acquired by the management unit 131 as learning data. Thereby, the information processing device 100 can acquire learning data more efficiently.
  • evaluation indicators used by the learning execution unit 1323 for the above-mentioned verification include PSNR, SSIM, LPIPS, and the like.
  • the learning execution unit 1323 may, for example, classify the verification data for each item (category) of the learning data acquisition plan and verify the learning results for each item. For example, the learning execution unit 1323 classifies the verification data into categories using supplementary information of the learning data, such as the combination of the imaging devices 300, head pose, and facial expression.
  • the planning control unit 1322 can identify categories of learning data that are insufficient to improve the accuracy of viewpoint conversion processing.
  • the plan control unit 1322 requests the management unit 131 to acquire additional learning data by specifying a category.
  • the learning execution unit 1323 can manage the learned coefficient data and the verification results using the learned coefficient data in a linked manner. Further, the learning execution unit 1323 can attach the verification ID to the verification result and notify the plan control unit 1322. The learning execution unit 1323 outputs the learned coefficient data corresponding to the verification ID to the conversion unit 133 according to the instruction from the plan control unit 1322.
  • the learning execution unit 1323 can acquire learning-related information from an external device via the communication unit 110, for example.
  • the learning execution unit 1323 may insert into the individualized learning the same learning as the learning performed in advance for an unspecified user U. In this case, for example, it is assumed that the storage unit 120 stores data similar to the learning data used in the learning performed in advance for an unspecified user U.
  • the conversion unit 133 performs viewpoint conversion using the captured images P_1 to P_8 captured by the imaging devices 300_1 to 300_8, as if the images were captured by the virtual camera C_V, and generates a converted image P_V.
  • FIG. 18 is a block diagram illustrating a configuration example of the conversion unit 133 according to the embodiment of the present disclosure.
  • the conversion unit 133 includes a coefficient data management unit 1331, a viewpoint conversion unit 1332, and a learning execution unit 1323.
  • the coefficient data management unit 1331 manages coefficient data used by the viewpoint conversion unit 1332. For example, when the viewpoint conversion unit 1332 performs viewpoint conversion using a DNN, the coefficient data corresponds to a weighting coefficient of the DNN.
  • the coefficient data management unit 1331 manages multiple types of coefficient data. For example, the coefficient data management unit 1331 stores coefficient data (hereinafter also referred to as unspecified target coefficients) learned through learning targeted at unspecified users (hereinafter also referred to as unspecified target learning) that has been learned in advance. to manage. The coefficient data management unit 1331 manages coefficient data (hereinafter also referred to as individual target coefficients) learned through individualized learning.
  • coefficient data hereinafter also referred to as individual target coefficients learned through individualized learning.
  • the coefficient data management unit 1331 can manage multiple types of unspecified target coefficients. For example, the coefficient data management unit 1331 provides a plurality of categories according to age, gender, race, etc., and manages unspecified coping coefficients learned through unspecified target learning performed for each category. The coefficient data management unit 1331 manages unspecified target coefficients for each category.
  • the coefficient data management unit 1331 When the coefficient data management unit 1331 is requested by the learning control unit 132 for coefficient data, the coefficient data management unit 1331 outputs the coefficient data to the learning control unit 132. At this time, the coefficient data output by the coefficient data management unit 1331 is a coefficient that becomes the basis of the individualized learning performed by the learning control unit 132, and is, for example, coefficient data before learning (unspecified target coefficient).
  • the coefficient data management unit 1331 When the coefficient data management unit 1331 manages multiple types of unspecified target coefficients, the coefficient data management unit 1331 sends the unspecified target coefficients corresponding to the user U who is the target of individualized learning to the learning control unit 132. Output. For example, the coefficient data management unit 1331 classifies the user U into categories according to age, gender, race, etc., and outputs unspecified target coefficients of the same category to the learning control unit 132.
  • the coefficient data management unit 1331 may directly acquire information regarding the user U (user attribute information) from the user U, or may estimate it from the captured image P of the user U.
  • the information processing device 100 can acquire user attribute information from the user U when the user U registers for use.
  • the coefficient data management unit 1331 acquires learned coefficient data from the learning control unit 132.
  • the coefficient data management unit 1331 manages the acquired learned coefficient data as a specific target coefficient. For example, when the user U performs telecommunications, the viewpoint conversion unit 1332 converts the captured image P of the imaging device 300 into a converted image P_V.
  • the coefficient data management unit 1331 outputs the specific target coefficient used by the viewpoint conversion unit 1332 at this time to the viewpoint conversion unit 1332 as coefficient data.
  • the coefficient data management unit 1331 can store the user U and the specific target coefficient in the storage unit 120 in association with each other.
  • coefficient data management unit 1331 acquires the specific target coefficient corresponding to user U from storage unit 120 and outputs it to viewpoint conversion unit 1332.
  • the information processing system 10 can omit user U's individualized learning from the second time onwards.
  • the coefficient data management unit 1331 can store and manage unspecified target coefficients in the storage unit 120.
  • the learning control unit 132 executes individualized learning for each user U using unspecified target coefficients managed by the coefficient data management unit 1331.
  • the unspecified target coefficient may be used for viewpoint conversion targeting an unspecified user U, for example, when the user uses the information processing system 10 without performing user registration.
  • the viewpoint conversion unit 1332 uses the coefficient data acquired from the coefficient data management unit 1331 to convert the viewpoint of the captured image P of the imaging device 300 by machine learning, and generates a converted image P_V.
  • the viewpoint conversion unit 1332 may perform viewpoint conversion using any machine learning capable of online learning.
  • the viewpoint conversion unit 1332 presents the converted image P_V to the user U by outputting it to the display 210.
  • the viewpoint conversion unit 1332 transmits the converted image P_V to another information processing system 10 as a telecommunication partner via the communication unit 110.
  • the information processing system 10 can present the converted image P_V as if it were captured from the virtual camera C_V located approximately in the center of the display 210 to the other party of telecommunication.
  • the conversion unit 133 has some of the same functions as the learning execution unit 1323 (see FIG. 17) described above. This is because the learning execution unit 1323 has a function of performing individualized learning and a function of verifying the learning. Therefore, the conversion unit 133 and the learning execution unit 1323 may be configured to share the same function. For example, the conversion unit 133 and the learning execution unit 1323 may be implemented as one component.
  • the estimation unit 134 estimates the facial state of the user U from the captured image P of the imaging device 300 and generates facial information.
  • the estimation unit 134 outputs face information to the management unit 131.
  • the estimation unit 134 estimates the face state from the captured image P, but the estimation unit 134 may estimate the face state by a sensing technique using a sensor device (not shown) such as ToF, for example.
  • the face information is information indicating the state of the user U's face at the current time. Face information can be defined as information sufficient to determine whether the items of the learning data acquisition plan created by the management unit 131 are satisfied.
  • the face information includes the above-mentioned face position information, head pose information, and facial expression information.
  • the face position information is, for example, information indicating the three-dimensional coordinates of the center of gravity of the user U's face. Note that, as described above, the coordinate system of the face position information is preferably the same as the coordinate system of the position information of the imaging device 300.
  • the head pose information is, for example, information indicating the direction of the user U's face.
  • the direction of the user U's face is represented by, for example, Yaw, Roll, and Pitch.
  • the head pose information may be information indicating each pose shown in FIG. 15, for example.
  • the facial expression information is, for example, information indicating the facial expression of the user U.
  • the facial expression information is, for example, information indicating each facial expression in FIG. 16.
  • FIG. 19 is a block diagram illustrating a configuration example of the estimation unit 134 according to the embodiment of the present disclosure.
  • the estimation unit 134 includes a face position estimation unit 1341, a head pose estimation unit 1342, a selection unit 1343, an expression estimation unit 1344, and an integration unit 1345.
  • the face position estimation unit 1341 estimates the face position of the user U using the captured image P of the imaging device 300 and camera information.
  • the head pose estimation unit 1342 estimates the head pose of the user U using the captured image P of the imaging device 300 and camera information.
  • the face position estimation unit 1341 estimates the face position using a plurality of captured images P. Thereby, the face position estimating unit 1341 can capture the head of the user U three-dimensionally using stereo vision, and the accuracy of estimating the face position is further improved.
  • the more captured images P that the face position estimating unit 1341 uses for face position estimation the more the face position estimation accuracy improves.
  • the processing time also increases. How many captured images P are used by the face position estimation unit 1341 for face position estimation depends on the face position estimation accuracy and processing time.
  • the face position estimating unit 1341 estimates the face position using a number of captured images P that allows estimation to be performed in real time with higher precision.
  • the head pose estimating unit 1342 can estimate the head pose with higher accuracy by using a plurality of captured images P.
  • the selection unit 1343 selects, from the captured images P of the imaging device 300, the captured image P (hereinafter also referred to as the focused image) of the imaging device 300 (focused camera) directly facing the user U using the focused camera ID information.
  • the selection unit 1343 outputs the selected image of interest to the facial expression estimation unit 1344.
  • the facial expression estimation unit 1344 estimates the facial expression of the user U using the image of interest.
  • the image of interest is an image captured by the camera of interest directly facing the user U. Therefore, there is a high possibility that the image of interest is an image in which the user U is facing forward.
  • the facial expression estimation unit 1344 can estimate the facial expression of the user U with higher accuracy by estimating the facial expression of the user U using the image of interest.
  • the integrating unit 1345 acquires face position information estimated by the face position estimation unit 1341, head pose information estimated by the head pose estimation unit 1342, and facial expression information estimated by the facial expression estimation unit 1344.
  • the integrating unit 1345 synchronizes the information estimated by each unit, integrates each piece of information, and outputs it to the management unit 131 as face information.
  • the integrating unit 1345 generates face information including face position information, head pose information, and facial expression information at the same time by synchronizing these pieces of information.
  • the configuration of the estimation unit 134 is not limited to this.
  • FIG. 20 is a block diagram illustrating another configuration example of the estimation unit 134 according to the embodiment of the present disclosure.
  • the estimation unit 134 shown in FIG. 20 includes a face position estimation unit 1341, a head pose estimation unit 1342, a selection unit 1343, a facial expression estimation unit 1344, and an estimation processing unit 1346 instead of the integration unit 1345.
  • the estimation processing unit 1346 generates face information using the captured image P of the imaging device 300, camera information, and target camera ID information.
  • the estimation processing unit 1346 can generate facial information using, for example, machine learning.
  • the means for realizing the facial state estimation process by the estimating unit 134 is arbitrary, but since the facial information is used to guide the user U, the estimating unit 134 is required to be able to estimate the facial state in real time. .
  • the UI control unit 135 obtains a guidance instruction from the management unit 131.
  • the UI control unit 135 generates a UI image based on the guidance instruction.
  • the UI control unit 135 generates a display image in which the UI image is superimposed on the captured image P, and outputs it to the display 210.
  • FIG. 21 is a block diagram illustrating a configuration example of the UI control unit 135 according to the embodiment of the present disclosure. As shown in FIG. 21, the UI control unit 135 includes a UI generation unit 1351 and a UI display unit 1352.
  • the UI generation unit 1351 generates a UI image based on the guidance instruction obtained from the management unit 131.
  • the UI image is an image for guiding the user U to a desired position, head pose, and facial expression.
  • the guidance instruction includes, for example, face position information as a guidance target (hereinafter also referred to as guidance position information) and current face position information of user U (hereinafter also referred to as current position information).
  • the guidance position information includes three-dimensional information of the face position that is the guidance destination.
  • the current position information includes three-dimensional information of the current face position of the user U.
  • the guidance instruction may include the direction in which the user U is guided to move (hereinafter also referred to as the guidance direction) and the amount of movement (hereinafter also referred to as the amount of guidance).
  • the guidance instruction includes, for example, attention camera ID information.
  • the guidance instruction includes, for example, information regarding the head pose that is the guidance target (hereinafter also referred to as guidance head pose information).
  • the guided head pose information is, for example, information that specifies a target pose from among a plurality of head poses shown in FIG. 15.
  • the guided head pose information may be information indicating the target head pose of Yaw, Roll, and Pitch.
  • the guidance instruction may include current head pose information (hereinafter also referred to as current head pose information) in addition to the guidance head pose information.
  • the current head pose information may be, for example, information specifying a pose close to the pose taken by the user U from among the multiple poses of the head poses shown in FIG. It may also be information indicating Pitch.
  • the guidance instruction includes, for example, information regarding the facial expression that is the guidance target (hereinafter also referred to as guidance facial expression information).
  • the guided facial expression information is, for example, information that specifies a target facial expression from among a plurality of facial expressions shown in FIG. 16. For example, if the facial expression includes the utterance of a specified sentence, the guidance instruction includes information regarding the specified sentence.
  • the guidance instruction includes, for example, information regarding the achievement status (hereinafter also referred to as achievement status information).
  • the achievement status information is, for example, information indicating whether or not the guidance goal has been achieved with respect to the user U's face position, head pose, and facial expression.
  • the achievement status information is expressed as success or failure of guidance for each item of user U's face position, head pose, and facial expression.
  • the UI generation unit 1351 generates a UI image based on the guidance instruction.
  • FIG. 22 is a diagram for explaining an example of a UI image according to the embodiment of the present disclosure.
  • a display image in which the UI image is superimposed on the captured image P is shown.
  • a UI image generated by the UI generation unit 1351 when the guidance instruction includes guidance position information and current position information will be described.
  • the UI generation unit 1351 generates a face position UI image indicating the target face position based on the guided position information. For example, the UI generation unit 1351 generates a face position UI image that includes a square frame whose center coordinates are the coordinates included in the guided position information.
  • the UI generation unit 1351 generates an arrow whose starting point is the face position of the current position information and whose end point is the face position UI image as a moving UI image.
  • the information processing device 100 prompts the user U to move the face position using the face position UI image and the movement UI image.
  • the UI generation unit 1351 can draw a three-dimensional three-dimensional arrow as a moving UI image. Thereby, the UI generation unit 1351 can prompt the user U to move in a direction perpendicular to the display 210 in addition to movement in a direction parallel to the display 210.
  • the UI generation unit 1351 uses the camera information in order to draw the face position UI image and the moving UI image at appropriate coordinate positions.
  • the UI generation unit 1351 generates a head pose UI image to be superimposed on the face position UI image.
  • the head pose UI image is an image showing the head pose included in the guided head pose information.
  • the guided head pose information includes information specifying a pose
  • an image indicating the specified pose is generated as a head pose UI image.
  • the UI generation unit 1351 When the guided head pose information includes parameter information such as Yow, Roll, and Pitch, the UI generation unit 1351 generates a head pose UI image by drawing a head pose according to the parameters. At this time, the UI generation unit 1351 can present the deviation (difference) between the current head pose and the target head pose to the user U using the current head pose information. Alternatively, the UI generation unit 1351 may generate a UI image that encourages an action to reduce the deviation, such as showing an arrow in the direction of tilting the head.
  • parameter information such as Yow, Roll, and Pitch
  • the information processing apparatus 100 allows the user U to move to the target face position and to move the head pose UI image to the target head position. You can encourage them to pose. User U can intuitively recognize the moving direction of the face position and the head pose to be taken.
  • the UI generation unit 1351 generates a facial expression UI image indicating guidance facial information.
  • the facial expression UI image is, for example, text information indicating a target facial expression such as "happy" or "angry.”
  • the displayed UI image may include a face icon indicating an emotion.
  • the UI generation unit 1351 when uttering a specified sentence is specified as a facial expression by the guidance display information, the UI generation unit 1351 generates a facial expression UI image indicating that the target facial expression is the specified sentence, as shown in FIG.
  • This facial expression UI image includes the content of the utterance (“Hello” in the example of FIG. 22).
  • the facial expression UI image may be superimposed at a position that is easily noticed by the user U, such as at the top of the display image, for example.
  • the UI generation unit 1351 generates an achievement UI image indicating achievement status information.
  • the achievement UI image is an image showing the achievement status for each item such as face position, head pose, and facial expression.
  • items that have been achieved are indicated with a " ⁇ ”
  • items that have not been achieved are indicated with an "x”.
  • the face position and head pose have not achieved the target, but the facial expression has achieved the target. That is, it is shown that the user U is speaking.
  • the UI image generated by the UI generation unit 1351 is not limited to the example described above.
  • the UI generation unit 1351 may highlight UI images related to unachieved items (in the example of FIG. 22, a face position UI image, a movement UI image, and a head pose UI image).
  • the UI generation unit 1351 highlights a UI image related to an unachieved item by blinking it or drawing it in a different color from other UI images.
  • the UI control unit 135 when presenting the display image to the user U, the UI control unit 135 generates the display image by superimposing the UI image on an image obtained by horizontally inverting the captured image P.
  • the UI generation unit 1351 generates a UI image taking into account that the captured image P is horizontally reversed.
  • the UI control unit 135 inverts the captured image P to generate a display image, so that the user U can check himself in the same way as when looking in a mirror.
  • FIG. 23 is a diagram for explaining another example of the UI image according to the embodiment of the present disclosure.
  • a display image in which the UI image is superimposed on the captured image P is shown.
  • a UI image generated by the UI generation unit 1351 when the guidance instruction includes a guidance direction and a guidance amount will be described. Note that descriptions of UI images that are the same as those shown in FIG. 22 will be omitted.
  • the UI generation unit 1351 generates an arrow indicating the guidance direction and amount as an arrow UI image instead of the face position UI image and the movement UI image. Since the UI generation unit 1351 has not acquired user U's face position information, the arrow UI image is drawn at a position independent of the user U's position (in the example of FIG. 23, approximately at the center of the display image).
  • the UI generation unit 1351 displays a head pose UI image representing a target head pose (hereinafter also referred to as target head pose) at a predetermined position.
  • target head pose a target head pose
  • the head pose UI image is drawn in a position that is easily visible to the user U, such as the top of the display image, for example. Therefore, in the example shown in FIG. 23, the facial expression UI image is drawn directly below the head pose UI image.
  • the UI generation unit 1351 can generate the UI image without using the position information of the imaging device 300.
  • the UI generation unit 1351 outputs the generated UI image and the camera ID information indicating the camera ID of the camera to the UI display unit 1352.
  • the UI display unit 1352 generates a display image by superimposing a UI image on the image of interest captured by the camera of interest based on the camera of interest ID information. At this time, the UI display unit 1352 generates a display image by horizontally inverting the image of interest and superimposing the UI image as described above.
  • the UI display unit 1352 presents the display image to the user U by outputting the display image to the display 210.
  • the method of guiding the user U is not limited to the method using image information.
  • the UI control unit 135 may guide the user U using voice or an LED lamp.
  • the UI control unit 135 may cause the user U to recognize the position of the camera of interest by lighting up an LED lamp installed near the camera of interest.
  • FIG. 24 is a flowchart illustrating an example of the flow of learning processing according to the embodiment of the present disclosure.
  • the learning process shown in FIG. 24 is executed by the information processing device 100.
  • the information processing apparatus 100 executes the learning process shown in FIG. 24 before the user U is provided with a telecommunications service, such as when the user U performs user registration.
  • the information processing device 100 executes acquisition processing (step S101).
  • the acquisition process is, for example, a process executed when acquiring learning data.
  • the information processing device 100 executes individualized learning processing using the acquired learning data (step S102).
  • the information processing device 100 executes a verification process for verifying the results of the individualized learning performed in the individualized learning process (step S103).
  • the information processing device 100 determines whether there is a request to acquire additional learning data based on the execution result of the verification process (step S104). If there is an additional acquisition request (step S104; Yes), the information processing device 100 returns to step S101 and executes the acquisition process. On the other hand, if there is no additional acquisition request (step S104; No), the information processing device 100 ends the learning process.
  • the information processing device 100 After completing the learning process, the information processing device 100 provides a telecommunications service to the user U, for example, in accordance with an instruction from the user U.
  • the information processing device 100 can process the acquisition process, the individualized learning process, and the verification process in parallel. For example, when predetermined learning data is acquired, the information processing device 100 can execute the individualized learning process and the verification process even while the acquisition process is in progress.
  • FIG. 25 is a flowchart illustrating an example of the flow of acquisition processing according to the embodiment of the present disclosure.
  • the acquisition process shown in FIG. 25 is mainly executed by the management unit 131 of the information processing device 100.
  • the management unit 131 creates a learning data acquisition plan (step S201).
  • the management unit 131 selects a scene to be executed (hereinafter also referred to as an execution scene) from the learning data acquisition plan (step S202). For example, the management unit 131 selects the first scene described above.
  • the management unit 131 executes the guidance process and guides the user U so that the facial state of the user U becomes a target facial state according to the execution scene (step S203). After completing the guidance, the management unit 131 acquires learning data corresponding to the execution step (step S204).
  • the management unit 131 determines whether acquisition of learning data in the execution step is completed (step S205). For example, the management unit 131 determines whether acquisition of learning data has been completed based on whether learning data of the target length (number of frames) has been acquired in the target face state.
  • step S205 For example, if the acquisition of the learning data is not completed because the user U moves during the acquisition of the learning data (step S205; No), the management unit 131 returns to step S203. On the other hand, when acquisition of the learning data is completed (step S205; Yes), the management unit 131 transmits the acquired learning data to the learning control unit 132 (step S206).
  • the management unit 131 determines whether acquisition of learning data has been completed for all plans in the learning data acquisition plan (step S207). If there is a scene for which learning data has not been acquired (step S207; No), the management unit 131 returns to step S202.
  • step S207 If learning data acquisition has been completed for all plans (step S207; Yes), that is, learning data has been acquired for all scenes, the management unit 131 determines whether there is an additional acquisition request from the learning control unit 132. is determined (step S208).
  • step S208; Yes If there is an additional acquisition request (step S208; Yes), the management unit 131 returns to step S201. On the other hand, if there is no additional acquisition request (step S208; No), the management unit 131 ends the acquisition process.
  • FIG. 26 is a flowchart illustrating an example of the flow of guidance processing according to the embodiment of the present disclosure.
  • the guidance processing shown in FIG. 26 is mainly executed by the guidance control unit 1312 of the information processing device 100.
  • the guidance control unit 1312 acquires face information from the estimation unit 134 (step S301).
  • the guidance control unit 1312 acquires a guidance target according to the execution step from the creation control unit 1311 (step S302).
  • the management unit 131 generates a guidance instruction based on the guidance target and notifies the UI control unit 135 of the guidance instruction (step S303).
  • the guidance control unit 1312 acquires face information from the estimation unit 134 (step S304).
  • the guidance control unit 1312 generates a guidance situation based on the acquired face information, and notifies the creation control unit 1311 of the guidance situation (step S305).
  • the guidance control unit 1312 determines whether the user U has been guided to the guidance target, that is, whether the guidance is completed (step S306). If the guidance is not completed (step S306; No), the guidance control unit 1312 returns to step S302. When the guidance is completed (step S306; Yes), the guidance control unit 1312 ends the guidance processing.
  • the guidance control unit 1312 determines whether or not the guidance has been completed, but the creation control unit 1311 may determine whether the guidance has been completed. In this case, the creation control unit 1311 determines whether the guidance has been completed based on the guidance status acquired from the guidance control unit 1312.
  • the creation control unit 1311 executes acquisition of learning data. If the guidance has not been completed, the creation control unit 1311 may, for example, create a new guidance target and notify the guidance control unit 1312. Alternatively, the creation control unit 1311 may notify that guidance has not been completed. In this case, the guidance control unit 1312 generates the guidance instruction again based on the already acquired guidance target.
  • FIG. 27 is a flowchart illustrating an example of the flow of UI generation processing according to the embodiment of the present disclosure.
  • the UI generation process shown in FIG. 27 is mainly executed by the UI control unit 135 of the information processing device 100. For example, when the UI control unit 135 obtains a guidance instruction from the guidance control unit 1312, the UI control unit 135 executes the UI generation process shown in FIG.
  • the UI control unit 135 obtains a guidance instruction from the guidance control unit 1312 (step S401).
  • the UI control unit 135 generates a UI image based on the guidance instruction (step S402).
  • the UI control unit 135 generates a display image (step S403).
  • the UI control unit 135 generates a display image by, for example, superimposing the UI image on an image obtained by horizontally inverting the image of interest captured by the camera of interest.
  • the UI control unit 135 causes the display 210 to display a display image (step S404).
  • FIG. 28 is a flowchart illustrating an example of the flow of individualized learning processing according to the embodiment of the present disclosure.
  • the individualized learning process shown in FIG. 28 is executed by the learning control unit 132 of the information processing device 100.
  • the learning control unit 132 creates a learning plan (step S501).
  • the learning control unit 132 acquires learning data from the management unit 131 (step S502).
  • the learning control unit 132 determines whether acquisition of learning data is completed (step S503). The learning control unit 132 determines that acquisition of learning data is completed when the learning control unit 132 acquires a predetermined amount of learning data from the management unit 131. Further, the learning control unit 132 determines that the acquisition of the learning data has been completed when the management unit 131 has finished acquiring the learning data.
  • step S503 If acquisition of learning data is not completed (step S503; No), the learning control unit 132 returns to step S502.
  • step S503; Yes the learning control unit 132 acquires learning data that is at least part of the learning data stored in the storage unit 120, for example (step S504).
  • the learning control unit 132 acquires pre-learning coefficient data (for example, unspecified target coefficients) to be used for individualized learning (step S505).
  • the learning control unit 132 performs individual-specific learning and learns a viewpoint conversion specific to the user U (step S506).
  • FIG. 29 is a flowchart illustrating an example of the flow of verification processing according to the embodiment of the present disclosure.
  • the verification process shown in FIG. 29 is executed by the learning control unit 132 of the information processing device 100.
  • the learning control unit 132 obtains, for example, verification data stored in the storage unit 120 (step S601).
  • the verification data is data generated in advance for individualized learning.
  • the learning control unit 132 may acquire at least part of the learning data from the storage unit 120 as verification data.
  • the learning control unit 132 verifies the learning results of the individualized learning (step S602).
  • the learning control unit 132 verifies the learning results using the coefficient data and verification data updated by the individualized learning.
  • the learning control unit 132 determines whether the individualized learning is completed (step S603). For example, if the verification result in step S602 satisfies the desired accuracy, the learning control unit 132 determines that the individualized learning has been completed.
  • the learning control unit 132 determines that the individualized learning has been completed. For example, if the learning control unit 132 requests the management unit 131 to acquire additional learning data a predetermined number of times and executes personalized learning, if the desired accuracy cannot be achieved, the learning control unit 132 performs individualized learning. Determine it as completed.
  • step S603 When the individualized learning is completed (step S603; Yes), the learning control unit 132 notifies the conversion unit 133 of the learned coefficient data, thereby converting the coefficient data used by the conversion unit 133 into the learned coefficient data. (Step S604).
  • step S603 If the individualized learning is not completed (step S603; No), the learning control unit 132 requests the management unit 131 to acquire additional learning data (step S605). The learning control unit 132 notifies the management unit 131 of the additional acquisition request.
  • the information processing device 100 performs viewpoint conversion using machine learning.
  • the information processing device 100 performs perspective conversion learning (unspecified target learning) in advance using a general-purpose data set.
  • the information processing device 100 performs viewpoint conversion processing using the captured images P of all the imaging devices 300 included in the information processing system 10, thereby generating a converted image P_V as if captured by the virtual camera C_V.
  • the information processing device 100 performs unspecified target learning so that viewpoint conversion can be performed by inputting a captured image P captured by at least one imaging device 300 among all the imaging devices 300 included in the information processing system 10. conduct.
  • the information processing device 100 performs unspecified target learning using invalid data such as a randomly selected captured image P and a black image.
  • the information processing device 100 When starting personalized learning, the information processing device 100 first creates a learning data acquisition plan.
  • the information processing device 100 considers camera information (information regarding the position and arrangement of the imaging device 300) that is known or obtained from an external device (not shown), and performs learning using the symmetry of the arrangement of the imaging device 300. Create a data acquisition plan.
  • the information processing device 100 estimates the facial state of the user U from the captured image P of the imaging device 300.
  • the information processing device 100 uses, for example, camera information to estimate the face state.
  • the information processing device 100 guides the user U to achieve the desired facial position, head pose, and facial expression according to the learning data acquisition plan.
  • the information processing device 100 guides the user U by displaying on the display 210 a display image on which the UI image is superimposed.
  • the information processing device 100 continues guiding the user U until the user U reaches a desired facial state.
  • the information processing device 100 acquires learning data.
  • the information processing device 100 converts the learning data into a predetermined format according to the execution scene of the learning data acquisition plan, and stores it in the storage unit 120.
  • the information processing device 100 determines appropriate hyperparameters while referring to learning-related information that is known or obtained from an external device (not shown).
  • the information processing apparatus 100 refers to the hyperparameters, performs personalized learning using learning data generated from at least a portion of the learning data, and updates coefficient data.
  • the information processing device 100 verifies the learning results of the individualized learning, for example, using verification data generated from at least a portion of the learning data.
  • the information processing device 100 performs performance evaluation of the learning results, and determines additional learning data acquisition according to the evaluation results.
  • the information processing device 100 updates the learning data acquisition plan and acquires the learning data. Note that when the information processing device 100 decides to acquire additional learning data, if the execution of the learning data acquisition plan has already been completed, the information processing device 100 creates a new learning data acquisition plan. It's okay.
  • FIG. 30 is a block diagram showing an example of the hardware configuration of the information processing device 800 according to this embodiment. Note that the information processing device 800 shown in FIG. 30 can realize the information processing device 100, for example. Information processing by the information processing apparatus 100 according to the present embodiment is realized by cooperation between software and hardware described below.
  • the information processing device 800 includes, for example, a CPU 871, a ROM 872, a RAM 873, a host bus 874, a bridge 875, an external bus 876, an interface 877, an input device 878, and an output device 879. , a storage 880 , a drive 881 , a connection port 882 , and a communication device 883 .
  • the hardware configuration shown here is an example, and some of the components may be omitted. In addition, components other than those shown here may be further included.
  • the CPU 871 functions, for example, as an arithmetic processing device or a control device, and controls the overall operation of each component or a portion thereof based on various programs recorded in the ROM 872, RAM 873, storage 880, or removable recording medium 901.
  • the CPU 871 implements operational processing within the information processing device 100.
  • the ROM 872 is a means for storing programs read into the CPU 871, data used for calculations, and the like.
  • the RAM 873 temporarily or permanently stores, for example, programs read into the CPU 871 and various parameters that change as appropriate when executing the programs.
  • the CPU 871, ROM 872, and RAM 873 are interconnected, for example, via a host bus 874 capable of high-speed data transmission.
  • the host bus 874 is connected, for example, via a bridge 875 to an external bus 876 whose data transmission speed is relatively low.
  • the external bus 876 is connected to various components via an interface 877.
  • the input device 878 includes, for example, a mouse, a keyboard, a touch panel, a button, a switch, a lever, and the like. Furthermore, as the input device 878, a remote controller (hereinafter referred to as remote control) that can transmit control signals using infrared rays or other radio waves may be used. Furthermore, the input device 878 includes an audio input device such as a microphone.
  • the output device 879 is, for example, a display device such as a CRT (Cathode Ray Tube), LCD, or organic EL, an audio output device such as a speaker or headphone, a printer, a mobile phone, or a facsimile, and transmits the acquired information to the user. This is a device that can notify visually or audibly. Further, the output device 879 according to the present disclosure includes various vibration devices capable of outputting tactile stimulation. The output device 879 implements the output device 200, for example.
  • Storage 880 is a device for storing various data.
  • a magnetic storage device such as a hard disk drive (HDD), a semiconductor storage device, an optical storage device, a magneto-optical storage device, or the like is used.
  • the drive 881 is a device that reads information recorded on a removable recording medium 901 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory, or writes information to the removable recording medium 901, for example.
  • a removable recording medium 901 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory
  • the removable recording medium 901 is, for example, DVD media, Blu-ray (registered trademark) media, HD DVD media, various semiconductor storage media, and the like.
  • the removable recording medium 901 may be, for example, an IC card equipped with a non-contact IC chip, an electronic device, or the like.
  • connection port 882 is, for example, a port for connecting an external connection device 902 such as a USB (Universal Serial Bus) port, an IEEE1394 port, a SCSI (Small Computer System Interface), an RS-232C port, or an optical audio terminal.
  • an external connection device 902 such as a USB (Universal Serial Bus) port, an IEEE1394 port, a SCSI (Small Computer System Interface), an RS-232C port, or an optical audio terminal.
  • the external connection device 902 is, for example, a printer, a portable music player, a digital camera, a digital video camera, or an IC recorder.
  • the communication device 883 is a communication device for connecting to a network, and includes, for example, a communication card for wired or wireless LAN, Wi-Fi (registered trademark), Bluetooth (registered trademark), or WUSB (Wireless USB), optical communication.
  • the position of the virtual camera C_V is set at approximately the center of the display 210, but the position of the virtual camera C_V is not limited to this.
  • the position of the virtual camera C_V may be slightly above the approximate center of the display 210.
  • the position of the virtual camera C_V may be the position of the user U's face or eyes (for example, approximately the center of both eyes) displayed on the display 210.
  • the imaging device 300 is arranged symmetrically with respect to the virtual camera C_V. That is, the imaging device 300 may be arranged such that the relative positional relationship between the virtual camera C_V and the input imaging device C_I substantially matches the relative positional relationship between the teacher imaging device C_T and the student imaging device C_S.
  • a communication program for executing the above operations is stored and distributed in a computer-readable recording medium such as an optical disk, semiconductor memory, magnetic tape, or flexible disk. Then, for example, the program is installed on a computer and the control device is configured by executing the above-described processing.
  • the control device may be a device external to the information processing device 100 (for example, a personal computer). Further, the control device may be a device inside the information processing device 100 (for example, the control unit 130).
  • the communication program may be stored in a disk device included in a server device on a network such as the Internet, so that it can be downloaded to a computer.
  • the above-mentioned functions may be realized through collaboration between an OS (Operating System) and application software.
  • the parts other than the OS may be stored on a medium and distributed, or the parts other than the OS may be stored in a server device so that they can be downloaded to a computer.
  • each component of each device shown in the drawings is functionally conceptual, and does not necessarily need to be physically configured as shown in the drawings.
  • the specific form of distributing and integrating each device is not limited to what is shown in the diagram, and all or part of the devices can be functionally or physically distributed or integrated in arbitrary units depending on various loads and usage conditions. Can be integrated and configured. Note that this distribution/integration configuration may be performed dynamically.
  • the present embodiment can be applied to any configuration constituting a device or system, such as a processor as a system LSI (Large Scale Integration), a module using a plurality of processors, a unit using a plurality of modules, etc. Furthermore, it can also be implemented as a set (that is, a partial configuration of the device) with additional functions.
  • a processor as a system LSI (Large Scale Integration)
  • a module using a plurality of processors a unit using a plurality of modules, etc.
  • it can also be implemented as a set (that is, a partial configuration of the device) with additional functions.
  • a system means a collection of multiple components (devices, modules (components), etc.), and it does not matter whether all the components are in the same housing or not. Therefore, multiple devices housed in separate casings and connected via a network, and a single device with multiple modules housed in one casing are both systems. .
  • the present embodiment can take a cloud computing configuration in which one function is shared and jointly processed by a plurality of devices via a network.
  • the present technology can also have the following configuration.
  • (1) Output to guide the user to face the first imaging device among the first imaging device and the second imaging device arranged symmetrically with respect to the virtual camera set with respect to the display.
  • control the device acquiring a teacher image including the user facing the first imaging device from the first imaging device; learning processing for viewpoint conversion of the second imaging device to correspond to the viewpoint of the virtual camera based on the symmetry of the first imaging device and the second imaging device with respect to the virtual camera and the teacher image;
  • a control unit that performs An information processing device comprising: (2) The information processing device according to (1), wherein the first imaging device and the second imaging device are arranged around the display.
  • the control unit selects, as the second imaging device, the imaging device arranged at a corner of the display from among the plurality of imaging devices arranged around the display.
  • (3) The control unit selects, as the second imaging device, the imaging device arranged approximately at the center of a side of the display from among the plurality of imaging devices arranged around the display.
  • the control unit includes: Among the first imaging device, the second imaging device, and the third imaging device arranged so as to have the symmetry with respect to the virtual camera, the imaging device is configured to face the first imaging device. controlling the output device to guide a user; to correspond to the viewpoint of the virtual camera based on the symmetry of the first imaging device, the second imaging device, and the third imaging device with respect to the virtual camera, and the teacher image. performing the learning process of the viewpoint conversion of the second imaging device and the third imaging device; The information processing device according to any one of (1) to (10). (12) Any one of (1) to (11), wherein the control unit instructs the output device to guide at least one of the user's facial expression, the user's face direction, and the user's face position.
  • the information processing device according to item 1. (13) When at least two of the user's facial expression, the direction of the user's face, and the position of the user's face are to be guided, the control unit is configured to guide the guiding targets one by one in order.
  • the information processing device which instructs the output device.
  • (14) Output to guide the user to face the first imaging device among the first imaging device and the second imaging device arranged symmetrically with respect to the virtual camera set with respect to the display.
  • controlling the device acquiring a teacher image including the user facing the first imaging device from the first imaging device; learning processing for viewpoint conversion of the second imaging device to correspond to the viewpoint of the virtual camera based on the symmetry of the first imaging device and the second imaging device with respect to the virtual camera and the teacher image; and Information processing methods including (15) to the computer, Output to guide the user to face the first imaging device among the first imaging device and the second imaging device arranged symmetrically with respect to the virtual camera set with respect to the display.
  • controlling the device acquiring a teacher image including the user facing the first imaging device from the first imaging device; learning processing for viewpoint conversion of the second imaging device to correspond to the viewpoint of the virtual camera based on the symmetry of the first imaging device and the second imaging device with respect to the virtual camera and the teacher image; and A computer-readable recording medium that records a program for executing.
  • Telecommunication system 10 Information processing system 100
  • Information processing device 110 Communication unit 120
  • Storage unit 130 Control unit 131
  • Management unit 132 Learning control unit 133
  • Conversion unit 134 Estimation unit 135
  • UI control unit 200 Output device 210 Display 220 Speaker 300 Imaging device 1311 Creation Control unit 1312
  • Guidance control unit 1313 Data generation unit 1321
  • Data management unit 1322 Planning control unit 1323
  • Learning execution unit 1331 Coefficient data management unit 1332
  • Face position estimation unit 1342 Head pose estimation unit 1343 Selection unit 1344
  • Expression estimation unit 1345 Integration Section 1346
  • Estimation processing section 1351 UI generation section 1352 UI display section

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

情報処理装置(100)は、制御部(130)を備える。制御部(130)は、ディスプレイに対し設定された仮想カメラに対し対称性を有するように配置された第1の撮像装置及び第2の撮像装置のうち、第1の撮像装置と相対するようにユーザを誘導するよう出力装置を制御する。制御部(130)は、第1の撮像装置と相対したユーザを含む教師画像を第1の撮像装置から取得する。制御部(130)は、第1の撮像装置及び第2の撮像装置の仮想カメラに対する対称性及び教師画像に基づき、仮想カメラの視点に対応させるための第2の撮像装置の視点変換の学習処理を行う。

Description

情報処理装置、情報処理方法、及び、記録媒体
 本開示は、情報処理装置、情報処理方法、及び、記録媒体に関する。
 従来、遠隔地にいるユーザ同士が対面しているかのように会話することでコミュニケーションを図るテレコミュニケーションシステムが利用されている。一般的に、テレコミュニケーションシステムでは、撮像装置や表示装置の配置が制限され得る。そのため、ユーザ同士の視線が一致せず、例えば、アイコンタクトが成立しないことがあった。
 そこで、ユーザ同士の視線が一致するように、撮像画像の視点変換を行う技術が知られている。テレコミュニケーションシステムは、第1のユーザを撮像した撮像画像に基づき、仮想撮影位置から第1のユーザを撮影したように見える画像を生成する。ここで、仮想撮影位置は、表示装置に表示される第2のユーザの視点位置である。
 すなわち、テレコミュニケーションシステムは、表示装置周囲に配置された撮像装置が第1のユーザを撮像した撮像画像に対して、表示装置に表示される第2のユーザの視点位置から撮像したかのような視点変換を行う。テレコミュニケーションシステムは、視点変換を行った撮像画像を、第2のユーザ側の表示装置に表示する。
 これにより、テレコミュニケーションシステムは、第1のユーザ及び第2のユーザの視線を一致させることができる。
国際公開第2018/225518号
 上述したテレコミュニケーションシステムは、例えば視点補間技術を用いて複数の撮像画像を用いた視点変換を行う。複数の撮像画像を用いた視点変換を行う技術として、例えば、機械学習を用いた視点変換技術が知られている。
 機械学習を用いて撮像画像の視点変換を行う場合、テレコミュニケーションシステムが、特定の人物に特化した視点変換を学習すると、不特定の人物を対象とした視点変換の精度が劣化する恐れがある。すなわち、特定の人物に特化して学習した視点変換は、汎用性が低下してしまう。
 一方、テレコミュニケーションシステムが、汎用的に、換言すると人物を特定せずに視点変換を学習すると、特定の人物を対象とした視点変換の精度が劣化する恐れがある。すなわち、不特定の人物を対象として学習した視点変換は、変換対象の人物によっては精度が低下してしまう恐れがある。
 そこで、本開示では、不特定の人物を対象とした視点変換において、特定の人物を対象とした視点変換の精度をより向上させることができる仕組みを提供する。
 なお、上記課題又は目的は、本明細書に開示される複数の実施形態が解決し得、又は達成し得る複数の課題又は目的の1つに過ぎない。
 本開示の情報処理装置は、制御部を備える。制御部は、ディスプレイに対し設定された仮想カメラに対し対称性を有するように配置された第1の撮像装置及び第2の撮像装置のうち、前記第1の撮像装置と相対するようにユーザを誘導するよう出力装置を制御する。制御部は、第1の撮像装置と相対したユーザを含む教師画像を第1の撮像装置から取得する。制御部は、前記第1の撮像装置及び前記第2の撮像装置の前記仮想カメラに対する前記対称性及び前記教師画像に基づき、前記仮想カメラの視点に対応させるための前記第2の撮像装置の視点変換の学習処理を行う。
本開示の実施形態に係るテレコミュニケーションシステムの概要を説明するための図である。 撮像装置が撮像した撮像画像の一例を示す図である。 撮像装置が撮像した撮像画像の一例を示す図である。 本開示の実施形態に係る撮像装置の配置例を示す図である。 本開示の実施形態に係る情報処理システムが視点変換処理によって生成する変換画像の一例を示す図である。 本開示の実施形態に係る生徒画像及び教師画像の取得例について説明するための図である。 本開示の実施形態に係る情報処理システムが視点変換に用いる変換モデルのネットワーク構造の一例を示す図である。 本開示の実施形態に係る情報処理システムが実施する個人特化学習の一例を説明するための図である。 本開示の実施形態に係る個人特化学習に使用する撮像装置の組み合わせの一例を示す図表である。 本開示の実施形態に係る個人特化学習に使用する撮像装置の組み合わせの一例を示す図表である。 本開示の実施形態に係る撮像装置の配置の他の例を示す図である。 本開示の実施形態に係る情報処理システムの構成例を示すブロック図である。 本開示の実施形態に係る管理部の構成例を示すブロック図である。 本開示の実施形態に係る学習データ取得計画の一例を示す図である。 本開示の実施形態に係るヘッドポーズの一例を示す図表である。 本開示の実施形態に係る表情の一例を示す図表である。 本開示の実施形態に係る学習制御部の構成例を示すブロック図である。 本開示の実施形態に係る変換部の構成例を示すブロック図である。 本開示の実施形態に係る推定部の構成例を示すブロック図である。 本開示の実施形態に係る推定部の他の構成例を示すブロック図である。 本開示の実施形態に係るUI制御部の構成例を示すブロック図である。 本開示の実施形態に係るUI画像の一例を説明するための図である。 本開示の実施形態に係るUI画像の他の例を説明するための図である。 本開示の実施形態に係る学習処理の流れの一例を示すフローチャートである。 本開示の実施形態に係る取得処理の流れの一例を示すフローチャートである。 本開示の実施形態に係る誘導処理の流れの一例を示すフローチャートである。 本開示の実施形態に係るUI生成処理の流れの一例を示すフローチャートである。 本開示の実施形態に係る個人特化学習処理の流れの一例を示すフローチャートである。 本開示の実施形態に係る検証処理の流れの一例を示すフローチャートである。 本実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。
 以下に添付図面を参照しながら、本開示の実施形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 また、本明細書及び図面において、具体的な値を示して説明する場合があるが、値は一例であり、別の値が適用されてもよい。
 また、本明細書及び図面において、実施形態の類似する構成要素については、同一の符号の後に異なるアルファベット及び数字の少なくとも一方を付して区別する場合がある。例えば、実質的に同一の機能構成を有する複数の構成を、必要に応じて撮像装置300A_1、300A_2及び300B_1のように区別する。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。例えば、撮像装置300A_1及び300A_2を特に区別する必要が無い場合には、単に撮像装置300Aと称する。例えば、撮像装置300A_1、300A_2及び300B_1を特に区別する必要が無い場合には、単に撮像装置300と称する。
 以下に説明される1又は複数の実施形態(実施例、変形例を含む)は、各々が独立に実施されることが可能である。一方で、以下に説明される複数の実施形態は少なくとも一部が他の実施形態の少なくとも一部と適宜組み合わせて実施されてもよい。これら複数の実施形態は、互いに異なる新規な特徴を含み得る。したがって、これら複数の実施形態は、互いに異なる目的又は課題を解決することに寄与し得、互いに異なる効果を奏し得る。
<<1.はじめに>>
<1.1.情報処理システムの概要構成例>
 図1は、本開示の実施形態に係るテレコミュニケーションシステム1の概要を説明するための図である。テレコミュニケーションシステム1は、情報処理システム10A、10Bを有する。情報処理システム10A、10Bは、ネットワークを介して接続する。
 テレコミュニケーションシステム1は、情報処理システム10Aを使用するユーザUAと、情報処理システム10Bを使用するユーザUBに、テレコミュニケーションサービスを提供する。テレコミュニケーションサービスは、遠隔地にいるユーザUA、UBに対して、双方向的なコミュニケーションを提供するサービスである。
 図1に示す情報処理システム10Aは、情報処理装置100Aと、ディスプレイ210Aと、スピーカ220A_1、220A_2と、撮像装置300A_1~300A_8と、を備える。
(ディスプレイ)
 ディスプレイ210Aは、情報処理装置100Aからの指示に従い、ユーザUAに画像情報を提示する装置である。ディスプレイ210Aは、例えば、情報処理システム10Bから受信した受信画像を表示し得る。ディスプレイ210Aは、例えば、撮像装置300A_1~300A_8が撮像した撮像画像を表示し得る。
 ディスプレイ210Aは、受信画像や撮像画像以外の、例えば情報処理装置100Aが生成したUI画像などを表示し得る。ディスプレイ210Aは、受信画像、撮像画像、及び、UI画像のうち、少なくとも2つを組み合わせて表示し得る。
(スピーカ)
 スピーカ220A_1、220A_2は、情報処理装置100Aからの指示に従い、ユーザUAに音情報を提示する装置である。スピーカ220A_1、220A_2は、例えば、ユーザUBの音声情報を出力し得る。ユーザUBの音声情報は、例えば、情報処理システム10Bから取得される。
 スピーカ220A_1、220A_2は、例えば、ユーザUAの音声情報を出力し得る。ユーザUAの音声情報は、例えば、情報処理システム10Aが有するマイク(図示省略)から取得され得る。
 スピーカ220A_1、220A_2は、例えば、音楽などユーザUA、UBの音声情報以外の音情報を出力し得る。スピーカ220A_1、220A_2は、複数の音情報を重畳して出力し得る。
 なお、スピーカ220A_1は、スピーカ220A_2と同じ音情報を出力してもよく、スピーカ220A_2と異なる音情報を出力してもよい。
 スピーカ220A_1、220A_2の配置は、図1の例に限定されない。スピーカ220A_1、220A_2は、例えば、ディスプレイ210Aの周囲に配置されてもよく、ディスプレイ210Aとは離れた位置に配置されてもよい。
 スピーカ220Aの台数は、2台に限定されない。スピーカ220Aは、1台であってもよく、3台以上であってもよい。また、スピーカ220Aが、ディスプレイ210Aや情報処理装置100Aに内蔵されていてもよい。
 ディスプレイ210A及びスピーカ220Aは、まとめて出力装置とも称される。
(撮像装置)
 撮像装置300A_1~300A_8は、例えば、ディスプレイ210Aの周囲に配置され、ディスプレイ210A周辺を撮像するカメラである。撮像装置300A_1~300A_8は、例えば、ユーザUAを撮像する。撮像装置300Aが撮像する撮像画像は動画像であってもよく、静止画像であってもよい。
 撮像装置300A_1~300A_8は、ディスプレイ210Aに内蔵されてもよく、外付けのカメラとしてディスプレイ210Aの周囲に配置されてもよい。また、撮像装置300Aの台数は8台に限定されない。撮像装置300Aは、少なくとも2台あればよく、7台以下であっても9台以上であってもよい。
(情報処理装置)
 情報処理装置100Aは、情報処理システム10Aが有する各装置を制御する。例えば、情報処理装置100Aは、出力装置から出力する情報を生成する。情報処理装置100Aは、ネットワークを介して情報処理システム10Bと通信を行う。
 図1の例では、情報処理システム10Bは、情報処理システム10Aと同様に構成される。なお、情報処理システム10Bは、情報処理システム10Aと異なる構成であってもよい。例えば、スピーカ220Bの台数や配置などが、情報処理システム10Aと異なっていてもよい。また、撮像装置300Bについても、後述する対称性があるのであれば、台数や配置などが情報処理システム10Aと異なっていてもよい。
<1.2.課題>
 ディスプレイ210の周囲に配置された撮像装置300の撮像画像を用いてユーザUがテレコミュニケーションを行うと、ユーザU同士の視線が一致しにくくなる。
 図2及び図3は、撮像装置300が撮像した撮像画像の一例を示す図である。図2に示す撮像画像P_2は、ディスプレイ210の上部に配置される撮像装置300(例えば撮像装置300A_2(図1参照))で撮像された画像である。図3に示す撮像画像P_5は、ディスプレイ210のサイドに配置される撮像装置300(例えば撮像装置300A_5(図1参照))で撮像された画像である。
 ユーザUが双方向のテレプレゼンスによるコミュニケーションを行う場合、ディスプレイ210に相手の映像が表示される。そのため、ユーザUは、ディスプレイ210を見て相手とのコミュニケーションを行う。
 このとき、情報処理システム10が、ディスプレイ210の周囲に配置される撮像装置300でユーザUを撮影すると、図2及び図3に示すようにユーザUの視線が斜めを向いた映像が撮影される。当該映像が相手側のディスプレイ210に表示されると、相手側は、ユーザUと視線を一致させにくくなり、自然なアイコンタクトを行うことが難しくなる。
 一方、情報処理システム10がユーザUを正面から撮影できれば、相手側は、ユーザUと視線を一致させやすくなり、より容易に自然なアイコンタクトを行えるようになる。
 しかしながら、ユーザUの正面にはディスプレイ210が配置されるため、情報処理システム10がユーザUの正面から撮影することは難しい。例えば、撮像装置300がディスプレイ210の前面に配置されると、ディスプレイ210の一部が撮像装置300によって隠れることで相手が見えなくなってしまう。このように撮像装置300をディスプレイ210の前面に配置することは、円滑なコミュニケーションの妨げとなる恐れがある。
 ここで、例えば、ハーフミラー(図示省略)を使用することで、ディスプレイ210が配置されるユーザUの正面からユーザUを撮影する方法が考えられる。例えば、ハーフミラーは、ディスプレイ210とユーザUとの間に斜めに配置される。ユーザUは、ハーフミラーを介してディスプレイ210が映し出す映像を視認する。また、ハーフミラーの上部に配置されるカメラが、ハーフミラーに映るユーザUの撮像を行う。
 このように、ハーフミラーを使用することで、カメラが、ユーザUの視聴体験を邪魔することなく、ディスプレイ210に正対するユーザUを撮影することができる。しかしながら、ハーフミラーを使用する場合、情報処理システム10が大がかりになってしまうという問題がある。
 また、ディスプレイ210を透過ディスプレイとすることで、ディスプレイ210が配置されるユーザUの正面からユーザUを撮影する方法が考えられる。この場合、カメラは、ディスプレイ210の背面に配置される。
 このように、ディスプレイ210の背面にカメラが配置されることで、当該カメラは、ディスプレイ210に正対するユーザUを撮影することができる。しかしながら、ディスプレイ210の背面にカメラが配置される場合、ディスプレイ210の光量が小さくなるなど、ディスプレイ210の性能が劣化するおそれがある。
 一方、図1に示すように、ディスプレイ210の周囲に配置された撮像装置300を使用して、ディスプレイ210の正面からユーザUを撮影する方法として、撮像装置300が撮像した撮像画像の視点を変換する方法がある。
 この場合、情報処理システム10は、例えば、機械学習を用いて撮像装置300が撮像した撮像画像の視点変換処理を行い、ディスプレイ210の略中央から撮像した変換画像を生成する。
 しかしながら、ディスプレイ210のサイズが大きくなると、撮像装置300と、ディスプレイ210の略中央と、の間の距離が大きくなる。この場合、撮像画像を変換画像に変換する変換画角が大きくなり、高精度に変換することが難しいという問題があった。
 例えば、情報処理システム10を使用するユーザUが事前に特定される場合、情報処理システム10は、ユーザUに関する生徒画像及び教師画像を予め取得することで、特定されるユーザUに特化した学習(以下、個人特化学習とも記載する)を行うことができる。これにより、情報処理システム10は、特定のユーザUを含む撮像画像の変換精度を改善することができる。
 しかしながら、テレコミュニケーションシステム1のユースケースによっては、事前にユーザUを特定することが難しい場合がある。このように、事前にユーザUを特定することが難しく、予め学習に必要な生徒画像や教師画像が取得できない場合であっても、ユーザUを含む撮像画像の変換精度をより改善することが望まれる。
 このように、情報処理システム10が、撮像画像をディスプレイ210の正面(例えば、略中央)から撮像したように視点変換を行う場合において、より高精度に視点変換を行うことが望まれる。
<1.3.提案技術の概要>
 そこで、本開示の実施形態に係る情報処理システム10は、撮像装置300の配置の対称性を利用して、生徒画像(学習データ)及び教師画像(正解データ)を取得する。これにより、情報処理システム10は、不特定のユーザUが使用するテレコミュニケーションシステム1において、当該システムを使用するユーザUに特化した個人特化学習を行うことができる。
 まず、図4を用いて撮像装置300の配置例について説明する。図4は、本開示の実施形態に係る撮像装置300の配置例を示す図である。図4では、撮像装置300とディスプレイ210との位置関係が模式的に示される。また、図5は、本開示の実施形態に係る情報処理システム10が視点変換処理によって生成する変換画像の一例を示す図である。
 図4に示すように、8台の撮像装置300_1~300_8が、ディスプレイ210の周囲に配置される。ここで、情報処理システム10は、撮像装置300_1~300_8が撮像した撮像画像を、ディスプレイ210の略中央の仮想カメラC_Vから撮像した変換画像P_V(図5参照)に変換するものとする。すなわち、情報処理システム10は、撮像画像を、ディスプレイ210の略中央にある視点から見た変換画像P_Vに変換する。変換画像P_Vは、例えば、図5に示すように、ユーザUを正面から撮像した画像である。
 なお、仮想カメラC_Vは実際には存在しない。情報処理システム10は、撮像装置300_1~300_8が撮像した撮像画像を用いて視点変換処理を実行することで、あたかも仮想カメラC_Vから撮像したかのような仮想画像を生成する。
 図4に示す8台の撮像装置300_1~300_8は、仮想カメラC_Vに対して対称性を有するように配置される。例えば、撮像装置300_1及び撮像装置300_2は、撮像装置300_4及び仮想カメラC_Vの相対的な位置関係に応じて配置される。また、撮像装置300_1、300_2、300_4は、撮像装置300_5、300_7及び仮想カメラC_Vの相対的な位置関係に応じて配置される。
 このように、撮像装置300(例えば、撮像装置300_5)は、仮想カメラC_Vとの相対的な位置関係が、他の撮像装置300(例えば、撮像装置300_6、300_7)の相対的な位置関係と同じになるように配置される。
 図4の例では、撮像装置300_1、300_3、300_6、300_8それぞれが、ディスプレイ210の角部に配置される。撮像装置300_2、300_4、300_5、300_7それぞれが、ディスプレイ210の端辺部に配置される。
 本実施形態では、このように仮想カメラC_Vとの相対的な位置関係に応じた撮像装置300の配置を、対称性を有する配置と記載する。本実施形態に係る撮像装置300は、仮想カメラC_Vとの相対関係に応じて、仮想カメラC_Vに対して対称性を有するように配置される。
 このように配置された撮像装置300を用いて、情報処理システム10は、ユーザUを含む生徒画像及び教師画像を取得し、ユーザUに特化した視点変換学習を行う。
 図6は、本開示の実施形態に係る生徒画像及び教師画像の取得例について説明するための図である。ここでは、情報処理システム10は、撮像装置300_2(第3の撮像装置の一例。以下、入力撮像装置C_Iとも記載する)の撮像画像を、仮想カメラC_Vから撮像した変換画像P_Vに変換するための個人特化学習を行うものとする。
 この場合、情報処理システム10は、撮像装置300_4を、教師画像を取得するための撮像装置(第1の撮像装置の一例。以下、教師撮像装置C_Tとも記載する)とする。情報処理システム10は、教師撮像装置C_Tが撮像した撮像画像を教師画像(教師データ)P_Tとする。
 情報処理システム10は、撮像装置300_1を、生徒画像を取得するための撮像装置(第2の撮像装置の一例。以下、生徒撮像装置C_Sとも記載する)とする。情報処理システム10は、生徒撮像装置C_Sが撮像した撮像画像を生徒画像(生徒データ)P_Sとする。
 情報処理システム10では、ディスプレイ210に対し設定された仮想カメラC_Vに対し対称性を有するように教師撮像装置C_T及び生徒撮像装置C_Sが配置される。
 このとき、情報処理システム10は、教師撮像装置C_Tと正対(相対)するようにユーザUを誘導するよう出力装置を制御する。ここで、ユーザUが教師撮像装置C_Tと正対(相対)するとは、ユーザUが教師撮像装置C_Tの前に位置することを意味する。より具体的に、ユーザUが教師撮像装置C_Tと正対(相対)するとは、例えば、ユーザUが教師撮像装置C_Tの画角の略中央に位置することを意味する。
 情報処理システム10は、教師撮像装置C_Tと正対(相対)したユーザUを含む教師画像P_Tを教師撮像装置C_Tから取得する。情報処理システム10は、教師撮像装置C_Tと正対(相対)したユーザUを含む生徒画像P_Sを生徒撮像装置C_Sから取得する。
 情報処理システム10は、教師撮像装置C_T及び生徒撮像装置C_Sの仮想カメラC_Vに対する対称性及び教師画像に基づき、仮想カメラC_Vの視点に対応させるための変換処理であって、生徒撮像装置C_Sの視点変換の学習処理を行う。情報処理システム10は、生徒画像P_S及び教師画像P_Tを用いて、入力撮像装置C_Iで撮像される撮像画像を、ディスプレイ210に対して設定される視点からの変換画像P_Vに視点変換する変換処理の学習を行う。
 すなわち、情報処理システム10は、生徒画像P_S及び教師画像P_Tを用いて、入力撮像装置C_Iで撮像される撮像画像を仮想カメラC_Vから撮像したかのような変換画像P_Vに視点変換する変換処理の個人特化学習を行う。以下、生徒画像P_S及び教師画像P_Tをまとめて学習用画像とも記載する。
 ここで、入力撮像装置C_Iは、教師撮像装置C_Tと生徒撮像装置C_Sとの相対位置に応じた位置に配置される。具体的に、入力撮像装置C_Iは、入力撮像装置C_Iと仮想カメラC_Vとの相対的な位置が、教師撮像装置C_Tと生徒撮像装置C_Sとの相対的な位置に応じた位置になるように配置される。
 ここで、図7及び図8を用いて情報処理システム10が実施する個人特化学習の一例について説明する。図7は、本開示の実施形態に係る情報処理システム10が視点変換に用いる変換モデルのネットワーク構造の一例を示す図である。図8は、本開示の実施形態に係る情報処理システム10が実施する個人特化学習の一例を説明するための図である。
 図7では、変換モデルに対するネットワークの一例を示している。図7に示すネットワークは、入力層INLと出力層OUTLとの間に複数(多層)の中間層を含む。
 図7の例では、入力層INLは8個の入力ノードN1~N8を有する。入力ノードN1~N8それぞれに、撮像装置300_1~300_8が撮像した撮像画像P_1~P_8が入力される。
 出力層OUTLは1個の出力ノードを有する。出力ノードから視点変換後の変換画像P_Vが出力される。
 図7に示すネットワーク構造を有する変換モデルのパラメータは、個人を特定しない形で予め学習されているものとする。情報処理システム10は、不特定のユーザUを対象として学習されている変換モデルに対して、ユーザUを特定した追加の学習(個人特化学習)を行う。
 図8では、情報処理システム10は、撮像装置300_2を入力撮像装置C_I、撮像装置300_1を生徒撮像装置C_S、撮像装置300_4を教師撮像装置C_Tとして、個人特化学習を行う。
 この場合、情報処理システム10は、入力ノードN2に生徒撮像装置C_Sが撮像した生徒画像P_Sを入力することで出力ノードから変換画像P_Vを取得する。ここで、入力ノードN2は、入力撮像装置C_Iである撮像装置300_2が撮像した撮像画像P_2が入力されるノードである。
 なお、生徒画像P_Sが入力される入力ノードN2以外の入力ノードN1、N3~N8には、撮像画像が入力されないものとする。このように、本実施形態に係る変換モデルは、一部の入力ノードNに撮像画像が入力されていない場合でも、変換画像P_Vを出力し得るモデルである。
 あるいは、情報処理システム10は、撮像画像の代わりに黒画像(全ての画素が黒色である画像)を、生徒画像P_Sが入力される入力ノードN2以外の入力ノードN1、N3~N8に入力するようにしてもよい。この場合、変換モデルは、一部の入力ノードNに黒画像が入力されても変換画像P_Vを出力するよう構成される。
 情報処理システム10は、変換モデルの出力である変換画像P_Vと、教師撮像装置300_4が撮像した教師画像P_Tと、に応じて変換モデルのパラメータを更新する。このようにして、情報処理システム10は、不特定のユーザUを対象とした変換モデルに対して個人特化学習(再学習)を行う。
 なお、ここでは、変換モデルがニューラルネットワーク構造を有するとしたが、変換モデルの構造はこれに限定されない。変換モデルは、撮像画像P_1~P_8を入力とし、変換画像P_Vを出力すればよい。変換モデルは、例えば、CNN(Convolutional Neural Network)やDNN(Deep Neural Network)、RNN(Recurrent Neural Network)、GAN(Generative Adversarial Network)等、種々の構造を取り得る。
 また、ここでは、情報処理システム10が、撮像装置300_2を入力撮像装置C_I、撮像装置300_1を生徒撮像装置C_S、撮像装置300_4を教師撮像装置C_Tとした。しかしながら、入力撮像装置C_I、生徒撮像装置C_S、及び、教師撮像装置C_Tの組み合わせはこれに限定されない。
 図9及び図10は、本開示の実施形態に係る個人特化学習に使用する撮像装置300の組み合わせの一例を示す図表である。個人特化学習に使用する撮像装置300の組み合わせは、生徒撮像装置C_S、入力撮像装置C_I、及び、教師撮像装置C_Tの組み合わせを意味する。
 図9及び図10では、撮像装置300_1~300_8を識別するID(ID#1~ID#8)によって、撮像装置300_1~300_8が区別される。ID(ID#1~ID#8)の数字は、撮像装置300_1~300_8の末尾の数字と対応する。
 図9では、情報処理システム10が生徒撮像装置C_Sとして1台の撮像装置300を選択する。情報処理システム10は、例えば、撮像装置300_6を生徒撮像装置C_S、撮像装置300_4を入力撮像装置C_I、撮像装置300_7を教師撮像装置C_Tとして選択する。
 図10では、情報処理システム10が生徒撮像装置C_Sとして2台の撮像装置300を選択する。情報処理システム10は、例えば、撮像装置300_2、300_4を生徒撮像装置C_S、撮像装置300_5、300_7を入力撮像装置C_I、撮像装置300_1を教師撮像装置C_Tとして選択する。
 撮像装置300_1~300_8が図3に示すようにディスプレイ210周囲に配置される場合、情報処理システム10は、図9及び図10に示すように、28通りの組み合わせの中から個人特化学習に使用する撮像装置300の組み合わせを選択し得る。
 情報処理システム10は、図9及び図10に示す組み合わせのうち少なくとも1通りの組み合わせを、個人特化学習に使用する撮像装置300の組み合わせとして選択し得る。情報処理システム10は、複数の組み合わせを選択した場合、組み合わせを順次切り替えながら学習用画像を取得する。情報処理システム10は、ユーザUを次の教師撮像装置C_Tまで順次誘導して学習用画像を取得する。
 なお、図9及び図10に示すように、撮像装置300の組み合わせごとに番号(以下、組み合わせ番号とも記載する)が付与される。組み合わせ番号は、後述する個人特化学習の計画時に参照される。
 このように、情報処理システム10は、ディスプレイ210の周囲に配置された複数の撮像装置300_1~300_8を使用して個人特化学習を実行する。
 このとき、情報処理システム10は、適切な学習用画像を取得するために、ユーザUに対して適切な位置への移動を促す。適切な位置とは、ユーザUが教師撮像装置C_Tと正対する位置である。
 情報処理システム10は、教師撮像装置C_Tで撮像したユーザUの正対画像を教師画像とし、生徒撮像装置C_Sで撮像したユーザUの非正対画像を生徒画像とした視点変換の学習を行う。このとき、情報処理システム10は、撮像装置300配置の対称性を利用することで、実際には撮像装置300が配置されない、例えばディスプレイ210の略中央から見た変換画像P_Vを生成する変換モデルの学習を行うことができる。
 このように、本開示の実施形態に係る情報処理システム10は、ユーザU個人に特化して学習を行う。これにより、情報処理システム10は、ユーザUを特定しない汎用処理に対し、ユーザU個人の顔に関してより高品質な視点変換を行うことができる。
 また、この個人特化学習がテレコミュニケーションシステム1に適用されることで、ユーザUA、UBは、互いに正対して自然なアイコンタクトを行うことができる。このように、本開示の実施形態に係るテレコミュニケーションシステム1は、より高画質なテレプレゼンスサービスをユーザUに提供することができる。
 また、情報処理システム10は、予め学習した変換モデルに対して、ユーザUに特化した追加の学習(再学習)を行う。そのため、情報処理システム10は、ユーザUに特化した学習を一から行う場合と比較して、より少ない学習画像で再学習を行うことができる。
 情報処理システム10は、例えば、ワンショット学習(フューショット学習)のような学習モデルを使用することで、より少ないサンプル数(生徒画像数)で再学習を行うことが可能となる。
 情報処理システム10は、少ない学習画像で個人特化学習を行うことで、個人特化学習を行う時間を短縮することができる。そのため、情報処理システム10は、予め個人特化学習を行う必要がなく、ユーザUがテレコミュニケーションを行う際にオンラインで個人特化学習を行うことができる。例えば、情報処理システム10は、ユーザUがユーザ利用登録を行う際など、初めてテレコミュニケーションシステム1を使用する場合に、個人特化学習を実施し得る。
 なお、ここでは、情報処理システム10が8台の撮像装置300_1~300_8を有するとしたが、撮像装置300の台数はこれに限定されない。情報処理システム10は、生徒撮像装置C_S、教師撮像装置C_T、及び、入力撮像装置C_Iとして機能する撮像装置300を有していればよい。
 例えば、情報処理システム10は、撮像装置300_2、300_4、300_6(図4参照)の3台を備えるものとする。この場合、情報処理システム10は、撮像装置300_4を生徒撮像装置C_S、撮像装置300_6を教師撮像装置C_T、撮像装置300_2を入力撮像装置C_Iとして、個人特化学習を行うことができる。
 例えば、情報処理システム10は、撮像装置300_1、300_2、300_4(図4参照)の3台を備えるものとする。この場合、情報処理システム10は、撮像装置300_1を生徒撮像装置C_S、撮像装置300_4を教師撮像装置C_T、撮像装置300_2を入力撮像装置C_Iとして、個人特化学習を行うことができる。
 また、この場合、情報処理システム10は、撮像装置300_1を生徒撮像装置C_S、撮像装置300_2を教師撮像装置C_T、撮像装置300_4を入力撮像装置C_Iとして、個人特化学習を行うことができる。
 このように、撮像装置300の配置によっては、情報処理システム10は、同じ撮像装置300を使用して異なる個人特化学習を行うことができる。この場合、情報処理システム10は、より少ない台数の撮像装置300でより高精度に視点変換処理を実行することができるようになる。
 なお、例えば、情報処理システム10が教師撮像装置C_T及び入力撮像装置C_Iとして1台の撮像装置300を選択することで、情報処理システム10は、2台の撮像装置300を用いた個人特化学習を行い得る。
 図11は、本開示の実施形態に係る撮像装置300の配置の他の例を示す図である。図11では、撮像装置300とディスプレイ210との位置関係が模式的に示される。
 図11に示すように、ここでは、情報処理システム10が、撮像装置300_4、300_9を備えるものとする。撮像装置300_9は、ディスプレイ210の外側に配置される。撮像装置300_9は、撮像装置300_9と撮像装置300_4との相対的な位置関係が撮像装置300_4と仮想カメラC_Vとの相対的な位置関係と同じになるように配置される。
 図11の例では、撮像装置300_9は、撮像装置300_4と仮想カメラC_Vと結ぶ直線上であって、撮像装置300_9と撮像装置300_4との間の距離が、撮像装置300_4と仮想カメラC_Vとの間の距離と同じになるように配置される。
 この場合、情報処理システム10は、撮像装置300_9を生徒撮像装置C_S、撮像装置300_4を教師撮像装置C_T、撮像装置300_4を入力撮像装置C_Iとして、個人特化学習を行うことができる。
 このように、情報処理システム10は、ディスプレイ210の周囲及び外側に撮像装置300をそれぞれ配置することで、2台の撮像装置を用いた個人特化学習を行うことができる。
 なお、図11では、撮像装置300_9が、ディスプレイ210の撮像装置300_4より外側、すなわちディスプレイ210の左横側に配置される場合を示したが、撮像装置300_9の配置はこれに限定されない。例えば、撮像装置300_9は、ディスプレイ210の撮像装置300_2より外側、すなわちディスプレイ210の上側に配置されてもよい。撮像装置300_9は、ディスプレイ210の撮像装置300_8より外側、すなわちディスプレイ210の右斜め下側に配置されてもよい。
 また、ディスプレイ210の外側に配置される撮像装置300の数は1台に限定されず、2台以上であってもよい。
 なお、撮像装置300の数が多いと、情報処理システム10はより多くの学習画像を取得することができ、変換モデルによる視点変換の精度をより向上させることができる。
 本開示の技術は、ユーザUに個人特化した視点変換を学習する処理に主眼を置いている。上述したように、情報処理システム10は、個人特化していない視点変換を行う変換モデルを事前に学習しており、事前学習した変換モデルの係数データ(パラメータ)を初期値として、追加で個人特化学習を実施する。例えば、変換モデルがDNNで実装される場合、追加で学習を行うことは一般的なことである。情報処理システム10は、初期値の特性を引き継ぎながら、追加で実施した個人特化学習により、変換モデルをより最適化することができる。
 変換モデルの事前学習は、例えばテレコミュニケーションシステム1をローンチする前に行われる。そのため、情報処理システム10は、テレプレゼンスを実際には行わずに学習画像を収集し得る。また、情報処理システム10は、仮想カメラC_Vの位置に学習用撮像装置(図示省略)を実際に配置して教師画像を取得し得る。
 また、不特定のユーザUを対象とした学習を行う場合、情報処理システム10は、CG(コンピュータグラフィックス)などを用いて生成した多視点画像を学習用画像として使用し得る。
 情報処理システム10は、撮像装置300_1~300_8で撮像した撮像画像P_1~P_8を生徒画像P_S、学習用撮像装置で撮像した画像を教師画像P_Tとして、変換モデルの事前学習を行う。
 なお、個人特化学習は、撮像装置300_1~300_8の配置の対称性を利用した学習である。そのため、上述したように、情報処理システム10が個人特化学習を追加で行う場合、撮像装置300_1~300_8で撮像した撮像画像P_1~P_8全てが、変換モデルに入力されるわけではない。例えば、図9及び図10の例では、変換モデルには1又は2つの撮像画像Pが入力される。個人特化学習では、変換モデルに黒信号など無効データが入力され得る。
 そのため、情報処理システム10は、事前学習において、無効データの入力を許容する変換モデルを学習する。情報処理システム10は、一部の入力データが無効データである追加学習が行われることを想定した事前学習を行う。
 すなわち、情報処理システム10は、入力データの一部として無効データが入力された場合に、無効データは無視し、有効な入力データ(例えば、生徒画像)から視点変換を行う変換モデルを予め学習しておく。
 具体的には、情報処理システム10は、事前学習時に、撮像画像P_1~P_8の中から撮像画像Pをランダムに選択する。情報処理システム10は、選択した撮像画像Pを無効データに変更して視点変換の学習を行う。
 情報処理システム10は、ランダムに選択する撮像画像Pの数を確率的な手段を用いて決定し得る。情報処理システム10は、選択する撮像画像Pの数として、「0」から「7」の間の数を正規分布に従って決定し得る。
 情報処理装置100が比較的少数のサンプルで効率よく追加学習を行うためには、変換モデルが無効な黒信号が入力された場合であっても変換画像P_Vを生成する能力を予め有していることが望ましい。情報処理システム10は、追加学習時に無効データが入力されることを予め想定して事前学習を行う。これにより、情報処理システム10は、この能力を予め有する予測モデルを、追加学習前に得ることができる。
 情報処理システム10は、変換モデルの事前学習を行うことで、撮像装置300_1~300_8全ての視点間の相関を活用しながら、精度の高い非個人特化の視点変換を行い得る。
 このように、変換モデルの事前学習では、全ての視点間の相関が活用される。そのため、一般的に、視点数が多い、すなわち、撮像装置300が多いほど、情報処理システム10は、より精度の高い事前学習を行い得る。また、上述したように、情報処理システム10は、入力データの一部として無効データを受け付ける予測モデルを事前に学習し得る。
 個人特化学習を行う場合、情報処理システム10は、事前学習で得られた変換モデルの係数を初期係数として、個人特化学習を実行する。例えば、予測モデルがDNNで実装されているのであれば、情報処理システム10は、誤差逆伝搬を追加で行うことで、係数を微小変化させて学習を行う。
 上述したように、情報処理システム10は、撮像装置300の配置の対称性を利用して個人特化学習を行う。そのため、情報処理システム10は、多くの入力画像として無効データを予測モデルに入力し得る(図8参照)。
 図8の例では、情報処理システム10は、撮像画像P_2として生徒画像P_S(撮像画像P_1)を予測モデルに入力するが、それ以外の撮像画像P_1、P_3~P_8として、例えば黒信号などの無効データを入力する。
 この場合、情報処理システム10は、撮像画像P_1~P8の全視点間の相関ではなく、撮像画像P_1を活用した視点変換を行えるように、変換モデルの係数を微小変化させる個人特化学習を行う。
 例えば、情報処理システム10が、撮像画像P_2、P_4を生徒画像P_Sとし、撮像画像P_1を教師画像P_Tとする。この場合、情報処理システム10は、撮像画像P_5、P_7として生徒画像P_S(撮像画像P_2、P_4)を入力し、撮像画像P_1~P_4、P_6、P_8として例えば黒信号などの無効データを入力する。
 この場合、情報処理システム10は、撮像画像P_1~P8の全視点間の相関ではなく、撮像画像P_5、P_7の視点間の相関を活用した視点変換を行えるように、変換モデルの係数を微小変化させる個人特化学習を行う。
 このように、情報処理システム10がオンラインで個人に特化した視点変換を学習するとする。この場合、情報処理システム10は、撮像装置300_1~300_8全ての視点間の相関を利用するのではなく、特定の撮像装置300(入力撮像装置C_I)の視点相関を利用して学習を行うことになる。
 上述したように、オンラインでの個人特化学習は、事前学習した予測モデルの係数を初期係数として行われる。そのため、情報処理システム10が特定の撮像装置300の視点相関を利用して学習を行ったとしても、予測モデルが事前学習で獲得した全視点間の相関を活用した視点変換を全て忘却するとは限らない。
 また、情報処理システム10は、予測モデルが全視点間の相関を活用した視点変換を忘却しないような工夫を加えて、個人特化学習を行い得る。例えば、情報処理システム10は、個人特化学習を行う場合でも、事前学習相当の、全視点間の相関を活用する学習を時折挿入し得る。
 このように、情報処理システム10は、全視点間の相関を利用した学習を維持しつつ、個人特化学習による予測モデルの性能向上を行うことができる。
 実際の運用の際には、情報処理システム10は、変換モデルに全ての撮像画像P_1~P8を入力する。理想的には、個人特化学習を行った変換モデルは、全ての撮像画像P_1~P8を利用しながら、個人特化した性能を発揮し得る。
 上述したように、一般的に、変換モデルは視点数が多い方がより精度の高い視点変換を行い得るという性質を有する。この性質は、個人特化学習後も予測モデルに引き継がれ得る。そのため、予測モデルは、情報処理システム10が有する撮像装置300の台数が多い程より高い画質で視点変換を行える可能性がある。そのため、情報処理システム10が、より多くの撮像装置300を備えるようにしてもよい。
<<2.情報処理システムの構成例>>
 図12は、本開示の実施形態に係る情報処理システム10の構成例を示すブロック図である。図12に示す情報処理システム10は、情報処理装置100と、出力装置200と、複数の撮像装置300_1~300_8と、を備える。
[出力装置200]
 出力装置200は、情報処理システム10を使用するユーザUに誘導情報を提示するなど、ユーザUに対して視覚的又は聴覚的に情報を通知する装置である。出力装置200は、ディスプレイ210と、スピーカ220と、を備える。
(ディスプレイ210)
 ディスプレイ210は、例えば、LCD(Liquid Crystal Display)、有機EL(Electro Luminescence)ディスプレイ等の表示装置である。ディスプレイ210は、誘導情報やテレコミュニケーションの相手など、各種情報を表示する。
(スピーカ220)
 スピーカ220は、ユーザUに音情報を通知する音響出力装置である。スピーカ220は、誘導情報やテレコミュニケーションの相手の音声などの音情報を出力する。
 なお、出力装置200は、ディスプレイ210及びスピーカ220以外の装置を備え得る。出力装置200は、例えば、LED(Light Emitting Diode)ランプ等の点灯装置やブザーのような音響出力装置を備え得る。
 例えば、出力装置200は、教師撮像装置C_Tとして選択された撮像装置300の近傍に配置されるLEDランプを点灯させることで、ユーザUを教師撮像装置C_Tの方に誘導するようにしてもよい。
[撮像装置300]
 撮像装置300は、例えば、CCD(Charge Coupled Device)イメージセンサやCMOS(Complementary Metal Oxide Semiconductor)イメージセンサ等の撮像素子を有するカメラである。撮像装置300は、例えばディスプレイ210の周囲に配置される(図4参照)。撮像装置300は、撮像画像Pを生成する。
 なお、複数の撮像装置300_1~300_8に対して、ディスプレイ210や各撮像装置300間の相対位置に関するキャリブレーションが行われているものとする。
 また、情報処理システム10は、撮像装置300以外のセンサ、例えば、マイクロフォンや測距センサなど各種センサを備え得る。情報処理システム10は、キーボードやマウス、タッチパネルなどの入力装置を備え得る。
[情報処理装置100]
 図12に示す情報処理装置100は、通信部110と、記憶部120と、制御部130と、を備える。情報処理装置100は、出力装置200を制御して、各種情報をユーザUに通知する。情報処理装置100は、撮像画像Pを取得するよう撮像装置300を制御する。
(通信部110)
 通信部110は、有線または無線により、ネットワークを介して外部装置(例えば、他の情報処理装置100)と通信する通信インターフェイスである。図12に示す通信部110は、例えば、NIC(Network Interface Card)等によって実現される。通信部110は、情報処理装置100の通信手段として機能する。
(記憶部120)
 記憶部120は、DRAM、SRAM、フラッシュメモリ、ハードディスク等のデータ読み書き可能な記憶装置である。記憶部120は、情報処理装置100の記憶手段として機能する。
(制御部130)
 制御部130は、情報処理装置100の各部を制御する。制御部130は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)、GPU(Graphics Processing Unit)等によって情報処理装置100内部に記憶されたプログラムがRAM(Random Access Memory)等を作業領域として実行されることにより実現される。また、制御部130は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
 制御部130は、管理部131と、学習制御部132と、変換部133と、推定部134と、UI制御部135と、を備える。制御部130を構成する各ブロック(管理部131~UI制御部135)はそれぞれ制御部130の機能を示す機能ブロックである。これら機能ブロックはソフトウェアブロックであってもよいし、ハードウェアブロックであってもよい。例えば、上述の機能ブロックが、それぞれ、ソフトウェア(マイクロプログラムを含む。)で実現される1つのソフトウェアモジュールであってもよいし、半導体チップ(ダイ)上の1つの回路ブロックであってもよい。勿論、各機能ブロックがそれぞれ1つのプロセッサ又は1つの集積回路であってもよい。制御部130は上述の機能ブロックとは異なる機能単位で構成されていてもよい。機能ブロックの構成方法は任意である。
 なお、制御部130は上述の機能ブロックとは異なる機能単位で構成されていてもよい。また、制御部130を構成する各ブロック(管理部131~UI制御部135)の一部又は全部の動作を、他の装置が行ってもよい。例えば、制御部130を構成する各ブロックの一部又は全部の動作を、クラウドコンピューティングにより実現される制御装置が行ってもよい。
(管理部131)
 管理部131は、学習制御部132が行う個人特化学習に使用する学習データの取得を管理する。管理部131は、例えば学習制御部132からの要求に応じて、学習データを取得する。管理部131は、学習データ取得のための計画を生成する。管理部131は、計画に従ってユーザUを誘導し、学習データを生成する。管理部131は、学習データを学習制御部132に通知する。
(学習制御部132)
 学習制御部132は、個人特化学習の計画を生成し、管理部131が取得した学習データを用いて計画を実行する。学習制御部132は、個人特化学習の結果を検証する。学習制御部132は、学習後の変換モデルが所望の視点変換精度を満たすか否かを検証する。
(変換部133)
 変換部133は、変換モデルを用いて、撮像画像Pから変換画像P_Vを生成する。変換部133は、撮像画像Pの視点を仮想カメラC_Vから見た視点に変換した変換画像P_Vを生成する。変換部133は、学習制御部132が学習した変換モデルを用いて撮像画像Pの視点を仮想カメラC_Vから見た視点に変換する。
(推定部134)
 推定部134は、撮像画像Pを用いてユーザUの顔状態を推定する。推定部134は、ユーザUの顔状態として、例えば、顔の位置や表情、頭の向き(ヘッドポーズ)を推定する。推定部134は、例えば、管理部131からの指示に応じてユーザUの顔状態を推定し、推定した顔状態を顔情報として管理部131に通知する。
(UI制御部135)
 UI制御部135は、管理部131からの指示に応じて、表示情報を生成する。表示情報は、例えば、出力装置200から出力される。表示情報には、例えば、ユーザUを誘導する誘導情報が含まれる。
[管理部131の詳細]
 管理部131は、個人特化学習を行う際に使用する学習データの取得方法に関する計画を立てる。この計画には、個人特化学習に使用する撮像装置300の組み合わせに関する情報が含まれる。管理部131は、撮像装置300の位置情報に基づき、撮像装置300の配置の対称性を考慮して、個人特化学習に使用する撮像装置300の組み合わせを選択する。
 管理部131は、作成した計画に従って学習データを取得する。管理部131は、計画に基づき、教師撮像装置C_Tを選択する。管理部131は、選択した教師撮像装置C_Tと正対するようユーザUを誘導する。管理部131は、例えば、推定部134が推定するユーザUの顔状態、及び、教師撮像装置C_Tに応じてユーザUの誘導目標を決定する。管理部131は、決定した誘導目標に従ってユーザUを誘導するためのUIを作成するようUI制御部135に指示する。
 管理部131は、推定部134が推定するユーザUの顔状態に基づき、ユーザUが誘導目標まで移動したか否かを判定する。管理部131は、ユーザUが誘導目標まで移動した場合に、学習データを取得する。管理部131は、取得した学習データを学習制御部132に出力する。管理部131は、学習制御部132から学習データの取得要求を受け取った場合、学習データの取得方法に関する計画を更新し、学習データを新たに取得する。
 図13は、本開示の実施形態に係る管理部131の構成例を示すブロック図である。図13に示すように、管理部131は、作成制御部1311と、誘導制御部1312と、データ生成部1313と、を備える。
(作成制御部1311)
 作成制御部1311は、学習データ取得計画を作成する。作成制御部1311は、例えば記憶部120から撮像装置300の配置や位置に関する情報(以下、カメラ情報と記載する)を取得する。
 なお、カメラ情報は、例えばディスプレイ210における撮像装置300の位置や、撮像装置300の相対的な位置関係などを示す情報であり、予め記憶部120に記憶される。あるいは、作成制御部1311は、例えば撮像装置300や外部装置からカメラ情報を取得してもよい。
 作成制御部1311は、カメラ情報を考慮して、個人特化学習に使用する撮像装置300の組み合わせ(以下、単に組み合わせとも記載する)を少なくとも1つ選択することで、学習データ取得計画を作成する。
 作成制御部1311は、選択した組み合わせごとに、取得する学習データの撮像シーンや長さ(尺)を選択する。作成制御部1311は、撮像シーンとして、ユーザUのヘッドポーズや表情を選択する。作成制御部1311は、例えば取得する撮像画像Pの数(フレーム数)を長さとして選択する。作成制御部1311は、取得する学習データの順番を選択する。
 図14は、本開示の実施形態に係る学習データ取得計画の一例を示す図である。図14では、スタートからエンドにむかって順次実行される学習データ取得計画が示される。作成制御部1311は、図9及び図10に示す28通りの組み合わせの中から、学習データを使用する順に複数の組み合わせを選択する。
 図14の例では、作成制御部1311は、まず組み合わせ番号#13の組み合わせを選択し、次に組み合わせ番号#16の組み合わせを選択する。
 例えば、作成制御部1311は、撮像装置300_2、300_4を生徒撮像装置C_S、撮像装置300_5、300_7を入力撮像装置C_I、撮像装置300_1を教師撮像装置C_Tとする組み合わせを、組み合わせ番号#13の組み合わせとして選択する。
 例えば、作成制御部1311は、撮像装置300_5、300_7を生徒撮像装置C_S、撮像装置300_2、300_4を入力撮像装置C_I、撮像装置300_8を教師撮像装置C_Tとする組み合わせを、組み合わせ番号#16の組み合わせとして選択する。
 作成制御部1311は、組み合わせごとに少なくとも1つのヘッドポーズを選択する。図15は、本開示の実施形態に係るヘッドポーズの一例を示す図表である。
 図15に示すように、ヘッドポーズには、ユーザUの頭の向きが異なる複数のポーズが含まれる。図15の例では、ヘッドポーズには、ポーズ1~ポーズ5の5つのヘッドポーズが含まれる。
 例えば、ポーズ1は、ユーザUが正面を向いたヘッドポーズである。ポーズ2は、ユーザUが図中右斜めを向いたヘッドポーズである。ポーズ3は、ユーザUが図中左斜めを向いたヘッドポーズである。ポーズ4は、ユーザUが図中右側に頭を傾げたヘッドポーズである。ポーズ5は、ユーザUが図中左側に頭を傾げたヘッドポーズである。
 なお、ここでは、ヘッドポーズが5つある場合について示したが、ヘッドポーズの数は4つ以下であっても6つ以上であってもよい。ユーザUが後ろを向くポーズなど、図15に示したポーズ1~5以外のポーズがヘッドポーズに含まれていてもよい。
 作成制御部1311は、複数のヘッドポーズの中から少なくとも1つのポーズを選択して、学習データ取得計画を生成する。
 図14の例では、作成制御部1311は、組み合わせ番号#13の組み合わせを選択時に実行するヘッドポーズとして、順にポーズ1、2、3を選択する。作成制御部1311は、組み合わせ番号#16の組み合わせを選択時に実行するヘッドポーズとして、順にポーズ4、5、1を選択する。
 ここでは、作成制御部1311は、1つの組み合わせに対して3つのヘッドポーズを選択するが、作成制御部1311が選択するヘッドポーズの数はこれに限定されない。作成制御部1311が、1つの組み合わせに対して2つ以下のヘッドポーズを選択してもよく、4つ以上のヘッドポーズを選択してもよい。
 作成制御部1311は、ヘッドポーズごとに少なくとも1つの表情を選択する。図16は、本開示の実施形態に係る表情の一例を示す図表である。
 図16に示すように、表情には、複数の表情1、2、3、・・・が含まれる。例えば、表情1は、「喜」を示す表情である。表情1が選択された場合、情報処理装置100は、ユーザUに対して喜んだ表情を行うように誘導する。表情5は「無表情」である。表情6は、指定文1を発話した時の表情である。このように、表情には、感情を表す表情以外にも、特定の動作(例えば、発話)を行った時の表情が含まれ得る。
 なお、ここでは、表情が7つ以上ある場合について示したが、表情の数は6つ以下であってもよい。
 作成制御部1311は、複数の表情の中から少なくとも1つの表情を選択して、学習データ取得計画を生成する。
 図14の例では、作成制御部1311は、組み合わせ番号#13の組み合わせを選択時にヘッドポーズとしてポーズ1が選択される場合、表情として順に表情1、2を選択する。作成制御部1311は、組み合わせ番号#16の組み合わせを選択時にヘッドポーズとしてポーズ4が選択される場合、表情として順に表情3、4、2を選択する。
 図14では、作成制御部1311は、1つのヘッドポーズに対して2~4つの表情を選択するが、作成制御部1311が選択する表情の数はこれに限定されない。作成制御部1311が、1つのヘッドポーズに対して1つの表情を選択してもよく、5つ以上の表情を選択してもよい。
 作成制御部1311は、表情ごとに撮像画像Pを取得する長さ(フレーム数)を選択する。作成制御部1311は、組み合わせ番号#13の組み合わせ、ポーズ1のヘッドポーズ、及び、表情1を選択した場合、60フレームの撮像画像Pを取得すると決定する。作成制御部1311は、組み合わせ番号#13の組み合わせ、ポーズ2のヘッドポーズ、及び、表情4を選択した場合、40フレームの撮像画像Pを取得すると決定する。
 このように、作成制御部1311は、撮像装置300の組み合わせやヘッドポーズ、表情、撮像時間などを選択することで、学習データ取得計画を生成する。なお、図14に示す学習データ取得計画は一例であり、作成制御部1311は、既存の手法を用いて種々の計画を作成し得る。情報処理装置100が、撮像装置300の配置の対称性を利用して学習データを取得できればよく、学習データ取得計画として、任意の項目、任意の計画が採用され得る。
 作成制御部1311は、例えば、いくつかの指針に基づき、学習データ取得計画を作成し得る。例えば、作成制御部1311は、なるべく多くの撮像装置300を利用して、十分な量の個人特化学習ができるように学習データ取得計画を作成する。作成制御部1311は、多くの学習データを取得することで、視点変換の性能の最大化を目指す。
 あるいは、作成制御部1311が、学習データの取得を最小限に抑えるよう学習データ取得計画を作成するようにしてもよい。この場合、作成制御部1311は、ユーザUへの負荷を抑制しつつ、視点変換の性能をより向上させることができる。
 作成制御部1311は、学習制御部132から学習データの取得要求を受け取る。取得要求には、取得したい学習データの種別、例えば、撮像装置300の組み合わせ、ヘッドポーズや表情などが指定され得る。
 取得要求を受けると、作成制御部1311は、取得要求に応じた学習データ取得計画を作成する。あるいは、作成制御部1311は、既に作成済みの学習データ取得計画を取得要求に応じて更新する。
 次に、作成制御部1311は、作成した学習データ取得計画を実行する。作成制御部1311は、スタートから順に実行する計画を選択する。
 図14の例では、作成制御部1311は、まず、組み合わせ番号#13の組み合わせ、ポーズ1のヘッドポーズ、及び、表情1において60フレームの撮像画像Pを取得すると決定する。以下、組み合わせ番号#13の組み合わせ、ポーズ1のヘッドポーズ、及び、表情1において60フレームの撮像画像Pを取得する計画を学習データ取得計画の第1のシーンとも記載する。
 この場合、作成制御部1311は、撮像装置300_2、300_4を生徒撮像装置C_S、撮像装置300_5、300_7を入力撮像装置C_I、撮像装置300_1を教師撮像装置C_Tとする。
 作成制御部1311は、誘導目標を「ユーザUが撮像装置300_1と正対し、ポーズ1のヘッドポーズで、表情1の表情をすること」に設定する。作成制御部1311は、設定した誘導目標を誘導制御部1312に通知する。なお、作成制御部1311は、誘導目標に加えて、カメラ情報を誘導制御部1312に通知するようにしてもよい。
 作成制御部1311は、要求仕様をデータ生成部1313に通知する。要求仕様は、第1のシーンで学習データを取得するときの撮像装置300の組み合わせに関する情報及び第1のシーンの長さ(図14の例では60フレーム)を含む。要求仕様に、ヘッドポーズや表情などの情報が含まれ得る。これらの情報は、学習制御部132で使用され得る。
 図13に示すように、作成制御部1311は、推定部134に注目カメラIDを通知する。注目カメラは、情報処理装置100が、ユーザUに正対するよう誘導する撮像装置300のことである。第1のシーンの場合、情報処理装置100は、ユーザUに対して撮像装置300_1と正対するよう誘導する。この場合、注目カメラは撮像装置300_1となる。
 作成制御部1311は、注目カメラIDとして撮像装置300_1を示す情報を推定部134に通知する。
 上述したように、推定部134は、ユーザUの顔状態を推定する。情報処理装置100が撮像装置300_1に正対するようユーザUを誘導して第1のシーンを実行する場合、情報処理装置100は、ユーザUが撮像装置300_1の前に移動して所望のヘッドポーズや表情を行っていることを確認してから学習データを取得する。
 そのため、推定部134は、撮像装置300_1の撮像画像P_1からユーザUの顔状態を推定すれば十分である。作成制御部1311が注目カメラIDを推定部134に通知することで、推定部134は、どの撮像装置300に基づいて顔状態を推定すればよいかを認識できる。これにより、情報処理装置100は、推定部134による顔状態推定の処理負荷をより低減することができる。
(誘導制御部1312)
 図13の誘導制御部1312は、作成制御部1311から誘導目標を受け取り、推定部134から顔状態に関する情報を受け取る。誘導制御部1312は、誘導目標及び顔状態に基づいて誘導指示を生成する。誘導制御部1312は、誘導指示をUI制御部135に通知する。
 誘導制御部1312は、ユーザUの顔状態が、誘導目標に近づくように誘導指示を生成する。なお、ユーザUの顔状態に関する情報(以下、顔情報とも記載する)は、現時刻のユーザUの顔の状態を示す情報である。
 顔情報は、学習データ取得計画の各項目が満たされるか否かを、誘導制御部1312が判断するために十分なものとして定義され得る。例えば、図14の学習データ取得計画では、顔情報に、ユーザUの顔位置に関する情報、ヘッドポーズの推定結果に関する情報、及び、表情の推定結果に関する情報が含まれる。
 なお、顔情報に含まれる情報は、上述した例に限定されない。顔情報に含まれる情報は、学習データ取得計画の項目に応じて適宜設定され得る。
(顔位置情報)
 ユーザUの顔位置に関する情報(以下、顔位置情報とも記載する)は、ユーザUを所望の撮像装置300の位置まで誘導するために使用される。誘導制御部1312は、所望の撮像装置300の位置と、現在のユーザUの顔位置と、を比較することで、所望の撮像装置300に正対するようユーザUを誘導するための誘導指示を生成する。
 当該誘導指示には、誘導先に関する情報が含まれる。例えば、UI制御部135が、ユーザUの顔を誘導したい位置に四角の枠を表示させることで、ユーザUを誘導するとする。このとき、誘導制御部1312は、四角の枠の位置やサイズに関する情報を誘導指示に含め得る。
 また、誘導制御部1312は、誘導指示に現在のユーザUの顔位置情報を含め得る。これにより、UI制御部135は、現在のユーザUの顔位置から誘導先の位置(上述した四角の枠)まで誘導するようなビジュアル表現をUIとして表示させることができる。
 誘導指示は上述した誘導先に関する情報に限定されない。誘導指示は、ユーザUを誘導する方向及び移動量に関する情報であってもよい。また、誘導指示には、さらに注目カメラIDが含まれ得る。
 なお、誘導制御部1312は、例えば、撮像装置300の位置情報(カメラ情報)を作成制御部1311から取得する。あるいは、誘導制御部1312は、記憶部120からカメラ情報を取得するようにしてもよい。なお、撮像装置300の位置情報の座標系、及び、顔位置情報の座標系は統一されているものとする。あるいは、誘導制御部1312は、撮像装置300の位置とユーザUの顔位置との比較を行う際に、両方の位置を同一座標系に射影して比較を行うものとする。
(ヘッドポーズ情報)
 ユーザUのヘッドポーズの推定結果に関する情報(以下、ヘッドポーズ情報とも記載する)は、ユーザUに対して所望のヘッドポーズを取るよう誘導するために使用される。
 誘導制御部1312は、所望のヘッドポーズと現在のヘッドポーズ情報とを比較することで、所望のヘッドポーズを取るようユーザUを誘導するための誘導指示を生成する。誘導制御部1312は、ユーザUが所望のヘッドポーズを取っていない場合、所望のヘッドポーズを指定する情報を誘導指示としてUI制御部135に通知する。また、誘導制御部1312は、ユーザUが所望のヘッドポーズを取っている場合、その旨をUI制御部135に通知し得る。
(表情情報)
 ユーザUの表情の推定結果に関する情報(以下、表情情報とも記載する)は、ユーザUに対して所望の表情をするよう誘導するために使用される。
 誘導制御部1312は、所望の表情と現在の表情情報とを比較することで、所望の表情をするようユーザUを誘導するための誘導指示を生成する。誘導制御部1312は、ユーザUが所望の表情でない場合、所望の表情を指定する情報を誘導指示としてUI制御部135に通知する。また、誘導制御部1312は、ユーザUが所望の表情である場合、その旨をUI制御部135に通知し得る。
 なお、誘導制御部1312は、誘導する全ての項目をまとめてユーザUに提示することで、全ての項目をまとめてユーザUを誘導し得る。あるいは、誘導制御部1312は、誘導する複数の項目を1つずつ順にユーザUに提示することで、順次ユーザUを誘導するようにしてもよい。例えば、誘導制御部1312は、まずユーザUの位置を誘導し、次にヘッドポーズを誘導し、最後に表情を誘導するようにしてもよい。
 誘導制御部1312によるユーザUの誘導の仕方には自由度がある。誘導制御部1312は、ユーザUの誘導の仕方を学習データ取得計画のサブ計画として作成し得る。あるいは、作成制御部1311がサブ計画を作成し、誘導目標に含めて誘導制御部1312に通知するようにしてもよい。
(誘導状況)
 また、誘導制御部1312は、現在のユーザUの状況を誘導状況として作成制御部1311に通知する。誘導制御部1312は、推定部134から取得した顔状況に関する情報に基づき、顔位置情報、ヘッドポーズ情報、及び、表情情報を含む誘導状況を生成する。誘導制御部1312は、誘導状況をデータ生成部1313に通知する。誘導制御部1312は、誘導状況をUI制御部135に通知するようにしても良い。UI制御部135は、誘導状況を使用してユーザUに提示するUIを生成し得る。
(データ生成部)
 データ生成部1313は、作成制御部1311から要求仕様を取得する。上述したように、要求仕様には、学習データを取得するときの撮像装置300の組み合わせに関する情報及び学習データを取得する期間(長さ。例えばフレーム数)が含まれる。
 また、データ生成部1313は、撮像装置300の撮像画像Pを取得する。データ生成部1313は、どの撮像装置300がどの撮像画像Pを撮像したか対応付けて、撮像画像Pを取得する。
 データ生成部1313は、誘導制御部1312から誘導状況を取得する。データ生成部1313は、ユーザUの状態が誘導目標を満たしている場合、取得した撮像画像Pから要求仕様を満たす学習データを生成する。
 例えば、学習データ取得計画の第1のシーンが実行される場合、データ生成部1313は、取得した撮像画像Pのうち、撮像画像P_2、P_4を生徒画像P_S、撮像画像P_1を教師画像P_Tとし、各撮像画像Pを60フレーム分取得する。
 データ生成部1313は、取得した各撮像画像Pを第1のシーンにおける学習データとして、学習制御部132に出力する。データ生成部1313は、取得した撮像画像Pが生徒画像P_Sであるか教師画像P_Tであるかを示す画像種別情報や撮像装置300を識別するカメラID情報など、個人特化学習に使用され得る情報を、学習データに含めて学習制御部132に通知し得る。なお、学習データのデータフォーマットは任意であり、既存のデータフォーマットが採用され得る。
 データ生成部1313は、撮像装置300の組み合わせに関する情報やヘッドポーズ、表情に関する情報を学習データに紐付けて学習制御部132に通知し得る。これらの情報は、学習制御部132で行われる個人特化学習で使用され得る。
 なお、複数の撮像装置300_1~300_8は、予めキャリブレーションが行われ、撮像タイミング等の同期が取れているものとする。
 データ生成部1313は、取得要求で要求された長さの学習データの生成が完了すると、データ作成状況として完了した旨を作成制御部1311に通知する。
 なお、データ生成部1313が学習データを取得している最中に、データ取得に失敗した場合、それまでに作成した学習データを一度破棄してから再度データ取得を行う。
 例えば、学習データ取得中にユーザUが移動することで、ユーザUの状態が誘導目標からずれてしまったとする。この場合、誘導状況が誘導目標を満たす状態から満たさない状態に変化する。この場合、データ生成部1313は、作成した学習データを破棄し、ユーザUの状態が誘導目標を満たすまで待ってから再度学習データを取得する。
 なお、誘導状況が誘導目標を満たすか否かの判定は、データ生成部1313が行ってもよく、誘導制御部1312が行ってもよい。誘導制御部1312がユーザUの状態が誘導目標を満たすか否かを判定する場合、誘導制御部1312が判定結果を誘導状況としてデータ生成部1313に通知するようにしてもよい。
 上述したように、データ生成部1313は、学習データ取得計画の1シーンでの学習データ生成が完了すると、その旨をデータ作成状況として作成制御部1311に通知する。
 データ作成状況を受け取った作成制御部1311は、学習データ取得計画を次のシーンに進め、誘導制御部1312にユーザUを誘導するよう指示し、データ生成部1313に学習データを生成するよう指示する。
 例えば、管理部131が第1のシーンとして、組み合わせ番号#13の組み合わせ、ポーズ1のヘッドポーズ、及び、表情1において60フレームの撮像画像Pを取得する計画を完了したとする。この場合、作成制御部1311は、第2のシーンとして組み合わせ番号#13の組み合わせ、ポーズ1のヘッドポーズ、及び、表情2において60フレームの撮像画像Pを取得する計画を実行する。
 作成制御部1311は、学習データ取得計画の全てのシーンが完了するまで順次各シーンを実行する。作成制御部1311は、最後のシーンを実行する場合、その旨を要求仕様に含めてデータ生成部1313に通知し得る。最後のシーンである旨の要求仕様を受け取ったデータ生成部1313は、生成した学習データが計画の最後のデータであることを示す情報を、学習データに紐付けて学習制御部132に出力し得る。
[学習制御部132の詳細]
 学習制御部132は、管理部131から学習データを取得し、学習データを管理する機能を有する。学習制御部132は、個人特化学習を計画して実行し、係数データを更新する機能を有する。学習制御部132は、個人特化学習に不足がある場合には、追加の学習データの取得を要求する取得要求を管理部131に通知する機能を有する。
 図17は、本開示の実施形態に係る学習制御部132の構成例を示すブロック図である。図17に示すように、学習制御部132は、データ管理部1321と、計画制御部1322と、学習実行部1323と、を備える。
(データ管理部1321)
 データ管理部1321は、管理部131から学習データを取得し、学習データを管理する。データ管理部1321は、学習データを取得すると、取得した学習データを記憶部120に追加する。あるいは、データ管理部1321は、学習データを保持するデータベース(図示省略)に学習データを追加するようにしてもよい。
 データ管理部1321は、学習データに含まれる撮像画像Pを、カメラID情報、組み合わせ、ヘッドポーズ、表情、及び、取得フレーム数などの属性情報と紐付けて管理する。
 記憶部120が記憶する学習データが更新された場合、データ管理部1321は、データ管理状況を計画制御部1322に通知する。データ管理状況には、例えば、データ管理部1321が管理する学習データのリストファイルなどが含まれる。
 管理部131から取得した学習データが学習データ取得計画の最後に生成された学習データである場合、データ管理部1321は、最後の学習データである旨を示す情報(以下、取得完了通知とも記載する)を含むデータ管理状況を計画制御部1322に通知する。
 また、データ管理部1321は、計画制御部1322から学習データを要求するデータ要求の通知を受けた場合、データ要求に従って、記憶部120に記憶した学習データを取得する。
 データ管理部1321は、例えば、取得した学習データの一部を学習に使用する学習用データとし、残りを検証に使用する検証用データとすることで、学習用データ及び検証用データを生成し得る。データ管理部1321は、例えば、所定のフォーマットの学習用データ及び検証用データを生成する。
 データ管理部1321は、学習用データ、及び、検証用データを学習実行部1323に出力する。
(計画制御部1322)
 計画制御部1322は、個人特化学習を計画し、個人特化学習を制御する。具体的に、計画制御部1322は、データ管理部1321から取得したデータ管理状況、及び、学習実行部1323から取得した検証結果を参照し、データ管理部1321に対して学習用データの取得要求を通知する。計画制御部1322は、取得した学習用データを用いた個人特化学習を指示する学習指示、及び、学習結果得られた係数データの更新を指示する更新指示の少なくとも1つを実行するよう、学習実行部1323に通知する。
 また、計画制御部1322は、データ管理部1321から取得したデータ管理状況、及び、学習実行部1323から取得した検証結果を参照し、追加の学習データの取得要求を管理部131に通知する。
(第1の学習計画)
 例えば、管理部131が生成する学習データの総量が事前に定められている場合、計画制御部1322は、第1の学習計画を実行する。なお、生成する学習データの総量が事前に定められているという情報は、管理部131及び学習制御部132の両方で共有されているものとする。
 計画制御部1322は、例えば、データ管理状況を参照しながら、データ管理部1321が全ての学習データを取得した時点で、データ管理部1321に対してデータ要求を通知する。このとき、計画制御部1322は、例えば、データ管理部1321が取得した全ての学習データを、学習用データ及び検証用データに振り分けて要求する。
 計画制御部1322は、学習用データを含む学習指示、及び、検証用データを含む検証指示を学習実行部1323に通知する。計画制御部1322は、学習指示及び検証指示を学習実行部1323に同時に通知してもよい。計画制御部1322は、学習実行部1323に学習指示を通知し、学習実行部1323による個人特化学習の終了後に検証指示を通知するようにしてもよい。
 計画制御部1322は、適切な個人特化学習に関するパラメータ(例えば、ハイパーパラメータ)を添えて学習指示を学習実行部1323に通知する。パラメータは、機械学習の方式に応じて異なる。機械学習がDNNである場合のパラメータとして、学習率やロス関数の重みなどが挙げられる。
 計画制御部1322は、個人特化学習に使用する情報(以下、学習関連情報とも記載する)を例えば通信部110を介して外部装置(図示省略)から取得し得る。学習関連情報には、上述した個人特化学習に関するパラメータや変換モデルのネットワーク構成に関する情報などが含まれる。記憶部120が学習関連情報の少なくとも一部を予め記憶している場合、計画制御部1322は、学習関連情報の少なくとも一部を記憶部120から取得し得る。
(第2の学習計画)
 例えば、管理部131が生成する学習データの総量が事前に定められていない場合、計画制御部1322は、第2の学習計画を実行する。この場合、計画制御部1322は、データ管理状況に含まれる取得完了通知によって、管理部131が全ての学習データを取得したことを確認する。
 なお、計画制御部1322は、学習データの総量が事前に定められていない点を除き、第1の学習計画と同様に第2の学習計画を生成し得る。第2の学習計画のうち、第1の学習計画と同じ内容については説明を省略する。
 第2の学習計画では、管理部131は任意のサイズの学習データを取得し得る。そのため、例えば、管理部131は、計画制御部1322から通知される学習データの取得要求に応じて学習データ取得計画を更新し、学習データを取得することができる。計画制御部1322は、学習実行部1323による検証結果を参照して学習データの取得要求を管理部131に通知する。
 これにより、情報処理装置100は、第2の学習計画を実行することで、柔軟に学習データ取得計画を変更しながら、効率的に個人特化学習を行うことができる。
 この場合、計画制御部1322は、データ管理部1321が学習データを全て取得したことを示す取得完了通知を送信する前に、学習指示を学習実行部1323に指示することが望ましい。すなわち、学習制御部132は、学習データの取得完了を待たずに、ある程度学習データが取得された時点で逐次個人特化学習を行う。
 これにより、学習制御部132は、個人特化学習の検証結果に基づき、学習データの取得要求を管理部131に通知することができ、管理部131は、取得要求に応じて柔軟に学習データ取得計画を更新することができる。
 第2の学習計画では、データ管理部1321が所定量の学習データを取得した時点で、計画制御部1322は、学習データを学習用データ及び検証用データに振り分けて取得を要求する。なお、第2の学習計画でも、第1の学習計画と同様に、データ管理部1321が取得完了通知を計画制御部1322に通知した時点で、計画制御部1322は、学習用データ及び検証用データを要求し得る。
 計画制御部1322は、学習用データ及び検証用データすると、学習指示及び検証指示を学習実行部1323に通知する。
 なお、第1の学習計画及び第2の学習計画の両方の計画において、計画制御部1322は、学習実施後に行われる性能の評価結果を、検証結果として学習実行部1323から取得する。
 計画制御部1322は、検証結果が目標に届かない場合、追加で取得すべき、すなわち強化すべき学習データを特定し、学習データの取得要求を管理部131に通知する。
 検証結果が十分である場合、計画制御部1322は、学習済みの係数データを変換部133に通知するよう学習実行部1323に指示する。
 また、学習を繰り返しても検証結果が目標に届かない場合、計画制御部1322は、個人特化学習を終了する。例えば、計画制御部1322は、学習データの取得要求を所定回数行っても検証結果が目標に届かない場合、それ以上の取得要求を行わない。
 この場合、計画制御部1322は、それまでに実行した個人特化学習のうち、もっとも性能がよかった学習の係数データを学習済みの係数データとして変換部133に通知するよう学習実行部1323に指示する。
 そのため、計画制御部1322は、係数データと検証結果とを紐付けて管理しておく。計画制御部1322は、複数の検証結果を比較し、最も性能が高い検証結果に紐付いた係数データを学習済みの係数データとして変換部133に通知する。
 なお、学習実行部1323が係数データ及び検証結果の管理を行うようにしてもよい。この場合、計画制御部1322は、最も性能が高い検証結果を示す情報(例えば、検証結果に付与した検証IDなど)を学習実行部1323に通知する。学習実行部1323は、検証IDで指定される検証結果に紐付く係数データを変換部133に出力する。
 計画制御部1322は、取得要求として、これ以上の学習データの取得を要求しない旨を管理部131に通知し得る。例えば、計画制御部1322は、検証結果が目標に届いた場合、これ以上の学習データの取得は不要である旨を管理部131に通知する。
 管理部131は、学習データを取得しているときに、これ以上の学習データの取得は不要である旨を計画制御部1322から受け取ると、学習データの取得を終了する。これにより、管理部131は、学習データ取得計画を実行中であっても学習データの取得を終了することができる。
 なお、計画制御部1322が作成する学習計画は、上述した第1の学習計画及び第2の学習計画に限定されない。計画制御部1322は、種々の学習計画を作成し得る。
(学習実行部1323)
 学習実行部1323は、個人特化学習を実行する。学習実行部1323は、学習結果を検証し、係数データを更新する。
(学習)
 学習実行部1323は、学習指示を計画制御部1322から取得すると、学習用データを用いて個人特化学習を実行する。学習実行部1323は、変換部133から個人特化学習前の係数データを取得する。個人特化学習前の係数データは、不特定のユーザUに対応するよう事前に学習された変換モデルの係数データである。
 学習実行部1323は、学習用データを用い、個人特化学習に関するパラメータに従って個人特化学習を実行し、係数データを更新する。個人特化学習に関するパラメータは、例えば学習指示に添えて学習実行部1323に通知される。
 例えば、撮像装置300_2、300_4を生徒撮像装置C_S、撮像装置300_5、300_7を入力撮像装置C_I、撮像装置300_1を教師撮像装置C_Tとして撮像された撮像画像Pを学習用データとする場合の個人特化学習について説明する。
 この場合、学習実行部1323は、生徒画像P_Sである撮像画像P_2、P_4を、撮像画像P_5、P_7として変換モデルに入力し、出力結果である変換画像P_Vを得る。なお、撮像画像P_5、P_7以外の撮像画像P_1~P_4、P_6、P_8は、例えば黒信号等の無効な信号として変換モデルに入力される。
 学習実行部1323は、変換画像P_Vが、教師画像P_Tである撮像画像P_1に近づくように係数データを更新する。
(検証)
 学習実行部1323は、計画制御部1322の検証指示に従って、更新後の係数データを検証する。学習実行部1323は、検証用データに対して、更新後の係数データを用いた変換モデルでの視点変換を実行する。学習実行部1323は、視点変換後の変換画像P_Vを用いて視点変換処理結果の性能を評価する。学習実行部1323は、評価結果を,検証結果として計画制御部1322に通知する。
 検証用データは、学習用データと同等のデータである。検証用データには、教師画像P_T及び生徒画像P_Sが含まれる。学習実行部1323は、検証用データの生徒画像P_Sに対して視点変換処理を行う。学習実行部1323は、検証用データの教師画像P_Tにどの程度近い処理結果(変換画像P_V)が得られるかを評価する。
 例えば、学習実行部1323が、検証用データとして学習データの一部を使用する場合、学習実行部1323は、個人特化学習と同様に、生徒画像P_S及び黒信号を変換モデルに入力して変換画像P_Vを生成する。
 なお、ここでは、検証用データは、管理部131が取得した学習データの一部であるとしたが、検証用データはこれに限定されない。検証用データは、事前に取得されたデータであってもよい。この場合、検証用データは、生徒画像P_Sとして、全ての撮像装置300_1~300_8で撮像された撮像画像P_1~P_8を含み得る。検証用データは、教師画像P_Tとして、ディスプレイ210の略中央から学習用撮像装置(図示省略)によって撮像された撮像画像を含み得る。
 この場合、検証用データに含まれるユーザは、個人特化学習で学習するユーザUとは別の人物であることが想定される。
 そのため、当該検証用データを用いた検証は、個人特化学習によってユーザUに特化した視点変換処理の検証というより、全撮像装置300_1~300_8を使用した視点変換処理の検証という側面が大きい。
 この検証により、学習実行部1323は、個人特化学習によって、全ての撮像装置300_1~300_8を用いた視点変換処理の能力が不当に損なわれていないかを検証することができる。
 学習実行部1323は、学習データを検証用データとした検証、及び、事前に撮影したデータを検証用データとした検証のいずれか一方を実行してもよく、両方を実行してもよい。両方を実行した場合、学習実行部1323は、個人特化学習によって、ユーザUに特化した視点変換処理が行えるか、及び、全ての撮像装置300を用いた視点変換処理の能力が不当に損なわれていないか、両方の検証を行うことができる。
 事前に撮影したデータを検証用データとした検証を行う場合、学習実行部1323は、管理部131が取得した学習データ全てを学習用データとして個人特化学習を行うことができる。これにより、情報処理装置100は、より効率的に学習用データを取得することができる。
 学習実行部1323が上述した検証に用いる評価指標として、例えば、PSNR、SSIM、LPIPS等が挙げられる。
 学習実行部1323は、例えば、学習データ取得計画の項目(カテゴリ)ごとに検証用データを分類し、項目ごとに学習結果の検証を実施するようにしてもよい。例えば、学習実行部1323は、撮像装置300の組み合わせ、ヘッドポーズ、表情など、学習データの付帯情報を用いて、検証用データをカテゴリに分類する。
 学習実行部1323がカテゴリごとに検証を実施することで、計画制御部1322は、視点変換処理の高精度化に不足している学習データのカテゴリを特定することができる。計画制御部1322は、管理部131に対して、カテゴリを指定して追加の学習データの取得要求を行う。
 なお、上述したように、学習実行部1323は、学習済み係数データと、学習済み係数データを用いた検証結果とを紐付けて管理し得る。また、学習実行部1323は、検証IDを検証結果に付して計画制御部1322に通知し得る。学習実行部1323は、計画制御部1322が指示に従い、検証IDに対応する学習済み係数データを変換部133に出力する。
 また、学習実行部1323は、計画制御部1322と同様に、学習関連情報を例えば通信部110を介して外部装置から取得し得る。
 上述したように、個人特化学習では、変換モデルの入力として無効信号が使用される。そのため、全ての撮像装置300を用いた視点変換処理の能力が不当に損なわれる恐れがある。これを避けるために、学習実行部1323は、事前に行う不特定のユーザUを対象とした学習と同様の学習を、個人特化学習に挿入するようにしてもよい。この場合、例えば、記憶部120に、事前に行う不特定のユーザUを対象とした学習に使用する学習データと同様のデータが保存されているものとする。
[変換部133の詳細]
 変換部133は、撮像装置300_1~300_8が撮像する撮像画像P_1~P_8用いて、仮想カメラC_Vから撮像したように視点変換を行い、変換画像P_Vを生成する。
 図18は、本開示の実施形態に係る変換部133の構成例を示すブロック図である。図18に示すように、変換部133は、係数データ管理部1331と、視点変換部1332と、学習実行部1323と、を備える。
(係数データ管理部1331)
 係数データ管理部1331は、視点変換部1332で使用する係数データを管理する。例えば、視点変換部1332がDNNを用いて視点変換を行う場合、係数データは、DNNの重み係数に相当する。
 係数データ管理部1331は、複数種類の係数データを管理する。係数データ管理部1331は、例えば、事前に学習した不特定のユーザを対象とした学習(以下、不特定対象学習とも記載する)によって学習した係数データ(以下、不特定対象係数とも記載する)を管理する。係数データ管理部1331は、個人特化学習によって学習した係数データ(以下、個人対象係数とも記載する)を管理する。
 係数データ管理部1331は、複数種類の不特定対象係数を管理し得る。例えば、係数データ管理部1331は、年齢、性別、人種などに応じて複数のカテゴリを設け、カテゴリごとに行った不特定対象学習によって学習された不特定対処係数を管理する。係数データ管理部1331は、不特定対象係数をカテゴリごとに管理する。
 係数データ管理部1331は、学習制御部132から係数データを要求された場合、係数データを学習制御部132に出力する。このとき、係数データ管理部1331が出力する係数データは、学習制御部132が実行する個人特化学習のベースとなる係数であり、例えば、学習前の係数データ(不特定対象係数)である。
 係数データ管理部1331が複数種類の不特定対象係数を管理している場合、係数データ管理部1331は、個人特化学習の対象となるユーザUに応じた不特定対象係数を学習制御部132に出力する。例えば、係数データ管理部1331は、ユーザUを年齢、性別、人種などに応じたカテゴリに分類し、同じカテゴリの不特定対象係数を学習制御部132に出力する。
 係数データ管理部1331は、ユーザUに関する情報(ユーザ属性情報)をユーザUから直接取得してもよく、ユーザUを撮像した撮像画像Pから推定するようにしてもよい。例えば、情報処理装置100は、ユーザUが利用登録を行う際に、ユーザ属性情報をユーザUから取得し得る。
 係数データ管理部1331は、学習済み係数データを学習制御部132から取得する。係数データ管理部1331は、取得した学習済み係数データを特定対象係数として管理する。例えば、ユーザUがテレコミュニケーションを行う場合、視点変換部1332が撮像装置300の撮像画像Pを変換画像P_Vに変換する。係数データ管理部1331は、このとき視点変換部1332が使用する特定対象係数を係数データとして視点変換部1332に出力する。
 係数データ管理部1331は、ユーザUによるテレコミュニケーションが終了した場合、ユーザUと特定対象係数とを対応付けて記憶部120に記憶し得る。次回、ユーザUがテレコミュニケーションを実行する場合、係数データ管理部1331は、ユーザUに対応する特定対象係数を記憶部120から取得し、視点変換部1332に出力する。
 これにより、同一のユーザUが情報処理システム10を複数回使用する場合、情報処理システム10は、2回目以降、ユーザUの個人特化学習を省略することができる。
 また、係数データ管理部1331は、不特定対象係数を記憶部120に記憶して管理し得る。異なるユーザUが情報処理システム10を使用する場合、学習制御部132は、係数データ管理部1331が管理する不特定対象係数を使用して、ユーザUごとに個人特化学習を実行する。あるいは、不特定対象係数は、例えばユーザがユーザ登録を行わずに情報処理システム10を使用する場合など、不特定のユーザUを対象とした視点変換に使用され得る。
(視点変換部1332)
 視点変換部1332は、係数データ管理部1331から取得した係数データを使用し、機械学習によって撮像装置300の撮像画像Pの視点を変換し、変換画像P_Vを生成する。視点変換部1332は、オンライン学習が可能な任意の機械学習を使用して視点変換を実行し得る。
 視点変換部1332は、変換画像P_Vをディスプレイ210に出力することで、ユーザUに提示する。視点変換部1332は、通信部110を介して変換画像P_Vをテレコミュニケーションの相手である他の情報処理システム10に送信する。これにより、情報処理システム10は、ディスプレイ210の略中央の仮想カメラC_Vから撮像されたかのような変換画像P_Vをテレコミュニケーションの相手に提示することができる。
 変換部133は、上述した学習実行部1323(図17参照)と同じ機能を一部有する。これは、学習実行部1323が、個人特化学習を行う機能と、当該学習を検証する機能と、を有するためである。そのため、変換部133及び学習実行部1323は、同一の機能を互いに共有するように構成され得る。例えば、変換部133及び学習実行部1323が一つの構成要素として実現されてもよい。
[推定部134の詳細]
 推定部134は、撮像装置300の撮像画像PからユーザUの顔状態を推定し、顔情報を生成する。推定部134は、顔情報を管理部131に出力する。ここでは、推定部134が撮像画像Pから顔状態を推定する場合について説明するが、推定部134は、例えばToFなどのセンサ装置(図示省略)を用いたセンシング技術によって顔状態を推定し得る。
 顔情報は、現時刻でのユーザUの顔の状態を示す情報である。顔情報は、管理部131が作成する学習データ取得計画の項目を満たすか否か判定するために十分な情報として定義され得る。例えば、顔情報は、上述した顔位置情報、ヘッドポーズ情報、及び、表情情報を含む。
 顔位置情報は、例えば、ユーザUの顔の重心の3次元座標を示す情報である。なお、上述したように、顔位置情報の座標系は、撮像装置300の位置情報の座標系と同じであることが望ましい。
 ヘッドポーズ情報は、例えば、ユーザUの顔の向きを示す情報である。ユーザUの顔の向きは、例えば、Yaw、Roll、Pitchで表される。あるいは、ヘッドポーズ情報は、例えば、図15に示す各ポーズを示す情報であってもよい。
 表情情報は、例えば、ユーザUの表情を示す情報である。表情情報は、例えば、図16の各表情を示す情報である。
 図19は、本開示の実施形態に係る推定部134の構成例を示すブロック図である。図19に示すように、推定部134は、顔位置推定部1341と、ヘッドポーズ推定部1342と、選択部1343と、表情推定部1344と、統合部1345と、を備える。
 顔位置推定部1341は、撮像装置300の撮像画像P及びカメラ情報を用いてユーザUの顔位置を推定する。ヘッドポーズ推定部1342は、撮像装置300の撮像画像P及びカメラ情報を用いてユーザUのヘッドポーズを推定する。
 顔位置推定部1341は、複数の撮像画像Pを用いて顔位置を推定する。これにより、顔位置推定部1341は、ステレオ視を用いてユーザUの頭部を立体的にとらえることができ、顔位置の推定精度がより向上する。
 顔位置推定部1341が顔位置推定に使用する撮像画像Pが多いほど、顔位置の推定精度は向上する。しかしながら、顔位置推定に使用する撮像画像Pが多いほど処理時間も増加する。顔位置推定部1341が何枚の撮像画像Pを顔位置推定に使用するかは、顔位置の推定精度及び処理時間に依存する。顔位置推定部1341は、より高精度に、かつ、リアルタイムで推定が行える枚数の撮像画像Pを用いて、顔位置を推定する。
 ヘッドポーズ推定部1342も同様に、複数の撮像画像Pを用いることで、より高精度にヘッドポーズを推定することができる。
 選択部1343は、注目カメラID情報を用いて、撮像装置300の撮像画像PからユーザUが正対する撮像装置300(注目カメラ)の撮像画像P(以下、注目画像とも記載する)を選択する。選択部1343は、選択した注目画像を表情推定部1344に出力する。
 表情推定部1344は、注目画像を用いてユーザUの表情を推定する。注目画像は、上述したように、ユーザUが正対する注目カメラで撮像した画像である。そのため、注目画像は、ユーザUが正面を向いている画像である可能性が高い。表情推定部1344は、注目画像を用いてユーザUの表情を推定することで、より高精度に表情を推定することができる。
 統合部1345は、顔位置推定部1341が推定した顔位置情報、ヘッドポーズ推定部1342が推定したヘッドポーズ情報、及び、表情推定部1344が推定した表情情報を取得する。統合部1345は、各部が推定した情報の同期を取り、各情報を統合して、顔情報として管理部131に出力する。
 顔情報に含まれる顔位置情報、ヘッドポーズ情報、及び、表情情報は、同一時刻のユーザUの情報であることが望ましい。統合部1345は、これらの情報の同期を取ることで、同一時刻の顔位置情報、ヘッドポーズ情報、及び、表情情報を含む顔情報を生成する。
 図19の例では、推定部134が複数の処理部で構成される場合について示したが、推定部134の構成はこれに限定されない。
 図20は、本開示の実施形態に係る推定部134の他の構成例を示すブロック図である。図20に示す推定部134は、顔位置推定部1341、ヘッドポーズ推定部1342、選択部1343、表情推定部1344、及び、統合部1345の代わりに推定処理部1346を有する。
 推定処理部1346は、撮像装置300の撮像画像P、カメラ情報、及び、注目カメラID情報を用いて、顔情報を生成する。推定処理部1346は、例えば機械学習を用いて顔情報を生成し得る。
 このように、推定部134による顔状態推定処理の実現手段は任意であるが、顔情報はユーザUの誘導に利用されることから、推定部134はリアルタイムで顔状態推定を行えることが求められる。
[UI制御部135の詳細]
 UI制御部135は、管理部131から誘導指示を取得する。UI制御部135は、誘導指示に基づき、UI画像を生成する。UI制御部135は、撮像画像PにUI画像を重畳した表示画像を生成し、ディスプレイ210に出力する。
 図21は、本開示の実施形態に係るUI制御部135の構成例を示すブロック図である。図21に示すように、UI制御部135は、UI生成部1351と、UI表示部1352と、を備える。
(UI生成部1351)
 UI生成部1351は、管理部131から取得する誘導指示に基づき、UI画像を生成する。UI画像は、ユーザUを所望の位置やヘッドポーズ、表情に誘導するための画像である。
 誘導指示には、例えば、誘導目標とする顔位置情報(以下、誘導位置情報とも記載する)、及び、現在のユーザUの顔位置情報(以下、現在位置情報とも記載する)が含まれる。誘導位置情報は、誘導先である顔位置の3次元情報を含む。現在位置情報は、現在のユーザUの顔位置の3次元情報を含む。
 あるいは、誘導指示に、ユーザUに対して移動を誘導する方向(以下、誘導方向とも記載する)、及び、移動量(以下、誘導量とも記載する)が含まれてもよい。
 誘導指示には、例えば、注目カメラID情報が含まれる。
 誘導指示には、例えば、誘導目標とするヘッドポーズに関する情報(以下、誘導ヘッドポーズ情報とも記載する)が含まれる。誘導ヘッドポーズ情報は、例えば、図15に示すヘッドポーズの複数ポーズの中から目標とするポーズを指定する情報である。あるいは、誘導ヘッドポーズ情報は、目標とするヘッドポーズのYow、Roll、Pitchを示す情報であってもよい。
 また、誘導指示に、誘導ヘッドポーズ情報に加えて、現在のヘッドポーズ情報(以下、現在ヘットポーズ情報とも記載する)が含まれていてもよい。現在ヘッドポーズ情報は、例えば、図15に示すヘッドポーズの複数ポーズのうち、ユーザUが取っているポーズに近いポーズを指定する情報であってもよく、ユーザUのヘッドポーズのYow、Roll、Pitchを示す情報であってもよい。
 誘導指示に、例えば、誘導目標とする表情に関する情報(以下、誘導表情情報とも記載する)が含まれる。誘導表情情報は、例えば、図16に示す複数の表情の中から目標とする表情を指定する情報である。例えば、表情に指定文発話が含まれる場合、誘導指示には指定文に関する情報が含まれる。
 誘導指示に、例えば、達成状況に関する情報(以下、達成状況情報とも記載する)が含まれる。達成状況情報は、例えば、ユーザUの顔位置、ヘッドポーズ、及び、表情に関して、誘導目標を達成しているか否かを示す情報である。達成状況情報は、ユーザUの顔位置、ヘッドポーズ、及び、表情の項目ごとに、誘導の成否として表される。
 UI生成部1351は、誘導指示に基づき、UI画像を生成する。
 図22は、本開示の実施形態に係るUI画像の一例を説明するための図である。図22では、UI画像を撮像画像Pに重畳した表示画像が示される。ここでは、誘導指示に誘導位置情報及び現在位置情報が含まれる場合にUI生成部1351が生成するUI画像について説明する。
 UI生成部1351は、誘導位置情報に基づき、目標とする顔位置を示す顔位置UI画像を生成する。例えば、UI生成部1351は、誘導位置情報に含まれる座標を中心座標とする四角の枠を含む顔位置UI画像を生成する。
 また、UI生成部1351は、現在位置情報の顔位置を始点とし、顔位置UI画像を終点とする矢印を、移動UI画像として生成する。情報処理装置100は、顔位置UI画像及び移動UI画像を用いて、ユーザUに対して顔位置の移動を促す。
 UI生成部1351は、移動UI画像として、立体的な3次元矢印を描画し得る。これにより、UI生成部1351は、ディスプレイ210と平行な方向の移動に加え、ディスプレイ210と垂直な方向の移動を、ユーザUに対して促すことができる。
 このとき、UI生成部1351は、適切な座標位置に顔位置UI画像及び移動UI画像を描画するために、カメラ情報を使用する。
 UI生成部1351は、顔位置UI画像に重畳するようヘッドポーズUI画像を生成する。ヘッドポーズUI画像は、誘導ヘッドポーズ情報に含まれるヘッドポーズを示す画像である。
 誘導ヘッドポーズ情報にポーズを指定する情報が含まれる場合、指定されたポーズを示す画像をヘッドポーズUI画像として生成する。
 誘導ヘッドポーズ情報に、Yow、Roll、Pitchなどパラメータ情報が含まれる場合、UI生成部1351は、パラメータに応じたヘッドポーズを描画することでヘッドポーズUI画像を生成する。このとき、UI生成部1351は、現在ヘッドポーズ情報を用いて、現在のヘッドポーズと目標とするヘッドポーズとのずれ(差分)をユーザUに提示し得る。あるいは、UI生成部1351は、例えば、頭を傾ける方向に矢印を示すなど、ずれを小さくする行動を促すUI画像を生成し得る。
 UI生成部1351が顔位置UI画像に重畳するようにヘッドポーズUI画像を生成することで、情報処理装置100は、ユーザUに対して、目標となる顔位置までの移動とともに、目標とするヘッドポーズをとるように促すことができる。ユーザUは、顔位置の移動方向及びとるべきヘッドポーズを直感的に認識することができる。
 UI生成部1351は、誘導表情情報を示す表情UI画像を生成する。表情UI画像は、例えば、「喜」、「怒」など目標表情を示す文字情報である。表示UI画像に、感情を示す顔のアイコンが含まれていてもよい。
 また、誘導表示情報によって表情として指定文発話が指定される場合、UI生成部1351は、図22に示すように目標表情が指定文であることを示す表情UI画像を生成する。この表情UI画像には、発話内容(図22の例では「こんにちは」)が含まれる。
 表情UI画像は、例えば表示画像の上部など、ユーザUの目に付きやすい位置に重畳され得る。
 UI生成部1351は、達成状況情報を示す達成UI画像を生成する。達成UI画像は、顔位置、ヘッドポーズや表情といった項目ごとの達成状況を示す画像である。図22の例では、達成している項目を「○」でしめし、達成していない項目を「×」で示している。図22では、顔位置及びヘッドポーズは目標を達成していないが、表情は達成している。すなわち、ユーザUが発話を行っていることが示されている。
 なお、UI生成部1351が生成するUI画像は、上述した例に限定されない。例えば、UI生成部1351は、未達成の項目に関するUI画像(図22の例では、顔位置UI画像、移動UI画像及びヘッドポーズUI画像)を強調表示させるようにしてもよい。例えば、UI生成部1351は、未達成の項目に関するUI画像を、点滅させたり、他のUI画像とは異なる色で描画したりすることで、強調表示させる。
 また、表示画像をユーザUに提示する場合、UI制御部135は、撮像画像Pを左右反転させた画像にUI画像を重畳して表示画像を生成する。UI生成部1351は、撮像画像Pが左右反転されることを考慮してUI画像を生成する。UI制御部135が撮像画像Pを反転させて表示画像を生成することで、ユーザUは、鏡を見る場合と同様に自身を確認することができる。
 図23は、本開示の実施形態に係るUI画像の他の例を説明するための図である。図23では、UI画像を撮像画像Pに重畳した表示画像が示される。ここでは、誘導指示に誘導方向及び誘導量が含まれる場合にUI生成部1351が生成するUI画像について説明する。なお、図22に示すUI画像と同じUI画像については説明を省略する。
 図23の例では、UI生成部1351は、顔位置UI画像及び移動UI画像の代わりに、誘導方向及び誘導量を示す矢印を矢印UI画像として生成する。UI生成部1351は、ユーザUの顔位置情報を取得していないため、矢印UI画像は、ユーザUの位置によらない位置(図23の例では、表示画像の略中央)に描画される。
 UI生成部1351は、目標とするヘッドポーズ(以下、目標ヘッドポーズとも記載する)を表すヘッドポーズUI画像を所定の位置に表示させる。図23の例では、ヘッドポーズUI画像は、例えば表示画像の上部など、ユーザUの目に付きやすい位置に描画される。そのため、図23に示す例では、表情UI画像が、ヘッドポーズUI画像の直下に描画される。
 この場合、UI生成部1351は、撮像装置300の位置情報を使用せずにUI画像を生成し得る。
 UI生成部1351は、生成したUI画像及び注目カメラIDを示す注目カメラID情報をUI表示部1352に出力する。
(UI表示部1352)
 UI表示部1352は、注目カメラID情報に基づき、注目カメラで撮像された注目画像にUI画像を重畳して表示画像を生成する。このとき、UI表示部1352は、上述したように注目画像を左右反転させてUI画像を重畳することで表示画像を生成する。
 UI表示部1352は、表示画像をディスプレイ210に出力することで、ユーザUに表示画像を提示する。
 なお、ここでは、UI制御部135が画像情報を用いてユーザUを誘導する場合を示したが、ユーザUを誘導する方法は画像情報を用いた方法に限定されない。例えば、UI制御部135が音声やLEDランプを用いてユーザUを誘導するようにしてもよい。例えば、UI制御部135は、注目カメラ近傍に設置されたLEDランプを点灯させることで、注目カメラの位置をユーザUに認識させるようにしてもよい。
<<3.情報処理>>
<3.1.学習処理>
 図24は、本開示の実施形態に係る学習処理の流れの一例を示すフローチャートである。図24に示す学習処理は、情報処理装置100によって実行される。情報処理装置100は、ユーザUがユーザ登録を行う場合など、ユーザUがテレコミュニケーションサービスの提供を受ける前に、図24に示す学習処理を実行する。
 図24に示すように、情報処理装置100は、取得処理を実行する(ステップS101)。取得処理は、例えば、学習データを取得する場合に実行される処理である。
 情報処理装置100は、取得した学習データを用いて個人特化学習処理を実行する(ステップS102)。情報処理装置100は、個人特化学習処理で行った個人特化学習の結果を検証する検証処理を実行する(ステップS103)。
 情報処理装置100は、検証処理の実行結果、学習データの追加の取得要求があるか否かを判定する(ステップS104)。追加の取得要求がある場合(ステップS104;Yes)、情報処理装置100は、ステップS101に戻り、取得処理を実行する。一方、追加の取得要求がない場合(ステップS104;No)、情報処理装置100は、学習処理を終了する。
 情報処理装置100は、学習処理を終了後、例えば、ユーザUからの指示に従って、ユーザUに対してテレコミュニケーションサービスを提供する。
 なお、情報処理装置100は、取得処理と、個人特化学習処理及び検証処理と、を並列に処理し得る。例えば、情報処理装置100は、所定の学習データが取得された場合、取得処理を実行中であっても、個人特化学習処理及び検証処理を実行し得る。
<3.2.取得処理>
 図25は、本開示の実施形態に係る取得処理の流れの一例を示すフローチャートである。図25に示す取得処理は、主に、情報処理装置100の管理部131によって実行される。
 図25に示すように、管理部131は、学習データ取得計画を作成する(ステップS201)。管理部131は、学習データ取得計画から実行するシーン(以下、実行シーンとも記載)を選択する(ステップS202)。例えば、管理部131は、上述した第1のシーンを選択する。
 管理部131は、誘導処理を実行し、ユーザUの顔状態が実行シーンに応じた目標の顔状態になるようユーザUを誘導する(ステップS203)。誘導完了後、管理部131は、実行ステップに応じた学習データを取得する(ステップS204)。
 管理部131は、実行ステップでの学習データの取得が完了したか否かを判定する(ステップS205)。例えば、管理部131は、目標の顔状態で、目標の長さ(フレーム数)の学習データを取得したか否かに応じて学習データの取得が完了したか否かを判定する。
 例えば、学習データ取得の途中でユーザUが移動するなどして、学習データの取得が完了していない場合(ステップS205;No)、管理部131は、ステップS203に戻る。一方、学習データの取得が完了した場合(ステップS205;Yes)、管理部131は、学習制御部132に取得した学習データを送信する(ステップS206)。
 次に、管理部131は、学習データ取得計画の計画全てで学習データの取得が完了したか否かを判定する(ステップS207)。学習データを取得していないシーンがある場合(ステップS207;No)、管理部131は、ステップS202に戻る。
 計画全てで学習データの取得が完了した場合(ステップS207;Yes)、すなわち、全てのシーンで学習データを取得した場合、管理部131は、学習制御部132から追加の取得要求があるか否かを判定する(ステップS208)。
 追加の取得要求がある場合(ステップS208;Yes)、管理部131は、ステップS201に戻る。一方、追加の取得要求がない場合(ステップS208;No)、管理部131は、取得処理を終了する。
<3.3.誘導処理>
 図26は、本開示の実施形態に係る誘導処理の流れの一例を示すフローチャートである。図26に示す誘導処理は、主に、情報処理装置100の誘導制御部1312によって実行される。
 誘導制御部1312は、推定部134から顔情報を取得する(ステップS301)。誘導制御部1312は、作成制御部1311から実行ステップに応じた誘導目標を取得する(ステップS302)。管理部131は、誘導目標に基づいて誘導指示を生成し、UI制御部135に誘導指示を通知する(ステップS303)。
 誘導制御部1312は、推定部134から顔情報を取得する(ステップS304)。誘導制御部1312は、取得した顔情報に基づいて誘導状況を生成し、作成制御部1311に誘導状況を通知する(ステップS305)。
 誘導制御部1312は、ユーザUを誘導目標まで誘導したか、すなわち、誘導が完了したか否かを判定する(ステップS306)。誘導が完了していない場合(ステップS306;No)、誘導制御部1312は、ステップS302に戻る。誘導が完了した場合(ステップS306;Yes)、誘導制御部1312は、誘導処理を終了する。
 なお、ここでは、誘導制御部1312が、誘導が完了したか否かを判定するとしたが、誘導完了の判定を作成制御部1311が行うようにしてもよい。この場合、作成制御部1311は、誘導制御部1312から取得した誘導状況に基づいて誘導が完了したか否かを判定する。
 作成制御部1311は、誘導が完了した場合、学習データの取得を実行する。誘導が完了していない場合、作成制御部1311は、例えば新たな誘導目標を作成し、誘導制御部1312に通知し得る。あるいは、作成制御部1311が、誘導が完了していない旨の通知を行うようにしてもよい。この場合、誘導制御部1312は、既に取得している誘導目標に基づいて誘導指示を再度生成する。
<3.4.UI生成処理>
 図27は、本開示の実施形態に係るUI生成処理の流れの一例を示すフローチャートである。図27に示すUI生成処理は、主に、情報処理装置100のUI制御部135によって実行される。UI制御部135は、例えば、誘導制御部1312から誘導指示を取得した場合に図27に示すUI生成処理を実行する。
 UI制御部135は、誘導制御部1312から誘導指示を取得する(ステップS401)。UI制御部135は、誘導指示に基づいてUI画像を生成する(ステップS402)。
 UI制御部135は、表示画像を生成する(ステップS403)。UI制御部135は、例えば、注目カメラが撮像した注目画像を左右反転させた画像に、UI画像を重畳することで、表示画像を生成する。
 UI制御部135は、ディスプレイ210に表示画像を表示させる(ステップS404)。
<3.5.個人特化学習処理>
 図28は、本開示の実施形態に係る個人特化学習処理の流れの一例を示すフローチャートである。図28に示す個人特化学習処理は、情報処理装置100の学習制御部132によって実行される。
 学習制御部132は、学習計画を作成する(ステップS501)。学習制御部132は、管理部131から学習データを取得する(ステップS502)。
 学習制御部132は、学習データの取得が完了したか否かを判定する(ステップS503)。学習制御部132は、学習制御部132が所定量の学習データを管理部131から取得した場合に、学習データの取得が完了したと判定する。また、学習制御部132は、管理部131による学習データの取得が終了した場合に、学習データの取得が完了したと判定する。
 学習データの取得が完了していない場合(ステップS503;No)、学習制御部132は、ステップS502に戻る。学習データの取得が完了した場合(ステップS503;Yes)、学習制御部132は、例えば記憶部120が記憶する学習データの少なくとも一部である学習用データを取得する(ステップS504)。
 学習制御部132は、個人特化学習に使用する学習前係数データ(例えば、不特定対象係数)を取得する(ステップS505)。学習制御部132は、個人特化学習を行い、ユーザU個人に特化した視点変換を学習する(ステップS506)。
<3.6.検証処理>
 図29は、本開示の実施形態に係る検証処理の流れの一例を示すフローチャートである。図29に示す検証処理は、情報処理装置100の学習制御部132によって実行される。
 学習制御部132は、例えば記憶部120が記憶する検証用データを取得する(ステップS601)。検証用データは、事前に個人特化学習用に生成されたデータである。あるいは、学習制御部132は、学習データの少なくとも一部を検証用データとして記憶部120から取得するようにしてもよい。
 学習制御部132は、個人特化学習の学習結果を検証する(ステップS602)。学習制御部132は、個人特化学習によって更新された係数データ及び検証用データを用いて学習結果を検証する。
 学習制御部132は、個人特化学習が完了したか否かを判定する(ステップS603)。例えば、学習制御部132は、ステップS602の検証結果、所望の精度を満たす場合、個人特化学習が完了したと判定する。
 また、学習制御部132は、所定回数学習を行っても所望の精度を満たせない場合、個人特化学習が完了したと判定する。例えば、学習制御部132は、管理部131に対して追加の学習データの取得要求を所定回数行って、個人特化学習を実行しても、所望の精度を満たせない場合、個人特化学習が完了したと判定する。
 個人特化学習が完了した場合(ステップS603;Yes)、学習制御部132は、学習済みの係数データを変換部133に通知することで、変換部133で使用される係数データを学習済み係数データに更新する(ステップS604)。
 個人特化学習が完了していない場合(ステップS603;No)、学習制御部132は、管理部131に学習データの追加取得を要求する(ステップS605)。学習制御部132は、管理部131に追加の取得要求を通知する。
 本開示の実施形態に係る情報処理装置100は、機械学習を用いた視点変換を行う。情報処理装置100は、汎用的なデータセットを用いて、予め視点変換の学習(不特定対象学習)を行う。情報処理装置100は、情報処理システム10が有する全ての撮像装置300の撮像画像Pを用いて、視点変換処理を行うことで、仮想カメラC_Vから撮像したような変換画像P_Vを生成する。
 このとき、情報処理装置100は、情報処理システム10が有する全ての撮像装置300のうち、少なくとも1つの撮像装置300が撮像した撮像画像Pを入力して視点変換を行えるように不特定対象学習を行う。例えば、情報処理装置100は、ランダムに選択した撮像画像P及び黒画像のように無効データを用いて不特定対象学習を行う。
 情報処理装置100は、個人特化学習を開始する際に、まず学習データ取得計画を作成する。情報処理装置100は、既知の、あるいは、外部装置(図示省略)から取得したカメラ情報(撮像装置300の位置や配置に関する情報)を考慮し、撮像装置300の配置の対称性を利用して学習データ取得計画を作成する。
 情報処理装置100は、撮像装置300の撮像画像PからユーザUの顔状態を推定する。情報処理装置100は、顔状態の推定に、例えばカメラ情報を使用する。
 情報処理装置100は、学習データ取得計画に従って、所望の顔位置やヘッドポーズ、表情になるよう、ユーザUを誘導する。情報処理装置100は、UI画像を重畳した表示画像をディスプレイ210に表示させることで、ユーザUを誘導する。情報処理装置100は、ユーザUが所望の顔状態になるまでユーザUの誘導を継続する。
 ユーザUが所望の顔状態になると、情報処理装置100は、学習データを取得する。情報処理装置100は、学習データ取得計画の実行シーンに応じて、学習データを所定のフォーマットに変換し、記憶部120に記憶する。
 情報処理装置100は、既知の、あるいは、外部装置(図示省略)から取得した学習関連情報を参照しながら適切なハイパーパラメータを定める。情報処理装置100は、ハイパーパラメータを参照し、学習データの少なくとも一部から生成した学習用データを用いて、個人特化学習を行い、係数データを更新する。
 情報処理装置100は、例えば学習データの少なくとも一部から生成した検証用データを用いて、個人特化学習の学習結果を検証する。情報処理装置100は、学習結果の性能評価を行い、評価結果に応じて追加の学習データ取得を決定する。情報処理装置100は、追加の学習データを取得する場合、学習データ取得計画を更新して学習データを取得する。なお、情報処理装置100が、追加の学習データ取得を決定した時点で、既に学習データ取得計画の実行が終了している場合、情報処理装置100は、新たな学習データ取得計画を作成するようにしてもよい。
<<4.ハードウェア構成>>
 図30を参照して、本実施形態に係る情報処理装置のハードウェア構成について説明する。図30は、本実施形態に係る情報処理装置800のハードウェア構成の一例を示すブロック図である。なお、図30に示す情報処理装置800は、例えば、情報処理装置100を実現し得る。本実施形態に係る情報処理装置100による情報処理は、ソフトウェアと、以下に説明するハードウェアとの協働により実現される。
 図30に示すように、情報処理装置800は、例えば、CPU871と、ROM872と、RAM873と、ホストバス874と、ブリッジ875と、外部バス876と、インターフェイス877と、入力装置878と、出力装置879と、ストレージ880と、ドライブ881と、接続ポート882と、通信装置883と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。
(CPU871)
 CPU871は、例えば、演算処理装置又は制御装置として機能し、ROM872、RAM873、ストレージ880、又はリムーバブル記録媒体901に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。
 具体的には、CPU871は、情報処理装置100内の動作処理を実現する。
(ROM872、RAM873)
 ROM872は、CPU871に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。RAM873には、例えば、CPU871に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。
(ホストバス874、ブリッジ875、外部バス876、インターフェイス877)
 CPU871、ROM872、RAM873は、例えば、高速なデータ伝送が可能なホストバス874を介して相互に接続される。一方、ホストバス874は、例えば、ブリッジ875を介して比較的データ伝送速度が低速な外部バス876に接続される。また、外部バス876は、インターフェイス877を介して種々の構成要素と接続される。
(入力装置878)
 入力装置878には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力装置878としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ(以下、リモコン)が用いられることもある。また、入力装置878には、マイクロフォンなどの音声入力装置が含まれる。
(出力装置879)
 出力装置879は、例えば、CRT(Cathode Ray Tube)、LCD、又は有機EL等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。また、本開示に係る出力装置879は、触覚刺激を出力することが可能な種々の振動デバイスを含む。出力装置879は、例えば、出力装置200を実現する。
(ストレージ880)
 ストレージ880は、各種のデータを格納するための装置である。ストレージ880としては、例えば、ハードディスクドライブ(HDD)等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。
(ドライブ881)
 ドライブ881は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体901に記録された情報を読み出し、又はリムーバブル記録媒体901に情報を書き込む装置である。
(リムーバブル記録媒体901)
 リムーバブル記録媒体901は、例えば、DVDメディア、Blu-ray(登録商標)メディア、HD DVDメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体901は、例えば、非接触型ICチップを搭載したICカード、又は電子機器等であってもよい。
(接続ポート882)
 接続ポート882は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)、RS-232Cポート、又は光オーディオ端子等のような外部接続機器902を接続するためのポートである。
(外部接続機器902)
 外部接続機器902は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はICレコーダ等である。
(通信装置883)
 通信装置883は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線LAN、Wi-Fi(登録商標)、Bluetooth(登録商標)、又はWUSB(Wireless USB)用の通信カード、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、又は各種通信用のモデム等である。
<<5.その他の実施形態>>
 上述の実施形態は一例を示したものであり、種々の変更及び応用が可能である。
 例えば、上述した実施形態では仮想カメラC_Vの位置をディスプレイ210の略中央としたが、仮想カメラC_Vの位置は、これに限定されない。例えば、仮想カメラC_Vの位置は、ディスプレイ210の略中央よりやや上方であってもよい。例えば、仮想カメラC_Vの位置は、ディスプレイ210に表示されるユーザUの顔や目(例えば、両目の略中央)の位置であってもよい。
 この場合でも、撮像装置300は、仮想カメラC_Vに対して対称性を有するように配置される。すなわち、仮想カメラC_Vと入力撮像装置C_Iとの相対的な位置関係が、教師撮像装置C_Tと生徒撮像装置C_Sとの相対的な位置関係と略一致するように、撮像装置300が配置され得る。
 例えば、上述の動作を実行するための通信プログラムを、光ディスク、半導体メモリ、磁気テープ、フレキシブルディスク等のコンピュータ読み取り可能な記録媒体に格納して配布する。そして、例えば、該プログラムをコンピュータにインストールし、上述の処理を実行することによって制御装置を構成する。このとき、制御装置は、情報処理装置100の外部の装置(例えば、パーソナルコンピュータ)であってもよい。また、制御装置は、情報処理装置100の内部の装置(例えば、制御部130)であってもよい。
 また、上記通信プログラムをインターネット等のネットワーク上のサーバ装置が備えるディスク装置に格納しておき、コンピュータにダウンロード等できるようにしてもよい。また、上述の機能を、OS(Operating System)とアプリケーションソフトとの協働により実現してもよい。この場合には、OS以外の部分を媒体に格納して配布してもよいし、OS以外の部分をサーバ装置に格納しておき、コンピュータにダウンロード等できるようにしてもよい。
 また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
 また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。なお、この分散・統合による構成は動的に行われてもよい。
 また、上述の実施形態は、処理内容を矛盾させない領域で適宜組み合わせることが可能である。
 また、例えば、本実施形態は、装置又はシステムを構成するあらゆる構成、例えば、システムLSI(Large Scale Integration)等としてのプロセッサ、複数のプロセッサ等を用いるモジュール、複数のモジュール等を用いるユニット、ユニットにさらにその他の機能を付加したセット等(すなわち、装置の一部の構成)として実施することもできる。
 なお、本実施形態において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、全ての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
 また、例えば、本実施形態は、1つの機能を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
<<6.むすび>>
 以上、本開示の実施形態について説明したが、本開示の技術的範囲は、上述の各実施形態そのままに限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。また、異なる実施形態及び変形例にわたる構成要素を適宜組み合わせてもよい。
 また、本明細書に記載された各実施形態における効果はあくまで例示であって限定されるものでは無く、他の効果があってもよい。
 なお、本技術は以下のような構成も取ることができる。
(1)
 ディスプレイに対し設定された仮想カメラに対し対称性を有するように配置された第1の撮像装置及び第2の撮像装置のうち、前記第1の撮像装置と相対するようにユーザを誘導するよう出力装置を制御し、
 前記第1の撮像装置と相対した前記ユーザを含む教師画像を前記第1の撮像装置から取得し、
 前記第1の撮像装置及び前記第2の撮像装置の前記仮想カメラに対する前記対称性及び前記教師画像に基づき、前記仮想カメラの視点に対応させるための前記第2の撮像装置の視点変換の学習処理を行う、制御部、
 を備える情報処理装置。
(2)
 前記第1の撮像装置及び前記第2の撮像装置は、前記ディスプレイの周囲に配置される、(1)に記載の情報処理装置。
(3)
 前記制御部は、複数の撮像装置の中から前記第1の撮像装置を選択する、(1)又は(2)に記載の情報処理装置。
(4)
 前記制御部は、選択する前記第1の撮像装置を順次切り替えて前記学習を行う、(3)に記載の情報処理装置。
(5)
 前記制御部は、前記ディスプレイの周囲に配置される複数の前記撮像装置のうち、前記ディスプレイの角部に配置される前記撮像装置を、前記第1の撮像装置として選択する、(3)又は(4)に記載の情報処理装置。
(6)
 前記制御部は、前記ディスプレイの周囲に配置される複数の前記撮像装置のうち、前記ディスプレイの辺の略中央に配置される前記撮像装置を、前記第1の撮像装置として選択する、(3)又は(4)に記載の情報処理装置。
(7)
 前記制御部は、前記ディスプレイの周囲に配置される複数の前記撮像装置のうち、前記ディスプレイの角部に配置される前記撮像装置を、前記第2の撮像装置として選択する、(3)~(6)のいずれか1つに記載の情報処理装置。
(8)
 前記制御部は、前記ディスプレイの周囲に配置される複数の前記撮像装置のうち、前記ディスプレイの辺の略中央に配置される前記撮像装置を、前記第2の撮像装置として選択する、(3)~(6)のいずれか1つに記載の情報処理装置。
(9)
 前記視点は、前記ディスプレイの略中央に設定される、(1)~(8)のいずれか1つに記載の情報処理装置。
(10)
 前記制御部は、前記学習処理として、予め学習したモデルの再学習を行う、(1)~(9)のいずれか1つに記載の情報処理装置。
(11)
 前記制御部は、
 前記仮想カメラに対し前記対称性を有するように配置された前記第1の撮像装置、前記第2の撮像装置、及び、第3の撮像装置のうち、前記第1の撮像装置と相対するようにユーザを誘導するよう前記出力装置を制御し、
 前記第1の撮像装置、前記第2の撮像装置、及び、前記第3の撮像装置の前記仮想カメラに対する前記対称性、及び、前記教師画像に基づき、前記仮想カメラの前記視点に対応させるための前記第2の撮像装置及び前記第3の撮像装置の前記視点変換の前記学習処理を行う、
 (1)~(10)のいずれか1つに記載の情報処理装置。
(12)
 前記制御部は、前記ユーザの表情、前記ユーザの顔の向き、及び、前記ユーザの顔の位置の少なくとも1つを誘導するよう前記出力装置に指示する、(1)~(11)のいずれか1つに記載の情報処理装置。
(13)
 前記制御部は、前記ユーザの表情、前記ユーザの顔の向き、及び、前記ユーザの顔の位置のうち、少なくとも2つを誘導対象とする場合、前記誘導対象を1つずつ順番に誘導するよう前記出力装置に指示する、(12)に記載の情報処理装置。
(14)
 ディスプレイに対し設定された仮想カメラに対し対称性を有するように配置された第1の撮像装置及び第2の撮像装置のうち、前記第1の撮像装置と相対するようにユーザを誘導するよう出力装置を制御することと、
 前記第1の撮像装置と相対した前記ユーザを含む教師画像を前記第1の撮像装置から取得することと、
 前記第1の撮像装置及び前記第2の撮像装置の前記仮想カメラに対する前記対称性及び前記教師画像に基づき、前記仮想カメラの視点に対応させるための前記第2の撮像装置の視点変換の学習処理を行うことと、
 を含む情報処理方法。
(15)
 コンピュータに、
 ディスプレイに対し設定された仮想カメラに対し対称性を有するように配置された第1の撮像装置及び第2の撮像装置のうち、前記第1の撮像装置と相対するようにユーザを誘導するよう出力装置を制御することと、
 前記第1の撮像装置と相対した前記ユーザを含む教師画像を前記第1の撮像装置から取得することと、
 前記第1の撮像装置及び前記第2の撮像装置の前記仮想カメラに対する前記対称性及び前記教師画像に基づき、前記仮想カメラの視点に対応させるための前記第2の撮像装置の視点変換の学習処理を行うことと、
を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
 1 テレコミュニケーションシステム
 10 情報処理システム
 100 情報処理装置
 110 通信部
 120 記憶部
 130 制御部
 131 管理部
 132 学習制御部
 133 変換部
 134 推定部
 135 UI制御部
 200 出力装置
 210 ディスプレイ
 220 スピーカ
 300 撮像装置
 1311 作成制御部 1312 誘導制御部
 1313 データ生成部
 1321 データ管理部
 1322 計画制御部
 1323 学習実行部
 1331 係数データ管理部
 1332 視点変換部
 1341 顔位置推定部
 1342 ヘッドポーズ推定部
 1343 選択部
 1344 表情推定部
 1345 統合部
 1346 推定処理部
 1351 UI生成部
 1352 UI表示部

Claims (15)

  1.  ディスプレイに対し設定された仮想カメラに対し対称性を有するように配置された第1の撮像装置及び第2の撮像装置のうち、前記第1の撮像装置と相対するようにユーザを誘導するよう出力装置を制御し、
     前記第1の撮像装置と相対した前記ユーザを含む教師画像を前記第1の撮像装置から取得し、
     前記第1の撮像装置及び前記第2の撮像装置の前記仮想カメラに対する前記対称性及び前記教師画像に基づき、前記仮想カメラの視点に対応させるための前記第2の撮像装置の視点変換の学習処理を行う、制御部、
     を備える情報処理装置。
  2.  前記第1の撮像装置及び前記第2の撮像装置は、前記ディスプレイの周囲に配置される、請求項1に記載の情報処理装置。
  3.  前記制御部は、複数の撮像装置の中から前記第1の撮像装置を選択する、請求項1に記載の情報処理装置。
  4.  前記制御部は、選択する前記第1の撮像装置を順次切り替えて前記学習を行う、請求項3に記載の情報処理装置。
  5.  前記制御部は、前記ディスプレイの周囲に配置される複数の前記撮像装置のうち、前記ディスプレイの角部に配置される前記撮像装置を、前記第1の撮像装置として選択する、請求項3に記載の情報処理装置。
  6.  前記制御部は、前記ディスプレイの周囲に配置される複数の前記撮像装置のうち、前記ディスプレイの辺の略中央に配置される前記撮像装置を、前記第1の撮像装置として選択する、請求項3に記載の情報処理装置。
  7.  前記制御部は、前記ディスプレイの周囲に配置される複数の前記撮像装置のうち、前記ディスプレイの角部に配置される前記撮像装置を、前記第2の撮像装置として選択する、請求項3に記載の情報処理装置。
  8.  前記制御部は、前記ディスプレイの周囲に配置される複数の前記撮像装置のうち、前記ディスプレイの辺の略中央に配置される前記撮像装置を、前記第2の撮像装置として選択する、請求項3に記載の情報処理装置。
  9.  前記仮想カメラは、前記ディスプレイの略中央に設定される、請求項1に記載の情報処理装置。
  10.  前記制御部は、前記学習処理として、予め学習したモデルの再学習を行う、請求項1に記載の情報処理装置。
  11.  前記制御部は、
     前記仮想カメラに対し前記対称性を有するように配置された前記第1の撮像装置、前記第2の撮像装置、及び、第3の撮像装置のうち、前記第1の撮像装置と相対するようにユーザを誘導するよう前記出力装置を制御し、
     前記第1の撮像装置、前記第2の撮像装置、及び、前記第3の撮像装置の前記仮想カメラに対する前記対称性、及び、前記教師画像に基づき、前記仮想カメラの前記視点に対応させるための前記第2の撮像装置及び前記第3の撮像装置の前記視点変換の前記学習処理を行う、
     請求項1に記載の情報処理装置。
  12.  前記制御部は、前記ユーザの表情、前記ユーザの顔の向き、及び、前記ユーザの顔の位置の少なくとも1つを誘導するよう前記出力装置に指示する、請求項1に記載の情報処理装置。
  13.  前記制御部は、前記ユーザの表情、前記ユーザの顔の向き、及び、前記ユーザの顔の位置のうち、少なくとも2つを誘導対象とする場合、前記誘導対象を1つずつ順番に誘導するよう前記出力装置に指示する、請求項12に記載の情報処理装置。
  14.  ディスプレイに対し設定された仮想カメラに対し対称性を有するように配置された第1の撮像装置及び第2の撮像装置のうち、前記第1の撮像装置と相対するようにユーザを誘導するよう出力装置を制御することと、
     前記第1の撮像装置と相対した前記ユーザを含む教師画像を前記第1の撮像装置から取得することと、
     前記第1の撮像装置及び前記第2の撮像装置の前記仮想カメラに対する前記対称性及び前記教師画像に基づき、前記仮想カメラの視点に対応させるための前記第2の撮像装置の視点変換の学習処理を行うことと、
     を含む情報処理方法。
  15.  コンピュータに、
     ディスプレイに対し設定された仮想カメラに対し対称性を有するように配置された第1の撮像装置及び第2の撮像装置のうち、前記第1の撮像装置と相対するようにユーザを誘導するよう出力装置を制御することと、
     前記第1の撮像装置と相対した前記ユーザを含む教師画像を前記第1の撮像装置から取得することと、
     前記第1の撮像装置及び前記第2の撮像装置の前記仮想カメラに対する前記対称性及び前記教師画像に基づき、前記仮想カメラの視点に対応させるための前記第2の撮像装置の視点変換の学習処理を行うことと、
    を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
PCT/JP2023/007501 2022-03-23 2023-03-01 情報処理装置、情報処理方法、及び、記録媒体 WO2023181808A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202380027930.3A CN118891885A (zh) 2022-03-23 2023-03-01 信息处理装置、信息处理方法和记录介质

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022046934 2022-03-23
JP2022-046934 2022-03-23

Publications (1)

Publication Number Publication Date
WO2023181808A1 true WO2023181808A1 (ja) 2023-09-28

Family

ID=88100590

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/007501 WO2023181808A1 (ja) 2022-03-23 2023-03-01 情報処理装置、情報処理方法、及び、記録媒体

Country Status (2)

Country Link
CN (1) CN118891885A (ja)
WO (1) WO2023181808A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150073174A (ko) * 2012-12-04 2015-06-30 엘지전자 주식회사 영상 촬영 장치 및 그 방법
US20150310259A1 (en) * 2011-07-12 2015-10-29 Microsoft Technology Licensing, Llc Using facial data for device authentication or subject identification
US20160134803A1 (en) * 2014-11-07 2016-05-12 Intel Corporation Production of face images having preferred perspective angles
WO2016158014A1 (ja) * 2015-03-31 2016-10-06 ソニー株式会社 情報処理装置、通信システム、情報処理方法及びプログラム
JP2021071735A (ja) * 2018-03-01 2021-05-06 住友電気工業株式会社 コンピュータプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150310259A1 (en) * 2011-07-12 2015-10-29 Microsoft Technology Licensing, Llc Using facial data for device authentication or subject identification
KR20150073174A (ko) * 2012-12-04 2015-06-30 엘지전자 주식회사 영상 촬영 장치 및 그 방법
US20160134803A1 (en) * 2014-11-07 2016-05-12 Intel Corporation Production of face images having preferred perspective angles
WO2016158014A1 (ja) * 2015-03-31 2016-10-06 ソニー株式会社 情報処理装置、通信システム、情報処理方法及びプログラム
JP2021071735A (ja) * 2018-03-01 2021-05-06 住友電気工業株式会社 コンピュータプログラム

Also Published As

Publication number Publication date
CN118891885A (zh) 2024-11-01

Similar Documents

Publication Publication Date Title
US20220101607A1 (en) Rendering location specific virtual content in any location
US11381775B2 (en) Light field display system for video communication including holographic content
KR102257181B1 (ko) 감각 안경류
US20200090393A1 (en) Robot and method for operating the same
US11736756B2 (en) Producing realistic body movement using body images
US11948241B2 (en) Robot and method for operating same
WO2020204000A1 (ja) コミュニケーション支援システム、コミュニケーション支援方法、コミュニケーション支援プログラム、および画像制御プログラム
US11315325B2 (en) Systems and methods for artificial intelligence-based virtual and augmented reality
JP2019531538A (ja) ワードフロー注釈
CN111163906B (zh) 能够移动的电子设备及其操作方法
KR102148151B1 (ko) 디지털 커뮤니케이션 네트워크에 기반한 지능형 채팅
JPWO2019139101A1 (ja) 情報処理装置、情報処理方法およびプログラム
EP3141985A1 (en) A gazed virtual object identification module, a system for implementing gaze translucency, and a related method
CN110178159A (zh) 具有集成式投影仪的音频/视频可穿戴式计算机系统
JP7105380B2 (ja) 情報処理システム及び方法
WO2023181808A1 (ja) 情報処理装置、情報処理方法、及び、記録媒体
JP2022075662A (ja) 情報抽出装置
KR20210131324A (ko) 정보 처리 장치 및 정보 처리 방법
KR102725271B1 (ko) 5g 기반의 이동형 디지털휴먼 트윈 교육시스템 및 이를 이용한 교육방법
JP2021064062A (ja) システムおよびその制御方法、並びにプログラム
WO2024200511A1 (en) Electronic device and method
WO2024144805A1 (en) Methods and systems for image processing with eye gaze redirection

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23774407

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2024509889

Country of ref document: JP

Kind code of ref document: A