[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

WO2019187430A1 - 情報処理装置、方法、及びプログラム - Google Patents

情報処理装置、方法、及びプログラム Download PDF

Info

Publication number
WO2019187430A1
WO2019187430A1 PCT/JP2018/047696 JP2018047696W WO2019187430A1 WO 2019187430 A1 WO2019187430 A1 WO 2019187430A1 JP 2018047696 W JP2018047696 W JP 2018047696W WO 2019187430 A1 WO2019187430 A1 WO 2019187430A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
viewpoint
switching
image
file
Prior art date
Application number
PCT/JP2018/047696
Other languages
English (en)
French (fr)
Inventor
俊也 浜田
金井 健一
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US17/040,101 priority Critical patent/US11272224B2/en
Priority to JP2020509657A priority patent/JPWO2019187430A1/ja
Publication of WO2019187430A1 publication Critical patent/WO2019187430A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/21805Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/85406Content authoring involving a specific file format, e.g. MP4 format
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes

Definitions

  • the present disclosure relates to an information processing device, a method, and a program.
  • MPEG-H 3D Audio is known as an encoding technique for transmitting a plurality of audio data prepared for each audio object for the purpose of more realistic audio reproduction (see Non-Patent Document 1).
  • the plurality of encoded audio data are provided to the user together with image data in a content file such as an ISO base media file format (ISOBMFF) file defined in the following non-patent document 2, for example.
  • ISO base media file format ISO base media file format
  • a new and improved information processing apparatus, information processing method, and information processing method capable of reducing user discomfort by correcting the position of an audio object in viewpoint switching between a plurality of viewpoints, and Suggest a program.
  • the information includes a content file generation unit that stores viewpoint switching information for performing position correction of an audio object in viewpoint switching between a plurality of viewpoints in a header of the content file and generates the content file.
  • a processing device is provided.
  • it includes storing viewpoint switching information for performing position correction of an audio object in viewpoint switching between a plurality of viewpoints in a header of the content file, and generating the content file.
  • An information processing method executed by the apparatus is provided.
  • a function for generating the content file by storing the viewpoint switching information for correcting the position of the audio object in the viewpoint switching between a plurality of viewpoints in the header of the content file is realized in the computer.
  • a program is provided to make it happen.
  • FIG. 10 is a schematic diagram for explaining multi-viewpoint zoom switching information. It is a schematic diagram for demonstrating multiview zoom switching information. It is explanatory drawing for demonstrating the modification of multiview zoom switching information. It is explanatory drawing for demonstrating the modification of multiview zoom switching information. It is a flowchart figure which shows an example of the production
  • FIG. 3 is a block diagram illustrating a functional configuration example of a client 300 according to the embodiment.
  • FIG. 3 is a diagram illustrating a functional configuration example of an image processing unit 320.
  • FIG. 3 is a diagram illustrating a functional configuration example of an audio processing unit 330.
  • FIG. 3 is a block diagram showing a functional configuration example of a playback apparatus 800 according to the same embodiment. It is a figure which shows the box structure of the moov box in an ISOBMFF file. It is a figure which shows the example of a udta box in case multi-viewpoint zoom switching information is stored in a udta box. It is explanatory drawing for demonstrating metadata track. It is a figure for demonstrating the multiview zoom switching information which the content file production
  • generation apparatus 600 concerning the embodiment. FIG. 10 is a flowchart showing an example of the operation of the playback apparatus 800 according to the same embodiment. It is a block diagram which shows an example of a hardware configuration.
  • a plurality of constituent elements having substantially the same functional configuration may be distinguished by adding different alphabets after the same reference numeral.
  • it is not necessary to particularly distinguish each of a plurality of constituent elements having substantially the same functional configuration only the same reference numerals are given.
  • multi-viewpoint contents capable of displaying images while switching between a plurality of viewpoints are becoming widespread.
  • multi-viewpoint contents not only a two-dimensional 2D image but also a 360-degree omnidirectional image captured by an omnidirectional camera or the like may be included as an image corresponding to each viewpoint.
  • a 360 ° all-round image for example, based on the user's viewing position and direction determined based on user input and sensing, a partial range is cut out from the 360 ° all-round image and cut out. An image is being displayed.
  • FIG. 1 is an explanatory diagram for explaining the background of the present disclosure.
  • a 360 ° all-round image G10 expressed by an equirectangular projection and a 2D image G20 are included in the multi-viewpoint content.
  • the 360 ° omnidirectional image G10 and the 2D image G20 are images taken from different viewpoints.
  • FIG. 1 shows a display image G12 obtained by cutting out a partial range from the 360 ° all-round image G10.
  • a display image G14 obtained by further cutting out a partial range of the display image G12, for example, by further increasing the zoom magnification (display magnification).
  • the number of pixels of the display image is determined by the number of pixels to be cut out and the size of the cut-out range, and when the number of pixels of the 360 ° all-round image G10 is small or the range for cutting out the display image G14 is small. In this case, the number of pixels of the display image G14 is also reduced. In such a case, as shown in FIG. 1, the display image G14 may be deteriorated in image quality such as blur. Further, when the zoom magnification is further increased from the display image G14, further image quality degradation may occur.
  • the display image G22 obtained by cutting out the range R1 corresponding to the display image G14 in the 2D image G20 from the 2D image G20 is displayed by further increasing the zoom magnification. Can do.
  • the display image G22 is expected to be less susceptible to image quality degradation than the display image G14 while reflecting a range corresponding to the display image G14, and to withstand viewing with a higher zoom magnification.
  • the display when the display is switched from the state in which the display image G14 is displayed to the 2D image G20, the size of the subject is different, which may give the user a sense of discomfort. Therefore, when switching the viewpoint, it is desirable that the display can be directly switched from the display image G14 to the display image G22.
  • the display image G14 when switching the viewpoint, it is desirable that the display can be directly switched from the display image G14 to the display image G22.
  • the display angle of view (view angle of zoom magnification 1) at which the subject can be seen in the same level as the real world can be calculated in each viewpoint image.
  • the size of the subject can be adjusted to the same level before and after the viewpoint switching.
  • the angle of view at the time of shooting is 360 °.
  • the cut-out angle of view can be calculated according to the number of view angles depending on the number of pixels in the cut-out range. Further, since the display field angle information of the display device is also determined by the reproduction environment, it is possible to calculate the final display magnification.
  • direction information when 2D video is captured is also necessary. Note that direction information is recorded as metadata for 360-degree all-round video conforming to the OMAF (Omnidirectional Media Application Format) standard, but direction information cannot often be obtained for 2D images.
  • OMAF Omnidirectional Media Application Format
  • the angle of view information and direction when the 2D image is captured. Information is needed.
  • Non-Patent Document 1 defines a mechanism for correcting the position of an audio object in accordance with video zoom. Hereinafter, this mechanism will be described.
  • MPEG-H 3D Audio provides the following two audio object position correction functions.
  • First correction function Corrects the position of the audio object when the display angle of view at the time of content production in which the position adjustment of the image and sound is different from the display angle of view at the time of reproduction.
  • Second correction function The position of the audio object is corrected following the zoom of the video during playback.
  • FIG. 2 is an explanatory diagram for explaining the position correction of the audio object when the display angle of view is different between content production and reproduction.
  • the angle of view of the image on the spherical surface and the angle of view on the flat display are strictly different, in the following description, they are approximated and treated as the same for the sake of easy understanding.
  • the display angle of view at the time of content creation and playback is shown.
  • the display angle of view at the time of content production is 60 °
  • the display angle of view at the time of reproduction is 120 °.
  • the content creator determines the position of the audio object while displaying an image with a shooting angle of view of 60 °, for example, with a display angle of view of 60 °.
  • the zoom magnification is 1. If the target image is a 360 ° all-round image, the cut-out view angle (shooting view angle) of the image can be determined in accordance with the display view angle, so that display at a zoom magnification of 1 can be easily performed. .
  • FIG. 2 shows an example of reproducing the content produced in this way at a display angle of view of 120 °.
  • the captured field angle of the display image is 60 °
  • the image viewed by the user is a substantially enlarged image.
  • MPEG-H 3D Audio defines information and API for correcting the enlarged image by aligning the position of the audio object.
  • FIGS. 3 and 4 are explanatory drawings for explaining the position correction of the audio object following the zoom of the video during reproduction.
  • the 360 ° omnidirectional image G10 shown in FIGS. 3 and 4 has 3840 horizontal pixels, which corresponds to an angle of view of 360 °.
  • the zoom magnification at the time of shooting the 360 ° all-round image G10 is 1.
  • the position of the audio object is set corresponding to the 360 ° all-round image G10.
  • the display angle of view at the time of content production and playback is the same, and the position correction of the audio object at the time of production as described with reference to FIG. Is not necessary, and only correction due to zoom display during reproduction is performed.
  • FIG. 3 shows an example in which playback is performed at a zoom magnification of 1.
  • the display field angle during reproduction is 67.5 °
  • a range of 720 pixels corresponding to 5 ° may be cut out and displayed.
  • FIG. 4 shows an example in which playback is performed at a zoom magnification of 2 times.
  • the display angle of view at the time of reproduction is 67.5 °
  • in order to perform display at a zoom magnification of 2 times as shown in FIG. A 360-pixel range corresponding to 75 ° may be cut out and displayed.
  • information and API for correcting the position of the audio object in accordance with the zoom magnification of the image are defined in MPEG-H 3D Audio.
  • MPEG-H 3D Audio provides a function for correcting the position of two audio objects.
  • the audio object position correction function provided by the above-described MPEG-H 3D Audio may not be able to appropriately correct the position of the audio object when the viewpoint is switched with zooming.
  • FIG. 5 is an explanatory diagram for explaining the position correction of the audio object when there is no viewpoint switching.
  • the angle of view at the time of shooting the 2D image G20 is the shooting angle of view ⁇ .
  • the display angle of view is 90 °
  • the 2D image G20 is displayed as it is at a zoom magnification of 1 ⁇ .
  • the shooting angle of view ⁇ cannot be obtained at the time of content production, the true display magnification with respect to the real world is unknown.
  • the display angle of view is 60 °.
  • the range R2 shown in FIG. 5 is cut out and the display image G24 is displayed at a zoom magnification of 2.
  • the true display magnification with respect to the real world is unknown.
  • the audio object position correction function provided by the above-mentioned MPEG-H 3D Audio is used. It is possible to correct the position. Therefore, reproduction can be performed while maintaining the relative positional relationship between the image and the sound.
  • FIG. 6 is an explanatory diagram for explaining the position correction of the audio object when the viewpoint is switched.
  • viewpoint switching can be performed between a 360 ° omnidirectional image captured from different viewpoints and a 2D image.
  • the display field angle is 60 °.
  • a display image G14 obtained by cutting out the range R3 from the 360 ° all-round image G10 with a cut-out angle of view of 30 ° may be displayed.
  • the zoom magnification at the time of 360 ° omnidirectional image reproduction is also a true display magnification with respect to the real world, and a true display magnification with respect to the real world is two times.
  • the true display magnification with respect to the real world at the time of 2D image reproduction is unknown, and in the viewpoint switching as described above, the true display magnification with respect to the real world at the time of 2D image reproduction and 360 °
  • the true display magnification with respect to the real world at the time of image reproduction does not necessarily match. Therefore, the size of the subject does not match in the viewpoint switching as described above.
  • the position of the audio object is inconsistent before and after the viewpoint switching, which may give the user a sense of incongruity. Therefore, it is desirable to adjust the size of the subject before and after the viewpoint switching, and also to correct the position of the audio object.
  • FIG. 7 is an explanatory diagram for explaining the position correction of the audio object when the shooting angle of view and the display angle of view at the time of content creation do not match.
  • the display angle of view is 80 °, and the 2D image G20 is displayed as it is at a zoom magnification of 1 ⁇ .
  • the shooting angle of view is unknown at the time of content production. Therefore, the shooting angle of view does not always match the display angle of view at the time of content creation. Since the shooting angle of view is unknown, the true display magnification with respect to the real world is unknown, but the position of the audio object may be determined based on an image with a zoom magnification that is not 1 ⁇ with respect to the real world. There is.
  • the display angle of view is 60 °, and the zoom magnification is doubled. It is also assumed that the shooting angle of view is unknown even during playback. Therefore, the true display magnification for the real world is unknown.
  • FIG. 7 shows an example in which the cutout range is moved while maintaining a zoom magnification of 2 during reproduction.
  • FIG. 7 shows an example in which a display image G24 cut out from the range R2 of the 2D image G20 is displayed, and an example in which a display image G26 cut out from the range R4 of the 2D image G20 is displayed.
  • the display image G24 and the display image G24 displayed at the time of reproduction are displayed.
  • the rotation angle with respect to the world is unknown. Therefore, the moving angle of the audio object that has moved corresponding to the movement of the cutout range with respect to the real world is also unknown.
  • the position correction function of the audio object provided by MPEG-H 3D Audio is provided as described with reference to FIG. It can be used to correct the position of the audio object.
  • the positions of the audio object can be corrected even if the moving angle with respect to the real world is unknown.
  • FIG. 8 is an explanatory diagram for explaining an outline of the present technology.
  • FIG. 8 shows a display image G12, a 2D image G20, and a 2D image G30.
  • the display image G12 may be an image cut out from the 360 ° whole sky image.
  • the 360 ° all-round image, the 2D image G20, and the 2D image G30 for cutting out the display image G12 are images taken from different viewpoints.
  • the display image G16 obtained by cutting out the range R5 of the display image G12 is displayed from the state in which the display image G12 is displayed, image quality deterioration may occur. Therefore, consider switching the viewpoint to the viewpoint of the 2D image G20.
  • the size of the subject is maintained by automatically specifying the range R6 corresponding to the display image G16 in the 2D image G20 without displaying the entire 2D image G20 after the viewpoint is switched.
  • the displayed display image G24 is displayed. Further, in the present technology, the size of the subject is maintained even when switching from the viewpoint of the 2D image G20 to the viewpoint of the 2D image G30. In the example illustrated in FIG.
  • the position of the audio object is corrected in the above viewpoint switching, and playback is performed at the position of the sound source corresponding to the viewpoint switching.
  • information for performing the viewpoint switching described above is prepared at the time of content production, and the information is shared at the time of content file generation and playback.
  • information for performing such viewpoint switching is referred to as multi-view zoom switching information or simply viewpoint switching information.
  • the multi-view zoom switching information is information for displaying while maintaining the size of the subject in the viewpoint switching between a plurality of viewpoints.
  • the multi-view zoom switching information is also information for correcting the position of the audio object in the viewpoint switching between a plurality of viewpoints.
  • the multi-viewpoint zoom switching information will be described.
  • Multi-view zoom switching information >> An example of the multi-view zoom switching information will be described with reference to FIGS.
  • FIG. 9 is a table showing an example of multi-viewpoint zoom switching information.
  • FIG. 10 is a schematic diagram for explaining multi-viewpoint zoom switching information.
  • the multi-view zoom switching information may include image type information, shooting-related information, angle-of-view information at the time of content production, the number of switching destination viewpoint information, and switching destination viewpoint information.
  • the multi-view zoom switching information illustrated in FIG. 9 may be prepared in association with each viewpoint included in the viewpoint of the multi-view content, for example.
  • multi-view zoom switching information associated with the viewpoint VP shown in FIG. 10 is shown as an example of the value.
  • the image type information is information indicating the type of image related to the viewpoint associated with the multi-viewpoint zoom switching information, and may be, for example, a 2D image, a 360 ° all-round image, or the like.
  • the shooting related information includes shooting position information related to the position of the camera that shot the image. Further, the shooting related information includes shooting direction information related to the direction of the camera that shot the image. Further, the shooting-related information includes shooting angle-of-view information related to the angle of view (horizontal angle of view, vertical angle of view) of the camera that shot the image.
  • the angle of view information at the time of content production is information on the display angle of view (horizontal angle of view and vertical angle of view) at the time of content production.
  • the angle of view information at the time of content creation is also reference angle-of-view information related to the angle of view of the screen referred to when determining the position information of the audio object related to the viewpoint associated with the viewpoint switching information.
  • the angle of view information at the time of content creation may be information equivalent to mae_ProductionScreenSizeData () in MPEG-H 3D Audio.
  • the switching destination viewpoint information is information regarding the switching destination viewpoint that can be switched from the viewpoint associated with the multi-view zoom switching information.
  • the multi-view zoom switching information includes the number of switching destination viewpoint information arranged thereafter, and the viewpoint VP1 shown in FIG. 10 can be switched to two viewpoints of the viewpoint VP2 and the viewpoint VP3.
  • the switching destination viewpoint information may be information for switching to the switching destination viewpoint, for example.
  • the switching destination viewpoint information includes information regarding the region that is the target of viewpoint switching (the upper left x coordinate, the upper left y coordinate, the horizontal width, the vertical width), the threshold information regarding the switching threshold, and the switching. And the previous viewpoint identification information.
  • the region for switching from the viewpoint VP1 to the viewpoint VP2 is the region R11.
  • the region R11 of the viewpoint VP1 corresponds to the region R21 of VP2.
  • the region for switching from the viewpoint VP1 to the viewpoint VP2 is the region R12.
  • the region R12 of the viewpoint VP1 corresponds to the region R32 of VP2.
  • Threshold information may be information on the threshold of the maximum display magnification, for example. For example, in the region R11 of the viewpoint VP1, when the display magnification becomes 3 times or more, the viewpoint is switched to the viewpoint VP2. Further, in the region R12 of the viewpoint VP1, when the display magnification becomes 2 times or more, the viewpoint is switched to the viewpoint VP3.
  • the example of the multi-viewpoint zoom switching information has been described above with reference to FIGS.
  • the information included in the multi-viewpoint zoom switching information is not limited to the above-described example.
  • some modified examples of the multi-view zoom switching information will be described. 11 and 12 are explanatory diagrams for explaining such a modification.
  • the switching destination viewpoint information may be set in multiple stages. Further, the switching destination viewpoint information may be set so that switching between viewpoints is possible. For example, the viewpoint VP1 and the viewpoint VP2 may be switched to each other, and the viewpoint VP1 and the viewpoint VP3 may be switched to each other.
  • the switching destination viewpoint information may be set so as to be able to go back and forth between viewpoints through different routes.
  • the viewpoint VP1 may be switched to the viewpoint VP2
  • the viewpoint VP2 may be switched to the viewpoint VP3
  • the viewpoint VP3 may be switched to the viewpoint VP1.
  • the switching destination viewpoint information may be provided with hysteresis by making the threshold information different depending on the switching direction when the viewpoints can be switched to each other.
  • the threshold information may be set such that the threshold value from the viewpoint VP1 to the viewpoint VP2 is three times and the threshold value from the viewpoint VP2 to the viewpoint VP1 is twice. With such a configuration, frequent viewpoint switching is less likely to occur, and a sense of discomfort given to the user is further reduced.
  • the regions in the switching destination viewpoint information may overlap.
  • the viewpoint VP4 can be switched to the viewpoint VP5 or the viewpoint VP6.
  • the region R41 in the viewpoint VP4 for switching from the viewpoint VP4 to the region R61 in the viewpoint VP6 includes the region R42 in the viewpoint VP4 for switching from the viewpoint VP4 to the region R52 in the viewpoint VP5, and the regions overlap. .
  • the threshold information included in the switching destination viewpoint information may be not only the maximum display magnification but also information on the minimum display magnification.
  • the threshold information for switching from the region R41 of the viewpoint VP4 to the region R61 of the viewpoint VP6 is information on the minimum display magnification. It may be. This configuration informs the playback side of the content creator's intention that the display magnification range should be displayed from that viewpoint, and that the viewpoint should be switched when the display magnification is exceeded. Is possible.
  • the maximum display magnification or the minimum display magnification may be set even in a region where there is no switching destination viewpoint. In such a case, the zoom change may be stopped at the maximum display magnification or the minimum display magnification.
  • the switching destination viewpoint information when the image related to the switching destination viewpoint is a 2D image, information on a default initial display range displayed immediately after switching may be included in the switching destination viewpoint information. As will be described later, it is possible to calculate the display magnification and the like at the switching destination viewpoint, but the content creator may intentionally set a default display range for each switching destination viewpoint. For example, in the example shown in FIG. 12, when switching from the region R71 of the viewpoint VP7 to the viewpoint VP8, the cutout range in which the subject is the same size as before the switching is the region R82, but the region R81 that is the initial display range is displayed. May be.
  • the switching destination viewpoint information includes information on the initial display range
  • the switching destination viewpoint information includes information on the extraction center and display magnification corresponding to the initial display range in addition to the above-described region information, threshold information, and viewpoint identification information. May be included.
  • FIG. 13 is a flowchart showing an example of the flow of generating multi-viewpoint zoom switching information during content production.
  • the multi-view zoom switching information shown in FIG. 13 is generated for each viewpoint included in the multi-view content by, for example, the content creator operating the content creation device in each embodiment of the present disclosure at the time of content creation. Can be executed.
  • step S104 the shooting-related information may be set with reference to the camera position, direction, zoom value at the time of shooting, and the 360 ° all-round image that was shot at the same time.
  • an angle of view at the time of content production is set, and angle of view information at the time of content production is given (S106).
  • the angle-of-view information at the time of content creation is the screen size (screen display angle of view) referred to when determining the position of the audio object.
  • full-screen display may be performed without cutting out an image during content production.
  • switching destination viewpoint information is set (S108).
  • the content creator sets a region in the image corresponding to each viewpoint, and sets a display magnification threshold at which viewpoint switching occurs and identification information of the viewpoint switching destination.
  • FIG. 14 is a flowchart illustrating an example of a viewpoint switching flow using multi-viewpoint zoom switching information during reproduction.
  • viewing screen information used for reproduction is acquired (S202).
  • the information on the viewing screen may be the display angle of view from the viewing position, and can be uniquely determined by the playback environment.
  • multi-viewpoint zoom switching information relating to the viewpoint of the currently displayed image is acquired (S204).
  • the multi-view zoom switching information is stored in a metadata file or a content file as will be described later.
  • a method for acquiring multi-viewpoint zoom switching information in each embodiment of the present disclosure will be described later.
  • information on the cutout range of the display image, the direction of the display image, and the angle of view is calculated (S208).
  • the information on the cutout range of the display image may include, for example, information on the center position and size of the cutout range.
  • step S208 it is determined whether or not the display image cutout range calculated in step S208 is included in any region of the switching destination viewpoint information included in the multi-viewpoint zoom switching information (S210).
  • the cutout range of the display image is not included in any region (NO in S210)
  • viewpoint switching is not performed and the flow ends.
  • the display magnification of the display image is calculated (S210).
  • the display magnification of the display image can be calculated based on the size of the image before clipping and information on the clipping range of the display image.
  • the display magnification of the display image is compared with a display magnification threshold value included in the switching destination viewpoint information (S212).
  • the threshold information indicates the maximum display magnification. If the display magnification of the display image is less than or equal to the threshold (NO in S212), the viewpoint is not switched and the flow ends.
  • the viewpoint switching to the switching destination viewpoint indicated by the switching destination viewpoint information is started (S214). Based on the information on the direction and angle of view of the display image before switching, the shooting related information included in the multi-viewpoint zoom switching information, and the angle of view information at the time of content creation, the cutout position and angle of view of the display image at the switching destination Is calculated (S216).
  • the display image at the switching destination viewpoint is cut out and displayed (S218). Further, the position of the audio object is corrected based on the information on the cut-out position and the angle of view calculated in step S216, and the audio is output (S220).
  • FIG. 15 is a diagram illustrating a system configuration of the information processing system according to the first embodiment of the present disclosure.
  • the information processing system according to the present embodiment illustrated in FIG. 15 is a system that distributes multi-viewpoint content by streaming.
  • streaming distribution may be performed by MPEG-DASH defined in ISO / IEC 23009-1.
  • the information processing system according to the present embodiment includes a generation device 100, a distribution server 200, a client 300, and an output device 400. Distribution server 200 and client 300 are connected to each other by communication network 500.
  • the generating device 100 is an information processing device that generates a content file and a metadata file suitable for streaming delivery by MPEG-DASH.
  • the generation apparatus 100 may be used for content production (position determination of an audio object), or receives an image signal, an audio signal, and audio object position information from another apparatus for content production. May be.
  • the configuration of the generation device 100 will be described later with reference to FIG.
  • the distribution server 200 is an information processing apparatus that functions as an HTTP server and performs streaming distribution by MPEG-DASH. For example, the distribution server 200 performs streaming distribution of the content file and metadata file generated by the generation device 100 to the client 300 based on MPEG-DASH.
  • the configuration of the distribution server 200 will be described later with reference to FIG.
  • the client 300 is an information processing apparatus that receives the content file and the metadata file generated by the generation apparatus 100 from the distribution server 200 and reproduces them.
  • a client 300A connected to the stationary output device 400A
  • a client 300B connected to the output device 400B attached to the user
  • a terminal that also functions as the output device 400C is shown.
  • the configuration of the client 300 will be described later with reference to FIGS.
  • the output device 400 is a device that displays a display image and performs audio output under the reproduction control of the client 300.
  • an output device 400 ⁇ / b> A, an output device 400 ⁇ / b> B attached to a user, and an output device 400 ⁇ / b> C that is a terminal that also functions as a client 300 ⁇ / b> C are illustrated.
  • the output device 400A may be a television, for example.
  • the user may be able to perform operations such as zoom and rotation via a controller or the like connected to the output device 400A, and information on such operations may be transmitted from the output device 400A to the client 300A.
  • the output device 400B may be an HMD (Head Mounted Display) attached to the user's head.
  • the output device 400B includes a sensor for acquiring information such as the position and direction (posture) of the head of the user who wears the information, and such information can be transmitted from the output device 400B to the client 300B.
  • the output device 400C may be a movable display terminal such as a smartphone or a tablet.
  • a sensor for acquiring information such as a position and a direction (attitude) when the user moves the output device 400C with the hand.
  • the system configuration example of the information processing system according to the present embodiment has been described above. Note that the configuration described above with reference to FIG. 15 is merely an example, and the configuration of the information processing system according to the present embodiment is not limited to this example. For example, a part of the function of the generation device 100 may be provided in the distribution server 200 or other external device.
  • the configuration of the information processing system according to the present embodiment can be flexibly modified according to specifications and operations.
  • FIG. 16 is a block diagram illustrating a functional configuration example of the generation apparatus 100 according to the present embodiment.
  • the generation apparatus 100 according to the present embodiment includes a generation unit 110, a control unit 120, a communication unit 130, and a storage unit 140.
  • the generation unit 110 performs processing related to images and audio, and generates a content file and a metadata file. As shown in FIG. 16, the generation unit 110 has functions as an image stream encoding unit 111, an audio stream encoding unit 112, a content file generation unit 113, and a metadata file generation unit 114.
  • the image stream encoding unit 111 receives image signals from a plurality of viewpoints (multi-viewpoint image signals) and shooting parameters (for example, shooting-related information) from the storage unit 140 in the other device or the generation device 100 via the communication unit 130. ) Is obtained and the encoding process is performed. The image stream encoding unit 111 outputs the image stream and shooting parameters to the content file generation unit 113.
  • the audio stream encoding unit 112 acquires an object audio signal and position information of each object audio from another device or the storage unit 140 in the generation device 100 via the communication unit 130, and performs an encoding process.
  • the audio stream encoding unit 112 outputs the audio stream to the content file generation unit 113.
  • the content file generation unit 113 generates a content file based on the information provided from the image stream encoding unit 111 and the audio stream encoding unit 112.
  • the content file generated by the content file generation unit 113 may be, for example, an MP4 file.
  • an MP4 file may be an ISO Base Media File Format (ISOBMFF) file defined by ISO / IEC 14496-12.
  • the MP4 file generated by the content file generation unit 113 may be a segment file that is data in units that can be distributed by MPEG-DASH.
  • the content file generation unit 113 outputs the generated MP4 file to the communication unit 130 and the metadata file generation unit 114.
  • the metadata file generation unit 114 generates a metadata file including the above-described multi-view zoom switching information based on the MP4 file generated by the content file generation unit 113. Further, the metadata file generated by the metadata file generation unit 114 may be an MPD (Media Presentation Description) file defined by ISO / IEC 23009-1.
  • MPD Media Presentation Description
  • the metadata file generation unit 114 may store multi-viewpoint zoom switching information in the metadata file.
  • the metadata file generation unit 114 according to the present embodiment stores the information in the metadata file in association with each viewpoint included in a plurality of viewpoints (viewpoints of multi-view content) that can switch the multi-view zoom switching information. Good. An example of storing the multi-view zoom switching information in the metadata file will be described later.
  • the metadata file generation unit 114 outputs the generated MPD file to the communication unit 130.
  • the control unit 120 has a functional configuration that comprehensively controls the overall processing performed by the generation apparatus 100.
  • the control content of the control unit 120 is not particularly limited.
  • the control unit 120 may control processing generally performed in a general-purpose computer, a PC, a tablet PC, or the like.
  • control unit 120 When the generation apparatus 100 is used at the time of content production, the control unit 120 generates the position information of the object audio data according to a user operation via an operation unit (not shown), or the multi-viewpoint described with reference to FIG. You may perform the process concerning the production
  • the communication unit 130 performs various communications with the distribution server 200.
  • the communication unit 130 transmits the MP4 file and the MPD file generated by the generation unit 110 to the distribution server 200.
  • the communication content of the communication part 130 is not limited to these.
  • the storage unit 140 is a functional configuration that stores various types of information.
  • the storage unit 140 stores multi-viewpoint zoom switching information, multi-viewpoint image signals, audio object signals, MP4 files, MPD files, etc., and stores programs or parameters used by each functional configuration of the generation apparatus 100. To do. Note that the information stored in the storage unit 140 is not limited to these.
  • FIG. 17 is a block diagram illustrating a functional configuration example of the distribution server 200 according to the present embodiment.
  • the distribution server 200 according to the present embodiment includes a control unit 220, a communication unit 230, and a storage unit 240.
  • the control unit 220 is a functional configuration that comprehensively controls the overall processing performed by the distribution server 200, and performs control related to streaming distribution by MPEG-DASH.
  • the control unit 220 causes various information stored in the storage unit 240 to be transmitted to the client 300 via the communication unit 230 based on request information from the client 300 received via the communication unit 230.
  • the control content of the control part 220 is not specifically limited.
  • the control unit 120 may control processing generally performed in a general-purpose computer, a PC, a tablet PC, or the like.
  • the communication unit 230 performs various communications with the distribution server 200 and the client 300. For example, the communication unit 230 receives an MP4 file and an MPD file from the distribution server 200. In addition, the communication unit 230 transmits an MP4 file or an MPD file corresponding to the request information received from the client 300 to the client 300 under the control of the control unit 220. In addition, the communication content of the communication part 230 is not limited to these.
  • the storage unit 240 is a functional configuration that stores various types of information.
  • the storage unit 240 stores an MP4 file, an MPD file, or the like received from the generation apparatus 100, or stores a program or parameter used by each functional configuration of the distribution server 200. Note that the information stored in the storage unit 240 is not limited to these.
  • FIG. 18 is a block diagram illustrating a functional configuration example of the client 300 according to the present embodiment.
  • the client 300 according to the present embodiment includes a processing unit 310, a control unit 340, a communication unit 350, and a storage unit 360.
  • the processing unit 310 has a functional configuration for performing processing related to content reproduction.
  • the processing unit 310 may perform the processing related to the viewpoint switching described with reference to FIG.
  • the processing unit 310 has functions as a metadata file acquisition unit 311, a metadata file processing unit 312, a segment file selection control unit 313, an image processing unit 320, and an audio processing unit 330. .
  • the metadata file acquisition unit 311 has a functional configuration for acquiring an MPD file (metadata file) from the distribution server 200 prior to content reproduction. More specifically, the metadata file acquisition unit 311 generates MPD file request information based on a user operation or the like, and transmits the request information to the distribution server 200 via the communication unit 350, whereby the MPD file Is acquired from the distribution server 200. The metadata file acquisition unit 311 provides the acquired MPD file to the metadata file processing unit 312.
  • the metadata file acquired by the metadata file acquisition unit 311 includes multi-viewpoint zoom switching information.
  • the metadata file processing unit 312 has a functional configuration that performs processing related to the MPD file provided from the metadata file acquisition unit 311. More specifically, the metadata file processing unit 312 recognizes information (for example, URL) necessary for acquiring an MP4 file or the like based on the analysis of the MPD file. The metadata file processing unit 312 provides these pieces of information to the segment file selection control unit 313.
  • the segment file selection control unit 313 has a functional configuration for selecting a segment file (MP4 file) to be acquired. More specifically, the segment file selection control unit 313 selects a segment file to be acquired based on the various information provided from the metadata file processing unit 312. For example, the segment file selection control unit 313 according to the present embodiment may select the segment file of the switching destination viewpoint when the viewpoint is switched by the viewpoint switching process described with reference to FIG.
  • the image processing unit 320 acquires a segment file based on the information selected by the segment file selection control unit 313 and performs image processing.
  • FIG. 19 is a diagram illustrating a functional configuration example of the image processing unit 320.
  • the image processing unit 320 has functions as a segment file acquisition unit 321, a file parsing unit 323, an image decoding unit 325, and a rendering unit 327.
  • the segment file acquisition unit 321 generates request information based on the information selected by the segment file selection control unit 313, and transmits the request information to the distribution server 200, thereby acquiring an appropriate segment file (MP4 file) from the distribution server 200.
  • the file parsing unit 323 analyzes the acquired segment file, divides it into system layer metadata and an image stream, and provides them to the image decoding unit 325.
  • the image decoding unit 325 performs decoding processing on the system layer metadata and the image stream, and provides the image position metadata and the decoded image signal to the rendering unit 327.
  • the rendering unit 327 determines a cutout range based on information provided from the output device 400, cuts out an image, and generates a display image.
  • the display image cut out by the rendering unit 327 is transmitted to the output device 400 via the communication unit 350 and displayed on the output device 400.
  • the audio processing unit 330 acquires a segment file based on the information selected by the segment file selection control unit 313, and performs audio processing.
  • FIG. 20 is a diagram illustrating a functional configuration example of the audio processing unit 330.
  • the audio processing unit 330 has functions as a segment file acquisition unit 331, a file parsing unit 333, an audio decoding unit 335, an object position correction unit 337, and an object rendering unit 339.
  • the segment file acquisition unit 331 generates request information based on the information selected by the segment file selection control unit 313, and transmits the request information to the distribution server 200, thereby acquiring an appropriate segment file (MP4 file) from the distribution server 200.
  • the file parsing unit 333 analyzes the acquired segment file, divides it into system layer metadata and an audio stream, and provides them to the audio decoding unit 335.
  • the audio decoding unit 335 performs decoding processing on the system layer metadata and the audio stream, and provides the audio position metadata indicating the position of the audio object and the decoded audio signal to the object position correction unit 337.
  • the object position correction unit 337 corrects the position of the audio object based on the object position metadata and the above-described multi-viewpoint zoom switching information, and the object rendering unit receives the corrected audio object position information and the decoded audio signal. 329.
  • the object rendering unit 339 renders a plurality of audio objects based on the corrected audio object position information and the decoded audio signal.
  • the audio data synthesized by the object rendering unit 339 is transmitted to the output device 400 via the communication unit 350 and output from the output device 400 as audio.
  • the control unit 340 has a functional configuration that comprehensively controls the overall processing performed by the client 300.
  • the control unit 340 may control various processes based on input performed by the user using an input unit (not shown) such as a mouse or a keyboard.
  • an input unit such as a mouse or a keyboard.
  • the control content of the control part 340 is not specifically limited.
  • the control unit 340 may control processing generally performed in a general-purpose computer, PC, tablet PC, or the like.
  • the communication unit 350 performs various communications with the distribution server 200. For example, the communication unit 350 transmits request information provided from the processing unit 310 to the distribution server 200.
  • the communication unit 350 also functions as a reception unit, and receives an MPD file, an MP4 file, and the like from the distribution server 200 as a response to the request information. Note that the communication content of the communication unit 350 is not limited to these.
  • the storage unit 360 is a functional configuration that stores various types of information.
  • the storage unit 360 stores an MPD file, an MP4 file, or the like acquired from the distribution server 200, or stores a program or parameter used by each functional configuration of the client 300. Note that the information stored in the storage unit 360 is not limited to these.
  • FIG. 21 is a diagram for explaining the layer structure of an MPD file defined by ISO / IEC 23009-1.
  • the MPD file is composed of one or more periods.
  • Period meta information of data such as synchronized images and audio is stored.
  • Period stores a plurality of AdaptationSets that group stream selection ranges (Representation groups).
  • Representation stores information such as image and audio encoding speed and image size.
  • Representation stores a plurality of SegmentInfos.
  • SegmentInfo includes information related to a segment obtained by dividing a stream into a plurality of files.
  • SegmentInfo includes an initialization segmentnt indicating initialization information such as a data compression method, and a media segment indicating a video or audio segment.
  • the metadata file generation unit 114 may store multi-viewpoint zoom switching information in the above-described MPD file.
  • the metadata file generation unit 114 may store multi-viewpoint zoom switching information in the above-described AdaptationSet, for example.
  • the client 300 can acquire multi-viewpoint zoom switching information corresponding to the viewpoint during playback.
  • FIG. 22 is a diagram illustrating an example of an MPD file generated by the metadata file generation unit 114 according to the present embodiment. Note that FIG. 22 shows an example of an MPD file in multi-viewpoint content composed of three viewpoints. Also, in the MPD file shown in FIG. 22, elements and attributes that are not related to the features of this embodiment are omitted.
  • EssentialProperty defined as the extended property of the AdaptationSet is stored in the AdaptationSet as multi-viewpoint zoom switching information.
  • SupplementalProperty may be used instead of EssentialProperty. In such a case, description can be similarly made by replacing EssentialProperty with SupplementalProperty.
  • schemeIdUri of EssentialProperty is defined as a name indicating the multi-view zoom switching information, and the value of the above-described multi-view zoom switching information is set in the value of EssentialProperty.
  • schemeIdUri is urn: mpeg: dash: multi-view_zoom_switch_parameters: 2018 ”, and value is the above-described multi-view zoom switching information“ (image type information), (shooting related information), ” (View angle information at the time of content production), (Number of switching destination viewpoint information), (Switching destination viewpoint information 1), (Switching destination viewpoint information 2), ... ".
  • the character string indicated by schemeIdUri is an example and is not limited to such an example.
  • the MPD file generated by the metadata file generation unit 114 according to the present embodiment is not limited to the example shown in FIG.
  • the metadata file generation unit 114 according to the present embodiment may store multi-viewpoint zoom switching information in the above-described Period.
  • the multi-view zoom switching information may be stored in the Period in association with each AdaptationSet included in the Period.
  • the client 300 can acquire multi-viewpoint zoom switching information corresponding to the viewpoint during playback.
  • FIG. 23 is a diagram illustrating another example of the MPD file generated by the metadata file generation unit 114 according to the present embodiment.
  • FIG. 23 shows an example of an MPD file in multi-viewpoint content composed of three viewpoints as in FIG. Also, in the MPD file shown in FIG. 23, elements and attributes that are not related to the features of the present embodiment are omitted.
  • EssentialProperty defined as the extended property of Period is stored in the Period as multi-viewpoint zoom switching information by the number of AdaptationSets.
  • SupplementalProperty may be used instead of EssentialProperty. In such a case, description can be similarly made by replacing EssentialProperty with SupplementalProperty.
  • the schemeIdUri of the EssentialProperty shown in FIG. 23 is the same as the schemeIdUri described with reference to FIG.
  • the value of EssentialProperty includes the above-described multi-viewpoint zoom switching information, similar to the value described with reference to FIG.
  • the value shown in FIG. 23 includes the value of AdaptationSet_id at the head in addition to the value described with reference to FIG. 22, and is associated with each AdaptationSet.
  • the multi-view zoom switching information on the third line is associated with the AdaptationSet on the sixth to eighth lines
  • the multi-view zoom switching information on the fourth line is associated with the Adaptation Set on the ninth to eleventh lines.
  • the multi-view zoom switching information on the 5th row is associated with the AdaptationSet on the 12th to 14th rows.
  • the metadata file generation unit 114 may generate another metadata file different from the MPD file in addition to the MPD file, and store the multi-viewpoint zoom switching information in the metadata file. Then, the metadata file generation unit 114 may store access information for accessing the metadata file storing the multi-viewpoint zoom switching information in the MPD file.
  • An MPD file generated by the metadata file generation unit 114 in this modification will be described with reference to FIG.
  • FIG. 24 is a diagram illustrating an example of an MPD file generated by the metadata file generation unit 114 according to the present modification. Note that FIG. 24 shows an example of an MPD file in multi-viewpoint content composed of three viewpoints as in FIG. In the MPD file shown in FIG. 24, elements and attributes that are not related to the features of the present embodiment are omitted.
  • EssentialProperty defined as the extended property of the AdaptationSet is stored in the AdaptationSet as access information.
  • SupplementalProperty may be used instead of EssentialProperty. In such a case, description can be similarly made by replacing EssentialProperty with SupplementalProperty.
  • the schemeIdUri of the EssentialProperty shown in FIG. 24 is the same as the schemeIdUri described with reference to FIG.
  • the value of EssentialProperty includes access information for accessing a metadata file storing multi-viewpoint zoom switching information.
  • POS-100.txt indicated in the value of the fourth line in FIG. 24 may be a metadata file including the following contents including multi-viewpoint zoom switching information. 2D, 60, 40, (0,0,0), (10,20,30), 90, 60, 2, (0, 540, 960, 540), 3, 2, (960, 0, 960, 540 ), twenty three
  • POS-200.txt indicated in the value of the eighth line in FIG. 24 may include a multi-viewpoint zoom switching information and may be a metadata file having the following contents. 2D, 60, 40, (10, 10, 0), (10, 20, 30), 90, 60, 1, (0, 540, 960, 540), 4, 4
  • POS-300.txt shown in the value of the 12th line in FIG. 24 may include a multi-view zoom switching information and may be a metadata file having the following contents. 2D, 60, 40, (-10, 20, 0), (20, 30, 40), 45, 30, 1, (960, 0, 960, 540), 2, 5
  • the access information is stored in the AdaptationSet has been described. However, as in the example described with reference to FIG. 23, the access information may be associated with each AdaptationSet and stored in the Period.
  • FIG. 25 is a flowchart showing an example of the operation of the generation apparatus 100 according to the present embodiment. Note that FIG. 25 mainly illustrates operations related to generation of a metadata file by the metadata file generation unit 114 of the generation device 100, and the generation device 100 may naturally perform operations not shown in FIG.
  • the metadata file generation unit 114 first acquires the parameters of the image stream and the audio stream (S302), and then the metadata file generation unit 114, based on the parameters of the image stream and the audio stream. , Pepresentation is configured (S304). Subsequently, the metadata file generation unit 114 configures a Period (S308). Then, the metadata file generation unit 114 stores the multi-viewpoint zoom switching information as described above, and generates an MPD file (S310).
  • the processing for generating the multi-view zoom switching information described with reference to FIG. 13 is performed to generate the multi-view zoom switching information. It's okay.
  • FIG. 26 is a flowchart showing an example of the operation of the client 300 according to the present embodiment. Naturally, the client 300 may perform an operation not shown in FIG.
  • the processing unit 310 acquires an MPD file (S402). Subsequently, the processing unit 310 acquires information of AdaptationSet corresponding to the designated viewpoint (S404).
  • the designated viewpoint may be, for example, an initial viewpoint, a viewpoint selected by the user, or specified by the viewpoint switching process described with reference to FIG. It may be a switching destination viewpoint.
  • the processing unit 310 acquires transmission band information (S406), and selects a representation that can be transmitted within the bit rate range of the transmission path (S408). Further, the processing unit 310 acquires the MP4 file that constitutes the representation selected in step S408 from the distribution server 200 (S410). Then, the processing unit 310 starts decoding the elementary stream included in the MP4 file acquired in step S410 (S412).
  • Second Embodiment >> Heretofore, the first embodiment of the present disclosure has been described. In the first embodiment described above, an example in which streaming delivery is performed by MPEG-DASH has been described. However, in the following, as a second embodiment, a content file is provided via a storage device instead of streaming delivery. An example will be described. In the present embodiment, the above-described multi-view zoom switching information is stored in the content file.
  • FIG. 27 is a block diagram illustrating a functional configuration example of the generation apparatus 600 according to the second embodiment of the present disclosure.
  • the generation apparatus 600 according to the present embodiment is an information processing apparatus that generates a content file.
  • the generation device 600 can be connected to the storage device 700.
  • the storage device 700 stores the content file generated by the generation device 600.
  • the storage device 700 may be a portable storage, for example.
  • the generation apparatus 600 includes a generation unit 610, a control unit 620, a communication unit 630, and a storage unit 640.
  • the generation unit 610 performs processing related to images and audio, and generates a content file. As illustrated in FIG. 27, the generation unit 610 has functions as an image stream encoding unit 611, an audio stream encoding unit 612, and a content file generation unit 613. Note that the functions of the image stream encoding unit 611 and the audio stream encoding unit 612 may be the same as the functions of the image stream encoding unit 111 and the audio stream encoding unit 112 described with reference to FIG.
  • the content file generation unit 613 generates a content file based on the information provided from the image stream encoding unit 611 and the audio stream encoding unit 612.
  • the content file generated by the content file generation unit 613 according to the present embodiment may be an MP4 file (ISOBMFF file) as in the first embodiment described above.
  • the content file generation unit 613 stores multi-viewpoint zoom switching information in the header of the content file.
  • the content file generation unit 613 according to the present embodiment associates each viewpoint included in a plurality of viewpoints (viewpoints of multi-view content) with which multi-view zoom switching information can be switched, and performs multi-view zoom switching in the header. Information may be stored. Note that an example of storing the multi-view zoom switching information in the content file header will be described later.
  • the MP4 file generated by the content file generation unit 613 is output and stored in the storage device 700 shown in FIG.
  • the control unit 620 has a functional configuration that comprehensively controls the overall processing performed by the generation apparatus 600.
  • the control content of the control unit 620 is not particularly limited.
  • the control unit 620 may control processing generally performed in a general-purpose computer, PC, tablet PC, or the like.
  • the communication unit 630 performs various communications. For example, the communication unit 630 transmits the MP4 file generated by the generation unit 110 to the storage device 700. Note that the communication content of the communication unit 630 is not limited to these.
  • the storage unit 640 is a functional configuration that stores various types of information.
  • the storage unit 640 stores multi-viewpoint zoom switching information, multi-viewpoint image signals, audio object signals, MP4 files, and the like, and stores programs or parameters used by each functional configuration of the generation apparatus 600. .
  • the information stored in the storage unit 640 is not limited to these.
  • FIG. 28 is a block diagram illustrating a functional configuration example of the playback device 800 according to the second embodiment of the present disclosure.
  • a playback device 800 according to the present embodiment is an information processing device that is connected to the storage device 700 and acquires and plays back an MP4 file stored in the storage device 700.
  • the playback device 800 is connected to the output device 400, displays a display image on the output device 400, and outputs audio.
  • the playback device 800 may be connected to the output device 400 of the installation type or the output device 400 worn by the user, or is integrated with the output device 400, similarly to the client 300 shown in FIG. May be.
  • the playback apparatus 800 includes a processing unit 810, a control unit 840, a communication unit 850, and a storage unit 860.
  • the processing unit 810 has a functional configuration that performs processing related to content reproduction.
  • the processing unit 810 may perform processing related to viewpoint switching described with reference to FIG.
  • the processing unit 810 functions as an image processing unit 820 and an audio processing unit 830.
  • the image processing unit 820 acquires the MP4 file stored in the storage device 700 and performs image processing. As shown in FIG. 28, the image processing unit 820 has functions as a file acquisition unit 821, a file parsing unit 823, an image decoding unit 825, and a rendering unit 827.
  • the file acquisition unit 821 functions as a content file acquisition unit, acquires an MP4 file from the storage device 700, and provides the MP4 file to the file parsing unit 823.
  • the MP4 file acquired by the file acquisition unit 821 includes the multi-view zoom switching information as described above, and the multi-view zoom switching information is stored in the header.
  • the file parsing unit 823 analyzes the acquired MP4 file, divides it into system layer metadata (header) and an image stream, and provides them to the image decoding unit 825.
  • the functions of the image decoding unit 825 and the rendering unit 827 are the same as the functions of the image decoding unit 325 and the rendering unit 327 described with reference to FIG.
  • the audio processing unit 830 acquires the MP4 file stored in the storage device 700 and performs audio processing. As illustrated in FIG. 28, the audio processing unit 830 has functions as a file acquisition unit 831, an audio decoding unit 835, an object position correction unit 837, and an object rendering unit 839.
  • the file acquisition unit 831 functions as a content file acquisition unit, acquires an MP4 file from the storage device 700, and provides the MP4 file to the file parsing unit 833.
  • the MP4 file acquired by the file acquisition unit 831 includes the multi-view zoom switching information as described above, and the multi-view zoom switching information is stored in the header.
  • the file parsing unit 833 analyzes the acquired MP4 file, divides it into system layer metadata (header) and an audio stream, and provides them to the audio decoding unit 835.
  • the functions of the audio decoding unit 835, the object position correction unit 837, and the object rendering unit 839 are the same as the functions of the audio decoding unit 335, the object position correction unit 337, and the object rendering unit 339 described with reference to FIG. Therefore, the description is omitted.
  • the control unit 840 has a functional configuration that comprehensively controls the overall processing performed by the playback device 800.
  • the control unit 840 may control various processes based on input performed by the user using an input unit (not shown) such as a mouse or a keyboard.
  • an input unit such as a mouse or a keyboard.
  • the control content of the control part 840 is not specifically limited.
  • the control unit 340 may control processing generally performed in a general-purpose computer, PC, tablet PC, or the like.
  • the communication unit 850 performs various communications.
  • the communication unit 850 also functions as a reception unit, and receives MP4 files and the like from the storage device 700. Note that the communication content of the communication unit 850 is not limited to these.
  • the storage unit 860 is a functional configuration that stores various types of information.
  • the storage unit 860 stores an MP4 file or the like acquired from the storage device 700, or stores a program or parameter used by each functional configuration of the playback device 800. Note that the information stored in the storage unit 860 is not limited to these.
  • the generation apparatus 600 and the playback apparatus 800 have been described.
  • the example in which the MP4 file is provided via the storage device 700 has been described above, the present invention is not limited to this example.
  • the generation device 600 and the playback device 800 may be connected via a communication network or directly, and an MP4 file is transmitted from the generation device 600 to the playback device 800 and stored in the storage unit 860 of the playback device 800. It may be stored.
  • Example of storing multi-view zoom switching information in content file> The configuration example of this embodiment has been described above. Next, an example of storing the multi-viewpoint zoom switching information in the header of the content file generated by the content file generation unit 613 in this embodiment will be described.
  • the content file generated by the content file generation unit 613 may be an MP4 file.
  • the MP4 file is an ISOBMFF file defined by ISO / IEC 14496-12
  • the moov box (system layer metadata) is included in the MP4 file as the MP4 file header.
  • FIG. 29 is a diagram illustrating a box structure of a moov box in an ISOBMFF file.
  • the content file generation unit 613 may store multi-viewpoint zoom switching information in, for example, the udta box in the moov box shown in FIG.
  • the udta box can store arbitrary user data, is included in the track box as shown in FIG. 29, and becomes static metadata for the video track.
  • the area in which the multi-view zoom switching information is stored is not limited to the udta box at the hierarchical position shown in FIG. For example, it is possible to change the version of an existing box to provide an extension area inside (the extension area is also defined as one box, for example), and store multi-viewpoint zoom switching information in the extension area.
  • FIG. 30 is a diagram illustrating an example of the udta box when the multi-viewpoint zoom switching information is stored in the udta box.
  • the video_type on the seventh line in FIG. 30 corresponds to the image type information shown in FIG.
  • the parameters in the 8th to 15th lines shown in FIG. 30 correspond to the shooting related information shown in FIG.
  • the parameters in the 16th to 17th lines shown in FIG. 30 correspond to the view angle information at the time of content production shown in FIG.
  • number_of_destination_views on the 18th line shown in FIG. 30 corresponds to the number of switching destination viewpoint information shown in FIG.
  • the parameters in the 20th to 25th lines shown in FIG. 30 correspond to the switching destination viewpoint information shown in FIG. 9, and are stored in association with the viewpoint for each viewpoint.
  • a new metadata track indicating the multi-view zoom switching information may be defined using a track having a structure having a time axis.
  • the definition method of metadata track in ISOBMFF is described in ISO / IEC 14496-12, and the metadata track according to the present embodiment may be defined in a form compliant with ISO / IEC 14496-12. Such an embodiment will be described with reference to FIGS.
  • the content file generation unit 613 stores multi-viewpoint zoom switching information as a timed metadata track in the mdat box. In the present embodiment, the content file generation unit 613 can also store multi-viewpoint zoom switching information in the moov box.
  • FIG. 31 is an explanatory diagram for explaining the metadata track.
  • a time range in which the multi-view zoom switching information does not change is defined as one sample, and one sample is associated with one multi-view_zoom_switch_parameters (multi-view zoom switching information).
  • the time during which one multi-view_zoom_switch_parameters is valid can be represented by sample_duration.
  • the information in the stbl box shown in FIG. 29 may be used as it is.
  • multi-view_zoom_switch_parametersMD1 is stored in the mdat box as the multi-view zoom switching information applied to the video frame in the range VF1.
  • multi-view_zoom_switch_parameters MD2 is stored in the mdat box as multi-view zoom switching information applied to the video frame in the range VF2 shown in FIG.
  • the content file generation unit 613 can also store multi-viewpoint zoom switching information in the moov box.
  • FIG. 32 is a diagram for explaining the multi-view zoom switching information stored in the moov box by the content file generation unit 613 in the present embodiment.
  • the content file generation unit 613 may define sample as shown in FIG. 32 and store it in the moov box.
  • Each parameter shown in FIG. 32 is the same as the parameter indicating the multi-viewpoint zoom switching information described with reference to FIG.
  • FIG. 33 is a flowchart showing an example of the operation of the generating apparatus 600 according to the present embodiment. Note that FIG. 33 mainly shows operations related to generation of an MP4 file by the generation unit 610 of the generation device 600, and the generation device 600 may naturally perform operations not shown in FIG.
  • the generation unit 610 first acquires the parameters of the image stream and the audio stream (S502), and then the generation unit 610 performs compression encoding of the image stream and the audio stream (S504). Subsequently, the content file generation unit 613 stores the encoded stream obtained in step S504 in the mdat box (S506). Then, the content file generation unit 613 configures a moov box related to the encoded stream stored in the mdat box (S508). Then, the content file generation unit 613 generates the MP4 file by storing the multi-viewpoint zoom switching information in the moov box or the mdat box as described above (S510).
  • step S510 the processing for generating the multi-view zoom switching information described with reference to FIG. 13 is performed to generate the multi-view zoom switching information. It's okay.
  • FIG. 34 is a flowchart showing an example of the operation of the playback apparatus 800 according to the present embodiment.
  • the playback apparatus 800 may perform an operation not shown in FIG.
  • the processing unit 810 acquires an MP4 file corresponding to the designated viewpoint (S602).
  • the designated viewpoint may be, for example, an initial viewpoint, a viewpoint selected by the user, or specified by the viewpoint switching process described with reference to FIG. It may be a switching destination viewpoint.
  • the processing unit 810 starts decoding the elementary stream included in the MP4 file acquired in step S602.
  • FIG. 35 is a block diagram illustrating an example of a hardware configuration of the information processing apparatus according to the embodiment of the present disclosure. 35 can realize, for example, the generation device 100, the distribution server 200, the client 300, the generation device 600, and the reproduction device 800 illustrated in FIGS. 15 to 18, FIG. 26, and FIG. Information processing by the generation device 100, the distribution server 200, the client 300, the generation device 600, and the playback device 800 according to the embodiment of the present disclosure is realized by cooperation of software and hardware described below.
  • the information processing apparatus 900 includes a CPU (Central Processing Unit) 901, a ROM (Read Only Memory) 902, a RAM (Random Access Memory) 903, and a host bus 904a.
  • the information processing apparatus 900 includes a bridge 904, an external bus 904b, an interface 905, an input device 906, an output device 907, a storage device 908, a drive 909, a connection port 911, a communication device 913, and a sensor 915.
  • the information processing apparatus 900 may include a processing circuit such as a DSP or an ASIC in place of or in addition to the CPU 901.
  • the CPU 901 functions as an arithmetic processing unit and a control unit, and controls the overall operation in the information processing apparatus 900 according to various programs. Further, the CPU 901 may be a microprocessor.
  • the ROM 902 stores programs used by the CPU 901, calculation parameters, and the like.
  • the RAM 903 temporarily stores programs used in the execution of the CPU 901, parameters that change as appropriate during the execution, and the like.
  • the CPU 901 can form, for example, the generation unit 110, the control unit 120, the control unit 220, the processing unit 310, the control unit 340, the generation unit 610, the control unit 620, the processing unit 810, and the control unit 840.
  • the CPU 901, ROM 902, and RAM 903 are connected to each other by a host bus 904a including a CPU bus.
  • the host bus 904 a is connected to an external bus 904 b such as a PCI (Peripheral Component Interconnect / Interface) bus via a bridge 904.
  • an external bus 904 b such as a PCI (Peripheral Component Interconnect / Interface) bus
  • PCI Peripheral Component Interconnect / Interface
  • the host bus 904a, the bridge 904, and the external bus 904b do not necessarily have to be configured separately, and these functions may be mounted on one bus.
  • the input device 906 is realized by a device in which information is input by the user, such as a mouse, a keyboard, a touch panel, a button, a microphone, a switch, and a lever.
  • the input device 906 may be, for example, a remote control device using infrared rays or other radio waves, or may be an external connection device such as a mobile phone or a PDA that supports the operation of the information processing device 900.
  • the input device 906 may include, for example, an input control circuit that generates an input signal based on information input by the user using the above-described input means and outputs the input signal to the CPU 901.
  • a user of the information processing apparatus 900 can input various data and instruct a processing operation to the information processing apparatus 900 by operating the input device 906.
  • the output device 907 is formed of a device that can notify the user of the acquired information visually or audibly. Examples of such devices include CRT display devices, liquid crystal display devices, plasma display devices, EL display devices, display devices such as lamps, audio output devices such as speakers and headphones, printer devices, and the like.
  • the output device 907 outputs results obtained by various processes performed by the information processing device 900.
  • the display device visually displays results obtained by various processes performed by the information processing device 900 in various formats such as text, images, tables, and graphs.
  • the audio output device converts an audio signal composed of reproduced audio data, acoustic data, and the like into an analog signal and outputs it aurally.
  • the storage device 908 is a data storage device formed as an example of a storage unit of the information processing device 900.
  • the storage apparatus 908 is realized by, for example, a magnetic storage device such as an HDD, a semiconductor storage device, an optical storage device, a magneto-optical storage device, or the like.
  • the storage device 908 may include a storage medium, a recording device that records data on the storage medium, a reading device that reads data from the storage medium, a deletion device that deletes data recorded on the storage medium, and the like.
  • the storage device 908 stores programs executed by the CPU 901, various data, various data acquired from the outside, and the like.
  • the storage device 908 can form, for example, a storage unit 140, a storage unit 240, a storage unit 360, a storage unit 640, and a storage unit 860.
  • the drive 909 is a storage medium reader / writer, and is built in or externally attached to the information processing apparatus 900.
  • the drive 909 reads information recorded on a removable storage medium such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory, and outputs the information to the RAM 903.
  • the drive 909 can also write information to a removable storage medium.
  • connection port 911 is an interface connected to an external device, and is a connection port with an external device capable of transmitting data by USB (Universal Serial Bus), for example.
  • USB Universal Serial Bus
  • the communication device 913 is a communication interface formed by a communication device or the like for connecting to the network 920, for example.
  • the communication device 913 is, for example, a communication card for wired or wireless LAN (Local Area Network), LTE (Long Term Evolution), Bluetooth (registered trademark), or WUSB (Wireless USB).
  • the communication device 913 may be a router for optical communication, a router for ADSL (Asymmetric Digital Subscriber Line), a modem for various communication, or the like.
  • the communication device 913 can transmit and receive signals and the like according to a predetermined protocol such as TCP / IP, for example, with the Internet and other communication devices.
  • the communication device 913 can form, for example, the communication unit 130, the communication unit 230, the communication unit 350, the communication unit 630, and the communication unit 850.
  • the sensor 915 is various sensors such as an acceleration sensor, a gyro sensor, a geomagnetic sensor, an optical sensor, a sound sensor, a distance measuring sensor, and a force sensor.
  • the sensor 915 acquires information on the state of the information processing apparatus 900 itself, such as the posture and movement speed of the information processing apparatus 900, and information on the surrounding environment of the information processing apparatus 900, such as brightness and noise around the information processing apparatus 900.
  • Sensor 915 may also include a GPS sensor that receives GPS signals and measures the latitude, longitude, and altitude of the device.
  • the network 920 is a wired or wireless transmission path for information transmitted from a device connected to the network 920.
  • the network 920 may include a public line network such as the Internet, a telephone line network, and a satellite communication network, various LANs including the Ethernet (registered trademark), a wide area network (WAN), and the like.
  • the network 920 may include a dedicated line network such as an IP-VPN (Internet Protocol-Virtual Private Network).
  • IP-VPN Internet Protocol-Virtual Private Network
  • a computer program for realizing each function of the information processing apparatus 900 according to the embodiment of the present disclosure as described above can be produced and mounted on a PC or the like.
  • a computer-readable recording medium storing such a computer program can be provided.
  • the recording medium is, for example, a magnetic disk, an optical disk, a magneto-optical disk, a flash memory, or the like.
  • the above computer program may be distributed via a network, for example, without using a recording medium.
  • multi-viewpoint zoom viewpoint switching information for performing viewpoint switching between a plurality of viewpoints is used for content reproduction. It is possible to audibly reduce the user's uncomfortable feeling. For example, as described above, based on the multi-viewpoint zoom viewpoint switching information, it is possible to display a display image in accordance with the direction and size of the subject before and after the viewpoint switching. Further, as described above, it is possible to reduce the user's uncomfortable feeling by correcting the position of the audio object in the viewpoint switching based on the multi-viewpoint zoom viewpoint switching information.
  • the multi-viewpoint zoom switching information is stored in the metadata file, but the present technology is not limited to such an example.
  • the MP4 file is replaced with or in addition to the MPD file as described in the second embodiment.
  • Multi-viewpoint zoom switching information may be stored in the header.
  • the multi-view zoom switching information may be stored in the mdat box as a timed metadata track as in the embodiment described with reference to FIGS. .
  • the multi-view zoom switching information is provided to the device that plays the content. Is possible.
  • whether or not the multi-viewpoint zoom switching information changes according to the playback time can be determined by, for example, the content creator. Accordingly, where to store the multi-viewpoint zoom switching information may be determined based on the content creator's operation or information provided by the content creator.
  • An information processing apparatus comprising: a content file generation unit that generates viewpoint files by storing viewpoint switching information for correcting the position of an audio object in viewpoint switching between a plurality of viewpoints in a header of the content file.
  • the content file is an ISO Base Media File Format file, The header includes a moov box in the content file;
  • the information processing apparatus according to (1) wherein the viewpoint switching information is stored in the moov box.
  • the information processing apparatus stores the viewpoint switching information in the moov box and also stores the viewpoint switching information in an mdat box in the content file.
  • the viewpoint switching information is stored in the content file in association with each viewpoint included in the plurality of viewpoints.
  • the viewpoint switching information includes switching destination viewpoint information regarding a switching destination viewpoint that can be switched from a viewpoint associated with the viewpoint switching information.
  • the switching destination viewpoint information includes threshold information related to a threshold value for switching from the viewpoint associated with the viewpoint switching information to the switching destination viewpoint.
  • the viewpoint switching information includes imaging related information of an image related to a viewpoint associated with the viewpoint switching information.
  • the shooting related information includes shooting position information regarding a position of a camera that has shot the image.
  • the shooting-related information includes shooting direction information related to a direction of a camera that has shot the image.
  • the shooting related information includes shooting field angle information related to a field angle of a camera that has captured the image.
  • the viewpoint switching information includes reference angle-of-view information related to the angle of view of the screen referred to when determining the position information of the audio object related to the viewpoint associated with the viewpoint switching information.
  • the information processing apparatus according to any one of (13) An information processing method executed by an information processing apparatus, comprising: generating viewpoint content information by storing viewpoint switching information for correcting the position of an audio object in viewpoint switching between a plurality of viewpoints in a header of the content file; . (14) On the computer, A program for realizing a function of generating content files by storing viewpoint switching information for correcting the position of an audio object in a viewpoint switching between a plurality of viewpoints in a header of the content file.
  • An information processing apparatus comprising a content file acquisition unit that acquires a content file in which viewpoint switching information for correcting the position of an audio object in viewpoint switching between a plurality of viewpoints is stored in a header.
  • the content file is an ISO Base Media File Format file, The header includes a moov box in the content file;
  • the information processing apparatus according to (15), wherein the viewpoint switching information is stored in the moov box.
  • the information processing apparatus according to (16), wherein the viewpoint switching information is stored in a udta box of the moov box.
  • the information processing apparatus according to (16), wherein the viewpoint switching information is stored in the moov box and also in an mdat box in the content file.
  • the information processing apparatus according to any one of (15) to (18), wherein the viewpoint switching information is stored in the content file in association with each viewpoint included in the plurality of viewpoints.
  • the viewpoint switching information includes switching destination viewpoint information regarding a switching destination viewpoint that can be switched from a viewpoint associated with the viewpoint switching information.
  • the switching destination viewpoint information includes threshold information related to a threshold for switching from the viewpoint associated with the viewpoint switching information to the switching destination viewpoint.
  • the viewpoint switching information includes shooting related information of an image related to a viewpoint associated with the viewpoint switching information.
  • the information processing apparatus includes shooting position information related to a position of a camera that has shot the image.
  • the information processing apparatus includes shooting direction information related to a direction of a camera that has shot the image.
  • the information processing apparatus includes shooting field angle information related to a field angle of a camera that has shot the image.
  • the viewpoint switching information includes the reference angle-of-view information related to the angle of view of the screen referred to when determining the position information of the audio object related to the viewpoint associated with the viewpoint switching information. ).
  • the information processing apparatus according to any one of (27) An information processing method executed by an information processing apparatus, comprising: acquiring a content file in which viewpoint switching information for correcting a position of an audio object in viewpoint switching between a plurality of viewpoints is stored in a header. (28) On the computer, A program for realizing a function of acquiring a content file in which viewpoint switching information for correcting the position of an audio object in viewpoint switching between a plurality of viewpoints is stored in a header.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computer Security & Cryptography (AREA)
  • Controls And Circuits For Display Device (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】情報処理装置、情報処理方法、及びプログラムを提供する。 【解決手段】複数の視点間での視点切り替えにおいてオーディオオブジェクトの位置補正を行うための視点切り替え情報をコンテンツファイルのヘッダに格納して前記コンテンツファイルを生成するコンテンツファイル生成部を備える、情報処理装置。

Description

情報処理装置、方法、及びプログラム
 本開示は、情報処理装置、方法、及びプログラムに関する。
 より高臨場感なオーディオ再生を目的とし、オーディオオブジェクトごとに用意されたオーディオデータを複数伝送するための符号化技術として例えばMPEG-H 3D Audioが知られている(非特許文献1参照)。
 符号化された複数のオーディオデータは、例えば下記非特許文献2に規格定義されるISO base media file format(ISOBMFF)ファイルのようなコンテンツファイルに画像データと共に含まれて、ユーザに提供される。
ISO/IEC 23008-3:2015 Information technology - High efficiency coding and media delivery in heterogeneous environments ISO/IEC 14496-12:2014 Information technology - Coding of audio-visual objects
 一方、近年複数の視点を切り替えながら画像を表示することが可能な多視点コンテンツが普及しつつある。このような多視点コンテンツの音響再生において、視点切り替えの前後でオーディオオブジェクトの位置が整合せず、例えばユーザに違和感を与えてしまう場合があった。
 そこで、本開示では、複数の視点間での視点切り替えにおいてオーディオオブジェクトの位置補正を行うことで、ユーザの違和感を低減させることが可能な、新規かつ改良された情報処理装置、情報処理方法、及びプログラムを提案する。
 本開示によれば、複数の視点間での視点切り替えにおいてオーディオオブジェクトの位置補正を行うための視点切り替え情報をコンテンツファイルのヘッダに格納して前記コンテンツファイルを生成するコンテンツファイル生成部を備える、情報処理装置が提供される。
 また、本開示によれば、複数の視点間での視点切り替えにおいてオーディオオブジェクトの位置補正を行うための視点切り替え情報をコンテンツファイルのヘッダに格納して前記コンテンツファイルを生成することを含み、情報処理装置により実行される情報処理方法が提供される。
 また、本開示によれば、コンピュータに、複数の視点間での視点切り替えにおいてオーディオオブジェクトの位置補正を行うための視点切り替え情報をコンテンツファイルのヘッダに格納して前記コンテンツファイルを生成する機能を実現させるための、プログラムが提供される。
 以上説明したように本開示によれば、複数の視点間での視点切り替えにおいてオーディオオブジェクトの位置補正を行うことで、ユーザの違和感を低減させることが可能である。
 なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の背景を説明するための説明図である。 コンテンツの制作時と再生時で表示画角が異なる場合のオーディオオブジェクトの位置補正について説明するための説明図である。 再生時の映像のズームに追従したオーディオオブジェクトの位置補正について説明するための説明図である。 再生時の映像のズームに追従したオーディオオブジェクトの位置補正について説明するための説明図である。 視点切り替えがない場合のオーディオオブジェクトの位置補正について説明するための説明図である。 視点切り替えがある場合のオーディオオブジェクトの位置補正について説明する説明図である。 撮影画角とコンテンツ制作時の表示画角が一致しない場合のオーディオオブジェクトの位置補正について説明するための説明図である。 本技術の概要を説明するための説明図である。 多視点ズーム切り替え情報の一例を示す表である。また、図10は、多視点ズーム切り替え情報を説明するための模式図である。 多視点ズーム切り替え情報を説明するための模式図である。 多視点ズーム切り替え情報の変形例について説明するための説明図である。 多視点ズーム切り替え情報の変形例について説明するための説明図である。 コンテンツ制作時の多視点ズーム切り替え情報の生成フローの一例を示すフローチャート図である。 再生時の多視点ズーム切り替え情報を利用した視点切り替えフローの一例を示すフローチャート図である。 本開示の第1の実施形態にかかる情報処理システムのシステム構成を示す図である。 同実施形態にかかる生成装置100の機能構成例を示すブロック図である。 同実施形態にかかる配信サーバ200の機能構成例を示すブロック図である。 同実施形態にかかるクライアント300の機能構成例を示すブロック図である。 画像処理部320の機能構成例を示す図である。 オーディオ処理部330の機能構成例を示す図である。 ISO/IEC 23009-1で規格定義されるMPDファイルのレイヤ構造を説明するための図である。 同実施形態にかかるメタデータファイル生成部114が生成するMPDファイルの一例を示す図である。 同実施形態にかかるメタデータファイル生成部114が生成するMPDファイルの他の例を示す図である。 同実施形態の変形例にかかるメタデータファイル生成部114が生成するMPDファイルの一例を示す図である。 同実施形態にかかる生成装置100の動作の一例を示すフローチャート図である。 本実施形態にかかるクライアント300の動作の一例を示すフローチャート図である。 本開示の第2の実施形態にかかる生成装置600の機能構成例を示すブロック図である。 同実施形態にかかる再生装置800の機能構成例を示すブロック図である。 ISOBMFFファイルにおけるmoovボックスのボックス構造を示す図である。 多視点ズーム切り替え情報がudtaボックスに格納される場合のudtaボックスの例を示す図である。 metadata trackについて説明するための説明図である。 コンテンツファイル生成部613がmoovボックスに格納する多視点ズーム切り替え情報を説明するための図である。 同実施形態にかかる生成装置600の動作の一例を示すフローチャート図である。 同実施形態にかかる再生装置800の動作の一例を示すフローチャート図である。 ハードウェア構成の一例を示すブロック図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 また、本明細書及び図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットを付して区別する場合もある。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。
 なお、説明は以下の順序で行うものとする。
 <<1.背景>>
 <<2.本技術の原理>>
 <<3.第1の実施形態>>
 <<4.第2の実施形態>>
 <<5.ハードウェア構成例>>
 <<6.むすび>>
 <<1.背景>>
 まず、本開示の背景について説明する。
 近年、複数の視点を切り替えながら画像を表示することが可能な多視点コンテンツが普及しつつある。このような多視点コンテンツでは、各視点に対応する画像として、2次元の2D画像だけでなく、全天周カメラ等により撮影された360°全天周画像を含む場合がある。360°全天周画像を表示する場合、例えばユーザによる入力やセンシングに基づいて決定されるユーザの視聴位置と方向に基づいて、360°全天周画像から一部の範囲を切り出し、切り出した表示画像を表示することが行われている。もちろん2D画像を表示する場合であっても、2D画像から一部の範囲を切り出した表示画像を表示することは可能である。
 このような360°全天周画像と2D画像の両方を含むような多視点コンテンツを、ユーザが表示画像の切り出し範囲を変えながら視聴するユースケースについて、図1を参照しながら説明を行う。図1は、本開示の背景を説明するための説明図である。
 図1に示す例において、正距円筒図法で表現された360°全天周画像G10と、2D画像G20とが多視点コンテンツに含まれる。360°全天周画像G10と、2D画像G20とは、異なる視点で撮影された画像である。
 また、図1には、360°全天周画像G10から一部の範囲を切り出した表示画像G12が示されている。表示画像G12が示された状態において、例えばさらにズーム倍率(表示倍率)を大きくする等により、表示画像G12の一部の範囲をさらに切り出した表示画像G14を表示することも可能である。
 ところで、表示画像の画素数が表示装置の表示画素数より小さい場合、拡大処理を行って表示することになる。ここで、表示画像の画素数は、切り出し元の画素数と切り出し範囲の大きさにより決定され、360°全天周画像G10の画素数が小さい場合や、表示画像G14の切り出しにかかる範囲が小さい場合には、表示画像G14の画素数も小さくなる。かかる場合、図1に示すように表示画像G14にはボケ等の画質劣化が発生し得る。また、表示画像G14からさらにズーム倍率を大きくすると、さらなる画質劣化が発生し得る。
 ここで、表示画像G14に相当する範囲が2D画像G20に映っており、かつ2D画像G20の画素数が大きい場合、視点を切り替えることが考えられる。そして、視点を切り替えて2D画像G20を表示した後、さらにズーム倍率を大きくする等により、2D画像G20から、2D画像G20において表示画像G14に相当する範囲R1を切り出した表示画像G22を表示することができる。表示画像G22は、表示画像G14に相当する範囲を映しつつ、表示画像G14よりも画質劣化が小さいことが期待され、さらにズーム倍率を大きくした視聴にも耐え得ることが期待される。
 なお、360°全天周画像を表示する場合、画質劣化は、ズーム倍率が大きい場合だけでなく、ズーム倍率が小さい場合にも発生し得る。例えば、ズーム倍率が小さい場合、360°全天周画像から切り出した表示画像に含まれる歪みが大きく目立つ場合がある。このような場合にも、2D画像への視点切り替えは有効である。
 しかし、上記のように、表示画像G14が表示された状態から、2D画像G20へ表示を切り替えると、被写体の大きさが異なるため、ユーザに違和感を与える恐れがある。そのため、視点を切り替える際、表示画像G14から、表示画像G22へ直接的に表示を切り替えることが可能であることが望ましい。例えば、表示画像G14から、表示画像G22へ直接的に表示を切り替えるためには、2D画像G20において表示画像G14に相当する範囲R1の大きさと中心Cの位置を特定する必要がある。
 ところで、360°全天周画像の間で視点の切り替えを行う場合には、各視点の画像において、被写体が実世界と同程度に見える表示画角(ズーム倍率1の画角)を算出できるため、視点切り替えの前後で被写体の大きさを同程度に合わせることが可能である。
 しかし、2D画像の場合、撮影時にズームされた状態で収録されている可能性があるが、必ずしも撮影時の画角情報を取得できるとは限らない。その場合、撮影された画像をさらに再生側でズームイン・ズームアウトして表示することになるが、現在表示中の画像の、実世界に対する真のズーム倍率(表示画角)は、撮影時のズーム倍率と、再生時のズーム倍率を掛け合わせたものになる。撮影時のズーム倍率が不明であると、現在表示中の映像の、実世界に対する真のズーム倍率もわからない。そのため、視点切り替えを行うユースケースにおいて、切り替え前後で被写体の大きさを合わせることができなくなる。なお、かかる事象は、ズームや回転が可能な360°全天周画像と2D画像の間の視点切り替え、または複数の2D画像の間の視点切り替えにおいて発生し得る。
 視点の切り替え前後で被写体の大きさが同程度に見えるようにするためには、切り替え前の画像の表示倍率の値を取得し、その値と同じになるように切り替え後の画像の表示倍率を適切に設定する必要がある。
 ユーザが見る画像の表示倍率は、撮影時の画角、表示画像の元画像からの切り出し画角、及び再生時の表示装置の表示画角、の三つのパラメータで決定され得る。また、ユーザが最終的に見る画像の、実世界に対する真の表示倍率(表示画角)は、以下のように算出され得る。
 真の表示画角=(撮影時の画角)×(表示画像の元画像からの切り出し画角)×(表示装置の表示画角)
 360°全天周画像の場合、撮影時の画角は360°である。また、切り出し画角は、切り出し範囲のピクセル数により、画角何度に対応するかが算出可能である。また、表示装置の表示画角の情報も再生環境で決まるため、最終的な表示倍率を算出することが可能である。
 一方、2D映像では、一般に撮影時の画角の情報が得られないか、制作段階で失われてしまうことが多い。また、切り出し画角は元映像に対する相対位置として求めることは可能だが、実世界における絶対値として画角何度に相当するかわからない。そのため、最終的な表示倍率を求めることが困難である。
 また、360°全天周画像と2D画像の間の視点切り替えにおいて、被写体の方向を合わせる必要がある。そのため2D映像が撮影されたときの方向情報も必要である。なお、OMAF(Omnidirectional Media Application Format)規格に準拠した360°全天周映像であれば方向情報がメタデータとして記録されているが、2D画像については方向情報が得られない場合が多い。
 以上のように、ズームを伴う360°全天周画像と2D画像の間の視点切り替えにおいて、被写体の大きさを合わせることを実現するには、2D画像が撮影されたときの画角情報と方向情報が必要となる。
 ところで、多視点コンテンツの再生においては、画像のズームや視点切り替えに応じて、音の音源(以下、オーディオオブジェクトと呼ぶ場合がある)の位置も適切に変化させることが望ましい。ここで、上記非特許文献1に記載されるMPEG-H 3D Audioでは、映像のズームに対応してオーディオオブジェクトの位置を補正する仕組みが規定されている。以下、かかる仕組みについて説明する。
 MPEG-H 3D Audioでは、以下の2つのオーディオオブジェクトの位置補正機能が提供されている。
 (第1の補正機能):画音の位置合わせを行ったコンテンツ制作時の表示画角と、再生時の表示画角が異なる場合に、オーディオオブジェクトの位置を補正する。
 (第2の補正機能):再生時の映像のズームに追従して、オーディオオブジェクトの位置を補正する。
 まず、上記の第1の補正機能について、図2を参照して説明する。図2は、コンテンツの制作時と再生時で表示画角が異なる場合のオーディオオブジェクトの位置補正について説明するための説明図である。なお、球面上の映像の画角と平面ディスプレイ上の画角は厳密には異なるが、以下では説明をわかりやすくするために近似して同一のものとして扱う。
 図2に示す例では、コンテンツ制作時と再生時の表示画角が示されている。図2に示す例では、コンテンツ制作時の表示画角は60°であり、再生時の表示画角は120°である。
 図2に示すように、コンテンツ制作者は、例えば撮影画角60°の画像を表示画角60°で表示しながら、オーディオオブジェクトの位置を決定する。このとき、撮影画角と表示画角は同一であるため、ズーム倍率は1である。なお、対象となる画像が360°全天周画像であれば、表示画角に合わせて画像の切り出し画角(撮影画角)を決められるので、容易にズーム倍率1での表示が可能である。
 このように制作されたコンテンツを、表示画角120°で再生する例が図2に示されている。表示画像の撮影画角が60°である場合、ユーザが見る画像は実質的に拡大された画像になる。この拡大画像にオーディオオブジェクトの位置を合わせて補正するための情報とAPIが、MPEG-H 3D Audioでは規定されている。
 続いて、上記の第2の補正機能について、図3、図4を参照して説明する。図3、図4
は、再生時の映像のズームに追従したオーディオオブジェクトの位置補正について説明するための説明図である。図3、図4に示す360°全天周画像G10の水平画素数は3840ピクセルであり、これが画角360°に相当する。また、360°全天周画像G10の撮影時のズーム倍率は1とする。また、360°全天周画像G10に対応してオーディオオブジェクトの位置が設定されているものとする。また、簡単のため、図3、図4に示す例において、コンテンツ制作時と再生時の表示画角は同一であり、かつ図2を参照して説明したような制作時のオーディオオブジェクトの位置補正は不要であり、再生時のズーム表示に起因する補正のみを行うものとする。
 図3には、ズーム倍率1倍で再生を行う例が示されている。ここで、再生時の表示画角を67.5°とすると、ズーム倍率1倍で表示を行うためには、図3に示すように360°全天周画像G10のうち、撮影画角67.5°に相当する720ピクセルの範囲を切り出して表示すればよい。このように、ズーム倍率1倍で再生を行う場合、オーディオオブジェクトの位置補正は不要である。
 図4には、ズーム倍率2倍で再生を行う例が示されている。ここで、再生時の表示画角を67.5°とすると、ズーム倍率2倍で表示を行うためには、図4に示すように360°全天周画像G10のうち、撮影画角33.75°に相当する360ピクセルの範囲を切り出して表示すればよい。ここで、画像のズーム倍率に合わせてオーディオオブジェクトの位置補正を行うための情報とAPIが、MPEG-H 3D Audioでは規定されている。
 以上説明したような2つのオーディオオブジェクトの位置補正機能がMPEG-H 3D Audioでは提供されている。しかし、上述したMPEG-H 3D Audioで提供されるオーディオオブジェクトの位置補正機能では、ズームを伴う視点切り替え時のオーディオオブジェクトの位置補正を適切に行うことはできない場合がある。
 ここで、ズームを伴う視点切り替えを想定したユースケースにおいて必要となるオーディオオブジェクトの位置補正について、図5~図7を参照して説明を行う。
 図5は、視点切り替えがない場合のオーディオオブジェクトの位置補正について説明するための説明図である。図5に示すように2D画像G20の撮影時の画角は撮影画角θである。ただし、図5に示す例では、撮影画角θの情報はコンテンツ制作時、及び再生時には得られないものとする。
 図5に示す例において、コンテンツ制作時には、表示画角90°であり、2D画像G20をそのままズーム倍率1倍で表示するものとする。ここで、コンテンツ制作時には撮影画角θが得られないため、実世界に対する真の表示倍率は不明である。
 図5に示す例において、再生時には、表示画角60°であり、例えば図5に示す範囲R2を切り出して、ズーム倍率2倍で表示画像G24を表示するものとする。ここで、再生時においても撮影画角θが得られないため、実世界に対する真の表示倍率は不明である。しかし、同一の視点の画像を表示している場合には、真の表示倍率が不明であっても、上述したMPEG-H 3D Audioで提供されるオーディオオブジェクトの位置補正機能を用いてオーディオオブジェクトの位置を補正することが可能である。そのため、画像と音の相対的な位置関係を維持して再生を行うことができる。
 図6は、視点切り替えがある場合のオーディオオブジェクトの位置補正について説明する説明図である。図6に示す例では、異なる視点で撮影された360°全天周画像と2D画像の間で視点切り替えが行われ得る。
 図6に示す例では、2D画像の再生時には、図5に示した例と同様、表示画角60°であり、ズーム倍率2倍で2D画像から切り出して得られる表示画像G24が表示されるものとする。また、図5に示した例と同様に、上述したように、撮影画角θが得られないものとし、実世界に対する真の表示倍率は不明である。
 また、図6に示す例において、360°全天周画像に視点切り替えを行うことを考える。表示画角は変化しないため、表示画角60°である。360°全天周画像再生時に、ズーム倍率2倍を維持して表示しようとすると、例えば360°全天周画像G10から切り出し画角30°で範囲R3を切り出した表示画像G14が表示され得る。ここで、360°全天周画像再生時のズーム倍率は実世界に対する真の表示倍率でもあり、実世界に対する真の表示倍率は2倍である。
 しかし、上述したように、2D画像再生時の実世界に対する真の表示倍率は不明であり、上記のような視点切り替えでは、2D画像再生時の実世界に対する真の表示倍率と360°全天周画像再生時の実世界に対する真の表示倍率は一致するとは限らない。そのため、上記のような視点切り替えでは、被写体の大きさが合わない。
 また、オーディオオブジェクトの位置についても視点切り替えの前後で不整合が生じ、ユーザに違和感を与え得る。したがって、視点切り替えの前後で、被写体の大きさを合わせると共に、オーディオオブジェクトの位置についても補正を行うことが望ましい。
 図7は、撮影画角とコンテンツ制作時の表示画角が一致しない場合のオーディオオブジェクトの位置補正について説明するための説明図である。
 図7に示す例において、コンテンツ制作時には、表示画角80°であり、2D画像G20をそのままズーム倍率1倍で表示するものとする。ここで、コンテンツ制作時には撮影画角が不明であるものとする。したがって、撮影画角とコンテンツ制作時の表示画角が一致するとは限らない。撮影画角が不明であるため、実世界に対する真の表示倍率は不明であるが、実世界に対する真の表示倍率が1倍ではないズーム倍率の画像を基準にオーディオオブジェクトの位置が決定された恐れがある。
 また、図7に示す例において、再生時には、表示画角60°であり、ズーム倍率2倍で表示するものとする。また再生時においても撮影画角が不明であるものとする。したがって、実世界に対する真の表示倍率は不明である。
 また、図7には、再生時にズーム倍率2倍を維持したまま、切り出し範囲を移動させた例が示されている。図7には、2D画像G20の範囲R2を切り出した表示画像G24が表示される例と、2D画像G20の範囲R4を切り出した表示画像G26が表示される例が示されている。
 ところで、上述したように、実世界に対する真の表示倍率が1倍ではないズーム倍率の画像を基準にオーディオオブジェクトの位置が決定された場合、再生時に表示される表示画像G24、表示画像G24の実世界に対する回転角は不明である。したがって、切り出し範囲の移動に対応して移動したオーディオオブジェクトの実世界に対する移動角も不明である。
 しかし、表示画像G24を表示した状態から、表示画像G26を表示した状態へ移動する際、図5を参照して説明したように、MPEG-H 3D Audioで提供されるオーディオオブジェクトの位置補正機能を用いてオーディオオブジェクトの位置を補正することが可能である。このように、同一の視点の画像であれば、実世界に対する移動角が不明であっても、オーディオオブジェクトの位置補正が可能である。しかし、他の視点へ切り替えた場合には、実世界に対する回転角が不明ではオーディオオブジェクトの位置補正を行うことが困難である。その結果、視点の切り替え前後で音の位置が整合せず、ユーザに違和感を与える恐れがあった。
 <<2.本技術の原理>>
 そこで、上記事情を一着眼点にして、本開示にかかる各実施形態を創作するに至った。以下に説明する各実施形態によれば、複数の視点間での視点切り替えにおいてオーディオオブジェクトの位置補正を行うことで、ユーザの違和感を低減させることが可能である。以下では、本開示の各実施形態に共通する、本開示にかかる技術(以下、本技術とも呼ぶ)の基本的な原理について説明を行う。
  <<2-1.本技術の概要>>
図8は、本技術の概要を説明するための説明図である。図8には、表示画像G12、2D画像G20、及び2D画像G30が示されている。表示画像G12は、図1を参照して説明したように、360°全天周画像から切り出された画像であってよい。ここで、表示画像G12の切り出しにかかる360°全天周画像、2D画像G20、及び2D画像G30は、それぞれ異なる視点で撮影された画像である。
 ここで、表示画像G12が表示された状態から、表示画像G12の範囲R5を切り出した表示画像G16が表示されると、画質劣化が発生し得る。そこで、2D画像G20の視点へ視点切り替えを行うことを考える。このとき、本技術では、視点切り替え後に、2D画像G20の全体を表示することなく、2D画像G20における表示画像G16に相当する範囲R6を自動的に特定することで、被写体の大きさが維持された表示画像G24を表示する。さらに、本技術では、2D画像G20の視点から2D画像G30の視点へ切り替えする際にも、被写体の大きさを維持する。図8に示される例では、表示画像G24から2D画像G30の視点へ切り替える際、2D画像G30の全体を表示することなく、2D画像G30における表示画像G24に相当する範囲R7を特定することで、被写体の大きさが維持された表示画像G32を表示する。かかる構成により、ユーザの視覚に与える違和感を低減することが可能である。
 さらに、本技術では、上記の視点切り替えにおいて、オーディオオブジェクトの位置補正を行い、視点切り替えに応じた音源の位置で再生を行う。かかる構成により、ユーザの聴覚に与える違和感を低減することが可能である。
 図8を参照して説明した効果を実現するため、本技術では、コンテンツ制作時に上述した視点切り替えを行うための情報を用意し、当該情報をコンテンツファイル生成時、及び再生時にも共有する。なお、以下では、かかる視点切り替えを行うための情報を、多視点ズーム切り替え情報、あるいは単に視点切り替え情報と呼ぶ。多視点ズーム切り替え情報は、複数の視点間での視点切り替えにおいて被写体の大きさを維持して表示するための情報である。また、多視点ズーム切り替え情報は、複数の視点間での視点切り替えにおいてオーディオオブジェクトの位置補正を行うための情報でもある。以下、多視点ズーム切り替え情報について説明する。
  <<2-2.多視点ズーム切り替え情報>>
 図9、図10を参照して多視点ズーム切り替え情報の一例を説明する。図9は、多視点ズーム切り替え情報の一例を示す表である。また、図10は、多視点ズーム切り替え情報を説明するための模式図である。
 図9に示されるように、多視点ズーム切り替え情報は、画像タイプ情報、撮影関連情報、コンテンツ制作時の画角情報、切り替え先視点情報の数、及び切り替え先視点情報を含んでよい。図9に示した多視点ズーム切り替え情報は例えば多視点コンテンツの視点に含まれる各視点に対応付けられて用意されてよい。図9では、図10に示した視点VPに対応付けられた多視点ズーム切り替え情報が値の例として示されている。
 画像タイプ情報は、多視点ズーム切り替え情報に対応付けられた視点にかかる画像のタイプを示す情報であり、例えば、2D画像か、360°全天周画像か、その他か、等であり得る。
 撮影関連情報、多視点ズーム切り替え情報に対応付けられた視点にかかる画像の撮影時の情報である。例えば、撮影関連情報は、画像を撮影したカメラの位置に関する撮影位置情報を含む。また、撮影関連情報は、画像を撮影したカメラの方向に関する撮影方向情報を含む。また、撮影関連情報は、画像を撮影したカメラの画角(水平画角、垂直画角)に関する撮影画角情報を含む。
 コンテンツ制作時の画角情報は、コンテンツ制作時の表示画角(水平画角、及び垂直画角)の情報である。なお、コンテンツ制作時の画角情報は、視点切り替え情報に対応付けられた視点にかかるオーディオオブジェクトの位置情報を決定する際に参照されたスクリーンの画角に関する参照画角情報でもある。また、コンテンツ制作時の画角情報は、MPEG-H 3D Audioにおけるmae_ProductionScreenSizeData()相当の情報であってもよい。
 上述した撮影関連情報、及びコンテンツ制作時の画角情報を用いることで、視点切り替えにおいて被写体の大きさを維持した表示が可能であると共に、オーディオオブジェクトの位置補正を行うことが可能となる。
 切り替え先視点情報は、多視点ズーム切り替え情報に対応付けられた視点から切り替え可能な切り替え先視点に関する情報である。図9に示すように、多視点ズーム切り替え情報は、以降に並ぶ切り替え先視点情報の数を含み、図10に示す視点VP1は、視点VP2と視点VP3の2つの視点へ切り替え可能である。
 切り替え先視点情報は、例えば、切り替え先視点へ切り替えるための情報であってよい。図9に示す例では、切り替え先視点情報は、視点切り替えの対象となるリージョンに関する情報(左上のx座標, 左上のy座標, 水平幅, 垂直幅)と、切り替えの閾値に関する閾値情報と、切り替え先の視点識別情報とを含む。
 例えば、図10に示す例で、視点VP1から視点VP2へ切り替えるためのリージョンはリージョンR11である。なお、視点VP1のリージョンR11は、VP2のリージョンR21に対応する。また、図10に示す例で、視点VP1から視点VP2へ切り替えるためのリージョンはリージョンR12である。なお、視点VP1のリージョンR12は、VP2のリージョンR32に対応する。
 閾値情報は、例えば最大の表示倍率の閾値の情報であってもよい。例えば、視点VP1のリージョンR11において、表示倍率が3倍以上となると、視点VP2へ視点切り替えが行われる。また、視点VP1のリージョンR12において、表示倍率が2倍以上となると、視点VP3へ視点切り替えが行われる。
 以上、図9、図10を参照して多視点ズーム切り替え情報の一例について説明した。ただし、多視点ズーム切り替え情報に含まれる情報は上述した例に限定されるものではない。以下に、多視点ズーム切り替え情報のいくつかの変形例を説明する。図11、図12はかかる変形例について説明するための説明図である。
 例えば、切り替え先視点情報は、多段的に設定されてもよい。また、切り替え先視点情報は、視点間が相互に切り替え可能に設定されてもよい。例えば、視点VP1と視点VP2が相互に切り替え可能であり、視点VP1と視点VP3が相互に切り替え可能であるように設定されてもよい。
 また、切り替え先視点情報は、視点間を異なる経路で行き来することが可能なように設定されてもよい。例えば、視点VP1から視点VP2へ切り替え可能であり、視点VP2から視点VP3へ切り替え可能であり、そして視点VP3から視点VP1へ切り替え可能であってもよい。
 また、切り替え先視点情報は、視点間が相互に切り替え可能である場合に、切り替えの方向によって閾値情報を異ならせることにより、ヒステリシスを設けてもよい。例えば、視点VP1から視点VP2への閾値が3倍であり、視点VP2から視点VP1への閾値が2倍であるように閾値情報が設定されてもよい。かかる構成により、頻繁な視点切り替えが発生し難くなり、ユーザに与える違和感がより軽減される。
 また、切り替え先視点情報におけるリージョンは重複していてもよい。図11に示す例では、視点VP4から視点VP5、または視点VP6へ切り替え可能である。ここで、視点VP4から視点VP6のリージョンR61へ切り替えるための視点VP4におけるリージョンR41は、視点VP4から視点VP5のリージョンR52へ切り替えるための視点VP4におけるリージョンR42を含んでおり、リージョンが重複している。
 また、切り替え先視点情報に含まれる閾値情報は、最大の表示倍率だけでなく、最小の表示倍率の情報であってもよい。例えば、図11に示す例では、視点VP4よりも視点VP6の方が引きの視点であるため、視点VP4のリージョンR41から視点VP6のリージョンR61への切り替えにかかる閾値情報は最小の表示倍率の情報であってもよい。かかる構成により、その視点においてどのような表示倍率の範囲で表示させたいか、また、その表示倍率を超えた場合には視点切り替えを行わせたい、というコンテンツ制作者の意図を再生側へ伝えることが可能となる。
 また、切り替え先視点がないリージョンにおいても、最大の表示倍率または最小の表示倍率が設定されてもよい。かかる場合には、最大の表示倍率または最小の表示倍率でズーム変化が止められてもよい。
 また、切り替え先視点にかかる画像が2D画像の場合、切り替え先視点情報に、切り替え直後に表示するデフォルトの初期表示範囲の情報を含めてもよい。後述するように、切り替え先視点における表示倍率等を算出することは可能であるが、コンテンツ制作者が意図的にデフォルトの表示する範囲を切り替え先視点ごとに設定可能であってもよい。例えば、図12に示す例では、視点VP7のリージョンR71から視点VP8に切り替える場合、被写体が切り替え前と同程度の大きさとなる切り出し範囲はリージョンR82であるが、初期表示範囲であるリージョンR81が表示されてもよい。なお、切り替え先視点情報が初期表示範囲の情報を含む場合、切り替え先視点情報は、上述したリージョンの情報、閾値情報、視点識別情報に加え、初期表示範囲に対応する切り出し中心と表示倍率の情報を含んでもよい。
 図13は、コンテンツ制作時の多視点ズーム切り替え情報の生成フローの一例を示すフローチャート図である。まず、図13に示す多視点ズーム切り替え情報の生成は、例えばコンテンツ制作時に、コンテンツ制作者が本開示の各実施形態におけるコンテンツ制作用の装置を操作することで、多視点コンテンツに含まれる視点ごとに実行され得る。
 まず、画像タイプが設定されて画像タイプ情報が付与される(S102)。続いて、撮影時のカメラの位置、方向、画角が設定されて、撮影関連情報が付与される(S104)。なお、ステップS104において、撮影関連情報は、撮影時のカメラ位置、方向、ズーム値や、同時に撮影していた360°全天周画像など参照して設定されてよい。
 続いて、コンテンツ制作時の画角が設定されて、コンテンツ制作時の画角情報が付与される(S106)。上述したように、コンテンツ制作時の画角情報は、オーディオオブジェクトの位置を決定する際に参照していたスクリーンサイズ(スクリーンの表示画角)である。例えば、ズームによる位置ずれの影響を無くすため、コンテンツ制作時は画像を切り出しせずにフルスクリーン表示されてもよい。
 続いて、切り替え先視点情報が設定される(S108)。コンテンツ制作者は、各視点に対応する画像内にリージョンを設定し、視点切り替えが発生する表示倍率の閾値や、視点切り替え先の識別情報を設定する。
 以上、コンテンツ制作時の多視点ズーム切り替え情報の生成フローについて説明した。生成された多視点ズーム切り替え情報は、後述するようにコンテンツファイル、あるいはメタデータファイルに含まれて、本開示の各実施形態において再生を行う装置へ提供される。以下では、図14を参照して、再生時の多視点ズーム切り替え情報を利用した視点切り替えフローについて説明する。図14は、再生時の多視点ズーム切り替え情報を利用した視点切り替えフローの一例を示すフローチャート図である。
 まず、再生に用いられる視聴スクリーンの情報が取得される(S202)。なお、視聴スクリーンの情報は、視聴位置からの表示画角であってよく、再生環境によって一意に決定され得る。
 続いて、現在表示中の画像の視点にかかる多視点ズーム切り替え情報が取得される(S204)。多視点ズーム切り替え情報は、後述するようにメタデータファイル、あるいはコンテンツファイルに格納される。本開示の各実施形態における多視点ズーム切り替え情報の取得方法については後述する。
 続いて、表示画像の切り出し範囲、表示画像の方向、及び画角の情報が算出される(S208)。なお、表示画像の切り出し範囲の情報は、例えば切り出し範囲の中心位置とサイズの情報を含んでもよい。
 続いて、ステップS208で算出された表示画像の切り出し範囲が、多視点ズーム切り替え情報に含まれる切り替え先視点情報のいずれかのリージョンに含まれるか否かが判定される(S210)。表示画像の切り出し範囲がいずれのリージョンにも含まれない場合(S210においてNO)、視点切り替えは行われず、フローは終了する。
 続いて、表示画像の表示倍率が算出される(S210)。例えば、切り出し前の画像のサイズと、表示画像の切り出し範囲の情報に基づいて表示画像の表示倍率が算出され得る。続いて、表示画像の表示倍率が切り替え先視点情報に含まれる表示倍率の閾値と比較される(S212)。図14に示す例では、閾値情報は最大の表示倍率を示す。表示画像の表示倍率が閾値以下である場合(S212においてNO)、視点切り替えは行われず、フローは終了する。
 一方、表示画像の表示倍率が閾値より大きい場合(S212においてYES)、切り替え先視点情報により示される切り替え先視点への視点切り替えが開始される(S214)。切り替え前の表示画像の方向と画角の情報、及び多視点ズーム切り替え情報に含まれる撮影関連情報、及びコンテンツ制作時の画角情報に基づいて、切り替え先視点における表示画像の切り出し位置と画角が算出される(S216)。
 そして、ステップS216において算出された切り出し位置と画角の情報に基づいて、切り替え先視点における表示画像が切り出されて表示される(S218)。また、ステップS216において算出された切り出し位置と画角の情報に基づいて、オーディオオブジェクトの位置が補正されて、オーディオ出力される(S220)。
 以上、本開示の各実施形態に共通する、本技術の基本的な原理について説明した。続いて、以下では本開示の各実施形態についてより具体的に説明を行う。
 <<3.第1の実施形態>>
  <3-1.構成例>
 (システム構成)
 図15は、本開示の第1の実施形態にかかる情報処理システムのシステム構成を示す図である。図15に示す本実施形態にかかる情報処理システムは、多視点コンテンツをストリーミング配信するシステムであり、例えばISO/IEC 23009-1に規格定義されたMPEG-DASHによりストリーミング配信を行ってもよい。図15に示すように、本実施形態にかかる情報処理システムは、生成装置100、配信サーバ200、クライアント300、出力装置400を含む。配信サーバ200とクライアント300とは通信網500によって互いに接続されている。
 生成装置100は、MPEG-DASHによるストリーミング配信に適合したコンテンツファイルとメタデータファイルを生成する情報処理装置である。なお、本実施形態にかかる生成装置100はコンテンツ制作(オーディオオブジェクトの位置決定)に用いられてもよいし、あるいはコンテンツ制作用の他の装置から画像信号やオーディオ信号、オーディオオブジェクトの位置情報を受け取ってもよい。生成装置100の構成については図16を参照して後述する。
 配信サーバ200は、HTTPサーバとして機能し、MPEG-DASHによるストリーミング配信を行う情報処理装置である。例えば、配信サーバ200は、MPEG-DASHに基づき、生成装置100により生成されたコンテンツファイルとメタデータファイルのクライアント300へのストリーミング配信を行う。配信サーバ200の構成については図17を参照して後述する。
 クライアント300は、生成装置100により生成されたコンテンツファイルとメタデータファイルを配信サーバ200から受信し、再生を行う情報処理装置である。図15では、クライアント300の例として、設置型の出力装置400Aに接続されたクライアント300A、ユーザに装着される出力装置400Bに接続されたクライアント300B、及び出力装置400Cとしての機能も有する端末であるクライアント300Cが示されている。クライアント300の構成については図18~図20を参照して後述する。
 出力装置400は、クライアント300の再生制御により、表示画像を表示し、オーディオ出力を行う装置である。図15では、出力装置400の例として、設置型の出力装置400A、ユーザに装着される出力装置400B、及びクライアント300Cとしての機能も有する端末である出力装置400Cが示されている。
 出力装置400Aは、例えばテレビなどであってもよい。ユーザは、出力装置400Aに接続されるコントローラ等を介して、ズーム、回転等の操作を行うことが可能であってよく、かかる操作の情報が出力装置400Aからクライアント300Aへ送信され得る。
 また、出力装置400Bは、ユーザの頭部に装着されるHMD(Head Mounted Display)であってもよい。出力装置400Bは、装着したユーザの頭部の位置や方向(姿勢)等の情報を取得するためのセンサを有し、かかる情報が出力装置400Bからクライアント300Bへ送信され得る。
 また、出力装置400Cは、スマートフォンやタブレットなどの可動の表示端末であってよく、例えばユーザが出力装置400C手に持って動かしたときに位置や方向(姿勢)等の情報を取得するためのセンサを有する。
 以上、本実施形態にかかる情報処理システムのシステム構成例について説明した。なお、図15を参照して説明した上記の構成はあくまで一例であり、本実施形態にかかる情報処理システムの構成はかかる例に限定されない。例えば、生成装置100の機能の一部は、配信サーバ200またはその他の外部装置に備えられてもよい。本実施形態にかかる情報処理システムの構成は、仕様や運用に応じて柔軟に変形可能である。
 (生成装置の機能構成)
 図16は、本実施形態にかかる生成装置100の機能構成例を示すブロック図である。図16に示すように、本実施形態にかかる生成装置100は、生成部110、制御部120、通信部130、及び記憶部140を備える。
 生成部110は、画像、及びオーディオに関する処理を行い、コンテンツファイルとメタデータファイルを生成する。図16に示すように、生成部110は、画像ストリームエンコード部111、オーディオストリームエンコード部112、コンテンツファイル生成部113、及びメタデータファイル生成部114としての機能を有する。
 画像ストリームエンコード部111は、通信部130を介して他の装置、あるいは生成装置100内の記憶部140から複数の視点の画像信号(多視点画像信号)、及び撮影時のパラメータ(例えば撮影関連情報)を取得し、符号化処理を行う。画像ストリームエンコード部111は、画像ストリームと撮影時のパラメータをコンテンツファイル生成部113へ出力する。
 オーディオストリームエンコード部112は、通信部130を介して他の装置、あるいは生成装置100内の記憶部140からオブジェクトオーディオ信号、及び各オブジェクトオーディオの位置情報を取得し、符号化処理を行う。オーディオストリームエンコード部112は、オーディオストリームをコンテンツファイル生成部113へ出力する。
 コンテンツファイル生成部113は、画像ストリームエンコード部111とオーディオストリームエンコード部112から提供された情報に基づき、コンテンツファイルを生成する。コンテンツファイル生成部113が生成するコンテンツファイルは、例えばMP4ファイルであってもよく、以下ではコンテンツファイル生成部113がMP4ファイルを生成する例について主に説明する。なお、本明細書において、MP4ファイルはISO/IEC 14496-12で規格定義されるISO Base Media File Format(ISOBMFF)ファイルであってよい。
 なお、コンテンツファイル生成部113が生成するMP4ファイルはMPEG-DASHにより配信可能な単位のデータであるセグメントファイルであってもよい。
 コンテンツファイル生成部113は、生成したMP4ファイルを通信部130、及びメタデータファイル生成部114へ出力する。
 メタデータファイル生成部114は、コンテンツファイル生成部113により生成されたMP4ファイルに基づき、上述した多視点ズーム切り替え情報を含むメタデータファイルを生成する。また、メタデータファイル生成部114が生成するメタデータファイルは、ISO/IEC 23009-1で規格定義されるMPD(Media Presentation Description)ファイルであってもよい。
 また、本実施形態にかかるメタデータファイル生成部114は、メタデータファイルに多視点ズーム切り替え情報を格納してもよい。本実施形態にかかるメタデータファイル生成部114は、多視点ズーム切り替え情報を切り替えられ得る複数の視点(多視点コンテンツの視点)に含まれる各視点に対応付けて、メタデータファイルに格納してもよい。なお、メタデータファイルへの多視点ズーム切り替え情報の格納例については後述する。
 メタデータファイル生成部114は、生成したMPDファイルを通信部130へ出力する。
 制御部120は、生成装置100が行う処理全般を統括的に制御する機能構成である。例えば、なお、制御部120の制御内容は特に限定されない。例えば、制御部120は、汎用コンピュータ、PC、タブレットPC等において一般的に行われる処理を制御してもよい。
 また、生成装置100がコンテンツ制作時に用いられる場合、制御部120は、不図示の操作部を介したユーザ操作に従い、オブジェクトオーディオデータの位置情報の生成や、図13を参照して説明した多視点ズーム切り替え情報の生成にかかる処理を行ってもよい。
 通信部130は、配信サーバ200との各種通信を行う。例えば、通信部130は生成部110により生成されたMP4ファイルとMPDファイルを配信サーバ200へ送信する。なお、通信部130の通信内容はこれらに限定されない。
 記憶部140は、各種情報を記憶する機能構成である。例えば、記憶部140は、多視点ズーム切り替え情報、多視点画像信号、オーディオオブジェクト信号、MP4ファイル、MPDファイル等を記憶したり、生成装置100の各機能構成によって使用されるプログラムまたはパラメータ等を記憶したりする。なお、記憶部140が記憶する情報はこれらに限定されない。
 (配信サーバの機能構成)
 図17は、本実施形態にかかる配信サーバ200の機能構成例を示すブロック図である。図17に示すように、本実施形態にかかる配信サーバ200は、制御部220、通信部230、及び記憶部240を備える。
 制御部220は、配信サーバ200が行う処理全般を統括的に制御する機能構成であり、MPEG-DASHによるストリーミング配信にかかる制御を行う。例えば、制御部220は、通信部230を介して受信されるクライアント300からの要求情報等に基づいて、記憶部240に記憶された各種情報を通信部230を介してクライアント300へ送信させる。なお、制御部220の制御内容は特に限定されない。例えば、制御部120は、汎用コンピュータ、PC、タブレットPC等において一般的に行われる処理を制御してもよい。
 通信部230は、配信サーバ200、及びクライアント300との各種通信を行う。例えば、通信部230は配信サーバ200からMP4ファイルとMPDファイルを受信する。また、通信部230は、制御部220の制御に従い、クライアント300から受信した要求情報に応じたMP4ファイルあるいはMPDファイルをクライアント300へ送信する。なお、通信部230の通信内容はこれらに限定されない。
 記憶部240は、各種情報を記憶する機能構成である。例えば、記憶部240は、生成装置100から受信したMP4ファイル、MPDファイル等を記憶したり、配信サーバ200の各機能構成によって使用されるプログラムまたはパラメータ等を記憶したりする。なお、記憶部240が記憶する情報はこれらに限定されない。
 (クライアントの機能構成)
 図18は、本実施形態にかかるクライアント300の機能構成例を示すブロック図である。図18に示すように、本実施形態にかかるクライアント300は、処理部310、制御部340、通信部350、及び記憶部360を備える。
 処理部310は、コンテンツの再生に関する処理を行う機能構成である。処理部310は、例えば図14を参照して説明した視点切り替えにかかる処理を行ってもよい。図18に示すように、処理部310は、メタデータファイル取得部311と、メタデータファイル処理部312と、セグメントファイル選択制御部313と、画像処理部320、オーディオ処理部330としての機能を有する。
 メタデータファイル取得部311は、コンテンツの再生に先立って配信サーバ200からMPDファイル(メタデータファイル)を取得する機能構成である。より具体的には、メタデータファイル取得部311は、ユーザ操作等に基づいてMPDファイルの要求情報を生成し、通信部350を介して当該要求情報を配信サーバ200へ送信することで、MPDファイルを配信サーバ200から取得する。メタデータファイル取得部311は、取得したMPDファイルをメタデータファイル処理部312に提供する。
 なお、上述したように、本実施形態にかかるメタデータファイル取得部311が取得するメタデータファイルは、多視点ズーム切り替え情報を含む。
 メタデータファイル処理部312は、メタデータファイル取得部311から提供されるMPDファイルに関する処理を行う機能構成である。より具体的には、メタデータファイル処理部312は、MPDファイルの解析に基づき、MP4ファイル等の取得に必要な情報(例えば、URL等)を認識する。メタデータファイル処理部312は、これらの情報をセグメントファイル選択制御部313に提供する。
 セグメントファイル選択制御部313は、取得対象となるセグメントファイル(MP4ファイル)を選択する機能構成である。より具体的には、セグメントファイル選択制御部313は、メタデータファイル処理部312から提供される上記の各種情報に基づいて取得対象となるセグメントファイルを選択する。例えば、本実施形態にかかるセグメントファイル選択制御部313は、図14を参照して説明した視点切り替え処理により視点の切り替えが発生した場合、切り替え先視点のセグメントファイルを選択してもよい。
 画像処理部320は、セグメントファイル選択制御部313により選択された情報に基づいて、セグメントファイルを取得し、画像処理を行う。図19は、画像処理部320の機能構成例を示す図である。
 図19に示されるように、画像処理部320は、セグメントファイル取得部321、ファイルパース部323、画像復号部325、及びレンダリング部327としての機能を有する。セグメントファイル取得部321は、セグメントファイル選択制御部313により選択された情報に基づいて要求情報を生成し、配信サーバ200へ送信することで、配信サーバ200から適切なセグメントファイル(MP4ファイル)を取得してファイルパース部323へ提供する。ファイルパース部323は取得されたセグメントファイルを解析し、システム層メタデータと画像ストリームに分けて画像復号部325へ提供する。画像復号部325は、システム層メタデータと画像ストリームに対する復号処理を行い、画像位置メタデータと、復号画像信号とをレンダリング部327へ提供する。レンダリング部327は、出力装置400から提供される情報に基づいて、切り出し範囲を決定し、画像の切り出しを行って表示画像を生成する。レンダリング部327により切り出された表示画像は、通信部350を介して出力装置400へ送信され、出力装置400に表示される。
 オーディオ処理部330は、セグメントファイル選択制御部313により選択された情報に基づいて、セグメントファイルを取得し、オーディオ処理を行う。図20は、オーディオ処理部330の機能構成例を示す図である。
 図20に示されるように、オーディオ処理部330は、セグメントファイル取得部331、ファイルパース部333、オーディオ復号部335、オブジェクト位置補正部337、及びオブジェクトレンダリング部339としての機能を有する。セグメントファイル取得部331は、セグメントファイル選択制御部313により選択された情報に基づいて要求情報を生成し、配信サーバ200へ送信することで、配信サーバ200から適切なセグメントファイル(MP4ファイル)を取得してファイルパース部333へ提供する。ファイルパース部333は取得されたセグメントファイルを解析し、システム層メタデータとオーディオストリームに分けてオーディオ復号部335へ提供する。オーディオ復号部335は、システム層メタデータとオーディオストリームに対する復号処理を行い、オーディオオブジェクトの位置を示すオーディオ位置メタデータと、復号オーディオ信号とをオブジェクト位置補正部337へ提供する。オブジェクト位置補正部337は、オブジェクト位置メタデータと、上述した多視点ズーム切り替え情報とに基づいて、オーディオオブジェクトの位置の補正を行い、補正後のオーディオオブジェクトの位置情報と復号オーディオ信号をオブジェクトレンダリング部329へ提供する。オブジェクトレンダリング部339は、補正後のオーディオオブジェクトの位置情報と復号オーディオ信号に基づき、複数のオーディオオブジェクトのレンダリング処理を行う。オブジェクトレンダリング部339により合成されたオーディオデータは通信部350を介して出力装置400へ送信され、出力装置400からオーディオ出力される。
 制御部340は、クライアント300が行う処理全般を統括的に制御する機能構成である。例えば、制御部340は、ユーザによってマウス、キーボード等の入力部(不図示)を用いて行われる入力に基づいて各種処理を制御してもよい。なお、制御部340の制御内容は特に限定されない。例えば、制御部340は、汎用コンピュータ、PC、タブレットPC等において一般的に行われる処理を制御してもよい。
 通信部350は、配信サーバ200との各種通信を行う。例えば、通信部350は、処理部310から提供される要求情報を配信サーバ200へ送信する。また、通信部350は、受信部としても機能し、当該要求情報への応答としてMPDファイル、MP4ファイル等を配信サーバ200から受信する。なお、通信部350の通信内容はこれらに限定されない。
 記憶部360は、各種情報を記憶する機能構成である。例えば、記憶部360は、配信サーバ200から取得したMPDファイル、MP4ファイル等を記憶したり、クライアント300の各機能構成によって使用されるプログラムまたはパラメータ等を記憶したりする。なお、記憶部360が記憶する情報はこれらに限定されない。
  <3-2.メタデータファイルへの多視点ズーム切り替え情報の格納例>
 以上、本実施形態の構成例について説明した。続いて、本実施形態において、メタデータファイル生成部114により生成されるメタデータファイルへの多視点ズーム切り替え情報の格納例について説明する。
 まず、MPDファイルのレイヤ構造について説明する。図21は、ISO/IEC 23009-1で規格定義されるMPDファイルのレイヤ構造を説明するための図である。図21に示すように、MPDファイルは、1以上のPeriodにより構成される。Periodには、同期を取った画像やオーディオなどのデータのメタ情報が格納される。例えば、Periodは、ストリームの選択範囲(Representation群)をグルーピングするAdaptationSetを複数格納する。
 Representationには、画像やオーディオの符号化速度、画像サイズなどの情報が格納される。Representationには複数のSegmentInfoが格納される。SegmentInfoはストリームを複数のファイルに分割したセグメント関連の情報を含む。SegmentInfoには、データ圧縮方式などの初期化情報を示すInitialization segmentntと、動画や音声のセグメントを示すMedia segmentが含まれる。
 以上、MPDファイルのレイヤ構造について説明した。本実施形態にかかるメタデータファイル生成部114は、上述したMPDファイルに多視点ズーム切り替え情報を格納してもよい。
 (AdaptationSetに格納する実施例)
 上述したように、多視点ズーム切り替え情報は、視点ごとに存在するため、各視点に対応付けられてMPDファイルに格納されることが望ましい。多視点コンテンツにおいて、各視点はAdaptationSetと対応し得る。そこで、本実施形態にかかるメタデータファイル生成部114は、例えば上述したAdaptationSetに多視点ズーム切り替え情報を格納してもよい。かかる構成により、クライアント300は、再生時に視点に対応する多視点ズーム切り替え情報を取得することが可能である。
 図22は、本実施形態にかかるメタデータファイル生成部114が生成するMPDファイルの一例を示す図である。なお、図22には、3視点から構成される多視点コンテンツにおけるMPDファイルの例が示されている。また、図22に示されるMPDファイルにおいて、本実施形態の特徴と関係のないelementやattributeは省略されている。
 図22の4行目、8行目、12行目に示すように、AdaptationSetの拡張propertyとして定義されるEssentialPropertyが多視点ズーム切り替え情報としてAdaptationSetに格納される。なお、EssentialPropertyの代わりにSupplementalPropertyが用いられてもよく、かかる場合、EssentialPropertyをSupplementalPropertyに置き換えることで同様に記述可能である。
 また、図22の4行目、8行目、12行目に示すように、多視点ズーム切り替え情報を示す名称としてEssentialPropertyのschemeIdUriが定められ、EssentialPropertyのvalueに上述した多視点ズーム切り替え情報の値が羅列される。図22に示す例においてschemeIdUriは、urn:mpeg:dash:multi-view_zoom_switch_parameters:2018”である。また、valueは、上述した多視点ズーム切り替え情報を“(画像タイプ情報), (撮影関連情報), (コンテンツ制作時の画角情報), (切り替え先視点情報の数), (切り替え先視点情報1), (切り替え先視点情報2),...”のように示している。なお、図22のschemeIdUriで示す文字列は一例であってかかる例に限定されるものではない。
 また、本実施形態にかかるメタデータファイル生成部114が生成するMPDファイルは、図22に示した例に限定されない。例えば、本実施形態にかかるメタデータファイル生成部114は、上述したPeriodに多視点ズーム切り替え情報を格納してもよい。かかる場合、多視点ズーム切り替え情報を各視点と対応付けるため、多視点ズーム切り替え情報は、当該Periodに含まれる各AdaptationSetに関連付けられてPeriodに格納されてもよい。かかる構成により、クライアント300は、再生時に視点に対応する多視点ズーム切り替え情報を取得することが可能である。
 (AdaptationSetに関連付けてPeriodに格納に格納する実施例)
 図23は、本実施形態にかかるメタデータファイル生成部114が生成するMPDファイルの他の例を示す図である。なお、図23には、図22と同様に3視点から構成される多視点コンテンツにおけるMPDファイルの例が示されている。また、図23に示されるMPDファイルにおいて、本実施形態の特徴と関係のないelementやattributeは省略されている。
 図23の3~5行目に示すように、Periodの拡張propertyとして定義されるEssentialPropertyが多視点ズーム切り替え情報としてAdaptationSetの数だけまとめてPeriodに格納される。なお、EssentialPropertyの代わりにSupplementalPropertyが用いられてもよく、かかる場合、EssentialPropertyをSupplementalPropertyに置き換えることで同様に記述可能である。
 図23に示すEssentialPropertyのschemeIdUriについては、図22を参照して説明したschemeIdUriと同様であるため、説明を省略する。図23に示す例において、EssentialPropertyのvalueは、図22を参照して説明したvalueと同様に上述した多視点ズーム切り替え情報を含む。ただし、図23に示すvalueは、図22を参照して説明したvalueに加え、先頭にAdaptationSet_idの値を含み、各AdaptationSetと関連付けられている。
 例えば、図23において、3行目の多視点ズーム切り替え情報は、6~8行目のAdaptationSetと関連付けられ、4行目の多視点ズーム切り替え情報は、9~11行目のAdaptationSetと関連付けられ、5行目の多視点ズーム切り替え情報は、12~14行目のAdaptationSetと関連付けられている。
 (変形例)
 以上、本実施形態にかかるメタデータファイル生成部114によるMPDファイルへの多視点ズーム切り替え情報の格納例について説明した。ただし、本実施形態はかかる例に限定されない。
 例えば、変形例として、メタデータファイル生成部114は、MPDファイルに加え、MPDファイルとは異なる他のメタデータファイルを生成し、かかるメタデータファイルに多視点ズーム切り替え情報を格納してもよい。そして、メタデータファイル生成部114は、多視点ズーム切り替え情報を格納したメタデータファイルへアクセスするためのアクセス情報をMPDファイルに格納してもよい。かかる変形例においてメタデータファイル生成部114が生成するMPDファイルについて、図24を参照して説明する。
 図24は、本変形例にかかるメタデータファイル生成部114が生成するMPDファイルの一例を示す図である。なお、図24には、図22と同様に3視点から構成される多視点コンテンツにおけるMPDファイルの例が示されている。また、図24に示されるMPDファイルにおいて、本実施形態の特徴と関係のないelementやattributeは省略されている。
 図24の4行目、8行目、12行目に示すように、AdaptationSetの拡張propertyとして定義されるEssentialPropertyがアクセス情報としてAdaptationSetに格納される。なお、EssentialPropertyの代わりにSupplementalPropertyが用いられてもよく、かかる場合、EssentialPropertyをSupplementalPropertyに置き換えることで同様に記述可能である。
 図24に示すEssentialPropertyのschemeIdUriについては、図22を参照して説明したschemeIdUriと同様であるため、説明を省略する。図24に示す例において、EssentialPropertyのvalueは、多視点ズーム切り替え情報を格納したメタデータファイルへアクセスするためのアクセス情報を含む。
 例えば、図24の4行目のvalueに示されたPOS-100.txtは、多視点ズーム切り替え情報を含み、以下のような内容のメタデータファイルであってもよい。
2D, 60, 40, (0,0,0), (10,20,30), 90, 60, 2, (0, 540 , 960, 540), 3, 2, (960, 0, 960, 540), 2, 3
 また、図24の8行目のvalueに示されたPOS-200.txtは、多視点ズーム切り替え情報を含み、以下のような内容のメタデータファイルであってもよい。
2D, 60, 40, (10, 10, 0), (10, 20, 30), 90, 60, 1, (0, 540, 960, 540), 4, 4
 また、図24の12行目のvalueに示されたPOS-300.txtは、多視点ズーム切り替え情報を含み、以下のような内容のメタデータファイルであってもよい。
2D, 60, 40, (-10, 20, 0),(20, 30, 40), 45, 30, 1, (960, 0, 960, 540), 2, 5
 なお、図24では、アクセス情報がAdaptationSetに格納される例を説明したが、図23を参照して説明した例と同様に、アクセス情報は各AdaptationSetに関連付けられてPeriodに格納されてもよい。
  <3-3.動作例>
 以上、本実施形態においてメタデータファイル生成部114により生成されるメタデータファイルについて説明した。続いて、本実施形態にかかる動作例を説明する。
 図25は、本実施形態にかかる生成装置100の動作の一例を示すフローチャート図である。なお、図25では、主に生成装置100のメタデータファイル生成部114によるメタデータファイルの生成に関する動作について示しており、生成装置100は当然、図25に示されない動作を行ってもよい。
 図25に示すように、メタデータファイル生成部114は、まず画像ストリームとオーディオストリームのパラメータを取得する(S302)、続いて、メタデータファイル生成部114は、画像ストリームとオーディオストリームのパラメータに基づき、Pepresentationを構成する(S304)。続いて、メタデータファイル生成部114は、Periodを構成する(S308)。そして、メタデータファイル生成部114は、上述したように多視点ズーム切り替え情報を格納して、MPDファイルを生成する(S310)。
 なお、図25に示す処理の前、あるいは少なくともステップS310よりも前に、図13を参照して説明した多視点ズーム切り替え情報の生成にかかる処理が行われて多視点ズーム切り替え情報が生成されていてよい。
 図26は、本実施形態にかかるクライアント300の動作の一例を示すフローチャート図である。なお、クライアント300は当然、図26に示されない動作を行ってもよい。
 図26に示すように、まず、処理部310がMPDファイルを取得する(S402)。続いて、処理部310は指定された視点に対応するAdaptationSetの情報を取得する(S404)。ここで、指定された視点とは、例えば初期設定の視点であってもよいし、ユーザにより選択された視点であってもよいし、図14を参照して説明した視点切り替え処理により特定された切り替え先視点であってもよい。
 続いて、処理部310は、伝送帯域の情報を取得し(S406)、伝送路のビットレートの範囲で伝送可能なRepresentationを選択する(S408)。さらに、処理部310は、ステップS408で選択されたRepresentationを構成するMP4ファイルを配信サーバ200から取得する(S410)。そして、処理部310はステップS410で取得したMP4ファイルに含まれるエレメンタリストリームのデコードを開始する(S412)。
 <<4.第2の実施形態>>
 以上、本開示の第1の実施形態について説明した。上述した第1の実施形態では、MPEG-DASHによりストリーミング配信を行う例を説明したが、以下では、第2の実施形態として、ストリーミング配信の代わりに、記憶装置を介してコンテンツファイルが提供される例を説明する。また、本実施形態では、コンテンツファイルに上述した多視点ズーム切り替え情報が格納される。
  <4-1.構成例>
 (生成装置の機能構成例)
 図27は、本開示の第2の実施形態にかかる生成装置600の機能構成例を示すブロック図である。本実施形態にかかる生成装置600は、コンテンツファイルを生成する情報処理装置である。また、生成装置600は、記憶装置700と接続され得る。記憶装置700は、生成装置600により生成されたコンテンツファイルを記憶する。なお、記憶装置700は例えば持ち運び可能なストレージであってもよい。
 図27に示すように、本実施形態にかかる生成装置600は、生成部610、制御部620、通信部630、及び記憶部640を備える。
 生成部610は、画像、及びオーディオに関する処理を行い、コンテンツファイルを生成する。図27に示すように、生成部610は、画像ストリームエンコード部611、オーディオストリームエンコード部612、及びコンテンツファイル生成部613としての機能を有する。なお、画像ストリームエンコード部611、オーディオストリームエンコード部612の機能は、図16を参照して説明した画像ストリームエンコード部111、オーディオストリームエンコード部112の機能と同様であってよい。
 コンテンツファイル生成部613は、画像ストリームエンコード部611とオーディオストリームエンコード部612から提供された情報に基づき、コンテンツファイルを生成する。本実施形態にかかるコンテンツファイル生成部613が生成するコンテンツファイルは、上述した第1の実施形態と同様にMP4ファイル(ISOBMFFファイル)であってよい。
 ただし、本実施形態にかかるコンテンツファイル生成部613は、コンテンツファイルのヘッダに多視点ズーム切り替え情報を格納する。また、本実施形態にかかるコンテンツファイル生成部613は、多視点ズーム切り替え情報を切り替えられ得る複数の視点(多視点コンテンツの視点)に含まれる各視点に対応付けて、当該ヘッダに多視点ズーム切り替え情報を格納してもよい。なお、コンテンツファイルのヘッダへの多視点ズーム切り替え情報の格納例については後述する。
 コンテンツファイル生成部613により生成されたMP4ファイルは、図27に示す記憶装置700に出力されて記憶される。
 制御部620は、生成装置600が行う処理全般を統括的に制御する機能構成である。例えば、なお、制御部620の制御内容は特に限定されない。例えば、制御部620は、汎用コンピュータ、PC、タブレットPC等において一般的に行われる処理を制御してもよい。
 通信部630は、各種通信を行う。例えば、通信部630は生成部110により生成されたMP4ファイルを記憶装置700へ送信する。なお、通信部630の通信内容はこれらに限定されない。
 記憶部640は、各種情報を記憶する機能構成である。例えば、記憶部640は、多視点ズーム切り替え情報、多視点画像信号、オーディオオブジェクト信号、MP4ファイル等を記憶したり、生成装置600の各機能構成によって使用されるプログラムまたはパラメータ等を記憶したりする。なお、記憶部640が記憶する情報はこれらに限定されない。
 (再生装置の機能構成例)
 図28は、本開示の第2の実施形態にかかる再生装置800の機能構成例を示すブロック図である。本実施形態にかかる再生装置800は、記憶装置700と接続され、記憶装置700に記憶されたMP4ファイルを取得して再生を行う情報処理装置である。再生装置800は、出力装置400と接続され、表示画像を出力装置400に表示させると共に、オーディオを出力させる。なお、再生装置800は、図15に示したクライアント300と同様に、設置型の出力装置400や、ユーザに装着される出力装置400に接続されてもよいし、出力装置400と一体化されていてもよい。
 また、図28に示すように、本実施形態にかかる再生装置800は、処理部810、制御部840、通信部850、及び記憶部860を備える。
 処理部810は、コンテンツの再生に関する処理を行う機能構成である。処理部810は、例えば図14を参照して説明した視点切り替えにかかる処理を行ってもよい。図28に示すように、処理部810は、画像処理部820、及びオーディオ処理部830としての機能を有する。
 画像処理部820は、記憶装置700に記憶されたMP4ファイルを取得し、画像処理を行う。図28に示されるように、画像処理部820は、ファイル取得部821、ファイルパース部823、画像復号部825、及びレンダリング部827としての機能を有する。ファイル取得部821は、コンテンツファイル取得部として機能し、記憶装置700からMP4ファイルを取得してファイルパース部823へ提供する。なお、ファイル取得部821が取得するMP4ファイルは、上述したように多視点ズーム切り替え情報を含み、当該多視点ズーム切り替え情報はヘッダに格納される。ファイルパース部823は取得されたMP4ファイルを解析し、システム層メタデータ(ヘッダ)と画像ストリームに分けて画像復号部825へ提供する。画像復号部825、及びレンダリング部827の機能は、図19を参照して説明した画像復号部325、及びレンダリング部327の機能と同様であるため、説明を省略する。
 オーディオ処理部830は、記憶装置700に記憶されたMP4ファイルを取得し、オーディオ処理を行う。図28に示されるように、オーディオ処理部830は、ファイル取得部831、オーディオ復号部835、オブジェクト位置補正部837、及びオブジェクトレンダリング部839としての機能を有する。ファイル取得部831は、コンテンツファイル取得部として機能し、記憶装置700からMP4ファイルを取得してファイルパース部833へ提供する。なお、ファイル取得部831が取得するMP4ファイルは、上述したように多視点ズーム切り替え情報を含み、当該多視点ズーム切り替え情報はヘッダに格納される。ファイルパース部833は取得されたMP4ファイルを解析し、システム層メタデータ(ヘッダ)とオーディオストリームに分けてオーディオ復号部835へ提供する。オーディオ復号部835、オブジェクト位置補正部837、及びオブジェクトレンダリング部839の機能は、図20を参照して説明した、オーディオ復号部335、オブジェクト位置補正部337、及びオブジェクトレンダリング部339の機能と同様であるため、説明を省略する。
 制御部840は、再生装置800が行う処理全般を統括的に制御する機能構成である。例えば、制御部840は、ユーザによってマウス、キーボード等の入力部(不図示)を用いて行われる入力に基づいて各種処理を制御してもよい。なお、制御部840の制御内容は特に限定されない。例えば、制御部340は、汎用コンピュータ、PC、タブレットPC等において一般的に行われる処理を制御してもよい。
 通信部850は、各種通信を行う。また、通信部850は、受信部としても機能し、MP4ファイル等を記憶装置700から受信する。なお、通信部850の通信内容はこれらに限定されない。
 記憶部860は、各種情報を記憶する機能構成である。例えば、記憶部860は、記憶装置700から取得したMP4ファイル等を記憶したり、再生装置800の各機能構成によって使用されるプログラムまたはパラメータ等を記憶したりする。なお、記憶部860が記憶する情報はこれらに限定されない。
 以上、本実施形態にかかる生成装置600、及び再生装置800について説明した。なお、上記では記憶装置700を介してMP4ファイルが提供される例を説明したが、かかる例に限定されない。例えば、生成装置600、及び再生装置800は、通信網を介して、あるいは直接に接続されてもよく、MP4ファイルが生成装置600から再生装置800へ送信されて、再生装置800の記憶部860に記憶されてもよい。
  <4-2.コンテンツファイルへの多視点ズーム切り替え情報の格納例>
 以上、本実施形態の構成例について説明した。続いて、本実施形態において、コンテンツファイル生成部613により生成されるコンテンツファイルのヘッダへの多視点ズーム切り替え情報の格納例について説明する。
 上述したように、本実施形態において、コンテンツファイル生成部613により生成されるコンテンツファイルはMP4ファイルであってよい。MP4ファイルがISO/IEC 14496-12で規格定義されるISOBMFFファイルである場合、MP4ファイルのヘッダとして、moovボックス(システム層メタデータ)がMP4ファイルに含まれる。
 (udtaボックスに格納する実施例)
 図29は、ISOBMFFファイルにおけるmoovボックスのボックス構造を示す図である。本実施形態にかかるコンテンツファイル生成部613は、例えば図29に示すmoovボックスのうちudtaボックスに、多視点ズーム切り替え情報を格納してもよい。udtaボックスは、任意のユーザデータを格納可能であり、かつ図29に示すようtrackボックスに含まれて、video trackに対して静的なメタデータとなる。なお、多視点ズーム切り替え情報が格納される領域は、図29に示す階層位置のudtaボックスに限定されない。例えば既存のボックスのバージョンを変更して内部に拡張領域を設け(当該拡張領域についても例えば一つのボックスとして定義される)、当該拡張領域に多視点ズーム切り替え情報を格納することも可能である。
 図30は、多視点ズーム切り替え情報がudtaボックスに格納される場合のudtaボックスの例を示す図である。図30の7行目のvideo_typeは図9に示した画像タイプ情報に対応する。また、図30に示す8行目~15行目のパラメータは、図9に示した撮影関連情報に対応する。また、図30に示す16行目~17行目のパラメータは、図9に示したコンテンツ制作時の画角情報に対応する。また、図30に示す18行目のnumber_of_destination_viewsは、図9に示した切り替え先視点情報の数に対応する。また、図30に示す20行目~25行目のパラメータは、図9に示した切り替え先視点情報に対応し、視点ごとに視点に対応付けられて格納される。
 (metadata trackとして格納する実施例)
 上記では、多視点ズーム切り替え情報をvideo trackに対して静的なメタデータとしてudtaボックスに格納する例を説明したが本実施形態はかかる例に限定されない。例えば、多視点ズーム切り替え情報が再生時刻に応じて変化する場合、udtaボックスに格納することは困難である。
 そこで、多視点ズーム切り替え情報が再生時刻に応じて変化する場合、時間軸を有する構造であるtrackを利用し、多視点ズーム切り替え情報を示す新たなmetadata trackを定義してもよい。ISOBMFFにおけるmetadata trackの定義方法は、ISO/IEC 14496-12に記載されており、本実施例にかかるmetadata trackは、ISO/IEC 14496-12に準拠した形で定義されてもよい。かかる実施例について、図31~図32を参照して説明する。
 本実施例において、コンテンツファイル生成部613は、多視点ズーム切り替え情報をtimed metadata trackとしてmdatボックスに格納する。なお、本実施例において、コンテンツファイル生成部613は、moovボックスにも多視点ズーム切り替え情報を格納し得る。
 図31は、metadata trackについて説明するための説明図である。図31に示す例では、多視点ズーム切り替え情報が変化しない時間範囲を1つのsampleと定義し、1つのsampleを1つのmulti-view_zoom_switch_parameters(多視点ズーム切り替え情報)に対応させる。そして、1つのmulti-view_zoom_switch_parametersが有効な時間は、sample_durationで表され得る。なお、sampleのサイズ等、sampleに関する他の情報については、図29に示したstblボックスの情報をそのまま用いてもよい。
 例えば図31に示す例では、範囲VF1のビデオフレームに適用される多視点ズーム切り替え情報として、multi-view_zoom_switch_parametersMD1がmdatボックスに格納される。また、図32に示す範囲VF2のビデオフレームに適用される多視点ズーム切り替え情報として、multi-view_zoom_switch_parametersMD2がmdatボックスに格納される。
 また、本実施例において、コンテンツファイル生成部613は、moovボックスにも多視点ズーム切り替え情報を格納し得る。図32は、本実施例においてコンテンツファイル生成部613がmoovボックスに格納する多視点ズーム切り替え情報を説明するための図である。
 本実施例において、コンテンツファイル生成部613は、図32に示すようにsampleを定義して、moovボックスに格納してもよい。なお、図32に示す各パラメータは、図30を参照して説明した多視点ズーム切り替え情報を示すパラメータと同様である。
  <4-3.動作例>
 以上、本実施形態においてコンテンツファイル生成部613により生成されるコンテンツファイルについて説明した。続いて、本実施形態にかかる動作例を説明する。
 図33は、本実施形態にかかる生成装置600の動作の一例を示すフローチャート図である。なお、図33では、主に生成装置600の生成部610によるMP4ファイルの生成に関する動作について示しており、生成装置600は当然、図33に示されない動作を行ってもよい。
 図33に示すように、生成部610は、まず画像ストリームとオーディオストリームのパラメータを取得する(S502)、続いて、生成部610は、画像ストリームとオーディオストリームの圧縮符号化を行う(S504)。続いて、コンテンツファイル生成部613は、mdatボックスに、ステップS504で得られた符号化ストリームを格納する(S506)。そして、コンテンツファイル生成部613は、mdatボックスに格納された符号化ストリームに関するmoovボックスを構成する(S508)。そして、コンテンツファイル生成部613は、上述したように多視点ズーム切り替え情報をmoovボックス、またはmdatボックスに格納してMP4ファイルを生成する(S510)。
 なお、図33に示す処理の前、あるいは少なくともステップS510よりも前に、図13を参照して説明した多視点ズーム切り替え情報の生成にかかる処理が行われて多視点ズーム切り替え情報が生成されていてよい。
 図34は、本実施形態にかかる再生装置800の動作の一例を示すフローチャート図である。なお、再生装置800は当然、図34に示されない動作を行ってもよい。
 図34に示すように、まず、処理部810は指定された視点に対応するMP4ファイルを取得する(S602)。ここで、指定された視点とは、例えば初期設定の視点であってもよいし、ユーザにより選択された視点であってもよいし、図14を参照して説明した視点切り替え処理により特定された切り替え先視点であってもよい。
 そして、処理部810はステップS602で取得したMP4ファイルに含まれるエレメンタリストリームのデコードを開始する。
 <<5.ハードウェア構成例>>
 以上、本開示の実施形態を説明した。最後に、図35を参照して、本開示の実施形態にかかる情報処理装置のハードウェア構成について説明する。図35は、本開示の実施形態にかかる情報処理装置のハードウェア構成の一例を示すブロック図である。なお、図35に示す情報処理装置900は、例えば、図15~18、図26、図27に示した生成装置100、配信サーバ200、クライアント300、生成装置600、再生装置800を実現し得る。本開示の実施形態にかかる生成装置100、配信サーバ200、クライアント300、生成装置600、再生装置800による情報処理は、ソフトウェアと、以下に説明するハードウェアとの協働により実現される。
 図35に示すように、情報処理装置900は、CPU(Central Processing Unit)901、ROM(Read Only Memory)902、RAM(Random Access Memory)903及びホストバス904aを備える。また、情報処理装置900は、ブリッジ904、外部バス904b、インタフェース905、入力装置906、出力装置907、ストレージ装置908、ドライブ909、接続ポート911、通信装置913、及びセンサ915を備える。情報処理装置900は、CPU901に代えて、またはこれとともに、DSP若しくはASIC等の処理回路を有してもよい。
 CPU901は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置900内の動作全般を制御する。また、CPU901は、マイクロプロセッサであってもよい。ROM902は、CPU901が使用するプログラムや演算パラメータ等を記憶する。RAM903は、CPU901の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。CPU901は、例えば、生成部110、制御部120、制御部220、処理部310、制御部340、生成部610、制御部620、処理部810、制御部840を形成し得る。
 CPU901、ROM902及びRAM903は、CPUバスなどを含むホストバス904aにより相互に接続されている。ホストバス904aは、ブリッジ904を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス904bに接続されている。なお、必ずしもホストバス904a、ブリッジ904および外部バス904bを分離構成する必要はなく、1つのバスにこれらの機能を実装してもよい。
 入力装置906は、例えば、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチ及びレバー等、ユーザによって情報が入力される装置によって実現される。また、入力装置906は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理装置900の操作に対応した携帯電話やPDA等の外部接続機器であってもよい。さらに、入力装置906は、例えば、上記の入力手段を用いてユーザにより入力された情報に基づいて入力信号を生成し、CPU901に出力する入力制御回路などを含んでいてもよい。情報処理装置900のユーザは、この入力装置906を操作することにより、情報処理装置900に対して各種のデータを入力したり処理動作を指示したりすることができる。
 出力装置907は、取得した情報をユーザに対して視覚的または聴覚的に通知することが可能な装置で形成される。このような装置として、CRTディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ELディスプレイ装置及びランプ等の表示装置や、スピーカ及びヘッドホン等の音声出力装置や、プリンタ装置等がある。出力装置907は、例えば、情報処理装置900が行った各種処理により得られた結果を出力する。具体的には、表示装置は、情報処理装置900が行った各種処理により得られた結果を、テキスト、イメージ、表、グラフ等、様々な形式で視覚的に表示する。他方、音声出力装置は、再生された音声データや音響データ等からなるオーディオ信号をアナログ信号に変換して聴覚的に出力する。
 ストレージ装置908は、情報処理装置900の記憶部の一例として形成されたデータ格納用の装置である。ストレージ装置908は、例えば、HDD等の磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイスまたは光磁気記憶デバイス等により実現される。ストレージ装置908は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。このストレージ装置908は、CPU901が実行するプログラムや各種データ及び外部から取得した各種のデータ等を格納する。上記ストレージ装置908は、例えば、記憶部140、記憶部240、記憶部360、記憶部640、記憶部860、を形成し得る。
 ドライブ909は、記憶媒体用リーダライタであり、情報処理装置900に内蔵、あるいは外付けされる。ドライブ909は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体に記録されている情報を読み出して、RAM903に出力する。また、ドライブ909は、リムーバブル記憶媒体に情報を書き込むこともできる。
 接続ポート911は、外部機器と接続されるインタフェースであって、例えばUSB(Universal Serial Bus)などによりデータ伝送可能な外部機器との接続口である。
 通信装置913は、例えば、ネットワーク920に接続するための通信デバイス等で形成された通信インタフェースである。通信装置913は、例えば、有線若しくは無線LAN(Local Area Network)、LTE(Long Term Evolution)、Bluetooth(登録商標)またはWUSB(Wireless USB)用の通信カード等である。また、通信装置913は、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータまたは各種通信用のモデム等であってもよい。この通信装置913は、例えば、インターネットや他の通信機器との間で、例えばTCP/IP等の所定のプロトコルに則して信号等を送受信することができる。通信装置913は、例えば、通信部130、通信部230、通信部350、通信部630、通信部850、を形成し得る。
 センサ915は、例えば、加速度センサ、ジャイロセンサ、地磁気センサ、光センサ、音センサ、測距センサ、力センサ等の各種のセンサである。センサ915は、情報処理装置900の姿勢、移動速度等、情報処理装置900自身の状態に関する情報や、情報処理装置900の周辺の明るさや騒音等、情報処理装置900の周辺環境に関する情報を取得する。また、センサ915は、GPS信号を受信して装置の緯度、経度及び高度を測定するGPSセンサを含んでもよい。
 なお、ネットワーク920は、ネットワーク920に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、ネットワーク920は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、ネットワーク920は、IP-VPN(Internet Protocol-Virtual Private Network)などの専用回線網を含んでもよい。
 以上、本開示の実施形態に係る情報処理装置900の機能を実現可能なハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて実現されていてもよいし、各構成要素の機能に特化したハードウェアにより実現されていてもよい。従って、本開示の実施形態を実施する時々の技術レベルに応じて、適宜、利用するハードウェア構成を変更することが可能である。
 なお、上述のような本開示の実施形態に係る情報処理装置900の各機能を実現するためのコンピュータプログラムを作製し、PC等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することができる。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリ等である。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信されてもよい。
 <<6.むすび>>
 以上説明したように、本開示の各実施形態によれば、複数の視点間での視点切り替えを行うための多視点ズーム視点切り替え情報(視点切り替え情報)をコンテンツの再生に用いることで、視覚的、聴覚的にユーザの違和感を低減させることが可能である。例えば、上述したように、多視点ズーム視点切り替え情報に基づいて、視点切り替えの前後で被写体の方向や大きさを合わせて表示画像を表示することが可能である。また、上述したように、多視点ズーム視点切り替え情報に基づいて、視点切り替えにおいてオーディオオブジェクトの位置補正を行うことで、ユーザの違和感を低減させることが可能である。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 例えば、上記第1の実施形態では、メタデータファイルに多視点ズーム切り替え情報を格納する例を説明したが、本技術はかかる例に限定されない。例えば、上記の第1の実施形態のように、MPEG-DASHによりストリーミング配信を行う場合であっても、MPDファイルに代えて、または加えて、第2の実施形態で説明したようにMP4ファイルのヘッダに多視点ズーム切り替え情報を格納してもよい。特に、多視点ズーム切り替え情報が再生時刻に応じて変化する場合、多視点ズーム切り替え情報をMPDファイルに格納することは困難である。そこで、MPEG-DASHによりストリーミング配信を行う場合であっても、図31~図32を参照して説明した実施例のように多視点ズーム切り替え情報をtimed metadata trackとしてmdatボックスに格納してもよい。かかる構成により、MPEG-DASHによりストリーミング配信が行われ、かつ多視点ズーム切り替え情報が再生時刻に応じて変化する場合であっても、多視点ズーム切り替え情報を、コンテンツを再生する装置へ提供することが可能である。
 なお、多視点ズーム切り替え情報が再生時刻に応じて変化するか否かは、例えばコンテンツ制作者により判断され得る。そこで、多視点ズーム切り替え情報をどこへ格納するかは、コンテンツ制作者の操作や、コンテンツ制作者により与えられた情報に基づいて決定されてもよい。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示にかかる技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 なお、以下のような構成も本開示の技術的範囲に属する。
(1)
 複数の視点間での視点切り替えにおいてオーディオオブジェクトの位置補正を行うための視点切り替え情報をコンテンツファイルのヘッダに格納して前記コンテンツファイルを生成するコンテンツファイル生成部を備える、情報処理装置。
(2)
 前記コンテンツファイルはISO Base Media File Formatファイルであり、
 前記ヘッダは前記コンテンツファイルにおけるmoovボックスを含み、
 前記視点切り替え情報は前記moovボックスに格納される、前記(1)に記載の情報処理装置。
(3)
 前記視点切り替え情報は前記moovボックスのudtaボックスに格納される、前記(2)に記載の情報処理装置。
(4)
 前記コンテンツファイル生成部は、前記視点切り替え情報を前記moovボックスに格納すると共に、前記視点切り替え情報を前記コンテンツファイルにおけるmdatボックスにも格納する、前記(2)に記載の情報処理装置。
(5)
 前記視点切り替え情報は、前記複数の視点に含まれる各視点に対応付けられて、前記コンテンツファイルに格納される、前記(1)~(4)のいずれか一項に記載の情報処理装置。
(6)
 前記視点切り替え情報は、前記視点切り替え情報に対応付けられた視点から切り替え可能な切り替え先視点に関する切り替え先視点情報を含む、前記(5)に記載の情報処理装置。
(7)
 前記切り替え先視点情報は、前記視点切り替え情報に対応付けられた視点から前記切り替え先視点への切り替えの閾値に関する閾値情報を含む、前記(6)に記載の情報処理装置。
(8)
 前記視点切り替え情報は、前記視点切り替え情報に対応付けられた視点にかかる画像の撮影関連情報を含む、前記(5)~(7)のいずれか一項に記載の情報処理装置。
(9)
 前記撮影関連情報は、前記画像を撮影したカメラの位置に関する撮影位置情報を含む、前記(8)に記載の情報処理装置。
(10)
 前記撮影関連情報は、前記画像を撮影したカメラの方向に関する撮影方向情報を含む、前記(8)または(9)に記載の情報処理装置。
(11)
 前記撮影関連情報は、前記画像を撮影したカメラの画角に関する撮影画角情報を含む、前記(8)~(10)のいずれか一項に記載の情報処理装置。
(12)
 前記視点切り替え情報は、前記視点切り替え情報に対応付けられた視点にかかるオーディオオブジェクトの位置情報を決定する際に参照されたスクリーンの画角に関する参照画角情報を含む、前記(5)~(11)のいずれか一項に記載の情報処理装置。
(13)
 複数の視点間での視点切り替えにおいてオーディオオブジェクトの位置補正を行うための視点切り替え情報をコンテンツファイルのヘッダに格納して前記コンテンツファイルを生成することを含み、情報処理装置により実行される情報処理方法。
(14)
 コンピュータに、
 複数の視点間での視点切り替えにおいてオーディオオブジェクトの位置補正を行うための視点切り替え情報をコンテンツファイルのヘッダに格納して前記コンテンツファイルを生成する機能を実現させるための、プログラム。
(15)
 複数の視点間での視点切り替えにおいてオーディオオブジェクトの位置補正を行うための視点切り替え情報がヘッダに格納されたコンテンツファイルを取得するコンテンツファイル取得部を備える、情報処理装置。
(16)
 前記コンテンツファイルはISO Base Media File Formatファイルであり、
 前記ヘッダは前記コンテンツファイルにおけるmoovボックスを含み、
 前記視点切り替え情報は前記moovボックスに格納される、前記(15)に記載の情報処理装置。
(17)
 前記視点切り替え情報は前記moovボックスのudtaボックスに格納される、前記(16)に記載の情報処理装置。
(18)
 前記視点切り替え情報は、前記moovボックスに格納されると共に、前記コンテンツファイルにおけるmdatボックスにも格納される、前記(16)に記載の情報処理装置。
(19)
 前記視点切り替え情報は、前記複数の視点に含まれる各視点に対応付けられて、前記コンテンツファイルに格納される、前記(15)~(18)のいずれか一項に記載の情報処理装置。
(20)
 前記視点切り替え情報は、前記視点切り替え情報に対応付けられた視点から切り替え可能な切り替え先視点に関する切り替え先視点情報を含む、前記(19)に記載の情報処理装置。
(21)
 前記切り替え先視点情報は、前記視点切り替え情報に対応付けられた視点から前記切り替え先視点への切り替えの閾値に関する閾値情報を含む、前記(20)に記載の情報処理装置。
(22)
 前記視点切り替え情報は、前記視点切り替え情報に対応付けられた視点にかかる画像の撮影関連情報を含む、前記(19)~(21)のいずれか一項に記載の情報処理装置。
(23)
 前記撮影関連情報は、前記画像を撮影したカメラの位置に関する撮影位置情報を含む、前記(22)に記載の情報処理装置。
(24)
 前記撮影関連情報は、前記画像を撮影したカメラの方向に関する撮影方向情報を含む、前記(22)または(23)に記載の情報処理装置。
(25)
 前記撮影関連情報は、前記画像を撮影したカメラの画角に関する撮影画角情報を含む、前記(22)~(24)のいずれか一項に記載の情報処理装置。
(26)
 前記視点切り替え情報は、前記視点切り替え情報に対応付けられた視点にかかるオーディオオブジェクトの位置情報を決定する際に参照されたスクリーンの画角に関する参照画角情報を含む、前記(19)~(25)のいずれか一項に記載の情報処理装置。
(27)
 複数の視点間での視点切り替えにおいてオーディオオブジェクトの位置補正を行うための視点切り替え情報がヘッダに格納されたコンテンツファイルを取得することを含み、情報処理装置により実行される情報処理方法。
(28)
 コンピュータに、
 複数の視点間での視点切り替えにおいてオーディオオブジェクトの位置補正を行うための視点切り替え情報がヘッダに格納されたコンテンツファイルを取得する機能を実現させるための、プログラム。
 100 生成装置
 110 生成部
 111 画像ストリームエンコード部
 112 オーディオストリームエンコード部
 113 コンテンツファイル生成部
 114 メタデータファイル生成部
 200 配信サーバ
 300 クライアント
 310 処理部
 311 メタデータファイル取得部
 312 メタデータファイル処理部
 313 セグメントファイル選択制御部
 321 セグメントファイル取得部
 323 ファイルパース部
 325 画像復号部
 327 レンダリング部
 329 オブジェクトレンダリング部
 330 オーディオ処理部
 331 セグメントファイル取得部
 333 ファイルパース部
 335 オーディオ復号部
 337 オブジェクト位置補正部
 339 オブジェクトレンダリング部
 340 制御部
 350 通信部
 360 記憶部
 400 出力装置
 600 生成装置
 610 生成部
 611 画像ストリームエンコード部
 612 オーディオストリームエンコード部
 613 コンテンツファイル生成部
 700 記憶装置
 710 生成部
 713 コンテンツファイル生成部
 800 再生装置
 810 処理部
 820 画像処理部
 821 ファイル取得部
 823 ファイルパース部
 825 画像復号部
 827 レンダリング部
 830 オーディオ処理部
 831 ファイル取得部
 833 ファイルパース部
 835 オーディオ復号部
 837 オブジェクト位置補正部
 839 オブジェクトレンダリング部
 840 制御部
 850 通信部
 860 記憶部

Claims (14)

  1.  複数の視点間での視点切り替えにおいてオーディオオブジェクトの位置補正を行うための視点切り替え情報をコンテンツファイルのヘッダに格納して前記コンテンツファイルを生成するコンテンツファイル生成部を備える、情報処理装置。
  2.  前記コンテンツファイルはISO Base Media File Formatファイルであり、
     前記ヘッダは前記コンテンツファイルにおけるmoovボックスを含み、
     前記視点切り替え情報は前記moovボックスに格納される、請求項1に記載の情報処理装置。
  3.  前記視点切り替え情報は前記moovボックスのudtaボックスに格納される、請求項2に記載の情報処理装置。
  4.  前記コンテンツファイル生成部は、前記視点切り替え情報を前記moovボックスに格納すると共に、前記視点切り替え情報を前記コンテンツファイルにおけるmdatボックスにも格納する、請求項2に記載の情報処理装置。
  5.  前記視点切り替え情報は、前記複数の視点に含まれる各視点に対応付けられて、前記コンテンツファイルに格納される、請求項1に記載の情報処理装置。
  6.  前記視点切り替え情報は、前記視点切り替え情報に対応付けられた視点から切り替え可能な切り替え先視点に関する切り替え先視点情報を含む、請求項5に記載の情報処理装置。
  7.  前記切り替え先視点情報は、前記視点切り替え情報に対応付けられた視点から前記切り替え先視点への切り替えの閾値に関する閾値情報を含む、請求項6に記載の情報処理装置。
  8.  前記視点切り替え情報は、前記視点切り替え情報に対応付けられた視点にかかる画像の撮影関連情報を含む、請求項5に記載の情報処理装置。
  9.  前記撮影関連情報は、前記画像を撮影したカメラの位置に関する撮影位置情報を含む、請求項8に記載の情報処理装置。
  10.  前記撮影関連情報は、前記画像を撮影したカメラの方向に関する撮影方向情報を含む、請求項8に記載の情報処理装置。
  11.  前記撮影関連情報は、前記画像を撮影したカメラの画角に関する撮影画角情報を含む、請求項8に記載の情報処理装置。
  12.  前記視点切り替え情報は、前記視点切り替え情報に対応付けられた視点にかかるオーディオオブジェクトの位置情報を決定する際に参照されたスクリーンの画角に関する参照画角情報を含む、請求項5に記載の情報処理装置。
  13.  複数の視点間での視点切り替えにおいてオーディオオブジェクトの位置補正を行うための視点切り替え情報をコンテンツファイルのヘッダに格納して前記コンテンツファイルを生成することを含み、情報処理装置により実行される情報処理方法。
  14.  コンピュータに、
     複数の視点間での視点切り替えにおいてオーディオオブジェクトの位置補正を行うための視点切り替え情報をコンテンツファイルのヘッダに格納して前記コンテンツファイルを生成する機能を実現させるための、プログラム。
PCT/JP2018/047696 2018-03-29 2018-12-26 情報処理装置、方法、及びプログラム WO2019187430A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US17/040,101 US11272224B2 (en) 2018-03-29 2018-12-26 Information processing device and method
JP2020509657A JPWO2019187430A1 (ja) 2018-03-29 2018-12-26 情報処理装置、方法、及びプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-065015 2018-03-29
JP2018065015 2018-03-29

Publications (1)

Publication Number Publication Date
WO2019187430A1 true WO2019187430A1 (ja) 2019-10-03

Family

ID=68059712

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/047696 WO2019187430A1 (ja) 2018-03-29 2018-12-26 情報処理装置、方法、及びプログラム

Country Status (4)

Country Link
US (1) US11272224B2 (ja)
JP (1) JPWO2019187430A1 (ja)
TW (1) TW201943284A (ja)
WO (1) WO2019187430A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113949829A (zh) * 2021-10-15 2022-01-18 腾讯科技(深圳)有限公司 媒体文件封装方法、装置、设备及存储介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2570298A (en) * 2018-01-17 2019-07-24 Nokia Technologies Oy Providing virtual content based on user context
JP6833925B2 (ja) * 2019-07-29 2021-02-24 株式会社スクウェア・エニックス 画像処理プログラム、画像処理装置及び画像処理方法
JP2023001629A (ja) * 2021-06-21 2023-01-06 キヤノン株式会社 撮像装置、情報処理装置及びその制御方法並びにプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015182491A1 (ja) * 2014-05-30 2015-12-03 ソニー株式会社 情報処理装置および情報処理方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2492585C2 (ru) * 2008-07-16 2013-09-10 Нокиа Корпорейшн Способ и устройство для группирования треков и подмножеств треков
US8719309B2 (en) * 2009-04-14 2014-05-06 Apple Inc. Method and apparatus for media data transmission
CA2967249C (en) * 2014-11-28 2023-03-14 Sony Corporation Transmission device, transmission method, reception device, and reception method

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015182491A1 (ja) * 2014-05-30 2015-12-03 ソニー株式会社 情報処理装置および情報処理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TANI, H. ET AL.: "Assessment of Multi- View Video and Audio ( MW -A) Transmission with MPEG-DASH", IEICE TECHNICAL REPORT, vol. 114, no. 488, 24 February 2015 (2015-02-24), pages 37 - 42, XP009516920 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113949829A (zh) * 2021-10-15 2022-01-18 腾讯科技(深圳)有限公司 媒体文件封装方法、装置、设备及存储介质
CN113949829B (zh) * 2021-10-15 2022-09-20 腾讯科技(深圳)有限公司 媒体文件封装及解封装方法、装置、设备及存储介质

Also Published As

Publication number Publication date
JPWO2019187430A1 (ja) 2021-04-08
TW201943284A (zh) 2019-11-01
US20210029386A1 (en) 2021-01-28
US11272224B2 (en) 2022-03-08

Similar Documents

Publication Publication Date Title
CN106165415B (zh) 立体观看
WO2019187430A1 (ja) 情報処理装置、方法、及びプログラム
KR102190718B1 (ko) Dash 에서 피쉬아이 가상 현실 비디오에 대한 강화된 하이레벨 시그널링
CN109362242B (zh) 一种视频数据的处理方法及装置
US10785513B2 (en) Methods and systems for using 2D captured imagery of a scene to provide media content
KR102247404B1 (ko) 어안 가상 현실 비디오에 대한 향상된 고레벨 시그널링
CN110622516B (zh) 用于鱼眼视频数据的高级发信号
US11539983B2 (en) Virtual reality video transmission method, client device and server
JP6946724B2 (ja) クライアント装置、クライアント装置の処理方法、サーバおよびサーバの処理方法
WO2019187442A1 (ja) 情報処理装置、方法、及びプログラム
JP2019514313A (ja) レガシー及び没入型レンダリングデバイスのために没入型ビデオをフォーマットする方法、装置、及びストリーム
WO2019155930A1 (ja) 送信装置、送信方法、処理装置および処理方法
JP2014176017A (ja) 映像再生装置、映像配信装置、映像再生方法及び映像配信方法
WO2019187437A1 (ja) 情報処理装置、情報処理方法、及びプログラム
CN111903136B (zh) 信息处理装置、信息处理方法和计算机可读存储介质
WO2019216002A1 (ja) 情報処理装置、情報処理方法、およびプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18912057

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020509657

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18912057

Country of ref document: EP

Kind code of ref document: A1