[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

WO2018135321A1 - 画像処理装置および方法 - Google Patents

画像処理装置および方法 Download PDF

Info

Publication number
WO2018135321A1
WO2018135321A1 PCT/JP2018/000098 JP2018000098W WO2018135321A1 WO 2018135321 A1 WO2018135321 A1 WO 2018135321A1 JP 2018000098 W JP2018000098 W JP 2018000098W WO 2018135321 A1 WO2018135321 A1 WO 2018135321A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
unit
data
image processing
encoding
Prior art date
Application number
PCT/JP2018/000098
Other languages
English (en)
French (fr)
Inventor
央二 中神
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to JP2018563271A priority Critical patent/JPWO2018135321A1/ja
Priority to CN201880006851.3A priority patent/CN110169069A/zh
Priority to US16/477,627 priority patent/US10944975B2/en
Publication of WO2018135321A1 publication Critical patent/WO2018135321A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/31Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the temporal domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/187Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scalable video layer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/587Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal sub-sampling or interpolation, e.g. decimation or subsequent interpolation of pictures in a video sequence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Definitions

  • the present disclosure relates to an image processing apparatus and method, and more particularly, to an image processing apparatus and method capable of suppressing a reduction in encoding efficiency.
  • AVC Advanced Video Coding
  • ISO / IEC International Organization for Standardization / Standardization of an encoding method called HEVC (High Efficiency Video Video Coding)
  • JCTVC Joint Collaboration Team-Video Coding
  • Non-Patent Document 1 a joint standardization organization of International Electrotechnical Commission
  • the present disclosure has been made in view of such a situation, and is intended to suppress a reduction in encoding efficiency.
  • An image processing apparatus includes a time resolution setting unit that sets a time resolution for each partial region of image data to be encoded, and the portion that is encoded by the image data and is set by the time resolution setting unit. And an encoding unit that generates a bitstream including information indicating the temporal resolution for each region.
  • the partial area may be a tile set that can be decoded independently.
  • the bit stream can include information on the partial area.
  • the information indicating the temporal resolution may include a temporal ID set for each picture of the image data and level information set for each partial area.
  • the image data may be data of a planar image in which an omnidirectional image rendered in a spherical shape with a viewpoint as a center is developed on a single plane.
  • the time resolution setting unit can set the time resolution higher in a partial region closer to the center of the planar image in which the omnidirectional image is developed.
  • the image data may be data of a plane image in which plane images in six directions perpendicular to each other centered on the viewpoint are developed on a single plane.
  • the time resolution setting unit can set the time resolution of the front plane image as viewed from the viewpoint among the six directions higher than the plane image in the other direction.
  • the apparatus may further include a partial region setting unit that sets the partial region, and the temporal resolution setting unit may be configured to set a temporal resolution of each partial region set by the partial region setting unit. .
  • the information indicating the temporal resolution may include a temporal ID set for each partial area.
  • the encoding unit can encode a partial region included in a current picture for each picture of the image data based on the temporal resolution for each partial region set by the temporal resolution setting unit.
  • the bit stream may include information regarding a method for complementing an area other than the partial area of the picture at the time of decoding.
  • the encoding unit can generate a bit stream of the temporal resolution set by the temporal resolution setting unit for each partial area.
  • An image processing method sets information on a time resolution for each partial area of image data to be encoded, encodes the image data, and includes information indicating the time resolution for each set partial area. This is an image processing method for generating a bitstream.
  • An image processing device is an image processing device including an analysis unit that analyzes information indicating time resolution for each partial region of the image data included in a bitstream in which the image data is encoded. .
  • a data extraction unit that extracts data of a desired partial region from the bitstream according to an analysis result of the analysis unit, and a bitstream generation unit that generates a bitstream including the partial region data extracted by the data extraction unit Can be further provided.
  • a decoding unit that decodes the encoded data of a desired partial region among the encoded data of the image data included in the bitstream can be further provided.
  • the decoding unit can decode the encoded data of the partial area included in the current picture for each picture of the image data based on the temporal resolution of each partial area analyzed by the analyzing unit.
  • the decoding unit generates an area other than the partial area of the current picture by duplicating an image of another picture different from the current picture, averaging an image of a plurality of other pictures different from the current picture, or newly generating an image Can be complemented using the image.
  • An image processing method is an image processing method for analyzing information indicating a time resolution for each partial region of the image data, which is included in a bit stream in which the image data is encoded.
  • the time resolution for each partial area of the image data to be encoded is set, the image data is encoded, and information indicating the time resolution for each set partial area A bitstream containing is generated.
  • information indicating the temporal resolution of each partial region of the image data included in the bit stream encoded with the image data is analyzed.
  • an image can be processed.
  • a reduction in encoding efficiency can be suppressed.
  • FIG. 20 is a block diagram illustrating a main configuration example of a computer. It is a block diagram which shows an example of a schematic structure of a network system.
  • High encoding efficiency using temporal resolution> Conventionally, with the aim of further improving coding efficiency than MPEG-4 Part10 (Advanced Video Coding, hereinafter referred to as AVC), ITU-T (International Telecommunication Union Telecommunication Standardization Sector) and ISO / IEC (International Organization for Standardization / JCTVC (Joint Collaboration Team-Video Coding), which is a joint standardization organization of the International Electrotechnical Commission, is standardizing an encoding method called HEVC (High Efficiency Video Coding).
  • AVC Advanced Video Coding
  • ITU-T International Telecommunication Union Telecommunication Standardization Sector
  • ISO / IEC International Organization for Standardization / JCTVC (Joint Collaboration Team-Video Coding)
  • HEVC High Efficiency Video Coding
  • the amount of information of moving images can be controlled using temporal resolution.
  • the time resolution is a rate in the time direction (also referred to as a frame rate). For example, by reducing the time resolution (reducing the number of frames per unit time), the amount of information can be reduced and the encoding efficiency can be improved.
  • the conventional image coding method although it is allowed that images having different spatial resolutions exist in a picture, it is not allowed that images having different temporal resolutions (frame rates) exist. .
  • a time resolution for each partial area of the image data to be encoded is set, and a bit stream including information indicating the time resolution for each partial area is generated.
  • the amount of picture information can be partially controlled using temporal resolution, so that encoding can be performed more efficiently.
  • FIG. 2 is a block diagram illustrating an example of a configuration of an image processing system that is an aspect of the image processing system to which the present technology is applied.
  • the image processing system 100 shown in FIG. 2 is a system that encodes so-called VR video image data, transmits it as a bit stream, and decodes and displays the bit stream at the transmission destination.
  • the image processing system 100 includes an imaging device 111, an image conversion device 112, an encoding device 113, a transmission device 114, a reception device 131, a bit stream conversion device 132, a decoding device 133, and an image conversion device 134. And a display device 135.
  • the imaging device 111 performs processing related to imaging of a subject. For example, the imaging device 111 images a subject, generates a captured image, and supplies the captured image to the image conversion device 112.
  • the image conversion device 112 performs processing related to conversion of the captured image. For example, the image conversion apparatus 112 performs rendering of a captured image supplied from the imaging apparatus 111 and generates a moving image for VR. Further, for example, the image conversion apparatus 112 develops the VR moving image on a plane, generates a plane image for encoding, and supplies the plane image to the encoding apparatus 113.
  • the encoding device 113 performs processing related to image encoding. For example, the encoding device 113 encodes the planar image supplied from the image conversion device 112 to generate a bit stream, and supplies the bit stream to the transmission device 114.
  • the transmission device 114 performs processing related to transmission of the bitstream. For example, the transmission device 114 supplies the bit stream supplied from the encoding device 113 to the reception device 131 via the network 120.
  • the network 120 is a transmission medium.
  • the network 120 is configured by an arbitrary communication network, for example.
  • the network 120 may be a wired communication network, a wireless communication network, or both.
  • the network 120 may be configured by a single communication network, or may be configured by a plurality of communication networks.
  • the network 120 may include a communication network or a communication path of an arbitrary communication standard such as a wired communication network compliant with the network.
  • the transmission device 114 and the reception device 131 are connected to the network 120, and can exchange bit streams via the network 120.
  • the receiving device 131 performs processing related to reception of a bit stream.
  • the reception device 131 receives a bit stream supplied from the transmission device 114 via the network 120 and supplies it to the bit stream conversion device 132.
  • the bit stream conversion device 132 performs processing related to bit stream conversion. For example, in response to a request from the display device 135, the bit stream conversion device 132 extracts partial area data within the user's field of view from the bit stream supplied from the reception device 131, and the partial region bit stream Is supplied to the decoding device 133.
  • the decoding device 133 performs processing related to decoding of the bitstream. For example, the decoding device 133 decodes the bitstream rejected from the bitstream conversion device 132 (by a decoding method corresponding to the encoding method of the encoding device 113). The decoding device 133 supplies plane image data obtained by decoding the bitstream to the image conversion device 134. The image conversion device 134 performs processing related to image conversion. For example, the image conversion device 134 renders the planar image supplied from the decoding device 133 in a three-dimensional space, generates an image in the field of view of the user in the virtual reality space, and supplies it to the display device 135.
  • the display device 135 performs processing related to display. For example, the display device 135 provides a virtual reality space to the user by displaying an image in the user's field of view supplied from the image conversion device 134. In addition, for example, the display device 135 specifies the position and direction of the user's field of view in the virtual reality space according to the user's input, sensing result, and the like, and requests an image in the field of view from the bitstream conversion device 132. .
  • the imaging device 111 may be any device.
  • the imaging device 111 includes a plurality of imaging units (cameras) that capture images in different directions.
  • Image The image conversion device 112 renders the captured image group obtained by the imaging device 111 and generates an image around the imaging device 111.
  • the image conversion apparatus 112 renders the captured image group into a sphere centered on the viewpoint (that is, the position of the imaging apparatus 111), thereby using the viewpoint as a reference, for example, as illustrated in FIG.
  • An omnidirectional image (hereinafter also referred to as an omnidirectional image) is generated.
  • an omnidirectional image hereinafter also referred to as an omnidirectional image
  • the center of the spherical omnidirectional image is the origin of the XYZ coordinates, and the origin indicates the position of the viewpoint.
  • the omnidirectional image is displayed as a virtual reality space image, and is also referred to as a VR image (VR moving image).
  • the image conversion device 112 further converts the VR moving image (omnidirectional image) as shown in C of FIG.
  • a plane image is generated by expanding the plane.
  • the planar image is encoded by the encoding device 113, transmitted as a bit stream from the transmission device 114 to the reception device 131, and decoded by the decoding device 133.
  • the display device 135 displays only the image in the user's field of view
  • the bitstream conversion device 132 extracts the data in the user's field of view from the bitstream, and the bitstream of the image in the user's field of view. Is generated.
  • the configuration of the display device 135 is arbitrary.
  • the display device 135 is made of a spectacle-type device as shown in FIG. 3D, and an image for each eye is displayed near each of the left and right eyes of the user wearing the device.
  • the decoding device 133 decodes the bit stream supplied from the bit stream conversion device 132
  • the image conversion device 134 renders the obtained decoded image in a three-dimensional space
  • the display device 135 displays the image.
  • the user wearing the display device 135 can see an image of the user's field of view in the virtual reality space. That is, the image displayed on the display device 135 is a partial image of the planar image (C in FIG. 3) in which the omnidirectional image is developed, for example, as shown in E of FIG.
  • the display device 135 detects this by a sensor.
  • the display device 135 estimates the user's field of view based on the detection result, and notifies the bitstream conversion device 132 of it. Based on the notification, the bit stream converter 132 extracts an image in the user's field of view.
  • a planar image obtained by developing a VR moving image which is an encoding target of the encoding device 113, generally has a more important part and a less important part (importance level). Is biased).
  • a region near the center such as the region 141 to the region 143, is desired to be focused more than the upper region 144 and the lower region 145. It is easy to exist and the importance is likely to increase.
  • the downward direction is the step of the user, and in general, the upper end region 144 is more likely to have a target to be noticed than the lower end region 145, and the importance is likely to be higher. Also, in the left-right direction, generally, a region near the center such as the region 141 is more likely to have an object to be noticed than the left end region 142 and the right end region 143, and the importance is likely to be higher.
  • the planar image to be encoded is a developed omnidirectional image as described above.
  • it is developed by a method as shown in A of FIG. 5 or B of FIG. Therefore, the area near the upper end and the lower end of the flat image after development is based on the image of a small area near the omnidirectional image (N1 and S1 in the case of A in FIG. 5 and N and S in the case of B in FIG. 5). It is formed. Therefore, the amount of information per unit area becomes sparse and the importance is likely to be reduced.
  • the encoding device 113 sets a time resolution for each partial region of the image data to be encoded, and encodes the image data. And a bit stream including information indicating the time resolution for each set partial area is generated.
  • the image data encoded by the encoding device 113 may be plane image data in which an omnidirectional image rendered in a spherical shape centered at the viewpoint is developed on a single plane.
  • the temporal resolution may be set higher for a partial region closer to the center of the flat image in which the omnidirectional image is developed.
  • the time resolution may be set higher in the partial region closer to the center in the vertical direction of the planar image in which the omnidirectional image is developed.
  • the time resolution of the partial area near the upper end of the flat image in which the omnidirectional image is developed may be set higher than that of the partial area near the lower end of the flat image.
  • the temporal resolution (frame rate) of the area 151 near the center is 120p (120 frames per second in the progressive method), and the temporal resolution (frames) of the left and right areas 152 and 153
  • the rate is 90p (90 frames per second in the progressive method)
  • the time resolution (frame rate) of the upper and lower regions 154 and 155 of these regions is 60p (60 frames per second in the progressive method)
  • the surrounding region 156 The temporal resolution (frame rate) of the area 157 may be 30p (30 frames per second in the progressive method).
  • Fig. 7 shows the distribution of these areas in the omnidirectional image.
  • the time resolution is generally set lower in the region closer to the upper and lower ends of the omnidirectional image that is generally less important, and the time resolution is set higher in the region near the more important center. Yes. Therefore, it is possible to suppress a decrease in encoding efficiency while suppressing a decrease in subjective image quality.
  • Regions (partial regions) as shown in FIGS. 6 and 7 may be set as a tile set using a tile (Tile) structure of HEVC (High Efficiency Video Coding).
  • the tile set is an independently decodable area managed by MCTS SEI (Motion constrained tile set Supplemental Enhancement Information). For example, as shown in FIG. 8, for a moving image having a frame size (resolution) of 8K ⁇ 4K, encoded data of a tile set TS1 of a certain frame is decoded, and encoded data of a tile set TS2 of the next frame is decoded.
  • the encoded data of the tile set TS3 of the next frame is decoded
  • the encoded data of the tile set TS4 of the next frame is decoded
  • the encoded data of the tile set TS5 of the next frame is decoded
  • the frame size having the tile set TS1 to the tile set TS7 as a frame can obtain a moving image of 2K ⁇ 1K.
  • HEVC provides a temporal scalability function that can output a temporal resolution (corresponding to Temporal ID, Tid, or time identifier) in a bitstream by outputting a temporal resolution corresponding to the temporal ID, as shown in FIG.
  • each picture of a moving image to be encoded can be encoded hierarchically.
  • each square indicates a frame, and the number therein indicates POC (Picture Order Count).
  • POC Picture Order Count
  • arrows between frames indicate a reference relationship.
  • the temporal ID is identification information of each layer.
  • the hierarchical structure for temporal scalability is arbitrary and is not limited to the example of FIG.
  • level information is set for each partial area.
  • the level information indicates the level of the profile necessary for decoding, and defines the capability of the decoder and the complexity of the bit stream. More specifically, for example, the resolution and bit rate (or frame rate) of the image are defined.
  • the temporal resolution can be controlled more easily by using the temporal scalability function.
  • a decoded image of the tile set is obtained from a frame of a layer below the temporal ID. be able to. That is, the decoded image of the tile set can be obtained with the time resolution indicated in the level information.
  • the temporal resolution (frame rate) is set as level information in each partial area of the frames 181 to 185.
  • a temporal ID is set for each of the frames 181 to 185 as shown in FIG.
  • the bit stream has a hierarchical structure different from that in the example of FIG.
  • data of an area in which 60p is set is obtained from each of the frame 181, the frame 183, and the frame 185.
  • the HEVC tile set, temporal scalability (temporal ID), and level information can be used to more easily suppress the reduction of coding efficiency while suppressing the reduction of subjective image quality.
  • FIG. 12 is a block diagram illustrating a main configuration example of the encoding device 113 which is an aspect of the image processing device to which the present technology is applied.
  • the encoding device 113 encodes an input image using an HEVC encoding method or an encoding method compliant with the HEVC encoding method.
  • the encoding device 113 includes a preprocessing unit 210, a screen rearranging buffer 211, a calculation unit 212, an orthogonal transformation unit 213, a quantization unit 214, an encoding unit 215, an accumulation buffer 216, an inverse quantum.
  • the pre-processing unit 210 sets time resolution for each partial area of image data, controls encoding, parameter sets (eg, sequence parameter set (SPS (Sequence Parameter Set)) and picture parameter set (PPS (Picture Parameter Set)). ) And SEI (for example, MCTS SEI etc.), etc.
  • SPS Sequence Parameter Set
  • PPS Picture Parameter Set
  • SEI for example, MCTS SEI etc.
  • Image data supplied from the image conversion device 112 is input to the screen rearrangement buffer 211.
  • plane image data in which an omnidirectional image rendered in a spherical shape centered at the viewpoint is developed on a single plane is input.
  • the screen rearrangement buffer 211 stores the image of each frame of the input image data in the display order, and encodes the frame image of the stored display order for encoding according to GOP (Group Of Picture).
  • GOP Group Of Picture
  • the images are rearranged in the order of the frames, and the image in which the order of the frames is rearranged is supplied to the calculation unit 212.
  • the screen rearrangement buffer 211 also supplies an image in which the order of frames is rearranged to the intra prediction unit 222 and the inter prediction unit 223.
  • the calculation unit 212 subtracts the prediction image supplied from the intra prediction unit 222 or the inter prediction unit 223 via the prediction image selection unit 224 from the image read from the screen rearrangement buffer 211, and the difference between them. Residual information (also referred to as residual data) is obtained. For example, in the case of an image on which intra coding is performed, the calculation unit 212 subtracts the prediction image supplied from the intra prediction unit 222 from the image read from the screen rearrangement buffer 211. For example, in the case of an image on which inter coding is performed, the calculation unit 212 subtracts the prediction image supplied from the inter prediction unit 223 from the image read from the screen rearrangement buffer 211. The calculation unit 212 supplies the obtained residual data to the orthogonal transform unit 213.
  • the orthogonal transform unit 213 performs orthogonal transform on the residual data supplied from the calculation unit 212 by a predetermined method.
  • the orthogonal transform unit 213 supplies the residual data after the orthogonal transform (also referred to as an orthogonal transform coefficient) to the quantization unit 214.
  • the quantization unit 214 quantizes the orthogonal transform coefficient by a predetermined method.
  • the quantization unit 214 sets a quantization parameter according to the target value (target_bitrate) of the code amount supplied from the rate control unit 225, and performs the quantization.
  • the quantization unit 214 supplies the quantized residual data (also referred to as quantized data) to the encoding unit 215 and the inverse quantization unit 217.
  • the encoding unit 215 encodes the quantized data supplied from the quantization unit 214. In addition, the encoding unit 215 acquires information regarding the optimal prediction mode from the predicted image selection unit 224. Furthermore, the encoding unit 215 can acquire arbitrary information from an arbitrary processing unit. The encoding unit 215 encodes these various types of information. In this way, the encoding unit 215 encodes information regarding an image and generates encoded data. The encoding unit 215 supplies the obtained encoded data to the accumulation buffer 216 for accumulation.
  • the accumulation buffer 216 temporarily holds the encoded data supplied from the encoding unit 215.
  • the accumulation buffer 216 outputs the stored encoded data to the outside of the encoding device 113 as a bit stream, for example, at a predetermined timing.
  • the encoded data is transmitted to the decoding side via an arbitrary recording medium, an arbitrary transmission medium, an arbitrary information processing apparatus, or the like. That is, the accumulation buffer 216 is also a transmission unit that transmits encoded data.
  • the inverse quantization unit 217 performs inverse quantization on the quantized data by a method corresponding to the quantization by the quantization unit 214.
  • the inverse quantization unit 217 supplies the quantized data (also referred to as orthogonal transform coefficient) after inverse quantization to the inverse orthogonal transform unit 218.
  • the inverse orthogonal transform unit 218 performs inverse orthogonal transform on the orthogonal transform coefficient by a method corresponding to the orthogonal transform processing by the orthogonal transform unit 213.
  • the inverse orthogonal transform unit 218 supplies the orthogonal transform coefficient (also referred to as restored residual data) subjected to inverse orthogonal transform to the calculation unit 219.
  • the calculation unit 219 adds the predicted image supplied from the intra prediction unit 222 or the inter prediction unit 223 via the predicted image selection unit 224 to the restored residual data, and locally reconstructed image (also called a reconstructed image). For example, in the case of an image on which intra coding is performed, the calculation unit 219 adds the predicted image supplied from the intra prediction unit 222 to the restored residual data. For example, in the case of an image on which inter coding is performed, the calculation unit 219 adds the predicted image supplied from the inter prediction unit 223 to the restored residual data. The calculation unit 219 supplies the obtained reconstructed image to the filter 220 and the intra prediction unit 222.
  • the filter 220 appropriately performs a filtering process such as a deblocking filter on the reconstructed image.
  • the filter 220 supplies the filter processing result (referred to as a decoded image) to the frame memory 221.
  • the frame memory 221 stores the decoded image in its own storage area. Further, the frame memory 221 supplies the stored decoded image as a reference image to the inter prediction unit 223 at a predetermined timing.
  • the intra prediction unit 222 performs intra prediction (intra-screen prediction) that generates a predicted image using pixel values in a processing target picture that is a reconstructed image supplied as a reference image from the calculation unit 219. For example, the intra prediction unit 222 performs this intra prediction in a plurality of intra prediction modes prepared in advance. The intra prediction unit 222 generates a prediction image in all candidate intra prediction modes, evaluates the cost function value of each prediction image using the input image supplied from the screen rearrangement buffer 211, and selects the optimum mode. select.
  • intra prediction intra-screen prediction
  • the intra prediction unit 222 selects the optimal intra prediction mode, the prediction image generated in the optimal intra prediction mode, intra prediction mode information that is information related to intra prediction such as an index indicating the optimal intra prediction mode, and the like
  • the cost function value of the optimal intra prediction mode and the like are supplied to the predicted image selection unit 224 as information related to the prediction result.
  • the inter prediction unit 223 performs inter prediction processing (motion prediction processing and compensation processing) using the input image supplied from the screen rearrangement buffer 211 and the reference image supplied from the frame memory 221. More specifically, the inter prediction unit 223 performs a motion compensation process according to a motion vector detected by performing a motion prediction as an inter prediction process, and generates a prediction image (inter prediction image information). For example, the inter prediction unit 223 performs such inter prediction in a plurality of inter prediction modes prepared in advance. The inter prediction unit 223 generates a prediction image in all candidate inter prediction modes. The inter prediction unit 223 evaluates the cost function value of each predicted image using the input image supplied from the screen rearrangement buffer 211, information on the generated difference motion vector, and the like, and selects an optimal mode.
  • inter prediction processing motion prediction processing and compensation processing
  • the inter prediction mode is information related to inter prediction such as a prediction image generated in the optimal inter prediction mode, an index indicating the optimal inter prediction mode, and motion information.
  • Information, the cost function value of the optimal inter prediction mode, and the like are supplied to the predicted image selection unit 224 as information related to the prediction result.
  • the predicted image selection unit 224 acquires information on the above-described prediction result from the intra prediction unit 222 and the inter prediction unit 223.
  • the predicted image selection unit 224 selects a prediction mode in the region by selecting any one of them. That is, the predicted image selection unit 224 selects either the (optimum) intra prediction mode or the (optimal) inter prediction mode as the optimal prediction mode.
  • the predicted image selection unit 224 supplies the predicted image of the selected mode to the calculation unit 212 and the calculation unit 219. Also, the predicted image selection unit 224 supplies a part or all of the information related to the selected prediction result to the encoding unit 215 as information related to the optimal prediction mode.
  • the rate control unit 225 controls the quantization operation rate of the quantization unit 214 based on the code amount of the encoded data stored in the storage buffer 216 so that no overflow or underflow occurs.
  • FIG. 13 is a block diagram illustrating a main configuration example of the preprocessing unit 210 (FIG. 12).
  • the preprocessing unit 210 includes an area-specific frame rate setting unit 231, a tile set setting unit 232, a temporal ID setting unit 233, an encoding control unit 234, a level information setting unit 235, and an MCTSSEI generation unit 236. And a parameter set generation unit 237.
  • the area-specific frame rate setting unit 231 performs processing related to setting of time resolution (frame rate) for each partial area in the picture. For example, the area-specific frame rate setting unit 231 sets a partial area in a picture based on a user instruction or input image setting (for example, how to develop an omnidirectional image), and the time of the partial area Set the resolution (frame rate).
  • the position, size, and shape of this partial area are arbitrary.
  • the number of partial areas set for one picture is also arbitrary, and may be one or more.
  • the time resolution of the set partial area is also arbitrary.
  • This temporal resolution setting is independent for each partial area, and there may be a plurality of partial areas having the same frame rate in the picture, or there may be a plurality of partial areas having different frame rates. Also good.
  • the area-specific frame rate setting unit 231 supplies the set partial areas and time resolution settings to the tile set setting unit 232 and the temporal ID setting unit 233.
  • the tile set setting unit 232 performs processing related to the setting of the tile set managed by MCTS SEI of HEVC. For example, the tile set setting unit 232 realizes the partial area set by the area-specific frame rate setting unit 231 as a tile set. As a result, the partial area can be decoded independently. For example, the tile set setting unit 232 supplies information indicating the set tile set to the encoding control unit 234 and the level information setting unit 235.
  • the temporal ID setting unit 233 performs processing related to the setting of a temporal ID prepared as a time scalability function of HEVC. For example, the temporal ID setting unit 233 hierarchizes each picture so as to realize the frame rate set by the frame rate setting unit 231 for each region, and sets a temporal ID for each layer. In other words, the temporal ID setting unit 233 sets a temporal ID for each picture as information indicating temporal resolution. Further, the temporal ID setting unit 233 supplies information indicating the set temporal scalability (including the temporal ID of each picture) to the encoding control unit 234 and the parameter set generation unit 237.
  • the encoding control unit 234 performs processing related to encoding control. For example, the encoding control unit 234 controls the image encoding by the encoding device 113 based on the setting of the tile set and temporal scalability. For example, the encoding control unit 234 reflects the restriction of the reference relationship due to the setting of the tile set and temporal scalability in the encoding. Note that the encoding control unit 234 can control an arbitrary processing unit as necessary.
  • the level information setting unit 235 performs processing related to setting level information for the partial area. For example, the level information setting unit 235 sets the level information of each tile set set by the tile set setting unit 232. That is, the level information setting unit 235 sets tile set level information as information indicating the time resolution for each partial region of image data to be encoded. Since the resolution of the tile set is lower than that of the picture, the level information of the tile set is smaller than the level information of the entire picture. Further, if the temporal resolution of a tile set is reduced, the level information of the tile set is further reduced. As described above, the level information setting unit 235 sets the level information of the tile set, so that it is possible to reduce the capacity of the decoder necessary for decoding the bit stream of the tile set. For example, the level information setting unit 235 supplies information indicating the supplied tile set and level information set by the level information setting unit 235 to the MCTSSEI generation unit 236.
  • the MCTSSEI generating unit 236 generates MCTS SEI including information indicating the tile set supplied from the level information setting unit 235, level information, and the like. That is, the MCTSSEI generating unit 236 generates MCTS SEI as information on the partial area.
  • the MCTSSEI generator 236 supplies the generated MCTS SEI to the encoder 215 (FIG. 12).
  • the encoding unit 215 encodes the supplied MCTS SEI and includes it in the bitstream. That is, the bit stream output from the encoding device 113 includes information on the partial area.
  • the MCTS SEI includes tile set level information, which is information indicating the temporal resolution of the partial area. That is, the bit stream output from the encoding device 113 includes information indicating the time resolution for each partial region.
  • the parameter set generation unit 237 performs processing related to parameter set generation. For example, the parameter set generation unit 237 generates a sequence parameter set (SPS (Sequence Parameter Set)), a picture parameter set (PPS (Picture Parameter Set)), and the like.
  • the parameter set generation unit 237 includes the temporal ID of each frame in, for example, a picture parameter set. The temporal ID may be included in the sequence parameter set.
  • the parameter set generation unit 237 supplies the generated parameter set to the encoding unit 215 (FIG. 12).
  • the encoding unit 215 encodes the supplied parameter set and includes it in the bitstream. That is, the bit stream output from the encoding device 113 includes information indicating temporal resolution.
  • the encoding device 113 can suppress a decrease in encoding efficiency.
  • the preprocessing unit 210 When the image encoding process is started, the preprocessing unit 210 performs preprocessing in step S101. Details of the preprocessing will be described later.
  • the screen rearrangement buffer 211 stores the images of the frames (pictures) of the input moving image in the display order, and rearranges from the display order of the pictures to the encoding order. .
  • step S103 the intra prediction unit 222, the inter prediction unit 223, and the predicted image selection unit 224 perform a prediction process, and generate a predicted image or the like in the optimal prediction mode. That is, in this prediction process, the intra prediction unit 222 performs intra prediction to generate a prediction image or the like in the optimal intra prediction mode, and the inter prediction unit 223 performs inter prediction to generate a prediction image or the like in the optimal inter prediction mode.
  • the predicted image selection unit 224 selects the optimal one of the optimal intra prediction mode and the optimal inter prediction mode based on the cost function value and the like.
  • step S104 the calculation unit 212 calculates a difference between the input image whose frame order has been rearranged by the process of step S102 and the predicted image of the optimum mode selected by the prediction process of step S103. That is, the calculation unit 212 generates residual data (residual image) between the input image and the predicted image.
  • the residual data obtained in this way is reduced in data amount compared to the original image data. Therefore, the data amount can be compressed as compared with the case where the image is encoded as it is.
  • step S105 the orthogonal transform unit 213 performs orthogonal transform on the residual data generated by the process in step S104.
  • step S106 the quantization unit 214 quantizes the orthogonal transform coefficient obtained by the processing in step S105 by using the quantization parameter calculated by the rate control unit 225.
  • step S107 the inverse quantization unit 217 inversely quantizes the quantized data generated by the process in step S106 with a characteristic corresponding to the quantization characteristic in step S106.
  • step S108 the inverse orthogonal transform unit 218 performs inverse orthogonal transform on the orthogonal transform coefficient obtained by the process in step S107 by a method corresponding to the orthogonal transform in step S105.
  • step S109 the calculation unit 219 generates image data of the reconstructed image by adding the prediction image obtained by the prediction process of step S103 to the residual data restored by the process of step S108.
  • step S110 the filter 220 performs filter processing such as a deblocking filter on the image data of the reconstructed image generated by the processing in step S109.
  • step S111 the frame memory 221 stores the locally decoded image obtained by the process in step S110.
  • the encoding unit 215 performs an encoding process. That is, the encoding unit 215 encodes the quantized data obtained by the process of step S106. That is, the encoding unit 215 encodes quantized data, which is information about an image, by a predetermined encoding method such as variable length encoding or arithmetic encoding, and generates encoded data. At this time, the encoding unit 215 also includes information related to the image other than the quantized data corresponding to the residual data, such as information related to the prediction mode selected by the prediction processing in step S103, in the encoded data.
  • a predetermined encoding method such as variable length encoding or arithmetic encoding
  • step S113 the accumulation buffer 216 accumulates the encoded data obtained by the process in step S112.
  • the encoded data or the like stored in the storage buffer 216 is appropriately read as a bit stream, for example, and transmitted to the decoding side via a transmission path or a recording medium.
  • step S ⁇ b> 114 the rate control unit 225 performs step S ⁇ b> 106 so that overflow or underflow does not occur based on the code amount (generated code amount) of the encoded data or the like accumulated in the accumulation buffer 216 by the process of step S ⁇ b> 113. Control the rate of quantization processing.
  • step S114 ends, the image encoding process ends.
  • processing unit of each of these processes is arbitrary and does not need to be the same. Therefore, the processing of each step can be executed in parallel with the processing of other steps, or the processing order can be changed as appropriate.
  • the frame rate setting unit 231 for each region of the preprocessing unit 210 sets a partial region and its time resolution (frame rate) for the input image in step S131.
  • step S132 the tile set setting unit 232 sets a tile set corresponding to the partial area set in step S131 for each picture.
  • step S133 the temporal ID setting unit 233 sets a hierarchical structure of each picture so as to realize the frame rate set in step S131, and sets a temporal ID corresponding to the hierarchy for each picture. .
  • step S134 the encoding control unit 234 determines that the reference relationship does not contradict these settings based on the tile set set in step S132 or the temporal ID set in step S133.
  • the image encoding process described with reference to the control is controlled.
  • step S135 the level information setting unit 235 sets the level information of the tile set set in step S132.
  • step S136 the MCTSSEI generating unit 236 generates MCTS SEI including the tile set management information set in step S132 and the tile set level information set in step S135. This MCTS SEI is included in the bit stream and output in step S113 of FIG.
  • step S137 the parameter set generation unit 237 generates a parameter set including the temporal ID for each picture set in step S133. This parameter set is included in the bit stream and output in step S113 of FIG.
  • step S137 When the processing in step S137 is completed, the preprocessing is completed, and the processing returns to FIG.
  • the encoding device 113 can suppress a decrease in encoding efficiency.
  • bit stream conversion device 132 (FIG. 2) extracts partial area data designated by the display device 135 or the like from the bit stream generated by the encoding device 113 as described above, and converts it into the bit stream of the partial region. Convert. At that time, the bit stream conversion device 132 analyzes information indicating the time resolution for each partial region of the image data included in the bit stream in which the image data is encoded. Therefore, when converting to a partial area bit stream, the time resolution can be set to a time resolution according to the setting. Therefore, it is possible to suppress a reduction in coding efficiency of the partial area bit stream. Also, an increase in decoding load can be suppressed.
  • FIG. 16 is a block diagram illustrating a main configuration example of the bit stream conversion device 132 (FIG. 2) which is an aspect of the image processing device to which the present technology is applied.
  • the bit stream conversion apparatus 132 includes a control unit 251, a data extraction unit 252, a metadata update unit 253, and a bit stream generation unit 254.
  • the control unit 251 performs processing related to control of bit stream conversion. For example, the control unit 251 acquires information (region specifying information) that is supplied from the display device 135 or the like and that specifies a partial region to be extracted. For example, the control unit 251 controls the data extraction unit 252 to extract the data of the partial area specified by the area specifying information from the bit stream.
  • information region specifying information
  • the control unit 251 controls the data extraction unit 252 to extract the data of the partial area specified by the area specifying information from the bit stream.
  • the data extraction unit 252 performs processing related to data extraction. For example, the data extraction unit 252 extracts partial area data specified from the display device 135 or the like from the bitstream (Bitstream A) supplied from the reception device 131 according to the control of the control unit 251. For example, the data extraction unit 252 extracts data in units of tile sets as the data of the partial area. Since the tile set can be decoded independently, the data can be extracted from the bitstream without the need for decoding or the like. Therefore, the data extraction unit 252 can easily extract desired data. In this data extraction, for example, the data extraction unit 252 analyzes information on the temporal resolution of the partial area to be extracted, specifies the temporal resolution (frame rate) of the partial area, and further determines the temporal resolution and temporal.
  • the picture from which data is extracted is specified.
  • the data extraction unit 252 extracts data of the specified partial area from the specified picture. By doing in this way, the data of the partial area can be extracted as data of the frame rate set on the encoding side.
  • the data extraction unit 252 supplies the extracted data to the metadata update unit 253.
  • the metadata update unit 253 performs processing related to metadata update.
  • the metadata to be updated may have any content.
  • the metadata update unit 253 performs processing such as setting level information for the extracted partial region data.
  • the data extraction unit 252 extracts the data of the partial area so as to have the time resolution set on the encoding side, so that the level information of the data becomes the level information set on the encoding side. . That is, the metadata update unit 253 sets the level information set by the encoding device 113 transmitted by MCTS SEI or the like as the level information for the extracted partial region data. Further, for example, the metadata update unit 253 supplies the partial stream data whose metadata has been updated to the bitstream generation unit 254.
  • the bit stream generation unit 254 performs processing related to the generation of the bit stream. For example, the bitstream generation unit 254 generates a bitstream (Bitstream B) including the partial area data supplied from the metadata update unit 253. For example, the bit stream generation unit 254 supplies the generated bit stream to the decoding device 133 (FIG. 2).
  • the bit stream conversion device 132 can suppress a reduction in encoding efficiency. Also, an increase in decoding load can be suppressed.
  • the control unit 251 of the bit stream conversion device 132 accepts designation of an area to be extracted in step S151.
  • the data extraction unit 252 extracts, for example, metadata corresponding to the designated area, such as SEI and parameter set, from the bitstream.
  • the data extraction unit 252 identifies a tile set corresponding to the designated area.
  • the data extraction unit 252 specifies level information corresponding to the tile set specified in step S153 with reference to the metadata (for example, MCTS SEI) extracted in step S152.
  • step S155 the data extraction unit 252 selects a picture from which the tile set is extracted based on the level information specified in step S154 and the temporal ID included in the metadata (eg, picture parameter set) extracted in step S152. Identify.
  • step S156 the data extraction unit 252 extracts, from the bitstream, the data of the tile set (the tile set specified in step S153) corresponding to the specified area of the picture specified in step S155.
  • step S157 the metadata update unit 253 updates the metadata extracted in step S152 so as to correspond to the tile set extracted in step S156.
  • step S158 the bit stream generation unit 254 generates a bit stream (partial region bit stream) including the data extracted in step S156 and the metadata updated in step S157.
  • step S158 When the process of step S158 is completed, the bit stream conversion process is completed.
  • the bit stream conversion device 132 can suppress a reduction in encoding efficiency. Also, an increase in decoding load can be suppressed.
  • FIG. 18 is a block diagram illustrating a main configuration example of the decoding device 133 (FIG. 2).
  • the decoding device 133 includes a storage buffer 271, a decoding unit 272, an inverse quantization unit 273, an inverse orthogonal transform unit 274, a calculation unit 275, a filter 276, a screen rearrangement buffer 277, a frame memory 278, an intra A prediction unit 279, an inter prediction unit 280, and a prediction image selection unit 281 are included.
  • the decoding device 133 is supplied with the bit stream converted by the bit stream conversion device 132, that is, the bit stream of a desired tile set extracted from the bit stream generated by the encoding device 113.
  • the accumulation buffer 271 accumulates the bit stream and supplies the bit stream to the decoding unit 272 at a predetermined timing.
  • the decoding unit 272 decodes the bit stream (bit stream of the extracted partial area (tile set)) supplied from the accumulation buffer 271 by a method corresponding to the encoding method of the encoding unit 215 in FIG.
  • the decoding unit 272 supplies the quantized data to the inverse quantization unit 273.
  • the decoding unit 272 supplies information regarding the optimal prediction mode obtained by decoding the bitstream to the intra prediction unit 279 or the inter prediction unit 280. For example, when intra prediction is performed, the decoding unit 272 supplies information regarding the prediction result of the optimal intra prediction mode to the intra prediction unit 279.
  • the decoding unit 272 supplies information related to the prediction result of the optimal inter prediction mode to the inter prediction unit 280. Similarly, the decoding unit 272 can appropriately supply various information obtained by decoding the encoded data to various processing units that need the information.
  • the inverse quantization unit 273 performs inverse quantization on the quantized data supplied from the decoding unit 272. That is, the inverse quantization unit 273 performs inverse quantization by a method corresponding to the quantization method of the quantization unit 214 in FIG. 12 (that is, the same method as the inverse quantization unit 217).
  • the inverse quantization unit 273 supplies the orthogonal transform coefficient obtained by the inverse quantization to the inverse orthogonal transform unit 274.
  • the inverse orthogonal transform unit 274 performs inverse orthogonal transform on the orthogonal transform coefficient supplied from the inverse quantization unit 273. That is, the inverse orthogonal transform unit 274 performs inverse orthogonal transform by a method corresponding to the orthogonal transform method of the orthogonal transform unit 213 in FIG. 12 (that is, the same method as the inverse orthogonal transform unit 218).
  • the inverse orthogonal transform unit 274 supplies residual data (reconstructed residual data) obtained by the inverse orthogonal transform process to the calculation unit 275.
  • the calculation unit 275 adds the predicted image supplied from the predicted image selection unit 281 to the restored residual data supplied from the inverse orthogonal transform unit 274 to obtain a reconstructed image.
  • the calculation unit 275 supplies the reconstructed image to the filter 276 and the intra prediction unit 279.
  • the filter 276 performs the same filter processing (for example, deblocking filter) as the filter 220 of FIG.
  • the filter 276 supplies the decoded image as the filter processing result to the screen rearrangement buffer 277 and the frame memory 278.
  • the screen rearrangement buffer 277 rearranges the supplied decoded images. That is, the order of frames rearranged for the encoding order by the screen rearrangement buffer 211 in FIG. 12 is rearranged in the original display order.
  • the screen rearrangement buffer 277 supplies the decoded image data in which the frame order is rearranged to the image conversion device 134.
  • the frame memory 278 stores the supplied decoded image. Further, the frame memory 278 supplies the stored decoded image or the like to the inter prediction unit 280 at a predetermined timing or based on an external request from the inter prediction unit 280 or the like.
  • the intra prediction unit 279 performs intra prediction using the information related to the prediction result of the optimal intra prediction mode supplied from the decoding unit 272 and the reconstructed image supplied from the calculation unit 275, and generates a predicted image. .
  • the intra prediction unit 279 supplies the generated predicted image to the predicted image selection unit 281.
  • the inter prediction unit 280 performs inter prediction using information regarding the prediction result of the optimal inter prediction mode supplied from the decoding unit 272 and the decoded image supplied from the frame memory 278, and generates a prediction image.
  • the inter prediction unit 280 supplies the generated predicted image to the predicted image selection unit 281.
  • the predicted image selection unit 281 supplies the predicted image supplied from the intra prediction unit 279 or the inter prediction unit 280 to the calculation unit 275.
  • intra prediction is performed by the intra prediction unit 279 and a predicted image (intra predicted image) is generated.
  • the predicted image selection unit 281 supplies the intra predicted image to the calculation unit 275.
  • the inter prediction unit 280 performs inter prediction to generate a prediction image (inter prediction image). Therefore, the predicted image selection unit 281 supplies the inter predicted image to the calculation unit 275.
  • the decoding device 133 can decode the partial region bit stream extracted by the bit stream conversion device 132. Therefore, the decoding device 133 can suppress a decrease in encoding efficiency and can suppress an increase in decoding load.
  • the accumulation buffer 271 accumulates the bit stream supplied to the decoding device 133 in step S171.
  • the decoding unit 272 decodes the bitstream accumulated in step S171 to obtain quantized data.
  • step S173 the inverse quantization unit 273 inversely quantizes the quantized data obtained by the process in step S172 to obtain orthogonal transform coefficients.
  • step S174 the inverse orthogonal transform unit 274 obtains residual data restored by performing an inverse orthogonal transform on the orthogonal transform coefficient obtained by the process of step S173.
  • step S175 the intra prediction unit 279, the inter prediction unit 280, and the prediction image selection unit 281 perform a prediction image generation process, and generate a prediction image in a prediction mode at the time of encoding.
  • step S176 the calculation unit 275 adds the predicted image obtained by the process of step S175 to the restored residual data obtained by the process of step S174, thereby obtaining a reconstructed image.
  • step S177 the filter 276 performs a filtering process such as a deblocking filter on the reconstructed image obtained by the process in step S176, and obtains a decoded image.
  • a filtering process such as a deblocking filter
  • step S178 the screen rearrangement buffer 277 rearranges the decoded images obtained by the processing in step S177, and rearranges the frame order into the original display order (the screen rearrangement buffer 211 of the encoding device 113 rearranges). Sort in the order before switching).
  • step S179 the frame memory 278 stores the decoded image obtained by the process in step S177. This decoded image is used as a reference image in inter prediction.
  • step S179 When the process of step S179 is finished, the image decoding process is finished.
  • the decoding device 133 can decode the partial region bit stream extracted by the bit stream conversion device 132, and thus suppresses a reduction in encoding efficiency. Therefore, an increase in decoding load can be suppressed.
  • a spherical omnidirectional image is used as an example of a VR moving image.
  • the format of the VR moving image is arbitrary and is not limited to this example.
  • it may be an image (hereinafter also referred to as a six-azimuth image) rendered in a rectangular parallelepiped shape or a cubic shape centering on the viewpoint. . That is, this 6-azimuth image is composed of plane images in 6 directions perpendicular to each other.
  • the images of each surface of the 6-azimuth image are respectively flat images, when the 6-azimuth image is developed on a plane, it is easy to arrange the images on each surface so as to be arranged in a plane.
  • the arrangement method is arbitrary. For example, as shown on the right side of FIG. 20A, it may be developed in consideration of the positional relationship of each surface of the 6-azimuth image, or as shown in FIG. The six sides may be rearranged and developed so that the image is minimized.
  • the left side image (Left) is arranged in the partial region 292 on the left side of the partial region 291 in which the front image (Front) is arranged. Yes.
  • the right side image (Right) is arranged in the partial area 293 on the right side of the partial area 291 in the drawing.
  • a back (rear) image (Back) is arranged in a partial area 294 below the partial area 293 in the drawing.
  • an upper surface image (Top) is arranged in a partial area 295 in the lower part of the partial area 292 in the drawing.
  • the lower surface image (Bottom) is arranged in the partial region 296 in the lower part of the partial region 291 in the figure.
  • the encoding device 113 can encode such plane image data in which plane images in six directions perpendicular to each other centered on the viewpoint are developed on a single plane.
  • each surface of the 6-azimuth image may be made into a partial area (tile set), and the time resolution may be controlled for each surface.
  • the images of each surface of the six-direction image are perpendicular to each other, and the independence between the images is high. In general, images taken by different cameras or the like are often used. Therefore, encoding can be easily performed independently of each other, and even if the temporal resolution (frame rate) is controlled independently of each other, the influence on others is small. Therefore, tile setting is easy.
  • the time resolution may be set according to the importance of each surface. For example, in general, there is the highest possibility that the target object is present in the front image (frontward when viewed from the viewpoint position), and the importance is likely to increase. Therefore, the time resolution of the front image (in the case of B in FIG. 20, the image (Front) arranged in the partial area 291) among the planar images in which the six-azimuth image is developed is set to other partial areas (partial areas). 292 to the partial area 296) may be set higher than the image arranged.
  • the left side (left side when viewed from the viewpoint position) and the right side (viewed from the viewpoint position) and the lower side (downward side when viewed from the viewpoint position) and the lower side (downward side when viewed from the viewpoint position) are displayed.
  • the image on the right side) and the rear surface (backward as viewed from the viewpoint position) is more likely to have a target of interest and is likely to be more important. Therefore, among the planar images in which the 6-azimuth images are developed, the left side image (image (Left) arranged in the partial area 292 in the case of FIG. 20B), the right side image (partial in the case of B in FIG.
  • the time resolution of the image (Right) arranged in the region 293 and the rear image (in the case of B in FIG. 20, the image (Back) arranged in the partial region 294) is set to the time resolution of the upper image (in the case of B in FIG. 20).
  • the image may be set higher than the image arranged in the partial area 295 (Top)) or the lower surface image (in the case of FIG. 20B, the image arranged in the partial area 296 (Bottom)).
  • the image on the left side (left side as viewed from the viewpoint position) or the right side (right side as viewed from the viewpoint position) is more focused than the image on the rear side (backward as viewed from the viewpoint position).
  • the left side image in the case of FIG. 20B, the image (Left) arranged in the partial region 292)
  • the right side image in the case of B of FIG. 20
  • the temporal resolution of the image (Right) arranged in the partial area 293 may be set higher than that of the rear image (in the case of B in FIG. 20, the image arranged in the partial area 294 (Back)).
  • an image on the upper surface is more likely to have an attention object than an image on the lower surface (lower when viewed from the viewpoint position), and the importance is higher. It tends to be expensive. Accordingly, the time resolution of the top image (the image (Top) arranged in the partial area 295 in the case of B in FIG. 20) among the planar images in which the 6-azimuth image is developed is set to the bottom image (B in FIG. 20). In this case, it may be set higher than the image (Bottom) arranged in the partial area 296.
  • information indicating a picture necessary for decoding the partial area may be included in the bitstream as information indicating the temporal resolution (transmitted to the decoding side).
  • the temporal ID to be decoded ⁇ DTID, and the DTID syntax value may be transmitted for each plane as information indicating a picture necessary for decoding the partial area.
  • the syntax value may be set as follows. 1) Front, Back MaxTemporalID ⁇ Decode highest frame rate 2) Left, Right MaxTemporalID-1 ⁇ Decode 1/2 frame rate 3) Decode Top, Bottom MaxTemporalID-2 ⁇ 1/3 frame rate
  • processing such as encoding, bit stream conversion, and decoding can be performed by the same method as in the case where the above-described planar image obtained by developing the omnidirectional image is the encoding target. Therefore, although explanation about these processes is omitted, the same effect as in the case of the omnidirectional image can be obtained in the case of the 6-directional image.
  • Second Embodiment> ⁇ Temporal ID for each partial area>
  • encoding / decoding is performed using HEVC.
  • the present technology can be applied to an arbitrary encoding scheme and decoding scheme, and the above-described example of HEVC is used. It is not limited.
  • a temporal ID may be set for each partial area.
  • each partial area can be encoded with a temporal resolution corresponding to the temporal ID assigned to the partial area, as in the bit stream 310 shown in FIG. 21B.
  • a temporal ID can be set for each region in consideration of its importance, etc. Reduction of the conversion efficiency can be suppressed.
  • FIG. 22 is a block diagram illustrating an example of a configuration of an image processing system that is an aspect of an image processing system to which the present technology is applied.
  • An image processing system 400 shown in FIG. 22 is basically the same system as the image processing system 100 described with reference to FIG. That is, the image processing system 400 is basically configured in the same manner as the image processing system 100 and performs the same processing. However, in the case of the image processing system 400, the bit stream conversion device 132 of the image processing system 100 is omitted. Further, a decoding device 411 is provided instead of the decoding device 133.
  • the decoding device 411 is basically the same device as the decoding device 133, but decodes the bit stream received by the receiving device 131, that is, the bit stream of the entire picture generated by the encoding device 113. However, in the case of the image processing system 400, the encoding device 113 sets a temporal ID for each partial area as described with reference to FIG. 21A, and as described with reference to FIG. Based on the temporal resolution of each partial area, only necessary partial areas in the picture are encoded.
  • the decoding device 411 decodes the data in the partial area requested by the display device 135 or the like included in such a bitstream.
  • the data of each partial area is stored in this bit stream with the time resolution set for the partial area. Therefore, the decoding apparatus 411 can obtain a moving image having a set time resolution in the partial area by decoding the partial area.
  • the image data to be encoded is arbitrary, and may be, for example, a planar image in which the omnidirectional image described in the first embodiment is expanded, or a 6-directional image is expanded. It may be a flat image.
  • the time resolution of each partial area can be set arbitrarily.
  • the time resolution may be set according to the importance of the area. For example, when a planar image in which an omnidirectional image is developed is an encoding target, the temporal resolution may be set higher for a partial region closer to the center of the planar image. In addition, in the vertical direction of the planar image, the time resolution may be set higher in a partial region closer to the center. Furthermore, the time resolution of the partial area near the upper end of the planar image may be set higher than that of the partial area near the lower end of the planar image.
  • the temporal resolution of the planar image in front of the viewpoint from among the six directions is set higher than that of the planar image in other directions. You may do it.
  • the temporal resolution of the left, right, and rear planar images in the six directions from the viewpoint may be set higher than the upper and lower planar images as viewed from the viewpoint.
  • the time resolution of the left and right planar images viewed from the viewpoint among the six directions may be set higher than that of the rear planar image viewed from the viewpoint.
  • the time resolution of the upper planar image viewed from the viewpoint among the six directions may be set higher than that of the lower planar image viewed from the viewpoint.
  • the encoding device 113 has basically the same configuration (FIG. 12) as in the case of the first embodiment.
  • the preprocessing unit 210 has a configuration as shown in FIG. As illustrated in FIG. 23, the preprocessing unit 210 includes an area-specific frame rate setting unit 421, an area setting unit 422, an area-specific temporal ID setting unit 423, an encoding control unit 424, and a parameter set generation unit 425.
  • the region-specific frame rate setting unit 421 is a processing unit similar to the region-specific frame rate setting unit 231 and performs processing related to setting of time resolution (frame rate) for each partial region in a picture.
  • the area-specific frame rate setting unit 421 supplies the set partial areas and time resolution settings to the area setting unit 422.
  • the area setting unit 422 sets the position, size, shape, etc. of the partial area where the time resolution is set.
  • the area setting unit 422 can set a partial area in an arbitrary data unit.
  • the partial area may be set using a tile set that can be decoded independently, or the partial area may be set without using the tile set. It may be.
  • the region setting unit 422 supplies information indicating the set partial region to the region-specific temporal ID setting unit 423.
  • the region-specific temporal ID setting unit 423 sets a temporal ID having a value corresponding to the time resolution set by the region-specific frame rate setting unit 421 for each partial region set by the region setting unit 422.
  • the region-specific temporal ID setting unit 423 supplies information indicating the partial region and information indicating the temporal ID to the encoding control unit 424 and the parameter set generation unit 425.
  • the encoding control unit 424 controls each processing unit of the encoding device 113 based on the supplied partial area and information indicating its temporal ID, and encodes the partial area included in the current picture for each picture of the image data. As shown in FIG. 21B, a bit stream including partial area data of each time resolution is generated.
  • the parameter set generation unit 425 generates a parameter set.
  • the parameter set generation unit 425 generates a parameter set including information indicating a partial region and information indicating its temporal resolution (temporal ID).
  • the region setting unit 422 may set a partial region in units of tiles, and the region-specific temporal ID setting unit 423 may set the temporal ID of each partial region.
  • the parameter set generation unit 425 may generate a parameter set including information indicating a partial area using a tile and information indicating a temporal resolution of each partial area using a temporal ID.
  • FIG. 1 An example of the syntax in that case is shown in FIG. The semantics are shown in FIG.
  • the partial region for controlling the temporal resolution is set using the tile identification information (region_tileIdx [i]), and the temporal resolution is set using the temporal ID (region_temporal_id [i]). Has been. These pieces of information may be set in the sequence parameter set.
  • the encoding device 113 is configured as a bit stream 310 illustrated in B of FIG. In addition, it is possible to generate a bit stream including a partial area of each time resolution. Thereby, the reduction of encoding efficiency can be suppressed.
  • the frame rate setting unit 231 for each area of the pre-processing unit 210 sets a partial area and its time resolution (frame rate) for the input image in step S201.
  • step S202 the area setting unit 422 sets the partial area set in step S201 for each picture.
  • step S203 the regional temporal ID setting unit 423 sets the hierarchical structure of each picture so as to realize the frame rate set in step S201, and corresponds to the temporal resolution for each partial region. Set the temporal ID.
  • step S204 the encoding control unit 424 controls the image encoding process described with reference to FIG. 14 based on the partial area set in step S202 and the temporal ID for each partial area set in step S203. To do.
  • step S205 the parameter set generation unit 425 generates a parameter set. This parameter set is included in the bit stream and output in step S113 of FIG.
  • step S205 When the processing in step S205 is completed, the preprocessing is completed, and the processing returns to FIG.
  • the encoding device 113 can suppress a decrease in encoding efficiency.
  • the decoding device 411 decodes the bitstream generated by the encoding device 113 as described above. At that time, the decoding device 411 analyzes information indicating the time resolution for each partial region of the image data included in the bit stream in which the image data is encoded. Accordingly, the decoding device 411 can identify and decode a partial area existing in the current picture. Therefore, the decoding device 411 can correctly decode the bitstream generated by the encoding device 113 described in the present embodiment. That is, a reduction in encoding efficiency can be suppressed. Note that the decoding device 411 may complement an area where no current picture exists. By doing so, the decoding device 411 can encode the entire picture.
  • FIG. 26 is a block diagram illustrating a main configuration example of the decoding device 411.
  • the decoding device 411 has basically the same configuration as the decoding device 133 (FIG. 18).
  • the decoding device 411 includes a decoding area determination unit 441 and includes a decoding unit 442 instead of the decoding unit 272.
  • the decoding area determination unit 441 analyzes information (eg, temporal ID for each partial area) indicating the temporal resolution for each partial area of the image data included in the bitstream, and determines an area to be decoded for each picture.
  • the decoding area determination unit 441 also supplies the determination result to the decoding unit 442.
  • the decoding unit 442 selects a desired partial area from the encoded data of the image data included in the bitstream.
  • the encoded data is decoded.
  • the decoding unit 442 decodes the encoded data of the partial area included in the current picture for each picture of the image data based on the analyzed temporal resolution for each partial area.
  • the decoding device 411 can correctly decode the bitstream generated by the encoding device 113 described in the present embodiment. That is, a reduction in encoding efficiency can be suppressed.
  • the decoding unit 442 decodes a partial region where data of each picture exists according to the determination result of the decoding region determination unit 441, and complements other regions. By doing so, the decoding device 411 can encode the entire picture.
  • the accumulation buffer 271 accumulates the bit stream supplied to the decoding device 411 in step S221.
  • the decoding area determination unit 441 grasps a temporal ID for each partial area.
  • the decoding area determination unit 441 specifies an area (decoding area) to be decoded for the current picture based on the time information of the current picture and the temporal ID of each partial area.
  • the decoding unit 442 decodes the decoding area specified in step S223 of the current picture.
  • the decoding unit 442 complements an area (other area) other than the decoding area of the current picture.
  • step S226 to step S232 is executed in the same manner as each process from step S173 to step S179 in FIG.
  • the image decoding process ends.
  • the decoding device 411 can decode the bitstream generated by the encoding device 113, so that it is possible to suppress a reduction in encoding efficiency and An increase in load can be suppressed.
  • the partial area may not be a tile set. Therefore, in the picture, as shown in FIG. 28A, other partial areas may be referred to. For example, in encoding / decoding of the block 452 in the partial area 302, a prediction image may be generated with reference to the block 451 in the partial area 301. Also, when referring to other frames, as shown in FIG. 28B, it may be possible to refer to a partial area different from itself.
  • the decoding method performed by the decoding device 411 for regions other than the partial region included in the current picture is arbitrary.
  • the frame may be a frame adjacent to the frame 462 (for example, the frame 461 or the frame 462) or a frame near the frame 462.
  • the image may be complemented using an average of images of a plurality of other frames different from the current picture.
  • the frame used for calculating the average is arbitrary.
  • the frames before and after the frame 462 (frame 461 and frame 463) may be used, or other frames may be used.
  • a new image may be generated using, for example, a motion flow, and complemented using the generated new image.
  • this complementing method may be variable.
  • a method selected from a plurality of methods prepared in advance may be used.
  • any of the above-described method using a copy of an image of another picture different from the current picture, a method using an average of images of a plurality of other pictures different from the current picture, or a method using a newly generated image You may make it complement by adopting.
  • this complementing method may be designated from the encoding side. That is, information regarding this complementing method (for example, information specifying the complementing method) may be provided from the encoding side to the decoding side.
  • the encoding device 113 may include information regarding the complementing method in the bitstream. Then, the decoding device 411 may extract information regarding the complementing method from the bitstream and use it when complementing.
  • the information indicating the temporal resolution of the partial area is used as the information indicating the temporal resolution.
  • level information set for each partial area may be used.
  • information indicating a picture necessary for decoding the partial area may be used.
  • the decoding apparatus 411 is described as decoding the bitstream generated by the encoding apparatus 113.
  • the bit stream conversion apparatus may extract data of a desired partial area from the bit stream generated by the encoding apparatus 113 and generate a bit stream of the partial area.
  • the decoding device 133 may decode the bitstream generated by the encoding device 113.
  • the bitstream generated by the encoding device 113 includes data of all partial areas of all frames. Therefore, the decoding device 133 can decode an arbitrary partial area at an arbitrary frame rate. For example, the decoding device 133 can decode the data of the partial area of the picture corresponding to the temporal resolution.
  • the encoding device 113 generates one bit stream.
  • the present invention is not limited to this, and for each partial region for controlling the temporal resolution.
  • a bit stream may be generated.
  • the encoding device 113 may set a time resolution for each partial area of the image data to be encoded, and generate a bit stream having the set time resolution for each partial area. That is, the data of each partial area may be stored in different bit streams and transmitted.
  • FIG. 30 shows a configuration example of the bit stream in that case.
  • four bit streams of a bit stream 510, a bit stream 520, a bit stream 530, and a bit stream 540 are generated.
  • the bit stream 510 is a bit stream of a partial area with a frame rate of 30p, and the number of frames is thinned out to the original quarter as in the case of the frame 511 and the frame 512.
  • the bit stream 520 is a bit stream of a partial area with a frame rate of 60p, and the number of frames is thinned out to the original half like frames 521 to 523.
  • the bit stream 530 is a partial area bit stream having a frame rate of 90p, and the number of frames is thinned out to the original three-quarters as in the frames 531 to 534.
  • the bit stream 540 is a partial area bit stream having a frame rate of 120p, and the number of frames remains the same as in the frames 541 to 545.
  • the encoding device 113 can generate the bit stream of each partial area with the temporal resolution of the partial area.
  • a bit stream may be transmitted (provided) using a standard such as MPEG-DASH (Moving / Picture / Experts / Group / phase / Dynamic / Adaptive / Streaming / over / HTTP).
  • MPEG-DASH Motional Video Coding
  • the positional relationship of each bit stream (partial areas) is managed by MPD (Media Presentation / Description). As a result, only the bit stream necessary for reproduction can be provided, and an increase in data transmission load can be suppressed.
  • the encoding device 113 sets such partial areas, sets the time resolution of each set partial area, A bitstream for each set partial area may be generated.
  • the partial area may be a tile set that can be decoded independently.
  • the data to be encoded / decoded is arbitrary as in the case of the first embodiment and the second embodiment.
  • a plane image in which an omnidirectional image is developed or a plane image in which a six-azimuth image is developed may be the encoding target.
  • the setting of the time resolution for the partial area is the same as in the first embodiment and the second embodiment. By doing in this way, the effect similar to the case of 1st Embodiment or 2nd Embodiment can be acquired.
  • the image to be encoded may be any image.
  • the present technology can be applied to encoding, decoding, bit stream conversion, and the like of an arbitrary image.
  • a plane image in which a plurality of moving images captured by a plurality of cameras are arranged on a plane is an encoding target, but a single moving image captured by a single camera is encoded. It may be a target for conversion.
  • the present technology is applied to a surveillance camera system or the like, and while maintaining the time resolution of an attention area (high importance area) where a monitoring target such as a suspicious person exists at a high level, You may make it reduce the time resolution of a low area
  • the partial region (position, shape, size, etc.) for controlling the time resolution and the time resolution may be variable in the time direction.
  • the position, shape, size, etc. of the partial area and its time resolution may change with time.
  • the attention area may be moved and deformed along with the movement of the monitoring target.
  • the time resolution of each region may be changed according to the change in the user's line-of-sight direction or viewpoint position.
  • the sequence when changing the area, temporal resolution, etc., the sequence may be divided and newly set in a new sequence parameter set, SEI, etc., but these can be updated in the picture parameter set. May be.
  • the captured image (a planar image generated from the captured image) is described as the encoding target.
  • the encoding target image is arbitrary, for example, a CG (Computer-Graphics) image or an animation image. Thus, it may be other than a captured image.
  • ⁇ Control> it may be possible to control whether or not to apply the present technology described above. For example, it may be possible to control whether or not the time resolution is set for the partial area by a user instruction or the like. Also, the temporal resolution may be set for the partial region only when a predetermined condition is satisfied, for example, only when the target bit rate is a low rate.
  • control information related to application of the present technology may be transmitted from the encoding side to the decoding side.
  • This control information may be any information as long as it relates to the application of the present technology.
  • information for controlling whether to set (or prohibit) whether to set the time resolution for the partial area
  • information for controlling whether to set the time resolution for the partial area Execution control information
  • information for restricting parameter values such as time resolution (parameter restriction information)
  • information for setting execution and determination conditions, etc. can be transmitted from the encoding side to the decoding side. Also good.
  • the present technology has a multi-view image encoding / decoding system that performs encoding / decoding of multi-view images including images of a plurality of viewpoints (views), and a scalability function for predetermined parameters.
  • the present invention can also be applied to a hierarchical image encoding (scalable encoding) / decoding system that performs encoding / decoding of a multi-layered (hierarchical) hierarchical image.
  • this technology is capable of processing images, for example, systems and devices used in any field such as traffic, medical care, crime prevention, agriculture, livestock industry, mining, beauty, factory, home appliances, weather, and nature monitoring. It can be applied to a processing unit or the like.
  • the present technology can also be applied to systems and devices used for viewing.
  • the present technology can be applied to a system or a device provided for traffic management.
  • the present technology can also be applied to a system or device used for security.
  • the present technology can be applied to a system or a device provided for sports.
  • the present technology can also be applied to a system or a device provided for agriculture.
  • the present technology can also be applied to a system or device used for livestock industry.
  • the present technology can also be applied to systems and devices that monitor natural conditions such as volcanoes, forests, and oceans.
  • the present technology can be applied to, for example, a weather observation system or a weather observation apparatus that observes weather, temperature, humidity, wind speed, sunshine duration, and the like.
  • the present technology can also be applied to systems and devices for observing the ecology of wildlife such as birds, fish, reptiles, amphibians, mammals, insects, and plants.
  • ⁇ Computer> The series of processes described above can be executed by hardware or can be executed by software.
  • a program constituting the software is installed in the computer.
  • the computer includes, for example, a general-purpose personal computer that can execute various functions by installing a computer incorporated in dedicated hardware and various programs.
  • FIG. 31 is a block diagram showing an example of the hardware configuration of a computer that executes the above-described series of processing by a program.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • An input / output interface 810 is also connected to the bus 804.
  • An input unit 811, an output unit 812, a storage unit 813, a communication unit 814, and a drive 815 are connected to the input / output interface 810.
  • the input unit 811 includes, for example, a keyboard, a mouse, a microphone, a touch panel, an input terminal, and the like.
  • the output unit 812 includes, for example, a display, a speaker, an output terminal, and the like.
  • the storage unit 813 includes, for example, a hard disk, a RAM disk, a nonvolatile memory, and the like.
  • the communication unit 814 includes a network interface, for example.
  • the drive 815 drives a removable medium 821 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
  • the CPU 801 loads the program stored in the storage unit 813 into the RAM 803 via the input / output interface 810 and the bus 804 and executes the program, for example. Is performed.
  • the RAM 803 also appropriately stores data necessary for the CPU 801 to execute various processes.
  • the program executed by the computer (CPU 801) can be recorded and applied to, for example, a removable medium 821 as a package medium or the like.
  • the program can be installed in the storage unit 813 via the input / output interface 810 by attaching the removable medium 821 to the drive 815.
  • This program can also be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
  • the program can be received by the communication unit 814 and installed in the storage unit 813.
  • this program can be installed in the ROM 802 or the storage unit 813 in advance.
  • the present technology is, for example, a transmitter or receiver in cable broadcasting such as satellite broadcasting and cable TV, distribution on the Internet, and distribution to terminals by cellular communication, or a medium such as an optical disk, a magnetic disk, and a flash memory
  • the present invention can be applied to various electronic devices such as a recording device for recording an image on the recording medium and a reproducing device for reproducing an image from these storage media.
  • the present technology can also be applied to a network system including a plurality of devices.
  • FIG. 32 illustrates an example of a schematic configuration of a network system to which the present technology is applied.
  • a network system 1600 shown in FIG. 32 is a system in which devices exchange information regarding images (moving images) via a network.
  • the cloud service 1601 of the network system 1600 is connected to terminals such as a computer 1611, an AV (Audio Visual) device 1612, a portable information processing terminal 1613, and an IoT (Internet of Things) device 1614 that are communicably connected to the network system 1600.
  • This is a system for providing services related to images (moving images).
  • the cloud service 1601 provides a terminal with a content supply service for images (moving images) such as so-called moving image distribution (on-demand or live distribution).
  • the cloud service 1601 provides a backup service that receives and stores image (moving image) content from a terminal.
  • the cloud service 1601 provides a service that mediates transfer of content of images (moving images) between terminals.
  • the physical configuration of the cloud service 1601 is arbitrary.
  • the cloud service 1601 includes various servers such as a server that stores and manages moving images, a server that distributes moving images to terminals, a server that acquires moving images from terminals, a user (terminal) and a server that manages charging, Any network such as the Internet or a LAN may be provided.
  • the computer 1611 is configured by an information processing apparatus such as a personal computer, a server, a workstation, or the like.
  • the AV device 1612 is configured by an image processing device such as a television receiver, a hard disk recorder, a game device, a camera, or the like.
  • the portable information processing terminal 1613 is configured by a portable information processing device such as a notebook personal computer, a tablet terminal, a mobile phone, a smartphone, or the like.
  • the IoT device 1614 is configured by an arbitrary object that performs processing related to an image, such as a machine, a household appliance, furniture, other objects, an IC tag, a card type device, and the like.
  • Each of these terminals has a communication function, can connect to the cloud service 1601 (establish a session), and exchange information with the cloud service 1601 (that is, perform communication). Each terminal can also communicate with other terminals. Communication between terminals may be performed via the cloud service 1601 or may be performed without using the cloud service 1601.
  • the present technology may be applied when moving image encoded data is exchanged between terminals or between a terminal and the cloud service 1601.
  • the cloud service 1601 when the cloud service 1601 provides a VR video and the terminal acquires and plays the VR video, the cloud service 1601 uses the VR video as the VR video for each partial area as described above in each embodiment.
  • a bit stream obtained by encoding image data in which is set may be provided to the terminal.
  • association means, for example, that one data can be used (linked) when one data is processed. That is, the data associated with each other may be collected as one data, or may be individual data. For example, information associated with encoded data (image) may be transmitted on a different transmission path from the encoded data (image). Further, for example, information associated with encoded data (image) may be recorded on a recording medium different from the encoded data (image) (or another recording area of the same recording medium). Good.
  • the “association” may be a part of the data, not the entire data. For example, an image and information corresponding to the image may be associated with each other in an arbitrary unit such as a plurality of frames, one frame, or a part of the frame.
  • the present technology may be applied to any configuration that constitutes an apparatus or a system, such as a processor as a system LSI (Large Scale Integration), a module using a plurality of processors, a unit using a plurality of modules, and the unit. It can also be implemented as a set to which other functions are added (that is, a partial configuration of the apparatus).
  • a processor as a system LSI (Large Scale Integration)
  • a module using a plurality of processors a unit using a plurality of modules
  • the unit such as a set to which other functions are added (that is, a partial configuration of the apparatus).
  • the system means a set of a plurality of constituent elements (devices, modules (parts), etc.), and it does not matter whether all the constituent elements are in the same casing. Accordingly, a plurality of devices housed in separate housings and connected via a network and a single device housing a plurality of modules in one housing are all systems. .
  • the configuration described as one device (or processing unit) may be divided and configured as a plurality of devices (or processing units).
  • the configurations described above as a plurality of devices (or processing units) may be combined into a single device (or processing unit).
  • a configuration other than that described above may be added to the configuration of each device (or each processing unit).
  • a part of the configuration of a certain device (or processing unit) may be included in the configuration of another device (or other processing unit). .
  • the present technology can take a configuration of cloud computing in which one function is shared and processed by a plurality of devices via a network.
  • the above-described program can be executed in an arbitrary device.
  • the device may have necessary functions (functional blocks and the like) so that necessary information can be obtained.
  • each step described in the above flowchart can be executed by one device or can be executed by a plurality of devices.
  • the plurality of processes included in the one step can be executed by being shared by a plurality of apparatuses in addition to being executed by one apparatus.
  • a plurality of processes included in one step can be executed as a process of a plurality of steps.
  • the processing described as a plurality of steps can be collectively executed as one step.
  • the program executed by the computer may be executed in a time series in the order described in this specification for the processing of the steps describing the program, or in parallel or called. It may be executed individually at a necessary timing. That is, as long as no contradiction occurs, the processing of each step may be executed in an order different from the order described above. Furthermore, the processing of the steps describing this program may be executed in parallel with the processing of other programs, or may be executed in combination with the processing of other programs.
  • this technique can also take the following structures.
  • a time resolution setting unit for setting a time resolution for each partial region of image data to be encoded;
  • An image processing apparatus comprising: an encoding unit that encodes the image data and generates a bitstream including information indicating the temporal resolution for each partial region set by the temporal resolution setting unit.
  • the partial area is a tile set that can be decoded independently.
  • the bitstream includes information regarding the partial area.
  • the information regarding the partial region is MCTS SEI (Motion constrained tile set Supplemental Enhancement Information).
  • the information indicating the temporal resolution includes a temporal ID set for each picture of the image data.
  • the information indicating the temporal resolution includes level information set for each partial region.
  • the information indicating the temporal resolution includes information indicating a picture necessary for decoding the partial area.
  • the time resolution setting unit sets the time resolution of the partial region near the upper end of the planar image in which the omnidirectional image is developed higher than the partial region near the lower end of the planar image.
  • An image processing apparatus according to 1. (13) The image processing according to any one of (1) to (8), wherein the image data is data of a planar image in which planar images in six directions perpendicular to each other centered on a viewpoint are developed on a single plane. apparatus. (14) The image processing according to (13), wherein the time resolution setting unit sets the time resolution of a front plane image viewed from the viewpoint among the six directions higher than that of a plane image in another direction. apparatus.
  • the temporal resolution setting unit is configured to set the temporal resolution of the left, right, and rear planar images as viewed from the viewpoint among the six directions from the upper and lower planar images as viewed from the viewpoint.
  • the temporal resolution setting unit sets the temporal resolution of the left and right planar images viewed from the viewpoint out of the six directions higher than the backward planar image viewed from the viewpoint.
  • the time resolution setting unit sets, in the six directions, the time resolution of the upper planar image when viewed from the viewpoint is higher than that of the lower planar image when viewed from the viewpoint.
  • Image processing apparatus (18) Set the time resolution for each partial area of the image data to be encoded, An image processing method for encoding the image data and generating a bitstream including information indicating the temporal resolution for each of the set partial areas.
  • An image processing apparatus including an analysis unit that analyzes information indicating a time resolution for each partial region of the image data included in a bitstream in which the image data is encoded.
  • the bitstream includes information regarding the partial area.
  • the image processing apparatus according to (23), wherein the information regarding the partial region is MCTS SEI (Motion constrained tile set Supplemental Enhancement Information).
  • the image processing device according to any one of (21) to (24), wherein the information indicating the temporal resolution includes a temporal ID set for each picture of the image data.
  • the image processing device according to any one of (21) to (25), wherein the information indicating the temporal resolution includes level information set for each partial region.
  • the information indicating the temporal resolution includes information indicating a picture necessary for decoding the partial area.
  • the image data is an image according to any one of (21) to (27), wherein the image data is planar image data in which an omnidirectional image rendered in a spherical shape centered at a viewpoint is developed on a single plane. Processing equipment.
  • the image processing device according to (28), wherein the time resolution of the image data is set higher in a partial region closer to the center of the planar image in which the omnidirectional image is developed.
  • the temporal resolution of the upper planar image viewed from the viewpoint among the six directions is set higher than that of the lower planar image viewed from the viewpoint.
  • Image processing apparatus (7) A data extraction unit that extracts data of a desired partial region from the bitstream according to the analysis result of the analysis unit; The image processing apparatus according to any one of (21) to (36), further comprising: a bitstream generation unit that generates a bitstream including the data of the partial area extracted by the data extraction unit. (38) The image processing device according to (37), wherein the data extraction unit extracts data of the partial region from a picture corresponding to the temporal resolution.
  • the image processing device according to any one of (21) to (36), further including a decoding unit that decodes data of a desired partial region from the bitstream according to an analysis result of the analysis unit.
  • a decoding unit that decodes data of a desired partial region from the bitstream according to an analysis result of the analysis unit.
  • the decoding unit decodes data of the partial area of the picture corresponding to the temporal resolution.
  • a time resolution setting unit for setting a time resolution for each partial region of image data to be encoded;
  • An image processing apparatus comprising: an encoding unit that encodes the image data and generates a bitstream including information indicating the temporal resolution for each partial region set by the temporal resolution setting unit.
  • It further includes a partial area setting unit for setting the partial area, The image processing device according to (51), wherein the time resolution setting unit is configured to set a time resolution of each partial region set by the partial region setting unit.
  • the image processing device according to any one of (51) to (54), wherein the information indicating the temporal resolution includes a temporal ID set for each partial region.
  • the information indicating the temporal resolution includes level information set for each partial region.
  • the image processing device according to any one of (51) to (54), wherein the information indicating the temporal resolution includes information indicating a picture necessary for decoding the partial area.
  • the image data is an image according to any one of (51) to (57), wherein the image data is planar image data in which an omnidirectional image rendered in a spherical shape with a viewpoint as a center is developed on a single plane. Processing equipment.
  • the temporal resolution setting unit sets the temporal resolution of the left and right planar images viewed from the viewpoint out of the six directions higher than the backward planar image viewed from the viewpoint. 64).
  • the temporal resolution setting unit sets the temporal resolution of the upper planar image viewed from the viewpoint out of the six directions higher than that of the lower planar image viewed from the viewpoint. Image processing apparatus.
  • the encoding unit encodes a partial region included in a current picture for each picture of the image data based on the temporal resolution for each partial region set by the temporal resolution setting unit. ) To (66).
  • bitstream includes information relating to a method for complementing a region other than the partial region of a picture at the time of decoding.
  • bitstream includes information relating to a method for complementing a region other than the partial region of a picture at the time of decoding.
  • An image processing apparatus including an analysis unit that analyzes information indicating a temporal resolution for each partial region of the image data included in a bitstream in which the image data is encoded.
  • the information indicating the temporal resolution includes level information set for each partial region.
  • the image processing device according to any one of (71) to (73), wherein the information indicating the temporal resolution includes information indicating a picture necessary for decoding the partial area.
  • the image data is an image according to any one of (71) to (76), wherein the image data is data of a planar image in which an omnidirectional image rendered in a spherical shape with a viewpoint as a center is developed on a single plane. Processing equipment.
  • the temporal resolution of the upper planar image viewed from the viewpoint among the six directions is set higher than that of the lower planar image viewed from the viewpoint.
  • Image processing apparatus (86) A decoding unit that decodes the encoded data of a desired partial region in the encoded data of the image data included in the bitstream according to the analysis result of the analyzing unit is further provided. (71) to (85) An image processing apparatus according to any one of the above. (87) The decoding unit decodes the encoded data of the partial region included in the current picture for each picture of the image data based on the temporal resolution of each partial region analyzed by the analysis unit. ).
  • the image processing device wherein the decoding unit complements an area other than the partial area of a current picture.
  • the decoding unit may copy an area other than the partial area of the current picture, copy an image of another picture different from the current picture, an average of images of a plurality of other pictures different from the current picture, or The image processing apparatus according to (88), which is complemented using a newly generated image.
  • the decoding unit complements an area other than the partial area of the current picture using a method corresponding to information regarding a method of complementing an area other than the partial area of the current picture, included in the bitstream.
  • the image processing apparatus according to (88).
  • a data extraction unit that extracts data of a desired partial region from the bitstream according to the analysis result of the analysis unit;
  • the image processing device according to any one of (71) to (85), further comprising: a bitstream generation unit that generates a bitstream including the data of the partial area extracted by the data extraction unit.
  • a bitstream generation unit that generates a bitstream including the data of the partial area extracted by the data extraction unit.
  • a time resolution setting unit for setting a time resolution for each partial region of image data to be encoded;
  • An image processing apparatus comprising: an encoding unit that generates a bit stream of the temporal resolution set by the temporal resolution setting unit for each partial region.
  • (102) further comprising a partial area setting unit for setting the partial area;
  • the time resolution setting unit is configured to set a time resolution of each partial region set by the partial region setting unit,
  • the image processing device according to (101), wherein the encoding unit is configured to generate the bitstream for each partial region set by the partial region setting unit.
  • the image processing device according to (101) or (102), wherein the partial area is a tile set that can be decoded independently.
  • the time resolution setting unit sets the time resolution of the partial region near the upper end of the planar image in which the omnidirectional image is developed higher than the partial region near the lower end of the planar image.
  • An image processing apparatus according to 1. (108) The image data according to any one of (101) to (103), wherein the image data is data of a planar image in which planar images in six directions perpendicular to each other centered on a viewpoint are developed on a single plane. apparatus. (109) The image processing according to (108), wherein the temporal resolution setting unit sets the temporal resolution of a planar image ahead viewed from the viewpoint among the six directions higher than that of a planar image in another direction. apparatus.
  • the temporal resolution setting unit is configured to set the temporal resolution of the left, right, and rear planar images viewed from the viewpoint among the six directions from the upper and lower planar images viewed from the viewpoint.
  • the image processing apparatus according to (109).
  • the temporal resolution setting unit sets the temporal resolution of the left and right planar images viewed from the viewpoint out of the six directions higher than the backward planar image viewed from the viewpoint. 110).
  • the temporal resolution setting unit sets the temporal resolution of the upper planar image viewed from the viewpoint out of the six directions higher than that of the lower planar image viewed from the viewpoint.
  • Image processing apparatus (113) Set a time resolution for each partial area of the image data to be encoded, An image processing method for generating a bit stream of the set temporal resolution for each partial area.
  • image processing system 111 imaging device, 112 image conversion device, 113 encoding device, 114 transmission device, 120 network, 131 reception device, 132 bitstream conversion device, 133 decoding device, 134 image conversion device, 135 display device, 210 Pre-processing unit, 231 Frame rate setting unit by region, 232 tile set setting unit, 233 temporal ID setting unit, 234 encoding control unit, 235 level information setting unit, 236 MCTSSEI setting unit, 237 parameter set generation unit, 251 control unit , 252 data extraction unit, 253 metadata update unit, 254 bitstream generation unit, 272 decoding unit, 400 image processing system, 411 decoding device, 421 area Separate frame rate setting unit, 422 region setting unit, 423 region-specific temporal ID setting unit, 424 encoding control unit, 425 parameter set generation unit, 441 decoding region determination unit, 442 decoding unit, 510 bit stream, 520 bit stream, 530 Bitstream, 540 bitstream, 800 computer, 1600 network system, 1601 cloud service, 16

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本開示は、符号化効率の低減を抑制することができるようにする画像処理装置および方法に関する。 符号化する画像データの部分領域毎の時間解像度を設定し、その画像データを符号化し、設定された部分領域毎の時間解像度を示す情報を含むビットストリームを生成する。または、画像データが符号化されたビットストリームに含まれる、その画像データの部分領域毎の時間解像度を示す情報を解析する。本開示は、例えば、画像処理装置、ビットストリーム変換装置、画像符号化装置、画像復号装置、通信装置等に適用することができる。

Description

画像処理装置および方法
 本開示は、画像処理装置および方法に関し、特に、符号化効率の低減を抑制することができるようにした画像処理装置および方法に関する。
 従来、MPEG-4 Part10 (Advanced Video Coding、以下AVCと記す)より更なる符号化効率の向上を目的として、ITU-T(International Telecommunication Union Telecommunication Standardization Sector)と、ISO/IEC(International Organization for Standardization / International Electrotechnical Commission)の共同の標準化団体であるJCTVC(Joint Collaboration Team - Video Coding)により、HEVC(High Efficiency Video Coding)と呼ばれる符号化方式の標準化が進められている(例えば、非特許文献1参照)。
 近年、このような画像符号化方式において符号化の対象とする画像データの解像度が高くなってきた。例えば、VR(Virtual Reality)動画を符号化する場合、視点位置から周囲の画像を平面に展開した平面画像を符号化対象とするため、8K×4K等のような高解像度の画像を符号化することになる。
 符号化対象の画像が高解像度化すると符号量が増大するため、さらなる符号化効率の向上が求められるが、従来の画像符号化方式の場合、ピクチャ内に、空間解像度が互いに異なる画像が存在することは許容されるものの、時間解像度(フレームレート)が互いに異なる画像が存在することは許容されなかった。そのため、ピクチャの部分領域毎に時間解像度を制御することができず、符号化効率が低減するおそれがあった。
 本開示は、このような状況に鑑みてなされたものであり、符号化効率の低減を抑制することができるようにするものである。
 本技術の一側面の画像処理装置は、符号化する画像データの部分領域毎の時間解像度を設定する時間解像度設定部と、前記画像データを符号化し、前記時間解像度設定部により設定された前記部分領域毎の前記時間解像度を示す情報を含むビットストリームを生成する符号化部とを備える画像処理装置である。
 前記部分領域は独立して復号可能なタイルセットであるようにすることができる。
 前記ビットストリームは、前記部分領域に関する情報を含むようにすることができる。
 前記時間解像度を示す前記情報は、前記画像データのピクチャ毎に設定されるテンポラルIDと、前記部分領域毎に設定されるレベル情報とを含むようにすることができる。
 前記画像データは、視点を中心とする球体状にレンダリングされた全方位画像が単数の平面に展開された平面画像のデータであるようにすることができる。
 前記時間解像度設定部は、前記全方位画像が展開された前記平面画像のより中央に近い位置の部分領域程、前記時間解像度を高く設定することができる。
 前記画像データは、視点を中心とする互いに直角な6方向の平面画像が単数の平面に展開された平面画像のデータであるようにすることができる。
 前記時間解像度設定部は、前記6方向の内、前記視点から見て前方の平面画像の前記時間解像度を、他の方向の平面画像よりも高く設定することができる。
 前記部分領域を設定する部分領域設定部をさらに備え、前記時間解像度設定部は、前記部分領域設定部により設定された各部分領域の時間解像度を設定するように構成されるようにすることができる。
 前記時間解像度を示す前記情報は、前記部分領域毎に設定されるテンポラルIDを含むようにすることができる。
 前記符号化部は、前記時間解像度設定部により設定された前記部分領域毎の前記時間解像度に基づいて、前記画像データの各ピクチャについて、カレントピクチャ含まれる部分領域を符号化することができる。
 前記ビットストリームは、復号の際のピクチャの前記部分領域以外の領域の補完方法に関する情報を含むようにすることができる。
 前記符号化部は、前記部分領域毎の、前記時間解像度設定部により設定された前記時間解像度のビットストリームを生成することができる。
 本技術の一側面の画像処理方法は、符号化する画像データの部分領域毎の時間解像度を設定し、前記画像データを符号化し、設定された前記部分領域毎の前記時間解像度を示す情報を含むビットストリームを生成する画像処理方法である。
 本技術の他の側面の画像処理装置は、画像データが符号化されたビットストリームに含まれる、前記画像データの部分領域毎の時間解像度を示す情報を解析する解析部を備える画像処理装置である。
 前記解析部の解析結果に従って、前記ビットストリームから所望の部分領域のデータを抽出するデータ抽出部と、前記データ抽出部により抽出された前記部分領域のデータを含むビットストリームを生成するビットストリーム生成部とをさらに備えるようにすることができる。
 前記解析部の解析結果に従って、前記ビットストリームに含まれる前記画像データの符号化データの内、所望の部分領域の符号化データを復号する復号部をさらに備えるようにすることができる。
 前記復号部は、前記解析部により解析された前記部分領域毎の前記時間解像度に基づいて、前記画像データの各ピクチャについて、カレントピクチャ含まれる部分領域の符号化データを復号することができる。
 前記復号部は、前記カレントピクチャの前記部分領域以外の領域を、前記カレントピクチャと異なる他のピクチャの画像の複製、前記カレントピクチャと異なる複数の他のピクチャの画像の平均、または、新たに生成した画像を用いて補完することができる。
 本技術の他の側面の画像処理方法は、画像データが符号化されたビットストリームに含まれる、前記画像データの部分領域毎の時間解像度を示す情報を解析する画像処理方法である。
 本技術の一側面の画像処理装置および方法においては、符号化する画像データの部分領域毎の時間解像度が設定され、その画像データが符号化され、設定された部分領域毎の時間解像度を示す情報を含むビットストリームが生成される。
 本技術の他の側面の画像処理装置および方法においては、画像データが符号化されたビットストリームに含まれる、その画像データの部分領域毎の時間解像度を示す情報が解析される。
 本開示によれば、画像を処理することができる。特に、符号化効率の低減を抑制することができる。
時間解像度の制御の様子の例を説明する図である。 画像処理システムの主な構成例を示すブロック図である。 VR動画の利用の様子の例を説明する図である。 空間方向の重要度の分布例を説明する図である。 展開の様子の例を説明する図である。 各部分領域の時間解像度の割り当ての様子の例を説明する図である。 各部分領域の時間解像度の割り当ての様子の例を説明する図である。 タイルセットについて説明する図である。 テンポラルIDについて説明する図である。 部分領域抽出の様子の例を説明する図である。 ビットストリームの例を示す図である。 符号化装置の主な構成例を示すブロック図である。 前処理部の主な構成例を示すブロック図である。 画像符号化処理の流れの例を説明するフローチャートである。 前処理の流れの例を説明するフローチャートである。 ビットストリーム変換装置の主な構成例を示すブロック図である。 ビットストリーム変換処理の流れの例を説明するフローチャートである。 復号装置の主な構成例を示すブロック図である。 画像復号処理の流れの例を説明するフローチャートである。 展開の様子の例を説明する図である。 ビットストリームの例を示す図である。 画像処理システムの主な構成例を示すブロック図である。 前処理部の主な構成例を示すブロック図である。 シンタックスおよびセマンティクスの例を示す図である。 前処理の流れの例を説明するフローチャートである。 復号装置の主な構成例を示すブロック図である。 画像復号処理の流れの例を説明するフローチャートである。 参照の様子の例を説明する図である。 補完の様子の例を説明する図である。 ビットストリームの例を示す図である。 コンピュータの主な構成例を示すブロック図である。 ネットワークシステムの概略的な構成の一例を示すブロック図である。
 以下、本開示を実施するための形態(以下実施の形態とする)について説明する。なお、説明は以下の順序で行う。
 1.時間解像度を利用した高符号化効率化
 2.第1の実施の形態(HEVCのMCTS SEI利用)
 3.第2の実施の形態(部分領域毎のテンポラルID)
 4.第3の実施の形態(部分領域毎のビットストリーム化)
 5.その他
 <1.時間解像度を利用した高符号化効率化>
 従来、MPEG-4 Part10 (Advanced Video Coding、以下AVCと記す)より更なる符号化効率の向上を目的として、ITU-T(International Telecommunication Union Telecommunication Standardization Sector)と、ISO/IEC(International Organization for Standardization / International Electrotechnical Commission)の共同の標準化団体であるJCTVC(Joint Collaboration Team - Video Coding)により、HEVC(High Efficiency Video Coding)と呼ばれる符号化方式の標準化が進められている。
 近年、このような画像符号化方式において符号化の対象とする画像データの解像度が高くなってきた。例えば、VR(Virtual Reality)動画を符号化する場合、視点位置から周囲の画像を平面に展開した平面画像を符号化対象とするため、8K×4K等のような高解像度の画像を符号化することになる。
 符号化対象の画像が高解像度化すると符号量が増大するため、さらなる符号化効率の向上が求められる。例えば、ピクチャ内で重要度の低い領域の空間解像度を低減させることによって情報量を削減し、符号化効率を向上させる方法があるが、主観画質への影響も考慮しなければならず、無限に情報量を削減することができるわけではないし、常にこの方法が適切であるとは限らない。
 動画像の情報量は時間解像度を用いても制御することができる。時間解像度とは、時間方向のレート(フレームレートとも称する)のことである。例えば時間解像度を低くする(単位時間当たりのフレーム数を低減させる)ことにより情報量を低減させ、符号化効率を向上させることができる。しかしながら、従来の画像符号化方式の場合、ピクチャ内に、空間解像度が互いに異なる画像が存在することは許容されるものの、時間解像度(フレームレート)が互いに異なる画像が存在することは許容されなかった。
 そのため、図1の例のように、ピクチャ単位で削除することによりピクチャ全体のフレームレートを低減させることは可能であるが、ピクチャの一部の領域について時間解像度を制御することができなかった。そのため、主観画質の低減を抑制しながら符号化効率を向上させることが困難であり、結果として符号化効率が低減するおそれがあった。
 そこで、符号化する画像データの部分領域毎の時間解像度を設定し、その部分領域毎の時間解像度を示す情報を含むビットストリームを生成するようにする。このようにすることにより、時間解像度を用いてピクチャの情報量を部分的に制御することができるので、より高効率に符号化を行うことができる。
 <2.第1の実施の形態>
  <画像処理システム>
 図2は、本技術を適用した画像処理システムの一態様である画像処理システムの構成の一例を示すブロック図である。図2に示される画像処理システム100は、所謂VR動画の画像データを符号化し、ビットストリームとして伝送し、伝送先においてそのビットストリーム復号して表示するシステムである。
 図2に示されるように、画像処理システム100は、撮像装置111、画像変換装置112、符号化装置113、送信装置114、受信装置131、ビットストリーム変換装置132、復号装置133、画像変換装置134、および表示装置135を有する。
 撮像装置111は、被写体の撮像に関する処理を行う。例えば、撮像装置111は、被写体を撮像し、撮像画像を生成して画像変換装置112に供給する。画像変換装置112は、その撮像画像の変換に関する処理を行う。例えば、画像変換装置112は、撮像装置111から供給される撮像画像のレンダリング等を行ってVR用の動画像を生成する。また、例えば、画像変換装置112は、そのVR用の動画像を平面上に展開し、符号化用の平面画像を生成し、その平面画像を符号化装置113に供給する。
 符号化装置113は、画像の符号化に関する処理を行う。例えば、符号化装置113は、画像変換装置112から供給される平面画像を符号化してビットストリームを生成し、そのビットストリームを送信装置114に供給する。送信装置114は、ビットストリームの送信に関する処理を行う。例えば、送信装置114は、符号化装置113から供給されるビットストリームを、ネットワーク120を介して、受信装置131に供給する。
 ネットワーク120は、伝送媒体である。ネットワーク120は、例えば任意の通信網により構成される。例えば、ネットワーク120は、有線通信の通信網であってもよいし、無線通信の通信網であってもよいし、それらの両方により構成されるようにしてもよい。また、ネットワーク120が、1の通信網により構成されるようにしてもよいし、複数の通信網により構成されるようにしてもよい。例えば、インターネット、公衆電話回線網、所謂3G回線や4G回線等の無線移動体用の広域通信網、WAN(Wide Area Network)、LAN(Local Area Network)、Bluetooth(登録商標)規格に準拠した通信を行う無線通信網、NFC(Near Field Communication)等の近距離無線通信の通信路、赤外線通信の通信路、HDMI(登録商標)(High-Definition Multimedia Interface)やUSB(Universal Serial Bus)等の規格に準拠した有線通信の通信網等、任意の通信規格の通信網や通信路がネットワーク120に含まれるようにしてもよい。送信装置114および受信装置131は、このネットワーク120に接続されており、このネットワーク120を介してビットストリームの授受を行うことができる。
 受信装置131は、ビットストリームの受信に関する処理を行う。例えば、受信装置131は、ネットワーク120を介して送信装置114から供給されるビットストリームを受信し、それをビットストリーム変換装置132に供給する。ビットストリーム変換装置132は、ビットストリームの変換に関する処理を行う。例えば、ビットストリーム変換装置132は、表示装置135からの要求に応じて、受信装置131から供給されるビットストリームから、ユーザの視界内となる部分領域のデータを抽出し、その部分領域のビットストリームを生成し、それを復号装置133に供給する。
 復号装置133は、ビットストリームの復号に関する処理を行う。例えば、復号装置133は、ビットストリーム変換装置132から拒給されるビットストリームを(符号化装置113の符号化方式に対応する復号方式により)復号する。復号装置133は、ビットストリームを復号して得られた平面画像のデータを画像変換装置134に供給する。画像変換装置134は、画像の変換に関する処理を行う。例えば、画像変換装置134は、復号装置133から供給される平面画像を3次元空間にレンダリングして、仮想現実空間のユーザの視界内の画像を生成し、それを表示装置135に供給する。
 表示装置135は、表示に関する処理を行う。例えば、表示装置135は、画像変換装置134から供給されるユーザの視界内の画像を表示することにより、ユーザに仮想現実空間を提供する。また、例えば、表示装置135は、ユーザの入力やセンシング結果等に応じて、仮想現実空間におけるユーザの視界の位置や方向等を特定し、その視界内の画像をビットストリーム変換装置132に要求する。
 <デバイスとVR用動画像>
 次に、上述の画像処理システム100を構成するデバイスやその動作等についてより詳細を説明する。
 撮像装置111は、どのような装置であってもよいが、例えば、図3のAに示されるように、互いに異なる方向を撮像する複数の撮像部(カメラ)を有し、撮像装置111の周囲を撮像する。画像変換装置112は、撮像装置111により得られた撮像画像群をレンダリングして、撮像装置111周辺の画像を生成する。例えば、画像変換装置112は、撮像画像群を、視点(すなわち撮像装置111の位置)を中心とする球体状にレンダリングすることにより、例えば図3のBに示されるような、視点を基準とする全方位の画像(以下、全方位画像とも称する)を生成する。図3のBの例において、球体状の全方位画像の中心は、XYZ座標の原点となっており、その原点が視点の位置を示す。なお、画像処理システム100においては、この全方位画像は、仮想現実空間の画像として表示されるので、VR用画像(VR用動画像)とも称する。
 また、符号化装置113および復号装置133は平面画像を処理対象とするので、画像変換装置112は、さらに、そのVR用動画像(全方位画像)を、図3のCに示されるように、平面に展開して平面画像を生成する。この平面画像は、符号化装置113により符号化され、ビットストリームとして送信装置114から受信装置131に伝送され、復号装置133により復号される。ただし、表示装置135は、ユーザの視界内の画像のみを表示するので、ビットストリーム変換装置132は、ビットストリームから、ユーザの視界内のデータを抽出し、そのユーザの視界内の画像のビットストリームを生成する。
 表示装置135の構成は任意であるが、例えば図3のDに示されるような眼鏡型のデバイスよりなり、そのデバイスを装着したユーザの左右の目のそれぞれの近傍に各目用の画像を表示する表示部を有する。上述のようにビットストリーム変換装置132から供給されるビットストリームを復号装置133が復号し、得られた復号画像を画像変換装置134が3次元空間にレンダリングし、その画像を表示装置135が表示部に表示する。これにより、表示装置135を装着したユーザは、仮想現実空間におけるユーザの視界の画像を見ることができる。つまり、表示装置135に表示される画像は、例えば図3のEに示されるように、全方位画像が展開された平面画像(図3のC)の一部の画像である。
 なお、ユーザが視線方向(顔の向き等)を変更すると表示装置135は、それをセンサにより検出する。表示装置135は、その検出結果に基づいて、ユーザの視界を推定し、それをビットストリーム変換装置132に通知する。ビットストリーム変換装置132は、その通知に基づいて、ユーザの視界内の画像を抽出する。
  <ピクチャ内の重要度の偏り>
 このような画像処理システム100において、符号化装置113の符号化対象となる、VR動画像を展開した平面画像は、一般的に、より重要な部分とより重要でない部分とが存在する(重要度に偏りが生じる)。例えば、図4の平面画像140において、上下方向については、一般的に、領域141乃至領域143のような中央付近の領域の方が、上端の領域144や下端の領域145よりも注目したい対象が存在し易く、重要度が高くなりやすい。また、下方向はユーザの足元になる場合も多く、一般的に、上端の領域144の方が下端の領域145よりも注目したい対象が存在し易く、重要度が高くなりやすい。また、左右方向については、一般的に、領域141のような中央付近の領域の方が、左端の領域142や右端の領域143よりも注目したい対象が存在し易く、重要度が高くなりやすい。
 さらに、符号化する平面画像は、上述のように全方位画像を展開したものである。一般的には図5のAや図5のBに示されるような方法で展開される。したがって、展開後の平面画像の上端や下端付近の領域は、全方位画像の極近傍の小さな領域(図5のAの場合、N1やS1、図5のBの場合NやS)の画像により形成される。したがって、単位面積当たりの情報量が疎になり、重要度が低減しやすい。
 <2-1.符号化>
  <領域毎の時間解像度の設定>
 そこで、このような重要度の傾向に応じて符号化効率の低減を抑制するために、符号化装置113が、符号化する画像データの部分領域毎の時間解像度を設定し、その画像データを符号化し、設定された部分領域毎の時間解像度を示す情報を含むビットストリームを生成するようにする。
 この符号化装置113が符号化する画像データは、視点を中心とする球体状にレンダリングされた全方位画像が単数の平面に展開された平面画像のデータであるようにしてもよい。その場合、全方位画像が展開された平面画像のより中央に近い位置の部分領域程、時間解像度を高く設定するようにしてもよい。また、全方位画像が展開された平面画像の上下方向について、より中央に近い位置の部分領域程、時間解像度を高く設定するようにしてもよい。さらに、全方位画像が展開された平面画像の上端近傍の部分領域の時間解像度を、平面画像の下端近傍の部分領域よりも高く設定するようにしてもよい。このようにすることにより、より重要でない部分の時間解像度を低減させる等、上述のような重要度の偏りに応じた情報量制御が可能になり、主観画質の低減を抑制しながら符号化効率の低減を抑制することができる。
 例えば、図6に示される平面画像150において、その中央付近の領域151の時間解像度(フレームレート)を120p(プログレッシブ方式の毎秒120フレーム)とし、その左右の領域152および領域153の時間解像度(フレームレート)を90p(プログレッシブ方式の毎秒90フレーム)とし、これらの領域の上下の領域154および領域155の時間解像度(フレームレート)を60p(プログレッシブ方式の毎秒60フレーム)とし、さらにその周囲の領域156および領域157の時間解像度(フレームレート)を30p(プログレッシブ方式の毎秒30フレーム)とするようにしてもよい。
 図7に全方位画像におけるこれらの領域の分布を示す。図7に示されるように、一般的にあまり重要でない全方位画像の上下端に近い領域程、時間解像度が低く設定されており、より重要な中央付近の領域程、時間解像度が高く設定されている。したがって、主観画質の低減を抑制しながら符号化効率の低減を抑制することができる。
  <部分領域の設定>
 図6や図7に示されるような領域(部分領域)は、HEVC(High Efficiency Video Coding)のタイル(Tile)構造を利用して、タイルセットとして設定するようにしてもよい。タイルセットは、MCTS SEI(Motion constrained tile set Supplemental Enhancement Information)により管理される、独立に復号可能な領域である。例えば、図8に示されるように、フレームサイズ(解像度)が8K×4Kの動画像について、あるフレームのタイルセットTS1の符号化データを復号し、その次のフレームのタイルセットTS2の符号化データを復号し、その次のフレームのタイルセットTS3の符号化データを復号し、その次のフレームのタイルセットTS4の符号化データを復号し、その次のフレームのタイルセットTS5の符号化データを復号し、その次のフレームのタイルセットTS6の符号化データを復号し、その次のフレームのタイルセットTS7の符号化データを復号することにより、タイルセットTS1乃至タイルセットTS7をフレームとする、フレームサイズが2K×1Kの動画像を得ることができる。
 つまりタイルセットの符号化データを復号するのに他の領域の情報が不要であるので、このようなタイルセットを、時間解像度を制御する部分領域とすることにより、その領域に対する時間解像度を他の領域から独立して設定することがより容易になる。
  <時間解像度の設定>
 HEVCでは、ビットストリームにテンポラルID(Temporal ID、Tid、または時間識別子とも称する)を記述することで対応した時間解像度で出力することができる時間スケーラビリティ機能が用意されており、図9に示されるように、符号化する動画像の各ピクチャを階層化して符号化することができる。図9において各四角はフレームを示しており、その中の数字はPOC(Picture Order Count)を示している。また、フレーム間の矢印は参照関係を示している。テンポラルIDは、各階層の識別情報である。図9の場合、POC=0乃至8のフレームが、テンポラルID=0乃至3の4つの階層に分けて符号化されている。なお、時間スケーラビリティのための階層構造は任意であり、図9の例に限定されない。
 以上のようにすることにより、指定されたテンポラルIDの階層以下の階層のピクチャを復号するだけで、参照関係を破たんさせずに復号することができるので、より容易に、そのテンポラルIDに応じた時間解像度の復号画像を得ることができる。つまり、復号画像の時間解像度(フレームレート)をより容易に制御することができる。
 ただし、このテンポラルIDはピクチャ毎に設定されるので、このテンポラルIDによって部分領域の時間解像度を設定することはできない。そこで、各部分領域に対してレベル情報を設定するようにする。レベル情報は復号に必要なプロファイルのレベルを示すものであり、デコーダの能力やビットストリームの複雑さを規定するものである。より具体的には、例えば、画像の解像度やビットレート(またはフレームレート)等を規定する。
 このようなレベル情報を、時間解像度を制御する部分領域、すなわち、タイルセット(独立に復号可能な領域)に対して設定することにより、部分領域に対する時間解像度の設定が可能になる。例えば、図10に示されるように、フレーム全体に対するレベルが6.2(Level = 6.2)の動画像(8K120p)において、レベル4.2(Level = 4.2)が設定されたタイルセット(HD120p)を復号すると、各フレームのそのタイルセットのデータが復号される。また、例えば、レベル4.1(Level = 4.1)が設定されたタイルセット(HD60p)を復号すると、2フレーム毎(1フレームおき)にそのタイルセットのデータが復号される。
 そして、上述のように、時間スケーラビリティの機能を用いることにより、その時間解像度の制御がより容易になる。例えば、タイルセットを復号する際に、そのタイルセットのレベル情報に示される時間解像度に応じたテンポラルIDを指定することにより、そのテンポラルID以下の階層のフレームから、そのタイルセットの復号画像を得ることができる。つまり、そのタイルセットの復号画像が、レベル情報に示される時間解像度で得ることができる。
 例えば、図11に示されるビットストリーム180において、フレーム181乃至フレーム185のそれぞれの各部分領域に時間解像度(フレームレート)がレベル情報として設定されているとする。また、フレーム181乃至フレーム185のそれぞれに対して、テンポラルID(Tid)が図11のように設定されているとする。なお、この例の場合、ビットストリームは、図9の例とは異なる階層構造を有する。
 この場合、例えばレベル情報により120pが設定された領域のデータは、フレーム181乃至フレーム185のそれぞれから得られる。つまり、この場合、120pに対応するテンポラルID(Tid=3)以下の階層のフレームが復号される。また、例えば90pが設定された領域のデータは、フレーム181乃至フレーム183、並びに、フレーム185のそれぞれから得られる。つまり、この場合、90pに対応するテンポラルID(Tid=2)以下の階層のフレームが復号される。さらに、例えば60pが設定された領域のデータは、フレーム181、フレーム183、およびフレーム185のそれぞれから得られる。つまり、この場合、60pに対応するテンポラルID(Tid=1)以下の階層のフレームが復号される。さらに、例えば30pが設定された領域のデータは、フレーム181およびフレーム185から得られる。つまり、この場合、30pに対応するテンポラルID(Tid=0)の階層のフレームが復号される。つまり、ビットストリーム180の各フレームから、図11のグレーの部分のタイルセットが得られる。
 以上のようにHEVCのタイルセット、時間スケーラビリティ(テンポラルID)、およびレベル情報を用いて、より容易に、主観画質の低減を抑制しながら符号化効率の低減を抑制することができる。
  <符号化装置の構成>
 図12は、本技術を適用した画像処理装置の一態様である符号化装置113の主な構成例を示すブロック図である。この符号化装置113は、HEVC符号化方式またはHEVC符号化方式に準拠した符号化方式で入力された画像を符号化する。図12に示されるように、符号化装置113は、前処理部210、画面並べ替えバッファ211、演算部212、直交変換部213、量子化部214、符号化部215、蓄積バッファ216、逆量子化部217、逆直交変換部218、演算部219、フィルタ220、フレームメモリ221、イントラ予測部222、インター予測部223、予測画像選択部224、およびレート制御部225を有する。
 前処理部210は、画像データの部分領域毎の時間解像度の設定、符号化の制御、パラメータセット(例えばシーケンスパラメータセット(SPS(Sequence Parameter Set))やピクチャパラメータセット(PPS(Picture Parameter Set)))やSEI(例えば、MCTS SEI等)の生成等を行う前処理に関する処理を行う。
 画面並べ替えバッファ211には、画像変換装置112から供給される画像データが入力される。例えば、視点を中心とする球体状にレンダリングされた全方位画像が単数の平面に展開された平面画像のデータが入力される。画面並べ替えバッファ211は、その入力された画像データの各フレームの画像をその表示順に記憶し、記憶した表示の順番のフレームの画像を、GOP(Group Of Picture)に応じて、符号化のためのフレームの順番に並べ替え、フレームの順番を並び替えた画像を、演算部212に供給する。また、画面並べ替えバッファ211は、フレームの順番を並び替えた画像を、イントラ予測部222およびインター予測部223にも供給する。
 演算部212は、画面並べ替えバッファ211から読み出された画像から、予測画像選択部224を介してイントラ予測部222またはインター予測部223から供給される予測画像を減算し、それらの差分である残差情報(残差データとも称する)を得る。例えば、イントラ符号化が行われる画像の場合、演算部212は、画面並べ替えバッファ211から読み出された画像から、イントラ予測部222から供給される予測画像を減算する。また、例えば、インター符号化が行われる画像の場合、演算部212は、画面並べ替えバッファ211から読み出された画像から、インター予測部223から供給される予測画像を減算する。演算部212は、得られた残差データを直交変換部213に供給する。
 直交変換部213は、演算部212から供給される残差データを所定の方法で直交変換する。直交変換部213は、その直交変換後の残差データ(直交変換係数とも称する)を量子化部214に供給する。
 量子化部214は、その直交変換係数を所定の方法で量子化する。量子化部214は、レート制御部225から供給される符号量の目標値(target_bitrate)に応じて量子化パラメータを設定し、その量子化を行う。量子化部214は、量子化後の残差データ(量子化データとも称する)を符号化部215および逆量子化部217に供給する。
 符号化部215は、量子化部214から供給された量子化データを符号化する。また、符号化部215は、最適な予測モードに関する情報を予測画像選択部224から取得する。さらに、符号化部215は、任意の処理部から任意の情報を取得することができる。符号化部215は、これらの各種情報を符号化する。このように、符号化部215は、画像に関する情報を符号化し、符号化データを生成する。符号化部215は、得られた符号化データを蓄積バッファ216に供給して蓄積させる。
 蓄積バッファ216は、符号化部215から供給された符号化データを、一時的に保持する。蓄積バッファ216は、所定のタイミングにおいて、保持している符号化データを、例えばビットストリーム等として符号化装置113の外部に出力する。例えば、この符号化データは、任意の記録媒体、任意の伝送媒体、任意の情報処理装置等を介して復号側に伝送される。すなわち、蓄積バッファ216は、符号化データを伝送する伝送部でもある。
 逆量子化部217は、その量子化データを量子化部214による量子化に対応する方法で逆量子化する。逆量子化部217は、逆量子化後の量子化データ(直交変換係数とも称する)を、逆直交変換部218に供給する。
 逆直交変換部218は、その直交変換係数を、直交変換部213による直交変換処理に対応する方法で逆直交変換する。逆直交変換部218は、逆直交変換された直交変換係数(復元された残差データとも称する)を演算部219に供給する。
 演算部219は、その復元された残差データに、予測画像選択部224を介してイントラ予測部222またはインター予測部223から供給される予測画像を加算し、局所的に再構成された画像(再構成画像とも称する)を得る。例えば、イントラ符号化が行われる画像の場合、演算部219は、復元された残差データに、イントラ予測部222から供給される予測画像を加算する。また、例えば、インター符号化が行われる画像の場合、演算部219は、復元された残差データに、インター予測部223から供給される予測画像を加算する。演算部219は、得られた再構成画像をフィルタ220およびイントラ予測部222に供給する。
 フィルタ220は、その再構成画像に対して、適宜、例えばデブロックフィルタ等のフィルタ処理を行う。フィルタ220は、フィルタ処理結果(復号画像と称する)をフレームメモリ221に供給する。
 フレームメモリ221は、その復号画像を自身の記憶領域内に記憶する。また、フレームメモリ221は、所定のタイミングにおいて、記憶している復号画像を参照画像としてインター予測部223に供給する。
 イントラ予測部222は、演算部219から参照画像として供給される再構成画像である処理対象ピクチャ内の画素値を用いて予測画像を生成するイントラ予測(画面内予測)を行う。例えば、イントラ予測部222は、予め用意された複数のイントラ予測モードでこのイントラ予測を行う。イントラ予測部222は、候補となる全てのイントラ予測モードで予測画像を生成し、画面並べ替えバッファ211から供給される入力画像を用いて各予測画像のコスト関数値を評価し、最適なモードを選択する。イントラ予測部222は、最適なイントラ予測モードを選択すると、その最適なイントラ予測モードで生成された予測画像、最適なイントラ予測モードを示すインデックス等のイントラ予測に関する情報であるイントラ予測モード情報、並びに、最適なイントラ予測モードのコスト関数値等を、予測結果に関する情報として、予測画像選択部224に供給する。
 インター予測部223は、画面並べ替えバッファ211から供給される入力画像と、フレームメモリ221から供給される参照画像とを用いてインター予測処理(動き予測処理および補償処理)を行う。より具体的には、インター予測部223は、インター予測処理として、動き予測を行って検出された動きベクトルに応じて動き補償処理を行い、予測画像(インター予測画像情報)を生成する。例えば、インター予測部223は、予め用意された複数のインター予測モードでこのようなインター予測を行う。インター予測部223は、候補となる全てのインター予測モードで予測画像を生成する。インター予測部223は、画面並べ替えバッファ211から供給される入力画像と、生成した差分動きベクトルの情報などを用いて、各予測画像のコスト関数値を評価し、最適なモードを選択する。インター予測部223は、最適なインター予測モードを選択すると、その最適なインター予測モードで生成された予測画像、最適なインター予測モードを示すインデックスや動き情報等のインター予測に関する情報であるインター予測モード情報、並びに、最適なインター予測モードのコスト関数値等を、予測結果に関する情報として、予測画像選択部224に供給する。
 予測画像選択部224は、イントラ予測部222およびインター予測部223から上述した予測結果に関する情報を取得する。予測画像選択部224は、それらの中からいずれか1つを選択することにより、その領域における予測モードを選択する。つまり、予測画像選択部224は、最適な予測モードとして、(最適な)イントラ予測モードと(最適な)インター予測モードとの内、いずれか一方を選択する。予測画像選択部224は、選択したモードの予測画像を演算部212や演算部219に供給する。また、予測画像選択部224は、選択した予測結果に関する情報の一部または全部を最適な予測モードに関する情報として符号化部215に供給する。
 レート制御部225は、蓄積バッファ216に蓄積された符号化データの符号量に基づいて、オーバフローあるいはアンダーフローが発生しないように、量子化部214の量子化動作のレートを制御する。
  <前処理部の構成>
 図13は、前処理部210(図12)の主な構成例を示すブロック図である。図13に示されるように、前処理部210は、領域別フレームレート設定部231、タイルセット設定部232、テンポラルID設定部233、符号化制御部234、レベル情報設定部235、MCTSSEI生成部236、およびパラメータセット生成部237を有する。
 領域別フレームレート設定部231は、ピクチャ内の部分領域毎の時間解像度(フレームレート)の設定に関する処理を行う。例えば、領域別フレームレート設定部231は、ユーザの指示や、入力画像の設定(例えば、全方位画像の展開の仕方等)に基づいて、ピクチャ内に部分領域を設定し、その部分領域の時間解像度(フレームレート)を設定する。この部分領域の位置、大きさ、形状は任意である。また、1ピクチャに設定される部分領域の数も任意であり、単数でも複数でもよい。さらに、設定される部分領域の時間解像度も任意である。この時間解像度の設定は、部分領域毎に独立しており、ピクチャ内に互いに同一のフレームレートの複数の部分領域が存在してもよいし、互いに異なるフレームレートの複数の部分領域が存在してもよい。領域別フレームレート設定部231は、設定した各部分領域と時間解像度の設定をタイルセット設定部232およびテンポラルID設定部233に供給する。
 タイルセット設定部232は、HEVCのMCTS SEIで管理されるタイルセットの設定に関する処理を行う。例えば、タイルセット設定部232は、領域別フレームレート設定部231において設定された部分領域をタイルセットとして実現する。これにより、部分領域を独立して復号することができるようになる。また、例えば、タイルセット設定部232は、設定したタイルセットを示す情報を、符号化制御部234およびレベル情報設定部235に供給する。
 テンポラルID設定部233は、HEVCの時間スケーラビリティ機能として用意されたテンポラルIDの設定に関する処理を行う。例えば、テンポラルID設定部233は、領域別フレームレート設定部231において設定されたフレームレートを実現するように、各ピクチャを階層化し、各階層にテンポラルIDを設定する。換言するに、テンポラルID設定部233は、時間解像度を示す情報として、各ピクチャにテンポラルIDを設定する。また、テンポラルID設定部233は、設定した時間スケーラビリティ(各ピクチャのテンポラルIDを含む)を示す情報を符号化制御部234およびパラメータセット生成部237に供給する。
 符号化制御部234は、符号化の制御に関する処理を行う。例えば、符号化制御部234は、タイルセットや時間スケーラビリティの設定に基づいて、符号化装置113による画像符号化を制御する。例えば、符号化制御部234は、タイルセットや時間スケーラビリティの設定による参照関係の制限等を符号化に反映させる。なお、符号化制御部234は、必要に応じて、任意の処理部を制御することができる。
 レベル情報設定部235は、部分領域に対するレベル情報の設定に関する処理を行う。例えば、レベル情報設定部235は、タイルセット設定部232において設定された各タイルセットのレベル情報を設定する。つまり、レベル情報設定部235は、符号化する画像データの部分領域毎の時間解像度を示す情報として、タイルセットのレベル情報を設定する。タイルセットの解像度はピクチャよりも低いので、タイルセットのレベル情報は、ピクチャ全体のレベル情報より小さくなる。また、タイルセットの時間解像度を低減させるのであれば、そのタイルセットのレベル情報はさらに小さくなる。このように、レベル情報設定部235がタイルセットのレベル情報を設定することにより、そのタイルセットのビットストリームを復号するのに必要なデコーダの能力を低減させることができる。例えば、レベル情報設定部235は、供給されたタイルセットを示す情報や、自身が設定したレベル情報を、MCTSSEI生成部236に供給する。
 MCTSSEI生成部236は、レベル情報設定部235から供給されるタイルセットを示す情報やレベル情報等を含むMCTS SEIを生成する。つまり、MCTSSEI生成部236は、部分領域に関する情報としてMCTS SEIを生成する。MCTSSEI生成部236は、生成したMCTS SEIを符号化部215(図12)に供給する。その符号化部215は、供給されたMCTS SEIを符号化してビットストリームに含める。つまり、符号化装置113から出力されるビットストリームは、部分領域に関する情報を含む。また、このMCTS SEIには、部分領域の時間解像度を示す情報であるタイルセットのレベル情報が含まれている。つまり、符号化装置113から出力されるビットストリームは、部分領域毎の時間解像度を示す情報を含む。
 パラメータセット生成部237は、パラメータセットの生成に関する処理を行う。例えば、パラメータセット生成部237は、シーケンスパラメータセット(SPS(Sequence Parameter Set))やピクチャパラメータセット(PPS(Picture Parameter Set))等を生成する。パラメータセット生成部237は、各フレームのテンポラルIDを例えばピクチャパラメータセットに含める。なお、このテンポラルIDは、シーケンスパラメータセットに含めるようにしてもよい。パラメータセット生成部237は、生成したパラメータセットを符号化部215(図12)に供給する。その符号化部215は、供給されたパラメータセットを符号化してビットストリームに含める。つまり、符号化装置113から出力されるビットストリームは、時間解像度を示す情報を含む。
 以上のように構成を有することにより、符号化装置113は、符号化効率の低減を抑制することができる。
  <画像符号化処理の流れ>
 次に、この符号化装置113により実行される各処理の流れの例を説明する。最初に、画像符号化処理の流れの例を、図14のフローチャートを参照して説明する。
 画像符号化処理が開始されると、ステップS101において、前処理部210は、前処理を実行する。前処理の詳細は後述する。
 ステップS102において、画面並べ替えバッファ211は、入力された動画像の各フレーム(ピクチャ)の画像をその表示する順番に記憶し、各ピクチャの表示する順番から符号化する順番への並べ替えを行う。
 ステップS103において、イントラ予測部222、インター予測部223、および予測画像選択部224は、予測処理を行い、最適な予測モードの予測画像等を生成する。つまり、この予測処理において、イントラ予測部222はイントラ予測を行って最適なイントラ予測モードの予測画像等を生成し、インター予測部223はインター予測を行って最適なインター予測モードの予測画像等を生成し、予測画像選択部224はコスト関数値等に基づいて最適なイントラ予測モードと最適なインター予測モードとの内の最適な方を選択する。
 ステップS104において、演算部212は、ステップS102の処理によりフレーム順を並び替えられた入力画像と、ステップS103の予測処理により選択された最適なモードの予測画像との差分を演算する。つまり、演算部212は、入力画像と予測画像との残差データ(残差画像)を生成する。このようにして求められた残差データは、元の画像データに比べてデータ量が低減される。したがって、画像をそのまま符号化する場合に比べて、データ量を圧縮することができる。
 ステップS105において、直交変換部213は、ステップS104の処理により生成された残差データを直交変換する。
 ステップS106において、量子化部214は、レート制御部225により算出された量子化パラメータを用いる等して、ステップS105の処理により得られた直交変換係数を量子化する。
 ステップS107において、逆量子化部217は、ステップS106の処理により生成された量子化データを、そのステップS106の量子化の特性に対応する特性で逆量子化する。
 ステップS108において、逆直交変換部218は、ステップS107の処理により得られた直交変換係数を、ステップS105の直交変換に対応する方法で逆直交変換する。
 ステップS109において、演算部219は、ステップS108の処理により復元された残差データに、ステップS103の予測処理により得られた予測画像を加算することにより、再構成画像の画像データを生成する。
 ステップS110においてフィルタ220は、ステップS109の処理により生成された再構成画像の画像データに対して、デブロッキングフィルタ等のフィルタ処理を行う。
 ステップS111において、フレームメモリ221は、ステップS110の処理により得られた、局所的に復号された復号画像を記憶する。
 ステップS112において、符号化部215は、符号化処理を行う。つまり、符号化部215は、ステップS106の処理により得られた量子化データを符号化する。すなわち、符号化部215は、画像に関する情報である量子化データを、例えば可変長符号化または算術符号化等の所定の符号化方法により符号化し、符号化データを生成する。また、このとき、符号化部215は、ステップS103の予測処理により選択された予測モードに関する情報等のような、残差データに対応する量子化データ以外の画像に関する情報も符号化データに含める。
 ステップS113において蓄積バッファ216は、ステップS112の処理により得られた符号化データ等を蓄積する。蓄積バッファ216に蓄積された符号化データ等は、例えばビットストリームとして適宜読み出され、伝送路や記録媒体を介して復号側に伝送される。
 ステップS114において、レート制御部225は、ステップS113の処理により蓄積バッファ216に蓄積された符号化データ等の符号量(発生符号量)に基づいて、オーバフローあるいはアンダーフローが発生しないように、ステップS106の量子化処理のレートを制御する。
 ステップS114の処理が終了すると、画像符号化処理が終了する。
 なお、これらの各処理の処理単位は任意であり、互いに同一でなくてもよい。したがって、各ステップの処理は、適宜、他のステップの処理等と並行して、または、処理順を入れ替えて実行することもできる。
  <前処理の流れ>
 次に、図15のフローチャートを参照して、図14のステップS101において実行される前処理の流れの例を説明する。
 前処理が開始されると、前処理部210の領域別フレームレート設定部231は、ステップS131において、入力画像に対して部分領域とその時間解像度(フレームレート)を設定する。
 ステップS132において、タイルセット設定部232は、各ピクチャに、ステップS131において設定された部分領域に対応するタイルセットを設定する。
 ステップS133において、テンポラルID設定部233は、ステップS131において設定されたフレームレートを実現するように、各ピクチャの階層化構造を設定し、各ピクチャに対してその階層に対応するテンポラルIDを設定する。
 ステップS134において、符号化制御部234は、ステップS132において設定されたタイルセットやステップS133において設定されたテンポラルIDに基づいて、例えば参照関係がこれらの設定に矛盾しないようにする等、図14を参照して説明した画像符号化処理を制御する。
 ステップS135において、レベル情報設定部235は、ステップS132において設定されたタイルセットのレベル情報を設定する。
 ステップS136において、MCTSSEI生成部236は、ステップS132において設定されたタイルセットの管理情報や、ステップS135において設定されたタイルセットのレベル情報等を含むMCTS SEIを生成する。このMCTS SEIは、図14のステップS113において、ビットストリームに含めて出力される。
 ステップS137において、パラメータセット生成部237は、ステップS133において設定されたピクチャ毎のテンポラルIDを含むパラメータセットを生成する。このパラメータセットは、図14のステップS113において、ビットストリームに含めて出力される。
 ステップS137の処理が終了すると、前処理が終了し、処理は図14に戻る。
 以上のように各処理を実行することにより、符号化装置113は、符号化効率の低減を抑制することができる。
 <2-2.ビットストリーム変換>
  <領域毎の時間解像度の解析>
 ビットストリーム変換装置132(図2)は、以上のように符号化装置113により生成されたビットストリームから、表示装置135等により指定された部分領域のデータを抽出し、その部分領域のビットストリームに変換する。その際、ビットストリーム変換装置132は、画像データが符号化されたビットストリームに含まれる、その画像データの部分領域毎の時間解像度を示す情報を解析する。したがって、部分領域のビットストリームに変換する際に、その時間解像度を、設定に応じた時間解像度にすることができる。したがって、部分領域のビットストリームの符号化効率の低減を抑制することができる。また、復号の負荷の増大を抑制することができる。
  <ビットストリーム変換装置の構成>
 図16は、本技術を適用した画像処理装置の一態様であるビットストリーム変換装置132(図2)の主な構成例を示すブロック図である。図16に示されるように、ビットストリーム変換装置132は、制御部251、データ抽出部252、メタデータ更新部253、およびビットストリーム生成部254を有する。
 制御部251は、ビットストリーム変換の制御に関する処理を行う。例えば、制御部251は、表示装置135等から供給される、抽出する部分領域を指定する情報(領域指定情報)を取得する。また、例えば、制御部251は、データ抽出部252を制御し、その領域指定情報により指定される部分領域のデータをビットストリームから抽出させる。
 データ抽出部252は、データの抽出に関する処理を行う。例えば、データ抽出部252は、制御部251の制御に従って、受信装置131から供給されるビットストリーム(Bitstream A)から、表示装置135等から指定される部分領域のデータを抽出する。データ抽出部252は、例えば、この部分領域のデータとして、タイルセット単位でデータを抽出する。タイルセットは独立して復号することができるので、復号などを必要とせずにビットストリームからそのデータを抽出することができる。したがって、データ抽出部252は、容易に所望のデータを抽出することができる。なお、データ抽出部252は、このデータ抽出において、例えば、抽出対象の部分領域の時間解像度に関する情報を解析し、その部分領域の時間解像度(フレームレート)を特定し、さらに、その時間解像度とテンポラルIDに基づいて、データを抽出するピクチャを特定する。そして、例えば、データ抽出部252は、特定したピクチャから、指定された部分領域のデータを抽出する。このようにすることにより、その部分領域のデータを、符号化側で設定されたフレームレートのデータとして抽出することができる。また、例えば、データ抽出部252は、抽出したデータをメタデータ更新部253に供給する。
 メタデータ更新部253は、メタデータの更新に関する処理を行う。この更新するメタデータはどのような内容であってもよい。例えば、メタデータ更新部253は、抽出した部分領域のデータに対してレベル情報を設定する等の処理を行う。上述のように、データ抽出部252は、符号化側で設定された時間解像度となるように部分領域のデータを抽出するので、そのデータのレベル情報は符号化側で設定されたレベル情報となる。つまり、メタデータ更新部253は、抽出した部分領域のデータに対するレベル情報として、MCTS SEI等により伝送された、符号化装置113が設定したレベル情報を設定する。また、例えば、メタデータ更新部253は、メタデータを更新した部分領域のデータをビットストリーム生成部254に供給する。
 ビットストリーム生成部254は、ビットストリームの生成に関する処理を行う。例えば、ビットストリーム生成部254は、メタデータ更新部253から供給された部分領域のデータを含むビットストリーム(Bitstream B)を生成する。また、例えば、ビットストリーム生成部254は、生成したビットストリームを復号装置133(図2)に供給する。
 以上のように構成を有することにより、ビットストリーム変換装置132は、符号化効率の低減を抑制することができる。また、復号の負荷の増大を抑制することができる。
  <ビットストリーム変換処理の流れ>
 次に、このビットストリーム変換装置132により実行されるビットストリーム変換処理の流れの例を、図17のフローチャートを参照して説明する。
 ビットストリーム変換処理が開始されると、ビットストリーム変換装置132の制御部251は、ステップS151において、抽出する領域の指定を受け付ける。ステップS152において、データ抽出部252は、例えば、SEIやパラメータセット等の、指定された領域に対応するメタデータをビットストリームから抽出する。ステップS153において、データ抽出部252は、指定された領域に対応するタイルセットを特定する。ステップS154において、データ抽出部252は、ステップS152において抽出したメタデータ(例えばMCTS SEI等)を参照して、ステップS153において特定したタイルセットに対応するレベル情報を特定する。ステップS155において、データ抽出部252は、ステップS154において特定したレベル情報、および、ステップS152において抽出したメタデータ(例えばピクチャパラメータセット等)に含まれるテンポラルIDに基づいて、タイルセットを抽出するピクチャを特定する。ステップS156において、データ抽出部252は、ステップS155において特定したピクチャの、指定された領域に対応するタイルセット(ステップS153において特定したタイルセット)のデータを、ビットストリームから抽出する。
 ステップS157において、メタデータ更新部253は、ステップS152において抽出されたメタデータを、ステップS156において抽出されたタイルセットに対応するように更新する。
 ステップS158において、ビットストリーム生成部254は、ステップS156において抽出されたデータと、ステップS157において更新されたメタデータを含むビットストリーム(部分領域のビットストリーム)を生成する。
 ステップS158の処理が終了するとビットストリーム変換処理が終了する。
 以上のようにビットストリーム変換処理を実行することによりビットストリーム変換装置132は、符号化効率の低減を抑制することができる。また、復号の負荷の増大を抑制することができる。
 <2-3.復号>
  <復号装置の構成>
 復号装置133(図2)は、以上のようにビットストリーム変換装置132により変換されたビットストリームを、HEVC復号方式により復号する。図18は、復号装置133(図2)の主な構成例を示すブロック図である。
 図18に示されるように復号装置133は、蓄積バッファ271、復号部272、逆量子化部273、逆直交変換部274、演算部275、フィルタ276、画面並べ替えバッファ277、フレームメモリ278、イントラ予測部279、インター予測部280、および予測画像選択部281を有する。
 復号装置133には、ビットストリーム変換装置132により変換されたビットストリーム、すなわち、符号化装置113により生成されたビットストリームから抽出された所望のタイルセットのビットストリームが供給される。蓄積バッファ271は、そのビットストリームを蓄積し、所定のタイミングにおいてそのビットストリームを復号部272に供給する。
 復号部272は、蓄積バッファ271より供給されたビットストリーム(抽出された部分領域(タイルセット)のビットストリーム)を、図12の符号化部215の符号化方式に対応する方式で復号する。復号部272は、ビットストリームを復号して量子化データを得ると、それを逆量子化部273に供給する。また、復号部272は、ビットストリームを復号して得られた最適な予測モードに関する情報を、イントラ予測部279またはインター予測部280に供給する。例えば、イントラ予測が行われた場合、復号部272は、最適なイントラ予測モードの予測結果に関する情報をイントラ予測部279に供給する。また、例えば、インター予測が行われた場合、復号部272は、最適なインター予測モードの予測結果に関する情報をインター予測部280に供給する。同様に、復号部272は、符号化データを復号して得られた各種情報を、その情報を必要とする各種処理部に適宜供給することができる。
 逆量子化部273は、復号部272から供給された量子化データを逆量子化する。つまり、逆量子化部273は、図12の量子化部214の量子化方式に対応する方式(すなわち、逆量子化部217と同様の方式)で逆量子化を行う。逆量子化部273は、その逆量子化により得られた直交変換係数を逆直交変換部274に供給する。
 逆直交変換部274は、逆量子化部273から供給された直交変換係数を逆直交変換する。つまり、逆直交変換部274は、図12の直交変換部213の直交変換方式に対応する方式(すなわち、逆直交変換部218と同様の方式)で逆直交変換を行う。逆直交変換部274は、この逆直交変換処理により得られた残差データ(復元された残差データ)を演算部275に供給する。
 演算部275は、逆直交変換部274から供給された、復元された残差データに予測画像選択部281から供給された予測画像を加算し、再構成画像を得る。演算部275は、その再構成画像をフィルタ276およびイントラ予測部279に供給する。
 フィルタ276は、図12のフィルタ220が行うのと同様のフィルタ処理(例えばデブロックフィルタ等)を行う。フィルタ276は、フィルタ処理結果である復号画像を画面並べ替えバッファ277およびフレームメモリ278に供給する。
 画面並べ替えバッファ277は、供給された復号画像の並べ替えを行う。すなわち、図12の画面並べ替えバッファ211により符号化の順番のために並べ替えられたフレームの順番が、元の表示の順番に並べ替えられる。画面並べ替えバッファ277は、フレームの順番を並べ替えた復号画像データを画像変換装置134に供給する。
 フレームメモリ278は、供給される復号画像を記憶する。また、フレームメモリ278は、所定のタイミングにおいて、または、インター予測部280等の外部の要求に基づいて、記憶している復号画像等をインター予測部280に供給する。
 イントラ予測部279は、復号部272から供給される最適なイントラ予測モードの予測結果に関する情報と、演算部275から供給される再構成画像とを用いて、イントラ予測を行い、予測画像を生成する。イントラ予測部279は、生成した予測画像を予測画像選択部281に供給する。
 インター予測部280は、復号部272から供給される最適なインター予測モードの予測結果に関する情報と、フレームメモリ278から供給される復号画像とを用いて、インター予測を行い、予測画像を生成する。インター予測部280は、生成した予測画像を予測画像選択部281に供給する。
 予測画像選択部281は、イントラ予測部279またはインター予測部280から供給された予測画像を演算部275に供給する。例えば、処理対象のマクロブロックが、符号化の際にイントラ予測が行われたマクロブロックである場合、イントラ予測部279によりイントラ予測が行われて予測画像(イントラ予測画像)が生成されるので、予測画像選択部281は、そのイントラ予測画像を演算部275に供給する。また、例えば、処理対象のマクロブロックが、符号化の際にインター予測が行われたマクロブロックである場合、インター予測部280によりインター予測が行われて予測画像(インター予測画像)が生成されるので、予測画像選択部281は、そのインター予測画像を演算部275に供給する。
 以上のように、復号装置133は、ビットストリーム変換装置132により抽出された部分領域のビットストリームを復号することができる。したがって、復号装置133は、符号化効率の低減を抑制することができ、復号の負荷の増大を抑制することができる。
  <画像復号処理の流れ>
 次に、この復号装置133により実行される画像復号処理の流れの例を、図19のフローチャートを参照して説明する。
 画像復号処理が開始されると、ステップS171において、蓄積バッファ271は、復号装置133に供給されるビットストリームを蓄積する。ステップS172において、復号部272は、ステップS171において蓄積されたビットストリームを復号して量子化データを得る。
 ステップS173において、逆量子化部273は、ステップS172の処理により得られた量子化データを逆量子化して直交変換係数を得る。ステップS174において、逆直交変換部274は、ステップS173の処理により得られた直交変換係数を逆直交変換して復元された残差データを得る。
 ステップS175において、イントラ予測部279、インター予測部280、および予測画像選択部281は、予測画像生成処理を行い、符号化の際の予測モードで予測画像を生成する。
 ステップS176において、演算部275は、ステップS174の処理により得られた復元された残差データに、ステップS175の処理により得られた予測画像を加算し、再構成画像を得る。
 ステップS177において、フィルタ276は、ステップS176の処理により得られた再構成画像に対してデブロッキングフィルタ等のフィルタ処理を行い、復号画像を得る。
 ステップS178において、画面並べ替えバッファ277は、ステップS177の処理により得られた復号画像の並べ替えを行い、フレームの順序を、元の表示の順序(符号化装置113の画面並べ替えバッファ211が並べ替える前の順序)に並べ替える。
 ステップS179において、フレームメモリ278は、ステップS177の処理により得られた復号画像を記憶する。この復号画像は、インター予測において参照画像として利用される。
 ステップS179の処理が終了すると、画像復号処理が終了される。
 以上のように、画像復号処理を実行することにより、復号装置133は、ビットストリーム変換装置132により抽出された部分領域のビットストリームを復号することができるので、符号化効率の低減を抑制することができ、復号の負荷の増大を抑制することができる。
 <2-4.他の展開例>
  <VR用動画像>
 以上においては、VR用動画像として球体状の全方位画像を例に用いて説明したが、VR用動画像のフォーマットは任意であり、この例に限定されない。例えば、図20のAの左側や図20のBの右側に示されるように、視点を中心とする直方体状または立方体状にレンダリングされた画像(以下、6方位画像とも称する)であってもよい。つまり、この6方位画像は、互いに直角な6方向の平面画像により構成される。この6方位画像の各面の画像はそれぞれ平面画像であるので、この6方位画像を平面に展開する場合、各面の画像を平面に並べるように配置するのが容易である。ただし、その並べ方は任意である。例えば、図20のAの右側に示されるように、6方位画像の各面の位置関係を考慮して展開するようにしてもよいし、図20のBに示されるように、展開後の平面画像が最小となるように6面を並べ替えて展開するようにしてもよい。
 図20のBの例の場合、展開された平面画像290において、正面の画像(Front)が配置される部分領域291の図中左の部分領域292に左側面の画像(Left)が配置されている。また、部分領域291の図中右の部分領域293に右側面の画像(Right)が配置されている。さらに、その部分領域293の図中下の部分領域294に背面(後面)の画像(Back)が配置されている。また、部分領域292の図中下の部分領域295に上面の画像(Top)が配置されている。さらに、部分領域291の図中下の部分領域296に下面の画像(Bottom)が配置されている。
 符号化装置113は、このような、視点を中心とする互いに直角な6方向の平面画像が単数の平面に展開された平面画像のデータを符号化対象とすることができる。
 このような場合、この6方位画像の各面を部分領域化(タイルセット化)し、その面毎に時間解像度を制御するようにしてもよい。6方位画像の各面の画像は、方向が互いに直角であり、画像間の独立性が高い。一般的には、互いに異なるカメラ等により撮像された画像が用いられることも多い。したがって、符号化も互いに独立に行うことが容易であり、かつ、時間解像度(フレームレート)を互いに独立に制御しても他への影響が少ない。したがって、タイルセット化が容易である。
 6方位画像の面毎に時間解像度を設定する場合、各面の重要度に応じて時間解像度を設定するようにすればよい。例えば、一般的には正面(視点位置から見て前方)の画像に注目対象が存在する可能性が最も高く、重要度が高くなりやすい。したがって、6方位画像が展開された平面画像の内、この正面の画像(図20のBの場合、部分領域291に配置される画像(Front))の時間解像度を、他の部分領域(部分領域292乃至部分領域296)に配置される画像よりも高く設定するようにしてもよい。
 また、例えば、一般的には上面(視点位置から見て上方)や下面(視点位置から見て下方)の画像よりも、左面(視点位置から見て左方)、右面(視点位置から見て右方)、後面(視点位置から見て後方)の画像の方が、注目対象が存在する可能性が高く、重要度が高くなりやすい。したがって、6方位画像が展開された平面画像の内、左面の画像(図20のBの場合、部分領域292に配置される画像(Left))、右面の画像(図20のBの場合、部分領域293に配置される画像(Right))、後面の画像(図20のBの場合、部分領域294に配置される画像(Back))の時間解像度を、上面の画像(図20のBの場合、部分領域295に配置される画像(Top))や、下面の画像(図20のBの場合、部分領域296に配置される画像(Bottom))よりも高く設定するようにしてもよい。
 さらに、例えば、一般的には後面(視点位置から見て後方)の画像よりも、左面(視点位置から見て左方)や右面(視点位置から見て右方)の画像の方が、注目対象が存在する可能性が高く、重要度が高くなりやすい。したがって、6方位画像が展開された平面画像の内、左面の画像(図20のBの場合、部分領域292に配置される画像(Left))や、右面の画像(図20のBの場合、部分領域293に配置される画像(Right))の時間解像度を、後面の画像(図20のBの場合、部分領域294に配置される画像(Back))よりも高く設定するようにしてもよい。
 また、例えば、一般的には下面(視点位置から見て下方)の画像よりも、上面(視点位置から見て上方)の画像の方が、注目対象が存在する可能性が高く、重要度が高くなりやすい。したがって、6方位画像が展開された平面画像の内、上面の画像(図20のBの場合、部分領域295に配置される画像(Top))の時間解像度を、下面の画像(図20のBの場合、部分領域296に配置される画像(Bottom))よりも高く設定するようにしてもよい。
 また、この場合、時間解像度を示す情報として、部分領域の復号の際に必要なピクチャを示す情報をビットストリームに含める(復号側に伝送する)ようにしてもよい。例えば、復号するテンポラルID≦DTIDとし、面毎にDTIDのシンタックス値を、部分領域の復号の際に必要なピクチャを示す情報として伝送するようにしてもよい。例えば、下記のようにシンタックス値を設定するようにしてもよい。
  1)Front, Back MaxTemporalID → 最高フレームレートをデコードする
  2)Left, Right MaxTemporalID - 1 → 1/2フレームレートをデコードする
  3)Top, Bottom MaxTemporalID - 2 → 1/3フレームレートをデコードする
 なお、この場合も、符号化、ビットストリーム変換、復号等の処理は、上述した全方位画像を展開した平面画像を符号化対象とする場合と同様の方法により行うことができる。したがって、それらの処理についての説明は省略するが、6方位画像の場合も、全方位画像の場合と同様の効果を得ることができる。
 <3.第2の実施の形態>
  <部分領域毎のテンポラルID>
 第1の実施の形態においては、HEVCを用いて符号化・復号を行うように説明したが、本技術は、任意の符号化方式や復号方式に適用することができ、上述のHEVCの例に限定されない。例えば、テンポラルIDを部分領域毎に設定するようにしてもよい。
 例えば、図21のAの例の場合、ピクチャ300の、時間解像度が120pに設定される領域301に対するテンポラルIDとして「Tid=3」が設定されている。また、時間解像度が90pに設定される領域302および領域303に対するテンポラルIDとして「Tid=2」が設定されている。さらに、時間解像度が60pに設定される領域304および領域305に対するテンポラルIDとして「Tid=1」が設定されている。また、時間解像度が30pに設定される領域306および領域307に対するテンポラルIDとして「Tid=0」が設定されている。
 このようにすることにより、図21のBに示されるビットストリーム310のように、各部分領域を、その部分領域に割り当てられたテンポラルIDに応じた時間解像度で符号化することができる。例えば、ビットストリーム310において、Tid=3が割り当てられた領域301は、時間解像度が120pとなるように、フレーム311乃至フレーム315のそれぞれにおいて符号化される。また、Tid=2が割り当てられた領域302および領域303は、時間解像度が90pとなるように、フレーム311、フレーム312、フレーム314、およびフレーム315のそれぞれ(フレーム313以外のフレーム)において符号化される。さらに、Tid=1が割り当てられた領域304および領域305は、時間解像度が60pとなるように、フレーム311、フレーム313、およびフレーム315のそれぞれ(1つおきのフレーム)において符号化される。また、Tid=0が割り当てられた領域306および領域307は、時間解像度が30pとなるように、フレーム311、およびフレーム315のそれぞれ(フレーム312乃至フレーム314以外のフレーム)において符号化される。
 つまり、この部分領域毎に設定されるテンポラルIDを用いることにより、図21のBに示されるビットストリーム310のように、各フレームにおいて、グレーで示される領域のみが符号化されるようにすることができる。したがって、符号化効率の低減を抑制することができる。また、この場合も、第1の実施の形態の場合と同様に、各領域に対してその重要度等を考慮してテンポラルIDを設定することができるので、主観画質の低減を抑制しながら符号化効率の低減を抑制することができる。
  <画像処理システム>
 図22は、本技術を適用した画像処理システムの一態様である画像処理システムの構成の一例を示すブロック図である。図22に示される画像処理システム400は、図2を参照して説明した画像処理システム100と基本的に同様のシステムである。つまり、画像処理システム400は、画像処理システム100と基本的に同様に構成され、同様の処理を行う。ただし、画像処理システム400の場合、画像処理システム100のビットストリーム変換装置132が省略されている。また、復号装置133の代わりに復号装置411が設けられている。
 復号装置411は、復号装置133と基本的に同様の装置であるが、受信装置131により受信されたビットストリーム、すなわち、符号化装置113が生成したピクチャ全体のビットストリームを復号する。ただし、画像処理システム400の場合、符号化装置113は、図21のAを参照して説明したように部分領域毎にテンポラルIDを設定し、図21のBを参照して説明したように、各部分領域の時間解像度に基づいて、ピクチャ内の、必要な部分領域についてのみ符号化する。
 復号装置411は、そのようなビットストリームに含まれる、表示装置135等により要求された部分領域のデータを復号する。つまり、このビットストリームには、各部分領域のデータが、その部分領域に対して設定された時間解像度で格納されている。従って、復号装置411は、その部分領域を復号することにより、その部分領域の、設定された時間解像度の動画像を得ることができる。
 なお、この場合も、符号化対象とする画像データは任意であり、例えば、第1の実施の形態において説明した全方位画像が展開された平面画像であってもよいし、6方位画像が展開された平面画像であってもよい。
 また、各部分領域の時間解像度は任意に設定することができる。例えば、第1の実施の形態と同様に、領域の重要度に応じて時間解像度を設定するようにしてもよい。例えば、全方位画像が展開された平面画像を符号化対象とする場合、その平面画像のより中央に近い位置の部分領域程、時間解像度を高く設定するようにしてもよい。また、その平面画像の上下方向について、より中央に近い位置の部分領域程、時間解像度を高く設定するようにしてもよい。さらに、その平面画像の上端近傍の部分領域の時間解像度を、平面画像の下端近傍の部分領域よりも高く設定するようにしてもよい。
 また、例えば、6方位画像が展開された平面画像を符号化対象とする場合、6方向の内、視点から見て前方の平面画像の時間解像度を、他の方向の平面画像よりも高く設定するようにしてもよい。さらに、例えば、6方向の内、視点から見て左方、右方、および後方の平面画像の時間解像度を、視点から見て上方および下方の平面画像よりも高く設定するようにしてもよい。また、例えば、6方向の内、視点から見て左方および右方の平面画像の時間解像度を、視点から見て後方の平面画像よりも高く設定するようにしてもよい。さらに、例えば、6方向の内、視点から見て上方の平面画像の時間解像度を、視点から見て下方の平面画像よりも高く設定するようにしてもよい。
 このようにすることにより、第1の実施の形態の場合と同様に、より重要でない部分の時間解像度を低減させる等、上述のような重要度の偏りに応じた情報量制御が可能になり、主観画質の低減を抑制しながら符号化効率の低減を抑制することができる。
 <3-1.符号化>
  <前処理部の構成>
 画像処理システム400において、符号化装置113は、第1の実施の形態の場合と基本的に同様の構成(図12)を有する。ただし、この場合、前処理部210は、図23に示されるような構成を有する。図23に示されるように、前処理部210は、領域別フレームレート設定部421、領域設定部422、領域別テンポラルID設定部423、符号化制御部424、およびパラメータセット生成部425を有する。
 領域別フレームレート設定部421は、領域別フレームレート設定部231と同様の処理部であり、ピクチャ内の部分領域毎の時間解像度(フレームレート)の設定に関する処理を行う。領域別フレームレート設定部421は、設定した各部分領域と時間解像度の設定を領域設定部422に供給する。
 領域設定部422は、時間解像度が設定される部分領域の位置、大きさ、形状などを設定する。領域設定部422は、任意のデータ単位を単位として部分領域を設定することができる。例えば、第1の実施の形態の場合と同様に、独立して復号が可能なタイルセットを用いて部分領域を設定するようにしてもよいし、タイルセットを用いずに部分領域を設定するようにしてもよい。領域設定部422は設定した部分領域を示す情報を領域別テンポラルID設定部423に供給する。
 領域別テンポラルID設定部423は、領域設定部422により設定された各部分領域に対して、領域別フレームレート設定部421により設定された時間解像度に応じた値のテンポラルIDを設定する。領域別テンポラルID設定部423は、部分領域を示す情報や、そのテンポラルIDを示す情報を、符号化制御部424およびパラメータセット生成部425に供給する。
 符号化制御部424は、供給された部分領域やそのテンポラルIDを示す情報に基づいて、符号化装置113の各処理部を制御し、画像データの各ピクチャについて、カレントピクチャ含まれる部分領域を符号化させ、図21のBに示されるビットストリーム310のように、それぞれの時間解像度の部分領域のデータを含むビットストリームを生成させる。
 パラメータセット生成部425は、パラメータセットを生成する。例えば、パラメータセット生成部425は、部分領域を示す情報やその時間解像度(テンポラルID)を示す情報を含むパラメータセットを生成する。
 例えば、領域設定部422がタイルを単位として部分領域を設定し、領域別テンポラルID設定部423が、各部分領域のテンポラルIDを設定するようにしてもよい。その場合、パラメータセット生成部425が、タイルを用いて部分領域を示す情報と、テンポラルIDを用いて各部分領域の時間解像度を示す情報とを含むパラメータセットを生成するようにしてもよい。その場合のシンタックスの例を図24のAに示す。また、そのセマンティクスを図24のBに示す。
 この例の場合、ピクチャパラメータセットにおいて、時間解像度を制御する部分領域がタイルの識別情報を用いて設定され(region_tileIdx[i])、その時間解像度がテンポラルID(region_temporal_id[i])を用いて設定されている。なお、これらの情報は、シーケンスパラメータセットにおいて設定されるようにしてもよい。
 以上のように、前処理部210が部分領域に対してテンポラルIDを設定し、その設定に基づいて符号化を行うので、符号化装置113は、図21のBに示されるビットストリーム310のように、それぞれの時間解像度の部分領域を含むビットストリームを生成することができる。これにより符号化効率の低減を抑制することができる。
  <前処理の流れ>
 この場合も、画像符号化処理は、第1の実施の形態の場合(図14)と同様の流れで実行される。図25のフローチャートを参照して、この場合の前処理の流れの例を説明する。
 前処理が開始されると、前処理部210の領域別フレームレート設定部231は、ステップS201において、入力画像に対して部分領域とその時間解像度(フレームレート)を設定する。
 ステップS202において、領域設定部422は、各ピクチャに、ステップS201において設定された部分領域を設定する。
 ステップS203において、領域別テンポラルID設定部423は、ステップS201において設定されたフレームレートを実現するように、各ピクチャの階層化構造を設定し、各部分領域に対して、その時間解像度に対応するテンポラルIDを設定する。
 ステップS204において、符号化制御部424は、ステップS202において設定された部分領域やステップS203において設定された部分領域毎のテンポラルIDに基づいて、図14を参照して説明した画像符号化処理を制御する。
 ステップS205において、パラメータセット生成部425は、パラメータセットを生成する。このパラメータセットは、図14のステップS113において、ビットストリームに含めて出力される。
 ステップS205の処理が終了すると、前処理が終了し、処理は図14に戻る。
 以上のように各処理を実行することにより、符号化装置113は、符号化効率の低減を抑制することができる。
 <3-2.符号化>
  <領域毎の時間解像度の解析>
 復号装置411は、上述のように符号化装置113により生成されたビットストリームを復号する。その際、復号装置411は、画像データが符号化されたビットストリームに含まれる、その画像データの部分領域毎の時間解像度を示す情報を解析する。従って、復号装置411は、カレントピクチャに存在する部分領域を特定し、復号することができる。したがって、復号装置411は、本実施の形態で説明した符号化装置113が生成したビットストリームを正しく復号することができる。つまり、符号化効率の低減を抑制することができる。なお、復号装置411は、カレントピクチャの存在しない領域を補完するようにしてもよい。このようにすることにより、復号装置411は、ピクチャ全体を符号化することができる。
  <復号装置の構成>
 図26は、復号装置411の主な構成例を示すブロック図である。図26に示されるように、復号装置411は、復号装置133(図18)と基本的に同様の構成を有する。しかしながら、復号装置411は、復号領域判定部441を有し、復号部272の代わりに復号部442を有する。
 復号領域判定部441は、ビットストリームに含まれる、画像データの部分領域毎の時間解像度を示す情報(例えば、部分領域毎のテンポラルID)を解析し、各ピクチャの復号する領域を判定する。復号領域判定部441は、また、その判定結果を復号部442に供給する。
 復号部442は、復号領域判定部441から供給される判定結果(部分領域毎の時間解像度を示す情報の解析結果)に従って、ビットストリームに含まれる画像データの符号化データの内、所望の部分領域の符号化データを復号する。例えば、復号部442は、解析された部分領域毎の時間解像度に基づいて、画像データの各ピクチャについて、カレントピクチャ含まれる部分領域の符号化データを復号する。このようにすることにより、復号装置411は、本実施の形態で説明した符号化装置113が生成したビットストリームを正しく復号することができる。つまり、符号化効率の低減を抑制することができる。
 また、復号部442は、復号領域判定部441の判定結果に従って、各ピクチャのデータが存在する部分領域を復号し、その他の領域を補完する。このようにすることにより、復号装置411は、ピクチャ全体を符号化することができる。
  <画像復号処理の流れ>
 この復号装置411により実行される画像復号処理の流れの例について、図27のフローチャートを参照して説明する。
 画像復号処理が開始されると、ステップS221において、蓄積バッファ271は、復号装置411に供給されるビットストリームを蓄積する。ステップS222において、復号領域判定部441は、部分領域毎のテンポラルIDを把握する。ステップS223において、復号領域判定部441は、カレントピクチャの時間情報と、部分領域毎のテンポラルIDとに基づいて、カレントピクチャの復号対象とする領域(復号領域)を特定する。ステップS224において、復号部442は、カレントピクチャの、ステップS223において特定した復号領域を復号する。ステップS225において、復号部442は、カレントピクチャの復号領域以外の領域(その他の領域)を補完する。
 ステップS226乃至ステップS232の各処理は、図19のステップS173乃至ステップS179の各処理と同様に実行される。ステップS232の処理が終了すると、画像復号処理が終了する。
 以上のように、画像復号処理を実行することにより、復号装置411は、符号化装置113が生成したビットストリームを復号することができるので、符号化効率の低減を抑制することができ、復号の負荷の増大を抑制することができる。
 <3-3.その他>
  <参照範囲>
 第2の実施の形態の場合、上述したように、部分領域はタイルセットでなくてもよい。従って、ピクチャ内においては、図28のAに示されるように、他の部分領域を参照することができるようにしてもよい。例えば、部分領域302内のブロック452の符号化・復号において、部分領域301内のブロック451を参照して予測画像を生成するようにしてもよい。また、他のフレームを参照する場合も、図28のBに示されるように、自身と異なる部分領域を参照することができるようにしてもよい。例えば、フレーム312のブロックの符号化・復号において、フレーム311やフレーム313を参照する場合に、それらのフレームに存在する部分領域であれば任意の部分領域のブロックを参照することができるようにしてもよい。したがって、第1の実施の形態において説明したHEVCを用いる場合よりも、予測の制約を低減させることができ、予測精度を向上させ、符号化効率を向上させることができる。
  <補完方法>
 復号装置411が、カレントピクチャに含まれる部分領域以外の領域に対して行う補完の方法は任意である。例えば、図29のAに示されるように、連続するフレーム461乃至フレーム463の内、カレントピクチャであるフレーム462の領域(30pの領域)を補完する場合、図29のBに示されるように、その他のフレームの画像の複製を用いて補完するようにしてもよい。この複製元のフレームは、任意である。例えば、フレーム462に隣接するフレーム(例えばフレーム461やフレーム462)であってもよいし、フレーム462の近傍のフレームであってもよい。
 また、例えば、図29のCに示されるように、カレントピクチャと異なる複数の他のフレームの画像の平均を用いて補完するようにしてもよい。この平均の算出に利用するフレームは、任意である。例えば、フレーム462の前後のフレーム(フレーム461およびフレーム463)であってもよいし、それら以外のフレームであってもよい。
 さらに、例えば、図29のDに示されるように、例えばモーションフロー等を用いて新たな画像を生成し、その生成された新たな画像を用いて補完するようにしてもよい。
 また、この補完方法は可変としてもよい。例えば、予め用意された複数の方法の中から選択された方法を用いるようにしてもよい。例えば、上述の、カレントピクチャと異なる他のピクチャの画像の複製を用いる方法、カレントピクチャと異なる複数の他のピクチャの画像の平均を用いる方法、または、新たに生成した画像を用いる方法のいずれかを採用して補完を行うようにしてもよい。
 さらに、例えば、この補完方法を符号化側から指定することができるようにしてもよい。つまり、この補完方法に関する情報(例えば補完方法を指定する情報)が、符号化側から復号側に提供されるようにしてもよい。たとえば、符号化装置113が、補完方法に関する情報をビットストリームに含めるようにしてもよい。そして、復号装置411が、その補完方法に関する情報をビットストリームから抽出し、補完の際に利用するようにしてもよい。
 このようにすることにより、より適切な補完方法を選択することができ、主観画質の低減をより抑制することができる。
  <時間解像度を示す情報>
 なお、第2の実施の形態においては、時間解像度を示す情報として、部分領域の時間解像度を示す情報を用いるように説明したが、第1の実施の形態の場合と同様に、この部分領域の時間解像度を示す情報の代わりに、部分領域毎に設定されるレベル情報を用いるようにしてもよい。また、部分領域の復号の際に必要なピクチャを示す情報を用いるようにしてもよい。
  <ビットストリーム変換>
 また、第2の実施の形態においては、復号装置411が、符号化装置113が生成したビットストリームを復号するように説明したが、これに限らず、第1の実施の形態の場合と同様に、ビットストリーム変換装置が、符号化装置113が生成したビットストリームから所望の部分領域のデータを抽出し、その部分領域のビットストリームを生成するようにしてもよい。このようにビットストリームを変換してから復号することにより、第1の実施の形態の場合と同様に、復号の負荷の増大を抑制することができる。
  <復号>
 逆に、第1の実施の形態において、第2の実施の形態の場合と同様に、復号装置133が符号化装置113が生成したビットストリームを復号するようにしてもよい。第1の実施の形態の場合、符号化装置113が生成したビットストリームには、全フレームの全ての部分領域のデータが含まれている。したがって、復号装置133は、任意の部分領域を任意のフレームレートで復号することができる。例えば、復号装置133が、時間解像度に応じたピクチャの部分領域のデータを復号することもできる。
 <4.第3の実施の形態>
  <部分領域毎のビットストリーム>
 第1の実施の形態および第2の実施の形態においては、符号化装置113が、1本のビットストリームを生成するように説明したが、これに限らず、時間解像度を制御する部分領域毎にビットストリームを生成するようにしてもよい。例えば、符号化装置113が、符号化する画像データの部分領域毎の時間解像度を設定し、その部分領域毎の、設定された時間解像度のビットストリームを生成するようにしてもよい。つまり、各部分領域のデータが互いに異なるビットストリームに格納されて、伝送されるようにしてもよい。
 図30にその場合のビットストリームの構成例を示す。図30に示されるように、この場合、ビットストリーム510、ビットストリーム520、ビットストリーム530、およびビットストリーム540の4本のビットストリームが生成されている。ビットストリーム510は、フレームレートが30pの部分領域のビットストリームであり、フレーム511およびフレーム512のように、フレーム数が元の4分の1に間引きされている。ビットストリーム520は、フレームレートが60pの部分領域のビットストリームであり、フレーム521乃至フレーム523のように、フレーム数が元の2分の1に間引きされている。ビットストリーム530は、フレームレートが90pの部分領域のビットストリームであり、フレーム531乃至フレーム534のように、フレーム数が元の4分の3に間引きされている。ビットストリーム540は、フレームレートが120pの部分領域のビットストリームであり、フレーム541乃至フレーム545のように、フレーム数が元のままである。
 このようにすることにより、符号化装置113は、各部分領域のビットストリームを、その部分領域の時間解像度で生成することができる。このようなビットストリームは、例えば、MPEG-DASH(Moving Picture Experts Group phase - Dynamic Adaptive Streaming over HTTP)等の規格を用いて伝送(提供)するようにしてもよい。例えば、MPEG-DASHの場合、各ビットストリーム(部分領域同士)の位置関係等が、MPD(Media Presentation Description)によって管理される。これにより、再生に必要なビットストリームのみを提供することができるようになり、データ伝送の負荷の増大を抑制することができる。
 なお、第1の実施の形態や第2の実施の形態の場合と同様に、符号化装置113が、このような部分領域を設定し、その設定された各部分領域の時間解像度を設定し、設定された部分領域毎のビットストリームを生成するようにしてもよい。また、この部分領域は、独立して復号可能なタイルセットとしてもよい。また、符号化・復号対象とするデータは、第1の実施の形態や第2の実施の形態の場合と同様に任意である。例えば、全方位画像が展開された平面画像や、6方位画像が展開された平面画像を符号化対象としてもよい。さらに。部分領域に対する時間解像度の設定は、第1の実施の形態や第2の実施の形態の場合と同様である。このようにすることにより、第1の実施の形態や第2の実施の形態の場合と同様の効果を得ることができる。
 <5.その他>
  <符号化対象>
 以上においては、VR動画を符号化する場合について説明したが、符号化の対象とする画像はどのような画像であってもよい。本技術は、任意の画像の符号化、復号、ビットストリーム変換等に適用することができる。例えば、上述のVR動画像の場合、複数のカメラで撮像された複数の動画像を平面上に並べた平面画像を符号化対象としていたが、単数のカメラで撮像された単数の動画像を符号化対象としてもよい。例えば、監視カメラシステム等において本技術を適用し、不審者等の監視対象が存在する注目領域(重要度の高い領域)の時間解像度を高いままに維持しながら、注目領域以外の、重要度の低い領域の時間解像度を低減させるようにしてもよい。
 なお、時間解像度を制御する部分領域(の位置、形状、大きさ等)、並びにその時間解像度は時間方向に可変としてもよい。つまり、部分領域の位置、形状、大きさ等や、その時間解像度が、時間とともに変化することができるようにしてもよい。例えば、監視カメラシステム等において本技術を適用する場合に、監視対象の移動とともに、注目領域を移動、変形させることができるようにしてもよい。また上述のVR動画像の場合も、ユーザの視線方向や視点位置の変更に応じて、各領域の時間解像度を変更するようにしてもよい。
 このように領域や時間解像度等を変更する場合、シーケンスを区切り、新たなシーケンスパラメータセットやSEI等において新たに設定するようにしてもよいが、ピクチャパラメータセットにおいてこれらを更新することができるようにしてもよい。
 また、以上においては撮像画像(撮像画像から生成した平面画像)を符号化対象とするように説明したが、符号化対象とする画像は任意であり、例えばCG(Computer Graphics)画像やアニメーション画像のように、撮像画像以外であってもよい。
  <制御>
 なお、以上に説明した本技術を適用するか否かを制御することができるようにしてもよい。例えば、部分領域に対して時間解像度を設定するか否かをユーザ指示等により制御することができるようにしてもよい。また、例えば目標ビットレートが低レートの場合のみ等、所定の条件を満たす場合のみ、部分領域に対して時間解像度を設定するようにしてもよい。
 また、本技術の適用に関する制御情報を符号化側から復号側に伝送することができるようにしてもよい。この制御情報は、本技術の適用に関するものであればどのような情報であってもよい。例えば、部分領域に対する時間解像度の設定を許可するか否か(または、禁止するか否か)を制御する情報(許可制御情報)、部分領域に対する時間解像度の設定を行うか否かを制御する情報(実行制御情報)、時間解像度等のパラメータの値を制限する情報(パラメータ制限情報)、実行や判定の条件を設定する情報等を、符号化側から復号側に伝送することができるようにしてもよい。
  <符号化・復号方式>
 例えば、本技術は、複数の視点(ビュー(view))の画像を含む多視点画像の符号化・復号を行う多視点画像符号化・復号システムや、所定のパラメータについてスケーラビリティ(scalability)機能を有するように複数レイヤ化(階層化)された階層画像の符号化・復号を行う階層画像符号化(スケーラブル符号化)・復号システムにも適用することができる。
  <本技術の適用分野>
 本技術は、画像を処理するものであれば、例えば、交通、医療、防犯、農業、畜産業、鉱業、美容、工場、家電、気象、自然監視等、任意の分野に利用されるシステム、装置、処理部等に適用することができる。
 例えば、本技術は、鑑賞の用に供されるシステムやデバイスにも適用することができる。また、例えば、本技術は、交通管理の用に供されるシステムやデバイスにも適用することができる。さらに、例えば、本技術は、セキュリティの用に供されるシステムやデバイスにも適用することができる。また、例えば、本技術は、スポーツの用に供されるシステムやデバイスにも適用することができる。さらに、例えば、本技術は、農業の用に供されるシステムやデバイスにも適用することができる。また、例えば、本技術は、畜産業の用に供されるシステムやデバイスにも適用することができる。さらに、本技術は、例えば火山、森林、海洋等の自然の状態を監視するシステムやデバイスにも適用することができる。また、本技術は、例えば天気、気温、湿度、風速、日照時間等を観測する気象観測システムや気象観測装置に適用することができる。さらに、本技術は、例えば鳥類、魚類、ハ虫類、両生類、哺乳類、昆虫、植物等の野生生物の生態を観測するシステムやデバイス等にも適用することができる。
  <コンピュータ>
 上述した一連の処理は、ハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここでコンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータ等が含まれる。
 図31は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。
 図31に示されるコンピュータ800において、CPU(Central Processing Unit)801、ROM(Read Only Memory)802、RAM(Random Access Memory)803は、バス804を介して相互に接続されている。
 バス804にはまた、入出力インタフェース810も接続されている。入出力インタフェース810には、入力部811、出力部812、記憶部813、通信部814、およびドライブ815が接続されている。
 入力部811は、例えば、キーボード、マウス、マイクロホン、タッチパネル、入力端子などよりなる。出力部812は、例えば、ディスプレイ、スピーカ、出力端子などよりなる。記憶部813は、例えば、ハードディスク、RAMディスク、不揮発性のメモリなどよりなる。通信部814は、例えば、ネットワークインタフェースよりなる。ドライブ815は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブルメディア821を駆動する。
 以上のように構成されるコンピュータでは、CPU801が、例えば、記憶部813に記憶されているプログラムを、入出力インタフェース810およびバス804を介して、RAM803にロードして実行することにより、上述した一連の処理が行われる。RAM803にはまた、CPU801が各種の処理を実行する上において必要なデータなども適宜記憶される。
 コンピュータ(CPU801)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア821に記録して適用することができる。その場合、プログラムは、リムーバブルメディア821をドライブ815に装着することにより、入出力インタフェース810を介して、記憶部813にインストールすることができる。また、このプログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することもできる。その場合、プログラムは、通信部814で受信し、記憶部813にインストールすることができる。その他、このプログラムは、ROM802や記憶部813に、あらかじめインストールしておくこともできる。
 なお、上述した一連の処理は、一部をハードウエアにより実行させ、他をソフトウエアにより実行させることもできる。
  <本技術の応用>
 本技術は、例えば、衛星放送、ケーブルTVなどの有線放送、インターネット上での配信、及びセルラー通信による端末への配信などにおける送信機や受信機、または、光ディスク、磁気ディスク及びフラッシュメモリなどの媒体に画像を記録する記録装置や、これら記憶媒体から画像を再生する再生装置などの、様々な電子機器に応用され得る。
 例えば、本技術は、複数の装置により構成されるネットワークシステムにも適用することもできる。図32は、本技術を適用したネットワークシステムの概略的な構成の一例を示している。
 図32に示されるネットワークシステム1600は、機器同士が、ネットワークを介して画像(動画像)に関する情報を授受するシステムである。このネットワークシステム1600のクラウドサービス1601は、自身に通信可能に接続されるコンピュータ1611、AV(Audio Visual)機器1612、携帯型情報処理端末1613、IoT(Internet of Things)デバイス1614等の端末に対して、画像(動画像)に関するサービスを提供するシステムである。例えば、クラウドサービス1601は、所謂動画配信(オンデマンドやライブ配信)のような、画像(動画像)のコンテンツの供給サービスを端末に提供する。また、例えば、クラウドサービス1601は、端末から画像(動画像)のコンテンツを受け取って保管するバックアップサービスを提供する。また、例えば、クラウドサービス1601は、端末同士の画像(動画像)のコンテンツの授受を仲介するサービスを提供する。
 クラウドサービス1601の物理構成は任意である。例えば、クラウドサービス1601は、動画像を保存し、管理するサーバ、動画像を端末に配信するサーバ、動画像を端末から取得するサーバ、ユーザ(端末)や課金を管理するサーバ等の各種サーバや、インターネットやLAN等の任意のネットワークを有するようにしてもよい。
 コンピュータ1611は、例えば、パーソナルコンピュータ、サーバ、ワークステーション等のような情報処理装置により構成される。AV機器1612は、例えば、テレビジョン受像機、ハードディスクレコーダ、ゲーム機器、カメラ等のような画像処理装置により構成される。携帯型情報処理端末1613は、例えば、ノート型パーソナルコンピュータ、タブレット端末、携帯電話機、スマートフォン等のような携帯型の情報処理装置により構成される。IoTデバイス1614は、例えば、機械、家電、家具、その他の物、ICタグ、カード型デバイス等、画像に関する処理を行う任意の物体により構成される。これらの端末は、いずれも通信機能を有し、クラウドサービス1601に接続し(セッションを確立し)、クラウドサービス1601と情報の授受を行う(すなわち通信を行う)ことができる。また、各端末は、他の端末と通信を行うこともできる。端末間の通信は、クラウドサービス1601を介して行うようにしてもよいし、クラウドサービス1601を介さずに行うようにしてもよい。
 以上のようなネットワークシステム1600において、端末間や、端末とクラウドサービス1601との間で動画像の符号化データを授受する際に、本技術を適用するようにしてもよい。
 例えば、クラウドサービス1601がVR動画を提供し、端末がそのVR動画を取得して再生する場合、クラウドサービス1601がそのVR動画として、各実施の形態において上述したように、部分領域毎に時間解像度が設定された画像データを符号化したビットストリームを端末に提供するようにしてもよい。このようにすることにより、部分領域毎に時間解像度を用いて情報量を制御することができるので、符号化効率の低減を抑制することができる。これにより、VR動画を提供するクラウドサービス1601において、保持するデータ量を低減させたり、符号化や送信の負荷(処理量、バッファ量、処理時間等)の増大を抑制したりすることができる。また、伝送媒体(ネットワーク等)の負荷(占有率や占有時間等)の増大を抑制することができる。さらに、そのVR動画を受信する端末において、受信や復号の負荷(処理量、バッファ量、処理時間等)の増大を抑制したりすることができる。
  <補足>
 なお、符号化データ(ビットストリーム)に関する各種情報(メタデータ等)は、符号化データに関連づけられていれば、どのような形態で伝送または記録されるようにしてもよい。ここで、「関連付ける」という用語は、例えば、一方のデータを処理する際に他方のデータを利用し得る(リンクさせ得る)ようにすることを意味する。つまり、互いに関連付けられたデータは、1つのデータとしてまとめられてもよいし、それぞれ個別のデータとしてもよい。例えば、符号化データ(画像)に関連付けられた情報は、その符号化データ(画像)とは別の伝送路上で伝送されるようにしてもよい。また、例えば、符号化データ(画像)に関連付けられた情報は、その符号化データ(画像)とは別の記録媒体(又は同一の記録媒体の別の記録エリア)に記録されるようにしてもよい。なお、この「関連付け」は、データ全体でなく、データの一部であってもよい。例えば、画像とその画像に対応する情報とが、複数フレーム、1フレーム、又はフレーム内の一部分などの任意の単位で互いに関連付けられるようにしてもよい。
 また、本明細書において、「合成する」、「多重化する」、「付加する」、「一体化する」、「含める」、「格納する」、「入れ込む」、「差し込む」、「挿入する」等の用語は、例えば符号化データとメタデータとを1つのデータにまとめるといった、複数の物を1つにまとめることを意味し、上述の「関連付ける」の1つの方法を意味する。
 また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 また、例えば、本技術は、装置またはシステムを構成するあらゆる構成、例えば、システムLSI(Large Scale Integration)等としてのプロセッサ、複数のプロセッサ等を用いるモジュール、複数のモジュール等を用いるユニット、ユニットにさらにその他の機能を付加したセット等(すなわち、装置の一部の構成)として実施することもできる。
 なお、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、全ての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
 また、例えば、1つの装置(または処理部)として説明した構成を分割し、複数の装置(または処理部)として構成するようにしてもよい。逆に、以上において複数の装置(または処理部)として説明した構成をまとめて1つの装置(または処理部)として構成されるようにしてもよい。また、各装置(または各処理部)の構成に上述した以外の構成を付加するようにしてももちろんよい。さらに、システム全体としての構成や動作が実質的に同じであれば、ある装置(または処理部)の構成の一部を他の装置(または他の処理部)の構成に含めるようにしてもよい。
 また、例えば、本技術は、1つの機能を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、例えば、上述したプログラムは、任意の装置において実行することができる。その場合、その装置が、必要な機能(機能ブロック等)を有し、必要な情報を得ることができるようにすればよい。
 また、例えば、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。換言するに、1つのステップに含まれる複数の処理を、複数のステップの処理として実行することもできる。逆に、複数のステップとして説明した処理を1つのステップとしてまとめて実行することもできる。
 なお、コンピュータが実行するプログラムは、プログラムを記述するステップの処理が、本明細書で説明する順序に沿って時系列に実行されるようにしても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで個別に実行されるようにしても良い。つまり、矛盾が生じない限り、各ステップの処理が上述した順序と異なる順序で実行されるようにしてもよい。さらに、このプログラムを記述するステップの処理が、他のプログラムの処理と並列に実行されるようにしても良いし、他のプログラムの処理と組み合わせて実行されるようにしても良い。
 なお、本明細書において複数説明した本技術は、矛盾が生じない限り、それぞれ独立に単体で実施することができる。もちろん、任意の複数の本技術を併用して実施することもできる。例えば、いずれかの実施の形態において説明した本技術の一部または全部を、他の実施の形態において説明した本技術の一部または全部と組み合わせて実施することもできる。また、上述した任意の本技術の一部または全部を、上述していない他の技術と併用して実施することもできる。
 なお、本技術は以下のような構成も取ることができる。
 (1) 符号化する画像データの部分領域毎の時間解像度を設定する時間解像度設定部と、
 前記画像データを符号化し、前記時間解像度設定部により設定された前記部分領域毎の前記時間解像度を示す情報を含むビットストリームを生成する符号化部と
 を備える画像処理装置。
 (2) 前記部分領域は独立して復号可能なタイルセットである
 (1)に記載の画像処理装置。
 (3) 前記ビットストリームは、前記部分領域に関する情報を含む
 (1)または(2)に記載の画像処理装置。
 (4) 前記部分領域に関する前記情報は、MCTS SEI(Motion constrained tile set Supplemental Enhancement Information)である
 (3)に記載の画像処理装置。
 (5) 前記部分領域を設定する部分領域設定部をさらに備え、
 前記時間解像度設定部は、前記部分領域設定部により設定された各部分領域の時間解像度を設定するように構成される
 (1)乃至(4)のいずれかに記載の画像処理装置。
 (6) 前記時間解像度を示す前記情報は、前記画像データのピクチャ毎に設定されるテンポラルIDを含む
 (1)乃至(5)のいずれかに記載の画像処理装置。
 (7) 前記時間解像度を示す前記情報は、前記部分領域毎に設定されるレベル情報を含む
 (1)乃至(6)のいずれかに記載の画像処理装置。
 (8) 前記時間解像度を示す情報は、前記部分領域の復号の際に必要なピクチャを示す情報を含む
 (1)乃至(6)のいずれかに記載の画像処理装置。
 (9) 前記画像データは、視点を中心とする球体状にレンダリングされた全方位画像が単数の平面に展開された平面画像のデータである
 (1)乃至(8)のいずれかに記載の画像処理装置。
 (10) 前記時間解像度設定部は、前記全方位画像が展開された前記平面画像のより中央に近い位置の部分領域程、前記時間解像度を高く設定する
 (9)に記載の画像処理装置。
 (11) 前記時間解像度設定部は、前記全方位画像が展開された前記平面画像の上下方向について、より中央に近い位置の部分領域程、前記時間解像度を高く設定する
 (10)に記載の画像処理装置。
 (12) 前記時間解像度設定部は、前記全方位画像が展開された前記平面画像の上端近傍の部分領域の前記時間解像度を、前記平面画像の下端近傍の部分領域よりも高く設定する
 (11)に記載の画像処理装置。
 (13) 前記画像データは、視点を中心とする互いに直角な6方向の平面画像が単数の平面に展開された平面画像のデータである
 (1)乃至(8)のいずれかに記載の画像処理装置。
 (14) 前記時間解像度設定部は、前記6方向の内、前記視点から見て前方の平面画像の前記時間解像度を、他の方向の平面画像よりも高く設定する
 (13)に記載の画像処理装置。
 (15) 前記時間解像度設定部は、前記6方向の内、前記視点から見て左方、右方、および後方の平面画像の前記時間解像度を、前記視点から見て上方および下方の平面画像よりも高く設定する
 (14)に記載の画像処理装置。
 (16) 前記時間解像度設定部は、前記6方向の内、前記視点から見て左方および右方の平面画像の前記時間解像度を、前記視点から見て後方の平面画像よりも高く設定する
 (15)に記載の画像処理装置。
 (17) 前記時間解像度設定部は、前記6方向の内、前記視点から見て上方の平面画像の前記時間解像度を、前記視点から見て下方の平面画像よりも高く設定する
 (16)に記載の画像処理装置。
 (18) 符号化する画像データの部分領域毎の時間解像度を設定し、
 前記画像データを符号化し、設定された前記部分領域毎の前記時間解像度を示す情報を含むビットストリームを生成する
 画像処理方法。
 (21) 画像データが符号化されたビットストリームに含まれる、前記画像データの部分領域毎の時間解像度を示す情報を解析する解析部を備える
 画像処理装置。
 (22) 前記部分領域は独立して復号可能なタイルセットである
 (21)に記載の画像処理装置。
 (23) 前記ビットストリームは、前記部分領域に関する情報を含む
 (21)または(22)に記載の画像処理装置。
 (24) 前記部分領域に関する前記情報は、MCTS SEI(Motion constrained tile set Supplemental Enhancement Information)である
 (23)に記載の画像処理装置。
 (25) 前記時間解像度を示す前記情報は、前記画像データのピクチャ毎に設定されるテンポラルIDを含む
 (21)乃至(24)のいずれかに記載の画像処理装置。
 (26) 前記時間解像度を示す前記情報は、前記部分領域毎に設定されるレベル情報を含む
 (21)乃至(25)のいずれかに記載の画像処理装置。
 (27) 前記時間解像度を示す情報は、前記部分領域の復号の際に必要なピクチャを示す情報を含む
 (21)乃至(25)のいずれかに記載の画像処理装置。
 (28) 前記画像データは、視点を中心とする球体状にレンダリングされた全方位画像が単数の平面に展開された平面画像のデータである
 (21)乃至(27)のいずれかに記載の画像処理装置。
 (29) 前記画像データは、前記全方位画像が展開された前記平面画像のより中央に近い位置の部分領域程、前記時間解像度が高く設定されている
 (28)に記載の画像処理装置。
 (30) 前記画像データは、前記全方位画像が展開された前記平面画像の上下方向について、より中央に近い位置の部分領域程、前記時間解像度が高く設定されている
 (29)に記載の画像処理装置。
 (31) 前記画像データは、前記全方位画像が展開された前記平面画像の上端近傍の部分領域の前記時間解像度が、前記平面画像の下端近傍の部分領域よりも高く設定されている
 (30)に記載の画像処理装置。
 (32) 前記画像データは、視点を中心とする互いに直角な6方向の平面画像が単数の平面に展開された平面画像のデータである
 (21)乃至(27)のいずれかに記載の画像処理装置。
 (33) 前記画像データは、前記6方向の内、前記視点から見て前方の平面画像の前記時間解像度が、他の方向の平面画像よりも高く設定されている
 (32)に記載の画像処理装置。
 (34) 前記画像データは、前記6方向の内、前記視点から見て左方、右方、および後方の平面画像の前記時間解像度が、前記視点から見て上方および下方の平面画像よりも高く設定されている
 (33)に記載の画像処理装置。
 (35) 前記画像データは、前記6方向の内、前記視点から見て左方および右方の平面画像の前記時間解像度が、前記視点から見て後方の平面画像よりも高く設定されている
 (34)に記載の画像処理装置。
 (36) 前記画像データは、前記6方向の内、前記視点から見て上方の平面画像の前記時間解像度が、前記視点から見て下方の平面画像よりも高く設定されている
 (35)に記載の画像処理装置。
 (37) 前記解析部の解析結果に従って、前記ビットストリームから所望の部分領域のデータを抽出するデータ抽出部と、
 前記データ抽出部により抽出された前記部分領域のデータを含むビットストリームを生成するビットストリーム生成部と
 をさらに備える(21)乃至(36)のいずれかに記載の画像処理装置。
 (38) 前記データ抽出部は、前記時間解像度に応じたピクチャから、前記部分領域のデータを抽出する
 (37)に記載の画像処理装置。
 (39) 前記解析部の解析結果に従って、前記ビットストリームから所望の部分領域のデータを復号する復号部をさらに備える
 (21)乃至(36)のいずれかに記載の画像処理装置。
 (40) 前記復号部は、前記時間解像度に応じたピクチャの前記部分領域のデータを復号する
 (39)に記載の画像処理装置。
 (41) 画像データが符号化されたビットストリームに含まれる、前記画像データの部分領域毎の時間解像度を示す情報を解析する
 画像処理方法。
 (51) 符号化する画像データの部分領域毎の時間解像度を設定する時間解像度設定部と、
 前記画像データを符号化し、前記時間解像度設定部により設定された前記部分領域毎の前記時間解像度を示す情報を含むビットストリームを生成する符号化部と
 を備える画像処理装置。
 (52) 前記部分領域を設定する部分領域設定部をさらに備え、
 前記時間解像度設定部は、前記部分領域設定部により設定された各部分領域の時間解像度を設定するように構成される
 (51)に記載の画像処理装置。
 (53) 前記ビットストリームは、前記部分領域に関する情報を含む
 (51)または(52)に記載の画像処理装置。
 (54) 前記部分領域は独立して復号可能なタイルセットである
 (51)乃至(53)のいずれかに記載の画像処理装置。
 (55) 前記時間解像度を示す前記情報は、前記部分領域毎に設定されるテンポラルIDを含む
 (51)乃至(54)のいずれかに記載の画像処理装置。
 (56) 前記時間解像度を示す前記情報は、前記部分領域毎に設定されるレベル情報を含む
 (51)乃至(54)のいずれかに記載の画像処理装置。
 (57) 前記時間解像度を示す情報は、前記部分領域の復号の際に必要なピクチャを示す情報を含む
 (51)乃至(54)のいずれかに記載の画像処理装置。
 (58) 前記画像データは、視点を中心とする球体状にレンダリングされた全方位画像が単数の平面に展開された平面画像のデータである
 (51)乃至(57)のいずれかに記載の画像処理装置。
 (59) 前記時間解像度設定部は、前記全方位画像が展開された前記平面画像のより中央に近い位置の部分領域程、前記時間解像度を高く設定する
 (58)に記載の画像処理装置。
 (60) 前記時間解像度設定部は、前記全方位画像が展開された前記平面画像の上下方向について、より中央に近い位置の部分領域程、前記時間解像度を高く設定する
 (59)に記載の画像処理装置。
 (61) 前記時間解像度設定部は、前記全方位画像が展開された前記平面画像の上端近傍の部分領域の前記時間解像度を、前記平面画像の下端近傍の部分領域よりも高く設定する
 (60)に記載の画像処理装置。
 (62) 前記画像データは、視点を中心とする互いに直角な6方向の平面画像が単数の平面に展開された平面画像のデータである
 (51)乃至(57)のいずれかに記載の画像処理装置。
 (63) 前記時間解像度設定部は、前記6方向の内、前記視点から見て前方の平面画像の前記時間解像度を、他の方向の平面画像よりも高く設定する
 (62)に記載の画像処理装置。
 (64) 前記時間解像度設定部は、前記6方向の内、前記視点から見て左方、右方、および後方の平面画像の前記時間解像度を、前記視点から見て上方および下方の平面画像よりも高く設定する
 (63)に記載の画像処理装置。
 (65) 前記時間解像度設定部は、前記6方向の内、前記視点から見て左方および右方の平面画像の前記時間解像度を、前記視点から見て後方の平面画像よりも高く設定する
 (64)に記載の画像処理装置。
 (66) 前記時間解像度設定部は、前記6方向の内、前記視点から見て上方の平面画像の前記時間解像度を、前記視点から見て下方の平面画像よりも高く設定する
 (65)に記載の画像処理装置。
 (67) 前記符号化部は、前記時間解像度設定部により設定された前記部分領域毎の前記時間解像度に基づいて、前記画像データの各ピクチャについて、カレントピクチャ含まれる部分領域を符号化する
 (51)乃至(66)のいずれかに記載の画像処理装置。
 (68) 前記ビットストリームは、復号の際のピクチャの前記部分領域以外の領域の補完方法に関する情報を含む
 (67)に記載の画像処理装置。
 (69) 符号化する画像データの部分領域毎の時間解像度を設定し、
 前記画像データを符号化し、設定された前記部分領域毎の前記時間解像度を示す情報を含むビットストリームを生成する
 画像処理方法。
 (71) 画像データが符号化されたビットストリームに含まれる、前記画像データの部分領域毎の時間解像度を示す情報を解析する解析部を備える
 画像処理装置。
 (72) 前記ビットストリームは、前記部分領域に関する情報を含む
 (71)に記載の画像処理装置。
 (73) 前記部分領域は独立して復号可能なタイルセットである
 (71)または(72)に記載の画像処理装置。
 (74) 前記時間解像度を示す前記情報は、前記部分領域毎に設定されるテンポラルIDを含む
 (71)乃至(73)のいずれかに記載の画像処理装置。
 (75) 前記時間解像度を示す前記情報は、前記部分領域毎に設定されるレベル情報を含む
 (71)乃至(73)のいずれかに記載の画像処理装置。
 (76) 前記時間解像度を示す情報は、前記部分領域の復号の際に必要なピクチャを示す情報を含む
 (71)乃至(73)のいずれかに記載の画像処理装置。
 (77) 前記画像データは、視点を中心とする球体状にレンダリングされた全方位画像が単数の平面に展開された平面画像のデータである
 (71)乃至(76)のいずれかに記載の画像処理装置。
 (78) 前記画像データは、前記全方位画像が展開された前記平面画像のより中央に近い位置の部分領域程、前記時間解像度が高く設定されている
 (77)に記載の画像処理装置。
 (79) 前記画像データは、前記全方位画像が展開された前記平面画像の上下方向について、より中央に近い位置の部分領域程、前記時間解像度が高く設定されている
 (78)に記載の画像処理装置。
 (80) 前記画像データは、前記全方位画像が展開された前記平面画像の上端近傍の部分領域の前記時間解像度が、前記平面画像の下端近傍の部分領域よりも高く設定されている
 (79)に記載の画像処理装置。
 (81) 前記画像データは、視点を中心とする互いに直角な6方向の平面画像が単数の平面に展開された平面画像のデータである
 (71)乃至(76)のいずれかに記載の画像処理装置。
 (82) 前記画像データは、前記6方向の内、前記視点から見て前方の平面画像の前記時間解像度が、他の方向の平面画像よりも高く設定されている
 (81)に記載の画像処理装置。
 (83) 前記画像データは、前記6方向の内、前記視点から見て左方、右方、および後方の平面画像の前記時間解像度が、前記視点から見て上方および下方の平面画像よりも高く設定されている
 (82)に記載の画像処理装置。
 (84) 前記画像データは、前記6方向の内、前記視点から見て左方および右方の平面画像の前記時間解像度が、前記視点から見て後方の平面画像よりも高く設定されている
 (83)に記載の画像処理装置。
 (85) 前記画像データは、前記6方向の内、前記視点から見て上方の平面画像の前記時間解像度が、前記視点から見て下方の平面画像よりも高く設定されている
 (84)に記載の画像処理装置。
 (86) 前記解析部の解析結果に従って、前記ビットストリームに含まれる前記画像データの符号化データの内、所望の部分領域の符号化データを復号する復号部をさらに備える
 (71)乃至(85)のいずれかに記載の画像処理装置。
 (87) 前記復号部は、前記解析部により解析された前記部分領域毎の前記時間解像度に基づいて、前記画像データの各ピクチャについて、カレントピクチャ含まれる部分領域の符号化データを復号する
 (86)に記載の画像処理装置。
 (88) 前記復号部は、カレントピクチャの前記部分領域以外の領域を補完する
 (87)に記載の画像処理装置。
 (89) 前記復号部は、前記カレントピクチャの前記部分領域以外の領域を、前記カレントピクチャと異なる他のピクチャの画像の複製、前記カレントピクチャと異なる複数の他のピクチャの画像の平均、または、新たに生成した画像を用いて補完する
 (88)に記載の画像処理装置。
 (90) 前記復号部は、前記カレントピクチャの前記部分領域以外の領域を、前記ビットストリームに含まれる、前記カレントピクチャの前記部分領域以外の領域の補完方法に関する情報に対応する方法を用いて補完する
 (88)に記載の画像処理装置。
 (91) 前記解析部の解析結果に従って、前記ビットストリームから所望の部分領域のデータを抽出するデータ抽出部と、
 前記データ抽出部により抽出された前記部分領域のデータを含むビットストリームを生成するビットストリーム生成部と
 をさらに備える(71)乃至(85)のいずれかに記載の画像処理装置。
 (92) 画像データが符号化されたビットストリームに含まれる、前記画像データの部分領域毎の時間解像度を示す情報を解析する
 画像処理方法。
 (101) 符号化する画像データの部分領域毎の時間解像度を設定する時間解像度設定部と、
 前記部分領域毎の、前記時間解像度設定部により設定された前記時間解像度のビットストリームを生成する符号化部と
 を備える画像処理装置。
 (102) 前記部分領域を設定する部分領域設定部をさらに備え、
 前記時間解像度設定部は、前記部分領域設定部により設定された各部分領域の時間解像度を設定するように構成され、
 前記符号化部は、前記部分領域設定部により設定された部分領域毎の前記ビットストリームを生成するように構成される
 (101)に記載の画像処理装置。
 (103) 前記部分領域は独立して復号可能なタイルセットである
 (101)または(102)に記載の画像処理装置。
 (104) 前記画像データは、視点を中心とする球体状にレンダリングされた全方位画像が単数の平面に展開された平面画像のデータである
 (101)乃至(103)のいずれかに記載の画像処理装置。
 (105) 前記時間解像度設定部は、前記全方位画像が展開された前記平面画像のより中央に近い位置の部分領域程、前記時間解像度を高く設定する
 (104)に記載の画像処理装置。
 (106) 前記時間解像度設定部は、前記全方位画像が展開された前記平面画像の上下方向について、より中央に近い位置の部分領域程、前記時間解像度を高く設定する
 (105)に記載の画像処理装置。
 (107) 前記時間解像度設定部は、前記全方位画像が展開された前記平面画像の上端近傍の部分領域の前記時間解像度を、前記平面画像の下端近傍の部分領域よりも高く設定する
 (106)に記載の画像処理装置。
 (108) 前記画像データは、視点を中心とする互いに直角な6方向の平面画像が単数の平面に展開された平面画像のデータである
 (101)乃至(103)のいずれかに記載の画像処理装置。
 (109) 前記時間解像度設定部は、前記6方向の内、前記視点から見て前方の平面画像の前記時間解像度を、他の方向の平面画像よりも高く設定する
 (108)に記載の画像処理装置。
 (110) 前記時間解像度設定部は、前記6方向の内、前記視点から見て左方、右方、および後方の平面画像の前記時間解像度を、前記視点から見て上方および下方の平面画像よりも高く設定する
 (109)に記載の画像処理装置。
 (111) 前記時間解像度設定部は、前記6方向の内、前記視点から見て左方および右方の平面画像の前記時間解像度を、前記視点から見て後方の平面画像よりも高く設定する
 (110)に記載の画像処理装置。
 (112) 前記時間解像度設定部は、前記6方向の内、前記視点から見て上方の平面画像の前記時間解像度を、前記視点から見て下方の平面画像よりも高く設定する
 (111)に記載の画像処理装置。
 (113) 符号化する画像データの部分領域毎の時間解像度を設定し、
 前記部分領域毎の、設定された前記時間解像度のビットストリームを生成する
 画像処理方法。
 100 画像処理システム, 111 撮像装置, 112 画像変換装置, 113 符号化装置, 114 送信装置, 120 ネットワーク, 131 受信装置, 132 ビットストリーム変換装置, 133 復号装置, 134 画像変換装置, 135 表示装置, 210 前処理部, 231 領域別フレームレート設定部, 232 タイルセット設定部, 233 テンポラルID設定部, 234 符号化制御部, 235 レベル情報設定部, 236 MCTSSEI設定部, 237 パラメータセット生成部, 251 制御部, 252 データ抽出部, 253 メタデータ更新部, 254 ビットストリーム生成部, 272 復号部, 400 画像処理システム, 411 復号装置, 421 領域別フレームレート設定部, 422 領域設定部, 423 領域別テンポラルID設定部, 424 符号化制御部, 425 パラメータセット生成部, 441 復号領域判定部, 442 復号部, 510 ビットストリーム, 520 ビットストリーム, 530 ビットストリーム, 540 ビットストリーム, 800 コンピュータ, 1600 ネットワークシステム, 1601 クラウドサービス, 1611 コンピュータ, 1612 AV機器, 1613 携帯型情報処理端末, 1614 IoTデバイス

Claims (20)

  1.  符号化する画像データの部分領域毎の時間解像度を設定する時間解像度設定部と、
     前記画像データを符号化し、前記時間解像度設定部により設定された前記部分領域毎の前記時間解像度を示す情報を含むビットストリームを生成する符号化部と
     を備える画像処理装置。
  2.  前記部分領域は独立して復号可能なタイルセットである
     請求項1に記載の画像処理装置。
  3.  前記ビットストリームは、前記部分領域に関する情報を含む
     請求項1に記載の画像処理装置。
  4.  前記時間解像度を示す前記情報は、前記画像データのピクチャ毎に設定されるテンポラルIDと、前記部分領域毎に設定されるレベル情報とを含む
     請求項1に記載の画像処理装置。
  5.  前記画像データは、視点を中心とする球体状にレンダリングされた全方位画像が単数の平面に展開された平面画像のデータである
     請求項1に記載の画像処理装置。
  6.  前記時間解像度設定部は、前記全方位画像が展開された前記平面画像のより中央に近い位置の部分領域程、前記時間解像度を高く設定する
     請求項5に記載の画像処理装置。
  7.  前記画像データは、視点を中心とする互いに直角な6方向の平面画像が単数の平面に展開された平面画像のデータである
     請求項1に記載の画像処理装置。
  8.  前記時間解像度設定部は、前記6方向の内、前記視点から見て前方の平面画像の前記時間解像度を、他の方向の平面画像よりも高く設定する
     請求項7に記載の画像処理装置。
  9.  前記部分領域を設定する部分領域設定部をさらに備え、
     前記時間解像度設定部は、前記部分領域設定部により設定された各部分領域の時間解像度を設定するように構成される
     請求項1に記載の画像処理装置。
  10.  前記時間解像度を示す前記情報は、前記部分領域毎に設定されるテンポラルIDを含む
     請求項1に記載の画像処理装置。
  11.  前記符号化部は、前記時間解像度設定部により設定された前記部分領域毎の前記時間解像度に基づいて、前記画像データの各ピクチャについて、カレントピクチャ含まれる部分領域を符号化する
     請求項1に記載の画像処理装置。
  12.  前記ビットストリームは、復号の際のピクチャの前記部分領域以外の領域の補完方法に関する情報を含む
     請求項11に記載の画像処理装置。
  13.  前記符号化部は、前記部分領域毎の、前記時間解像度設定部により設定された前記時間解像度のビットストリームを生成する
     請求項1に記載の画像処理装置。
  14.  符号化する画像データの部分領域毎の時間解像度を設定し、
     前記画像データを符号化し、設定された前記部分領域毎の前記時間解像度を示す情報を含むビットストリームを生成する
     画像処理方法。
  15.  画像データが符号化されたビットストリームに含まれる、前記画像データの部分領域毎の時間解像度を示す情報を解析する解析部を備える
     画像処理装置。
  16.  前記解析部の解析結果に従って、前記ビットストリームから所望の部分領域のデータを抽出するデータ抽出部と、
     前記データ抽出部により抽出された前記部分領域のデータを含むビットストリームを生成するビットストリーム生成部と
     をさらに備える請求項15に記載の画像処理装置。
  17.  前記解析部の解析結果に従って、前記ビットストリームに含まれる前記画像データの符号化データの内、所望の部分領域の符号化データを復号する復号部をさらに備える
     請求項15に記載の画像処理装置。
  18.  前記復号部は、前記解析部により解析された前記部分領域毎の前記時間解像度に基づいて、前記画像データの各ピクチャについて、カレントピクチャ含まれる部分領域の符号化データを復号する
     請求項17に記載の画像処理装置。
  19.  前記復号部は、前記カレントピクチャの前記部分領域以外の領域を、前記カレントピクチャと異なる他のピクチャの画像の複製、前記カレントピクチャと異なる複数の他のピクチャの画像の平均、または、新たに生成した画像を用いて補完する
     請求項18に記載の画像処理装置。
  20.  画像データが符号化されたビットストリームに含まれる、前記画像データの部分領域毎の時間解像度を示す情報を解析する
     画像処理方法。
PCT/JP2018/000098 2017-01-19 2018-01-05 画像処理装置および方法 WO2018135321A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018563271A JPWO2018135321A1 (ja) 2017-01-19 2018-01-05 画像処理装置および方法
CN201880006851.3A CN110169069A (zh) 2017-01-19 2018-01-05 图像处理装置和方法
US16/477,627 US10944975B2 (en) 2017-01-19 2018-01-05 Image processing device and image processing method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017007743 2017-01-19
JP2017-007743 2017-01-19

Publications (1)

Publication Number Publication Date
WO2018135321A1 true WO2018135321A1 (ja) 2018-07-26

Family

ID=62908160

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/000098 WO2018135321A1 (ja) 2017-01-19 2018-01-05 画像処理装置および方法

Country Status (4)

Country Link
US (1) US10944975B2 (ja)
JP (1) JPWO2018135321A1 (ja)
CN (1) CN110169069A (ja)
WO (1) WO2018135321A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022514513A (ja) * 2019-03-11 2022-02-14 テンセント・アメリカ・エルエルシー タイル及びサブ画像の分割
JP2022548335A (ja) * 2019-11-12 2022-11-17 株式会社ソニー・インタラクティブエンタテインメント マルチセグメント時間リサンプリングを使用した高速対象領域コーディング
US11817036B2 (en) 2021-06-07 2023-11-14 Samsung Electronics Co., Ltd. Display apparatus and control method thereof

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10979663B2 (en) * 2017-03-30 2021-04-13 Yerba Buena Vr, Inc. Methods and apparatuses for image processing to optimize image resolution and for optimizing video streaming bandwidth for VR videos
US11575922B2 (en) * 2017-12-06 2023-02-07 V-Nova International Limited Methods and apparatuses for hierarchically encoding and decoding a bytestream

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10271509A (ja) * 1997-03-26 1998-10-09 Sharp Corp 画像符号化装置及び画像復号装置
JP2005102184A (ja) * 2003-08-29 2005-04-14 Ricoh Co Ltd 画像処理装置、画像処理システム、画像処理方法、プログラム、及び、記録媒体
JP2009027564A (ja) * 2007-07-20 2009-02-05 Fujifilm Corp 画像処理装置、画像処理方法、及びプログラム
JP2011035747A (ja) * 2009-08-04 2011-02-17 Nippon Telegr & Teleph Corp <Ntt> 動画像復号方法,動画像復号装置および動画像復号プログラム
WO2012132267A1 (ja) * 2011-03-31 2012-10-04 パナソニック株式会社 全方向ステレオ画像出力装置
JP2013247663A (ja) * 2012-05-29 2013-12-09 Toshiba Corp 映像再生装置、映像再生方法及び映像符号化方法
JP2014030187A (ja) * 2012-07-02 2014-02-13 Canon Inc メディアファイル生成方法、メディアファイル生成プログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105308972B (zh) * 2014-05-23 2020-03-27 松下电器(美国)知识产权公司 图像编码方法及装置、记录介质、图像解码方法及装置
US10397666B2 (en) * 2014-06-27 2019-08-27 Koninklijke Kpn N.V. Determining a region of interest on the basis of a HEVC-tiled video stream
US10986155B2 (en) * 2014-09-29 2021-04-20 Avaya Inc. Segmented video codec for high resolution and high frame rate video
US10104361B2 (en) * 2014-11-14 2018-10-16 Samsung Electronics Co., Ltd. Coding of 360 degree videos using region adaptive smoothing
JP6468847B2 (ja) * 2015-01-07 2019-02-13 キヤノン株式会社 画像復号装置、画像復号方法、及びプログラム
TWI750072B (zh) * 2016-02-09 2021-12-11 弗勞恩霍夫爾協會 用於圖像/視訊資料串流而允許有效可縮減性或有效隨機存取之技術
US10147224B2 (en) * 2016-02-16 2018-12-04 Samsung Electronics Co., Ltd. Method and apparatus for generating omni media texture mapping metadata

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10271509A (ja) * 1997-03-26 1998-10-09 Sharp Corp 画像符号化装置及び画像復号装置
JP2005102184A (ja) * 2003-08-29 2005-04-14 Ricoh Co Ltd 画像処理装置、画像処理システム、画像処理方法、プログラム、及び、記録媒体
JP2009027564A (ja) * 2007-07-20 2009-02-05 Fujifilm Corp 画像処理装置、画像処理方法、及びプログラム
JP2011035747A (ja) * 2009-08-04 2011-02-17 Nippon Telegr & Teleph Corp <Ntt> 動画像復号方法,動画像復号装置および動画像復号プログラム
WO2012132267A1 (ja) * 2011-03-31 2012-10-04 パナソニック株式会社 全方向ステレオ画像出力装置
JP2013247663A (ja) * 2012-05-29 2013-12-09 Toshiba Corp 映像再生装置、映像再生方法及び映像符号化方法
JP2014030187A (ja) * 2012-07-02 2014-02-13 Canon Inc メディアファイル生成方法、メディアファイル生成プログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JIANLE CHEN ET AL.: "Editorial improvements on SHVC Draft Text 2", JOINT COLLABORATIVE TEAM ON VIDEO CODING (JCT-VC) 14TH MEETING , JCTVC-N0242_VL, 2 August 2013 (2013-08-02), XP030114757 *
K. KAMMACHI SREEDHAR ET AL.: "AHG8: Test results for viewport-dependent pyramid, cube map, and equirectangular panorama schemes", JOINT VIDEO EXPLORATION TEAM (JVET) 4TH MEETING, JVET-D0078, 21 October 2016 (2016-10-21), XP030150312 *
ZHONGKANG LU ET AL.: "A Perceptual Deblocking Filter for ROI-based Scalable Video Coding", JOINT VIDEO TEAM (JVT) 22ND MEETING , JVT-V064R1, 27 October 2006 (2006-10-27) *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022514513A (ja) * 2019-03-11 2022-02-14 テンセント・アメリカ・エルエルシー タイル及びサブ画像の分割
JP7234373B2 (ja) 2019-03-11 2023-03-07 テンセント・アメリカ・エルエルシー タイル及びサブ画像の分割
US11743462B2 (en) 2019-03-11 2023-08-29 Tencent America LLC Tile and sub-picture partitioning
JP7436721B2 (ja) 2019-03-11 2024-02-22 テンセント・アメリカ・エルエルシー タイル及びサブ画像の分割
JP2022548335A (ja) * 2019-11-12 2022-11-17 株式会社ソニー・インタラクティブエンタテインメント マルチセグメント時間リサンプリングを使用した高速対象領域コーディング
JP7219367B2 (ja) 2019-11-12 2023-02-07 株式会社ソニー・インタラクティブエンタテインメント マルチセグメント時間リサンプリングを使用した高速対象領域コーディング
US11817036B2 (en) 2021-06-07 2023-11-14 Samsung Electronics Co., Ltd. Display apparatus and control method thereof

Also Published As

Publication number Publication date
JPWO2018135321A1 (ja) 2019-11-07
US10944975B2 (en) 2021-03-09
US20190342563A1 (en) 2019-11-07
CN110169069A (zh) 2019-08-23

Similar Documents

Publication Publication Date Title
Wien et al. Standardization status of immersive video coding
WO2018135321A1 (ja) 画像処理装置および方法
TW201840178A (zh) 適應性擾動立方體之地圖投影
US9538239B2 (en) Decoder and method for decoding encoded input data containing a plurality of blocks or packets
US11356690B2 (en) Image processing apparatus and method
WO2020026846A1 (ja) 画像処理装置および方法
US11917194B2 (en) Image encoding/decoding method and apparatus based on wrap-around motion compensation, and recording medium storing bitstream
US20230085554A1 (en) Image encoding/decoding method and apparatus for signaling image feature information, and method for transmitting bitstream
CN115088263A (zh) 基于预测加权表的图像/视频编译方法和设备
CN115244938A (zh) 基于预测加权表对图像/视频进行编译的方法和装置
CN114631319A (zh) 图像处理装置和方法
JP2024513689A (ja) 没入型ビデオの前処理
US11910054B2 (en) Method and apparatus for decoding a 3D video
CN115244927A (zh) 图像/视频编码系统中的帧间预测方法和设备
JP7416820B2 (ja) ビデオコーディングにおけるヌルタイルコーディング
CN114762351A (zh) 图像/视频编译方法和装置
CN115280783A (zh) 用于图像/视频编码的加权预测的方法和装置
CN115104318A (zh) 基于子画面的图像编码设备和方法
CN115104314A (zh) 基于加权预测的图像/视频编译方法及装置
US20230308674A1 (en) Method and apparatus for encoding/decoding image on basis of cpi sei message, and recording medium having bitstream stored therein
CN114982242A (zh) 发信号通知图片分割信息的方法和设备
CN114762350A (zh) 基于切片类型的图像/视频编译方法和设备
US20230370637A1 (en) Image processing device and method
CN115004709A (zh) 用于发信号通知切片相关信息的方法和装置
CN115004708A (zh) 用于发信号通知图像信息的方法和设备

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18742232

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2018563271

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18742232

Country of ref document: EP

Kind code of ref document: A1