[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

WO2018079293A1 - Information processing device and method - Google Patents

Information processing device and method Download PDF

Info

Publication number
WO2018079293A1
WO2018079293A1 PCT/JP2017/037116 JP2017037116W WO2018079293A1 WO 2018079293 A1 WO2018079293 A1 WO 2018079293A1 JP 2017037116 W JP2017037116 W JP 2017037116W WO 2018079293 A1 WO2018079293 A1 WO 2018079293A1
Authority
WO
WIPO (PCT)
Prior art keywords
content data
editing
segment
data
fade
Prior art date
Application number
PCT/JP2017/037116
Other languages
French (fr)
Japanese (ja)
Inventor
金井 健一
俊也 浜田
充 勝股
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Publication of WO2018079293A1 publication Critical patent/WO2018079293A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/02Synthesis of acoustic waves
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/238Interfacing the downstream path of the transmission network, e.g. adapting the transmission rate of a video stream to network bandwidth; Processing of multiplex streams

Definitions

  • the present disclosure relates to an information processing apparatus and method, and more particularly to an information processing apparatus and method capable of suppressing an increase in load on a playback terminal.
  • MPEG-DASH Moving Picture Experts Group phase-Dynamic Adaptive Streaming over HTTP
  • a plurality of audio data having the same content but different bit rates are prepared on the distribution side, and the bit rate can be changed by switching the audio data to be distributed according to the bandwidth of the transmission path. can do. Further, for example, it is possible to make the language variable by preparing a plurality of audio data of the same content different only in language on the distribution side and switching the audio data to be distributed according to the user's instruction or the like.
  • MPEG-DASH Dynamic Adaptive Streaming over HTTP
  • URL http://mpeg.chiariglione.org/standards/mpeg-dash/media-presentation-description-and-segment-formats/text-isoiec-23009-12012-dam -1)
  • DSD Direct Stream Digital
  • PCM PCM
  • the present disclosure has been made in view of such a situation, and makes it possible to suppress an increase in load on a playback terminal.
  • the information processing apparatus edits the content data to generate edited content data before distributing the distributed content data, and generates the edited content data for distribution.
  • the generation unit may edit the content data in units of segments to generate the edited content data.
  • the generation unit may edit a partial section of the segment unit content data.
  • the generation unit may select a partial interval of a predetermined length from the start of the segment unit content data or a partial interval of a predetermined length from the segment unit content data to the end, or both of them. It can be edited.
  • the generation unit may convert the edited content data of the edited segment into a file separate from the content data before editing and add the file to the distribution content data.
  • the generation unit may convert the edited content data of the partial section of the edited segment into a file separate from the content data before editing and add the file to the distribution content data. it can.
  • the generation unit may convert content data after editing of the partial section of the edited segment into a file with the content data before editing as one file, and add the file to the content data for distribution .
  • the content data may be audio data.
  • the generation unit fades in and edits a partial section of a predetermined length from the start of the audio data of the segment unit, or a partial section of a predetermined length from the end of the audio data of the segment unit You can fade out, edit, or both.
  • the content data before distributing content data for distribution, is edited to generate edited content data, and the generated edited content data is used for distribution Information processing method to be added to the content data of
  • An information processing apparatus before distributing content data for distribution, manages information for managing reproduction of the content data and reproduction of edited content data obtained by editing the content data.
  • the management information is an MPD (Media Presentation Description), and the management information generation unit adapts the information for managing the reproduction of the content data after the editing separately from the information for managing the reproduction of the content data before the editing. It may be configured to generate the MPD as an Adaptation Set.
  • MPD Media Presentation Description
  • the management information is an MPD (Media Presentation Description), and the management information generation unit edits information for managing reproduction of the edited content data including information indicating a length of the edited content data.
  • the MPD may be configured to be generated as an adaptation set different from the information for managing the reproduction of the previous content data.
  • the management information is an MPD (Media Presentation Description), and the management information generation unit is adapted from the information for managing the reproduction of the content data after editing and the information for managing the reproduction of the content data before editing. It may be configured to generate the MPD as an Adaptation Set.
  • MPD Media Presentation Description
  • An information processing method manages information for managing reproduction of the content data and reproduction of edited content data after editing the content data before distributing the content data for distribution. This is an information processing method of generating management information including information.
  • An information processing apparatus controls an acquisition unit that acquires content data according to a predetermined parameter and the acquisition unit, and switches content data to be acquired according to a change in the parameter.
  • an information processing unit including a control unit configured to acquire content data after editing in which predetermined editing has been performed on content data before switching, and content data after editing in which predetermined editing has been performed on content data after switching It is an apparatus.
  • the acquisition unit acquires the content data in units of segments, and when the control unit switches the content data to be acquired according to a change in the parameter, the content data in units of segments before switching is predetermined. It is possible to obtain segment data after editing in segment units and content data after segment units in which predetermined editing is performed on segment data after switching.
  • the predetermined editing is performed on a partial section of a predetermined length until the end of the segment unit content data before switching.
  • the segment-based edited content data and the segment-based edited content data in which a predetermined editing has been performed in a partial section of a predetermined length from the start of the segment-based content data after switching are acquired be able to.
  • the content data is audio data, and when the control unit switches the content data to be acquired according to a change in the parameter, a part of a predetermined length until the end of the content data in units of segments before switching.
  • Segment-based editing in which fade-in editing has been performed on a partial section of a predetermined length from the start of content data after segment-based editing where fade-out editing has been performed on the section and segment-based content data after switching It can be configured to obtain later content data.
  • an information processing method when content data corresponding to a predetermined parameter is acquired and content data to be acquired is switched according to a change in the parameter, the content data before switching is subjected to predetermined editing
  • the post-editing content data that has been edited and the post-editing content data that has been subjected to predetermined editing on the switched content data are acquired.
  • the content data before distributing content data for distribution, is edited to generate edited content data, and the generated edited content data is generated. Added to content data for distribution.
  • information for managing reproduction of the content data and reproduction of edited content data obtained by editing the content data Management information including information for managing
  • content data corresponding to a predetermined parameter is acquired, and when switching content data to be acquired according to a change in the parameter, the content data before switching is selected.
  • Content data after editing in which predetermined editing has been performed and content data after editing in which predetermined editing has been performed on content data after switching are acquired.
  • information can be processed.
  • an increase in load on the playback terminal can be suppressed.
  • MPD It is a figure explaining the structural example of MPD. It is a figure explaining the relationship between the level of a sub presentation, and a track. It is a figure explaining the example of a mode of the track and sample before edit. It is a figure explaining the example of a mode of the relation of the track and sample at the time of fade-in. It is a figure explaining the example of a mode of the relation of the track and sample at the time of fade-out. It is a block diagram showing an example of main composition of a file generation device. It is a flow chart explaining an example of a flow of sound file generation processing. It is a block diagram which shows the main structural examples of a reproduction
  • FIG. 7 illustrates an example of DSD silence byte signaling. It is a block diagram showing an example of main composition of a computer.
  • MPEG-DASH Moving Picture Experts Group-Dynamic Adaptive Streaming over HTTP
  • This is a pull type model in which a plurality of files with different data sizes are placed on the server side, and the client refers to the MPD (Media Presentation Description) to select the most suitable file.
  • a general HTTP (HyperText Transfer Protocol) server can be used by using http without using a special protocol.
  • the file format is not only MPEG-TS (Moving Picture Experts Group-Transport Stream), but also a file of International Organization for Standardization Base Media File Format (ISOBMFF) format.
  • ISOOBMFF International Organization for Standardization Base Media File Format
  • FIG. 1 An example of data transmission using MPEG-DASH is shown in FIG.
  • the file generation device 2 generates video data and audio data as moving image content, encodes the data, and converts it into a file format for transmission. For example, the file generation device 2 files (segments) these data every 10 seconds or so.
  • the file generation device 2 uploads the generated segment file to the Web server 3.
  • the file generation device 2 generates an MPD file (management file) for managing moving image content, and uploads it to the Web server 3.
  • MPD file management file
  • the Web server 3 as a DASH server distributes the file of the moving image content generated by the file generation device 2 live to the reproduction terminal 5 via the Internet 4 in a method conforming to MPEG-DASH.
  • the web server 3 stores the segment file and the MPD file uploaded from the file generation device 2. Further, in response to a request from the reproduction terminal 5, the Web server 3 transmits the stored segment file and MPD file to the reproduction terminal 5.
  • the reproduction terminal 5 includes streaming data control software (hereinafter also referred to as control software) 6, video reproduction software 7, client software for HTTP access (hereinafter referred to as access software). ) Execute 8 mag.
  • the control software 6 is software that controls data to be streamed from the web server 3. For example, the control software 6 acquires an MPD file from the web server 3. Also, the control software 6 transmits the segment file to be reproduced based on, for example, the reproduction time information indicating the reproduction time specified by the MPD file or the moving image reproduction software 7 and the network band of the Internet 4 The request is commanded to the access software 8.
  • the video reproduction software 7 is software that reproduces the encoded stream acquired from the Web server 3 via the Internet 4.
  • the moving image reproduction software 7 designates reproduction time information as the control software 6.
  • the video reproduction software 7 decodes the encoded stream supplied from the access software 8.
  • the video reproduction software 7 outputs video data and audio data obtained as a result of decoding.
  • the access software 8 is software that controls communication with the Web server 3 using HTTP. For example, the access software 8 supplies the moving image reproduction software 7 with a notification of reception start. Further, the access software 8 transmits a transmission request for the encoded stream of the segment file to be reproduced to the Web server 3 in response to an instruction of the control software 6. Furthermore, the access software 8 receives the segment file of the bit rate according to the communication environment and the like transmitted from the Web server 3 in response to the transmission request. Then, the access software 8 extracts the encoded stream from the received file, and supplies it to the moving image reproduction software 7.
  • the MPD has, for example, a configuration as shown in FIG.
  • the client (reproduction terminal 5 in the example of FIG. 1) is optimum from the attribute of Representation included in Period of MPD (Media Presentation of FIG. 2). Choose one.
  • the client reads the top segment (Segment) of the selected Representation (Representation) to obtain and process the Initialization Segment. Subsequently, the client acquires and reproduces the subsequent segment.
  • Period, Representation, and Segment in the MPD is as shown in FIG. That is, one media content can be managed for each period, which is a data unit in the time direction, and each period is managed for each segment, which is a data unit in the time direction. Can. Also, for each period, a plurality of representations (Representations) with different attributes such as bit rate can be configured.
  • the file of this MPD (also referred to as MPD file) has a hierarchical structure as shown in FIG. 4 below Period. Further, when the structure of this MPD is arranged on the time axis, it becomes as shown in the example of FIG. As is clear from the example of FIG. 5, a plurality of representations (Representations) exist for the same segment (Segment). By adaptively selecting one of these, the client can acquire and reproduce appropriate stream data according to the communication environment, its own decoding capability, and the like.
  • the distribution server (WEB server) prepares video data groups having different bit rates for one video content, and the reproduction terminal has a transmission path status.
  • Adaptive streaming delivery is realized by requesting the video data group of the optimal bit rate according to.
  • audio is often compressed at a sufficiently smaller size than moving pictures using lossy compression, and often only one audio data is prepared for one audio content.
  • connection boundary is discontinuous before and after And noise may occur.
  • the distribution server prepares audio data groups having different contents, and if language selection is dynamically performed during reproduction, the contents differ. As continuous data is continuously reproduced, this may also cause noise.
  • One of the methods for avoiding the noise caused by these data discontinuities is a method of connecting the front and back of the boundary by using fade-out editing or fade-in editing on the playback terminal. For example, as shown in FIG. 12, the preceding data is faded out and edited (the volume is gradually reduced gradually) to create silent data. Next, the following data is faded in and edited from silence (the volume is smoothly increased) to create data restored to the original volume. Finally, the two created data are connected and continuously reproduced. By making the connection boundary silent in this manner, the generation of noise can be suppressed.
  • DSD Direct Stream Digital
  • PCM Pulse Code Modulation
  • the signal value at each sampling time of the audio analog signal is converted to digital data of fixed number of bits
  • the audio analog signal is ⁇ modulated and converted to 1-bit digital data. That is, the information of the audio analog signal is represented by the density of the change points of "1" and "0" using the time axis. Therefore, high resolution recording and reproduction independent of the number of bits can be realized.
  • the data size is large because the change is recorded at a high sampling frequency.
  • the sampling frequency is as high as 2.8 MHz, 5.6 MHz and 11.2 MHz, for example, the bit rate becomes 5.6 Mbps, 11.2 Mbps and 22.4 Mbps with 2 channels respectively.
  • a device that directly processes a DSD as shown in FIG. 17 is externally connected, or by having such a circuit inside, a corresponding system is configured.
  • Such devices and circuits often support PCM, and even if they do not correspond directly, they often have other devices and circuits that can process PCM in the system, so in many cases they are compatible with DSD / PCM.
  • DSD / PCM switching during playback and parameter changes such as sampling frequency involve setting change time, which causes noise and sound interruption. It is not realistic to change settings during playback because it is possible.
  • ⁇ Noise generation and increase of load on the terminal> As described above, in the MPEG-DASH audio distribution service mainly composed of high-quality audio, audio data groups of the same content and plural bit rates (or audio data groups of plural contents in other language compatible contents etc.) are arranged in the distribution server.
  • the audio waveform may not be connected smoothly at the connection boundary of the data downloaded in response to the bandwidth fluctuation of the communication path or the request from the playback terminal, which may cause noise generation.
  • each reproduction terminal receiving the distribution has difficulty in editing and has a high processing load, as shown in FIG. 19, for example.
  • the server performs the processing performed by each playback terminal at the time of playback, and when the playback terminal requests audio data having different bit rates or contents during audio playback, it is possible to download faded out or faded out audio data It can be so. That is, before distributing content data for distribution, the content data is edited to generate edited content data (also referred to as editing data), and the generated edited content data is added to the distributed content data To do.
  • edited content data also referred to as editing data
  • the playback terminal can acquire the edited content data from the server, and therefore, there is no need to edit the content data acquired from the server. That is, an increase in load on the playback terminal can be suppressed.
  • content data in segments may be edited to generate edited content data.
  • a partial section of content data in units of segments may be edited. For example, a partial interval of a predetermined length from the start of content data in segment units, or a partial interval of a predetermined length from the end of content data in segment units, or both of them may be edited. It is also good. By doing this, it is possible to suppress the generation of noise at the connection boundary of the segment in which the content data is switched.
  • the playback terminal When switching the content data to be reproduced from bit rate # 1 to bit rate # 2 as shown in B of FIG. 20, the timing of the arrow 111 during reproduction of the segment 101 of the original adaptation set of bit rate # 1 by the reproduction terminal.
  • the playback terminal switches the segment for which transmission is next requested to the segment 102 of the fade-out adaptation set of bit rate # 1 at arrow 112. Then, the playback terminal switches the segment for which transmission is requested next to the segment 103 of the fade-in adaptation set of bit rate # 2. Then, the playback terminal further switches the segment requested to be transmitted next to the segment 104 of the original adaptation set of bit rate # 2.
  • the segments before and after are connected silently at the timing indicated by the arrow 113 at which the bit rate switches from bit rate # 1 to bit rate # 2. Therefore, the generation of noise at the time of switching of content data can be suppressed.
  • the server since the server performs the fade-in editing process and the fade-out editing process, it is possible for each reproduction terminal to suppress the generation of noise without editing the connection boundary of the audio data. That is, an increase in load on the playback terminal can be suppressed.
  • management information including information for managing reproduction of the content data and information for managing reproduction of the content data after editing the content data is generated make it By doing this, the playback terminal can play back the edited content data based on the management information. That is, an increase in load on the playback terminal can be suppressed.
  • the audio editing process (generation of editing data and management information) performed on the server side may be performed in advance before the request from the terminal, or may be performed at the time of the request.
  • First embodiment> ⁇ Overview>
  • the configuration of data after editing is arbitrary, but for example, as shown in FIG. 21, the entire segment including the editing portion may be additionally created as a fade in segment and a fade out segment, respectively. That is, the edited content data of the edited segment may be converted into a file separate from the content data before editing and added to the distribution content data.
  • the server generates the fade-in adaptation set 122-1 and the fade-out adaptation set 123-1 from the original adaptation set 121-1 of bit rate # 1.
  • the server fades in and edits a partial section of a predetermined length from the beginning (start) of the segment 124-1-1 of the original adaptation set 121-1 to generate the segment 125-1-1.
  • Fade-in-edit a partial section of a predetermined length from the beginning (start) of segment 124-1-2 to generate segment 125-1-2
  • fade in adaptation set 122-1 for the entire segment
  • the server fades out and edits a partial section of a predetermined length up to the end (end) of the segment 124-1-1 of the original adaptation set 12-1 to generate a segment 126-1-1
  • segment 124-1 when it is not necessary to distinguish each segment of the original adaptation set 121-1 from each other, it will be referred to as a segment 124-1. Also, when it is not necessary to distinguish each segment of the fade-in adaptation set 122-1, they are referred to as a segment 125-1. Also, when it is not necessary to distinguish the segments of fade-out adaptation set 123-1, they are referred to as segment 126-1.
  • the server generates a fade-in adaptation set 122-2 and a fade-out adaptation set 123-2 from the original adaptation set 12-2 of bit rate # 2.
  • the server fades in and edits a partial section of a predetermined length from the beginning (start) of the segment 124-2-1 of the original adaptation set 12-2, and generates the segment 125-2-1.
  • Fade-in-edit a partial section of a predetermined length from the beginning (start) of segment 124-2-2 to generate segment 125-2-2
  • fade in adaptation set 122-2 over the entire segments
  • the server fades out and edits a partial section of a predetermined length up to the end (end) of the segment 124-2-1 of the original adaptation set 12-2 to generate a segment 126-2-1
  • Fade-edit some sections of a predetermined length from the end (end) of the segment 124-2-2 to generate segments 126-2-2, and store the entire segments in the fade-out adaptation set 123-2 Do.
  • segment 124-2 when it is not necessary to distinguish each segment of the original adaptation set 121-2 from each other, it is referred to as a segment 124-2. Also, when it is not necessary to distinguish each segment of the fade-in adaptation set 122-2, they are referred to as a segment 125-2. Also, when it is not necessary to distinguish the segments of fade-out adaptation set 123-2, they are referred to as segment 126-2.
  • segments 125-2 of fade-in adaptation set 122-2 and segments 126 of fade-out adaptation set 123-2 from each segment 124-2. Generate -2.
  • an original adaptation set 121 when it is not necessary to distinguish the original adaptations of each bit rate, they are referred to as an original adaptation set 121. Also, when it is not necessary to distinguish fade in adaptation of each bit rate from each other, it is referred to as fade in adaptation set 122. In addition, when it is not necessary to distinguish fade-out adaptation of each bit rate from each other, it is referred to as fade-out adaptation set 123.
  • segment 124 when it is not necessary to distinguish each segment of each original adaptation set 121 from each other, it is referred to as a segment 124. Also, when it is not necessary to distinguish each segment of each fade-in adaptation set 122 from each other, it is referred to as a segment 125. Also, when it is not necessary to distinguish each segment of each fade-out adaptation set 123, it is referred to as a segment 126.
  • the server in response to such editing, the server generates an MPD in which the information for managing reproduction of content data after editing is an adaptation set different from the information for managing reproduction of content data before editing. You may do so.
  • the server may generate an MPD as shown in FIG. 22 corresponding to the editing described with reference to FIG. In FIG. 22, a portion surrounded by a dotted line 131 is a description regarding the original adaptation set 121.
  • a playback terminal that can not understand the contents of schemaIdUri of the EssentialProperty element described in the part enclosed by dotted line 132 and the part enclosed by dotted line 133 described below has an Element (here, AdaptationSet) of its parent. Since there is a rule for skipping, a conventional playback terminal not compatible with the present technology processes this original adaptation set 121.
  • a portion surrounded by a dotted line 132 is a description related to the fade in adaptation set 122.
  • This adaptation set is, for example, an adaptation set selected behind the content selection boundary due to a band change.
  • segments edited by the server so that the volume of the playback start gradually increases from silent are stored.
  • the schemaIdUri of the EssentialProperty element in the second line from the top in the dotted line 132 indicates that this adaptation set is a fade in adaptation set.
  • a portion surrounded by a dotted line 133 is a description related to the fade out adaptation set 123.
  • the adaptation set is, for example, an adaptation set selected in front of the content selection boundary due to a change in bandwidth.
  • segments edited by the server so as to gradually decrease in volume toward silence and become silent are stored.
  • the schemaIdUri of the EssentialProperty element in the second line from the top in the dotted line 133 indicates that this adaptation set is a fade out adaptation set.
  • the reproduction terminal side can perform reproduction using the edited content data according to the management information. Therefore, an increase in load on the playback terminal can be suppressed.
  • MPD management information
  • FIG. 23 is a block diagram illustrating an example of a configuration of a delivery system which is an aspect of an information processing system to which the present technology is applied.
  • the delivery system 300 shown in FIG. 23 is a system for delivering data (content) such as images and sounds.
  • the file generation apparatus 301, the distribution server 302, and the reproduction terminal 303 are communicably connected to each other via the network 304.
  • the file generation device 301 is an aspect of an information processing device to which the present technology is applied, and is a device that performs processing relating to generation of an MP4 file storing audio data and an MPD file (also referred to as an MPD file). For example, the file generation device 301 generates audio data, generates an MP4 file storing the generated audio data and an MPD file managing the MP4 file, and supplies the generated files to the distribution server 302.
  • the distribution server 302 is an aspect of an information processing apparatus to which the present technology is applied, and is a server that performs processing related to a content data distribution service using MPEG-DASH (that is, a distribution service of MP4 files using MPD files). is there.
  • the distribution server 302 acquires and manages the MPD file and the MP4 file supplied from the file generation device 301, and provides a distribution service using MPEG-DASH.
  • the distribution server 302 provides the MPD file to the reproduction terminal 303 in response to a request from the reproduction terminal 303. Further, the distribution server 302 supplies the requested MP4 file to the reproduction terminal 303 in response to the request from the reproduction terminal 303 based on the MPD file.
  • the reproduction terminal 303 is an aspect of an information processing apparatus to which the present technology is applied, and is an apparatus that performs processing related to reproduction of audio data.
  • the reproduction terminal 303 requests the distribution server 302 to distribute the MP4 file in accordance with the MPEG-DASH, and acquires the supplied MP4 file in response to the request. More specifically, the reproduction terminal 303 acquires an MPD file from the distribution server 302, and acquires, from the distribution server 302, an MP4 file storing desired content data according to the information of the MPD file.
  • the playback terminal 303 decodes the acquired MP4 file and plays back audio data.
  • the network 304 is an arbitrary communication network, may be a communication network of wired communication, may be a communication network of wireless communication, or may be configured by both of them. Also, the network 304 may be configured by one communication network, or may be configured by a plurality of communication networks.
  • the Internet a public telephone network, a wide area communication network for wireless mobiles such as so-called 3G circuits and 4G circuits, WAN (Wide Area Network), LAN (Local Area Network), communication conforming to Bluetooth (registered trademark) standards Communication network for near field communication such as NFC (Near Field Communication), communication channel for infrared communication, standard such as HDMI (High-Definition Multimedia Interface) or USB (Universal Serial Bus)
  • WAN Wide Area Network
  • LAN Local Area Network
  • Bluetooth registered trademark
  • Communication network for near field communication such as NFC (Near Field Communication)
  • communication channel for infrared communication standard such as HDMI (High-Definition Multimedia Interface) or USB (Universal Serial Bus)
  • a communication network or communication path of any communication standard such as a communication network of wired communication conforming to the above may be included in the network 304.
  • the file generation apparatus 301, the distribution server 302, and the reproduction terminal 303 are communicably connected to the network 304, and can exchange information with each other via the network 304.
  • the file generation apparatus 301, the distribution server 302, and the reproduction terminal 303 may be connected to the network 304 by wired communication, may be connected by wireless communication, or may be connected by both of them. It may be done.
  • one file generation device 301, one distribution server 302, and one reproduction terminal 303 are shown as the configuration of the distribution system 300, but these numbers are arbitrary and identical to each other. It does not have to be.
  • each of the file generation device 301, the distribution server 302, and the reproduction terminal 303 may be singular or plural.
  • FIG. 24 is a block diagram showing a main configuration example of the file generation device 301.
  • the file generation device 301 includes an acquisition unit 311.
  • the acquisition unit 311 acquires an audio analog signal or audio data of a predetermined format.
  • the acquisition unit 311 supplies the acquired audio analog signal or audio data to the encoding unit 312.
  • the file generation device 301 further includes an encoding unit 312-1, a segment file generation unit 313-1, a fade out editing unit 314-1, a segment file generation unit 315-1, a fade in editing unit 316-1, and a segment file generation. It has a section 317-1.
  • the fade-out editing unit 314-1 to the segment file generating unit 317-1 are collectively referred to as an editing data generating unit 321-1. These configurations relate to bit rate # 1 (FIG. 21).
  • the encoding unit 312-1 generates DSD data of bit rate # 1 using the audio analog signal or audio digital data supplied from the acquisition unit 311. For example, when an audio analog signal is supplied, the encoding unit 312-1 performs A / D conversion and encoding, and generates DSD data of bit rate # 1. Also, for example, when audio data in a format other than DSD such as PCM is supplied, the encoding unit 312 performs format conversion and the like to generate DSD data of bit rate # 1.
  • the encoding unit 312-1 supplies the generated DSD data to the segment file generation unit 313-1. Also, the encoding unit 312-1 also supplies the generated DSD data to the fade-out editing unit 314-1 and the fade-in editing unit 316-1.
  • the encoding unit 312-1 When the DSD data is supplied from the acquisition unit 311, the encoding unit 312-1 performs the DSD data on the segment file generation unit 313-1, the fade-out editing unit 314-1, the fade-in editing unit 316-1, and the like.
  • Supply to The DSD data supplied from the encoding unit 312-1 is data in units of segments.
  • the segment file generation unit 313-1 converts the DSD data supplied from the encoding unit 312-1 into MP4 files (also referred to as segment files) for each segment. That is, this segment file is a file of the original adaptation set 121-1 of bit rate # 1.
  • the segment file generation unit 313-1 supplies the generated segment file to the upload unit 319.
  • the fade-out editing unit 314-1 performs fade-out editing as described above on the supplied DSD data in units of segments.
  • the fade-out editing unit 314-1 converts the supplied DSD data into, for example, PCM data (for example, 176.4 kHz 32 bits etc.) that does not impair the sound quality, and fades out and edits the obtained PCM data. Convert PCM data into DSD data.
  • the fade-out editing unit 314-1 supplies the DSD data after editing to the segment file generating unit 315-1.
  • This DSD data is data in units of segments, and includes not only the faded-out edited portion at the end of the segment but also a portion common to the previous original data.
  • the segment file generation unit 315-1 converts the DSD data supplied from the fade-out editing unit 314-1 into MP4 files for each segment. That is, this segment file is a file of fade-out adaptation set 123-1 of bit rate # 1.
  • the segment file generation unit 315-1 supplies the generated segment file to the upload unit 319.
  • the fade-in editing unit 316-1 performs fade-in editing as described above on the supplied DSD data in units of segments.
  • the fade-in editing unit 316-1 converts the supplied DSD data into, for example, PCM data (for example, 176.4 kHz 32 bits etc.) that does not impair the sound quality, fades in and edits the obtained PCM data, Convert the edited PCM data into DSD data.
  • the fade-in editing unit 316-1 supplies the DSD data after editing to the segment file generating unit 317-1.
  • This DSD data is data in units of segments, and includes not only the fade-in edited portion at the beginning of the segment but also a portion common to the original data thereafter.
  • the segment file generation unit 317-1 converts the DSD data supplied from the fade-in editing unit 316-1 into MP4 files for each segment. That is, this segment file is a file of the fade-in adaptation set 122-1 of bit rate # 1.
  • the segment file generation unit 317-1 supplies the generated segment file to the upload unit 319.
  • the editing data generation unit 321-1 applies predetermined editing such as fade-in editing and fade-out editing to the original data, and generates a segment file (bit rate # 1) of the data after the editing. It is a processing unit to generate.
  • the file generation device 301 includes an encoding unit 312-2, a segment file generation unit 313-2, a fade-out editing unit 314-2, a segment file generation unit 315-2, a fade-in editing unit 316-2, and a segment file generation. It has a section 317-2.
  • the fade-out editing unit 314-2 to the segment file generating unit 317-2 are collectively referred to as an editing data generating unit 321-2. These configurations relate to bit rate # 2 (FIG. 21).
  • the encoding unit 312-2 performs processing similar to that of the encoding unit 312-1, and generates DSD data of bit rate # 2.
  • the encoding unit 312-2 supplies the generated segment unit DSD data to the segment file generation unit 313-2, the fade-out editing unit 314-2, and the fade-in editing unit 316-2.
  • the segment file generation unit 313-2 performs processing similar to that of the segment file generation unit 313-1, generates a segment file of the original adaptation set 12-2 of bit rate # 2, and supplies it to the upload unit 319.
  • the fade-out editing unit 314-2 performs the same processing as the fade-out editing unit 314-1, and performs the above-described fade-out editing on the supplied DSD data in units of segments.
  • the fade-out editing unit 314-2 supplies the segment file generating unit 315-2 with the DSD data in segment units after editing.
  • the segment file generation unit 315-2 performs the same processing as the segment file generation unit 315-1, and converts the supplied DSD data into MP4 files for each segment. That is, the segment file generation unit 315-2 generates a segment file of the fade-out adaptation set 123-2 of bit rate # 2, and supplies it to the upload unit 319.
  • the fade-in editing unit 316-2 performs the same processing as the fade-in editing unit 316-1, and performs the above-described fade-in editing on the supplied DSD data in units of segments.
  • the fade-in editing unit 316-2 supplies the segment unit generated DSD data after the editing to the segment file generating unit 317-2.
  • the segment file generation unit 317-2 performs the same processing as the segment file generation unit 317-1 and converts the supplied DSD data into MP4 files for each segment. That is, the segment file generation unit 315-2 generates a segment file of the fade-in adaptation set 122-2 of bit rate # 2, and supplies it to the upload unit 319.
  • the editing data generation unit 321-2 performs predetermined editing such as fade-in editing and fade-out editing on the original data, and generates a segment file (bit rate # 2) of the data after the editing. It is a processing unit to generate.
  • segment file generation unit 313 when it is not necessary to distinguish and explain each encoding unit, it is referred to as an encoding unit 312.
  • segment file generation unit 313 when it is not necessary to distinguish and explain the segment file generation units that generate the segment files of the original adaptation set 121, the segment file generation unit 313 is referred to as “segment file generation unit 313”.
  • segment file generation unit 315 when it is not necessary to distinguish the respective segment file generation units for generating the segment files of the fade-out adaptation set 123 from each other, they are referred to as a segment file generation unit 315.
  • each fade-in editing unit when it is not necessary to distinguish and explain each fade-in editing unit, it is referred to as a fade-in editing unit 316. Also, when it is not necessary to distinguish the respective segment file generation units for generating the segment files of the fade-in adaptation set 122 from each other, they are referred to as a segment file generation unit 317. Further, when it is not necessary to distinguish the respective edit data generation units from each other and describe them, they are referred to as an edit data generation unit 321.
  • the configurations of the encoding unit 312 to the segment file generation unit 317 are provided as many as the number of bit rates to be prepared.
  • the number of bit rates prepared as data for distribution is arbitrary.
  • the file generation device 301 has three sets of this configuration.
  • the configurations of the encoding unit 312-2 to the segment file generation unit 317 can be omitted.
  • Each edit data generation unit 321 may operate (for all segments) at all times (generate a segment file), or operate only when the reproduction terminal 303 requests a bit rate switching. (A segment file may be generated).
  • the file generation device 301 includes an MPD generation unit 318 and an upload unit 319.
  • the MPD generation unit 318 generates an MPD, which is information for managing reproduction of the segment file generated in the above processing unit.
  • the MPD generation unit 318 supplies the generated MPD to the upload unit 319.
  • the upload unit 319 uploads the supplied segment file and MPD to the distribution server 302.
  • the MPD generation unit 318 When the audio file generation process is started, the MPD generation unit 318 generates an MPD file in step S101. In step S102, the upload unit 319 uploads the MPD file generated in step S101 to the distribution server 302.
  • step S103 the acquisition unit 311 acquires audio content such as an audio analog signal and audio data, and the encoding unit 312 encodes the audio content at a plurality of bit rates to generate DSD data (segments).
  • step S104 the fade-in editing unit 316 performs fade-in processing for each bit rate.
  • step S105 the fade-out editing unit 314 performs fade-out processing for each bit rate.
  • step S106 the segment file generation unit 313 generates a segment file of the original adaptation set 121 for each bit rate.
  • the segment file generation unit 315 generates, for each bit rate, a segment file of the entire segment including the intersection with the original data of the fade-out adaptation set 123.
  • the segment file generation unit 317 generates, for each bit rate, a segment file of the entire segment including the portion common to the original data of the fade-in adaptation set 122.
  • step S107 the upload unit 319 uploads the segment file of each bit rate generated in step S106 to the distribution server 302.
  • step S108 the acquisition unit 311 determines whether to end the audio file generation process. If it is determined that the process for the next segment is to be performed without ending, the process returns to step S103, and the process thereafter is repeated. Then, in step S108, when it is determined that the audio file generation process is to end in the segment, the audio file generation process is ended.
  • FIG. 26 is a block diagram showing a main configuration example of the reproduction terminal 303.
  • the reproduction terminal 303 has an MPD acquisition unit 351, an MPD processing unit 352, a segment file acquisition unit 353, a selection unit 354, a buffer 355, a decoding unit 356, and an output control unit 357.
  • the MPD acquisition unit 351 performs a process related to acquisition of an MPD file.
  • the MPD processing unit 352 performs processing on the MPD file acquired by the MPD acquisition unit 351.
  • the segment file acquisition unit 353 performs processing related to acquisition of content data.
  • the selection unit 354 performs processing regarding selection of content data acquired by the segment file acquisition unit 353.
  • the selection unit 354 controls the segment file acquisition unit 353 to switch content data to be acquired according to a change in parameter
  • the post-editing content data before the switching is subjected to predetermined editing, and the post-editing content data after the predetermined editing is acquired for the post-switching content data.
  • the segment file acquisition unit 353 acquires segment unit content data and the selection unit 354 switches the content data to be acquired according to a change in parameters
  • the segment data acquisition unit 353 performs predetermined editing on segment unit content data before switching. It is also possible to acquire the content data after the segment unit editing that has been performed, and the segment data after the editing performed for the segment unit content data after the switching.
  • a predetermined editing is performed on a partial section of a predetermined length until the end of the segment unit content data before switching.
  • the selecting unit 354 switches the content data to be acquired according to the change of the parameter, a section of a predetermined length until the end of the content data in units of segments before switching.
  • the segment data after editing in segment units, and after the start of the content data in segment units after switching, after edit in segment units in which fade-in edit is performed to a partial section of a predetermined length And may be acquired.
  • the buffer 355 performs processing regarding storage of segment files and the like acquired by the segment file acquisition unit 353.
  • the decryption unit 356 performs a process related to the segment file decryption.
  • the output control unit 357 performs processing related to output control of the decoded segment file.
  • step S151 the selection unit 354 selects the audio stream of the smallest bandwidth.
  • step S152 the segment file acquisition unit 353 acquires a segment of a predetermined time length of the selected bandwidth.
  • step S153 the decoding unit 356 starts decoding.
  • step S154 the selection unit 354 detects a network band.
  • step S155 the bandwidth of the audio stream is selected based on the network bandwidth and the bandwidth.
  • step S156 the selection unit 354 detects the actual bit rate of the audio stream.
  • step S157 the segment file acquisition unit 353 and the selection unit 354 execute a bandwidth selection process.
  • step S158 the decoding unit 356 determines whether to end the reproduction. If it is determined that the decoding process is to be continued without ending the reproduction process, the process returns to step S154 to repeat the subsequent processes. If it is determined in step S158 that the reproduction is to be ended, the reproduction processing is ended.
  • step S171 the selection unit 354 determines whether to reselect the bandwidth of the audio stream. If it is determined to select again, the process proceeds to step S172.
  • step S172 if there is no space in the buffer 355, the segment file acquisition unit 353 waits until it is empty. When a space is generated in the buffer 355, in step S173, the segment file acquisition unit 353 acquires an audio fade-out segment of a predetermined time length of the currently selected bandwidth.
  • step S174 if there is no space in the buffer 355, the segment file acquisition unit 353 waits until the space is available.
  • the segment file acquisition unit 353 acquires an audio fade-in segment of a predetermined time length of the bandwidth selected as the change destination.
  • step S176 if there is no space in the buffer 355, the segment file acquisition unit 353 waits until the space is available.
  • the segment file acquisition unit 353 acquires an original segment of a predetermined time length of the bandwidth selected as the change destination.
  • step S177 When the process of step S177 ends, the bandwidth selection process ends, and the process returns to FIG. If it is determined in step S171 that the bandwidth of the audio stream is not selected again, the processing in steps S172 to S177 is omitted, the bandwidth selection processing ends, and the processing returns to FIG.
  • editing by the file generation apparatus 301, distribution control by the distribution server 302, reproduction control (data acquisition control) by the reproduction terminal 303, etc. can be performed in units of segments. Since it is possible, it is possible to suppress an increase in the load of those processes.
  • the edited data may be additionally created as fade-in and fade-out segments, as shown in FIG. That is, the content data after editing of a partial section of the edited segment may be filed as a file different from the content data before editing and added to the content data for distribution.
  • the server generates the fade-in adaptation set 402-1 and the fade-out adaptation set 403-1 from the original adaptation set 401-1 of bit rate # 1.
  • the server fades in and edits a partial section of a predetermined length from the beginning (start) of the segment 404-1-1 of the original adaptation set 401-1, and generates the segment 405-1-1.
  • the server fades out and edits a partial section of a predetermined length up to the end (end) of the segment 404-1-1 of the original adaptation set 401-1, and generates a segment 406-1-1. Fade out and edit a partial section of a predetermined length from the end (end) of the segment 404-1-2 to generate segments 406-1-2 and store them in the fade-out adaptation set 403-1.
  • segment 404-1 when it is not necessary to distinguish each segment of the original adaptation set 401-1, it will be referred to as segment 404-1. Also, when it is not necessary to distinguish the segments of the fade-in adaptation set 402-1, they are referred to as segments 405-1. Also, when it is not necessary to distinguish the segments of fade-out adaptation set 403-1 from each other, they are referred to as segment 406-1.
  • segments 404-1 of fade-in adaptation set 402-1 and segments 406 of fade-out adaptation set 403-1 from each segment 404-1 Generate -1 and
  • the server generates a fade-in adaptation set 402-2 and a fade-out adaptation set 403-2 from the original adaptation set 401-2 of bit rate # 2.
  • the server fades in and edits a partial section of a predetermined length from the beginning (start) of the segment 404-2-1 of the original adaptation set 401-2 to generate the segment 405-2-1.
  • the server fades out and edits a partial section of a predetermined length up to the end (end) of the segment 404-2-1 of the original adaptation set 401-2 to generate a segment 406-2-1.
  • fade-out edit a partial section of a predetermined length from the end (end) of the segment 404-2-2 to generate segments 406-2-2 and store them in the fade-out adaptation set 403-2.
  • segment 404-2 when it is not necessary to distinguish each segment of the original adaptation set 401-2, it will be referred to as segment 404-2. Also, when it is not necessary to distinguish each segment of the fade-in adaptation set 402-2, they are referred to as a segment 405-2. Also, when it is not necessary to distinguish each segment of fade-out adaptation set 403-2, they are referred to as segment 406-2.
  • segments 406-2 of fade-in adaptation set 402-2 and segments 406 of fade-out adaptation set 403-2 from each segment 404-2 Generate -2.
  • an original adaptation set 401 when it is not necessary to distinguish fade in adaptation of each bit rate, they are referred to as fade in adaptation set 402.
  • segment 404 when it is not necessary to distinguish each segment of each original adaptation set 401 from each other, it is referred to as segment 404. Also, when it is not necessary to distinguish each segment of each fade-in adaptation set 402, it is referred to as segment 405. Also, when it is not necessary to distinguish each segment of each fade-out adaptation set 403, it is referred to as segment 406.
  • the server manages reproduction of content data before editing, including information indicating the length of the content data after editing, and manages reproduction of the content data after editing.
  • the MPD may be generated as an adaptation set different from the information to be processed.
  • the server may generate an MPD as shown in FIG. 30 in response to the editing described with reference to FIG. In FIG. 30, a portion surrounded by a dotted line 411 is a description related to the original adaptation set 401.
  • a portion surrounded by a dotted line 412 is a description regarding the fade in adaptation set 402.
  • This adaptation set is, for example, an adaptation set selected behind the content selection boundary due to a band change.
  • a segment of a portion (fade-in portion) edited by the server so that the volume of the playback start gradually increases from silent is stored.
  • the schemaIdUri of the EssentialProperty element in the second line from the top in the dotted line 412 indicates that this adaptation set is a fade in adaptation set.
  • the size of the fade-in partial segment size of data to be replaced with the original segment
  • may be indicated during reproduction by the value attribute in the second line from the top. In the example of FIG. 30, it is shown to replace 10 MP4 samples (value "10").
  • a portion surrounded by a dotted line 413 is a description regarding the fade out adaptation set 403.
  • the adaptation set is, for example, an adaptation set selected in front of the content selection boundary due to a change in bandwidth.
  • a segment of a portion (fade out portion) edited so that the volume gradually decreases toward silence and becomes silent by the server is stored.
  • the schemaIdUri of the EssentialProperty element in the second line from the top in the dotted line 413 indicates that this adaptation set is a fade-out adaptation set.
  • the reproduction terminal side can perform reproduction using the edited content data according to the management information. Therefore, an increase in load on the playback terminal can be suppressed.
  • MPD management information
  • FIG. 31 is a block diagram showing an example of the main configuration of the file generation apparatus 301 in this case. As shown in FIG. 31, also in this case, the file generation device 301 has basically the same configuration as that of the first embodiment (FIG. 24).
  • the file generation device 301 in this case further includes a removal unit 421-1, a removal unit 422-1, a removal unit 421-2, and a removal unit 422-2.
  • the fade-out editing unit 314-1 to the segment file generating unit 317-1 and the removing unit 421-1 and the removing unit 422-2 are collectively referred to as an editing data generating unit 431-1. These configurations relate to bit rate # 1 (FIG. 29).
  • the removing unit 421-1 removes a portion (that is, a portion overlapping with the original data) in which the fade-out editing of the processing target segment is not performed from the DSD data supplied from the fade-out editing unit 314-1.
  • the removing unit 421-1 generates, as a segment, DSD data of the remaining part, that is, the part subjected to fade-out editing.
  • the removing unit 421-1 converts the supplied DSD data into, for example, PCM data (for example, 176.4 kHz 32 bits etc.) that does not impair the sound quality, and fade-out editing is performed from the obtained PCM data Remove the missing part and convert the remaining PCM data to DSD data.
  • PCM data for example, 176.4 kHz 32 bits etc.
  • the fade-out editing unit 314-1 may supply the edited data as it is to the removing unit 421-1 as the PCM data. In that case, the removing unit 421-1 removes a portion where fade-out editing is not performed from the supplied PCM data, and converts the remaining PCM data into DSD data.
  • the removing unit 421-1 supplies the DSD data (segment) of the portion subjected to fade-out editing to the segment file generating unit 315-1.
  • the segment file generation unit 315-1 segments the DSD data of the portion subjected to the fade-out editing.
  • the removing unit 422-1 removes a portion in which fade-in editing of the processing target segment is not performed (that is, a portion overlapping with the original data) from the DSD data supplied from the fade-in editing unit 316-1.
  • the removing unit 422-1 generates, as a segment, DSD data of the remaining part, that is, the part where fade-in editing has been performed.
  • the removing unit 422-1 converts the supplied DSD data into, for example, PCM data (for example, 176.4 kHz 32 bits etc.) that does not impair the sound quality, and fade-in editing is performed from the obtained PCM data. Remove the missing parts and convert the remaining PCM data into DSD data.
  • the fade-in editing unit 316-1 may supply the edited data as it is to the removing unit 422-1 as the PCM data. In that case, the removing unit 422-1 removes the portion where the fade-in editing is not performed from the supplied PCM data, and converts the remaining PCM data into DSD data.
  • the removing unit 422-1 supplies the DSD data (segment) of the portion subjected to fade-in editing to the segment file generating unit 317-1.
  • the segment file generation unit 317-1 segments the DSD data of the portion subjected to the fade-in editing.
  • the editing data generation unit 431-1 subjects the original data to predetermined editing such as fade-in editing and fade-out editing, and the segment file of the data of the edited portion (bit rate # 1 ) Processing unit.
  • the fade-out editing unit 314-2 to the segment file generating unit 317-2, and the removing unit 421-2 and the removing unit 422-2 are collectively referred to as an editing data generating unit 431-2. These configurations relate to bit rate # 2 (FIG. 29).
  • the removing unit 421-2 performs the same process as the removing unit 421-1, and removes a portion of the DSD data supplied from the fade-out editing unit 314-2 in which the fade-out editing of the processing target segment is not performed. In other words, the removing unit 421-2 generates, as a segment, DSD data of a portion subjected to fade-out editing.
  • the removing unit 421-2 supplies the DSD data (segment) of the portion subjected to fade-out editing to the segment file generating unit 315-2.
  • the segment file generation unit 315-2 segments the DSD data of the portion subjected to the fade-out editing.
  • the removing unit 422-2 performs the same processing as that of the removing unit 422-1, and removes, from the DSD data supplied from the fade-in editing unit 316-2, a portion in which the fade-in editing of the processing target segment is not performed. In other words, the removing unit 422-2 generates, as a segment, DSD data of a portion subjected to fade-in editing.
  • the removing unit 422-2 supplies the DSD data (segment) of the portion subjected to fade-in editing to the segment file generating unit 317-2.
  • the segment file generation unit 317-2 segments the DSD data of the portion subjected to the fade-in editing.
  • the editing data generation unit 431-2 subjects the original data to predetermined editing such as fade-in editing and fade-out editing, and the segment file of data of the edited portion (bit rate # 2 ) Processing unit.
  • removal unit 421 when it is not necessary to distinguish the respective removal units that perform processing on data after fade-out editing from each other, they are referred to as a removal unit 421. In addition, when it is not necessary to distinguish the respective removal units that perform processing on data after fade-in editing from each other, they are referred to as a removal unit 422. In addition, when it is not necessary to distinguish and explain the respective edit data generation units, the edit data generation unit 431 is referred to.
  • each edit data generation unit 431 may operate (for all segments) at all times (generate a segment file), or operate only when there is a request for bit rate switching from the playback terminal 303. (A segment file may be generated).
  • each process of step S201 to step S205 of FIG. 32 is performed similarly to each process of step S101 to step S105 of FIG.
  • the MPD generation unit 318 can describe information indicating the length of a fade-in edited or fade-out edited segment.
  • step S206 the removing unit 421 and the removing unit 422 remove the portion other than the fade-edited (fade-in or fade-out) portion of the audio content that has been subjected to the fade processing (fade-in or fade-out). That is, the part overlapping with the original data is removed.
  • the process of step S206 ends, the process proceeds to step S207.
  • steps S207 to S209 are performed in the same manner as the processes of steps S106 to S108 of FIG. Then, if it is determined in step S209 that processing for the next segment is to be performed without ending, the processing returns to step S203, and the subsequent processing is repeated. Also, if it is determined in step S209 that the audio file generation process is to end at the segment, the audio file generation process ends.
  • FIG. 33 is a block diagram showing a main configuration example of the reproduction terminal 303 in this case.
  • the reproduction terminal 303 in this case basically has the same configuration as that of the first embodiment (FIG. 26).
  • the reproduction terminal 303 includes the fade editing partial segment replacing unit 451.
  • the fade editing partial segment replacing unit 451 performs processing of replacing the fade-in edited or fade-out edited segment with a segment of the original data.
  • step S251 the selection unit 354 determines whether to reselect the bandwidth of the audio stream. If it is determined to select again, the process proceeds to step S252.
  • step S252 if there is no space in the buffer 355, the segment file acquisition unit 353 waits until the space is available.
  • the segment file acquisition unit 353 acquires an audio original segment of a predetermined time length of the currently selected bandwidth.
  • step S254 the segment file acquisition unit 353 acquires an audio fade-out partial segment of the currently selected bandwidth.
  • step S255 the fade editing partial segment replacing unit 451 replaces the end of the acquired audio original segment with the MP4 sample of the audio fade out partial segment. That is, the fade-out edited part is replaced with the edited data from the original data.
  • step S256 if there is no space in the buffer 355, the segment file acquisition unit 353 waits until the space is available.
  • the segment file acquisition unit 353 acquires an audio original segment of a predetermined time length of the bandwidth selected as the change destination.
  • step S258 the segment file acquisition unit 353 acquires the audio fade-in partial segment of the bandwidth selected as the change destination.
  • step S259 the fade editing partial segment replacing unit 451 replaces the head of the acquired change destination audio original segment with the MP4 sample of the audio fade in partial segment. That is, the faded-in edited part is replaced with the edited data from the original data.
  • step S259 ends, the bandwidth selection process ends, and the process returns to FIG. If it is determined in step S251 that the bandwidth of the audio stream is not selected again, the processing in steps S252 to S259 is omitted, the bandwidth selection processing ends, and the processing returns to FIG.
  • duplication of original data and edited data can be suppressed, and therefore, an increase in the amount of data can be suppressed.
  • the post-edit data segment size
  • the load required to replace the post-edit data is low.
  • the above-mentioned fade editing is performed only when a request from the reproduction terminal 303 occurs, thereby making it possible to distribute content data. An increase in the amount of data can be further suppressed.
  • the configuration of the data after editing may be such that the data after editing and the original data before editing may be combined into one data. That is, the content data after editing of a partial section of the edited segment may be filed as one file together with the content data before editing and added to the content data for distribution.
  • a segment including a normal track, a fade-in track, and a fade-out track is created.
  • three segments are created from three audio data including fade-out data and fade-in data in the method described in the first embodiment, but these are combined into one segment file.
  • the common part is not redundantly recorded in the segment.
  • One piece of audio data is represented as one adaptation, and segments with different bit rates are each represented as a presentation.
  • the fade-in partial data 512-1-1 is only a portion corresponding to the section 511A, and does not include the sections 511B and 511C in which the fade-in editing is not performed.
  • fade-out partial data 513-1 1 is only a portion corresponding to the section 511 C, and does not include the sections 511 A and 511 B in which the fade-out editing is not performed. Also, these data (original data 511-1-1, fade-in partial data 512-1-1, fade-out partial data 513-1-1) are put together as one segment 502-1.
  • fade-in partial data 512-1-2 is generated by performing fade-in editing on section 511A of original data 511-1-2, and fade-out editing is performed on section 511C.
  • the generated data is fade-out partial data 513-1-2.
  • these data original data 511-1-2, fade-in partial data 512-1-2, fade-out partial data 513-1-2 are put together as one segment 502-2.
  • data generated by performing fade-in editing on section 511A of original data 511-2-1 is fade-in partial data 512-2-1, and for section 511C.
  • the data generated by performing fade-out editing is fade-out partial data 513-2-1.
  • these data original data 511-2-1, fade-in partial data 512-2-1, fade-out partial data 513-2-1) are put together as one segment 503-1.
  • fade-in partial data 512-2-2 is generated by performing fade-in editing on section 511A of original data 511-2-2, and fade-out editing is performed on section 511C.
  • the data thus generated is fade-out partial data 513-2-2.
  • these data original data 511-2-2, fade-in partial data 512-2-2, fade-out partial data 513-2-2) are put together as one segment 503-2.
  • each data of bit rate # 1 is represented as a representation 504-1
  • each data of bit rate # 2 is represented as a representation 504-2.
  • bit rate # 1 the original data is represented as sub-representation 505-1-1
  • the fade-in partial data is represented as sub-representation 505-2-1
  • the fade-out partial data is represented as sub-representation 505-3-1.
  • bit rate # 2 the original data is represented as sub-representation 505-1-2
  • the fade-in partial data is represented as sub-representation 505-2-2
  • the fade-out partial data is represented as sub-representation 505-3. It is expressed as -2.
  • each original data of bit rate # 1 is referred to as original data 511-1 when it is not necessary to distinguish them from each other.
  • each fade-in partial data of bit rate # 1 it is referred to as fade-in partial data 512-1.
  • fade-out partial data 513-1 when it is not necessary to distinguish and explain each fade-out partial data of bit rate # 1, it is referred to as fade-out partial data 513-1.
  • original data 511-2 when it is not necessary to distinguish and explain each original data of bit rate # 2, it is referred to as original data 511-2.
  • fade-in partial data 512-2 when it is not necessary to distinguish and explain the fade-out partial data of bit rate # 2, they are referred to as fade-out partial data 513-2.
  • original data 511 When it is not necessary to distinguish and explain each original data of each bit rate, it is referred to as original data 511. Similarly, when it is not necessary to distinguish and explain each fade-in partial data of each bit rate, it is referred to as fade-in partial data 512. Similarly, when it is not necessary to distinguish and explain each fade-out partial data of each bit rate, it is referred to as fade-out partial data 513.
  • segments 502. when it is not necessary to distinguish and explain the segments of bit rate # 1, they are referred to as segments 502. Similarly, when the segments of bit rate # 2 need not be distinguished from one another, they are referred to as segments 503. In addition, when it is not necessary to distinguish and explain the representations of each bit rate, they are referred to as a representation 504.
  • sub-representation 505-1 when it is not necessary to distinguish and describe the sub-representations in which the information of the original data 511 of each bit rate is stored, it is referred to as a sub-representation 505-1.
  • sub-representation 505-2 when it is not necessary to distinguish and describe sub-representations in which information of fade-in partial data 512 of each bit rate is stored, it is referred to as sub-representation 505-2.
  • sub-representation 505-3 when it is not necessary to distinguish and describe sub-representations in which information of fade-out partial data 513 of each bit rate is stored. Note that when there is no need to distinguish and explain each sub-representation, it is referred to as a sub-representation 505.
  • the MP4 sampled audio data is divided into five parts as shown in FIG. That is, fade-in partial data (fi) 512, fade-out partial data (fo) 513, data (org a ) 511A corresponding to the fade-in edit portion of the original data 511, data not to be fade-edited (org b ) 511 B, fade-out edit portion There are five corresponding data (org c ) 511C.
  • the portion to be fade-edited may be a plurality of MP4 samples. These five data are recorded in mdat which is a box for storing MP4 samples.
  • the information for managing the reproduction of the content data after editing and the information for managing the reproduction of the content data before editing may be generated as one adaptation set to generate the MPD.
  • the server may generate an MPD as shown in FIG. 36 in response to the editing described with reference to FIG.
  • a portion surrounded by a dotted line 541 is a description regarding one adaptation set 501.
  • a portion surrounded by a dotted line 542 is a description related to the representation 504-1
  • a portion surrounded by a dotted line 543 is a description related to the representation 504-2.
  • the portion enclosed by a dotted line 544 is a description related to the sub-representation 505-1-1
  • the portion enclosed by a dotted line 545 is a description related to the sub-representation 505-2-1
  • the dotted line 546 The enclosed portion is a description regarding the sub-representation 505-3-1.
  • one adaptation set is set for one audio data.
  • representations are prepared for the type of bandwidth.
  • two types of 11,289,600 bps and 5,644,800 bps are shown.
  • the number of types of bandwidth is arbitrary.
  • the reproduction terminal side can perform reproduction using the edited content data according to the management information. Therefore, an increase in load on the playback terminal can be suppressed.
  • MPD management information
  • FIG. 43 is a block diagram showing an example of the main configuration of the file generation apparatus 301 in this case. As shown in FIG. 43, also in this case, the file generation device 301 has basically the same configuration as that of the second embodiment (FIG. 31).
  • the file generation device 301 in this case has a segment file generation unit 601-1 instead of the segment file generation unit 313-1, the segment file generation unit 315-1, and the segment file generation unit 317-1.
  • the fade-out editing unit 314-1, the removing unit 421-1, the fade-in editing unit 316-1, and the removing unit 422-1 are collectively referred to as an editing data generation unit 621-1. These configurations relate to bit rate # 1 (FIG. 35).
  • the removing unit 421-1 supplies the fade-out partial data 513-1 to the segment file generating unit 601-1.
  • the removing unit 422-1 supplies the fade-in partial data 512-1 to the segment file generating unit 601-1.
  • the segment file generation unit 601-1 is supplied with the original data 511-1 supplied from the encoding unit 312-1, the fade-out partial data 51-1 supplied from the removal unit 421-1, and the supply unit 221-1 A fade-in partial data 512-1 is put together to generate a segment file.
  • the file generation device 301 in this case has a segment file generation unit 601-2 instead of the segment file generation unit 313-2, the segment file generation unit 315-2, and the segment file generation unit 317-2.
  • the fade-out editing unit 314-2, the removing unit 421-2, the fade-in editing unit 316-2, and the removing unit 422-2 are collectively referred to as an editing data generation unit 621-2. These configurations relate to bit rate # 2 (FIG. 35).
  • the removing unit 421-2 supplies the fade-out partial data 513-2 to the segment file generating unit 601-2.
  • the removing unit 422-2 supplies the fade-in partial data 512-2 to the segment file generating unit 601-2.
  • the segment file generation unit 601-2 is supplied with the original data 511-2 supplied from the coding unit 312-2, the fade-out partial data 513-2 supplied from the removal unit 42-2, and the removal unit 422-2 A fade-in partial data 512-2 is put together to generate a segment file.
  • segment file generation unit 601 when it is not necessary to distinguish and explain each segment file generation unit, the segment file generation unit 601 is referred to as “segment file generation unit 601". Further, when it is not necessary to distinguish the respective edited data generation units from each other, they are referred to as an edited data generation unit 621.
  • the configurations of the encoding unit 312, the fade-out editing unit 314, the fade-in editing unit 316, the removing unit 421, the removing unit 422, and the segment file generating unit 601 are the same as the number of prepared bit rates. Provided.
  • the number of bit rates prepared as data for distribution is arbitrary. Also, in this case, each editing data generation unit 621 always operates (for all segments).
  • each process of step S301 to step S306 of FIG. 44 is performed similarly to each process of step S201 to step S206 of FIG.
  • the MPD generation unit 318 describes all data as one adaptation set as described with reference to FIG.
  • step S307 the segment file generation unit 601 generates a segment file by collecting the original data, the fade-out partial data, and the fade-in partial data for each bit rate.
  • steps S308 and S309 are performed in the same manner as the processes of steps S208 and S209 of FIG. If it is determined in step S309 that the audio file generation process is to end at the segment, the audio file generation process ends.
  • FIG. 45 is a block diagram showing an example of the main configuration of the playback terminal 303 in this case.
  • the reproduction terminal 303 in this case basically has the same configuration as that of the first embodiment (FIG. 26).
  • the reproduction terminal 303 includes the fade editing partial track switching unit 651.
  • the fade editing partial track switching unit 651 performs processing regarding switching of the track of the fade-in edited or fade-out edited part.
  • step S351 the selection unit 354 determines whether to reselect the bandwidth of the audio stream. If it is determined that the selection is made again, the process proceeds to step S352.
  • step S352 if there is no space in the buffer 355, the segment file acquisition unit 353 waits for space.
  • the segment file acquisition unit 353 acquires a segment of a predetermined time length of the bandwidth selected as the change destination in step S353.
  • the fade editing partial track switching unit 651 switches to the playback of the fade out track in the last segment of the currently selected bandwidth.
  • step S355 the decoding unit 356 reproduces the fade-in track at the start of reproduction of the bandwidth selected as the change destination.
  • step S356 when the fade-in portion of the bandwidth selected as the change destination is finished playing, the fade-editing partial track switching unit 651 switches to the playing of the original track.
  • step S356 When the process of step S356 ends, the bandwidth selection process ends, and the process returns to FIG. If it is determined in step S351 that the bandwidth of the audio stream is not selected again, the processing in steps S352 to S356 is omitted, the bandwidth selection processing ends, and the processing returns to FIG.
  • the process of selecting the download content of the reproduction terminal can be simplified while maintaining the duplication avoidance of the data arranged on the server.
  • the playback terminal always downloads data to the fade-out / in-track audio data, but the load is not high if the playback time is short and the size is small like fade editing.
  • the reproduction terminal 303 changes the bandwidth, it does not synchronize the reproduction of the connection boundary and the switching of the track, without using the track change, the format of the method described in the second embodiment is one MP4 file May be sent together.
  • a header (hereinafter referred to as GoB Header) necessary for the expansion process is added to the top of the Block group processed at the same time.
  • the DSD_lossless_blocks output simultaneously with the GoB Header are collectively called DSD_lossless_gob (hereinafter GoB).
  • GoB DSD_lossless_gob
  • information such as the number of blocks and sampling frequency is added before GoB, and a lossless compressed DSD is output as a row of DSD_lossless_payload.
  • the GoB header at the top of the GoB is required.
  • the silent byte which is a problem specific to DSD faders, may be recorded in the MPD and transmitted to the reproduction terminal.
  • the silence byte value is not 0 in DSD. Also, there is no exact silence byte, and there are multiple values that can be treated as silence. Those values are reproduced as almost silent by any DAC. This is because the DSD has a back-and-forth dependency of data by delta sigma modulation, and the unit of sampling data is not a byte but a bit. For example, as shown in FIG.
  • a byte value of 0x69 in hexadecimal number that can be treated as a silent byte becomes a value of 01101001 as a bit value, but the position where the value is cut out as a byte from multiple arranged values is If it changes, it will become the value of 0x96, 0xA5, etc.
  • the sampling unit is a 1-bit DSD, it is handled in byte units at the time of file and transmission. This also affects the case of reproducing the faded data on the server on the reproduction terminal. For example, assuming that there is a processing system in which the playback terminal continues sending a byte string of 0x69 as silent DSD data to the DAC before starting playback, and starts playback with fade-in data downloaded from the server at playback time, If the beginning of the DSD data of the silent part of the server is 0x69, the boundary between the silent byte of the playback terminal and the first byte of the downloaded audio data is shown in FIG. 50 when playback of the data downloaded from the server is started. It becomes like the example shown in the lower part, and it becomes a server's intended data arrangement and silence is reproduced correctly.
  • the bit arrangement at the start of playback becomes 0x69, 0xA5, as in the example shown in the lower part of FIG. It will not be as good as the intended silence data bits. This may also cause unintended data discontinuity and cause noise.
  • the DSD silence byte intended by the server is recorded in the MPD file and transmitted to the reproduction terminal.
  • the Representation element and the Subrepresentation element that are fade-edited in the MPD examples of the respective methods described above in the first to third embodiments are said to be fade-edited.
  • the EssentialProperty element to show is added. It is possible to transmit to the playback terminal by recording a silent byte intended by the server in addition to the number of samples to be replaced with the value attribute.
  • DSD DSD data and DSD lossless stream
  • MP4 was demonstrated as an example as a file format of audio data above, this technique is applicable also to arbitrary file formats other than MP4.
  • MP4 file is distributed using MPEG-DASH
  • the present technology can also be applied to data distribution of any standard other than MPEG-DASH.
  • audio data has been described above as an example of target data of the present technology
  • the present technology can be applied to any data other than audio data.
  • the present technology can also be applied to video data.
  • fade-in editing and fade-out editing have been described as examples of editing, but the present technology can be applied to any other editing than these.
  • switching is made to the content data before switching while gradually increasing the ratio of the content data after switching to the content data before switching
  • Cross fade editing may be performed to mix with later content data.
  • editing video data instead of fade-out editing, editing may be performed such that the brightness of the image is gradually reduced.
  • fade-in editing editing may be performed such that the brightness of the image is gradually increased.
  • cross-fade editing of an image may be performed.
  • a partial section of a predetermined length starting from the beginning of the segment or a partial section of a predetermined length ending at the end of the segment are to be edited.
  • editing may be performed on any section in the segment.
  • editing may be performed on both a partial section of a predetermined length starting from the beginning of the segment and a partial section of a predetermined length ending at the end of the segment.
  • Good By editing such a section, it is possible to generate editing data suitable for reproduction that is frequently switched (for example, for each segment), such as digest reproduction, zapping reproduction, slide show, etc.
  • the editing may be performed on a part of the section not including both ends of the segment, or the entire segment may be edited. That is, editing data may be used for purposes other than switching of content data.
  • the above-mentioned editing is described as being performed in the file generation device 301, the present invention is not limited to this.
  • the editing may be performed in the distribution server 302 or is performed in any other device. You may do so.
  • the device that performs the editing may have the same editing function as the file generation device 301 described above in each embodiment.
  • the editing as described above is performed before distribution of content data
  • this editing is optional as long as the content data in segment units to be edited is transmitted. It can be done at the timing of
  • the editing of the segment may be performed at the timing before the segment to be edited is distributed during content data distribution.
  • the distribution server 302 receives a content data switching request from the reproduction terminal 303, the editing of the segment to be edited may be performed.
  • the system, apparatus, processing unit, etc. to which the present technology is applied can be used in any field such as traffic, medical care, crime prevention, agriculture, animal husbandry, mining, beauty, factory, home appliance, weather, nature monitoring, etc. .
  • the present technology can also be applied to systems and devices that transmit images provided for viewing.
  • the present technology can be applied to systems and devices provided for traffic.
  • the present technology can be applied to systems and devices provided for security.
  • the present technology can be applied to systems and devices provided for sports.
  • the present technology can be applied to systems and devices provided for agriculture.
  • the present technology can be applied to systems and devices provided for livestock industry.
  • the present technology can also be applied to systems and devices that monitor natural conditions such as, for example, volcanoes, forests, and oceans.
  • the present technology can be applied to, for example, a meteorological observation system or a meteorological observation apparatus that observes weather, air temperature, humidity, wind speed, daylight hours, and the like.
  • the present technology can be applied to, for example, a system or device for observing the ecology of wildlife such as birds, fish, reptiles, amphibians, mammals, insects, plants and the like.
  • the series of processes described above can be performed by hardware or software.
  • a program that configures the software is installed on a computer.
  • the computer includes, for example, a general-purpose personal computer that can execute various functions by installing a computer incorporated in dedicated hardware and various programs.
  • FIG. 53 is a block diagram showing an example of a hardware configuration of a computer that executes the series of processes described above according to a program.
  • a central processing unit (CPU) 1001 a read only memory (ROM) 1002, and a random access memory (RAM) 1003 are mutually connected via a bus 1004.
  • CPU central processing unit
  • ROM read only memory
  • RAM random access memory
  • An input / output interface 1010 is also connected to the bus 1004.
  • An input unit 1011, an output unit 1012, a storage unit 1013, a communication unit 1014, and a drive 1015 are connected to the input / output interface 1010.
  • the input unit 1011 includes, for example, a keyboard, a mouse, a microphone, a touch panel, an input terminal, and the like.
  • the output unit 1012 includes, for example, a display, a speaker, and an output terminal.
  • the storage unit 1013 includes, for example, a hard disk, a RAM disk, and a non-volatile memory.
  • the communication unit 1014 includes, for example, a network interface.
  • the drive 1015 drives removable media 1021 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
  • the CPU 1001 loads the program stored in the storage unit 1013 into the RAM 1003 via the input / output interface 1010 and the bus 1004, and executes the program. A series of processing is performed.
  • the RAM 1003 also stores data necessary for the CPU 1001 to execute various processes.
  • the program executed by the computer 1000 can be recorded and applied to, for example, a removable medium 1021 as a package medium or the like.
  • the program can be installed in the storage unit 1013 via the input / output interface 1010 by attaching the removable media 1021 to the drive 1015.
  • the program can also be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
  • the program can be received by the communication unit 1014 and installed in the storage unit 1013.
  • this program can be installed in advance in the ROM 1002, the storage unit 1013 or the like.
  • encoded data may be multiplexed and transmitted or recorded in encoded data, or may be encoded with encoded data without being multiplexed in encoded data. It may be transmitted or recorded as associated separate data.
  • association means, for example, that one data can be processed (linked) in processing the other data. That is, the data associated with each other may be collected as one data or may be individual data.
  • the information associated with the coded data (image) may be transmitted on a transmission path different from that of the coded data (image).
  • information associated with encoded data (image) may be recorded on a recording medium (or another recording area of the same recording medium) different from the encoded data (image).
  • association may not be the entire data but a part of the data.
  • an image and information corresponding to the image may be associated with each other in an arbitrary unit such as a plurality of frames, one frame, or a part in a frame.
  • a system means a set of a plurality of components (devices, modules (parts), etc.), and it does not matter whether all the components are in the same housing or not. Therefore, a plurality of devices housed in separate housings and connected via a network, and one device housing a plurality of modules in one housing are all systems. .
  • the configuration described as one device (or processing unit) may be divided and configured as a plurality of devices (or processing units).
  • the configuration described as a plurality of devices (or processing units) in the above may be collectively configured as one device (or processing unit).
  • configurations other than those described above may be added to the configuration of each device (or each processing unit).
  • part of the configuration of one device (or processing unit) may be included in the configuration of another device (or other processing unit) if the configuration or operation of the entire system is substantially the same. .
  • the present technology can have a cloud computing configuration in which one function is shared and processed by a plurality of devices via a network.
  • the program described above can be executed on any device.
  • the device may have necessary functions (functional blocks and the like) so that necessary information can be obtained.
  • each step described in the above-described flowchart can be executed by one device or in a shared manner by a plurality of devices.
  • the plurality of processes included in one step can be executed by being shared by a plurality of devices in addition to being executed by one device.
  • the process of the step of writing the program may be executed in chronological order according to the order described in the present specification, or the call is performed in parallel or It may be individually executed at necessary timing such as time. That is, as long as no contradiction arises, the processing of each step may be performed in an order different from the order described above. Furthermore, the process of the step of writing this program may be executed in parallel with the process of another program, or may be executed in combination with the process of another program.
  • a generation unit that edits the content data to generate edited content data and adds the generated edited content data to the distributed content data before distributing the distributed content data
  • An information processing apparatus comprising: (2) The information processing apparatus according to (1), wherein the generation unit edits the content data in units of segments to generate the edited content data. (3) The information processing apparatus according to (2), wherein the generation unit edits a partial section of the segment unit content data. (4) The generation unit is a partial section of a predetermined length from the start of the segment unit content data, or a partial section of a predetermined length until the end of the segment unit content data, or The information processing apparatus according to (3), in which both are edited.
  • the generation unit converts the edited content data of the edited segment into a file separate from the content data before editing, and adds the file to the content data for distribution (3) or The information processing apparatus according to 4).
  • the generation unit converts the edited content data of the partial section of the edited segment into a file different from the content data before editing, and adds the file to the distribution content data
  • the information processing apparatus according to any one of (3) to (5).
  • the generation unit converts the edited content data of the partial section of the edited segment into a file with the content data before editing as one file, and adds the file to the distribution content data
  • the information processing apparatus according to any one of (3) to (6).
  • the generation unit fades in and edits a partial section of a predetermined length from the start of the segment unit audio data, or one of the predetermined lengths from the start of the segment unit audio data
  • the information processing apparatus according to (8), wherein the section of the section is faded out and edited.
  • the content data is edited to generate edited content data, and the generated edited content data is added to the distributed content data Method.
  • management information including information for managing reproduction of the content data and information for managing reproduction of the content data after editing the content data is generated
  • An information processing apparatus comprising a management information generation unit.
  • the management information is MPD (Media Presentation Description),
  • the management information generation unit is configured to generate the MPD as information for managing reproduction of content data after editing as an adaptation set (Adaptation Set) different from information for managing reproduction of content data before editing.
  • the management information is MPD (Media Presentation Description),
  • the management information generation unit separates the information for managing the reproduction of the content data after the editing, which includes the information indicating the length of the content data after the editing, from the information for managing the reproduction of the content data before the editing.
  • the information processing apparatus according to (11) or (12) configured to generate the MPD as an adaptation set.
  • the management information is MPD (Media Presentation Description),
  • the management information generation unit is configured to generate the MPD with information for managing reproduction of content data after editing and information for managing reproduction of content data before editing as one adaptation set (Adaptation Set).
  • An information processing apparatus according to any one of (11) to (13).
  • management information including information for managing reproduction of the content data and information for managing reproduction of the content data after editing the content data is generated Information processing method.
  • An information processing apparatus comprising: a control unit that acquires the edited content data that has been edited.
  • the acquisition unit acquires the content data in units of segments.
  • the control unit performs the segment-based edited content data in which predetermined editing is performed on the segment-based content data before switching, and the switched content data after switching
  • the information processing apparatus according to (16) wherein segment-based content data after segment editing is obtained for the segment-based content data.
  • the control unit When switching the content data to be acquired according to the change of the parameter, the control unit performs a predetermined editing on a partial section of a predetermined length until the end of the segment unit content data before switching.
  • Content data after editing in segment units performed, and content data after editing in segment units in which predetermined editing has been performed on a partial section of a predetermined length from the start of content data in segment units after switching The information processing apparatus according to (17).
  • the content data is audio data
  • the control unit is a segment for which fade-out editing has been performed in a partial section of a predetermined length until the end of the segment-based content data before switching.
  • 300 distribution system 301 file generator, 302 distribution server, 303 reproduction terminal, 304 network, 311 acquisition unit, 312 encoding unit, 313 segment file generation unit, 314 fadeout editing unit, 315 segment file generation unit, 316 fade in editing Section, 317 segment file generation unit, 318 MPD generation unit, 319 upload unit, 321 edit data generation unit, 351 MPD acquisition unit, 352 MPD processing unit, 353 segment file acquisition unit, 354 selection unit, 355 buffer, 356 decoding unit, 357 output control unit, 421, 422 removal unit, 431 edit data generation unit, 451 fade edit partial segment replacement unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

The present invention relates to an information processing device and a method capable of suppressing an increase in the load on a playback terminal. Prior to delivering content data for delivery, the content data is edited and post-edited content data is created, and the created post-edited content data is added to the content data for delivery. In addition, prior to delivering content data for delivery, management information is created that includes information for managing the playback of the content data and information for managing the playback of the post-edited content data created by editing the content data. The present invention is applicable to, for example, an information processing device, a file generation device, a delivery server, or a playback terminal.

Description

情報処理装置および方法INFORMATION PROCESSING APPARATUS AND METHOD
 本開示は、情報処理装置および方法に関し、特に、再生端末の負荷の増大を抑制することができるようにした情報処理装置および方法に関する。 The present disclosure relates to an information processing apparatus and method, and more particularly to an information processing apparatus and method capable of suppressing an increase in load on a playback terminal.
 従来、映像や音楽のデータを、インターネットを介したストリーミング配信するために、MPEG-DASH(Moving Picture Experts Group phase - Dynamic Adaptive Streaming over HTTP)が開発された(例えば、非特許文献1参照)。 Conventionally, MPEG-DASH (Moving Picture Experts Group phase-Dynamic Adaptive Streaming over HTTP) has been developed to stream video and music data over the Internet (see, for example, Non-Patent Document 1).
 MPEG-DASHの場合、例えば、配信側においてビットレートが互いに異なる同内容のオーディオデータを複数用意しておき、伝送経路の帯域幅等に応じて配信するオーディオデータを切り替えることによりビットレートを可変とすることができる。また、例えば、配信側において言語のみが互いに異なる同内容のオーディオデータを複数用意しておき、ユーザ指示等に応じて配信するオーディオデータを切り替えることにより言語を可変とすることができる。 In the case of MPEG-DASH, for example, a plurality of audio data having the same content but different bit rates are prepared on the distribution side, and the bit rate can be changed by switching the audio data to be distributed according to the bandwidth of the transmission path. can do. Further, for example, it is possible to make the language variable by preparing a plurality of audio data of the same content different only in language on the distribution side and switching the audio data to be distributed according to the user's instruction or the like.
 しかしながら、これらのようなオーディオデータの切り替えの際に、その切り替えの前後のデータ間で、コーデック(符号化・復号の方法)やパラメータの不一致が生じ、その切り替え前後においてオーディオデータの波形がなめらかに繋がらず、ノイズ発生の原因となるおそれがあった。 However, when switching audio data such as these, a mismatch in codec (encoding / decoding method) or parameter occurs between data before and after the switching, and the waveform of audio data becomes smooth before and after the switching. There was a risk that noise could occur as a result.
 そこで、例えば再生端末において、この切り替え部分のオーディオデータの編集を行い、ノイズの発生を抑制するようにすることが考えられた。 Therefore, it has been considered, for example, in the playback terminal to edit the audio data of this switching portion to suppress the generation of noise.
 しかしながら、例えば、音楽の高品位符号化についてはDSD(Direct Stream Digital)が高品質な符号化方式として知られている。DSDは部分的なデジタル編集が困難であるので、PCM等に変換してから編集を行う必要があり、PCMの編集に比べて負荷が増大するおそれがあった。つまり、再生端末の負荷が増大するおそれがあった。 However, for example, for high-quality coding of music, DSD (Direct Stream Digital) is known as a high-quality coding method. Since DSD is difficult to perform partial digital editing, it is necessary to perform editing after converting it to PCM or the like, which may increase the load compared to editing PCM. That is, the load on the playback terminal may be increased.
 本開示は、このような状況に鑑みてなされたものであり、再生端末の負荷の増大を抑制することができるようにするものである。 The present disclosure has been made in view of such a situation, and makes it possible to suppress an increase in load on a playback terminal.
 本技術の一側面の情報処理装置は、配信用のコンテンツデータを配信する前において、前記コンテンツデータを編集して編集後のコンテンツデータを生成し、生成した前記編集後のコンテンツデータを前記配信用のコンテンツデータに追加する生成部を備える情報処理装置である。 The information processing apparatus according to one aspect of the present technology edits the content data to generate edited content data before distributing the distributed content data, and generates the edited content data for distribution. An information processing apparatus including a generation unit to be added to the content data of
 前記生成部は、セグメント(Segment)単位の前記コンテンツデータを編集して前記編集後のコンテンツデータを生成することができる。 The generation unit may edit the content data in units of segments to generate the edited content data.
 前記生成部は、前記セグメント単位のコンテンツデータの一部の区間を編集することができる。 The generation unit may edit a partial section of the segment unit content data.
 前記生成部は、前記セグメント単位のコンテンツデータの開始から所定の長さの一部の区間、若しくは、前記セグメント単位のコンテンツデータの終了までの所定の長さの一部の区間、またはその両方を編集することができる。 The generation unit may select a partial interval of a predetermined length from the start of the segment unit content data or a partial interval of a predetermined length from the segment unit content data to the end, or both of them. It can be edited.
 前記生成部は、編集が行われたセグメントの編集後のコンテンツデータを、編集前のコンテンツデータとは別のファイルとしてファイル化し、前記配信用のコンテンツデータに追加することができる。 The generation unit may convert the edited content data of the edited segment into a file separate from the content data before editing and add the file to the distribution content data.
 前記生成部は、編集が行われたセグメントの前記一部の区間の編集後のコンテンツデータを、編集前のコンテンツデータとは別のファイルとしてファイル化し、前記配信用のコンテンツデータに追加することができる。 The generation unit may convert the edited content data of the partial section of the edited segment into a file separate from the content data before editing and add the file to the distribution content data. it can.
 前記生成部は、編集が行われたセグメントの前記一部の区間の編集後のコンテンツデータを、編集前のコンテンツデータとともに1つのファイルとしてファイル化し、前記配信用のコンテンツデータに追加することができる。 The generation unit may convert content data after editing of the partial section of the edited segment into a file with the content data before editing as one file, and add the file to the content data for distribution .
 前記コンテンツデータはオーディオデータであるようにすることができる。 The content data may be audio data.
 前記生成部は、前記セグメント単位のオーディオデータの開始から所定の長さの一部の区間をフェードイン編集する、若しくは、前記セグメント単位のオーディオデータの終了までの所定の長さの一部の区間をフェードアウト編集する、またはその両方を行うことができる。 The generation unit fades in and edits a partial section of a predetermined length from the start of the audio data of the segment unit, or a partial section of a predetermined length from the end of the audio data of the segment unit You can fade out, edit, or both.
 本技術の一側面の情報処理方法は、配信用のコンテンツデータを配信する前において、前記コンテンツデータを編集して編集後のコンテンツデータを生成し、生成した前記編集後のコンテンツデータを前記配信用のコンテンツデータに追加する情報処理方法である。 In the information processing method according to one aspect of the present technology, before distributing content data for distribution, the content data is edited to generate edited content data, and the generated edited content data is used for distribution Information processing method to be added to the content data of
 本技術の他の側面の情報処理装置は、配信用のコンテンツデータを配信する前において、前記コンテンツデータの再生を管理する情報と、前記コンテンツデータを編集した編集後のコンテンツデータの再生を管理する情報とを含む管理情報を生成する管理情報生成部を備える情報処理装置である。 An information processing apparatus according to another aspect of the present technology, before distributing content data for distribution, manages information for managing reproduction of the content data and reproduction of edited content data obtained by editing the content data. This is an information processing apparatus including a management information generation unit that generates management information including information.
 前記管理情報は、MPD(Media Presentation Description)であり、前記管理情報生成部は、編集後のコンテンツデータの再生を管理する情報を、編集前のコンテンツデータの再生を管理する情報とは別のアダプテーションセット(Adaptation Set)として前記MPDを生成するように構成されるようにすることができる。 The management information is an MPD (Media Presentation Description), and the management information generation unit adapts the information for managing the reproduction of the content data after the editing separately from the information for managing the reproduction of the content data before the editing. It may be configured to generate the MPD as an Adaptation Set.
 前記管理情報は、MPD(Media Presentation Description)であり、前記管理情報生成部は、編集後のコンテンツデータの長さを示す情報を含む、前記編集後のコンテンツデータの再生を管理する情報を、編集前のコンテンツデータの再生を管理する情報とは別のアダプテーションセット(Adaptation Set)として前記MPDを生成するように構成されるようにすることができる。 The management information is an MPD (Media Presentation Description), and the management information generation unit edits information for managing reproduction of the edited content data including information indicating a length of the edited content data. The MPD may be configured to be generated as an adaptation set different from the information for managing the reproduction of the previous content data.
 前記管理情報は、MPD(Media Presentation Description)であり、前記管理情報生成部は、編集後のコンテンツデータの再生を管理する情報と、編集前のコンテンツデータの再生を管理する情報とを1つのアダプテーションセット(Adaptation Set)として前記MPDを生成するように構成されるようにすることができる。 The management information is an MPD (Media Presentation Description), and the management information generation unit is adapted from the information for managing the reproduction of the content data after editing and the information for managing the reproduction of the content data before editing. It may be configured to generate the MPD as an Adaptation Set.
 本技術の他の側面の情報処理方法は、配信用のコンテンツデータを配信する前において、前記コンテンツデータの再生を管理する情報と、前記コンテンツデータを編集した編集後のコンテンツデータの再生を管理する情報とを含む管理情報を生成する情報処理方法である。 An information processing method according to another aspect of the present technology manages information for managing reproduction of the content data and reproduction of edited content data after editing the content data before distributing the content data for distribution. This is an information processing method of generating management information including information.
 本技術のさらに他の側面の情報処理装置は、所定のパラメータに応じたコンテンツデータを取得する取得部と、前記取得部を制御し、前記パラメータの変化に応じて取得するコンテンツデータを切り替える際に、切り替え前のコンテンツデータに所定の編集が行われた編集後のコンテンツデータと、切り替え後のコンテンツデータに所定の編集が行われた編集後のコンテンツデータとを取得させる制御部とを備える情報処理装置である。 An information processing apparatus according to still another aspect of the present technology controls an acquisition unit that acquires content data according to a predetermined parameter and the acquisition unit, and switches content data to be acquired according to a change in the parameter. And an information processing unit including a control unit configured to acquire content data after editing in which predetermined editing has been performed on content data before switching, and content data after editing in which predetermined editing has been performed on content data after switching It is an apparatus.
 前記取得部は、セグメント(Segment)単位の前記コンテンツデータを取得し、前記制御部は、前記パラメータの変化に応じて取得するコンテンツデータを切り替える際に、切り替え前のセグメント単位のコンテンツデータに所定の編集が行われたセグメント単位の編集後のコンテンツデータと、切り替え後のセグメント単位のコンテンツデータに所定の編集が行われたセグメント単位の編集後のコンテンツデータとを取得させることができる。 The acquisition unit acquires the content data in units of segments, and when the control unit switches the content data to be acquired according to a change in the parameter, the content data in units of segments before switching is predetermined. It is possible to obtain segment data after editing in segment units and content data after segment units in which predetermined editing is performed on segment data after switching.
 前記制御部は、前記パラメータの変化に応じて取得するコンテンツデータを切り替える際に、切り替え前のセグメント単位のコンテンツデータの終了までの所定の長さの一部の区間に所定の編集が行われたセグメント単位の編集後のコンテンツデータと、切り替え後のセグメント単位のコンテンツデータの開始から所定の長さの一部の区間に所定の編集が行われたセグメント単位の編集後のコンテンツデータとを取得させることができる。 When the control unit switches the content data to be acquired according to the change of the parameter, the predetermined editing is performed on a partial section of a predetermined length until the end of the segment unit content data before switching. The segment-based edited content data and the segment-based edited content data in which a predetermined editing has been performed in a partial section of a predetermined length from the start of the segment-based content data after switching are acquired be able to.
 前記コンテンツデータはオーディオデータであり、前記制御部は、前記パラメータの変化に応じて取得するコンテンツデータを切り替える際に、切り替え前のセグメント単位のコンテンツデータの終了までの所定の長さの一部の区間にフェードアウト編集が行われたセグメント単位の編集後のコンテンツデータと、切り替え後のセグメント単位のコンテンツデータの開始から所定の長さの一部の区間にフェードイン編集が行われたセグメント単位の編集後のコンテンツデータとを取得させるように構成されるようにすることができる。 The content data is audio data, and when the control unit switches the content data to be acquired according to a change in the parameter, a part of a predetermined length until the end of the content data in units of segments before switching. Segment-based editing in which fade-in editing has been performed on a partial section of a predetermined length from the start of content data after segment-based editing where fade-out editing has been performed on the section and segment-based content data after switching It can be configured to obtain later content data.
 本技術のさらに他の側面の情報処理方法は、所定のパラメータに応じたコンテンツデータを取得し、前記パラメータの変化に応じて取得するコンテンツデータを切り替える際に、切り替え前のコンテンツデータに所定の編集が行われた編集後のコンテンツデータと、切り替え後のコンテンツデータに所定の編集が行われた編集後のコンテンツデータとを取得する情報処理方法である。 In an information processing method according to still another aspect of the present technology, when content data corresponding to a predetermined parameter is acquired and content data to be acquired is switched according to a change in the parameter, the content data before switching is subjected to predetermined editing In the information processing method, the post-editing content data that has been edited and the post-editing content data that has been subjected to predetermined editing on the switched content data are acquired.
 本技術の一側面の情報処理装置および方法においては、配信用のコンテンツデータを配信する前において、そのコンテンツデータが編集されて編集後のコンテンツデータが生成され、生成された編集後のコンテンツデータが配信用のコンテンツデータに追加される。 In the information processing device and method according to one aspect of the present technology, before distributing content data for distribution, the content data is edited to generate edited content data, and the generated edited content data is generated. Added to content data for distribution.
 本技術の他の側面の情報処理装置および方法においては、配信用のコンテンツデータを配信する前において、そのコンテンツデータの再生を管理する情報と、そのコンテンツデータを編集した編集後のコンテンツデータの再生を管理する情報とを含む管理情報が生成される。 In the information processing apparatus and method according to another aspect of the present technology, before distributing content data for distribution, information for managing reproduction of the content data and reproduction of edited content data obtained by editing the content data Management information including information for managing
 本技術のさらに他の側面の情報処理装置および方法においては、所定のパラメータに応じたコンテンツデータが取得され、そのパラメータの変化に応じて取得するコンテンツデータを切り替える際に、切り替え前のコンテンツデータに所定の編集が行われた編集後のコンテンツデータと、切り替え後のコンテンツデータに所定の編集が行われた編集後のコンテンツデータとが取得される。 In an information processing apparatus and method according to still another aspect of the present technology, content data corresponding to a predetermined parameter is acquired, and when switching content data to be acquired according to a change in the parameter, the content data before switching is selected. Content data after editing in which predetermined editing has been performed and content data after editing in which predetermined editing has been performed on content data after switching are acquired.
 本開示によれば、情報を処理することができる。特に、再生端末の負荷の増大を抑制することができる。 According to the present disclosure, information can be processed. In particular, an increase in load on the playback terminal can be suppressed.
MPEG-DASHを用いたデータ伝送の様子の例を説明する図である。It is a figure explaining the example of the mode of the data transmission which used MPEG-DASH. MPDの構成例を示す図である。It is a figure which shows the structural example of MPD. コンテンツの時間的区切りを説明する図である。It is a figure explaining the time division | segmentation of content. MPDにおけるPeriod以下の階層構造の例を示す図である。It is a figure which shows the example of the hierarchical structure below Period in MPD. MPDファイルの構成例を時間軸上で説明する図である。It is a figure explaining the example of composition of an MPD file on a time-axis. DASHビデオアダプテーションの例を示す図である。It is a figure which shows the example of DASH video adaptation. DASHオーディオアダプテーションの例を示す図である。It is a figure which shows the example of DASH audio adaptation. DASHオーディオデータにおける不連続発生の様子の例を示す図である。It is a figure which shows the example of the mode of the discontinuous generation | occurrence | production in DASH audio data. 曲間におけるデータ不連続の発生の様子の例を示す図である。It is a figure which shows the example of a mode of generation | occurrence | production of the data discontinuity between music. DASHにおける言語選択の様子の例を示す図である。It is a figure which shows the example of the mode of the language selection in DASH. 言語切り替え時におけるデータ不連続の発生の様子の例を示す図である。It is a figure which shows the example of a mode of generation | occurrence | production of the data discontinuity at the time of language switching. フェードアウトフェードインを用いたノイズ発生の回避の様子の例を示す図である。It is a figure which shows the example of a mode of the avoidance of noise generation using fade out fade in. DSD方式を説明する図である。It is a figure explaining a DSD method. デジタルシグマ変調の様子の例を説明する図である。It is a figure explaining the example of the mode of digital sigma modulation. コーデックによるサイズ比較の例を説明する図である。It is a figure explaining the example of the size comparison by a codec. DSD専用機器・回路を持たないシステムの例を説明する図である。It is a figure explaining the example of the system which does not have a DSD exclusive apparatus * circuit. DSD専用機器・回路を持つシステムの例を説明する図である。It is a figure explaining an example of a system which has DSD special equipment and a circuit. PCMとDSDの編集工程の様子の例を説明する図である。It is a figure explaining the example of the mode of the edit process of PCM and DSD. オーディオデータの切り替えの様子の例を示す図である。It is a figure which shows the example of the mode of switching of audio data. サーバ側で行われるフェード処理の様子の例を示すブロック図である。It is a block diagram which shows the example of the mode of the fade process performed by the server side. サーバへのセグメント配置の例を説明する図である。It is a figure explaining the example of the segment arrangement | positioning to a server. MPDの記述例を説明する図である。It is a figure explaining the example of a statement of MPD. 配信システムの例を説明する図である。It is a figure explaining an example of a delivery system. ファイル生成装置の主な構成例を示すブロック図である。It is a block diagram showing an example of main composition of a file generation device. 音声ファイル生成処理の流れの例を説明するフローチャートである。It is a flow chart explaining an example of a flow of sound file generation processing. 再生端末の主な構成例を示すブロック図である。It is a block diagram which shows the main structural examples of a reproduction | regeneration terminal. 再生処理の流れの例を説明するフローチャートである。It is a flowchart explaining the example of the flow of reproduction processing. bandwidth選択処理の流れの例を説明するフローチャートである。It is a flowchart explaining the example of the flow of bandwidth selection processing. サーバへのセグメント配置の例を説明する図である。It is a figure explaining the example of the segment arrangement | positioning to a server. MPDの記述例を説明する図である。It is a figure explaining the example of a statement of MPD. ファイル生成装置の主な構成例を示すブロック図である。It is a block diagram showing an example of main composition of a file generation device. 音声ファイル生成処理の流れの例を説明するフローチャートである。It is a flow chart explaining an example of a flow of sound file generation processing. 再生端末の主な構成例を示すブロック図である。It is a block diagram which shows the main structural examples of a reproduction | regeneration terminal. bandwidth選択処理の流れの例を説明するフローチャートである。It is a flowchart explaining the example of the flow of bandwidth selection processing. サーバへのセグメント配置の例を説明する図である。It is a figure explaining the example of the segment arrangement | positioning to a server. mdat内のデータ配置とトラックの参照位置を説明する図である。It is a figure explaining the data arrangement in mdat, and the reference position of a track. MPDの記述例を説明する図である。It is a figure explaining the example of a statement of MPD. MPDの構造例を説明する図である。It is a figure explaining the structural example of MPD. サブプレゼンテーションのレベルとトラックとの関係を説明する図である。It is a figure explaining the relationship between the level of a sub presentation, and a track. 編集前のトラックとサンプルの関連の様子の例を説明する図である。It is a figure explaining the example of a mode of the track and sample before edit. フェードイン時のトラックとサンプルの関連の様子の例を説明する図である。It is a figure explaining the example of a mode of the relation of the track and sample at the time of fade-in. フェードアウト時のトラックとサンプルの関連の様子の例を説明する図である。It is a figure explaining the example of a mode of the relation of the track and sample at the time of fade-out. ファイル生成装置の主な構成例を示すブロック図である。It is a block diagram showing an example of main composition of a file generation device. 音声ファイル生成処理の流れの例を説明するフローチャートである。It is a flow chart explaining an example of a flow of sound file generation processing. 再生端末の主な構成例を示すブロック図である。It is a block diagram which shows the main structural examples of a reproduction | regeneration terminal. bandwidth選択処理の流れの例を説明するフローチャートである。It is a flowchart explaining the example of the flow of bandwidth selection processing. ロスレス圧縮の様子の例を説明する図である。It is a figure explaining the example of the mode of lossless compression. コンテンツデータの切り替えの様子の例を説明する図である。It is a figure explaining the example of a mode of switching of content data. DSDの無音バイトの例を示す図である。It is a figure which shows the example of the silence byte of DSD. DSDの無音バイトの一致の様子の例を示す図である。It is a figure which shows the example of a mode of the matching of the silence byte of DSD. DSDの無音バイトの不一致の様子の例を示す図である。It is a figure which shows the example of a mode of the mismatch of the silence byte of DSD. DSDの無音バイトのシグナリングの例を示す図である。FIG. 7 illustrates an example of DSD silence byte signaling. コンピュータの主な構成例を示すブロック図である。It is a block diagram showing an example of main composition of a computer.
 以下、本開示を実施するための形態(以下実施の形態とする)について説明する。なお、説明は以下の順序で行う。
 0.概要
 1.第1の実施の形態(配信システム)
 2.第2の実施の形態(配信システム)
 3.第3の実施の形態(配信システム)
 4.第4の実施の形態(配信システム)
 5.第5の実施の形態(配信システム)
 6.その他
Hereinafter, modes for carrying out the present disclosure (hereinafter referred to as embodiments) will be described. The description will be made in the following order.
0. Overview 1. First embodiment (delivery system)
2. Second Embodiment (Distribution System)
3. Third Embodiment (Distribution System)
4. Fourth Embodiment (Distribution System)
5. Fifth Embodiment (Distribution System)
6. Other
 <0.概要>
  <映像や音声の配信>
 近年、映像と音楽を消費者に届ける手段として、インターネットを介したストリーミング配信が期待されている。しかしながら、伝送手段としてのインターネットは、放送や光ディスクと比べて伝送が不安定である。まずユーザの環境によって伝送帯域の最高レートが大きく変わる。さらに同一ユーザであっても常に一定の伝送帯域が確保されていることはなく、時間の経過で変動する。また伝送帯域が変動するということは、クライアントからの要求に対する応答時間が一定ではないということでもある。
<0. Overview>
<Distribution of video and audio>
In recent years, streaming delivery via the Internet is expected as a means for delivering video and music to consumers. However, the Internet as a transmission means is unstable in transmission compared to broadcast and optical disks. First, the maximum rate of the transmission band changes greatly depending on the user's environment. Furthermore, even for the same user, a constant transmission band is not always secured, and it fluctuates with the passage of time. The fluctuation of the transmission bandwidth also means that the response time to the request from the client is not constant.
 このようなインターネットを介した伝送のための規格として、MPEG-DASH(Moving Picture Experts Group - Dynamic Adaptive Streaming over HTTP)が開発されている。サーバ側にデータサイズが異なる複数のファイルを置いておき、クライアントがMPD(Media Presentation Description)を参照して最適なファイルを選択するというプル型のモデルである。特殊なプロトコルを使わずhttpを用いることで、一般的なHTTP(HyperText Transfer Protocol)サーバが利用できる。ファイル形式は、MPEG-TS(Moving Picture Experts Group - Transport Stream)だけでなく、ISOBMFF(International Organization for Standardization Base Media File Format)形式のファイルが使われている。 As a standard for such transmission over the Internet, MPEG-DASH (Moving Picture Experts Group-Dynamic Adaptive Streaming over HTTP) has been developed. This is a pull type model in which a plurality of files with different data sizes are placed on the server side, and the client refers to the MPD (Media Presentation Description) to select the most suitable file. A general HTTP (HyperText Transfer Protocol) server can be used by using http without using a special protocol. The file format is not only MPEG-TS (Moving Picture Experts Group-Transport Stream), but also a file of International Organization for Standardization Base Media File Format (ISOBMFF) format.
  <MPEG-DASH>
 MPEG-DASHを用いたデータ伝送の様子の例を図1に示す。図1の情報処理システム1において、ファイル生成装置2は、動画コンテンツとして、ビデオデータやオーディオデータを生成し、符号化し、伝送用のファイルフォーマットでファイル化する。例えば、ファイル生成装置2は、これらのデータを10秒程度の時間毎にファイル化する(セグメント化する)。ファイル生成装置2は、生成したセグメントファイルを、Webサーバ3にアップロードする。また、ファイル生成装置2は、動画コンテンツを管理するMPDファイル(管理ファイル)を生成し、それをWebサーバ3にアップロードする。
<MPEG-DASH>
An example of data transmission using MPEG-DASH is shown in FIG. In the information processing system 1 of FIG. 1, the file generation device 2 generates video data and audio data as moving image content, encodes the data, and converts it into a file format for transmission. For example, the file generation device 2 files (segments) these data every 10 seconds or so. The file generation device 2 uploads the generated segment file to the Web server 3. Also, the file generation device 2 generates an MPD file (management file) for managing moving image content, and uploads it to the Web server 3.
 DASHサーバとしてのWebサーバ3は、ファイル生成装置2により生成された動画コンテンツのファイルを、MPEG-DASHに準ずる方式で、インターネット4を介して再生端末5にライブ配信する。例えば、Webサーバ3は、ファイル生成装置2からアップロードされたセグメントファイルやMPDファイルを格納する。また、Webサーバ3は、再生端末5からの要求に応じて、格納しているセグメントファイルやMPDファイルを再生端末5に送信する。 The Web server 3 as a DASH server distributes the file of the moving image content generated by the file generation device 2 live to the reproduction terminal 5 via the Internet 4 in a method conforming to MPEG-DASH. For example, the web server 3 stores the segment file and the MPD file uploaded from the file generation device 2. Further, in response to a request from the reproduction terminal 5, the Web server 3 transmits the stored segment file and MPD file to the reproduction terminal 5.
 再生端末5(再生装置)は、ストリーミングデータの制御用ソフトウエア(以下、制御用ソフトウエアとも称する)6、動画再生ソフトウエア7、HTTPアクセス用のクライアント・ソフトウエア(以下、アクセス用ソフトウエアという)8等を実行する。 The reproduction terminal 5 (reproduction apparatus) includes streaming data control software (hereinafter also referred to as control software) 6, video reproduction software 7, client software for HTTP access (hereinafter referred to as access software). ) Execute 8 mag.
 制御用ソフトウエア6は、Webサーバ3からストリーミングするデータを制御するソフトウエアである。例えば、制御用ソフトウエア6は、Webサーバ3からMPDファイルを取得する。また、制御用ソフトウエア6は、例えば、そのMPDファイルや動画再生ソフトウエア7により指定される再生時刻等を表す再生時刻情報、およびインターネット4のネットワーク帯域に基づいて、再生対象のセグメントファイルの送信要求を、アクセス用ソフトウエア8に指令する。 The control software 6 is software that controls data to be streamed from the web server 3. For example, the control software 6 acquires an MPD file from the web server 3. Also, the control software 6 transmits the segment file to be reproduced based on, for example, the reproduction time information indicating the reproduction time specified by the MPD file or the moving image reproduction software 7 and the network band of the Internet 4 The request is commanded to the access software 8.
 動画再生ソフトウエア7は、インターネット4を介してWebサーバ3から取得された符号化ストリームを再生するソフトウエアである。例えば、動画再生ソフトウエア7は、再生時刻情報を制御用ソフトウエア6に指定する。また、動画再生ソフトウエア7は、アクセス用ソフトウエア8から受信開始の通知を取得すると、アクセス用ソフトウエア8から供給される符号化ストリームを復号する。動画再生ソフトウエア7は、復号の結果得られるビデオデータやオーディオデータを出力する。 The video reproduction software 7 is software that reproduces the encoded stream acquired from the Web server 3 via the Internet 4. For example, the moving image reproduction software 7 designates reproduction time information as the control software 6. In addition, when the moving image reproduction software 7 receives a notification of reception start from the access software 8, the video reproduction software 7 decodes the encoded stream supplied from the access software 8. The video reproduction software 7 outputs video data and audio data obtained as a result of decoding.
 アクセス用ソフトウエア8は、HTTPを用いたWebサーバ3との通信を制御するソフトウエアである。例えば、アクセス用ソフトウエア8は、受信開始の通知を動画再生ソフトウエア7に供給する。また、アクセス用ソフトウエア8は、制御用ソフトウエア6の指令に応じて、再生対象のセグメントファイルの符号化ストリームの送信要求をWebサーバ3に送信する。さらに、アクセス用ソフトウエア8は、その送信要求に応じてWebサーバ3から送信されてくる、通信環境等に応じたビットレートのセグメントファイルを受信する。そして、アクセス用ソフトウエア8は、その受信したファイルから符号化ストリームを抽出し、動画再生ソフトウエア7に供給する。 The access software 8 is software that controls communication with the Web server 3 using HTTP. For example, the access software 8 supplies the moving image reproduction software 7 with a notification of reception start. Further, the access software 8 transmits a transmission request for the encoded stream of the segment file to be reproduced to the Web server 3 in response to an instruction of the control software 6. Furthermore, the access software 8 receives the segment file of the bit rate according to the communication environment and the like transmitted from the Web server 3 in response to the transmission request. Then, the access software 8 extracts the encoded stream from the received file, and supplies it to the moving image reproduction software 7.
  <MPD>
 次に、MPDについて説明する。MPDは、例えば図2に示されるような構成を有する。MPDの解析(パース)においては、クライアント(図1の例の場合、再生端末5)は、MPD(図2のMedia Presentation)のピリオド(Period)に含まれるリプレゼンテーション(Representation)の属性から最適なものを選択する。
<MPD>
Next, the MPD will be described. The MPD has, for example, a configuration as shown in FIG. In MPD analysis (parsing), the client (reproduction terminal 5 in the example of FIG. 1) is optimum from the attribute of Representation included in Period of MPD (Media Presentation of FIG. 2). Choose one.
 クライアントは、選択したリプレゼンテーション(Representation)の先頭のセグメント(Segment)を読んでイニシャライズセグメント(Initialization Segment)を取得し、処理する。続いて、クライアントは、後続のセグメント(Segment)を取得し、再生する。 The client reads the top segment (Segment) of the selected Representation (Representation) to obtain and process the Initialization Segment. Subsequently, the client acquires and reproduces the subsequent segment.
 なお、MPDにおける、ピリオド(Period)、リプレゼンテーション(Representation)、およびセグメント(Segment)の関係は、図3のようになる。つまり、1つのメディアコンテンツは、時間方向のデータ単位であるピリオド(Period)毎に管理することができ、各ピリオド(Period)は、時間方向のデータ単位であるセグメント(Segment)毎に管理することができる。また、各ピリオド(Period)について、ビットレート等の属性の異なる複数のリプレゼンテーション(Representation)を構成することができる。 The relationship between Period, Representation, and Segment in the MPD is as shown in FIG. That is, one media content can be managed for each period, which is a data unit in the time direction, and each period is managed for each segment, which is a data unit in the time direction. Can. Also, for each period, a plurality of representations (Representations) with different attributes such as bit rate can be configured.
 したがって、このMPDのファイル(MPDファイルとも称する)は、ピリオド(Period)以下において、図4に示されるような階層構造を有する。また、このMPDの構造を時間軸上に並べると図5の例のようになる。図5の例から明らかなように、同一のセグメント(Segment)に対して複数のリプレゼンテーション(Representation)が存在している。クライアントは、これらのうちのいずれかを適応的に選択することにより、通信環境や自己のデコード能力などに応じて適切なストリームデータを取得し、再生することができる。 Therefore, the file of this MPD (also referred to as MPD file) has a hierarchical structure as shown in FIG. 4 below Period. Further, when the structure of this MPD is arranged on the time axis, it becomes as shown in the example of FIG. As is clear from the example of FIG. 5, a plurality of representations (Representations) exist for the same segment (Segment). By adaptively selecting one of these, the client can acquire and reproduce appropriate stream data according to the communication environment, its own decoding capability, and the like.
  <コンテンツの切り替え>
 一般的にMPEG-DASHでは、図6に示される例のように、配信サーバ(WEBサーバ)が1本のビデオコンテンツ用にビットレートが異なるビデオデータ群を用意し、再生端末が伝送路の状況に応じて最適なビットレートのビデオデータ群を要求することにより、適応型のストリーミング配信が実現される。これに対して、オーディオについては非可逆圧縮を用いて動画より十分に小さなサイズで圧縮されていることが多く、1本の音声コンテンツに対しオーディオデータは1つしか用意されていないことが多い。
<Switching of content>
Generally, in MPEG-DASH, as in the example shown in FIG. 6, the distribution server (WEB server) prepares video data groups having different bit rates for one video content, and the reproduction terminal has a transmission path status. Adaptive streaming delivery is realized by requesting the video data group of the optimal bit rate according to. On the other hand, audio is often compressed at a sufficiently smaller size than moving pictures using lossy compression, and often only one audio data is prepared for one audio content.
 しかしながら、高音質オーディオを主体としたMPEG-DASHオーディオ配信サービスの場合、図7に示される例のように、1本の音声コンテンツに対して、高音質なものはサイズがビデオに並ぶ場合もあり、非圧縮、可逆圧縮、非可逆圧縮など複数のコーデックの利用、サンプリング周波数や圧縮率を変えるなどの方法によって、ビデオデータ群同様、ビットレートが異なる複数のオーディオデータ群を用意し、伝送路の状況に応じたオーディオデータ要求を行い適応型のストリーミング配信が実現する方法が考えられる。 However, in the case of the MPEG-DASH audio distribution service mainly composed of high-quality audio, as in the example shown in FIG. Prepare multiple audio data groups with different bit rates like video data groups by using multiple codecs such as uncompressed, lossless compression, lossy compression, etc., and changing the sampling frequency and compression ratio etc. A possible method is to realize adaptive streaming delivery by making an audio data request according to the situation.
 再生中にビットレート違いのオーディオデータへの切り替えが起こると、図8に示される例のように、再生端末側において、その境界でコーデックの不一致、または同一コーデックだがパラメータ不一致であるデータが連続で再生されることがある。それらのデータは内容が同一であるにもかかわらず、エンコード・デコードなどの過程で波形が完全には一致しない可能性があり、接続境界でオーディオ波形がなめらかにつながらずノイズ発生の原因となり得る。 When switching to audio data of different bit rates occurs during playback, as shown in FIG. 8, on the playback terminal side, data with codec mismatch or identical codec but parameter mismatch at that boundary is continuous. It may be played back. Although their data are identical, the waveforms may not completely match in the process of encoding / decoding, etc., and the audio waveform may not be connected smoothly and cause noise generation.
 例えば、図9に示される例のように、2つの曲の間、先行する曲の終わりが小さな音量で終わり後続する曲の始まりが比較的大きな音量で始まるような場合、接続境界前後が不連続となりノイズ発生の可能性がある。 For example, as in the example shown in FIG. 9, when the end of the preceding song ends at a small volume and the beginning of the following song starts at a relatively large volume between two songs, the connection boundary is discontinuous before and after And noise may occur.
 また複数言語対応されたコンテンツなどでは、図10に示される例のように、配信サーバには内容の異なるオーディオデータ群が用意され、再生中に動的に言語選択が行われると内容の異なる不連続なデータが連続再生されるため、これもノイズ発生の原因となり得る。 Also, with content etc. compatible with multiple languages, as in the example shown in FIG. 10, the distribution server prepares audio data groups having different contents, and if language selection is dynamically performed during reproduction, the contents differ. As continuous data is continuously reproduced, this may also cause noise.
 例えば、図11に示される例のように、再生する言語を日本語から英語に切り替えると、再生端末においては、その言語切り替えの前の日本語のオーディオデータと、切り替え後の英語のオーディオデータとが連続再生されるが、その接続境界で内容が異なりノイズ発生の可能性がある。 For example, as in the example shown in FIG. 11, when the language to be reproduced is switched from Japanese to English, in the reproduction terminal, Japanese audio data before the language switching and English audio data after the switching are Is reproduced continuously, but the content is different at the connection boundary, and noise may occur.
 これらのデータ不連続を原因とするノイズを回避する方法の1つに再生端末上でフェードアウト編集やフェードイン編集を用いて境界前後を無音で接続する方法が存在する。例えば、図12に示されるように、先行するデータをフェードアウト編集し(音量を段階的になめらかに小さくし)無音にしたデータを作成する。次に後続のデータを無音からフェードイン編集し(音量をなめらかに大きくし)元の音量に戻したデータを作成する。最後に、作成された2つのデータを接続し連続再生する。このように接続境界を無音にすることによりノイズの発生を抑制することができる。 One of the methods for avoiding the noise caused by these data discontinuities is a method of connecting the front and back of the boundary by using fade-out editing or fade-in editing on the playback terminal. For example, as shown in FIG. 12, the preceding data is faded out and edited (the volume is gradually reduced gradually) to create silent data. Next, the following data is faded in and edited from silence (the volume is smoothly increased) to create data restored to the original volume. Finally, the two created data are connected and continuously reproduced. By making the connection boundary silent in this manner, the generation of noise can be suppressed.
  <DSD>
 ところで、映像や音楽のデータは高品質化が進み、それとともに、配信においてもより高品質なデータの配信が求められている。例えば、音声信号の高品位な変調方式としてDSD(Direct Stream Digital)が知られている(図13)。図13に示されるように、PCM(Pulse Code Modulation)の場合、オーディオアナログ信号の各サンプリング時刻の信号値が固定数ビットのデジタルデータに変換されるのに対して、DSDの場合、図14に示されるように、オーディオアナログ信号がΔΣ変調され、1ビットのデジタルデータに変換される。つまり、時間軸を利用して「1」と「0」の変化点の密度でオーディオアナログ信号の情報が表現される。従って、ビット数に依存しない高分解能の記録再生を実現することができる。
<DSD>
By the way, the quality of video and music data is increasing, and at the same time, higher quality data distribution is also required for distribution. For example, DSD (Direct Stream Digital) is known as a high-quality modulation method for audio signals (FIG. 13). As shown in FIG. 13, in the case of PCM (Pulse Code Modulation), the signal value at each sampling time of the audio analog signal is converted to digital data of fixed number of bits, while in the case of DSD, FIG. As shown, the audio analog signal is ΔΣ modulated and converted to 1-bit digital data. That is, the information of the audio analog signal is represented by the density of the change points of "1" and "0" using the time axis. Therefore, high resolution recording and reproduction independent of the number of bits can be realized.
 ただし、デルタシグマ変調の特徴として過去のA/D変換出力結果がそれ以降の出力結果に影響するため、部分的なデジタル編集(音量の増減、時間的な部分削除・結合等)が困難であった。また、例えば図15に示される表のように、高いサンプリング周波数で変化を記録するためデータサイズが大きいという特徴を持つ。例えば、DSDの場合、サンプリング周波数が例えば2.8MHz、5.6MHz、11.2MHzと高いため、ビットレートも2chでそれぞれ、5.6Mbps、11.2Mbps、22.4Mbpsになる。 However, it is difficult to perform partial digital editing (increase / decrease in volume, partial deletion / combination in time, etc.) because the result of the past A / D conversion output affects subsequent output results as a feature of delta sigma modulation The Further, as shown in the table shown in FIG. 15, for example, the data size is large because the change is recorded at a high sampling frequency. For example, in the case of DSD, since the sampling frequency is as high as 2.8 MHz, 5.6 MHz and 11.2 MHz, for example, the bit rate becomes 5.6 Mbps, 11.2 Mbps and 22.4 Mbps with 2 channels respectively.
  <再生>
 また、図16に示されるような、DSDに対応した機器や回路を持たないシステムでは、多くのシステムで対応しているPCM16bit、44.1kHz(従来のCDと同等の音質)、またはそれより少し高い音質のPCM16bit 48kHzに変換した後に再生されるため、本来DSDが持つ高音質を再現することができない。
<Play>
In addition, as shown in Fig. 16, in systems without devices or circuits compatible with DSD, PCM 16 bit, 44.1 kHz (the sound quality equivalent to conventional CDs) or a bit higher than that supported by many systems Because it is played back after converting to PCM16bit 48kHz of the sound quality, it is not possible to reproduce the high sound quality originally possessed by DSD.
 そこで、例えば図17に示されるようなDSDを直接処理する機器を外部接続、または内部にそのような回路を持つことで対応するシステムを構成するようにする。そのような機器、回路はPCMにも対応することが多く、直接対応しない場合でもシステム内でPCMも処理可能な別の機器や回路を持つことが多いため、多くの場合DSD/PCM両対応となる。しかしながら、このようなDSD/PCM両対応の機器・回路であっても再生中のDSD/PCM切り替えや、サンプリング周波数などのパラメータ変更には設定変更時間を伴い、これはノイズ、音途切れの原因となりうるため再生中に設定変更を行うことは現実的ではない。 Therefore, for example, a device that directly processes a DSD as shown in FIG. 17 is externally connected, or by having such a circuit inside, a corresponding system is configured. Such devices and circuits often support PCM, and even if they do not correspond directly, they often have other devices and circuits that can process PCM in the system, so in many cases they are compatible with DSD / PCM. Become. However, even with devices and circuits compatible with such DSD / PCM, DSD / PCM switching during playback and parameter changes such as sampling frequency involve setting change time, which causes noise and sound interruption. It is not realistic to change settings during playback because it is possible.
  <DSDのフェードアウト編集、フェードイン編集>
 以上のように、DSDは部分的なデジタル編集が難しく、低品質なPCMに変換してしまうと音質を損なうおそれがあるので、DSDとPCM両対応のシステムであっても可能な限り再生するコーデックの変更はしないことが望ましい。これに対して、PCMのように前後のデータに相関がないオーディオ形式であれば比較的編集は容易である。そこで、DSDの部分的な編集を行う場合、例えば図18に示されるように、一度DSDの音質を損なわない程度のPCM(例えば176.4kHz 32bitなど)に変換後に音量変更などの編集を行い、その後改めてDSDに変換するという編集方法が考えられた。このようにDSDではPCMの編集に比べ処理工程が多く処理負荷が高くなるおそれがあった。
<Fade out edit of DSD, fade in edit>
As described above, DSD is difficult to perform partial digital editing, and there is a risk that sound quality may be lost if converted to low-quality PCM. A codec that reproduces as much as possible even in a system compatible with DSD and PCM It is desirable not to change the On the other hand, in the case of an audio format such as PCM in which there is no correlation between preceding and succeeding data, editing is relatively easy. Therefore, when partial editing of the DSD is performed, for example, as shown in FIG. 18, once converted to a PCM (for example, 176.4 kHz 32 bit) which does not impair the sound quality of the DSD, editing such as volume change is performed. The editorial method of converting to DSD was conceived again. As described above, in the DSD, the processing load may be high because the number of processing steps is larger than the editing of the PCM.
  <端末におけるノイズ発生と負荷の増大>
 以上のように、高音質オーディオを主体としたMPEG-DASHオーディオ配信サービスでは、同一内容で複数ビットレートのオーディオデータ群(または他言語対応コンテンツなどでは複数内容のオーディオデータ群)が配信サーバに配置され、通信経路の帯域変動や再生端末からの要求に応じてダウンロードされるデータの接続境界でオーディオ波形がなめらかにつながらずノイズ発生の原因となりうる。
<Noise generation and increase of load on the terminal>
As described above, in the MPEG-DASH audio distribution service mainly composed of high-quality audio, audio data groups of the same content and plural bit rates (or audio data groups of plural contents in other language compatible contents etc.) are arranged in the distribution server. The audio waveform may not be connected smoothly at the connection boundary of the data downloaded in response to the bandwidth fluctuation of the communication path or the request from the playback terminal, which may cause noise generation.
 このようなノイズ発生は高音質オーディオを主体とした配信サービスでは致命的問題であるため、配信を受ける個々の再生端末は、例えば図19に示されるように、編集が困難で処理負荷が高いDSDなどのコーデックを含む様々なオーディオデータに対して、接続境界前後をフェードアウト、フェードイン編集し無音で接続する処理を行わなければならず、負荷が増大するおそれがあった。 Since such noise generation is a fatal problem in the distribution service mainly based on high-quality audio, each reproduction terminal receiving the distribution has difficulty in editing and has a high processing load, as shown in FIG. 19, for example. For various audio data including codecs, etc., it is necessary to perform processing of fade-out, fade-in editing, and silent connection before and after the connection boundary, which may increase the load.
  <サーバによる編集>
 そこで、個々の再生端末が再生時に行う処理をサーバ側で行い、再生端末はオーディオ再生中ビットレートや内容の異なるオーディオデータを要求する際に、フェードアウトやフェードアウト処理済のオーディオデータをダウンロードすることができるようにする。つまり、配信用のコンテンツデータを配信する前において、そのコンテンツデータを編集して編集後のコンテンツデータ(編集データとも称する)を生成し、生成した編集後のコンテンツデータを配信用のコンテンツデータに追加するようにする。
<Edit by server>
Therefore, the server performs the processing performed by each playback terminal at the time of playback, and when the playback terminal requests audio data having different bit rates or contents during audio playback, it is possible to download faded out or faded out audio data It can be so. That is, before distributing content data for distribution, the content data is edited to generate edited content data (also referred to as editing data), and the generated edited content data is added to the distributed content data To do.
 このようにすることにより、再生端末は、サーバから編集後のコンテンツデータを取得することができるので、サーバから取得したコンテンツデータを編集する必要が無くなる。つまり、再生端末の負荷の増大を抑制することができる。 By doing this, the playback terminal can acquire the edited content data from the server, and therefore, there is no need to edit the content data acquired from the server. That is, an increase in load on the playback terminal can be suppressed.
 また、その際、セグメント(Segment)単位のコンテンツデータを編集して編集後のコンテンツデータを生成するようにしてもよい。また、その編集において、セグメント単位のコンテンツデータの一部の区間を編集するようにしてもよい。例えば、セグメント単位のコンテンツデータの開始から所定の長さの一部の区間、若しくは、セグメント単位のコンテンツデータの終了までの所定の長さの一部の区間、またはその両方を編集するようにしてもよい。このようにすることにより、コンテンツデータが切り替わるセグメントの接続境界におけるノイズの発生を抑制することができる。 At this time, content data in segments may be edited to generate edited content data. In addition, in the editing, a partial section of content data in units of segments may be edited. For example, a partial interval of a predetermined length from the start of content data in segment units, or a partial interval of a predetermined length from the end of content data in segment units, or both of them may be edited. It is also good. By doing this, it is possible to suppress the generation of noise at the connection boundary of the segment in which the content data is switched.
 より具体的な例を説明すると、図20のAに示されるように、ビットレート#1とビットレート#2の2つのビットレートのデータ(オリジナルアダプテーションセット)がサーバに用意されているとすると、それらのそれぞれについて、各セグメントのデータにフェードイン処理を施したフェードインアダプテーションセットと、各セグメントのデータにフェードアウト処理を施したフェードアウトアダプテーションセットを生成する。 To describe a more specific example, as shown in A of FIG. 20, assuming that data of two bit rates (original adaptation set) of bit rate # 1 and bit rate # 2 are prepared in the server, For each of them, a fade-in adaptation set in which the data of each segment is subjected to fade-in processing, and a fade-out adaptation set in which the data of each segment is subjected to fade-out processing are generated.
 そして、図20のBのように、再生するコンテンツデータをビットレート#1からビットレート#2に切り替える場合、再生端末がビットレート#1のオリジナルアダプテーションセットのセグメント101を再生中の矢印111のタイミングにおいて帯域変化を検出すると、矢印112において、再生端末は次に送信要求するセグメントを、ビットレート#1のフェードアウトアダプテーションセットのセグメント102に切り替える。そして、再生端末はその次に送信要求するセグメントを、ビットレート#2のフェードインアダプテーションセットのセグメント103に切り替える。そして、再生端末はさらに次に送信要求するセグメントを、ビットレート#2のオリジナルアダプテーションセットのセグメント104に切り替える。 When switching the content data to be reproduced from bit rate # 1 to bit rate # 2 as shown in B of FIG. 20, the timing of the arrow 111 during reproduction of the segment 101 of the original adaptation set of bit rate # 1 by the reproduction terminal. When a band change is detected at, the playback terminal switches the segment for which transmission is next requested to the segment 102 of the fade-out adaptation set of bit rate # 1 at arrow 112. Then, the playback terminal switches the segment for which transmission is requested next to the segment 103 of the fade-in adaptation set of bit rate # 2. Then, the playback terminal further switches the segment requested to be transmitted next to the segment 104 of the original adaptation set of bit rate # 2.
 このようにすることにより、ビットレートがビットレート#1からビットレート#2に切り替わる矢印113に示されるタイミングにおいて、前後のセグメントが無音で繋がる。そのため、コンテンツデータの切り替えの際のノイズの発生を抑制することができる。そして上述したようにこれらのフェードイン編集処理やフェードアウト編集処理をサーバが行うので、個々の再生端末はオーディオデータの接続境界を編集処理することなくノイズの発生を抑制することが可能になる。すなわち、再生端末の負荷の増大を抑制することができる。 By doing this, the segments before and after are connected silently at the timing indicated by the arrow 113 at which the bit rate switches from bit rate # 1 to bit rate # 2. Therefore, the generation of noise at the time of switching of content data can be suppressed. Then, as described above, since the server performs the fade-in editing process and the fade-out editing process, it is possible for each reproduction terminal to suppress the generation of noise without editing the connection boundary of the audio data. That is, an increase in load on the playback terminal can be suppressed.
 また、配信用のコンテンツデータを配信する前において、そのコンテンツデータの再生を管理する情報と、そのコンテンツデータを編集した編集後のコンテンツデータの再生を管理する情報とを含む管理情報を生成するようにする。このようにすることにより、再生端末は、その管理情報に基づいて編集後のコンテンツデータの再生を行うことができる。つまり、再生端末の負荷の増大を抑制することができる。 Also, before distributing content data for distribution, management information including information for managing reproduction of the content data and information for managing reproduction of the content data after editing the content data is generated Make it By doing this, the playback terminal can play back the edited content data based on the management information. That is, an increase in load on the playback terminal can be suppressed.
 なお、サーバ側で行われるオーディオ編集処理(編集データや管理情報の生成)は端末からの要求前に予め行われるようにしてもよいし、要求時に行われるようにしてもよい。 Note that the audio editing process (generation of editing data and management information) performed on the server side may be performed in advance before the request from the terminal, or may be performed at the time of the request.
 <1.第1の実施の形態>
  <概要>
 編集後のデータの構成は、任意であるが、例えば、図21に示されるように、編集部分を含むセグメント全体をそれぞれフェードインセグメント、フェードアウトセグメントとして追加作成するようにしてもよい。つまり、編集が行われたセグメントの編集後のコンテンツデータを、編集前のコンテンツデータとは別のファイルとしてファイル化し、配信用のコンテンツデータに追加するようにしてもよい。
<1. First embodiment>
<Overview>
The configuration of data after editing is arbitrary, but for example, as shown in FIG. 21, the entire segment including the editing portion may be additionally created as a fade in segment and a fade out segment, respectively. That is, the edited content data of the edited segment may be converted into a file separate from the content data before editing and added to the distribution content data.
 図21において、サーバは、ビットレート#1のオリジナルアダプテーションセット121-1から、フェードインアダプテーションセット122-1とフェードアウトアダプテーションセット123-1を生成する。 In FIG. 21, the server generates the fade-in adaptation set 122-1 and the fade-out adaptation set 123-1 from the original adaptation set 121-1 of bit rate # 1.
 つまり、例えば、サーバは、オリジナルアダプテーションセット121-1のセグメント124-1-1の先頭(開始)から所定の長さの一部の区間をフェードイン編集してセグメント125-1-1を生成し、セグメント124-1-2の先頭(開始)から所定の長さの一部の区間をフェードイン編集してセグメント125-1-2を生成し、それらのセグメント全体をフェードインアダプテーションセット122-1に格納する。また、例えば、サーバは、オリジナルアダプテーションセット121-1のセグメント124-1-1の終端(終了)までの所定の長さの一部の区間をフェードアウト編集してセグメント126-1-1を生成し、セグメント124-1-2の終端(終了)から所定の長さの一部の区間をフェードアウト編集してセグメント126-1-2を生成し、それらのセグメント全体をフェードアウトアダプテーションセット123-1に格納する。 That is, for example, the server fades in and edits a partial section of a predetermined length from the beginning (start) of the segment 124-1-1 of the original adaptation set 121-1 to generate the segment 125-1-1. , Fade-in-edit a partial section of a predetermined length from the beginning (start) of segment 124-1-2 to generate segment 125-1-2, and fade in adaptation set 122-1 for the entire segment Store in Also, for example, the server fades out and edits a partial section of a predetermined length up to the end (end) of the segment 124-1-1 of the original adaptation set 12-1 to generate a segment 126-1-1 , Fade out and edit some sections of a predetermined length from the end (end) of segment 124-1-2 to generate segments 126-1-2, and store the entire segments in fade-out adaptation set 123-1. Do.
 以下において、オリジナルアダプテーションセット121-1の各セグメントを互いに区別する必要が無い場合、セグメント124-1と称する。また、フェードインアダプテーションセット122-1の各セグメントを互いに区別する必要が無い場合、セグメント125-1と称する。また、フェードアウトアダプテーションセット123-1の各セグメントを互いに区別する必要が無い場合、セグメント126-1と称する。 Hereinafter, when it is not necessary to distinguish each segment of the original adaptation set 121-1 from each other, it will be referred to as a segment 124-1. Also, when it is not necessary to distinguish each segment of the fade-in adaptation set 122-1, they are referred to as a segment 125-1. Also, when it is not necessary to distinguish the segments of fade-out adaptation set 123-1, they are referred to as segment 126-1.
 オリジナルアダプテーションセット121-1にその他のセグメント124-1が存在する場合、同様にして、各セグメント124-1からフェードインアダプテーションセット122-1のセグメント125-1とフェードアウトアダプテーションセット123-1のセグメント126-1とを生成する。 Similarly, when there are other segments 124-1 in the original adaptation set 121-1, the segments 125-1 of the fade-in adaptation set 122-1 and the segments 126 of the fade-out adaptation set 123-1 from each segment 124-1 Generate -1 and
 また、サーバは、ビットレート#2のオリジナルアダプテーションセット121-2から、フェードインアダプテーションセット122-2とフェードアウトアダプテーションセット123-2を生成する。 Also, the server generates a fade-in adaptation set 122-2 and a fade-out adaptation set 123-2 from the original adaptation set 12-2 of bit rate # 2.
 つまり、例えば、サーバは、オリジナルアダプテーションセット121-2のセグメント124-2-1の先頭(開始)から所定の長さの一部の区間をフェードイン編集してセグメント125-2-1を生成し、セグメント124-2-2の先頭(開始)から所定の長さの一部の区間をフェードイン編集してセグメント125-2-2を生成し、それらのセグメント全体をフェードインアダプテーションセット122-2に格納する。また、例えば、サーバは、オリジナルアダプテーションセット121-2のセグメント124-2-1の終端(終了)までの所定の長さの一部の区間をフェードアウト編集してセグメント126-2-1を生成し、セグメント124-2-2の終端(終了)から所定の長さの一部の区間をフェードアウト編集してセグメント126-2-2を生成し、それらのセグメント全体をフェードアウトアダプテーションセット123-2に格納する。 That is, for example, the server fades in and edits a partial section of a predetermined length from the beginning (start) of the segment 124-2-1 of the original adaptation set 12-2, and generates the segment 125-2-1. , Fade-in-edit a partial section of a predetermined length from the beginning (start) of segment 124-2-2 to generate segment 125-2-2, and fade in adaptation set 122-2 over the entire segments Store in Also, for example, the server fades out and edits a partial section of a predetermined length up to the end (end) of the segment 124-2-1 of the original adaptation set 12-2 to generate a segment 126-2-1 , Fade-edit some sections of a predetermined length from the end (end) of the segment 124-2-2 to generate segments 126-2-2, and store the entire segments in the fade-out adaptation set 123-2 Do.
 以下において、オリジナルアダプテーションセット121-2の各セグメントを互いに区別する必要が無い場合、セグメント124-2と称する。また、フェードインアダプテーションセット122-2の各セグメントを互いに区別する必要が無い場合、セグメント125-2と称する。また、フェードアウトアダプテーションセット123-2の各セグメントを互いに区別する必要が無い場合、セグメント126-2と称する。 In the following, when it is not necessary to distinguish each segment of the original adaptation set 121-2 from each other, it is referred to as a segment 124-2. Also, when it is not necessary to distinguish each segment of the fade-in adaptation set 122-2, they are referred to as a segment 125-2. Also, when it is not necessary to distinguish the segments of fade-out adaptation set 123-2, they are referred to as segment 126-2.
 オリジナルアダプテーションセット121-2にその他のセグメント124-2が存在する場合、同様にして、各セグメント124-2からフェードインアダプテーションセット122-2のセグメント125-2とフェードアウトアダプテーションセット123-2のセグメント126-2とを生成する。 Similarly, when there are other segments 124-2 in the original adaptation set 12-2, segments 125-2 of fade-in adaptation set 122-2 and segments 126 of fade-out adaptation set 123-2 from each segment 124-2. Generate -2.
 以下において、各ビットレートのオリジナルアダプテーションを互いに区別する必要が無い場合、オリジナルアダプテーションセット121と称する。また、各ビットレートのフェードインアダプテーションを互いに区別する必要が無い場合、フェードインアダプテーションセット122と称する。また、各ビットレートのフェードアウトアダプテーションを互いに区別する必要が無い場合、フェードアウトアダプテーションセット123と称する。 In the following, when it is not necessary to distinguish the original adaptations of each bit rate, they are referred to as an original adaptation set 121. Also, when it is not necessary to distinguish fade in adaptation of each bit rate from each other, it is referred to as fade in adaptation set 122. In addition, when it is not necessary to distinguish fade-out adaptation of each bit rate from each other, it is referred to as fade-out adaptation set 123.
 また、各オリジナルアダプテーションセット121の各セグメントを互いに区別する必要が無い場合、セグメント124と称する。また、各フェードインアダプテーションセット122の各セグメントを互いに区別する必要が無い場合、セグメント125と称する。また、各フェードアウトアダプテーションセット123の各セグメントを互いに区別する必要が無い場合、セグメント126と称する。 Also, when it is not necessary to distinguish each segment of each original adaptation set 121 from each other, it is referred to as a segment 124. Also, when it is not necessary to distinguish each segment of each fade-in adaptation set 122 from each other, it is referred to as a segment 125. Also, when it is not necessary to distinguish each segment of each fade-out adaptation set 123, it is referred to as a segment 126.
 その他のビットレートのオリジナルアダプテーションセット121が存在する場合、同様に、それに対応するフェードインアダプテーションセット122(の各セグメント125)と、それに対応するフェードアウトアダプテーションセット123(の各セグメント126)とが生成される。 Similarly, if there is an original adaptation set 121 of another bit rate, (the respective segments 125 of) the fade-in adaptation set 122 corresponding thereto and (the respective segments 126 of) the corresponding fade-out adaptation set 123 are generated. Ru.
 また、サーバが、このような編集に対応して、編集後のコンテンツデータの再生を管理する情報を、編集前のコンテンツデータの再生を管理する情報とは別のアダプテーションセットとするMPDを生成するようにしてもよい。例えば、サーバが、図21を参照して説明した編集に対応して、図22に示されるようなMPDを生成するようにしてもよい。図22において、点線131で囲まれる部分がオリジナルアダプテーションセット121に関する記述である。なお、MPEG-DASH規格には、下記の点線132で囲まれる部分や点線133で囲まれる部分に記載のEssentialPropertyエレメントのschemaIdUriの内容を理解できない再生端末は、その親のElement(ここではAdaptationSet)を読み飛ばす規約が存在するので、本技術に対応していない従来の再生端末は、このオリジナルアダプテーションセット121を処理する。 Also, in response to such editing, the server generates an MPD in which the information for managing reproduction of content data after editing is an adaptation set different from the information for managing reproduction of content data before editing. You may do so. For example, the server may generate an MPD as shown in FIG. 22 corresponding to the editing described with reference to FIG. In FIG. 22, a portion surrounded by a dotted line 131 is a description regarding the original adaptation set 121. Note that in the MPEG-DASH standard, a playback terminal that can not understand the contents of schemaIdUri of the EssentialProperty element described in the part enclosed by dotted line 132 and the part enclosed by dotted line 133 described below has an Element (here, AdaptationSet) of its parent. Since there is a rule for skipping, a conventional playback terminal not compatible with the present technology processes this original adaptation set 121.
 また、点線132で囲まれる部分がフェードインアダプテーションセット122に関する記述である。このアダプテーションセットは、例えば帯域変化によるコンテンツ選択境界の後ろ側で選択されるアダプテーションセットである。このアダプテーションセットには、サーバによって再生開始が無音から徐々に音量が大きくなるように編集されたセグメントが格納される。点線132内の上から2行目のEssentialPropertyエレメントのschemaIdUriにより、このアダプテーションセットがフェードインアダプテーションセットであることが示されている。 Further, a portion surrounded by a dotted line 132 is a description related to the fade in adaptation set 122. This adaptation set is, for example, an adaptation set selected behind the content selection boundary due to a band change. In this adaptation set, segments edited by the server so that the volume of the playback start gradually increases from silent are stored. The schemaIdUri of the EssentialProperty element in the second line from the top in the dotted line 132 indicates that this adaptation set is a fade in adaptation set.
 点線133で囲まれる部分がフェードアウトアダプテーションセット123に関する記述である。このアダプテーションセットは、例えば帯域変化によるコンテンツ選択境界の前側で選択されるアダプテーションセットである。このアダプテーションセットには、サーバによって再生終了に向けて徐々に音量が小さくなり無音になるように編集されたセグメントが格納される。点線133内の上から2行目のEssentialPropertyエレメントのschemaIdUriにより、このアダプテーションセットがフェードアウトアダプテーションセットであることが示されている。 A portion surrounded by a dotted line 133 is a description related to the fade out adaptation set 123. The adaptation set is, for example, an adaptation set selected in front of the content selection boundary due to a change in bandwidth. In this adaptation set, segments edited by the server so as to gradually decrease in volume toward silence and become silent are stored. The schemaIdUri of the EssentialProperty element in the second line from the top in the dotted line 133 indicates that this adaptation set is a fade out adaptation set.
 サーバ側において、このような管理情報(MPD)を生成することにより、再生端末側が、その管理情報に従って、編集後のコンテンツデータを用いた再生を行うことができる。したがって、再生端末の負荷の増大を抑制することができる。 By generating such management information (MPD) on the server side, the reproduction terminal side can perform reproduction using the edited content data according to the management information. Therefore, an increase in load on the playback terminal can be suppressed.
  <配信システム>
 次に、以上のような本技術を適用するシステムについて説明する。図23は、本技術を適用した情報処理システムの一態様である配信システムの構成の一例を示すブロック図である。図23に示される配信システム300は、画像や音声などのデータ(コンテンツ)を配信するシステムである。配信システム300において、ファイル生成装置301、配信サーバ302、および再生端末303は、ネットワーク304を介して互いに通信可能に接続されている。
<Distribution system>
Next, a system to which the present technology as described above is applied will be described. FIG. 23 is a block diagram illustrating an example of a configuration of a delivery system which is an aspect of an information processing system to which the present technology is applied. The delivery system 300 shown in FIG. 23 is a system for delivering data (content) such as images and sounds. In the distribution system 300, the file generation apparatus 301, the distribution server 302, and the reproduction terminal 303 are communicably connected to each other via the network 304.
 ファイル生成装置301は、本技術を適用した情報処理装置の一態様であり、音声データを格納するMP4ファイルやMPDのファイル(MPDファイルとも称する)の生成に関する処理を行う装置である。例えば、ファイル生成装置301は、オーディオデータを生成し、生成したオーディオデータを格納するMP4ファイルやそのMP4ファイルを管理するMPDファイルを生成し、生成したそれらのファイルを配信サーバ302に供給する。 The file generation device 301 is an aspect of an information processing device to which the present technology is applied, and is a device that performs processing relating to generation of an MP4 file storing audio data and an MPD file (also referred to as an MPD file). For example, the file generation device 301 generates audio data, generates an MP4 file storing the generated audio data and an MPD file managing the MP4 file, and supplies the generated files to the distribution server 302.
 配信サーバ302は、本技術を適用した情報処理装置の一態様であり、MPEG-DASHを用いたコンテンツデータの配信サービス(すなわち、MPDファイルを用いたMP4ファイルの配信サービス)に関する処理を行うサーバである。例えば、配信サーバ302は、ファイル生成装置301から供給されたMPDファイルやMP4ファイルを取得して管理し、MPEG-DASHを用いた配信サービスを提供する。例えば、配信サーバ302は、再生端末303からの要求に応じて、MPDファイルを再生端末303提供する。また、配信サーバ302は、そのMPDファイルに基づく再生端末303からの要求に応じて、要求されたMP4ファイルを再生端末303に供給する。 The distribution server 302 is an aspect of an information processing apparatus to which the present technology is applied, and is a server that performs processing related to a content data distribution service using MPEG-DASH (that is, a distribution service of MP4 files using MPD files). is there. For example, the distribution server 302 acquires and manages the MPD file and the MP4 file supplied from the file generation device 301, and provides a distribution service using MPEG-DASH. For example, the distribution server 302 provides the MPD file to the reproduction terminal 303 in response to a request from the reproduction terminal 303. Further, the distribution server 302 supplies the requested MP4 file to the reproduction terminal 303 in response to the request from the reproduction terminal 303 based on the MPD file.
 再生端末303は、本技術を適用した情報処理装置の一態様であり、音声データの再生に関する処理を行う装置である。例えば、再生端末303は、MPEG-DASHに従って配信サーバ302に対してMP4ファイルの配信を要求し、その要求に応じて供給されたMP4ファイルを取得する。より具体的には、再生端末303は、配信サーバ302からMPDファイルを取得し、そのMPDファイルの情報に従って、所望のコンテンツデータを格納するMP4ファイルを配信サーバ302から取得する。再生端末303は、その取得したMP4ファイルをデコードし、音声データを再生する。 The reproduction terminal 303 is an aspect of an information processing apparatus to which the present technology is applied, and is an apparatus that performs processing related to reproduction of audio data. For example, the reproduction terminal 303 requests the distribution server 302 to distribute the MP4 file in accordance with the MPEG-DASH, and acquires the supplied MP4 file in response to the request. More specifically, the reproduction terminal 303 acquires an MPD file from the distribution server 302, and acquires, from the distribution server 302, an MP4 file storing desired content data according to the information of the MPD file. The playback terminal 303 decodes the acquired MP4 file and plays back audio data.
 ネットワーク304は、任意の通信網であり、有線通信の通信網であってもよいし、無線通信の通信網であってもよいし、それらの両方により構成されるようにしてもよい。また、ネットワーク304が、1の通信網により構成されるようにしてもよいし、複数の通信網により構成されるようにしてもよい。例えば、インターネット、公衆電話回線網、所謂3G回線や4G回線等の無線移動体用の広域通信網、WAN(Wide Area Network)、LAN(Local Area Network)、Bluetooth(登録商標)規格に準拠した通信を行う無線通信網、NFC(Near Field Communication)等の近距離無線通信の通信路、赤外線通信の通信路、HDMI(登録商標)(High-Definition Multimedia Interface)やUSB(Universal Serial Bus)等の規格に準拠した有線通信の通信網等、任意の通信規格の通信網や通信路がネットワーク304に含まれるようにしてもよい。 The network 304 is an arbitrary communication network, may be a communication network of wired communication, may be a communication network of wireless communication, or may be configured by both of them. Also, the network 304 may be configured by one communication network, or may be configured by a plurality of communication networks. For example, the Internet, a public telephone network, a wide area communication network for wireless mobiles such as so-called 3G circuits and 4G circuits, WAN (Wide Area Network), LAN (Local Area Network), communication conforming to Bluetooth (registered trademark) standards Communication network for near field communication such as NFC (Near Field Communication), communication channel for infrared communication, standard such as HDMI (High-Definition Multimedia Interface) or USB (Universal Serial Bus) A communication network or communication path of any communication standard such as a communication network of wired communication conforming to the above may be included in the network 304.
 ファイル生成装置301、配信サーバ302、再生端末303は、それぞれ、ネットワーク304に通信可能に接続されており、このネットワーク304を介して互いに情報の授受を行うことができる。ファイル生成装置301、配信サーバ302、再生端末303は、ネットワーク304に対して、有線通信により接続されるようにしてもよいし、無線通信により接続されるようにしてもよいし、その両方により接続されるようにしてもよい。 The file generation apparatus 301, the distribution server 302, and the reproduction terminal 303 are communicably connected to the network 304, and can exchange information with each other via the network 304. The file generation apparatus 301, the distribution server 302, and the reproduction terminal 303 may be connected to the network 304 by wired communication, may be connected by wireless communication, or may be connected by both of them. It may be done.
 なお、図23において、配信システム300の構成として、ファイル生成装置301、配信サーバ302、および再生端末303は、1台ずつ示されているが、これらの数は、それぞれ任意であり、互いに同一でなくてもよい。例えば、配信システム300において、ファイル生成装置301、配信サーバ302、再生端末303は、それぞれ、単数であってもよいし、複数であってもよい。 In FIG. 23, one file generation device 301, one distribution server 302, and one reproduction terminal 303 are shown as the configuration of the distribution system 300, but these numbers are arbitrary and identical to each other. It does not have to be. For example, in the distribution system 300, each of the file generation device 301, the distribution server 302, and the reproduction terminal 303 may be singular or plural.
  <ファイル生成装置>
 図24は、ファイル生成装置301の主な構成例を示すブロック図である。図24に示されるように、ファイル生成装置301は、取得部311を有する。取得部311は、オーディオアナログ信号または所定のフォーマットのオーディオデータを取得する。取得部311は、取得したオーディオアナログ信号またはオーディオデータを、符号化部312に供給する。
<File generation device>
FIG. 24 is a block diagram showing a main configuration example of the file generation device 301. As shown in FIG. As illustrated in FIG. 24, the file generation device 301 includes an acquisition unit 311. The acquisition unit 311 acquires an audio analog signal or audio data of a predetermined format. The acquisition unit 311 supplies the acquired audio analog signal or audio data to the encoding unit 312.
 ファイル生成装置301は、また、符号化部312-1、セグメントファイル生成部313-1、フェードアウト編集部314-1、セグメントファイル生成部315-1、フェードイン編集部316-1、およびセグメントファイル生成部317-1を有する。なお、フェードアウト編集部314-1乃至セグメントファイル生成部317-1をまとめて編集データ生成部321-1とも称する。これらの構成は、ビットレート#1(図21)に関する構成である。 The file generation device 301 further includes an encoding unit 312-1, a segment file generation unit 313-1, a fade out editing unit 314-1, a segment file generation unit 315-1, a fade in editing unit 316-1, and a segment file generation. It has a section 317-1. The fade-out editing unit 314-1 to the segment file generating unit 317-1 are collectively referred to as an editing data generating unit 321-1. These configurations relate to bit rate # 1 (FIG. 21).
 符号化部312-1は、取得部311から供給されるオーディオアナログ信号またはオーディオデジタルデータを用いて、ビットレート#1のDSDデータを生成する。例えば、オーディオアナログ信号が供給される場合、符号化部312-1は、それをA/D変換し、符号化する等してビットレート#1のDSDデータを生成する。また、例えば、PCM等のDSD以外のフォーマットのオーディオデータが供給される場合、符号化部312は、フォーマット変換等を行うことにより、ビットレート#1のDSDデータを生成する。符号化部312-1は、生成したDSDデータをセグメントファイル生成部313-1に供給する。また、符号化部312-1は、その生成したDSDデータをフェードアウト編集部314-1やフェードイン編集部316-1にも供給する。なお、取得部311からDSDデータが供給される場合、符号化部312-1は、そのDSDデータを、セグメントファイル生成部313-1、フェードアウト編集部314-1、フェードイン編集部316-1等に供給する。なお、この符号化部312-1から供給されるDSDデータは、セグメント単位のデータである。 The encoding unit 312-1 generates DSD data of bit rate # 1 using the audio analog signal or audio digital data supplied from the acquisition unit 311. For example, when an audio analog signal is supplied, the encoding unit 312-1 performs A / D conversion and encoding, and generates DSD data of bit rate # 1. Also, for example, when audio data in a format other than DSD such as PCM is supplied, the encoding unit 312 performs format conversion and the like to generate DSD data of bit rate # 1. The encoding unit 312-1 supplies the generated DSD data to the segment file generation unit 313-1. Also, the encoding unit 312-1 also supplies the generated DSD data to the fade-out editing unit 314-1 and the fade-in editing unit 316-1. When the DSD data is supplied from the acquisition unit 311, the encoding unit 312-1 performs the DSD data on the segment file generation unit 313-1, the fade-out editing unit 314-1, the fade-in editing unit 316-1, and the like. Supply to The DSD data supplied from the encoding unit 312-1 is data in units of segments.
 セグメントファイル生成部313-1は、符号化部312-1から供給されるDSDデータをセグメント毎にMP4ファイル化(セグメントファイルとも称する)する。つまり、このセグメントファイルは、ビットレート#1のオリジナルアダプテーションセット121-1のファイルである。セグメントファイル生成部313-1は、生成したセグメントファイルをアップロード部319に供給する。 The segment file generation unit 313-1 converts the DSD data supplied from the encoding unit 312-1 into MP4 files (also referred to as segment files) for each segment. That is, this segment file is a file of the original adaptation set 121-1 of bit rate # 1. The segment file generation unit 313-1 supplies the generated segment file to the upload unit 319.
 フェードアウト編集部314-1は、供給されたセグメント単位のDSDデータに対して、上述したようなフェードアウト編集を行う。ただし、DSDデータは、過去のデータがそれ以降のデータに影響するため、部分的なデジタル編集(音量の増減、時間的な部分削除・結合等)が困難である。そこで、フェードアウト編集部314-1は、供給されたDSDデータを、例えばその音質を損なわない程度のPCMデータ(例えば176.4kHz 32bitなど)に変換し、得られたPCMデータをフェードアウト編集し、編集後のPCMデータをDSDデータに変換する。フェードアウト編集部314-1は、編集後のDSDデータをセグメントファイル生成部315-1に供給する。このDSDデータは、セグメント単位のデータであり、セグメント末尾のフェードアウト編集された部分だけでなく、それより前のオリジナルデータと共通の部分も含む。 The fade-out editing unit 314-1 performs fade-out editing as described above on the supplied DSD data in units of segments. However, in the DSD data, it is difficult to perform partial digital editing (increase / decrease in sound volume, partial deletion / combination in time, etc.) since past data affects subsequent data. Therefore, the fade-out editing unit 314-1 converts the supplied DSD data into, for example, PCM data (for example, 176.4 kHz 32 bits etc.) that does not impair the sound quality, and fades out and edits the obtained PCM data. Convert PCM data into DSD data. The fade-out editing unit 314-1 supplies the DSD data after editing to the segment file generating unit 315-1. This DSD data is data in units of segments, and includes not only the faded-out edited portion at the end of the segment but also a portion common to the previous original data.
 セグメントファイル生成部315-1は、フェードアウト編集部314-1から供給されるDSDデータをセグメント毎にMP4ファイル化する。つまり、このセグメントファイルは、ビットレート#1のフェードアウトアダプテーションセット123-1のファイルである。セグメントファイル生成部315-1は、生成したセグメントファイルをアップロード部319に供給する。 The segment file generation unit 315-1 converts the DSD data supplied from the fade-out editing unit 314-1 into MP4 files for each segment. That is, this segment file is a file of fade-out adaptation set 123-1 of bit rate # 1. The segment file generation unit 315-1 supplies the generated segment file to the upload unit 319.
 フェードイン編集部316-1は、供給されたセグメント単位のDSDデータに対して、上述したようなフェードイン編集を行う。ただし、DSDデータは、過去のデータがそれ以降のデータに影響するため、部分的なデジタル編集(音量の増減、時間的な部分削除・結合等)が困難である。そこで、フェードイン編集部316-1は、供給されたDSDデータを、例えばその音質を損なわない程度のPCMデータ(例えば176.4kHz 32bitなど)に変換し、得られたPCMデータをフェードイン編集し、編集後のPCMデータをDSDデータに変換する。フェードイン編集部316-1は、編集後のDSDデータをセグメントファイル生成部317-1に供給する。このDSDデータは、セグメント単位のデータであり、セグメント先頭のフェードイン編集された部分だけでなく、それより後のオリジナルデータと共通の部分も含む。 The fade-in editing unit 316-1 performs fade-in editing as described above on the supplied DSD data in units of segments. However, in the DSD data, it is difficult to perform partial digital editing (increase / decrease in sound volume, partial deletion / combination in time, etc.) since past data affects subsequent data. Therefore, the fade-in editing unit 316-1 converts the supplied DSD data into, for example, PCM data (for example, 176.4 kHz 32 bits etc.) that does not impair the sound quality, fades in and edits the obtained PCM data, Convert the edited PCM data into DSD data. The fade-in editing unit 316-1 supplies the DSD data after editing to the segment file generating unit 317-1. This DSD data is data in units of segments, and includes not only the fade-in edited portion at the beginning of the segment but also a portion common to the original data thereafter.
 セグメントファイル生成部317-1は、フェードイン編集部316-1から供給されるDSDデータをセグメント毎にMP4ファイル化する。つまり、このセグメントファイルは、ビットレート#1のフェードインアダプテーションセット122-1のファイルである。セグメントファイル生成部317-1は、生成したセグメントファイルをアップロード部319に供給する。 The segment file generation unit 317-1 converts the DSD data supplied from the fade-in editing unit 316-1 into MP4 files for each segment. That is, this segment file is a file of the fade-in adaptation set 122-1 of bit rate # 1. The segment file generation unit 317-1 supplies the generated segment file to the upload unit 319.
 以上のように、編集データ生成部321-1は、オリジナルのデータに対して例えばフェードイン編集やフェードアウト編集等の所定の編集を施し、その編集後のデータのセグメントファイル(ビットレート#1)を生成する処理部である。 As described above, the editing data generation unit 321-1 applies predetermined editing such as fade-in editing and fade-out editing to the original data, and generates a segment file (bit rate # 1) of the data after the editing. It is a processing unit to generate.
 また、ファイル生成装置301は、符号化部312-2、セグメントファイル生成部313-2、フェードアウト編集部314-2、セグメントファイル生成部315-2、フェードイン編集部316-2、およびセグメントファイル生成部317-2を有する。なお、フェードアウト編集部314-2乃至セグメントファイル生成部317-2をまとめて編集データ生成部321-2とも称する。これらの構成は、ビットレート#2(図21)に関する構成である。 In addition, the file generation device 301 includes an encoding unit 312-2, a segment file generation unit 313-2, a fade-out editing unit 314-2, a segment file generation unit 315-2, a fade-in editing unit 316-2, and a segment file generation. It has a section 317-2. The fade-out editing unit 314-2 to the segment file generating unit 317-2 are collectively referred to as an editing data generating unit 321-2. These configurations relate to bit rate # 2 (FIG. 21).
 符号化部312-2は、符号化部312-1と同様の処理を行い、ビットレート#2のDSDデータを生成する。符号化部312-2は、生成したセグメント単位のDSDデータをセグメントファイル生成部313-2、フェードアウト編集部314-2、およびフェードイン編集部316-2に供給する。 The encoding unit 312-2 performs processing similar to that of the encoding unit 312-1, and generates DSD data of bit rate # 2. The encoding unit 312-2 supplies the generated segment unit DSD data to the segment file generation unit 313-2, the fade-out editing unit 314-2, and the fade-in editing unit 316-2.
 セグメントファイル生成部313-2は、セグメントファイル生成部313-1と同様の処理を行い、ビットレート#2のオリジナルアダプテーションセット121-2のセグメントファイルを生成し、それをアップロード部319に供給する。 The segment file generation unit 313-2 performs processing similar to that of the segment file generation unit 313-1, generates a segment file of the original adaptation set 12-2 of bit rate # 2, and supplies it to the upload unit 319.
 フェードアウト編集部314-2は、フェードアウト編集部314-1と同様の処理を行い、供給されたセグメント単位のDSDデータに対して、上述したようなフェードアウト編集を行う。フェードアウト編集部314-2は、編集後のセグメント単位のDSDデータをセグメントファイル生成部315-2に供給する。 The fade-out editing unit 314-2 performs the same processing as the fade-out editing unit 314-1, and performs the above-described fade-out editing on the supplied DSD data in units of segments. The fade-out editing unit 314-2 supplies the segment file generating unit 315-2 with the DSD data in segment units after editing.
 セグメントファイル生成部315-2は、セグメントファイル生成部315-1と同様の処理を行い、供給されたDSDデータをセグメント毎にMP4ファイル化する。つまり、セグメントファイル生成部315-2は、ビットレート#2のフェードアウトアダプテーションセット123-2のセグメントファイルを生成し、それをアップロード部319に供給する。 The segment file generation unit 315-2 performs the same processing as the segment file generation unit 315-1, and converts the supplied DSD data into MP4 files for each segment. That is, the segment file generation unit 315-2 generates a segment file of the fade-out adaptation set 123-2 of bit rate # 2, and supplies it to the upload unit 319.
 フェードイン編集部316-2は、フェードイン編集部316-1と同様の処理を行い、供給されたセグメント単位のDSDデータに対して、上述したようなフェードイン編集を行う。フェードイン編集部316-2は、編集後のセグメント単位のDSDデータをセグメントファイル生成部317-2に供給する。 The fade-in editing unit 316-2 performs the same processing as the fade-in editing unit 316-1, and performs the above-described fade-in editing on the supplied DSD data in units of segments. The fade-in editing unit 316-2 supplies the segment unit generated DSD data after the editing to the segment file generating unit 317-2.
 セグメントファイル生成部317-2は、セグメントファイル生成部317-1と同様の処理を行い、供給されたDSDデータをセグメント毎にMP4ファイル化する。つまり、セグメントファイル生成部315-2は、ビットレート#2のフェードインアダプテーションセット122-2のセグメントファイルを生成し、それをアップロード部319に供給する。 The segment file generation unit 317-2 performs the same processing as the segment file generation unit 317-1 and converts the supplied DSD data into MP4 files for each segment. That is, the segment file generation unit 315-2 generates a segment file of the fade-in adaptation set 122-2 of bit rate # 2, and supplies it to the upload unit 319.
 以上のように、編集データ生成部321-2は、オリジナルのデータに対して例えばフェードイン編集やフェードアウト編集等の所定の編集を施し、その編集後のデータのセグメントファイル(ビットレート#2)を生成する処理部である。 As described above, the editing data generation unit 321-2 performs predetermined editing such as fade-in editing and fade-out editing on the original data, and generates a segment file (bit rate # 2) of the data after the editing. It is a processing unit to generate.
 以下において、各符号化部を互いに区別して説明する必要が無い場合、符号化部312と称する。また、オリジナルアダプテーションセット121のセグメントファイルを生成する各セグメントファイル生成部を互いに区別して説明する必要が無い場合、セグメントファイル生成部313と称する。また、各フェードアウト編集部を互いに区別して説明する必要が無い場合、フェードアウト編集部314と称する。また、フェードアウトアダプテーションセット123のセグメントファイルを生成する各セグメントファイル生成部を互いに区別して説明する必要が無い場合、セグメントファイル生成部315と称する。また、各フェードイン編集部を互いに区別して説明する必要が無い場合、フェードイン編集部316と称する。また、フェードインアダプテーションセット122のセグメントファイルを生成する各セグメントファイル生成部を互いに区別して説明する必要が無い場合、セグメントファイル生成部317と称する。また、各編集データ生成部を互いに区別して説明する必要が無い場合、編集データ生成部321と称する。 In the following, when it is not necessary to distinguish and explain each encoding unit, it is referred to as an encoding unit 312. In addition, when it is not necessary to distinguish and explain the segment file generation units that generate the segment files of the original adaptation set 121, the segment file generation unit 313 is referred to as “segment file generation unit 313”. In addition, when it is not necessary to distinguish and explain each fade-out editing unit, it is referred to as a fade-out editing unit 314. Also, when it is not necessary to distinguish the respective segment file generation units for generating the segment files of the fade-out adaptation set 123 from each other, they are referred to as a segment file generation unit 315. In addition, when it is not necessary to distinguish and explain each fade-in editing unit, it is referred to as a fade-in editing unit 316. Also, when it is not necessary to distinguish the respective segment file generation units for generating the segment files of the fade-in adaptation set 122 from each other, they are referred to as a segment file generation unit 317. Further, when it is not necessary to distinguish the respective edit data generation units from each other and describe them, they are referred to as an edit data generation unit 321.
 図24に示されるように、符号化部312乃至セグメントファイル生成部317の構成は、用意されるビットレートの数だけ設けられる。配信用のデータとして用意されるビットレートの数は任意である。例えば、3種類のビットレートのデータを配信用のデータとして用意する場合、ファイル生成装置301は、この構成を3組有する。また、例えば、データを配信用のデータとして1種類のビットレートのデータのみが用意される場合、上述した符号化部312-2乃至セグメントファイル生成部317-2の構成を省略することができる。 As shown in FIG. 24, the configurations of the encoding unit 312 to the segment file generation unit 317 are provided as many as the number of bit rates to be prepared. The number of bit rates prepared as data for distribution is arbitrary. For example, when preparing data of three types of bit rates as data for distribution, the file generation device 301 has three sets of this configuration. Also, for example, when only data of one type of bit rate is prepared as data for distribution, the configurations of the encoding unit 312-2 to the segment file generation unit 317 can be omitted.
 また、各編集データ生成部321は、常に(全セグメントに対して)動作する(セグメントファイルを生成する)ようにしてもよいし、再生端末303からビットレート切り替えの要求があった場合のみ動作する(セグメントファイルを生成する)ようにしてもよい。 Each edit data generation unit 321 may operate (for all segments) at all times (generate a segment file), or operate only when the reproduction terminal 303 requests a bit rate switching. (A segment file may be generated).
 さらに、ファイル生成装置301は、MPD生成部318およびアップロード部319を有する。MPD生成部318は、以上の処理部において生成されるセグメントファイルの再生を管理する情報であるMPDを生成する。MPD生成部318は、生成したMPDをアップロード部319に供給する。アップロード部319は、供給されたセグメントファイルやMPDを配信サーバ302にアップロードする。 Furthermore, the file generation device 301 includes an MPD generation unit 318 and an upload unit 319. The MPD generation unit 318 generates an MPD, which is information for managing reproduction of the segment file generated in the above processing unit. The MPD generation unit 318 supplies the generated MPD to the upload unit 319. The upload unit 319 uploads the supplied segment file and MPD to the distribution server 302.
  <音声ファイル生成処理の流れ>
 次に、図25のフローチャートを参照して、このファイル生成装置301が実行する音声ファイル生成処理の流れの例を説明する。
<Flow of audio file generation process>
Next, an example of the flow of the audio file generation process performed by the file generation device 301 will be described with reference to the flowchart of FIG.
 音声ファイル生成処理が開始されると、MPD生成部318は、ステップS101において、MPDファイルを生成する。ステップS102において、アップロード部319は、ステップS101において生成されたMPDファイルを配信サーバ302にアップロードする。 When the audio file generation process is started, the MPD generation unit 318 generates an MPD file in step S101. In step S102, the upload unit 319 uploads the MPD file generated in step S101 to the distribution server 302.
 ステップS103において、取得部311は、オーディオアナログ信号やオーディオデータ等の音声コンテンツを取得し、符号化部312は、複数のビットレートでその音声コンテンツを符号化し、DSDデータ(セグメント)を生成する。ステップS104において、フェードイン編集部316は、各ビットレートについて、フェードイン処理を行う。ステップS105において、フェードアウト編集部314は、各ビットレートについて、フェードアウト処理を行う。 In step S103, the acquisition unit 311 acquires audio content such as an audio analog signal and audio data, and the encoding unit 312 encodes the audio content at a plurality of bit rates to generate DSD data (segments). In step S104, the fade-in editing unit 316 performs fade-in processing for each bit rate. In step S105, the fade-out editing unit 314 performs fade-out processing for each bit rate.
 ステップS106において、セグメントファイル生成部313は、各ビットレートについて、オリジナルアダプテーションセット121のセグメントファイルを生成する。セグメントファイル生成部315は、各ビットレートについて、フェードアウトアダプテーションセット123の、オリジナルデータとの共通部分も含むセグメント全体の、セグメントファイルを生成する。セグメントファイル生成部317は、各ビットレートについて、フェードインアダプテーションセット122の、オリジナルデータとの共通部分も含むセグメント全体の、セグメントファイルを生成する。 In step S106, the segment file generation unit 313 generates a segment file of the original adaptation set 121 for each bit rate. The segment file generation unit 315 generates, for each bit rate, a segment file of the entire segment including the intersection with the original data of the fade-out adaptation set 123. The segment file generation unit 317 generates, for each bit rate, a segment file of the entire segment including the portion common to the original data of the fade-in adaptation set 122.
 ステップS107において、アップロード部319は、ステップS106において生成された各ビットレートのセグメントファイルを配信サーバ302にアップロードする。 In step S107, the upload unit 319 uploads the segment file of each bit rate generated in step S106 to the distribution server 302.
 ステップS108において、取得部311は、音声ファイル生成処理を終了するか否かを判定する。終了せずに次のセグメントについての処理を行うと判定された場合、処理はステップS103に戻り、それ以降の処理を繰り返す。そしてステップS108において、音声ファイル生成処理を当該セグメントで終了すると判定された場合、音声ファイル生成処理が終了する。 In step S108, the acquisition unit 311 determines whether to end the audio file generation process. If it is determined that the process for the next segment is to be performed without ending, the process returns to step S103, and the process thereafter is repeated. Then, in step S108, when it is determined that the audio file generation process is to end in the segment, the audio file generation process is ended.
 以上のように各処理を実行することにより、再生端末においてフェードイン編集やフェードアウト編集等の編集処理を行わずにノイズの発生を抑制することができるので、再生端末の負荷の増大を抑制することができる。 By executing each process as described above, it is possible to suppress the occurrence of noise without performing editing processing such as fade-in editing and fade-out editing on the playback terminal, and therefore, to suppress an increase in load on the playback terminal. Can.
  <再生端末>
 図26は、再生端末303の主な構成例を示すブロック図である。図26に示されるように、再生端末303は、MPD取得部351、MPD処理部352、セグメントファイル取得部353、選択部354、バッファ355、復号部356、および出力制御部357を有する。
<Playback terminal>
FIG. 26 is a block diagram showing a main configuration example of the reproduction terminal 303. As shown in FIG. As shown in FIG. 26, the reproduction terminal 303 has an MPD acquisition unit 351, an MPD processing unit 352, a segment file acquisition unit 353, a selection unit 354, a buffer 355, a decoding unit 356, and an output control unit 357.
 MPD取得部351は、MPDファイルの取得に関する処理を行う。MPD処理部352は、MPD取得部351が取得したMPDファイルに関する処理を行う。 The MPD acquisition unit 351 performs a process related to acquisition of an MPD file. The MPD processing unit 352 performs processing on the MPD file acquired by the MPD acquisition unit 351.
 セグメントファイル取得部353は、コンテンツデータの取得に関する処理を行う。選択部354は、セグメントファイル取得部353が取得するコンテンツデータの選択に関する処理を行う。 The segment file acquisition unit 353 performs processing related to acquisition of content data. The selection unit 354 performs processing regarding selection of content data acquired by the segment file acquisition unit 353.
 例えば、セグメントファイル取得部353は、所定のパラメータに応じたコンテンツデータを取得し、選択部354は、セグメントファイル取得部353を制御し、パラメータの変化に応じて取得するコンテンツデータを切り替える際に、切り替え前のコンテンツデータに所定の編集が行われた編集後のコンテンツデータと、切り替え後のコンテンツデータに所定の編集が行われた編集後のコンテンツデータとを取得させる。このようにすることにより、コンテンツデータ切り替え時のノイズの発生を抑制することができる。また、その際に、コンテンツデータに対する、フェードイン編集やフェードアウト編集等の編集処理を行わずにノイズの発生を抑制することができる。つまり、再生端末303の負荷の増大の抑制を実現することができる。 For example, when the segment file acquisition unit 353 acquires content data according to a predetermined parameter, and the selection unit 354 controls the segment file acquisition unit 353 to switch content data to be acquired according to a change in parameter, The post-editing content data before the switching is subjected to predetermined editing, and the post-editing content data after the predetermined editing is acquired for the post-switching content data. By doing this, it is possible to suppress the generation of noise at the time of content data switching. At this time, it is possible to suppress the occurrence of noise without performing editing processing such as fade-in editing and fade-out editing on the content data. That is, it is possible to realize the suppression of the increase in the load of the reproduction terminal 303.
 なお、セグメントファイル取得部353が、セグメント単位のコンテンツデータを取得し、選択部354が、パラメータの変化に応じて取得するコンテンツデータを切り替える際に、切り替え前のセグメント単位のコンテンツデータに所定の編集が行われたセグメント単位の編集後のコンテンツデータと、切り替え後のセグメント単位のコンテンツデータに所定の編集が行われたセグメント単位の編集後のコンテンツデータとを取得させるようにしてもよい。 When the segment file acquisition unit 353 acquires segment unit content data and the selection unit 354 switches the content data to be acquired according to a change in parameters, the segment data acquisition unit 353 performs predetermined editing on segment unit content data before switching. It is also possible to acquire the content data after the segment unit editing that has been performed, and the segment data after the editing performed for the segment unit content data after the switching.
 また、選択部354が、パラメータの変化に応じて取得するコンテンツデータを切り替える際に、切り替え前のセグメント単位のコンテンツデータの終了までの所定の長さの一部の区間に所定の編集が行われたセグメント単位の編集後のコンテンツデータと、切り替え後のセグメント単位のコンテンツデータの開始から所定の長さの一部の区間に所定の編集が行われたセグメント単位の編集後のコンテンツデータとを取得させるようにしてもよい。 Further, when the selecting unit 354 switches the content data to be acquired according to the change of the parameter, a predetermined editing is performed on a partial section of a predetermined length until the end of the segment unit content data before switching. Acquires the content data after editing in segment units and the content data after editing in segment units for which predetermined editing has been performed in a partial section of a predetermined length from the start of the content data in segment units after switching You may make it
 また、コンテンツデータがオーディオデータとし、選択部354が、パラメータの変化に応じて取得するコンテンツデータを切り替える際に、切り替え前のセグメント単位のコンテンツデータの終了までの所定の長さの一部の区間にフェードアウト編集が行われたセグメント単位の編集後のコンテンツデータと、切り替え後のセグメント単位のコンテンツデータの開始から所定の長さの一部の区間にフェードイン編集が行われたセグメント単位の編集後のコンテンツデータとを取得させるようにしてもよい。 Also, when the content data is audio data, and the selecting unit 354 switches the content data to be acquired according to the change of the parameter, a section of a predetermined length until the end of the content data in units of segments before switching. After the edit in fade-out, the segment data after editing in segment units, and after the start of the content data in segment units after switching, after edit in segment units in which fade-in edit is performed to a partial section of a predetermined length And may be acquired.
 バッファ355は、セグメントファイル取得部353により取得されたセグメントファイル等の記憶に関する処理を行う。復号部356は、セグメントファイルの復号に関する処理を行う。出力制御部357は、復号されたセグメントファイルの出力制御に関する処理を行う。 The buffer 355 performs processing regarding storage of segment files and the like acquired by the segment file acquisition unit 353. The decryption unit 356 performs a process related to the segment file decryption. The output control unit 357 performs processing related to output control of the decoded segment file.
  <再生処理の流れ>
 このような再生端末303により実行される再生処理の流れの例を、図27のフローチャートを参照して説明する。
<Flow of regeneration process>
An example of the flow of reproduction processing executed by such a reproduction terminal 303 will be described with reference to the flowchart in FIG.
 再生処理が開始されると、ステップS151において、選択部354は、最も小さな帯域幅(bandwidth)のオーディオストリームを選択する。ステップS152において、セグメントファイル取得部353は、選択されたbandwidthの所定の時間長のセグメントを取得する。ステップS153において、復号部356は、復号を開始する。 When the reproduction process is started, in step S151, the selection unit 354 selects the audio stream of the smallest bandwidth. In step S152, the segment file acquisition unit 353 acquires a segment of a predetermined time length of the selected bandwidth. In step S153, the decoding unit 356 starts decoding.
 ステップS154において、選択部354は、ネットワーク帯域を検出する。ステップS155において、ネットワーク帯域とbandwidthに基づいて、オーディオストリームのbandwidthを選択する。ステップS156において、選択部354は、オーディオストリームの実際のビットレートを検出する。ステップS157において、セグメントファイル取得部353および選択部354は、bandwidth選択処理を実行する。 In step S154, the selection unit 354 detects a network band. In step S155, the bandwidth of the audio stream is selected based on the network bandwidth and the bandwidth. In step S156, the selection unit 354 detects the actual bit rate of the audio stream. In step S157, the segment file acquisition unit 353 and the selection unit 354 execute a bandwidth selection process.
 ステップS158において、復号部356は、再生を終了するか否かを判定する。再生処理を終了せず、復号を続けると判定された場合、処理はステップS154に戻り、それ以降の処理を繰り返す。ステップS158において、再生を終了すると判定された場合、再生処理が終了する。 In step S158, the decoding unit 356 determines whether to end the reproduction. If it is determined that the decoding process is to be continued without ending the reproduction process, the process returns to step S154 to repeat the subsequent processes. If it is determined in step S158 that the reproduction is to be ended, the reproduction processing is ended.
  <bandwidth選択処理の流れ>
 次に、図27のステップS157において実行されるbandwidth選択処理の流れの例を、図28のフローチャートを参照して説明する。bandwidth選択処理が開始されると、選択部354は、ステップS171において、オーディオストリームのbandwidthを選択し直すか否かを判定する。選択し直すと判定された場合、処理はステップS172に進む。
<Flow of bandwidth selection process>
Next, an example of the flow of the bandwidth selection process executed in step S157 of FIG. 27 will be described with reference to the flowchart of FIG. When the bandwidth selection process is started, in step S171, the selection unit 354 determines whether to reselect the bandwidth of the audio stream. If it is determined to select again, the process proceeds to step S172.
 ステップS172において、セグメントファイル取得部353は、バッファ355の空きが無ければ空くまで待機する。バッファ355に空きが生じると、ステップS173において、セグメントファイル取得部353は、現在選択中のbandwidthの所定の時間長のオーディオフェードアウトセグメントを取得する。 In step S172, if there is no space in the buffer 355, the segment file acquisition unit 353 waits until it is empty. When a space is generated in the buffer 355, in step S173, the segment file acquisition unit 353 acquires an audio fade-out segment of a predetermined time length of the currently selected bandwidth.
 ステップS174において、セグメントファイル取得部353は、バッファ355の空きが無ければ空くまで待機する。バッファ355に空きが生じると、ステップS175において、セグメントファイル取得部353は、変更先として選択されたbandwidthの所定の時間長のオーディオフェードインセグメントを取得する。 In step S174, if there is no space in the buffer 355, the segment file acquisition unit 353 waits until the space is available. When a space is generated in the buffer 355, in step S175, the segment file acquisition unit 353 acquires an audio fade-in segment of a predetermined time length of the bandwidth selected as the change destination.
 ステップS176において、セグメントファイル取得部353は、バッファ355の空きが無ければ空くまで待機する。バッファ355に空きが生じると、ステップS177において、セグメントファイル取得部353は、変更先として選択されたbandwidthの所定の時間長のオリジナルセグメントを取得する。 In step S176, if there is no space in the buffer 355, the segment file acquisition unit 353 waits until the space is available. When a space is generated in the buffer 355, in step S177, the segment file acquisition unit 353 acquires an original segment of a predetermined time length of the bandwidth selected as the change destination.
 ステップS177の処理が終了すると、bandwidth選択処理が終了し、処理は図27に戻る。また、ステップS171において、オーディオストリームのbandwidthを選択し直さないと判定された場合、ステップS172乃至ステップS177の処理を省略して、bandwidth選択処理が終了し、処理は図27に戻る。 When the process of step S177 ends, the bandwidth selection process ends, and the process returns to FIG. If it is determined in step S171 that the bandwidth of the audio stream is not selected again, the processing in steps S172 to S177 is omitted, the bandwidth selection processing ends, and the processing returns to FIG.
 以上のように各処理を実行することにより、コンテンツデータに対するフェードイン編集やフェードアウト編集等の編集処理を行わずに、コンテンツデータ切り替え時のノイズの発生を抑制することができる。つまり、再生端末303の負荷の増大の抑制を実現することができる。 By executing each process as described above, it is possible to suppress the occurrence of noise at the time of content data switching without performing editing processes such as fade-in editing and fade-out editing on content data. That is, it is possible to realize the suppression of the increase in the load of the reproduction terminal 303.
 なお、本実施の形態において説明した本技術を適用することにより、ファイル生成装置301による編集、配信サーバ302による配信制御、再生端末303による再生制御(データ取得制御)等をセグメント単位で行うことができるので、それらの処理の負荷の増大を抑制することができる。 Note that by applying the present technology described in the present embodiment, editing by the file generation apparatus 301, distribution control by the distribution server 302, reproduction control (data acquisition control) by the reproduction terminal 303, etc. can be performed in units of segments. Since it is possible, it is possible to suppress an increase in the load of those processes.
 <2.第2の実施の形態>
  <概要>
 編集後のデータの構成は、例えば、図29に示されるように、編集部分をそれぞれフェードインセグメント、フェードアウトセグメントとして追加作成するようにしてもよい。つまり、編集が行われたセグメントの一部の区間の編集後のコンテンツデータを、編集前のコンテンツデータとは別のファイルとしてファイル化し、配信用のコンテンツデータに追加するようにしてもよい。
<2. Second embodiment>
<Overview>
For example, as shown in FIG. 29, the edited data may be additionally created as fade-in and fade-out segments, as shown in FIG. That is, the content data after editing of a partial section of the edited segment may be filed as a file different from the content data before editing and added to the content data for distribution.
 図29において、サーバは、ビットレート#1のオリジナルアダプテーションセット401-1から、フェードインアダプテーションセット402-1とフェードアウトアダプテーションセット403-1を生成する。 In FIG. 29, the server generates the fade-in adaptation set 402-1 and the fade-out adaptation set 403-1 from the original adaptation set 401-1 of bit rate # 1.
 つまり、例えば、サーバは、オリジナルアダプテーションセット401-1のセグメント404-1-1の先頭(開始)から所定の長さの一部の区間をフェードイン編集してセグメント405-1-1を生成し、セグメント404-1-2の先頭(開始)から所定の長さの一部の区間をフェードイン編集してセグメント405-1-2を生成し、それらをフェードインアダプテーションセット402-1に格納する。また、例えば、サーバは、オリジナルアダプテーションセット401-1のセグメント404-1-1の終端(終了)までの所定の長さの一部の区間をフェードアウト編集してセグメント406-1-1を生成し、セグメント404-1-2の終端(終了)から所定の長さの一部の区間をフェードアウト編集してセグメント406-1-2を生成し、それらをフェードアウトアダプテーションセット403-1に格納する。 That is, for example, the server fades in and edits a partial section of a predetermined length from the beginning (start) of the segment 404-1-1 of the original adaptation set 401-1, and generates the segment 405-1-1. , Fade-in edit a partial section of a predetermined length from the beginning (start) of segment 404-1-2 to generate segment 405-1-2 and store them in fade-in adaptation set 402-1 . Also, for example, the server fades out and edits a partial section of a predetermined length up to the end (end) of the segment 404-1-1 of the original adaptation set 401-1, and generates a segment 406-1-1. Fade out and edit a partial section of a predetermined length from the end (end) of the segment 404-1-2 to generate segments 406-1-2 and store them in the fade-out adaptation set 403-1.
 以下において、オリジナルアダプテーションセット401-1の各セグメントを互いに区別する必要が無い場合、セグメント404-1と称する。また、フェードインアダプテーションセット402-1の各セグメントを互いに区別する必要が無い場合、セグメント405-1と称する。また、フェードアウトアダプテーションセット403-1の各セグメントを互いに区別する必要が無い場合、セグメント406-1と称する。 In the following, when it is not necessary to distinguish each segment of the original adaptation set 401-1, it will be referred to as segment 404-1. Also, when it is not necessary to distinguish the segments of the fade-in adaptation set 402-1, they are referred to as segments 405-1. Also, when it is not necessary to distinguish the segments of fade-out adaptation set 403-1 from each other, they are referred to as segment 406-1.
 オリジナルアダプテーションセット401-1にその他のセグメント404-1が存在する場合、同様にして、各セグメント404-1からフェードインアダプテーションセット402-1のセグメント405-1とフェードアウトアダプテーションセット403-1のセグメント406-1とを生成する。 Similarly, if there are other segments 404-1 in the original adaptation set 401-1, segments 405-1 of fade-in adaptation set 402-1 and segments 406 of fade-out adaptation set 403-1 from each segment 404-1 Generate -1 and
 また、サーバは、ビットレート#2のオリジナルアダプテーションセット401-2から、フェードインアダプテーションセット402-2とフェードアウトアダプテーションセット403-2を生成する。 Also, the server generates a fade-in adaptation set 402-2 and a fade-out adaptation set 403-2 from the original adaptation set 401-2 of bit rate # 2.
 つまり、例えば、サーバは、オリジナルアダプテーションセット401-2のセグメント404-2-1の先頭(開始)から所定の長さの一部の区間をフェードイン編集してセグメント405-2-1を生成し、セグメント404-2-2の先頭(開始)から所定の長さの一部の区間をフェードイン編集してセグメント405-2-2を生成し、それらをフェードインアダプテーションセット402-2に格納する。また、例えば、サーバは、オリジナルアダプテーションセット401-2のセグメント404-2-1の終端(終了)までの所定の長さの一部の区間をフェードアウト編集してセグメント406-2-1を生成し、セグメント404-2-2の終端(終了)から所定の長さの一部の区間をフェードアウト編集してセグメント406-2-2を生成し、それらをフェードアウトアダプテーションセット403-2に格納する。 That is, for example, the server fades in and edits a partial section of a predetermined length from the beginning (start) of the segment 404-2-1 of the original adaptation set 401-2 to generate the segment 405-2-1. , Fade-in edit a partial section of a predetermined length from the beginning (start) of segment 404-2-2 to generate segment 405-2-2 and store them in fade-in adaptation set 402-2 . Also, for example, the server fades out and edits a partial section of a predetermined length up to the end (end) of the segment 404-2-1 of the original adaptation set 401-2 to generate a segment 406-2-1. , And fade-out edit a partial section of a predetermined length from the end (end) of the segment 404-2-2 to generate segments 406-2-2 and store them in the fade-out adaptation set 403-2.
 以下において、オリジナルアダプテーションセット401-2の各セグメントを互いに区別する必要が無い場合、セグメント404-2と称する。また、フェードインアダプテーションセット402-2の各セグメントを互いに区別する必要が無い場合、セグメント405-2と称する。また、フェードアウトアダプテーションセット403-2の各セグメントを互いに区別する必要が無い場合、セグメント406-2と称する。 In the following, when it is not necessary to distinguish each segment of the original adaptation set 401-2, it will be referred to as segment 404-2. Also, when it is not necessary to distinguish each segment of the fade-in adaptation set 402-2, they are referred to as a segment 405-2. Also, when it is not necessary to distinguish each segment of fade-out adaptation set 403-2, they are referred to as segment 406-2.
 オリジナルアダプテーションセット401-2にその他のセグメント404-2が存在する場合、同様にして、各セグメント404-2からフェードインアダプテーションセット402-2のセグメント405-2とフェードアウトアダプテーションセット403-2のセグメント406-2とを生成する。 Similarly, when there are other segments 404-2 in the original adaptation set 401-2, segments 406-2 of fade-in adaptation set 402-2 and segments 406 of fade-out adaptation set 403-2 from each segment 404-2 Generate -2.
 以下において、各ビットレートのオリジナルアダプテーションを互いに区別する必要が無い場合、オリジナルアダプテーションセット401と称する。また、各ビットレートのフェードインアダプテーションを互いに区別する必要が無い場合、フェードインアダプテーションセット402と称する。また、各ビットレートのフェードアウトアダプテーションを互いに区別する必要が無い場合、フェードアウトアダプテーションセット403と称する。 In the following, when it is not necessary to distinguish the original adaptations of each bit rate, they are referred to as an original adaptation set 401. Also, when it is not necessary to distinguish fade in adaptation of each bit rate from each other, it is referred to as fade in adaptation set 402. In addition, when it is not necessary to distinguish fade-out adaptation of each bit rate from each other, it is referred to as fade-out adaptation set 403.
 また、各オリジナルアダプテーションセット401の各セグメントを互いに区別する必要が無い場合、セグメント404と称する。また、各フェードインアダプテーションセット402の各セグメントを互いに区別する必要が無い場合、セグメント405と称する。また、各フェードアウトアダプテーションセット403の各セグメントを互いに区別する必要が無い場合、セグメント406と称する。 Also, when it is not necessary to distinguish each segment of each original adaptation set 401 from each other, it is referred to as segment 404. Also, when it is not necessary to distinguish each segment of each fade-in adaptation set 402, it is referred to as segment 405. Also, when it is not necessary to distinguish each segment of each fade-out adaptation set 403, it is referred to as segment 406.
 その他のビットレートのオリジナルアダプテーションセット401が存在する場合、同様に、それに対応するフェードインアダプテーションセット402(の各セグメント405)と、それに対応するフェードアウトアダプテーションセット403(の各セグメント406)とが生成される。 Similarly, if there is an original adaptation set 401 of another bit rate, (the respective segments 405 of) the fade in adaptation set 402 and its corresponding fade out adaptation set 403 (of the respective segments 406) are similarly generated. Ru.
 また、サーバが、このような編集に対応して、編集後のコンテンツデータの長さを示す情報を含む、編集後のコンテンツデータの再生を管理する情報を、編集前のコンテンツデータの再生を管理する情報とは別のアダプテーションセットとしてMPDを生成するようにしてもよい。例えば、サーバが、図29を参照して説明した編集に対応して、図30に示されるようなMPDを生成するようにしてもよい。図30において、点線411で囲まれる部分がオリジナルアダプテーションセット401に関する記述である。なお、MPEG-DASH規格には、下記の点線412で囲まれる部分や点線413で囲まれる部分に記載のEssentialPropertyエレメントのschemaIdUriの内容を理解できない再生端末は、その親のElement(ここではAdaptationSet)を読み飛ばす規約が存在するので、本技術に対応していない従来の再生端末は、このオリジナルアダプテーションセット401を処理する。 Also, in response to such editing, the server manages reproduction of content data before editing, including information indicating the length of the content data after editing, and manages reproduction of the content data after editing. The MPD may be generated as an adaptation set different from the information to be processed. For example, the server may generate an MPD as shown in FIG. 30 in response to the editing described with reference to FIG. In FIG. 30, a portion surrounded by a dotted line 411 is a description related to the original adaptation set 401. Note that in the MPEG-DASH standard, a playback terminal that can not understand the contents of schemaIdUri of the EssentialProperty element described in the part enclosed by dotted line 412 and the part enclosed by dotted line 413 described below has an Element (here, AdaptationSet) of its parent. Since there is a rule to skip, a conventional playback terminal not compatible with the present technology processes this original adaptation set 401.
 また、点線412で囲まれる部分がフェードインアダプテーションセット402に関する記述である。このアダプテーションセットは、例えば帯域変化によるコンテンツ選択境界の後ろ側で選択されるアダプテーションセットである。このアダプテーションセットには、サーバによって再生開始が無音から徐々に音量が大きくなるように編集された部分(フェードイン部分)のセグメントが格納される。点線412内の上から2行目のEssentialPropertyエレメントのschemaIdUriにより、このアダプテーションセットがフェードインアダプテーションセットであることが示されている。なお、上から2行目のvalue属性により再生時にフェードイン部分セグメントの大きさ(オリジナルセグメントと置き換えるデータの大きさ)を示すようにしてもよい。図30の例では、MP4サンプル10個を置き換えることが示されている(value="10")。 In addition, a portion surrounded by a dotted line 412 is a description regarding the fade in adaptation set 402. This adaptation set is, for example, an adaptation set selected behind the content selection boundary due to a band change. In this adaptation set, a segment of a portion (fade-in portion) edited by the server so that the volume of the playback start gradually increases from silent is stored. The schemaIdUri of the EssentialProperty element in the second line from the top in the dotted line 412 indicates that this adaptation set is a fade in adaptation set. The size of the fade-in partial segment (size of data to be replaced with the original segment) may be indicated during reproduction by the value attribute in the second line from the top. In the example of FIG. 30, it is shown to replace 10 MP4 samples (value = "10").
 点線413で囲まれる部分がフェードアウトアダプテーションセット403に関する記述である。このアダプテーションセットは、例えば帯域変化によるコンテンツ選択境界の前側で選択されるアダプテーションセットである。このアダプテーションセットには、サーバによって再生終了に向けて徐々に音量が小さくなり無音になるように編集された部分(フェードアウト部分)のセグメントが格納される。点線413内の上から2行目のEssentialPropertyエレメントのschemaIdUriにより、このアダプテーションセットがフェードアウトアダプテーションセットであることが示されている。なお、上から2行目のvalue属性により再生時にフェードアウト部分セグメントの大きさ(オリジナルセグメントと置き換えるデータの大きさ)を示すようにしてもよい。図30の例では、MP4サンプル10個を置き換えることが示されている(value="10")。 A portion surrounded by a dotted line 413 is a description regarding the fade out adaptation set 403. The adaptation set is, for example, an adaptation set selected in front of the content selection boundary due to a change in bandwidth. In this adaptation set, a segment of a portion (fade out portion) edited so that the volume gradually decreases toward silence and becomes silent by the server is stored. The schemaIdUri of the EssentialProperty element in the second line from the top in the dotted line 413 indicates that this adaptation set is a fade-out adaptation set. Note that the size of the fade-out partial segment (size of data to be replaced with the original segment) may be indicated during playback by the value attribute in the second row from the top. In the example of FIG. 30, it is shown to replace 10 MP4 samples (value = "10").
 サーバ側において、このような管理情報(MPD)を生成することにより、再生端末側が、その管理情報に従って、編集後のコンテンツデータを用いた再生を行うことができる。したがって、再生端末の負荷の増大を抑制することができる。 By generating such management information (MPD) on the server side, the reproduction terminal side can perform reproduction using the edited content data according to the management information. Therefore, an increase in load on the playback terminal can be suppressed.
  <ファイル生成装置>
 図31は、この場合のファイル生成装置301の主な構成例を示すブロック図である。図31に示されるように、この場合もファイル生成装置301は、第1の実施の形態の場合(図24)と基本的に同様の構成を有する。
<File generation device>
FIG. 31 is a block diagram showing an example of the main configuration of the file generation apparatus 301 in this case. As shown in FIG. 31, also in this case, the file generation device 301 has basically the same configuration as that of the first embodiment (FIG. 24).
 ただし、この場合のファイル生成装置301は、除去部421-1、除去部422-1、除去部421-2、および除去部422-2をさらに有する。なお、フェードアウト編集部314-1乃至セグメントファイル生成部317-1、並びに、除去部421-1および除去部422-2をまとめて編集データ生成部431-1とも称する。これらの構成は、ビットレート#1(図29)に関する構成である。 However, the file generation device 301 in this case further includes a removal unit 421-1, a removal unit 422-1, a removal unit 421-2, and a removal unit 422-2. The fade-out editing unit 314-1 to the segment file generating unit 317-1 and the removing unit 421-1 and the removing unit 422-2 are collectively referred to as an editing data generating unit 431-1. These configurations relate to bit rate # 1 (FIG. 29).
 除去部421-1は、フェードアウト編集部314-1から供給されるDSDデータから処理対象セグメントのフェードアウト編集が行われていない部分(つまり、オリジナルのデータと重複する部分)を除去する。換言するに、除去部421-1は、残りの部分、すなわち、フェードアウト編集が行われた部分のDSDデータをセグメントとして生成する。その際、除去部421-1は、供給されたDSDデータを、例えばその音質を損なわない程度のPCMデータ(例えば176.4kHz 32bitなど)に変換し、得られたPCMデータからフェードアウト編集が行われていない部分を除去し、残りのPCMデータをDSDデータに変換する。 The removing unit 421-1 removes a portion (that is, a portion overlapping with the original data) in which the fade-out editing of the processing target segment is not performed from the DSD data supplied from the fade-out editing unit 314-1. In other words, the removing unit 421-1 generates, as a segment, DSD data of the remaining part, that is, the part subjected to fade-out editing. At that time, the removing unit 421-1 converts the supplied DSD data into, for example, PCM data (for example, 176.4 kHz 32 bits etc.) that does not impair the sound quality, and fade-out editing is performed from the obtained PCM data Remove the missing part and convert the remaining PCM data to DSD data.
 なお、フェードアウト編集部314-1が編集後のデータをPCMデータのまま除去部421-1に供給するようにしてもよい。その場合、除去部421-1は、供給されたPCMデータからフェードアウト編集が行われていない部分を除去し、残りのPCMデータをDSDデータに変換する。 The fade-out editing unit 314-1 may supply the edited data as it is to the removing unit 421-1 as the PCM data. In that case, the removing unit 421-1 removes a portion where fade-out editing is not performed from the supplied PCM data, and converts the remaining PCM data into DSD data.
 除去部421-1は、フェードアウト編集が行われた部分のDSDデータ(セグメント)をセグメントファイル生成部315-1に供給する。セグメントファイル生成部315-1は、そのフェードアウト編集が行われた部分のDSDデータをセグメントファイル化する。 The removing unit 421-1 supplies the DSD data (segment) of the portion subjected to fade-out editing to the segment file generating unit 315-1. The segment file generation unit 315-1 segments the DSD data of the portion subjected to the fade-out editing.
 除去部422-1は、フェードイン編集部316-1から供給されるDSDデータから処理対象セグメントのフェードイン編集が行われていない部分(つまり、オリジナルのデータと重複する部分)を除去する。換言するに、除去部422-1は、残りの部分、すなわち、フェードイン編集が行われた部分のDSDデータをセグメントとして生成する。その際、除去部422-1は、供給されたDSDデータを、例えばその音質を損なわない程度のPCMデータ(例えば176.4kHz 32bitなど)に変換し、得られたPCMデータからフェードイン編集が行われていない部分を除去し、残りのPCMデータをDSDデータに変換する。 The removing unit 422-1 removes a portion in which fade-in editing of the processing target segment is not performed (that is, a portion overlapping with the original data) from the DSD data supplied from the fade-in editing unit 316-1. In other words, the removing unit 422-1 generates, as a segment, DSD data of the remaining part, that is, the part where fade-in editing has been performed. At that time, the removing unit 422-1 converts the supplied DSD data into, for example, PCM data (for example, 176.4 kHz 32 bits etc.) that does not impair the sound quality, and fade-in editing is performed from the obtained PCM data. Remove the missing parts and convert the remaining PCM data into DSD data.
 なお、フェードイン編集部316-1が編集後のデータをPCMデータのまま除去部422-1に供給するようにしてもよい。その場合、除去部422-1は、供給されたPCMデータからフェードイン編集が行われていない部分を除去し、残りのPCMデータをDSDデータに変換する。 The fade-in editing unit 316-1 may supply the edited data as it is to the removing unit 422-1 as the PCM data. In that case, the removing unit 422-1 removes the portion where the fade-in editing is not performed from the supplied PCM data, and converts the remaining PCM data into DSD data.
 除去部422-1は、フェードイン編集が行われた部分のDSDデータ(セグメント)をセグメントファイル生成部317-1に供給する。セグメントファイル生成部317-1は、そのフェードイン編集が行われた部分のDSDデータをセグメントファイル化する。 The removing unit 422-1 supplies the DSD data (segment) of the portion subjected to fade-in editing to the segment file generating unit 317-1. The segment file generation unit 317-1 segments the DSD data of the portion subjected to the fade-in editing.
 以上のように、編集データ生成部431-1は、オリジナルのデータに対して例えばフェードイン編集やフェードアウト編集等の所定の編集を施し、その編集された部分のデータのセグメントファイル(ビットレート#1)を生成する処理部である。 As described above, the editing data generation unit 431-1 subjects the original data to predetermined editing such as fade-in editing and fade-out editing, and the segment file of the data of the edited portion (bit rate # 1 ) Processing unit.
 また、フェードアウト編集部314-2乃至セグメントファイル生成部317-2、並びに、除去部421-2および除去部422-2をまとめて編集データ生成部431-2とも称する。これらの構成は、ビットレート#2(図29)に関する構成である。 Further, the fade-out editing unit 314-2 to the segment file generating unit 317-2, and the removing unit 421-2 and the removing unit 422-2 are collectively referred to as an editing data generating unit 431-2. These configurations relate to bit rate # 2 (FIG. 29).
 除去部421-2は、除去部421-1と同様の処理を行い、フェードアウト編集部314-2から供給されるDSDデータから処理対象セグメントのフェードアウト編集が行われていない部分を除去する。換言するに、除去部421-2は、フェードアウト編集が行われた部分のDSDデータをセグメントとして生成する。除去部421-2は、フェードアウト編集が行われた部分のDSDデータ(セグメント)をセグメントファイル生成部315-2に供給する。セグメントファイル生成部315-2は、そのフェードアウト編集が行われた部分のDSDデータをセグメントファイル化する。 The removing unit 421-2 performs the same process as the removing unit 421-1, and removes a portion of the DSD data supplied from the fade-out editing unit 314-2 in which the fade-out editing of the processing target segment is not performed. In other words, the removing unit 421-2 generates, as a segment, DSD data of a portion subjected to fade-out editing. The removing unit 421-2 supplies the DSD data (segment) of the portion subjected to fade-out editing to the segment file generating unit 315-2. The segment file generation unit 315-2 segments the DSD data of the portion subjected to the fade-out editing.
 除去部422-2は、除去部422-1と同様の処理を行い、フェードイン編集部316-2から供給されるDSDデータから処理対象セグメントのフェードイン編集が行われていない部分を除去する。換言するに、除去部422-2は、フェードイン編集が行われた部分のDSDデータをセグメントとして生成する。除去部422-2は、フェードイン編集が行われた部分のDSDデータ(セグメント)をセグメントファイル生成部317-2に供給する。セグメントファイル生成部317-2は、そのフェードイン編集が行われた部分のDSDデータをセグメントファイル化する。 The removing unit 422-2 performs the same processing as that of the removing unit 422-1, and removes, from the DSD data supplied from the fade-in editing unit 316-2, a portion in which the fade-in editing of the processing target segment is not performed. In other words, the removing unit 422-2 generates, as a segment, DSD data of a portion subjected to fade-in editing. The removing unit 422-2 supplies the DSD data (segment) of the portion subjected to fade-in editing to the segment file generating unit 317-2. The segment file generation unit 317-2 segments the DSD data of the portion subjected to the fade-in editing.
 以上のように、編集データ生成部431-2は、オリジナルのデータに対して例えばフェードイン編集やフェードアウト編集等の所定の編集を施し、その編集された部分のデータのセグメントファイル(ビットレート#2)を生成する処理部である。 As described above, the editing data generation unit 431-2 subjects the original data to predetermined editing such as fade-in editing and fade-out editing, and the segment file of data of the edited portion (bit rate # 2 ) Processing unit.
 以下において、フェードアウト編集後のデータに対して処理を行う各除去部を互いに区別して説明する必要が無い場合、除去部421と称する。また、フェードイン編集後のデータに対して処理を行う各除去部を互いに区別して説明する必要が無い場合、除去部422と称する。また、各編集データ生成部を互いに区別して説明する必要が無い場合、編集データ生成部431と称する。 In the following, when it is not necessary to distinguish the respective removal units that perform processing on data after fade-out editing from each other, they are referred to as a removal unit 421. In addition, when it is not necessary to distinguish the respective removal units that perform processing on data after fade-in editing from each other, they are referred to as a removal unit 422. In addition, when it is not necessary to distinguish and explain the respective edit data generation units, the edit data generation unit 431 is referred to.
 図31に示されるように、符号化部312乃至セグメントファイル生成部317、並びに、除去部421および除去部422の構成は、用意されるビットレートの数だけ設けられる。配信用のデータとして用意されるビットレートの数は任意である。また、各編集データ生成部431は、常に(全セグメントに対して)動作する(セグメントファイルを生成する)ようにしてもよいし、再生端末303からビットレート切り替えの要求があった場合のみ動作する(セグメントファイルを生成する)ようにしてもよい。 As shown in FIG. 31, the configurations of the encoding unit 312 to the segment file generation unit 317, and the removing unit 421 and the removing unit 422 are provided as many as the number of bit rates to be prepared. The number of bit rates prepared as data for distribution is arbitrary. Further, each edit data generation unit 431 may operate (for all segments) at all times (generate a segment file), or operate only when there is a request for bit rate switching from the playback terminal 303. (A segment file may be generated).
  <音声ファイル生成処理の流れ>
 次に、図32のフローチャートを参照して、このファイル生成装置301が実行する音声ファイル生成処理の流れの例を説明する。この場合も音声ファイル生成処理は、第1の実施の形態の場合(図25)と基本的に同様の流れで行われる。
<Flow of audio file generation process>
Next, an example of the flow of the audio file generation process executed by the file generation device 301 will be described with reference to the flowchart of FIG. Also in this case, the audio file generation processing is basically performed in the same flow as in the case of the first embodiment (FIG. 25).
 すなわち、図32のステップS201乃至ステップS205の各処理は、図25のステップS101乃至ステップS105の各処理と同様に実行される。ただし、ステップS201において、MPD生成部318は、図30を参照して説明したように、フェードイン編集またはフェードアウト編集されたセグメントについて、その長さを示す情報を記述することができる。 That is, each process of step S201 to step S205 of FIG. 32 is performed similarly to each process of step S101 to step S105 of FIG. However, in step S201, as described with reference to FIG. 30, the MPD generation unit 318 can describe information indicating the length of a fade-in edited or fade-out edited segment.
 ステップS206において、除去部421および除去部422は、フェード処理(フェードイン処理またはフェードアウト処理)した音声コンテンツのフェード編集(フェードイン編集またはフェードアウト編集)した部分以外を除去する。つまり、オリジナルデータと重複する部分が除去される。ステップS206の処理が終了すると処理はステップS207に進む。 In step S206, the removing unit 421 and the removing unit 422 remove the portion other than the fade-edited (fade-in or fade-out) portion of the audio content that has been subjected to the fade processing (fade-in or fade-out). That is, the part overlapping with the original data is removed. When the process of step S206 ends, the process proceeds to step S207.
 ステップS207乃至ステップS209の各処理は、図25のステップS106乃至ステップS108の各処理と同様に実行される。そして、ステップS209において、終了せずに次のセグメントについての処理を行うと判定された場合、処理はステップS203に戻り、それ以降の処理を繰り返す。また、ステップS209において、音声ファイル生成処理を当該セグメントで終了すると判定された場合、音声ファイル生成処理が終了する。 The processes of steps S207 to S209 are performed in the same manner as the processes of steps S106 to S108 of FIG. Then, if it is determined in step S209 that processing for the next segment is to be performed without ending, the processing returns to step S203, and the subsequent processing is repeated. Also, if it is determined in step S209 that the audio file generation process is to end at the segment, the audio file generation process ends.
 以上のように各処理を実行することにより、再生端末においてフェードイン編集やフェードアウト編集等の編集処理を行わずにノイズの発生を抑制することができるので、再生端末の負荷の増大を抑制することができる。 By executing each process as described above, it is possible to suppress the occurrence of noise without performing editing processing such as fade-in editing and fade-out editing on the playback terminal, and therefore, to suppress an increase in load on the playback terminal. Can.
  <再生端末>
 図33は、この場合の再生端末303の主な構成例を示すブロック図である。図33に示されるように、この場合の再生端末303も基本的に第1の実施の形態の場合(図26)と同様の構成を有する。ただし、この場合、再生端末303は、フェード編集部分セグメント差替部451を有する。
<Playback terminal>
FIG. 33 is a block diagram showing a main configuration example of the reproduction terminal 303 in this case. As shown in FIG. 33, the reproduction terminal 303 in this case basically has the same configuration as that of the first embodiment (FIG. 26). However, in this case, the reproduction terminal 303 includes the fade editing partial segment replacing unit 451.
 フェード編集部分セグメント差替部451は、フェードイン編集またはフェードアウト編集された部分のセグメントを、オリジナルデータのセグメントと差し替える処理を行う。 The fade editing partial segment replacing unit 451 performs processing of replacing the fade-in edited or fade-out edited segment with a segment of the original data.
  <bandwidth選択処理の流れ>
 この場合の再生端末303により実行される再生処理は、第1の実施の形態の場合(図27)と同様であるのでその説明を省略する。この場合の、図27のステップS157において実行されるbandwidth選択処理の流れの例を、図34のフローチャートを参照して説明する。
<Flow of bandwidth selection process>
The reproduction process executed by the reproduction terminal 303 in this case is the same as that in the case of the first embodiment (FIG. 27), and thus the description thereof is omitted. An example of the flow of the bandwidth selection process executed in step S157 of FIG. 27 in this case will be described with reference to the flowchart of FIG.
 bandwidth選択処理が開始されると、選択部354は、ステップS251において、オーディオストリームのbandwidthを選択し直すか否かを判定する。選択し直すと判定された場合、処理はステップS252に進む。 When the bandwidth selection process is started, in step S251, the selection unit 354 determines whether to reselect the bandwidth of the audio stream. If it is determined to select again, the process proceeds to step S252.
 ステップS252において、セグメントファイル取得部353は、バッファ355の空きが無ければ空くまで待機する。バッファ355に空きが生じると、ステップS253において、セグメントファイル取得部353は、現在選択中のbandwidthの所定の時間長のオーディオオリジナルセグメントを取得する。ステップS254において、セグメントファイル取得部353は、現在選択中のbandwidthのオーディオフェードアウト部分セグメントを取得する。 In step S252, if there is no space in the buffer 355, the segment file acquisition unit 353 waits until the space is available. When a space is generated in the buffer 355, in step S253, the segment file acquisition unit 353 acquires an audio original segment of a predetermined time length of the currently selected bandwidth. In step S254, the segment file acquisition unit 353 acquires an audio fade-out partial segment of the currently selected bandwidth.
 ステップS255において、フェード編集部分セグメント差替部451は、取得したオーディオオリジナルセグメントの末尾をオーディオフェードアウト部分セグメントのMP4サンプルと置き換える。すなわち、フェードアウト編集された部分を、オリジナルデータから編集後のデータに置き換える。 In step S255, the fade editing partial segment replacing unit 451 replaces the end of the acquired audio original segment with the MP4 sample of the audio fade out partial segment. That is, the fade-out edited part is replaced with the edited data from the original data.
 ステップS256において、セグメントファイル取得部353は、バッファ355の空きが無ければ空くまで待機する。バッファ355に空きが生じると、ステップS257において、セグメントファイル取得部353は、変更先として選択されたbandwidthの所定の時間長のオーディオオリジナルセグメントを取得する。 In step S256, if there is no space in the buffer 355, the segment file acquisition unit 353 waits until the space is available. When a space is generated in the buffer 355, in step S257, the segment file acquisition unit 353 acquires an audio original segment of a predetermined time length of the bandwidth selected as the change destination.
 ステップS258において、セグメントファイル取得部353は、変更先として選択されたbandwidthのオーディオフェードイン部分セグメントを取得する。 In step S258, the segment file acquisition unit 353 acquires the audio fade-in partial segment of the bandwidth selected as the change destination.
 ステップS259において、フェード編集部分セグメント差替部451は、取得した変更先オーディオオリジナルセグメントの先頭をオーディオフェードイン部分セグメントのMP4サンプルと置き換える。すなわち、フェードイン編集された部分を、オリジナルデータから編集後のデータに置き換える。 In step S259, the fade editing partial segment replacing unit 451 replaces the head of the acquired change destination audio original segment with the MP4 sample of the audio fade in partial segment. That is, the faded-in edited part is replaced with the edited data from the original data.
 ステップS259の処理が終了すると、bandwidth選択処理が終了し、処理は図27に戻る。また、ステップS251において、オーディオストリームのbandwidthを選択し直さないと判定された場合、ステップS252乃至ステップS259の処理を省略して、bandwidth選択処理が終了し、処理は図27に戻る。 When the process of step S259 ends, the bandwidth selection process ends, and the process returns to FIG. If it is determined in step S251 that the bandwidth of the audio stream is not selected again, the processing in steps S252 to S259 is omitted, the bandwidth selection processing ends, and the processing returns to FIG.
 以上のように各処理を実行することにより、コンテンツデータに対するフェードイン編集やフェードアウト編集等の編集処理を行わずに、コンテンツデータ切り替え時のノイズの発生を抑制することができる。つまり、再生端末303の負荷の増大の抑制を実現することができる。 By executing each process as described above, it is possible to suppress the occurrence of noise at the time of content data switching without performing editing processes such as fade-in editing and fade-out editing on content data. That is, it is possible to realize the suppression of the increase in the load of the reproduction terminal 303.
 なお、本実施の形態において説明した本技術を適用することにより、オリジナルデータと編集後のデータとの重複を抑制することができるので、データ量の増大を抑制することができる。なお、この場合の編集後のデータ(セグメントサイズ)は小さい(再生時間が短い)ので、編集後のデータの置き換えに要する負荷は低い。また、第1の実施の形態の場合と同様に、再生端末303からの要求発生時のみ、上述のフェード編集(フェードイン編集またはフェードアウト編集)を行うようにすることにより、配信用のコンテンツデータのデータ量の増大をより抑制することができる。 Note that by applying the present technology described in the present embodiment, duplication of original data and edited data can be suppressed, and therefore, an increase in the amount of data can be suppressed. In this case, since the post-edit data (segment size) is small (the playback time is short), the load required to replace the post-edit data is low. Further, as in the case of the first embodiment, the above-mentioned fade editing (fade-in editing or fade-out editing) is performed only when a request from the reproduction terminal 303 occurs, thereby making it possible to distribute content data. An increase in the amount of data can be further suppressed.
 <3.第3の実施の形態>
  <概要>
 編集後のデータの構成は、例えば、図35に示されるように、編集後のデータと編集前のオリジナルデータとを1つのデータにまとめるようにしてもよい。つまり、編集が行われたセグメントの一部の区間の編集後のコンテンツデータを、編集前のコンテンツデータとともに1つのファイルとしてファイル化し、配信用のコンテンツデータに追加するようにしてもよい。
<3. Third embodiment>
<Overview>
For example, as shown in FIG. 35, the configuration of the data after editing may be such that the data after editing and the original data before editing may be combined into one data. That is, the content data after editing of a partial section of the edited segment may be filed as one file together with the content data before editing and added to the content data for distribution.
 例えば、通常トラック、フェードイントラック、フェードアウトトラックを含むセグメントを作成するようにする。この方法は第1の実施の形態において説明した方法でフェードアウトデータとフェードインデータを含む3つのオーディオデータから3つのセグメントを作成したのに対し、これらを1つのセグメントファイルにまとめる方法である。ただし、MP4ファイルのオーディオデータ参照構造を工夫することにより共通部分はセグメント内に重複記録されない。1本のオーディオデータは1つのアダプテーションとして表され、ビットレート違いのセグメントはそれぞれレプレゼンテーションとして表される。 For example, a segment including a normal track, a fade-in track, and a fade-out track is created. In this method, three segments are created from three audio data including fade-out data and fade-in data in the method described in the first embodiment, but these are combined into one segment file. However, by devising the audio data reference structure of the MP4 file, the common part is not redundantly recorded in the segment. One piece of audio data is represented as one adaptation, and segments with different bit rates are each represented as a presentation.
 例えば、図35において、ビットレート#1について、オリジナルデータ511-1-1の先頭の一部の区間である区間511Aに対してフェードイン編集が行われて生成されたデータがフェードイン部分データ512-1-1である。また、オリジナルデータ511-1-1の末尾の一部の区間である区間511Cに対してフェードアウト編集が行われて生成されたデータがフェードアウト部分データ513-1-1である。つまり、フェードイン部分データ512-1-1は、区間511Aに対応する部分のみであり、フェードイン編集が行われていない区間511Bや区間511Cは含まれない。同様に、フェードアウト部分データ513-1-1は、区間511Cに対応する部分のみであり、フェードアウト編集が行われていない区間511Aや区間511Bは含まれない。また、これらのデータ(オリジナルデータ511-1-1、フェードイン部分データ512-1-1、フェードアウト部分データ513-1-1)は、1つのセグメント502-1としてまとめられる。 For example, in FIG. 35, for bit rate # 1, data generated by performing fade-in editing on section 511A, which is a partial section at the beginning of original data 511-1-1, is fade-in partial data 512. -1-1. Also, data generated by performing fade-out editing on a section 511 C which is a partial section at the end of the original data 511-1-1 is fade-out partial data 513-1-1. That is, the fade-in partial data 512-1-1 is only a portion corresponding to the section 511A, and does not include the sections 511B and 511C in which the fade-in editing is not performed. Similarly, fade-out partial data 513-1 1 is only a portion corresponding to the section 511 C, and does not include the sections 511 A and 511 B in which the fade-out editing is not performed. Also, these data (original data 511-1-1, fade-in partial data 512-1-1, fade-out partial data 513-1-1) are put together as one segment 502-1.
 同様に、オリジナルデータ511-1-2の区間511Aに対してフェードイン編集が行われて生成されたデータがフェードイン部分データ512-1-2であり、区間511Cに対してフェードアウト編集が行われて生成されたデータがフェードアウト部分データ513-1-2である。また、これらのデータ(オリジナルデータ511-1-2、フェードイン部分データ512-1-2、フェードアウト部分データ513-1-2)は、1つのセグメント502-2としてまとめられる。 Similarly, fade-in partial data 512-1-2 is generated by performing fade-in editing on section 511A of original data 511-1-2, and fade-out editing is performed on section 511C. The generated data is fade-out partial data 513-1-2. Also, these data (original data 511-1-2, fade-in partial data 512-1-2, fade-out partial data 513-1-2) are put together as one segment 502-2.
 同様に、ビットレート#2について、オリジナルデータ511-2-1の区間511Aに対してフェードイン編集が行われて生成されたデータがフェードイン部分データ512-2-1であり、区間511Cに対してフェードアウト編集が行われて生成されたデータがフェードアウト部分データ513-2-1である。また、これらのデータ(オリジナルデータ511-2-1、フェードイン部分データ512-2-1、フェードアウト部分データ513-2-1)は、1つのセグメント503-1としてまとめられる。 Similarly, for bit rate # 2, data generated by performing fade-in editing on section 511A of original data 511-2-1 is fade-in partial data 512-2-1, and for section 511C. The data generated by performing fade-out editing is fade-out partial data 513-2-1. Also, these data (original data 511-2-1, fade-in partial data 512-2-1, fade-out partial data 513-2-1) are put together as one segment 503-1.
 同様に、オリジナルデータ511-2-2の区間511Aに対してフェードイン編集が行われて生成されたデータがフェードイン部分データ512-2-2であり、区間511Cに対してフェードアウト編集が行われて生成されたデータがフェードアウト部分データ513-2-2である。また、これらのデータ(オリジナルデータ511-2-2、フェードイン部分データ512-2-2、フェードアウト部分データ513-2-2)は、1つのセグメント503-2としてまとめられる。 Similarly, fade-in partial data 512-2-2 is generated by performing fade-in editing on section 511A of original data 511-2-2, and fade-out editing is performed on section 511C. The data thus generated is fade-out partial data 513-2-2. Also, these data (original data 511-2-2, fade-in partial data 512-2-2, fade-out partial data 513-2-2) are put together as one segment 503-2.
 つまり、MPDにおいては、これらの全てのデータが1つのアダプテーションセット501として表される。そして、ビットレート#1の各データがレプレゼンテーション504-1として表され、ビットレート#2の各データがレプレゼンテーション504-2として表される。ビットレート#1について、オリジナルデータは、サブレプレゼンテーション505-1-1として表され、フェードイン部分データは、サブレプレゼンテーション505-2-1として表され、フェードアウト部分データは、サブレプレゼンテーション505-3-1として表される。また、ビットレート#2について、オリジナルデータは、サブレプレゼンテーション505-1-2として表され、フェードイン部分データは、サブレプレゼンテーション505-2-2として表され、フェードアウト部分データは、サブレプレゼンテーション505-3-2として表される。 That is, in the MPD, all these data are represented as one adaptation set 501. Then, each data of bit rate # 1 is represented as a representation 504-1, and each data of bit rate # 2 is represented as a representation 504-2. For bit rate # 1, the original data is represented as sub-representation 505-1-1, the fade-in partial data is represented as sub-representation 505-2-1, and the fade-out partial data is represented as sub-representation 505-3-1. It is represented as Also, for bit rate # 2, the original data is represented as sub-representation 505-1-2, the fade-in partial data is represented as sub-representation 505-2-2, and the fade-out partial data is represented as sub-representation 505-3. It is expressed as -2.
 なお、以下において、ビットレート#1の各オリジナルデータを互いに区別して説明する必要が無い場合、オリジナルデータ511-1と称する。同様に、ビットレート#1の各フェードイン部分データを互いに区別して説明する必要が無い場合、フェードイン部分データ512-1と称する。同様に、ビットレート#1の各フェードアウト部分データを互いに区別して説明する必要が無い場合、フェードアウト部分データ513-1と称する。 In the following, each original data of bit rate # 1 is referred to as original data 511-1 when it is not necessary to distinguish them from each other. Similarly, when it is not necessary to distinguish and explain each fade-in partial data of bit rate # 1, it is referred to as fade-in partial data 512-1. Similarly, when it is not necessary to distinguish and explain each fade-out partial data of bit rate # 1, it is referred to as fade-out partial data 513-1.
 同様に、ビットレート#2の各オリジナルデータを互いに区別して説明する必要が無い場合、オリジナルデータ511-2と称する。同様に、ビットレート#2の各フェードイン部分データを互いに区別して説明する必要が無い場合、フェードイン部分データ512-2と称する。同様に、ビットレート#2の各フェードアウト部分データを互いに区別して説明する必要が無い場合、フェードアウト部分データ513-2と称する。 Similarly, when it is not necessary to distinguish and explain each original data of bit rate # 2, it is referred to as original data 511-2. Similarly, when the fade-in partial data of the bit rate # 2 need not be distinguished from one another, they are referred to as fade-in partial data 512-2. Similarly, when it is not necessary to distinguish and explain the fade-out partial data of bit rate # 2, they are referred to as fade-out partial data 513-2.
 なお、各ビットレートの各オリジナルデータを互いに区別して説明する必要が無い場合、オリジナルデータ511と称する。同様に、各ビットレートの各フェードイン部分データを互いに区別して説明する必要が無い場合、フェードイン部分データ512と称する。同様に、各ビットレートの各フェードアウト部分データを互いに区別して説明する必要が無い場合、フェードアウト部分データ513と称する。 When it is not necessary to distinguish and explain each original data of each bit rate, it is referred to as original data 511. Similarly, when it is not necessary to distinguish and explain each fade-in partial data of each bit rate, it is referred to as fade-in partial data 512. Similarly, when it is not necessary to distinguish and explain each fade-out partial data of each bit rate, it is referred to as fade-out partial data 513.
 また、ビットレート#1の各セグメントを互いに区別して説明する必要が無い場合、セグメント502と称する。同様にビットレート#2の各セグメントを互いに区別して説明する必要が無い場合、セグメント503と称する。また、各ビットレートのレプレゼンテーションを互いに区別して説明する必要が無い場合、レプレゼンテーション504と称する。 Also, when it is not necessary to distinguish and explain the segments of bit rate # 1, they are referred to as segments 502. Similarly, when the segments of bit rate # 2 need not be distinguished from one another, they are referred to as segments 503. In addition, when it is not necessary to distinguish and explain the representations of each bit rate, they are referred to as a representation 504.
 また、各ビットレートのオリジナルデータ511の情報が格納されるサブレプレゼンテーションを互いに区別して説明する必要が無い場合、サブレプレゼンテーション505-1と称する。同様に、各ビットレートのフェードイン部分データ512の情報が格納されるサブレプレゼンテーションを互いに区別して説明する必要が無い場合、サブレプレゼンテーション505-2と称する。同様に、各ビットレートのフェードアウト部分データ513の情報が格納されるサブレプレゼンテーションを互いに区別して説明する必要が無い場合、サブレプレゼンテーション505-3と称する。なお、各サブレプレゼンテーションを互いに区別して説明する必要が無い場合、サブリプレゼンテーション505と称する。 Further, when it is not necessary to distinguish and describe the sub-representations in which the information of the original data 511 of each bit rate is stored, it is referred to as a sub-representation 505-1. Similarly, when it is not necessary to distinguish and describe sub-representations in which information of fade-in partial data 512 of each bit rate is stored, it is referred to as sub-representation 505-2. Similarly, when it is not necessary to distinguish and describe sub-representations in which information of fade-out partial data 513 of each bit rate is stored, it is referred to as sub-representation 505-3. Note that when there is no need to distinguish and explain each sub-representation, it is referred to as a sub-representation 505.
 共通部分を重複記録しないために、MP4サンプル化されたオーディオデータは、図36に示されるように5つの部分に分けられる。すなわち、フェードイン部分データ(fi)512、フェードアウト部分データ(fo)513、オリジナルデータ511のフェードイン編集部分に対応するデータ(orga)511A、フェード編集されないデータ(orgb)511B、フェードアウト編集部分に対応するデータ(orgc)511Cの5つである。第2の実施の形態において説明したのと同様で、フェード編集される部分は複数MP4サンプルになってもよい。これら5つのデータをMP4サンプル格納用boxであるmdatに記録する。この5つのデータのうち3つをオリジナル、フェードアウト、フェードインの各トラックから参照することにより、それぞれのトラックを構成することで重複データの記録を抑制することができる(データ量の増大を抑制することができる)。 In order not to redundantly record the common part, the MP4 sampled audio data is divided into five parts as shown in FIG. That is, fade-in partial data (fi) 512, fade-out partial data (fo) 513, data (org a ) 511A corresponding to the fade-in edit portion of the original data 511, data not to be fade-edited (org b ) 511 B, fade-out edit portion There are five corresponding data (org c ) 511C. As described in the second embodiment, the portion to be fade-edited may be a plurality of MP4 samples. These five data are recorded in mdat which is a box for storing MP4 samples. By referring to three of the five data from the original, fade-out, and fade-in tracks, it is possible to suppress overlapping data recording by configuring each track (suppressing an increase in the amount of data) be able to).
 つまり、例えば、オリジナルトラックを参照する場合、データ(orga)511A、データ(orgb)511B、データ(orgc)511Cが参照される(矢印531)。また、例えば、フェードイントラックを参照する場合、フェードイン部分データ(fi)512、データ(orgb)511B、データ(orgc)511Cが参照される(矢印532、矢印534)。さらに、例えば、フェードアウトトラックを参照する場合、データ(orga)511Aおよびデータ(orgb)511B、並びに、フェードアウト部分データ(fo)513が参照される(矢印535、矢印536)。 That is, for example, when referring to the original track, data (org a ) 511A, data (org b ) 511B, and data (org c ) 511C are referred to (arrow 531). Also, for example, when referring to a fade-in track, fade-in partial data (fi) 512, data (org b ) 511B, and data (org c ) 511C are referred to (arrow 532, arrow 534). Furthermore, for example, when referring to a fade-out track, data (org a ) 511A and data (org b ) 511B, and fade-out partial data (fo) 513 are referenced (arrow 535, arrow 536).
 編集後のコンテンツデータの再生を管理する情報と、編集前のコンテンツデータの再生を管理する情報とを1つのアダプテーションセットとしてMPDを生成するようにしてもよい。例えば、サーバが、図35を参照して説明した編集に対応して、図36に示されるようなMPDを生成するようにしてもよい。図36において、点線541で囲まれる部分が1つのアダプテーションセット501に関する記述である。また、点線542で囲まれる部分がレプレゼンテーション504-1に関する記述であり、点線543で囲まれる部分がレプレゼンテーション504-2に関する記述である。そして、レプレゼンテーション504-1について、点線544で囲まれる部分はサブレプレゼンテーション505-1-1に関する記述であり、点線545で囲まれる部分はサブレプレゼンテーション505-2-1に関する記述であり、点線546で囲まれる部分はサブレプレゼンテーション505-3-1に関する記述である。 The information for managing the reproduction of the content data after editing and the information for managing the reproduction of the content data before editing may be generated as one adaptation set to generate the MPD. For example, the server may generate an MPD as shown in FIG. 36 in response to the editing described with reference to FIG. In FIG. 36, a portion surrounded by a dotted line 541 is a description regarding one adaptation set 501. Further, a portion surrounded by a dotted line 542 is a description related to the representation 504-1, and a portion surrounded by a dotted line 543 is a description related to the representation 504-2. The portion enclosed by a dotted line 544 is a description related to the sub-representation 505-1-1, the portion enclosed by a dotted line 545 is a description related to the sub-representation 505-2-1, and the dotted line 546 The enclosed portion is a description regarding the sub-representation 505-3-1.
 つまり、オリジナル、フェードイン・アウトのオーディオデータが1つのMP4ファイルに記録されるため、1本のオーディオデータに対してアダプテーションセットは1つとされている。また、レプレゼンテーションは、bandwidthの種類分用意される。ここでは、11,289,600bpsと5,644,800bpsの2種類が示されている。他の実施の形態と同様に、bandwidthの種類数は任意である。 That is, since original and fade-in / out audio data are recorded in one MP4 file, one adaptation set is set for one audio data. In addition, representations are prepared for the type of bandwidth. Here, two types of 11,289,600 bps and 5,644,800 bps are shown. As in the other embodiments, the number of types of bandwidth is arbitrary.
 また、オリジナル、フェードイン、フェードアウトのどのトラックを参照しているかがサブレプレゼンテーションを用いて表現されている。つまり「level」によりMP4ファイル内のトラックと関連付けられる。また、図37においては、EssentialPropertyを用いて、level2のサブレプレゼンテーションがフェードアウトトラックを、level3のサブレプレゼンテーションがフェードイントラックに関連付けられていることが示されている。また、EssentialPropertyのないlevel1のサブレプレゼンテーションがオリジナルトラックに関連付けられている。なお、このようなMPDの構造を図38に示す。 In addition, which of the original, fade-in, and fade-out tracks are referred to is expressed using subrepresentation. That is, "level" is associated with the track in the MP4 file. Further, in FIG. 37, it is shown that the Sub-representation of Level 2 is associated with the fade-out track, and the Sub-representation of Level 3 is associated with the fade-in track, using EssentialProperty. In addition, a level 1 subrepresentation without EssentialProperty is associated with the original track. The structure of such an MPD is shown in FIG.
 サブレプレゼンテーションのレベルとMP4ファイルトラックの関連は図39のようになる。また、各トラックからmdat内のサンプルの参照構造は図40乃至図42のようになる。 The relation between the level of sub-representation and the MP4 file track is as shown in FIG. Also, reference structures of samples in the mdat from each track are as shown in FIG. 40 to FIG.
 サーバ側において、このような管理情報(MPD)を生成することにより、再生端末側が、その管理情報に従って、編集後のコンテンツデータを用いた再生を行うことができる。したがって、再生端末の負荷の増大を抑制することができる。 By generating such management information (MPD) on the server side, the reproduction terminal side can perform reproduction using the edited content data according to the management information. Therefore, an increase in load on the playback terminal can be suppressed.
  <ファイル生成装置>
 図43は、この場合のファイル生成装置301の主な構成例を示すブロック図である。図43に示されるように、この場合もファイル生成装置301は、第2の実施の形態の場合(図31)と基本的に同様の構成を有する。
<File generation device>
FIG. 43 is a block diagram showing an example of the main configuration of the file generation apparatus 301 in this case. As shown in FIG. 43, also in this case, the file generation device 301 has basically the same configuration as that of the second embodiment (FIG. 31).
 ただし、この場合のファイル生成装置301は、セグメントファイル生成部313-1、セグメントファイル生成部315-1、およびセグメントファイル生成部317-1の代わりに、セグメントファイル生成部601-1を有する。なお、フェードアウト編集部314-1、除去部421-1、フェードイン編集部316-1、および除去部422-1をまとめて編集データ生成部621-1とも称する。これらの構成は、ビットレート#1(図35)に関する構成である。 However, the file generation device 301 in this case has a segment file generation unit 601-1 instead of the segment file generation unit 313-1, the segment file generation unit 315-1, and the segment file generation unit 317-1. The fade-out editing unit 314-1, the removing unit 421-1, the fade-in editing unit 316-1, and the removing unit 422-1 are collectively referred to as an editing data generation unit 621-1. These configurations relate to bit rate # 1 (FIG. 35).
 除去部421-1は、フェードアウト部分データ513-1をセグメントファイル生成部601-1に供給する。除去部422-1は、フェードイン部分データ512-1をセグメントファイル生成部601-1に供給する。 The removing unit 421-1 supplies the fade-out partial data 513-1 to the segment file generating unit 601-1. The removing unit 422-1 supplies the fade-in partial data 512-1 to the segment file generating unit 601-1.
 セグメントファイル生成部601-1は、符号化部312-1から供給されるオリジナルデータ511-1、除去部421-1から供給されるフェードアウト部分データ513-1、除去部422-1から供給されるフェードイン部分データ512-1をまとめてセグメントファイルを生成する。 The segment file generation unit 601-1 is supplied with the original data 511-1 supplied from the encoding unit 312-1, the fade-out partial data 51-1 supplied from the removal unit 421-1, and the supply unit 221-1 A fade-in partial data 512-1 is put together to generate a segment file.
 また、この場合のファイル生成装置301は、セグメントファイル生成部313-2、セグメントファイル生成部315-2、およびセグメントファイル生成部317-2の代わりに、セグメントファイル生成部601-2を有する。なお、フェードアウト編集部314-2、除去部421-2、フェードイン編集部316-2、および除去部422-2をまとめて編集データ生成部621-2とも称する。これらの構成は、ビットレート#2(図35)に関する構成である。 Also, the file generation device 301 in this case has a segment file generation unit 601-2 instead of the segment file generation unit 313-2, the segment file generation unit 315-2, and the segment file generation unit 317-2. The fade-out editing unit 314-2, the removing unit 421-2, the fade-in editing unit 316-2, and the removing unit 422-2 are collectively referred to as an editing data generation unit 621-2. These configurations relate to bit rate # 2 (FIG. 35).
 除去部421-2は、フェードアウト部分データ513-2をセグメントファイル生成部601-2に供給する。除去部422-2は、フェードイン部分データ512-2をセグメントファイル生成部601-2に供給する。 The removing unit 421-2 supplies the fade-out partial data 513-2 to the segment file generating unit 601-2. The removing unit 422-2 supplies the fade-in partial data 512-2 to the segment file generating unit 601-2.
 セグメントファイル生成部601-2は、符号化部312-2から供給されるオリジナルデータ511-2、除去部421-2から供給されるフェードアウト部分データ513-2、除去部422-2から供給されるフェードイン部分データ512-2をまとめてセグメントファイルを生成する。 The segment file generation unit 601-2 is supplied with the original data 511-2 supplied from the coding unit 312-2, the fade-out partial data 513-2 supplied from the removal unit 42-2, and the removal unit 422-2 A fade-in partial data 512-2 is put together to generate a segment file.
 以下において、各セグメントファイル生成部を互いに区別して説明する必要が無い場合、セグメントファイル生成部601と称する。また、各編集データ生成部を互いに区別して説明する必要が無い場合、編集データ生成部621と称する。 In the following, when it is not necessary to distinguish and explain each segment file generation unit, the segment file generation unit 601 is referred to as "segment file generation unit 601". Further, when it is not necessary to distinguish the respective edited data generation units from each other, they are referred to as an edited data generation unit 621.
 図43に示されるように、符号化部312、フェードアウト編集部314、フェードイン編集部316、除去部421、除去部422、およびセグメントファイル生成部601の構成は、用意されるビットレートの数だけ設けられる。配信用のデータとして用意されるビットレートの数は任意である。また、この場合、各編集データ生成部621は、常に(全セグメントに対して)動作する。 As shown in FIG. 43, the configurations of the encoding unit 312, the fade-out editing unit 314, the fade-in editing unit 316, the removing unit 421, the removing unit 422, and the segment file generating unit 601 are the same as the number of prepared bit rates. Provided. The number of bit rates prepared as data for distribution is arbitrary. Also, in this case, each editing data generation unit 621 always operates (for all segments).
  <音声ファイル生成処理の流れ>
 次に、図44のフローチャートを参照して、このファイル生成装置301が実行する音声ファイル生成処理の流れの例を説明する。この場合も音声ファイル生成処理は、第2の実施の形態の場合(図32)と基本的に同様の流れで行われる。
<Flow of audio file generation process>
Next, an example of the flow of audio file generation processing executed by the file generation device 301 will be described with reference to the flowchart in FIG. Also in this case, the audio file generation processing is basically performed in the same flow as in the case of the second embodiment (FIG. 32).
 すなわち、図44のステップS301乃至ステップS306の各処理は、図32のステップS201乃至ステップS206の各処理と同様に実行される。ただし、ステップS301において、MPD生成部318は、図37を参照して説明したように、全てのデータを1つのアダプテーションセットとして記述する。 That is, each process of step S301 to step S306 of FIG. 44 is performed similarly to each process of step S201 to step S206 of FIG. However, in step S301, the MPD generation unit 318 describes all data as one adaptation set as described with reference to FIG.
 ステップS307において、セグメントファイル生成部601は、ビットレート毎に、オリジナルデータ、フェードアウト部分データ、およびフェードイン部分データをまとめてセグメントファイルを生成する。 In step S307, the segment file generation unit 601 generates a segment file by collecting the original data, the fade-out partial data, and the fade-in partial data for each bit rate.
 ステップS308およびステップS309の各処理は、図32のステップS208およびステップS209の各処理と同様に実行される。ステップS309において、音声ファイル生成処理を当該セグメントで終了すると判定された場合、音声ファイル生成処理が終了する。 The processes of steps S308 and S309 are performed in the same manner as the processes of steps S208 and S209 of FIG. If it is determined in step S309 that the audio file generation process is to end at the segment, the audio file generation process ends.
 以上のように各処理を実行することにより、再生端末においてフェードイン編集やフェードアウト編集等の編集処理を行わずにノイズの発生を抑制することができるので、再生端末の負荷の増大を抑制することができる。 By executing each process as described above, it is possible to suppress the occurrence of noise without performing editing processing such as fade-in editing and fade-out editing on the playback terminal, and therefore, to suppress an increase in load on the playback terminal. Can.
  <再生端末>
 図45は、この場合の再生端末303の主な構成例を示すブロック図である。図45に示されるように、この場合の再生端末303も基本的に第1の実施の形態の場合(図26)と同様の構成を有する。ただし、この場合、再生端末303は、フェード編集部分トラック切替部651を有する。
<Playback terminal>
FIG. 45 is a block diagram showing an example of the main configuration of the playback terminal 303 in this case. As shown in FIG. 45, the reproduction terminal 303 in this case basically has the same configuration as that of the first embodiment (FIG. 26). However, in this case, the reproduction terminal 303 includes the fade editing partial track switching unit 651.
 フェード編集部分トラック切替部651は、フェードイン編集またはフェードアウト編集された部分のトラックの切り替えに関する処理を行う。 The fade editing partial track switching unit 651 performs processing regarding switching of the track of the fade-in edited or fade-out edited part.
  <bandwidth選択処理の流れ>
 この場合の再生端末303により実行される再生処理は、第1の実施の形態の場合(図27)と同様であるのでその説明を省略する。この場合の、図27のステップS157において実行されるbandwidth選択処理の流れの例を、図46のフローチャートを参照して説明する。
<Flow of bandwidth selection process>
The reproduction process executed by the reproduction terminal 303 in this case is the same as that in the case of the first embodiment (FIG. 27), and thus the description thereof is omitted. An example of the flow of the bandwidth selection process executed in step S157 of FIG. 27 in this case will be described with reference to the flowchart of FIG.
 bandwidth選択処理が開始されると、選択部354は、ステップS351において、オーディオストリームのbandwidthを選択し直すか否かを判定する。選択し直すと判定された場合、処理はステップS352に進む。 When the bandwidth selection process is started, in step S351, the selection unit 354 determines whether to reselect the bandwidth of the audio stream. If it is determined that the selection is made again, the process proceeds to step S352.
 ステップS352において、セグメントファイル取得部353は、バッファ355の空きが無ければ空くまで待機する。バッファ355に空きが生じると、ステップS353において、セグメントファイル取得部353は、変更先として選択されたbandwidthの所定の時間長のセグメントを取得する。ステップS354において、フェード編集部分トラック切替部651は、現在選択中のbandwidthの最後のセグメントでフェードアウトトラックの再生に切り替える。 In step S352, if there is no space in the buffer 355, the segment file acquisition unit 353 waits for space. When the buffer 355 has a space, the segment file acquisition unit 353 acquires a segment of a predetermined time length of the bandwidth selected as the change destination in step S353. In step S354, the fade editing partial track switching unit 651 switches to the playback of the fade out track in the last segment of the currently selected bandwidth.
 ステップS355において、復号部356は、変更先として選択されたbandwidthの再生開始時フェードイントラックを再生する。 In step S355, the decoding unit 356 reproduces the fade-in track at the start of reproduction of the bandwidth selected as the change destination.
 ステップS356において、フェード編集部分トラック切替部651は、変更先として選択されたbandwidthのフェードイン部分の再生を終えたら、オリジナルトラックの再生に切り替える。 In step S356, when the fade-in portion of the bandwidth selected as the change destination is finished playing, the fade-editing partial track switching unit 651 switches to the playing of the original track.
 ステップS356の処理が終了すると、bandwidth選択処理が終了し、処理は図27に戻る。また、ステップS351において、オーディオストリームのbandwidthを選択し直さないと判定された場合、ステップS352乃至ステップS356の処理を省略して、bandwidth選択処理が終了し、処理は図27に戻る。 When the process of step S356 ends, the bandwidth selection process ends, and the process returns to FIG. If it is determined in step S351 that the bandwidth of the audio stream is not selected again, the processing in steps S352 to S356 is omitted, the bandwidth selection processing ends, and the processing returns to FIG.
 以上のように各処理を実行することにより、コンテンツデータに対するフェードイン編集やフェードアウト編集等の編集処理を行わずに、コンテンツデータ切り替え時のノイズの発生を抑制することができる。つまり、再生端末303の負荷の増大の抑制を実現することができる。 By executing each process as described above, it is possible to suppress the occurrence of noise at the time of content data switching without performing editing processes such as fade-in editing and fade-out editing on content data. That is, it is possible to realize the suppression of the increase in the load of the reproduction terminal 303.
 なお、このようにすることにより、再生端末303上でのフェード編集処理を行わずにノイズの発生を抑制することができる。すなわち、サーバ上に配置されるデータの重複回避を維持したまま、再生端末のダウンロードコンテンツ選択の処理を単純化することができる。再生端末は常にフェードアウト・イントラックのオーディオデータ分余計にデータをダウンロードすることになるが、フェード編集のように再生時間が短くサイズが小さい場合負荷は高くない。なお、再生端末303はbandwidth変更時、接続境界の再生とトラックの切り替えを同期しなくてすむように、トラック変更を用いずに、第2の実施の形態において説明した方法の形式を1つのMP4ファイルにまとめて送るようにしてもよい。 By doing this, it is possible to suppress the occurrence of noise without performing the fade editing process on the reproduction terminal 303. That is, the process of selecting the download content of the reproduction terminal can be simplified while maintaining the duplication avoidance of the data arranged on the server. The playback terminal always downloads data to the fade-out / in-track audio data, but the load is not high if the playback time is short and the size is small like fade editing. In addition, when the reproduction terminal 303 changes the bandwidth, it does not synchronize the reproduction of the connection boundary and the switching of the track, without using the track change, the format of the method described in the second embodiment is one MP4 file May be sent together.
 <4.第4の実施の形態>
  <ロスレス圧縮DSD>
 DSDは非可逆圧縮コーデックと比較しサイズが非常に大きいため、図47に示されるように、ネットワーク伝送用に可逆圧縮するロスレス圧縮DSDコーデックが存在する。これを利用することにより、圧縮前のデータ内容によるがサイズを概ね8割程度に圧縮することができる。図47の上段に示されるように、圧縮前のデータは固定長に分割され、分割された固定長データ複数個をエンコーダへ入力する。図47の中段に示されるように、圧縮前の1つの固定長データは、エンコーダで圧縮されDSD_lossless_blockという構造をとる。このとき、同時に処理されたBlock群の先頭に展開処理に必要なヘッダ(以下GoB Header)が付加される。GoB Headerと同時に出力されたDSD_lossless_block群を合わせてDSD_lossless_gob(以下GoB)と呼ぶ。図47の下段に示されるように、GoBの前にBlock数、サンプリング周波数などの情報を付加して、DSD_lossless_payloadの列としてロスレス圧縮DSDが出力される。MP4セグメントに記録する際は、このDSD_lossless_payload単位で記録される。GoBに属するBlockの展開にはそのGoB先頭のGoB Headerが必要である。
<4. Fourth embodiment>
<Lossless Compression DSD>
Since DSDs are much larger in size than lossy compression codecs, lossless compression DSD codecs exist that perform lossless compression for network transmission, as shown in FIG. By using this, the size can be compressed to about 80% depending on the data content before compression. As shown in the upper part of FIG. 47, data before compression is divided into fixed lengths, and a plurality of divided fixed length data are input to the encoder. As shown in the middle part of FIG. 47, one fixed-length data before compression is compressed by the encoder and has a structure of DSD_lossless_block. At this time, a header (hereinafter referred to as GoB Header) necessary for the expansion process is added to the top of the Block group processed at the same time. The DSD_lossless_blocks output simultaneously with the GoB Header are collectively called DSD_lossless_gob (hereinafter GoB). As shown in the lower part of FIG. 47, information such as the number of blocks and sampling frequency is added before GoB, and a lossless compressed DSD is output as a row of DSD_lossless_payload. When recording in the MP4 segment, it is recorded in units of this DSD_lossless_payload. To expand a block belonging to GoB, the GoB header at the top of the GoB is required.
 このような依存関係のあるストリームでは、第2の実施の形態や第3の実施の形態において説明した方法のような、セグメントの先頭や末尾のオーディオデータを置き換えるときには、図48に示されるように、フェード編集後に生成されたGoB HeaderとDSD_lossless_blockを組にして置き換えを行わなければならない。 In such a dependent stream, as shown in FIG. 48, when replacing the audio data at the beginning or end of the segment as in the method described in the second embodiment or the third embodiment, as shown in FIG. The GoB Header and DSD_lossless_block generated after fade editing must be replaced with a pair.
 <5.第5の実施の形態>
  <ロスレス圧縮DSD>
 第1の実施の形態乃至第3の実施の形態において説明した各方法において、DSDフェーダー特有の問題である無音バイトをMPDに記録し再生端末に伝送するようにしてもよい。DSDでは無音のバイト値は0ではない。また、厳密な無音バイトが存在せず、無音として扱うことが可能な値が複数存在する。それらの値はいずれのDACでもほぼ無音として再生される。これはDSDがデルタシグマ変調によるデータの前後依存関係があることと、サンプリングデータの単位がバイトではなくビットであることに由来する。たとえば図49に示されるように、無音バイトとして扱うことが可能な16進数で0x69というバイト値はビット値では01101001という値になるが、この値を複数並べた値からバイトとして切り出してくる位置を変えると0x96、0xA5などという値にもなってしまう。
<5. Fifth embodiment>
<Lossless Compression DSD>
In each of the methods described in the first to third embodiments, the silent byte, which is a problem specific to DSD faders, may be recorded in the MPD and transmitted to the reproduction terminal. The silence byte value is not 0 in DSD. Also, there is no exact silence byte, and there are multiple values that can be treated as silence. Those values are reproduced as almost silent by any DAC. This is because the DSD has a back-and-forth dependency of data by delta sigma modulation, and the unit of sampling data is not a byte but a bit. For example, as shown in FIG. 49, a byte value of 0x69 in hexadecimal number that can be treated as a silent byte becomes a value of 01101001 as a bit value, but the position where the value is cut out as a byte from multiple arranged values is If it changes, it will become the value of 0x96, 0xA5, etc.
 サンプリング単位が1ビットのDSDであってもファイルや伝送時にはバイト単位で扱う。これはサーバ上でフェード処理を行ったデータを、再生端末上で再生する場合にも影響を及ぼす。例えば、再生端末が再生開始前にDACに無音DSDデータとして0x69のバイト列を送り続け、再生時サーバからダウンロードしたフェードインデータで再生を開始するような処理系が存在するとした場合に、もし、サーバのフェード処理で無音にした部分のDSDデータの先頭が0x69であれば、サーバからダウンロードしたデータを再生開始したとき、再生端末の無音バイトとダウンロードした音声データの先頭バイトの境界は図50の下段に示される例のようになり、サーバの意図したデータ並びとなり正しく無音が再生される。 Even if the sampling unit is a 1-bit DSD, it is handled in byte units at the time of file and transmission. This also affects the case of reproducing the faded data on the server on the reproduction terminal. For example, assuming that there is a processing system in which the playback terminal continues sending a byte string of 0x69 as silent DSD data to the DAC before starting playback, and starts playback with fade-in data downloaded from the server at playback time, If the beginning of the DSD data of the silent part of the server is 0x69, the boundary between the silent byte of the playback terminal and the first byte of the downloaded audio data is shown in FIG. 50 when playback of the data downloaded from the server is started. It becomes like the example shown in the lower part, and it becomes a server's intended data arrangement and silence is reproduced correctly.
 しかしながら、サーバのフェード処理で無音にした部分のDSDデータの先頭が0xA5であった場合は、再生開始時のビット並びが図51の下段に示される例のように、0x69,0xA5のようになってしまい、意図した無音データのビット並びにならない。これも意図せぬデータの不連続となりノイズ発生の原因になる可能性がある。 However, if the beginning of the DSD data in the silent part of the server is 0xA5, the bit arrangement at the start of playback becomes 0x69, 0xA5, as in the example shown in the lower part of FIG. It will not be as good as the intended silence data bits. This may also cause unintended data discontinuity and cause noise.
 そこで、MPDファイルにサーバの意図するDSD無音バイトを記録し、再生端末に伝送するようにする。第1の実施の形態乃至第3の実施の形態において上述した各方法のMPD例ではフェード編集されているRepresentationエレメント、Subrepresentationエレメントには、図52に示されるように、フェード編集されていることを示すためのEssentialPropertyエレメントを付加している。そのvalue属性に置き換えるサンプル数に追加して、サーバが意図する無音バイトを記録することにより、再生端末に伝送することが可能である。MPDファイルから再生開始前にサーバが意図する無音バイトを取得することにより、再生端末が再生開始前にDACにサーバの意図する無音バイトを送り続けることが可能になり、再生開始のフェードイン時のノイズ発生の可能性を回避することができる。 Therefore, the DSD silence byte intended by the server is recorded in the MPD file and transmitted to the reproduction terminal. As shown in FIG. 52, the Representation element and the Subrepresentation element that are fade-edited in the MPD examples of the respective methods described above in the first to third embodiments are said to be fade-edited. The EssentialProperty element to show is added. It is possible to transmit to the playback terminal by recording a silent byte intended by the server in addition to the number of samples to be replaced with the value attribute. By acquiring the silence byte intended by the server from the MPD file before starting playback, it becomes possible for the playback terminal to continue sending the silence byte intended by the server to the DAC before starting playback, and when the playback starts fade-in The possibility of noise generation can be avoided.
 以上のように本技術を適用することにより、再生端末にかかるフェード処理・実装負荷の増大を抑制することができる。特に、DSDを配信データに含む場合は、部分的な編集が困難であり負荷が増大するので、本技術を適用することにより得られる効果がより大きい。また、フェードアウト・イン処理の負荷が高いためサーバで一括して行うことで、負荷の増大をより抑制することができる。また、データサイズが大きいため、サーバ上のデータ削減の効果がより高い。なお、動画の解像度変更、アングル変更時のフェードイン・アウト、ワイプ等の効果や、オーディオのクロスフェード等の効果も原理的には対応することができる。コンテンツ選択の前後の組み合わせの数だけサーバ側での編集が増えるが、コンテンツ全体に対しては微小である場合またはサーバ側の処理能力が十分である場合等は大きな影響は無い。 By applying the present technology as described above, it is possible to suppress an increase in the fading process / mounting load applied to the playback terminal. In particular, when the DSD is included in the delivery data, partial editing is difficult and the load increases, so the effect obtained by applying the present technology is greater. In addition, since the load of the fade-out / in process is high, the increase of the load can be further suppressed by collectively executing on the server. Also, since the data size is large, the effect of data reduction on the server is higher. In addition, effects such as resolution change of moving picture, fade in / out at the time of angle change, wipe, and effects such as audio cross fade can be also dealt with in principle. Although editing on the server side is increased by the number of combinations before and after content selection, there is no significant influence when the content is small for the entire content or when the processing capacity of the server side is sufficient.
 <6.その他>
  <応用例>
 以上においては、オーディオデータのフォーマットとしてDSD(DSDデータおよびDSDロスレスストリーム)を例に説明したが、本技術は、DSD以外の任意のフォーマットのオーディオデータにも適用することができる。例えば、AACやPCMであってもよい。また、以上においては、オーディオデータのファイルフォーマットとしてMP4を例に説明したが、本技術は、MP4以外の任意のファイルフォーマットにも適用することができる。また、以上においては、MP4ファイルをMPEG-DASHを利用して配信するように説明したが、本技術は、MPEG-DASH以外の任意の規格のデータ配信にも適用することができる。
<6. Other>
<Example of application>
In the above, DSD (DSD data and DSD lossless stream) has been described as an example of the format of audio data, but the present technology can also be applied to audio data of any format other than DSD. For example, it may be AAC or PCM. Moreover, although MP4 was demonstrated as an example as a file format of audio data above, this technique is applicable also to arbitrary file formats other than MP4. Also, although the above describes that the MP4 file is distributed using MPEG-DASH, the present technology can also be applied to data distribution of any standard other than MPEG-DASH.
 また、以上においては、本技術の対象データとしてオーディオデータを例に説明したが、本技術は、オーディオデータ以外の任意のデータに適用することができる。例えば、本技術は、ビデオデータにも適用することができる。 Furthermore, although audio data has been described above as an example of target data of the present technology, the present technology can be applied to any data other than audio data. For example, the present technology can also be applied to video data.
 また、以上においては、編集の例としてフェードイン編集とフェードアウト編集を例に説明したが、本技術は、これら以外の任意の編集に適用することができる。例えば、オーディオデータを編集する場合、フェードイン編集やフェードアウト編集の代わりに、切り替え前のコンテンツデータに対する切り替え後のコンテンツデータの割合を徐々に増大させていくようにしながら、切り替え前のコンテンツデータと切り替え後のコンテンツデータとを混合するクロスフェード編集が行われるようにしてもよい。また、ビデオデータを編集する場合、フェードアウト編集の代わりに、画像の輝度を徐々に暗くしていくような編集が行われるようにしてもよい。また、フェードイン編集の代わりに、画像の輝度を徐々に明るくしていくような編集が行われるようにしてもよい。また、フェードイン編集やフェードアウト編集の代わりに、画像のクロスフェード編集が行われるようにしてもよい。 Also, in the above, fade-in editing and fade-out editing have been described as examples of editing, but the present technology can be applied to any other editing than these. For example, when editing audio data, instead of fade-in editing or fade-out editing, switching is made to the content data before switching while gradually increasing the ratio of the content data after switching to the content data before switching Cross fade editing may be performed to mix with later content data. Also, when editing video data, instead of fade-out editing, editing may be performed such that the brightness of the image is gradually reduced. Also, instead of fade-in editing, editing may be performed such that the brightness of the image is gradually increased. Also, instead of fade-in editing or fade-out editing, cross-fade editing of an image may be performed.
 また、以上においては、セグメントの最初を始点とする所定の長さの一部の区間、または、セグメントの最後を終点とする所定の長さの一部の区間を編集の対象とするように説明したが、編集は、セグメント内の任意の区間に対して行われるようにしてもよい。例えば、セグメントの最初を始点とする所定の長さの一部の区間、および、セグメントの最後を終点とする所定の長さの一部の区間の両方に対して編集が行われるようにしてもよい。このような区間の編集により、例えば、ダイジェスト再生、ザッピング再生、スライドショー等のように、頻繁に(例えばセグメント毎に)切り替えを行うような再生に適した編集データを生成することができる。 Further, in the above description, it is described that a partial section of a predetermined length starting from the beginning of the segment or a partial section of a predetermined length ending at the end of the segment are to be edited. However, editing may be performed on any section in the segment. For example, editing may be performed on both a partial section of a predetermined length starting from the beginning of the segment and a partial section of a predetermined length ending at the end of the segment. Good. By editing such a section, it is possible to generate editing data suitable for reproduction that is frequently switched (for example, for each segment), such as digest reproduction, zapping reproduction, slide show, etc.
 また、例えば、セグメントの両端を含まない一部の区間に対して編集が行われるようにしてもよいし、セグメントの全体に対して編集が行われるようにしてもよい。すなわち、編集データを、コンテンツデータの切り替え以外の目的で利用することができるようにしてもよい。 Further, for example, the editing may be performed on a part of the section not including both ends of the segment, or the entire segment may be edited. That is, editing data may be used for purposes other than switching of content data.
 また、上述のような編集は、ファイル生成装置301において行われるように説明したが、これに限らず、例えば、配信サーバ302において行われるようにしてもよいし、その他の任意の装置において行われるようにしてもよい。その場合、その編集を行う装置が、各実施の形態において上述したファイル生成装置301と同様の編集に関する機能を有するようにすればよい。 Further, although the above-mentioned editing is described as being performed in the file generation device 301, the present invention is not limited to this. For example, the editing may be performed in the distribution server 302 or is performed in any other device. You may do so. In such a case, the device that performs the editing may have the same editing function as the file generation device 301 described above in each embodiment.
 また、以上においては、上述したような編集がコンテンツデータの配信の前に行われるように説明したが、この編集は、その編集対象のセグメント単位のコンテンツデータが送信される前であれば、任意のタイミングで行うことができる。例えば、コンテンツデータ配信中の、編集対象のセグメントが配信される前のタイミングにおいて、そのセグメントに対する編集が行われるようにしてもよい。また、例えば、配信サーバ302が再生端末303からコンテンツデータ切り替え要求を受けてから、編集対象のセグメントに対する編集が行われるようにしてもよい。 In the above, although it has been described that the editing as described above is performed before distribution of content data, this editing is optional as long as the content data in segment units to be edited is transmitted. It can be done at the timing of For example, the editing of the segment may be performed at the timing before the segment to be edited is distributed during content data distribution. Also, for example, after the distribution server 302 receives a content data switching request from the reproduction terminal 303, the editing of the segment to be edited may be performed.
  <本技術の適用分野>
 本技術を適用したシステム、装置、処理部等は、例えば、交通、医療、防犯、農業、畜産業、鉱業、美容、工場、家電、気象、自然監視等、任意の分野に利用することができる。
<Application field of this technology>
The system, apparatus, processing unit, etc. to which the present technology is applied can be used in any field such as traffic, medical care, crime prevention, agriculture, animal husbandry, mining, beauty, factory, home appliance, weather, nature monitoring, etc. .
 例えば、本技術は、鑑賞の用に供される画像を伝送するシステムやデバイスにも適用することができる。また、例えば、本技術は、交通の用に供されるシステムやデバイスにも適用することができる。さらに、例えば、本技術は、セキュリティの用に供されるシステムやデバイスにも適用することができる。また、例えば、本技術は、スポーツの用に供されるシステムやデバイスにも適用することができる。さらに、例えば、本技術は、農業の用に供されるシステムやデバイスにも適用することができる。また、例えば、本技術は、畜産業の用に供されるシステムやデバイスにも適用することができる。さらに、本技術は、例えば火山、森林、海洋等の自然の状態を監視するシステムやデバイスにも適用することができる。また、本技術は、例えば天気、気温、湿度、風速、日照時間等を観測する気象観測システムや気象観測装置に適用することができる。さらに、本技術は、例えば鳥類、魚類、ハ虫類、両生類、哺乳類、昆虫、植物等の野生生物の生態を観測するシステムやデバイス等にも適用することができる。 For example, the present technology can also be applied to systems and devices that transmit images provided for viewing. Also, for example, the present technology can be applied to systems and devices provided for traffic. Furthermore, for example, the present technology can be applied to systems and devices provided for security. Also, for example, the present technology can be applied to systems and devices provided for sports. Furthermore, for example, the present technology can be applied to systems and devices provided for agriculture. Also, for example, the present technology can be applied to systems and devices provided for livestock industry. Furthermore, the present technology can also be applied to systems and devices that monitor natural conditions such as, for example, volcanoes, forests, and oceans. In addition, the present technology can be applied to, for example, a meteorological observation system or a meteorological observation apparatus that observes weather, air temperature, humidity, wind speed, daylight hours, and the like. Furthermore, the present technology can be applied to, for example, a system or device for observing the ecology of wildlife such as birds, fish, reptiles, amphibians, mammals, insects, plants and the like.
  <コンピュータ>
 上述した一連の処理は、ハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここでコンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータ等が含まれる。
<Computer>
The series of processes described above can be performed by hardware or software. When the series of processes are performed by software, a program that configures the software is installed on a computer. Here, the computer includes, for example, a general-purpose personal computer that can execute various functions by installing a computer incorporated in dedicated hardware and various programs.
 図53は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。 FIG. 53 is a block diagram showing an example of a hardware configuration of a computer that executes the series of processes described above according to a program.
 図53に示されるコンピュータ1000において、CPU(Central Processing Unit)1001、ROM(Read Only Memory)1002、RAM(Random Access Memory)1003は、バス1004を介して相互に接続されている。 In a computer 1000 shown in FIG. 53, a central processing unit (CPU) 1001, a read only memory (ROM) 1002, and a random access memory (RAM) 1003 are mutually connected via a bus 1004.
 バス1004にはまた、入出力インタフェース1010も接続されている。入出力インタフェース1010には、入力部1011、出力部1012、記憶部1013、通信部1014、およびドライブ1015が接続されている。 An input / output interface 1010 is also connected to the bus 1004. An input unit 1011, an output unit 1012, a storage unit 1013, a communication unit 1014, and a drive 1015 are connected to the input / output interface 1010.
 入力部1011は、例えば、キーボード、マウス、マイクロホン、タッチパネル、入力端子などよりなる。出力部1012は、例えば、ディスプレイ、スピーカ、出力端子などよりなる。記憶部1013は、例えば、ハードディスク、RAMディスク、不揮発性のメモリなどよりなる。通信部1014は、例えば、ネットワークインタフェースよりなる。ドライブ1015は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブルメディア1021を駆動する。 The input unit 1011 includes, for example, a keyboard, a mouse, a microphone, a touch panel, an input terminal, and the like. The output unit 1012 includes, for example, a display, a speaker, and an output terminal. The storage unit 1013 includes, for example, a hard disk, a RAM disk, and a non-volatile memory. The communication unit 1014 includes, for example, a network interface. The drive 1015 drives removable media 1021 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
 以上のように構成されるコンピュータ1000では、CPU1001が、例えば、記憶部1013に記憶されているプログラムを、入出力インタフェース1010およびバス1004を介して、RAM1003にロードして実行することにより、上述した一連の処理が行われる。RAM1003にはまた、CPU1001が各種の処理を実行する上において必要なデータなども適宜記憶される。 In the computer 1000 configured as described above, for example, the CPU 1001 loads the program stored in the storage unit 1013 into the RAM 1003 via the input / output interface 1010 and the bus 1004, and executes the program. A series of processing is performed. The RAM 1003 also stores data necessary for the CPU 1001 to execute various processes.
 コンピュータ1000が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア1021に記録して適用することができる。その場合、プログラムは、リムーバブルメディア1021をドライブ1015に装着することにより、入出力インタフェース1010を介して、記憶部1013にインストールすることができる。 The program executed by the computer 1000 can be recorded and applied to, for example, a removable medium 1021 as a package medium or the like. In that case, the program can be installed in the storage unit 1013 via the input / output interface 1010 by attaching the removable media 1021 to the drive 1015.
 また、このプログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することもできる。その場合、プログラムは、通信部1014で受信し、記憶部1013にインストールすることができる。 The program can also be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting. In that case, the program can be received by the communication unit 1014 and installed in the storage unit 1013.
 その他、このプログラムは、ROM1002や記憶部1013等に、あらかじめインストールしておくこともできる。 In addition, this program can be installed in advance in the ROM 1002, the storage unit 1013 or the like.
  <その他>
 なお、符号化データ(ビットストリーム)に関する各種情報は、符号化データに多重化されて伝送され又は記録されるようにしてもよいし、符号化データに多重化されることなく、符号化データと関連付けられた別個のデータとして伝送され又は記録されるようにしてもよい。ここで、「関連付ける」という用語は、例えば、一方のデータを処理する際に他方のデータを利用し得る(リンクさせ得る)ようにすることを意味する。つまり、互いに関連付けられたデータは、1つのデータとしてまとめられてもよいし、それぞれ個別のデータとしてもよい。例えば、符号化データ(画像)に関連付けられた情報は、その符号化データ(画像)とは別の伝送路上で伝送されるようにしてもよい。また、例えば、符号化データ(画像)に関連付けられた情報は、その符号化データ(画像)とは別の記録媒体(又は同一の記録媒体の別の記録エリア)に記録されるようにしてもよい。なお、この「関連付け」は、データ全体でなく、データの一部であってもよい。例えば、画像とその画像に対応する情報とが、複数フレーム、1フレーム、又はフレーム内の一部分などの任意の単位で互いに関連付けられるようにしてもよい。
<Others>
Note that various pieces of information regarding encoded data (bit stream) may be multiplexed and transmitted or recorded in encoded data, or may be encoded with encoded data without being multiplexed in encoded data. It may be transmitted or recorded as associated separate data. Here, the term "associate" means, for example, that one data can be processed (linked) in processing the other data. That is, the data associated with each other may be collected as one data or may be individual data. For example, the information associated with the coded data (image) may be transmitted on a transmission path different from that of the coded data (image). Also, for example, information associated with encoded data (image) may be recorded on a recording medium (or another recording area of the same recording medium) different from the encoded data (image). Good. Note that this “association” may not be the entire data but a part of the data. For example, an image and information corresponding to the image may be associated with each other in an arbitrary unit such as a plurality of frames, one frame, or a part in a frame.
 また、上述したように、本明細書において、「合成する」、「多重化する」、「付加する」、「一体化する」、「含める」、「格納する」、「入れ込む」、「差し込む」、「挿入する」等の用語は、例えば符号化データとメタデータとを1つのデータにまとめるといった、複数の物を1つにまとめることを意味し、上述の「関連付ける」の1つの方法を意味する。 Also, as described above, in the present specification, “combine”, “multiplex”, “add”, “unify”, “include”, “store”, “insert”, “insert” The terms “insert” and the like mean to combine a plurality of objects into one, for example, to combine encoded data and metadata into one data, and one of the above-mentioned “associate” methods. means.
 また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。 Further, the embodiments of the present technology are not limited to the above-described embodiments, and various modifications can be made without departing from the scope of the present technology.
 例えば、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、全ての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。 For example, in the present specification, a system means a set of a plurality of components (devices, modules (parts), etc.), and it does not matter whether all the components are in the same housing or not. Therefore, a plurality of devices housed in separate housings and connected via a network, and one device housing a plurality of modules in one housing are all systems. .
 また、例えば、1つの装置(または処理部)として説明した構成を分割し、複数の装置(または処理部)として構成するようにしてもよい。逆に、以上において複数の装置(または処理部)として説明した構成をまとめて1つの装置(または処理部)として構成されるようにしてもよい。また、各装置(または各処理部)の構成に上述した以外の構成を付加するようにしてももちろんよい。さらに、システム全体としての構成や動作が実質的に同じであれば、ある装置(または処理部)の構成の一部を他の装置(または他の処理部)の構成に含めるようにしてもよい。 Further, for example, the configuration described as one device (or processing unit) may be divided and configured as a plurality of devices (or processing units). Conversely, the configuration described as a plurality of devices (or processing units) in the above may be collectively configured as one device (or processing unit). Further, it goes without saying that configurations other than those described above may be added to the configuration of each device (or each processing unit). Furthermore, part of the configuration of one device (or processing unit) may be included in the configuration of another device (or other processing unit) if the configuration or operation of the entire system is substantially the same. .
 また、例えば、本技術は、1つの機能を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。 Also, for example, the present technology can have a cloud computing configuration in which one function is shared and processed by a plurality of devices via a network.
 また、例えば、上述したプログラムは、任意の装置において実行することができる。その場合、その装置が、必要な機能(機能ブロック等)を有し、必要な情報を得ることができるようにすればよい。 Also, for example, the program described above can be executed on any device. In that case, the device may have necessary functions (functional blocks and the like) so that necessary information can be obtained.
 また、例えば、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。 Further, for example, each step described in the above-described flowchart can be executed by one device or in a shared manner by a plurality of devices. Furthermore, in the case where a plurality of processes are included in one step, the plurality of processes included in one step can be executed by being shared by a plurality of devices in addition to being executed by one device.
 なお、コンピュータが実行するプログラムは、プログラムを記述するステップの処理が、本明細書で説明する順序に沿って時系列に実行されるようにしても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで個別に実行されるようにしても良い。つまり、矛盾が生じない限り、各ステップの処理が上述した順序と異なる順序で実行されるようにしてもよい。さらに、このプログラムを記述するステップの処理が、他のプログラムの処理と並列に実行されるようにしても良いし、他のプログラムの処理と組み合わせて実行されるようにしても良い。 In the program executed by the computer, the process of the step of writing the program may be executed in chronological order according to the order described in the present specification, or the call is performed in parallel or It may be individually executed at necessary timing such as time. That is, as long as no contradiction arises, the processing of each step may be performed in an order different from the order described above. Furthermore, the process of the step of writing this program may be executed in parallel with the process of another program, or may be executed in combination with the process of another program.
 なお、本明細書において複数説明した本技術は、矛盾が生じない限り、それぞれ独立に単体で実施することができる。もちろん、任意の複数の本技術を併用して実施することもできる。例えば、いずれかの実施の形態において説明した本技術を、他の実施の形態において説明した本技術と組み合わせて実施することもできる。また、上述した任意の本技術を、上述していない他の技術と併用して実施することもできる。 In addition, as long as there is no contradiction, the present technology described in the plural in the present specification can be independently implemented alone. Of course, any number of the present techniques may be used in combination. For example, the present technology described in any of the embodiments can be implemented in combination with the present technology described in the other embodiments. Also, any of the above described techniques may be practiced in conjunction with other techniques not described above.
 なお、本技術は以下のような構成も取ることができる。
 (1) 配信用のコンテンツデータを配信する前において、前記コンテンツデータを編集して編集後のコンテンツデータを生成し、生成した前記編集後のコンテンツデータを前記配信用のコンテンツデータに追加する生成部
 を備える情報処理装置。
 (2) 前記生成部は、セグメント(Segment)単位の前記コンテンツデータを編集して前記編集後のコンテンツデータを生成する
 (1)に記載の情報処理装置。
 (3) 前記生成部は、前記セグメント単位のコンテンツデータの一部の区間を編集する
 (2)に記載の情報処理装置。
 (4) 前記生成部は、前記セグメント単位のコンテンツデータの開始から所定の長さの一部の区間、若しくは、前記セグメント単位のコンテンツデータの終了までの所定の長さの一部の区間、またはその両方を編集する
 (3)に記載の情報処理装置。
 (5) 前記生成部は、編集が行われたセグメントの編集後のコンテンツデータを、編集前のコンテンツデータとは別のファイルとしてファイル化し、前記配信用のコンテンツデータに追加する
 (3)または(4)に記載の情報処理装置。
 (6) 前記生成部は、編集が行われたセグメントの前記一部の区間の編集後のコンテンツデータを、編集前のコンテンツデータとは別のファイルとしてファイル化し、前記配信用のコンテンツデータに追加する
 (3)乃至(5)のいずれかに記載の情報処理装置。
 (7) 前記生成部は、編集が行われたセグメントの前記一部の区間の編集後のコンテンツデータを、編集前のコンテンツデータとともに1つのファイルとしてファイル化し、前記配信用のコンテンツデータに追加する
 (3)乃至(6)のいずれかに記載の情報処理装置。
 (8) 前記コンテンツデータはオーディオデータである
 (3)乃至(7)のいずれかに記載の情報処理装置。
 (9) 前記生成部は、前記セグメント単位のオーディオデータの開始から所定の長さの一部の区間をフェードイン編集する、若しくは、前記セグメント単位のオーディオデータの終了までの所定の長さの一部の区間をフェードアウト編集する、またはその両方を行う
 (8)に記載の情報処理装置。
 (10) 配信用のコンテンツデータを配信する前において、前記コンテンツデータを編集して編集後のコンテンツデータを生成し、生成した前記編集後のコンテンツデータを前記配信用のコンテンツデータに追加する
 情報処理方法。
 (11) 配信用のコンテンツデータを配信する前において、前記コンテンツデータの再生を管理する情報と、前記コンテンツデータを編集した編集後のコンテンツデータの再生を管理する情報とを含む管理情報を生成する管理情報生成部
 を備える情報処理装置。
 (12) 前記管理情報は、MPD(Media Presentation Description)であり、
 前記管理情報生成部は、編集後のコンテンツデータの再生を管理する情報を、編集前のコンテンツデータの再生を管理する情報とは別のアダプテーションセット(Adaptation Set)として前記MPDを生成するように構成される
 (11)に記載の情報処理装置。
 (13) 前記管理情報は、MPD(Media Presentation Description)であり、
 前記管理情報生成部は、編集後のコンテンツデータの長さを示す情報を含む、前記編集後のコンテンツデータの再生を管理する情報を、編集前のコンテンツデータの再生を管理する情報とは別のアダプテーションセット(Adaptation Set)として前記MPDを生成するように構成される
 (11)または(12)に記載の情報処理装置。
 (14) 前記管理情報は、MPD(Media Presentation Description)であり、
 前記管理情報生成部は、編集後のコンテンツデータの再生を管理する情報と、編集前のコンテンツデータの再生を管理する情報とを1つのアダプテーションセット(Adaptation Set)として前記MPDを生成するように構成される
 (11)乃至(13)のいずれかに記載の情報処理装置。
 (15) 配信用のコンテンツデータを配信する前において、前記コンテンツデータの再生を管理する情報と、前記コンテンツデータを編集した編集後のコンテンツデータの再生を管理する情報とを含む管理情報を生成する
 情報処理方法。
 (16) 所定のパラメータに応じたコンテンツデータを取得する取得部と、
 前記取得部を制御し、前記パラメータの変化に応じて取得するコンテンツデータを切り替える際に、切り替え前のコンテンツデータに所定の編集が行われた編集後のコンテンツデータと、切り替え後のコンテンツデータに所定の編集が行われた編集後のコンテンツデータとを取得させる制御部と
 を備える情報処理装置。
 (17) 前記取得部は、セグメント(Segment)単位の前記コンテンツデータを取得し、
 前記制御部は、前記パラメータの変化に応じて取得するコンテンツデータを切り替える際に、切り替え前のセグメント単位のコンテンツデータに所定の編集が行われたセグメント単位の編集後のコンテンツデータと、切り替え後のセグメント単位のコンテンツデータに所定の編集が行われたセグメント単位の編集後のコンテンツデータとを取得させる
 (16)に記載の情報処理装置。
 (18) 前記制御部は、前記パラメータの変化に応じて取得するコンテンツデータを切り替える際に、切り替え前のセグメント単位のコンテンツデータの終了までの所定の長さの一部の区間に所定の編集が行われたセグメント単位の編集後のコンテンツデータと、切り替え後のセグメント単位のコンテンツデータの開始から所定の長さの一部の区間に所定の編集が行われたセグメント単位の編集後のコンテンツデータとを取得させる
 (17)に記載の情報処理装置。
 (19) 前記コンテンツデータはオーディオデータであり、
 前記制御部は、前記パラメータの変化に応じて取得するコンテンツデータを切り替える際に、切り替え前のセグメント単位のコンテンツデータの終了までの所定の長さの一部の区間にフェードアウト編集が行われたセグメント単位の編集後のコンテンツデータと、切り替え後のセグメント単位のコンテンツデータの開始から所定の長さの一部の区間にフェードイン編集が行われたセグメント単位の編集後のコンテンツデータとを取得させるように構成される
 (18)に記載の情報処理装置。
 (20) 所定のパラメータに応じたコンテンツデータを取得し、
 前記パラメータの変化に応じて取得するコンテンツデータを切り替える際に、切り替え前のコンテンツデータに所定の編集が行われた編集後のコンテンツデータと、切り替え後のコンテンツデータに所定の編集が行われた編集後のコンテンツデータとを取得する
 情報処理方法。
Note that the present technology can also have the following configurations.
(1) A generation unit that edits the content data to generate edited content data and adds the generated edited content data to the distributed content data before distributing the distributed content data An information processing apparatus comprising:
(2) The information processing apparatus according to (1), wherein the generation unit edits the content data in units of segments to generate the edited content data.
(3) The information processing apparatus according to (2), wherein the generation unit edits a partial section of the segment unit content data.
(4) The generation unit is a partial section of a predetermined length from the start of the segment unit content data, or a partial section of a predetermined length until the end of the segment unit content data, or The information processing apparatus according to (3), in which both are edited.
(5) The generation unit converts the edited content data of the edited segment into a file separate from the content data before editing, and adds the file to the content data for distribution (3) or The information processing apparatus according to 4).
(6) The generation unit converts the edited content data of the partial section of the edited segment into a file different from the content data before editing, and adds the file to the distribution content data The information processing apparatus according to any one of (3) to (5).
(7) The generation unit converts the edited content data of the partial section of the edited segment into a file with the content data before editing as one file, and adds the file to the distribution content data The information processing apparatus according to any one of (3) to (6).
(8) The information processing apparatus according to any one of (3) to (7), wherein the content data is audio data.
(9) The generation unit fades in and edits a partial section of a predetermined length from the start of the segment unit audio data, or one of the predetermined lengths from the start of the segment unit audio data The information processing apparatus according to (8), wherein the section of the section is faded out and edited.
(10) Before distributing content data for distribution, the content data is edited to generate edited content data, and the generated edited content data is added to the distributed content data Method.
(11) Before distributing content data for distribution, management information including information for managing reproduction of the content data and information for managing reproduction of the content data after editing the content data is generated An information processing apparatus comprising a management information generation unit.
(12) The management information is MPD (Media Presentation Description),
The management information generation unit is configured to generate the MPD as information for managing reproduction of content data after editing as an adaptation set (Adaptation Set) different from information for managing reproduction of content data before editing. The information processing apparatus according to (11).
(13) The management information is MPD (Media Presentation Description),
The management information generation unit separates the information for managing the reproduction of the content data after the editing, which includes the information indicating the length of the content data after the editing, from the information for managing the reproduction of the content data before the editing. The information processing apparatus according to (11) or (12), configured to generate the MPD as an adaptation set.
(14) The management information is MPD (Media Presentation Description),
The management information generation unit is configured to generate the MPD with information for managing reproduction of content data after editing and information for managing reproduction of content data before editing as one adaptation set (Adaptation Set). An information processing apparatus according to any one of (11) to (13).
(15) Before distributing content data for distribution, management information including information for managing reproduction of the content data and information for managing reproduction of the content data after editing the content data is generated Information processing method.
(16) an acquisition unit for acquiring content data according to a predetermined parameter;
When the content data to be acquired is switched according to a change in the parameter by controlling the acquisition unit, the content data after editing in which predetermined editing has been performed on the content data before switching and the content data after switching are predetermined An information processing apparatus comprising: a control unit that acquires the edited content data that has been edited.
(17) The acquisition unit acquires the content data in units of segments.
When switching the content data to be acquired according to the change of the parameter, the control unit performs the segment-based edited content data in which predetermined editing is performed on the segment-based content data before switching, and the switched content data after switching The information processing apparatus according to (16), wherein segment-based content data after segment editing is obtained for the segment-based content data.
(18) When switching the content data to be acquired according to the change of the parameter, the control unit performs a predetermined editing on a partial section of a predetermined length until the end of the segment unit content data before switching. Content data after editing in segment units performed, and content data after editing in segment units in which predetermined editing has been performed on a partial section of a predetermined length from the start of content data in segment units after switching The information processing apparatus according to (17).
(19) The content data is audio data,
When switching the content data to be acquired according to a change in the parameter, the control unit is a segment for which fade-out editing has been performed in a partial section of a predetermined length until the end of the segment-based content data before switching. In order to obtain unit-edited content data and segment-unit edited content data in which fade-in editing has been performed in a partial section of a predetermined length from the start of segment-unit content data after switching The information processing apparatus according to (18).
(20) Acquire content data according to predetermined parameters,
When switching the content data to be acquired according to the change of the parameter, the content data after editing in which predetermined editing has been performed on the content data before switching, and editing in which predetermined editing is performed on the content data after switching An information processing method for acquiring content data afterward.
 300 配信システム, 301 ファイル生成装置, 302 配信サーバ, 303 再生端末, 304 ネットワーク, 311 取得部, 312 符号化部, 313 セグメントファイル生成部, 314 フェードアウト編集部, 315 セグメントファイル生成部, 316 フェードイン編集部, 317 セグメントファイル生成部, 318 MPD生成部, 319 アップロード部, 321 編集データ生成部, 351 MPD取得部, 352 MPD処理部, 353 セグメントファイル取得部, 354 選択部, 355 バッファ, 356 復号部, 357 出力制御部, 421,422 除去部, 431 編集データ生成部, 451 フェード編集部分セグメント差替部 300 distribution system, 301 file generator, 302 distribution server, 303 reproduction terminal, 304 network, 311 acquisition unit, 312 encoding unit, 313 segment file generation unit, 314 fadeout editing unit, 315 segment file generation unit, 316 fade in editing Section, 317 segment file generation unit, 318 MPD generation unit, 319 upload unit, 321 edit data generation unit, 351 MPD acquisition unit, 352 MPD processing unit, 353 segment file acquisition unit, 354 selection unit, 355 buffer, 356 decoding unit, 357 output control unit, 421, 422 removal unit, 431 edit data generation unit, 451 fade edit partial segment replacement unit

Claims (20)

  1.  配信用のコンテンツデータを配信する前において、前記コンテンツデータを編集して編集後のコンテンツデータを生成し、生成した前記編集後のコンテンツデータを前記配信用のコンテンツデータに追加する生成部
     を備える情報処理装置。
    Information including: a generation unit which edits the content data to generate edited content data and adds the generated edited content data to the distributed content data before distributing the content data for distribution; Processing unit.
  2.  前記生成部は、セグメント(Segment)単位の前記コンテンツデータを編集して前記編集後のコンテンツデータを生成する
     請求項1に記載の情報処理装置。
    The information processing apparatus according to claim 1, wherein the generation unit edits the content data in units of segments to generate the edited content data.
  3.  前記生成部は、前記セグメント単位のコンテンツデータの一部の区間を編集する
     請求項2に記載の情報処理装置。
    The information processing apparatus according to claim 2, wherein the generation unit edits a partial section of the segment-based content data.
  4.  前記生成部は、前記セグメント単位のコンテンツデータの開始から所定の長さの一部の区間、若しくは、前記セグメント単位のコンテンツデータの終了までの所定の長さの一部の区間、またはその両方を編集する
     請求項3に記載の情報処理装置。
    The generation unit may select a partial interval of a predetermined length from the start of the segment unit content data or a partial interval of a predetermined length from the segment unit content data to the end, or both of them. The information processing apparatus according to claim 3 to edit.
  5.  前記生成部は、編集が行われたセグメントの編集後のコンテンツデータを、編集前のコンテンツデータとは別のファイルとしてファイル化し、前記配信用のコンテンツデータに追加する
     請求項3に記載の情報処理装置。
    The information processing according to claim 3, wherein the generation unit converts the edited content data of the edited segment into a file separate from the content data before editing, and adds the file to the distribution content data. apparatus.
  6.  前記生成部は、編集が行われたセグメントの前記一部の区間の編集後のコンテンツデータを、編集前のコンテンツデータとは別のファイルとしてファイル化し、前記配信用のコンテンツデータに追加する
     請求項3に記載の情報処理装置。
    The generation unit converts the edited content data of the partial section of the edited segment into a file separate from the content data before editing, and adds the file to the distribution content data. The information processing apparatus according to 3.
  7.  前記生成部は、編集が行われたセグメントの前記一部の区間の編集後のコンテンツデータを、編集前のコンテンツデータとともに1つのファイルとしてファイル化し、前記配信用のコンテンツデータに追加する
     請求項3に記載の情報処理装置。
    The generation unit converts the edited content data of the partial section of the edited segment into a file with the content data before editing as one file, and adds the file to the distribution content data. The information processing apparatus according to claim 1.
  8.  前記コンテンツデータはオーディオデータである
     請求項3に記載の情報処理装置。
    The information processing apparatus according to claim 3, wherein the content data is audio data.
  9.  前記生成部は、前記セグメント単位のオーディオデータの開始から所定の長さの一部の区間をフェードイン編集する、若しくは、前記セグメント単位のオーディオデータの終了までの所定の長さの一部の区間をフェードアウト編集する、またはその両方を行う
     請求項8に記載の情報処理装置。
    The generation unit fades in and edits a partial section of a predetermined length from the start of the audio data of the segment unit, or a partial section of a predetermined length from the end of the audio data of the segment unit The information processing apparatus according to claim 8, wherein the information is faded out and / or edited.
  10.  配信用のコンテンツデータを配信する前において、前記コンテンツデータを編集して編集後のコンテンツデータを生成し、生成した前記編集後のコンテンツデータを前記配信用のコンテンツデータに追加する
     情報処理方法。
    An information processing method, comprising editing the content data to generate edited content data and adding the generated edited content data to the distributed content data before distributing the distributed content data.
  11.  配信用のコンテンツデータを配信する前において、前記コンテンツデータの再生を管理する情報と、前記コンテンツデータを編集した編集後のコンテンツデータの再生を管理する情報とを含む管理情報を生成する管理情報生成部
     を備える情報処理装置。
    Management information generation for generating management information including information for managing reproduction of the content data and information for managing reproduction of the content data after editing the content data before distributing the content data for distribution An information processing apparatus comprising a unit.
  12.  前記管理情報は、MPD(Media Presentation Description)であり、
     前記管理情報生成部は、編集後のコンテンツデータの再生を管理する情報を、編集前のコンテンツデータの再生を管理する情報とは別のアダプテーションセット(Adaptation Set)として前記MPDを生成するように構成される
     請求項11に記載の情報処理装置。
    The management information is an MPD (Media Presentation Description),
    The management information generation unit is configured to generate the MPD as information for managing reproduction of content data after editing as an adaptation set (Adaptation Set) different from information for managing reproduction of content data before editing. The information processing apparatus according to claim 11.
  13.  前記管理情報は、MPD(Media Presentation Description)であり、
     前記管理情報生成部は、編集後のコンテンツデータの長さを示す情報を含む、前記編集後のコンテンツデータの再生を管理する情報を、編集前のコンテンツデータの再生を管理する情報とは別のアダプテーションセット(Adaptation Set)として前記MPDを生成するように構成される
     請求項11に記載の情報処理装置。
    The management information is an MPD (Media Presentation Description),
    The management information generation unit separates the information for managing the reproduction of the content data after the editing, which includes the information indicating the length of the content data after the editing, from the information for managing the reproduction of the content data before the editing. The information processing apparatus according to claim 11, configured to generate the MPD as an adaptation set.
  14.  前記管理情報は、MPD(Media Presentation Description)であり、
     前記管理情報生成部は、編集後のコンテンツデータの再生を管理する情報と、編集前のコンテンツデータの再生を管理する情報とを1つのアダプテーションセット(Adaptation Set)として前記MPDを生成するように構成される
     請求項11に記載の情報処理装置。
    The management information is an MPD (Media Presentation Description),
    The management information generation unit is configured to generate the MPD with information for managing reproduction of content data after editing and information for managing reproduction of content data before editing as one adaptation set (Adaptation Set). The information processing apparatus according to claim 11.
  15.  配信用のコンテンツデータを配信する前において、前記コンテンツデータの再生を管理する情報と、前記コンテンツデータを編集した編集後のコンテンツデータの再生を管理する情報とを含む管理情報を生成する
     情報処理方法。
    A method of generating management information including information for managing reproduction of the content data and information for managing reproduction of the content data after editing the content data before distributing the content data for distribution .
  16.  所定のパラメータに応じたコンテンツデータを取得する取得部と、
     前記取得部を制御し、前記パラメータの変化に応じて取得するコンテンツデータを切り替える際に、切り替え前のコンテンツデータに所定の編集が行われた編集後のコンテンツデータと、切り替え後のコンテンツデータに所定の編集が行われた編集後のコンテンツデータとを取得させる制御部と
     を備える情報処理装置。
    An acquisition unit for acquiring content data according to a predetermined parameter;
    When the content data to be acquired is switched according to a change in the parameter by controlling the acquisition unit, the content data after editing in which predetermined editing has been performed on the content data before switching and the content data after switching are predetermined An information processing apparatus comprising: a control unit that acquires the edited content data that has been edited.
  17.  前記取得部は、セグメント(Segment)単位の前記コンテンツデータを取得し、
     前記制御部は、前記パラメータの変化に応じて取得するコンテンツデータを切り替える際に、切り替え前のセグメント単位のコンテンツデータに所定の編集が行われたセグメント単位の編集後のコンテンツデータと、切り替え後のセグメント単位のコンテンツデータに所定の編集が行われたセグメント単位の編集後のコンテンツデータとを取得させる
     請求項16に記載の情報処理装置。
    The acquisition unit acquires the content data in units of segments.
    When switching the content data to be acquired according to the change of the parameter, the control unit performs the segment-based edited content data in which predetermined editing is performed on the segment-based content data before switching, and the switched content data after switching The information processing apparatus according to claim 16, wherein the segment-based content data is acquired after the segment-based edited content data has been subjected to predetermined editing.
  18.  前記制御部は、前記パラメータの変化に応じて取得するコンテンツデータを切り替える際に、切り替え前のセグメント単位のコンテンツデータの終了までの所定の長さの一部の区間に所定の編集が行われたセグメント単位の編集後のコンテンツデータと、切り替え後のセグメント単位のコンテンツデータの開始から所定の長さの一部の区間に所定の編集が行われたセグメント単位の編集後のコンテンツデータとを取得させる
     請求項17に記載の情報処理装置。
    When the control unit switches the content data to be acquired according to the change of the parameter, the predetermined editing is performed on a partial section of a predetermined length until the end of the segment unit content data before switching. The segment-based edited content data and the segment-based edited content data in which a predetermined editing has been performed in a partial section of a predetermined length from the start of the segment-based content data after switching are acquired The information processing apparatus according to claim 17.
  19.  前記コンテンツデータはオーディオデータであり、
     前記制御部は、前記パラメータの変化に応じて取得するコンテンツデータを切り替える際に、切り替え前のセグメント単位のコンテンツデータの終了までの所定の長さの一部の区間にフェードアウト編集が行われたセグメント単位の編集後のコンテンツデータと、切り替え後のセグメント単位のコンテンツデータの開始から所定の長さの一部の区間にフェードイン編集が行われたセグメント単位の編集後のコンテンツデータとを取得させるように構成される
     請求項18に記載の情報処理装置。
    The content data is audio data,
    When switching the content data to be acquired according to a change in the parameter, the control unit is a segment for which fade-out editing has been performed in a partial section of a predetermined length until the end of the segment-based content data before switching. In order to obtain unit-edited content data and segment-unit edited content data in which fade-in editing has been performed in a partial section of a predetermined length from the start of segment-unit content data after switching The information processing apparatus according to claim 18 configured as.
  20.  所定のパラメータに応じたコンテンツデータを取得し、
     前記パラメータの変化に応じて取得するコンテンツデータを切り替える際に、切り替え前のコンテンツデータに所定の編集が行われた編集後のコンテンツデータと、切り替え後のコンテンツデータに所定の編集が行われた編集後のコンテンツデータとを取得する
     情報処理方法。
    Acquire content data according to a predetermined parameter,
    When switching the content data to be acquired according to the change of the parameter, the content data after editing in which predetermined editing has been performed on the content data before switching, and editing in which predetermined editing is performed on the content data after switching An information processing method for acquiring content data afterward.
PCT/JP2017/037116 2016-10-27 2017-10-13 Information processing device and method WO2018079293A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016210145 2016-10-27
JP2016-210145 2016-10-27

Publications (1)

Publication Number Publication Date
WO2018079293A1 true WO2018079293A1 (en) 2018-05-03

Family

ID=62024861

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/037116 WO2018079293A1 (en) 2016-10-27 2017-10-13 Information processing device and method

Country Status (1)

Country Link
WO (1) WO2018079293A1 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10262230A (en) * 1997-03-18 1998-09-29 Mitsubishi Electric Corp Multi-media data reproducing system
JP2006191633A (en) * 1999-05-20 2006-07-20 Yamaha Corp Client device for acquiring and reproducing contents via communication network and contents reproducing method
JP2015518350A (en) * 2012-04-24 2015-06-25 ヴィド スケール インコーポレイテッド Method and apparatus for smooth stream switching in MPEG / 3GPP-DASH
WO2016002738A1 (en) * 2014-06-30 2016-01-07 ソニー株式会社 Information processor and information-processing method

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10262230A (en) * 1997-03-18 1998-09-29 Mitsubishi Electric Corp Multi-media data reproducing system
JP2006191633A (en) * 1999-05-20 2006-07-20 Yamaha Corp Client device for acquiring and reproducing contents via communication network and contents reproducing method
JP2015518350A (en) * 2012-04-24 2015-06-25 ヴィド スケール インコーポレイテッド Method and apparatus for smooth stream switching in MPEG / 3GPP-DASH
WO2016002738A1 (en) * 2014-06-30 2016-01-07 ソニー株式会社 Information processor and information-processing method

Similar Documents

Publication Publication Date Title
US10366725B2 (en) Server side crossfading for progressive download media
CN103905841B (en) The more player video broadcasting methods of multi-protocols and system of network bandwidth adaptive
WO2016002738A1 (en) Information processor and information-processing method
KR101320756B1 (en) Playback apparatus, playback method, and program
JP6214765B2 (en) Audio decoder, apparatus for generating encoded audio output data, and method for enabling initialization of a decoder
JP6439691B2 (en) File generation apparatus and method, and content reproduction apparatus and method
TW201507481A (en) Content reproduction system, content reproduction apparatus, program, content reproduction method, and providing content server
BR112012014872B1 (en) COMPUTER SYSTEM AND DEVICE AND AUDIO SEPARATION METHOD WITH TABLE SIZES APPLIED BY CODEC AND LEGIBLE NON-TRANSITIONAL STORAGE MEDIA ON COMPUTER
JP2015136060A (en) Communication device, communication data generation method, and communication data processing method
JP6876928B2 (en) Information processing equipment and methods
JP2015136059A (en) Communication device, communication data generation method, and communication data processing method
WO2015107784A1 (en) Communication apparatus, communication data generation method, and communication data processing method
WO2018142946A1 (en) Information processing device and method
CN104919809A (en) Content server and content distribution method
JP2006031394A (en) Content delivery system
WO2015107785A1 (en) Communication apparatus, communication data generation method, and communication data processing method
WO2018173876A1 (en) Content processing device, content processing method, and program
JP2011023807A (en) Broadcast receiver and download content changing method
WO2018079293A1 (en) Information processing device and method
WO2014171385A1 (en) Server device, content provision method, and computer program
WO2018142945A1 (en) Information processing device and method
EP3579568A1 (en) Information processing device and method
WO2017169891A1 (en) Information processing device and method
JP2004180288A (en) Data processing apparatus, data processing method, program, and data recording medium
JP5428614B2 (en) Editing apparatus, editing method, and program

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17864142

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17864142

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP