EP2489039B1 - Optimized low-throughput parametric coding/decoding - Google Patents
Optimized low-throughput parametric coding/decoding Download PDFInfo
- Publication number
- EP2489039B1 EP2489039B1 EP10785120.6A EP10785120A EP2489039B1 EP 2489039 B1 EP2489039 B1 EP 2489039B1 EP 10785120 A EP10785120 A EP 10785120A EP 2489039 B1 EP2489039 B1 EP 2489039B1
- Authority
- EP
- European Patent Office
- Prior art keywords
- parameters
- signal
- coding
- decoding
- decoded
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims description 37
- 238000013139 quantization Methods 0.000 claims description 20
- 238000001228 spectrum Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 230000005236 sound signal Effects 0.000 claims description 10
- 230000009467 reduction Effects 0.000 claims description 8
- 238000000513 principal component analysis Methods 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 3
- 230000015654 memory Effects 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000003936 working memory Effects 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 229940082150 encore Drugs 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/02—Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
Definitions
- the present invention relates to the field of coding / decoding of digital signals.
- the coding and decoding according to the invention is particularly suitable for the transmission and / or storage of digital signals such as audio-frequency signals (speech, music or other).
- the present invention relates to the parametric encoding / decoding of multichannel audio signals.
- This type of coding / decoding is based on the extraction of spatial information parameters so that at decoding, these spatial characteristics can be reconstructed for the listener.
- This type of parametric encoding applies in particular for a stereo signal.
- a coding / decoding technique is for example described in the document Breebaart, J. and van de Par, S and Kohlrausch, A. and Schuijers, titled "Parametric Coding of Stereo Audio” in EURASIP Journal on Applied Signal Processing 2005: 9, 1305-1322 .
- This example is repeated with reference to figures 1 and 2 describing respectively an encoder and a parametric stereo decoder.
- the figure 1 describes an encoder receiving two audio channels, a left channel (denoted L for Left in English) and a right channel (denoted R for Right in English).
- the channels L (n) and R (n) are processed by the blocks 101, 102 and 103, 104 respectively which perform a short-term Fourier analysis.
- the transformed signals L [j] and R [j] are thus obtained.
- the block 105 performs a channel reduction matrix or "Downmix” in English to obtain from the left and right signals, a sum signal, a mono signal in this case, in the frequency domain.
- An extraction of spatial information parameters is also performed in block 105.
- the ICLD InterChannel Level Difference
- interchannel intensity differences characterize the energy ratios per frequency subband between the left and right channels.
- An interchannel time lag called ICTD (for "interchannel time difference") can also be defined equivalent to ICPD.
- An interchannel coherence parameter ICC (for " InterChannel Coherence " in English) represents inter-channel correlation.
- the mono signal is passed in the time domain (blocks 106 to 108) after short-term Fourier synthesis (inverse FFT, windowing and OverLap-Add or OLA) and a mono coding (block 109) is realized. .
- the stereo parameters are quantized and coded in block 110.
- the spectrum of the signals ( L [ j ], R [ j ]) is divided according to a nonlinear frequency scale of ERB ( equivalent Rectangular Bandwidth ) or Bark type, with a number of subbands typically ranging from 20 to 34. This scale defines the values of B (k) and B (k + 1) for each subband k.
- the settings (ICLD, ICPD, ICC) are encoded by scalar quantization possibly followed by entropy coding or differential coding.
- the ICLD is encoded by a non-uniform quantizer (ranging from -50 to +50 dB) with differential coding; the non-uniform quantization step exploits the fact that the higher the value of the ICLD, the lower the auditory sensitivity to variations of this parameter.
- a non-uniform quantizer ranging from -50 to +50 dB
- the mono signal is decoded (block 201), a de-correlator is used (block 202) to produce two versions M (n) and M '(n) of the decoded mono signal. These two signals passed in the frequency domain (blocks 203 to 206) and the decoded stereo parameters (block 207) are used by the stereo synthesis (block 208) to reconstruct the left and right channels in the frequency domain. These channels are finally reconstructed in the time domain (blocks 209 to 214).
- the document WO 2006/108464 A1 describes a technique for transmitting spatial information parameters of similar type based on a prior grouping of said parameters for two consecutive frames in time and in frequency.
- the group of parameters requiring the lowest coding rate is chosen to be transmitted to the decoder.
- a stereo intensity coding technique ( Intensity Stereo Coding ) consists of coding the sum (M) channel as well as the ICLD energy ratios as defined above.
- Stereo intensity coding exploits the fact that the perception of high frequency components is mainly related to the temporal (energy) envelopes of the signal.
- MIC Coded Pulse Modulation
- ADPCM Adaptive Differential Coded Pulse Modulation
- ITU-T Recommendation G.722 which uses ADPCM for Adaptive Differential Pulse Code Modulation (ADPCM).
- ADPCM Adaptive Differential Pulse Code Modulation
- the input signal of a G.722-type encoder is in an expanded band with a minimum bandwidth of [50-7000 Hz] with a sampling frequency of 16 kHz.
- This signal is decomposed into two sub-bands [0-4000 Hz] and [4000-8000 Hz] obtained by decomposition of the signal by so-called quadrature mirror filters.
- Quadrature Mirror Filters (QMF) in English then each of the subbands is separately encoded by an ADPCM encoder.
- the low band is coded by a 6, 5 and 4 bit nested code ADPCM coding while the high band is coded by a 2 bit ADPCM coder per sample.
- the total bit rate is 64, 56 or 48 bit / s depending on the number of bits used for decoding the low band.
- Recommendation G.722 was first used in ISDN (Integrated Services Digital Network) and then in enhanced IP voice telephony applications in HD (High Definition) or HD voice in English.
- a quantized signal frame according to the G.722 standard consists of 6, 5 or 4 bit low band (0-4000 Hz) and 2 high band (4000-8000 Hz) coded quantization indices. Since the transmission frequency of the scalar indices is 8 kHz in each subband, the bit rate is 64, 56 or 48 kbit / s. In the G.722 standard, the 8 bits are distributed as follows: 2 bits for the high band, 6 bits for the low band. The last or last two bits of the low band can be "stolen" or replaced by data.
- G.722 coding operates with short 5 ms frames.
- the spatial information represented by the ICLD or other parameters requires a bit rate (additional stereo extension) all the more important as the coding frames are short.
- This example thus illustrates the difficulty of performing a stereo extension of an encoder such as G.722 with short frames (of 5 ms).
- Direct encoding of the ICLD gives an additional bit rate (stereo extension) around 16 kbit / s which is already the maximum possible bit rate for the G.722 extension.
- the present invention improves the situation.
- the invention also applies to a parametric decoding method of a multichannel digital audio signal as in claim 5.
- the invention also relates to an encoder as in claim 8.
- the invention also relates to a decoder as in claim 9.
- It also relates to a computer program comprising code instructions for implementing the steps of the encoding method as described and to a computer program comprising code instructions for implementing the steps of a decoding method. as described, when these are executed by a processor.
- This parametric stereo encoder operates in wideband with stereo signals sampled at 16 kHz with 5 ms frames.
- Each channel (L and R) is first pre-filtered by a high pass filter (HPF for High Pass Filter English) removing components below 50 Hz (blocks 301 and 302).
- HPF High Pass Filter English
- This signal is encoded (block 304) by a G.722 type encoder, as described, for example, in ITU-T Recommendation G.722, 7 kHz audio-coding within 64 kbit / s , Nov. 1988.
- the delay introduced in the G.722 type coding is 22 samples at 16 kHz.
- the division of the signal into frames is defined with reference to the figure 5 .
- This figure illustrates the fact that the analysis window (solid line) of 10 ms covers the current frame of index t and the future frame of index t + 1 and the fact that a recovery of 50% is used between the window of the current frame and the window (dotted line) of the previous frame.
- the block 311 for extracting spatial information parameters is now detailed.
- the module 314 comprises means for obtaining the spatial information parameters of the stereo signal.
- the parameters obtained are the interchannel intensity difference parameters, ICLD.
- This formula amounts to combining the energy of two successive frames, which corresponds to a temporal support of 10 ms (15 ms if we count the effective temporal support of two successive windows).
- the module 314 therefore produces a series of ICLD parameters defined previously.
- ICLD parameters are divided into the division module 315, into several blocks.
- the module 316 then makes a selection (St.) of a block to be encoded according to the index of the current frame to be coded.
- the coding of these blocks at 312 is carried out for example by non-uniform scalar quantization.
- This bit rate is therefore not too great and is sufficient to efficiently transmit the stereo parameters.
- Two successive frames suffice in this embodiment to obtain the spatial information parameters of the multichannel signal, the length of two frames being most often the length of an analysis window for a 50% overlap frequency transformation. .
- a shorter recovery window could be used to reduce the delay introduced.
- the encoder may operate at other frequencies (such as 32 kHz) and with different subband cutting.
- 37 bits are used for frames of even t- index and 40 bits for frames of odd t- indexes.
- the coding method thus described is easily generalized in the case where the parameters are divided into more than 2 blocks.
- the coding of the ICLD parameters is then distributed over 4 successive frames with storage of the parameters decoded in the previous frames during the decoding.
- the calculation of the ICLD must then be modified to include more than 2 frames in the calculation of the energies ⁇ The 2 t k and ⁇ R 2 t k .
- the encoding method thus described applies to the encoding of other parameters than the ICLD parameter.
- the coherence parameter (ICC) can be calculated and transmitted selectively in a manner similar to the ICLD.
- the two parameters can also be calculated and coded according to the coding method described above.
- the figure 4 illustrates a decoder in one embodiment of the invention as well as the decoding method that it implements.
- the portion of bit stream scalable and received from the G.722 encoder is demultiplexed and decoded by a G.722 type decoder (block 401) in 56 or 64 kbit / s mode.
- the synthesized signal obtained corresponds to the mono signal M ( n ) in the absence of transmission errors.
- the part of the bit stream associated with the stereo extension is also demultiplexed at block 404.
- a second block of parameters ⁇ ICLD q [ t, k ] ⁇ k 10, ..., 19 and stored in the module 412 these decoded parameters.
- tab_ild_q ⁇ 5 31 - 50 , - 45 , - 40 , - 35 , - 30 , - 25 , - 22 , - 19 , - 16 , - 13 , - 10 , - 8 , - 6 , - 4 , - 2 , 0 , 2 , 4 , 6 , 8 , 10 , 13 , 16 , 19 , 22 , 25 , 30 , 35 , 40 , 45 , 50
- the parameters for each of the frequency bands are thus obtained.
- the left and right channels L ( n ) and R ( n ) are reconstructed by inverse discrete Fourier transform (blocks 406 and 409) of the respective spectra L [ j ] and R [ j ] and addition-overlap (blocks 408 and 411) with sinusoidal windowing (blocks 407 and 410).
- the bit rate of the stereo extension is therefore reduced and obtaining these parameters makes it possible to reconstruct a stereo signal of good quality.
- the module 314 of the parameter extraction block of the figure 3 differs.
- This module in this embodiment makes it possible to obtain other stereo parameters by applying a principal component analysis (PCA) such as that described in the article by Manuel Briand, David Virette and Nadine Martin entitled “Parametric coding of stereo audio based principal component analysis "published in the DAFX conference, 1991.
- PCA principal component analysis
- a principal component analysis is performed by subbands.
- the left and right channels thus analyzed are then rotated to obtain a main component and a qualified environment sub component.
- the stereo analysis produces, for each sub-band, a rotation angle parameter ( ⁇ ) and an energy ratio between the main component and the ambient signal ( PCAR which means Principal Component to Ambience Energy Ratio).
- the stereo parameters then consist of the angle of rotation parameter and the energy ratio ( ⁇ and PCAR).
- the figure 6 illustrates another embodiment of an encoder according to the invention.
- this operation does not necessarily allow conservation of energy.
- the "downmix” operation here consists of the blocks 603a, 603b, 603c and 603d for the passage in the frequency domain.
- Blocks 603f, 603g and 603h make it possible to bring the mono signal back into the time domain in order to be coded by block 304 as for the encoder illustrated in FIG. figure 3 .
- This offset makes it possible to synchronize the time frames of the left / right channels and those of the decoded mono signal.
- the invention has been described here in the case of a G.722 encoder / decoder. it can obviously apply in the case of a modified G.722 encoder, for example including noise reduction mechanisms ( English) or including a scalable extension of G.722 with additional information.
- the invention can also be applied in the case of another mono encoder than the G.722 type such as for example a G.711.1 type encoder. In the latter case, the delay T must be adjusted to take into account the delay of the G.711.1 encoder.
- the embodiment of the invention also extends to the more general case of the coding of multichannel signals (with more than 2 audio channels) starting from a mono or even stereo downmix.
- the coding of spatial information involves the coding and transmission of spatial information parameters.
- the spatial information parameters of the multichannel signal then take into account the differences or the coherences between the different channels.
- Encoders and decoders as described with reference to figures 3 , 4 and 6 can be integrated in a multimedia equipment type decoder lounge, computer or communication equipment such as a mobile phone or personal electronic diary.
- the figure 7a represents an example of such a multimedia equipment or coding device comprising an encoder according to the invention.
- This device comprises a PROC processor cooperating with a memory block BM having a storage and / or working memory MEM.
- the description of the figure 3 takes the steps of an algorithm of such a computer program.
- the computer program can also be stored on a memory medium readable by a reader of the device or downloadable in the memory space of the equipment.
- the device comprises an input module adapted to receive a multichannel signal S m representing a sound scene, either by a communication network, or by reading a content stored on a storage medium.
- This multimedia equipment may also include means for capturing such a multichannel signal.
- the device comprises an output module capable of transmitting the coded spatial information parameters P c and a sum signal Ss resulting from the coding of the multichannel signal.
- figure 7b illustrates an example of multimedia equipment or decoding device comprising a decoder according to the invention.
- This device comprises a PROC processor cooperating with a memory block BM having a storage and / or working memory MEM.
- the description of the figure 4 takes the steps of an algorithm of such a computer program.
- the computer program can also be stored on a memory medium readable by a reader of the device or downloadable in the memory space of the equipment.
- the device comprises an input module able to receive the coded spatial information parameters P c and a sum signal S s originating, for example, from a communication network. These input signals can come from a reading on a storage medium.
- the device comprises an output module capable of transmitting a multichannel signal decoded by the decoding method implemented by the equipment.
- This multimedia equipment may also include speaker-type reproduction means or communication means capable of transmitting this multi-channel signal.
- Such multimedia equipment may include both the encoder and the decoder according to the invention.
- the input signal then being the original multichannel signal and the output signal, the decoded multichannel signal.
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Algebra (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
La présente invention concerne le domaine du codage/décodage des signaux numériques.The present invention relates to the field of coding / decoding of digital signals.
Le codage et le décodage selon l'invention est adapté notamment pour la transmission et/ou le stockage de signaux numériques tels que des signaux audiofréquences (parole, musique ou autres).The coding and decoding according to the invention is particularly suitable for the transmission and / or storage of digital signals such as audio-frequency signals (speech, music or other).
Plus particulièrement, la présente invention se rapporte au codage/décodage paramétrique de signaux audio multicanaux.More particularly, the present invention relates to the parametric encoding / decoding of multichannel audio signals.
Ce type de codage/décodage se base sur l'extraction de paramètres d'information spatiale pour qu'au décodage, ces caractéristiques spatiales puissent être reconstituées pour l'auditeur.This type of coding / decoding is based on the extraction of spatial information parameters so that at decoding, these spatial characteristics can be reconstructed for the listener.
Ce type de codage paramétrique s'applique notamment pour un signal stéréo. Une telle technique de codage/décodage est par exemple décrite dans le document de
Ainsi, la
Les canaux L(n) et R(n) sont traités par les blocs 101, 102 et 103, 104 respectivement qui effectuent une analyse de Fourier court terme. Les signaux transformés L[j] et R[j] sont ainsi obtenus.The channels L (n) and R (n) are processed by the
Le bloc 105 effectue un matriçage de réduction de canaux ou "Downmix" en anglais pour obtenir à partir des signaux gauche et droit, un signal somme, un signal mono dans le cas présent, dans le domaine fréquentiel.The
Une extraction de paramètres d'information spatiale est également effectuée dans le bloc 105.An extraction of spatial information parameters is also performed in
Les paramètres de type ICLD (pour "InterChannel Level Difference" en anglais) encore appelés différences d'intensité intercanal, caractérisent les ratios d'énergie par sous-bande fréquentielle entre les canaux gauche et droit.The ICLD ( InterChannel Level Difference ) type parameters, also called interchannel intensity differences, characterize the energy ratios per frequency subband between the left and right channels.
Ils sont définis en dB par la formule suivante:
où L[j] et R[j] correspondent aux coefficients spectraux (complexes) des canaux L et R, les valeurs B[k] et B[k+1], pour chaque bande de fréquence k, définissent la découpe en sous-bande du spectre et le symbole * indique le conjugué complexe.They are defined in dB by the following formula:
where L [j] and R [j] correspond to the spectral (complex) coefficients of the L and R channels, the values B [k] and B [k + 1] , for each frequency band k, define the sub-division. spectrum band and the symbol * indicates the complex conjugate.
Un paramètre de type ICPD (pour "InterChannel Phase Difference" en anglais) encore appelé différence de phase par sous-bande fréquentielle, est définie suivant la relation suivante:
où ∠ indique l'argument (la phase) de l'opérande complexe.A parameter of ICPD type (for " InterChannel Phase Difference " in English) also called phase difference by frequency subband, is defined according to the following relation:
where ∠ indicates the argument (phase) of the complex operand.
On peut également définir de façon équivalente à l'ICPD, un décalage temporel intercanal appelé ICTD (pour "interchannel time différence" en anglais).An interchannel time lag called ICTD (for "interchannel time difference") can also be defined equivalent to ICPD.
Un paramètre de cohérence intercanal ICC (pour "InterChannel Coherence" en anglais) représente quant à lui, la corrélation intercanal.An interchannel coherence parameter ICC (for " InterChannel Coherence " in English) represents inter-channel correlation.
Ces paramètres ICLD, ICPD et ICC sont extraits des signaux stéréo, par le bloc 105.These ICLD, ICPD and ICC parameters are extracted from the stereo signals, by
Le signal mono est passé dans le domaine temporel (blocs 106 à 108) après synthèse de Fourier court-terme (FFT inverse, fenêtrage et addition-recouvrement dite OverLap-Add ou OLA en anglais) et un codage mono (bloc 109) est réalisé. En parallèle les paramètres stéréo sont quantifiés et codés dans le bloc 110.The mono signal is passed in the time domain (
En général le spectre des signaux (L[j],R[j]) est divisé suivant une échelle fréquentielle non-linéaire de type ERB (Equivalent Rectangular Bandwidth) ou Bark, avec un nombre de sous-bandes allant typiquement de 20 à 34. Cette échelle définit les valeurs de B(k) et B(k+1) pour chaque sous-bande k. Les paramètres (ICLD, ICPD, ICC) sont codés par quantification scalaire éventuellement suivie d'un codage entropique ou d'un codage différentiel. Par exemple, dans l'article précédemment cité, l'ICLD est codée par un quantificateur non-uniforme (allant de - 50 à +50 dB) avec codage différentiel ; le pas de quantification non-uniforme exploite le fait que plus la valeur de l'ICLD est grande plus la sensibilité auditive aux variations de ce paramètre est faible.In general, the spectrum of the signals ( L [ j ], R [ j ]) is divided according to a nonlinear frequency scale of ERB ( equivalent Rectangular Bandwidth ) or Bark type, with a number of subbands typically ranging from 20 to 34. This scale defines the values of B (k) and B (k + 1) for each subband k. The settings (ICLD, ICPD, ICC) are encoded by scalar quantization possibly followed by entropy coding or differential coding. For example, in the aforementioned article, the ICLD is encoded by a non-uniform quantizer (ranging from -50 to +50 dB) with differential coding; the non-uniform quantization step exploits the fact that the higher the value of the ICLD, the lower the auditory sensitivity to variations of this parameter.
Au décodeur 200, le signal mono est décodé (bloc 201), un dé-corrélateur est utilisé (bloc 202) pour produire deux versions M̂(n)et M̂'(n) du signal mono décodé. Ces deux signaux passés dans le domaine fréquentiel (blocs 203 à 206) et les paramètres stéréo décodés (bloc 207) sont utilisés par la synthèse stéréo (bloc 208) pour reconstruire les canaux gauche et droit dans le domaine fréquentiel. Ces canaux sont enfin reconstruits dans le domaine temporel (blocs 209 à 214).At the decoder 200, the mono signal is decoded (block 201), a de-correlator is used (block 202) to produce two versions M (n) and M '(n) of the decoded mono signal. These two signals passed in the frequency domain (
A titre d'exemple alternatif, le document
Dans les techniques de codage de signal stéréo, une technique de codage stéréo d'intensité (Intensity Stereo Coding en anglais) consiste à coder le canal somme (M) ainsi que les ratios d'énergie ICLD tels que définis ci-dessus.In stereo signal coding techniques, a stereo intensity coding technique ( Intensity Stereo Coding ) consists of coding the sum (M) channel as well as the ICLD energy ratios as defined above.
Le codage stéréo d'intensité exploite le fait que la perception des composantes hautes fréquences est principalement liée aux enveloppes temporelles (énergétiques) du signal.Stereo intensity coding exploits the fact that the perception of high frequency components is mainly related to the temporal (energy) envelopes of the signal.
Pour les signaux mono, il existe d'autre part des techniques de quantification avec ou sans mémoire comme le codage à "Modulation par Impulsions Codées" (MIC) ou sa version adaptative dite "Modulation par Impulsions Codées Différentielle Adaptative" (MICDA).For mono signals, there are also quantization techniques with or without memory such as "Coded Pulse Modulation" (MIC) coding or its adaptive version called "Adaptive Differential Coded Pulse Modulation" (ADPCM).
On s'intéresse ici plus particulièrement à la recommandation UIT-T G.722 qui utilise le codage MICDA à code imbriqués en sous-bandes (ou ADPCM pour "Adaptive Differential Pulse Code Modulation" en anglais). Of particular interest here is ITU-T Recommendation G.722, which uses ADPCM for Adaptive Differential Pulse Code Modulation (ADPCM).
Le signal d'entrée d'un codeur de type G.722 est en bande élargie de largeur de bande minimale de [50-7000 Hz] avec une fréquence d'échantillonnage de 16 kHz. Ce signal est décomposé en deux sous-bandes [0-4000 Hz] et [4000-8000 Hz] obtenues par décomposition du signal par des filtres miroir en quadrature dit Quadrature Mirror Filters (QMF) en anglais, puis chacune des sous-bandes est codée séparément par un codeur MICDA.The input signal of a G.722-type encoder is in an expanded band with a minimum bandwidth of [50-7000 Hz] with a sampling frequency of 16 kHz. This signal is decomposed into two sub-bands [0-4000 Hz] and [4000-8000 Hz] obtained by decomposition of the signal by so-called quadrature mirror filters. Quadrature Mirror Filters (QMF) in English, then each of the subbands is separately encoded by an ADPCM encoder.
La bande basse est codée par un codage MICDA à codes imbriqués sur 6, 5 et 4 bits tandis que la bande haute est codée par un codeur MICDA de 2 bits par échantillon. Le débit total est de 64, 56 ou 48 bit/s suivant le nombre de bits utilisé pour le décodage de la bande basse.The low band is coded by a 6, 5 and 4 bit nested code ADPCM coding while the high band is coded by a 2 bit ADPCM coder per sample. The total bit rate is 64, 56 or 48 bit / s depending on the number of bits used for decoding the low band.
La recommandation G.722 a d'abord été utilisé dans le RNIS (Réseau Numérique à Intégration de Services) puis dans les applications de téléphonie améliorée sur réseau IP de qualité voix HD (Haute Définition) ou HD voice en anglais.Recommendation G.722 was first used in ISDN (Integrated Services Digital Network) and then in enhanced IP voice telephony applications in HD (High Definition) or HD voice in English.
Une trame de signal quantifié selon la norme G.722 est constituée d'indices de quantification codés sur 6, 5 ou 4 bits en bande basse (0-4000 Hz) et 2 bits en bande haute (4000-8000 Hz). La fréquence de transmission des indices scalaires étant de 8 kHz dans chaque sous-bande, le débit est de 64, 56 ou 48 kbit/s. Dans la norme G.722, les 8 bits sont répartis de la façon suivante: 2 bits pour la bande haute, 6 bits pour la bande basse. Le dernier ou les deux derniers bits de la bande basse peuvent être « volés » ou remplacés par des données.A quantized signal frame according to the G.722 standard consists of 6, 5 or 4 bit low band (0-4000 Hz) and 2 high band (4000-8000 Hz) coded quantization indices. Since the transmission frequency of the scalar indices is 8 kHz in each subband, the bit rate is 64, 56 or 48 kbit / s. In the G.722 standard, the 8 bits are distributed as follows: 2 bits for the high band, 6 bits for the low band. The last or last two bits of the low band can be "stolen" or replaced by data.
L'UIT-T a récemment lancé une activité de normalisation appelé G.722-SWB (dans le cadre de la question Q.10/16 décrit par exemple dans le document: document UIT-T : Annex Q10.J Terms of Reference (ToR) and time schedule for the super wideband extension to ITU-T G.722 and ITU-T G.711 WB, janvier 2009, WD04_G722G711SWBToRr3.doc) qui consiste à étendre la recommandation G.722 de 2 façons:
- Une extension de la bande acoustique de 50-7000 Hz (bande élargie) à 50-14000 Hz (bande super-élargie). En anglais la bande super-élargie est appelée Superwideband (SWB).
- Une extension de mono à stéréo. Cette extension stéréo peut étendre un codage mono en bande élargie ou un codage mono en bande super-élargie.
- An extension of the acoustic band from 50-7000 Hz (wide band) to 50-14000 Hz (super-wide band). In English the super-enlarged band is called Superwideband (SWB).
- An extension of mono to stereo. This stereo extension can extend wide-band mono coding or super-wide band mono coding.
Dans le contexte de G.722-SWB, le codage G.722 opère avec des trames courtes de 5 ms.In the context of G.722-SWB, G.722 coding operates with short 5 ms frames.
Nous nous intéressons ici plus particulièrement à l'extension stéréo du codage G.722 en bande élargieWe are particularly interested here in the stereo extension of the G.722 broadband coding
Deux modes d'extension stéréo de G.722 sont à tester dans la normalisation G.722-SWB:
- Une extension stéréo de G.722 à 56 kbit/s avec un débit additionnel de 8 kbit/s, soit 64 kbit/s au total
- Une extension de G.722 à 64 kbit/s avec un débit additionnel de 16 kbit/s, soit 80 kbit/s au total
- A G.722 stereo extension at 56 kbit / s with an additional bit rate of 8 kbit / s, or 64 kbit / s in total
- A 64 kbit / s G.722 extension with an additional bit rate of 16 kbit / s, or 80 kbit / s in total
L'information spatiale représentée par les paramètres ICLD ou autres requiert un débit (additionnel d'extension stéréo) d'autant plus important que les trames de codage sont courtes.The spatial information represented by the ICLD or other parameters requires a bit rate (additional stereo extension) all the more important as the coding frames are short.
A titre d'exemple, dans le contexte de la normalisation G.722-SWB, si l'on suppose qu'une extension stéréo de G.722 (bande élargie) est réalisée par la technique du codage d'intensité, on obtient le débit d'extension stéréo suivant.By way of example, in the context of G.722-SWB normalization, assuming that a stereo extension of G.722 (wide band) is performed by the intensity coding technique, we obtain the next stereo expansion rate.
Pour un signal somme (mono) codé par G.722 avec une trame de 5 ms et une découpe du spectre en bande élargie (0-8000 Hz) en 20 sous-bandes, on obtient 20 paramètres ICLD à transmettre toutes les 5 ms. On peut supposer que ces paramètres ICLD sont codés avec un débit (moyen) de l'ordre de 4 bits par sous-bande. Le débit d'extension stéréo de G.722 devient donc de 20 x 4 bits / 5 ms = 16 kbit/s. Ainsi l'extension stéréo de G.722 par ICLD avec 20 sous-bandes conduit à un débit additionnel de l'ordre de 16 kbit/s. Or d'après l'état de l'art le codage de l'ICLD seul n'est en général pas suffisant pour atteindre une bonne qualité stéréo.For a G.722 (mono) sum signal with a frame of 5 ms and a division of the broadband spectrum (0-8000 Hz) in 20 sub-bands, 20 ICLD parameters to be transmitted every 5 ms are obtained. It can be assumed that these ICLD parameters are coded with a bit rate (average) of the order of 4 bits per subband. The stereo extension rate of G.722 thus becomes 20 x 4 bits / 5 ms = 16 kbit / s. Thus the stereo extension of G.722 by ICLD with 20 sub-bands leads to an additional bit rate of the order of 16 kbit / s. However, according to the state of the art, the coding of the ICLD alone is not generally sufficient to achieve good stereo quality.
Cet exemple illustre donc la difficulté de réaliser une extension stéréo d'un codeur comme G.722 avec des trames courtes (de 5 ms).This example thus illustrates the difficulty of performing a stereo extension of an encoder such as G.722 with short frames (of 5 ms).
Un codage direct de l'ICLD (sans autres paramètres) donne un débit additionnel (d'extension stéréo) autour de 16 kbit/s qui est déjà le débit maximum d'extension possible pour l'extension G.722.Direct encoding of the ICLD (without other parameters) gives an additional bit rate (stereo extension) around 16 kbit / s which is already the maximum possible bit rate for the G.722 extension.
Il existe donc un besoin pour représenter un signal stéréo ou plus généralement multicanal, de façon efficace, à un débit aussi faible que possible, avec une qualité acceptable, lorsque les trames de codage sont courtes.There is therefore a need to represent a stereo signal or more generally multichannel, effectively, at a rate as low as possible, with acceptable quality, when coding frames are short.
La présente invention vient améliorer la situation.The present invention improves the situation.
A cet effet, elle propose dans un mode de réalisation, un procédé de codage paramétrique d'un signal audionumérique multicanal comme dans la revendication 1.For this purpose, it proposes in one embodiment, a parametric encoding method of a multichannel digital audio signal as in
L'invention s'applique également à un procédé de décodage paramétrique d'un signal audionumérique multicanal comme dans la revendication 5.The invention also applies to a parametric decoding method of a multichannel digital audio signal as in claim 5.
L'invention se rapporte également à un codeur comme dans la revendication 8.The invention also relates to an encoder as in claim 8.
L'invention se rapporte aussi à un décodeur comme dans la revendication 9.The invention also relates to a decoder as in claim 9.
Elle se rapporte aussi à un programme informatique comprenant des instructions de code pour la mise en oeuvre des étapes du procédé de codage tel que décrit et à un programme informatique comprenant des instructions de code pour la mise en oeuvre des étapes d'un procédé de décodage tel que décrit, lorsque celles-ci sont exécutées par un processeur.It also relates to a computer program comprising code instructions for implementing the steps of the encoding method as described and to a computer program comprising code instructions for implementing the steps of a decoding method. as described, when these are executed by a processor.
D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante, donnée uniquement à titre d'exemple non limitatif, et faite en référence aux dessins annexés, sur lesquels:
- la
figure 1 illustre un codeur mettant en oeuvre un codage paramétrique connu de l'état de l'art et précédemment décrit; - la
figure 2 illustre un décodeur mettant en oeuvre un décodage paramétrique connu de l'état de l'art et précédemment décrit; - la
figure 3 illustre un codeur selon un mode de réalisation de l'invention, mettant en oeuvre un procédé de codage selon un mode de réalisation de l'invention; - la
figure 4 illustre un décodeur selon un mode de réalisation de l'invention, mettant en oeuvre un procédé de décodage selon un mode de réalisation de l'invention; - la
figure 5 illustre la division d'un signal audio numérique en trames dans un codeur mettant en oeuvre un procédé de codage selon un mode de réalisation de l'invention; - la
figure 6 illustre un procédé de codage et un codeur selon un autre mode de réalisation de l'invention; et - les
figures 7a et 7b illustrent respectivement un dispositif apte à mettre en oeuvre le procédé de codage et le procédé de décodage selon un mode de réalisation de l'invention.
- the
figure 1 illustrates an encoder implementing a parametric coding known from the state of the art and previously described; - the
figure 2 illustrates a decoder implementing a parametric decoding known from the state of the art and previously described; - the
figure 3 illustrates an encoder according to one embodiment of the invention, implementing a coding method according to one embodiment of the invention; - the
figure 4 illustrates a decoder according to one embodiment of the invention, implementing a decoding method according to one embodiment of the invention; - the
figure 5 illustrates the division of a digital audio signal into frames in an encoder implementing a coding method according to an embodiment of the invention; - the
figure 6 illustrates a coding method and an encoder according to another embodiment of the invention; and - the
Figures 7a and 7b respectively illustrate a device adapted to implement the coding method and the decoding method according to one embodiment of the invention.
En référence à la
Ce codeur stéréo paramétrique opère en bande élargie avec des signaux stéréo échantillonnés à 16 kHz avec des trames de 5 ms. Chaque canal (L et R) est d'abord pré-filtré par un filtre passe-haut (HPF pour High Pass Filter en anglais) éliminant les composantes en dessous 50 Hz (blocs 301 et 302). Ensuite un signal mono (M) est calculé par le bloc 303, dont un exemple de réalisation est donné sous la forme:
Ce signal est codé (bloc 304) par un codeur de type G.722, tel que décrit par exemple dans la recommendation UIT-T G.722, 7 kHz audio-coding within 64 kbit/s, Nov. 1988..This signal is encoded (block 304) by a G.722 type encoder, as described, for example, in ITU-T Recommendation G.722, 7 kHz audio-coding within 64 kbit / s , Nov. 1988.
Le retard introduit dans le codage de type G.722 est de 22 échantillons à 16 kHz. Les canaux L et R sont alignés dans le temps (blocs 305 et 308) avec un retard de T = 22 échantillons et analysés en fréquentiel par transformée, par exemple par transformée en Fourier discrète avec fenêtrage sinusoïdal à recouvrement qui dans l'exemple ici est de 50% (blocs 306, 307 et 309, 310). Chaque fenêtre couvre ainsi 2 trames de 5 ms soit 10 ms (160 échantillons).The delay introduced in the G.722 type coding is 22 samples at 16 kHz. The L and R channels are aligned in time (
La division du signal en trames est définie en référence à la
La prise en compte de la trame future induit donc un retard algorithmique supplémentaire de 5 ms au codeur.Taking into account the future frame induces an additional algorithmic delay of 5 ms to the encoder.
Pour la trame t, les spectres obtenus, L[t,j] et R[t, j] (j=0...79), en sortie des blocs 307 et 310 de la
Le bloc 311 d'extraction de paramètres d'informations spatiales est maintenant détaillé.The
Celui-ci comprend, dans le cas du traitement dans le domaine fréquentiel, un premier module 313 de découpage des spectres L[t, j] et R[t, j] en un nombre prédéterminé de sous-bandes de fréquence, par exemple ici en 20 sous-bandes suivant l'échelle définie ci-dessous:
- {B(k)} k=0,..,20 = [0, 1, 2, 3, 4, 5, 6, 7, 9, 11, 13, 16, 19, 23, 27, 31, 37, 44, 52, 61, 80]
- { B (k) } k = 0, .., 20 = [0, 1, 2, 3, 4, 5, 6, 7, 9, 11, 13, 16, 19, 23, 27, 31, 37, 44, 52, 61, 80]
Cette échelle délimite (en nombre de coefficients de Fourier) les sous-bandes fréquentielles d'indice k = 0 à 19. Par exemple la première sous-bande (k=0) va du coefficient B(k)=0 à B(k+1)-1 = 0; elle est donc réduite à un seul coefficient (100 Hz).This scale delimits (in number of Fourier coefficients) the frequency subbands of index k = 0 to 19. For example the first sub-band ( k = 0) goes from the coefficient B (k) = 0 to B (k + 1) -1 = 0; it is therefore reduced to a single coefficient (100 Hz).
De même la dernière sous-bande (k=19) va du coefficient B(k)=61 à B(k+1)-1 = 79, elle comprend 19 coefficients (1900 Hz).Similarly, the last subband ( k = 19) goes from the coefficient B (k) = 61 to B (k + 1) - 1 = 79, it comprises 19 coefficients (1900 Hz).
Le module 314 comprend des moyens d'obtention des paramètres d'informations spatiales du signal stéréo.The
Par exemple, les paramètres obtenus sont les paramètres de différence d'intensité intercanal, ICLD.For example, the parameters obtained are the interchannel intensity difference parameters, ICLD.
Pour chaque trame d'indice t, l'ICLD de la sous-bande k=0,...,19 est calculé suivant l'équation:
où
or
Dans un mode de réalisation particulier, ces énergies sont calculées comme suit:
Cette formule revient à combiner l'énergie de 2 trames successives, ce qui correspond à un support temporel de 10 ms (15 ms si l'on compte le support temporel effectif de deux fenêtres successives).This formula amounts to combining the energy of two successive frames, which corresponds to a temporal support of 10 ms (15 ms if we count the effective temporal support of two successive windows).
Le module 314 produit donc une série de paramètres ICLD définis précédemment.The
Ces paramètres ICLD sont divisés dans le module 315 de division, en plusieurs blocs. Dans le mode de réalisation illustré ici, les paramètres sont divisés en deux blocs suivant les deux parties suivantes: {ICLD[t,k]} k=0,...,9 et {ICLD[t,k]} k=10,...,19.These ICLD parameters are divided into the
La division des paramètres ICLD en blocs contigus permet d'effectuer un codage différentiel des indices de quantification scalaire.The division of ICLD parameters into contiguous blocks makes it possible to perform a differential coding of the scalar quantization indices.
Le module 316 effectue ensuite une sélection (St.) d'un bloc à coder en fonction d'indice de la trame courante à coder.The
Dans l'exemple décrit ici, pour les trames t d'indice pair, le bloc {ICLO[t,k]} k=0,...,9 est codé en 312 et transmis, pour les trames t d'indice impair, le bloc {ICLD[t,k]} k=10,...,19 est codé en 312 et transmis.In the example described herein, for the frames t even index, the block ICLO {[t, k]} k = 0, ..., 9 is encoded at 312 and transmitted to the frame t odd index the block {ICLD [ t, k ]} k = 10, ..., 19 is coded at 312 and transmitted.
Le codage de ces blocs en 312 s'effectue par exemple par quantification scalaire non uniforme.The coding of these blocks at 312 is carried out for example by non-uniform scalar quantization.
Ainsi, le codage d'un bloc de 10 ICLD est réalisé avec:
- 5 bits pour le premier paramètre ICLD,
- 4 bits pour les 8 paramètres ICLD suivants,
- 3 bits pour le dernier (dixième) paramètre ICLD.
- 5 bits for the first ICLD parameter,
- 4 bits for the following 8 ICLD parameters,
- 3 bits for the last (tenth) ICLD parameter.
Un exemple plus détaillé de réalisation est par exemple comme ci-dessous: Pour la table de quantification:
la quantification à 5 bits de ICLD[t,k] consiste à trouver l'indice de quantification i tel que
the 5-bit quantization of ICLD [t, k] consists in finding the quantization index i such that
De même pour la table de quantification:
la quantification à 4 bits de ICLD[t,k] consiste à trouver l'indice de quantification i tel que
the 4-bit quantization of ICLD [t, k] consists of finding the quantization index i such that
Enfin pour la table de quantification tab_ild_q3[7] = { -16, -8, -4, 0,4, 8, 16 } la quantification à 3 bits de ICLD[t,k] consiste à trouver l'indice de quantification i tel que
Au total 5 + 8x4 +3 = 40 bits sont donc nécessaires pour le codage d'un bloc de 10 ICLD. La trame étant de 5 ms, on obtient donc 40 bits / 5 ms = 8 kbit/s comme débit supplémentaire pour l'extension de codage stéréo.In total 5 + 8x4 +3 = 40 bits are therefore necessary for the coding of an ICLD block. The frame being 5 ms, we thus obtain 40 bits / 5 ms = 8 kbit / s as additional bit rate for the stereo coding extension.
Ce débit n'est donc pas trop important et suffit pour transmettre de façon efficace les paramètres stéréo.This bit rate is therefore not too great and is sufficient to efficiently transmit the stereo parameters.
Deux trames successives suffisent dans cet exemple de réalisation, pour obtenir les paramètres d'informations spatiales du signal multicanal, la longueur de deux trames étant la plupart du temps la longueur d'une fenêtre d'analyse pour une transformation fréquentielle à recouvrement de 50%.Two successive frames suffice in this embodiment to obtain the spatial information parameters of the multichannel signal, the length of two frames being most often the length of an analysis window for a 50% overlap frequency transformation. .
Dans une variante, une fenêtre plus courte de recouvrement pourrait être utilisée pour réduire le retard introduit.Alternatively, a shorter recovery window could be used to reduce the delay introduced.
Ainsi, le codeur décrit en référence à la
- obtention (Obt.), par trame de longueur prédéterminée, de paramètres d'information spatiale du signal multicanal;
- division (Div.) des paramètres d'information spatiale en une pluralité de blocs de paramètres;
- sélection (St.) d'un bloc de paramètres en fonction de l'indice de la trame courante;
- codage (Q) du bloc de paramètres sélectionné pour la trame courante.
- obtaining (Obt.), per frame of predetermined length, spatial information parameters of the multichannel signal;
- dividing (Div) spatial information parameters into a plurality of parameter blocks;
- selecting (St.) a parameter block according to the index of the current frame;
- encoding (Q) of the selected parameter block for the current frame.
Dans le mode de réalisation décrit ci-dessus, on se situait dans le contexte d'un codeur en bande élargie fonctionnant avec une fréquence d'échantillonnage de 16 kHz et une découpe en sous-bande particulière.In the embodiment described above, it was in the context of an expanded band encoder operating with a sampling frequency of 16 kHz and a particular subband cut.
Dans un autre mode de réalisation possible, le codeur peut opérer à d'autres fréquences (comme 32 kHz) et avec une découpe en sous-bandes différente.In another possible embodiment, the encoder may operate at other frequencies (such as 32 kHz) and with different subband cutting.
On peut également exploiter le fait que le paramètre ICLD[t,k] pour k=0 peut être négligé. Son calcul et donc son codage peuvent être évités. Dans ce cas le codage des paramètres ICLD devient:
- pour les trames d'indice t pair: codage d'un bloc de 9 paramètres {ICLD [t,k]} k=1,...,9 par quantification scalaire non-uniforme avec:
- 5 bits pour le premier paramètre ICLD[t,k] avec k=1
- 4 bits pour les 8 paramètres ICLD suivants
- pour les trames d'indice t impair: codage d'un bloc de 10 paramètres {ICLD[t,k]} k=10,...,19 comme présenté précédemment
- 5 bits pour le premier paramètre ICLD,
- 4 bits pour les 8 paramètres ICLD suivants,
- 3 bits pour le dernier (dixième) paramètre ICLD.
- for frames of even t- index: coding of a block of 9 parameters {ICLD [ t , k ]} k = 1, ..., 9 by non-uniform scalar quantization with:
- 5 bits for the first parameter ICLD [ t , k ] with k = 1
- 4 bits for the following 8 ICLD parameters
- for frames of odd t- index: coding of a block of 10 parameters {ICLD [ t , k ]} k = 10, ..., 19 as previously presented
- 5 bits for the first ICLD parameter,
- 4 bits for the following 8 ICLD parameters,
- 3 bits for the last (tenth) ICLD parameter.
On utilise ainsi, dans ce mode de réalisation, 37 bits pour les trames d'indice t pair et 40 bits pour les trames d'indices t impair.Thus, in this embodiment, 37 bits are used for frames of even t- index and 40 bits for frames of odd t- indexes.
De même, dans une variante de réalisation, au lieu de diviser les paramètres ICLD en blocs contigus, on peut diviser ces paramètres différemment, par exemple en entrelacement pour obtenir 2 parties: {ICLD[t,2k]}k=0,...,9 et ICLD[t,2k+1]} k=0,...,9.Similarly, in an alternative embodiment, instead of dividing the ICLD parameters into contiguous blocks, these parameters can be divided differently, for example into interleaving to obtain 2 parts: {ICLD [ t , 2 k ]} k = 0 ,. .., 9 and ICLD [ t , 2 k +1]} k = 0, ..., 9 .
A noter que le procédé de codage ainsi décrit se généralise facilement au cas où les paramètres sont divisés en plus de 2 blocs. Dans une variante de réalisation, les 20 paramètres ICLD sont divisés en 4 blocs:
Le codage des paramètres ICLD est alors réparti sur 4 trames successives avec mémorisation des paramètres décodés dans les trames précédentes lors du décodage. Le calcul des ICLD doit alors être modifié afin d'inclure plus de 2 trames dans le calcul des énergies
Dans cette variante de réalisation, le codage des paramètres ICLD peut alors utiliser l'allocation suivante:
- 5 bits pour le premier paramètre ICLD
- 4 bits pour les 4 paramètres ICLD suivants
- 5 bits for the first ICLD parameter
- 4 bits for the following 4 ICLD parameters
Cependant l'intérêt de transmettre les paramètres stéréo ou spatiaux à un rythme plus faible que celui des trames est toujours grand. On exploite ainsi la perception auditive imparfaite des variations énergétiques intercanal.However, the interest of transmitting the stereo or spatial parameters at a slower rate than that of the frames is always great. The imperfect auditory perception of interchanal energy variations is exploited.
Enfin le procédé de codage ainsi décrit s'applique au codage d'autres paramètres que le paramètre ICLD. Par exemple le paramètre de cohérence (ICC) peut être calculé et transmis de façon sélective de manière similaire à l'ICLD.Finally, the encoding method thus described applies to the encoding of other parameters than the ICLD parameter. For example, the coherence parameter (ICC) can be calculated and transmitted selectively in a manner similar to the ICLD.
Les deux paramètres peuvent également être calculés et codés selon le procédé de codage décrit précédemment.The two parameters can also be calculated and coded according to the coding method described above.
La
La partie du train binaire scalable en débit et reçu du codeur G.722 est démultiplexée et décodée par un décodeur de type G.722 (bloc 401) au mode de 56 ou 64 kbit/s. Le signal synthétisé obtenu correspond au signal mono M̂(n) en l'absence d'erreurs de transmission.The portion of bit stream scalable and received from the G.722 encoder is demultiplexed and decoded by a G.722 type decoder (block 401) in 56 or 64 kbit / s mode. The synthesized signal obtained corresponds to the mono signal M ( n ) in the absence of transmission errors.
Une analyse par transformée de Fourier discrète à court-terme avec le même fenêtrage qu'au codeur est réalisée sur M̂(n) (blocs 402 et 403) pour obtenir le spectre M̂[j].A short-term discrete Fourier transform analysis with the same windowing as the encoder is performed on M ( n ) (
La partie du train binaire associée à l'extension stéréo est aussi démultiplexée au bloc 404.The part of the bit stream associated with the stereo extension is also demultiplexed at
Le fonctionnement du bloc 405 de synthèse est maintenant détaillé.The operation of the
Pour les trames t d'indice pair, on décode dans le module 404 un premier bloc de paramètres {ICLDq[t,k]} k=0,...,9 et on mémorise dans le module 412 ces paramètres décodés. Pour les trames t d'indice impair on décode dans le module 404 un deuxième bloc de paramètres {ICLDq[t,k]} k=10,...,19 et on mémorise dans le module 412 ces paramètres décodés.For even-numbered frames t , a first parameter block {ICLD q [ t , k ]} k = 0,..., 9 is decoded in the
Un exemple plus détaillé de réalisation est par exemple comme ci-dessous:A more detailed example of realization is for example as below:
Pour la table de quantification:
le décodage d'un indice i à 5 bits consiste à synthétiser le paramètre ICLDq[t,k] comme
De même pour la table de quantification:
Enfin pour la table de quantification tab_ild_q3[7] = { -16, -8, -4, 0, 4, 8, 16 } le décodage d'un indice i à 3 bits consiste à synthétiser le paramètre ICLDq[t,k] comme
Dans les trames d'indice pair, on utilise alors dans le module 413, pour la partie manquante des paramètres, les valeurs mémorisées {ICLDq[t - l,k]} k=10,....19 dans la trame précédente, soit: ICLDq[t,k] = ICLDq[t - l,k] pour k=10...19. De façon similaire, dans les trames d'indice impair, on utilise pour la partie manquante {ICLDq[t - l, k]} k=0,...,9 les valeurs mémorisées dans la trame précédente.In even-numbered frames, then, in the
Les paramètres pour chacune des bandes de fréquences sont ainsi obtenus. Les spectres des canaux gauche et droit sont reconstruits par le module de synthèse 414 en appliquant les paramètres {ICLDq[t - l, k]}k=0,...,19 ainsi décodés par sous-bande. Cette synthèse est réalisée par exemple comme suit:
avec
où
with
or
A noter que le calcul des facteurs d'échelle ci-dessus est donné à titre d'exemple. D'autres moyens d'expression des facteurs d'échelle existent et peuvent être mis en oeuvre pour la présente invention.Note that the calculation of scale factors above is given as an example. Other means of expressing scale factors exist and can be implemented for the present invention.
Les canaux gauche et droit L(n) et R̂(n) sont reconstruits par transformée de Fourier discrète inverse (blocs 406 et 409) des spectres respectifs L̂[j] et R̂[j] et addition-recouvrement (blocs 408 et 411) avec fenêtrage sinusoïdal (blocs 407 et 410).The left and right channels L ( n ) and R ( n ) are reconstructed by inverse discrete Fourier transform (
Ainsi, le décodeur décrit en référence à la
- décodage (Q-1) de paramètres d'information spatiale reçus pour une trame courante de longueur prédéterminée de signal décodé;
- mémorisation (Mem) des paramètres décodés pour la trame courante;
- obtention (Comp.P) des paramètres décodés et mémorisés d'au moins une trame précédente et association de ces paramètres à ceux décodés pour la trame courante;
- reconstruction (Synth.) du signal multicanal à partir du signal décodé et de l'association de paramètres obtenus pour la trame courante.
- decoding (Q -1 ) received spatial information parameters for a current frame of predetermined length of decoded signal;
- storing (Mem) decoded parameters for the current frame;
- obtaining (Comp.P) decoded and stored parameters of at least one previous frame and associating these parameters with those decoded for the current frame;
- reconstruction (Synth.) of the multichannel signal from the decoded signal and the combination of parameters obtained for the current frame.
Dans le cas d'une division en plus de deux blocs des paramètres d'informations spatiales, par exemple en 4 blocs comme dans une variante de réalisation décrite précédemment, on obtient tous les blocs de paramètres décodés pour 4 trames décodées.In the case of a division in more than two blocks spatial information parameters, for example in 4 blocks as in an embodiment variant described above, all the decoded parameter blocks for 4 decoded frames are obtained.
Le débit de l'extension stéréo est donc réduit et l'obtention de ces paramètres permet de reconstruire un signal stéréo de bonne qualité.The bit rate of the stereo extension is therefore reduced and obtaining these parameters makes it possible to reconstruct a stereo signal of good quality.
On peut aussi noter que des techniques alternatives au codage des paramètres (ICLD, ICPD, ICC) peuvent être adoptées pour mettre oeuvre le procédé de codage selon l'invention.It may also be noted that alternative techniques to parameter coding (ICLD, ICPD, ICC) can be adopted to implement the coding method according to the invention.
Ainsi dans une variante de réalisation, le module 314 du bloc d'extraction de paramètres de la
Ce module dans ce mode de réalisation permet d'obtenir d'autres paramètres stéréo en appliquant une analyse en composante principale (ACP) comme celle décrite dans l'article de Manuel Briand, David Virette et Nadine Martin intitulé "Parametric coding of stereo audio based on principal component analysis" paru dans la conférence DAFX, 1991.This module in this embodiment makes it possible to obtain other stereo parameters by applying a principal component analysis (PCA) such as that described in the article by Manuel Briand, David Virette and Nadine Martin entitled "Parametric coding of stereo audio based principal component analysis "published in the DAFX conference, 1991.
Ainsi, une analyse en composante principale est effectuée par sous-bandes. Les canaux gauche et droit ainsi analysés sont ensuite modifiés par rotation afin d'obtenir un composant principal et un composant secondaire qualifié d'ambiance. L'analyse stéréo produit, pour chaque sous-bande, un paramètre d'angle de rotation (θ) et un ratio d'énergie entre le composant principal et le signal d'ambiance (PCAR qui signifie Principal Component to Ambience energy Ratio).Thus, a principal component analysis is performed by subbands. The left and right channels thus analyzed are then rotated to obtain a main component and a qualified environment sub component. The stereo analysis produces, for each sub-band, a rotation angle parameter (θ) and an energy ratio between the main component and the ambient signal ( PCAR which means Principal Component to Ambience Energy Ratio).
Les paramètres stéréo sont alors constitués du paramètre d'angle de rotation et du ratio d'énergie (θ et PCAR).The stereo parameters then consist of the angle of rotation parameter and the energy ratio (θ and PCAR).
La
Par rapport au codeur de la
Cependant, cette opération ne permet pas nécessairement une conservation de l'énergie. Une amélioration de cette opération de "downmix" est possible dans le domaine temporel, par exemple avec un calcul de la forme M(n) = w 1 L(n) + w 2 R(n) et des poids w 1 et w 2 adaptatifs, ou encore en fréquentiel comme représenté ici en référence à la
L'opération de "downmix" est ici constituée des blocs 603a, 603b, 603c et 603d pour le passage dans le domaine fréquentiel.The "downmix" operation here consists of the
Le calcul du signal mono s'effectue dans le bloc 603e de "downmix" dans lequel le signal est calculé dans le domaine fréquentiel par la formule suivante:
où|.| représente l'amplitude (module complexe) et ∠(.) la phase (argument complexe).The calculation of the mono signal is carried out in
where |. | represents the amplitude (complex module) and ∠ (.) the phase (complex argument).
Les blocs 603f, 603g et 603h permettent de ramener le signal mono dans le domaine temporel afin d'être codé par le bloc 304 comme pour le codeur illustré en
Un décalage de T' = 80+T échantillons est alors obtenu, soit un décalage de 80+80+22 = 182 échantillons.An offset of T '= 80 + T samples is then obtained, an offset of 80 + 80 + 22 = 182 samples.
Ce décalage permet de synchroniser les trames temporelles des canaux gauche/droit et ceux du signal mono décodé.This offset makes it possible to synchronize the time frames of the left / right channels and those of the decoded mono signal.
L'invention a été décrite ici dans le cas d'un codeur/décodeur G.722. elle peut bien évidemment s'appliquer dans le cas d'un codeur G.722 modifié, par exemple incluant des mécanismes de réduction de bruit ("noise feedback" en anglais) ou incluant une extension scalable de G.722 avec informations supplémentaires. L'invention peut également s'appliquer dans le cas d'un autre codeur mono que celui de type G.722 comme par exemple un codeur de type G.711.1. Dans ce dernier cas, le retard T doit être ajusté pour prendre en compte le retard du codeur G.711.1.The invention has been described here in the case of a G.722 encoder / decoder. it can obviously apply in the case of a modified G.722 encoder, for example including noise reduction mechanisms ( English) or including a scalable extension of G.722 with additional information. The invention can also be applied in the case of another mono encoder than the G.722 type such as for example a G.711.1 type encoder. In the latter case, the delay T must be adjusted to take into account the delay of the G.711.1 encoder.
De même, l'analyse temps-fréquence du mode de réalisation décrit en référence à la
- un autre fenêtrage que le fenêtrage sinusoïdal pourrait être utilisé,
- un autre recouvrement que le recouvrement à 50% entre fenêtres successives pourrait être utilisé
- une autre transformée fréquentielle que la transformée de Fourier, par exemple la transformée en cosinus discret modifiée (MDCT en anglais) pourrait être utilisée.
- another windowing than sinusoidal windowing could be used,
- another covering than the 50% overlap between successive windows could be used
- another frequency transform than the Fourier transform, for example the modified discrete cosine transform (MDCT) could be used.
Les modes de réalisation décrit précédemment traitaient du cas d'un signal multicanal de type signal stéréo, la réalisation de l'invention s'étend également au cas plus général du codage de signaux multicanaux (avec plus de 2 canaux audio) à partir d'un "downmix" mono ou même stéréo.The embodiments described previously dealt with the case of a multichannel signal of the stereo signal type, the embodiment of the invention also extends to the more general case of the coding of multichannel signals (with more than 2 audio channels) starting from a mono or even stereo downmix.
Dans ce cas le codage de l'information spatiale implique le codage et la transmission de paramètres d'information spatiale. C'est par exemple le cas de signaux à 5.1 canaux comprenant un canal gauche (L), droit (R), centre (C), arrière gauche (Ls pour Left surround), arrière droit (Rs pour Right surround), et subwoofer (LFE pour Low Freguency Effects). Les paramètres d'information spatiale du signal multicanal prennent alors en compte les différences ou les cohérences entre les différents canaux.In this case the coding of spatial information involves the coding and transmission of spatial information parameters. This is for example the case of 5.1 channel signals including a left channel (L), right (R), center (C), left rear (Ls for Left surround), right rear (Rs for Right surround ), and subwoofer (LFE for Low Freguency Effects ). The spatial information parameters of the multichannel signal then take into account the differences or the coherences between the different channels.
Les codeurs et décodeurs tels que décrit en référence aux
La
Le bloc mémoire peut avantageusement comporter un programme informatique comportant des instructions de code pour la mise en oeuvre des étapes du procédé de codage au sens de l'invention, lorsque ces instructions sont exécutées par le processeur PROC, et notamment les étapes:
- d'obtention, par trame de longueur prédéterminée, de paramètres d'information spatiale du signal multicanal;
- de division des paramètres d'information spatiale en une pluralité de blocs de paramètres;
- de sélection d'un bloc de paramètres en fonction de l'indice de la trame courante;
- de codage du bloc de paramètres sélectionné pour la trame courante.
- obtaining, by frame of predetermined length, spatial information parameters of the multichannel signal;
- dividing the spatial information parameters into a plurality of parameter blocks;
- selecting a parameter block according to the index of the current frame;
- encoding the selected parameter block for the current frame.
Typiquement, la description de la
Le dispositif comporte un module d'entrée apte à recevoir un signal multicanal Sm représentant une scène sonore, soit par un réseau de communication, soit par lecture d'un contenu stocké sur un support de stockage. Cet équipement multimédia peut également comporter des moyens de capture d'un tel signal multicanal.The device comprises an input module adapted to receive a multichannel signal S m representing a sound scene, either by a communication network, or by reading a content stored on a storage medium. This multimedia equipment may also include means for capturing such a multichannel signal.
Le dispositif comporte un module de sortie apte à transmettre les paramètres d'informations spatiales codées Pc et un signal somme Ss issus du codage du signal multicanal.The device comprises an output module capable of transmitting the coded spatial information parameters P c and a sum signal Ss resulting from the coding of the multichannel signal.
De la même façon, la
Ce dispositif comporte un processeur PROC coopérant avec un bloc mémoire BM comportant une mémoire de stockage et/ou de travail MEM.This device comprises a PROC processor cooperating with a memory block BM having a storage and / or working memory MEM.
Le bloc mémoire peut avantageusement comporter un programme informatique comportant des instructions de code pour la mise en oeuvre des étapes du procédé de décodage au sens de l'invention, lorsque ces instructions sont exécutées par le processeur PROC, et notamment les étapes de:
- décodage de paramètres d'information spatiale reçus pour une trame courante de longueur prédéterminée de signal décodé;
- mémorisation des paramètres décodés pour la trame courante;
- obtention des paramètres décodés et mémorisés d'au moins une trame précédente et association de ces paramètres à ceux décodés pour la trame courante;
- reconstruction du signal multicanal à partir du signal décodé et de l'association de paramètres obtenus pour la trame courante.
- decoding received spatial information parameters for a current frame of predetermined length of decoded signal;
- storing the decoded parameters for the current frame;
- obtaining decoded and stored parameters of at least one previous frame and associating these parameters with those decoded for the current frame;
- reconstruction of the multichannel signal from the decoded signal and the combination of parameters obtained for the current frame.
Typiquement, la description de la
Le dispositif comporte un module d'entrée apte à recevoir les paramètres d'information spatiale codés Pc et un signal somme Ss provenant par exemple d'un réseau de communication. Ces signaux d'entrée peuvent provenir d'une lecture sur un support de stockage.The device comprises an input module able to receive the coded spatial information parameters P c and a sum signal S s originating, for example, from a communication network. These input signals can come from a reading on a storage medium.
Le dispositif comporte un module de sortie apte à transmettre un signal multicanal décodé par le procédé de décodage mis en oeuvre par l'équipement.The device comprises an output module capable of transmitting a multichannel signal decoded by the decoding method implemented by the equipment.
Cet équipement multimédia peut également comporter des moyens de restitution de type haut-parleur ou des moyens de communication apte à transmettre ce signal multi-canal.This multimedia equipment may also include speaker-type reproduction means or communication means capable of transmitting this multi-channel signal.
Bien évidemment, un tel équipement multimédia peut comporter à la fois le codeur et le décodeur selon l'invention. Le signal d'entrée étant alors le signal multicanal original et le signal de sortie, le signal multicanal décodé.Obviously, such multimedia equipment may include both the encoder and the decoder according to the invention. The input signal then being the original multichannel signal and the output signal, the decoded multichannel signal.
Claims (9)
- Parametric coding method for a multichannel digital audio signal comprising a coding step (G.722 Cod) for coding a signal from a channel reduction matrixing of the multichannel signal, characterized in that it also comprises the following steps:- frequency transformation (Fen., FFT) of the multichannel signal to obtain the spectra of the multichannel signal, for each frame;- subdivision (D), for each frame, of the spectra of the multichannel signal, into a plurality of frequency sub-bands;- obtaining, for each frame of predetermined length and for each frequency sub-band, of spatial information parameters;- division (Div.) of the spatial information parameters into two blocks of parameters interleaving the parameters of the different frequency sub-bands;- selection of the first or of the second block of parameters to be coded out of the two blocks obtained in the division step, according to whether the current frame to be coded is of even index or of odd index;- coding (Q) of the spatial information parameters of the block of parameters selected for the current frame.
- Method according to Claim 1, characterized in that said spatial information parameters are defined as the energy ratio between the channels of the multichannel signal.
- Method according to Claim 1, characterized in that the coding of the spatial information parameters of a block of parameters is performed by non-uniform scalar quantization.
- Method according to Claim 1, characterized in that it also comprises a principal component analysis step to obtain the spatial information parameters comprising a rotation angle parameter and an energy ratio between a principal component and an ambience signal.
- Parametric decoding method for a multichannel digital audio signal comprising a decoding step (G.722 Dec) for decoding a signal from a channel reduction matrixing of the multichannel signal, characterized in that it also comprises the following steps:- decoding (Q-1) spatial information parameters received for a current frame of predetermined length of the decoded signal;- storing (Mem) the decoded parameters for the current frame;- obtaining (Comp.P) the decoded and stored parameters of at least one preceding frame and associating these parameters with those decoded for the current frame, the decoded and stored parameters of a preceding frame and the decoded parameters of the current frame corresponding to the interleaved parameters of different frequency sub-bands of the decoding frequency band;- reconstructing (Synth.) of the multichannel signal from the decoded signal and from the association of parameters obtained for the current frame.
- Computer program comprising code instructions for implementing the steps of a coding method according to one of Claims 1 to 4, when they are executed by a processor.
- Computer program comprising code instructions for implementing the steps of a decoding method according to Claim 5, when they are executed by a processor.
- Parametric coder for coding a multichannel digital audio signal comprising a coding module (304) for coding a signal from a channel reduction matrixing of the multichannel signal, characterized in that it also comprises:- a module for frequency transformation (307, 310) of the multichannel signal to obtain the spectra of the multichannel signal, for each frame;- a module for subdividing (313), for each frame, the spectra of the multichannel signal, into a plurality of frequency sub-bands,- a module for obtaining (314), for each frame of predetermined length, and for each frequency sub-band, spatial information parameters of the multichannel signal;- a module for dividing (315) the spatial information parameters into two blocks of parameters interleaving the parameters of the different frequency sub-bands;- a module for selecting (316) the first or the second block of parameters to be coded out of the two blocks obtained by the division module, according to whether the current frame to be coded is of even index or of odd index;- a coding module(312) suitable for coding the spatial information parameters of the block of parameters selected for the current frame.
- Parametric decoder for decoding a multichannel digital audio signal comprising a decoding module (401) for decoding a signal from a channel reduction matrixing of the multichannel signal, characterized in that it also comprises:- a decoding module (404) for decoding spatial information parameters received for a current frame of predetermined length of the decoded signal;- storage space (412) for storing the parameters for the current frame;- a module (413) for obtaining the decoded and stored parameters of at least one preceding frame and associating these parameters with those decoded for the current frame, the decoded and stored parameters of a preceding frame and the decoded parameters of the current frame corresponding to the interleaved parameters of different frequency sub-bands of the decoding frequency band;- a reconstruction module (414) for reconstructing the multichannel signal from the decoded signal and from the association of parameters obtained for the current frame.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0957254 | 2009-10-15 | ||
PCT/FR2010/052192 WO2011045548A1 (en) | 2009-10-15 | 2010-10-15 | Optimized low-throughput parametric coding/decoding |
Publications (2)
Publication Number | Publication Date |
---|---|
EP2489039A1 EP2489039A1 (en) | 2012-08-22 |
EP2489039B1 true EP2489039B1 (en) | 2015-08-12 |
Family
ID=42109842
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
EP10785120.6A Active EP2489039B1 (en) | 2009-10-15 | 2010-10-15 | Optimized low-throughput parametric coding/decoding |
Country Status (7)
Country | Link |
---|---|
US (1) | US9167367B2 (en) |
EP (1) | EP2489039B1 (en) |
JP (1) | JP5752134B2 (en) |
KR (1) | KR101646650B1 (en) |
CN (1) | CN102656628B (en) |
BR (1) | BR112012008793B1 (en) |
WO (1) | WO2011045548A1 (en) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102812511A (en) * | 2009-10-16 | 2012-12-05 | 法国电信公司 | Optimized Parametric Stereo Decoding |
CN103854650A (en) * | 2012-11-30 | 2014-06-11 | 中兴通讯股份有限公司 | Stereo audio coding method and device |
WO2014108738A1 (en) * | 2013-01-08 | 2014-07-17 | Nokia Corporation | Audio signal multi-channel parameter encoder |
US10199044B2 (en) | 2013-03-20 | 2019-02-05 | Nokia Technologies Oy | Audio signal encoder comprising a multi-channel parameter selector |
US20160111100A1 (en) * | 2013-05-28 | 2016-04-21 | Nokia Technologies Oy | Audio signal encoder |
CN106104684A (en) | 2014-01-13 | 2016-11-09 | 诺基亚技术有限公司 | Multi-channel audio signal grader |
EP3067885A1 (en) * | 2015-03-09 | 2016-09-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding or decoding a multi-channel signal |
FR3048808A1 (en) * | 2016-03-10 | 2017-09-15 | Orange | OPTIMIZED ENCODING AND DECODING OF SPATIALIZATION INFORMATION FOR PARAMETRIC CODING AND DECODING OF A MULTICANAL AUDIO SIGNAL |
CN105895108B (en) * | 2016-03-18 | 2020-01-24 | 南京青衿信息科技有限公司 | Panoramic sound processing method |
CN105895106B (en) * | 2016-03-18 | 2020-01-24 | 南京青衿信息科技有限公司 | Panoramic sound coding method |
CN105898669B (en) * | 2016-03-18 | 2017-10-20 | 南京青衿信息科技有限公司 | A kind of coding method of target voice |
CN107452387B (en) * | 2016-05-31 | 2019-11-12 | 华为技术有限公司 | A kind of extracting method and device of interchannel phase differences parameter |
US20180213340A1 (en) * | 2017-01-26 | 2018-07-26 | W. L. Gore & Associates, Inc. | High throughput acoustic vent structure test apparatus |
EP3706119A1 (en) * | 2019-03-05 | 2020-09-09 | Orange | Spatialised audio encoding with interpolation and quantifying of rotations |
CN118314908A (en) * | 2023-01-06 | 2024-07-09 | 华为技术有限公司 | Scene audio decoding method and electronic equipment |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10340099A (en) * | 1997-04-11 | 1998-12-22 | Matsushita Electric Ind Co Ltd | Audio decoder device and signal processor |
US7006555B1 (en) * | 1998-07-16 | 2006-02-28 | Nielsen Media Research, Inc. | Spectral audio encoding |
JP4387001B2 (en) * | 1999-08-27 | 2009-12-16 | 三菱電機株式会社 | Mobile station and communication method |
CN1288625C (en) * | 2002-01-30 | 2006-12-06 | 松下电器产业株式会社 | Audio coding and decoding equipment and method thereof |
AU2003274520A1 (en) * | 2002-11-28 | 2004-06-18 | Koninklijke Philips Electronics N.V. | Coding an audio signal |
JP2006259291A (en) * | 2005-03-17 | 2006-09-28 | Matsushita Electric Ind Co Ltd | Audio encoder |
US7991610B2 (en) | 2005-04-13 | 2011-08-02 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Adaptive grouping of parameters for enhanced coding efficiency |
KR100878371B1 (en) * | 2005-04-19 | 2009-01-15 | 돌비 스웨덴 에이비 | Energy dependent quantization for efficient coding of spatial audio parameters |
US8214220B2 (en) * | 2005-05-26 | 2012-07-03 | Lg Electronics Inc. | Method and apparatus for embedding spatial information and reproducing embedded signal for an audio signal |
TWI396188B (en) * | 2005-08-02 | 2013-05-11 | Dolby Lab Licensing Corp | Controlling spatial audio coding parameters as a function of auditory events |
KR20070038441A (en) * | 2005-10-05 | 2007-04-10 | 엘지전자 주식회사 | Method and apparatus for signal processing |
EP1989920B1 (en) * | 2006-02-21 | 2010-01-20 | Koninklijke Philips Electronics N.V. | Audio encoding and decoding |
CN101188878B (en) * | 2007-12-05 | 2010-06-02 | 武汉大学 | A space parameter quantification and entropy coding method for 3D audio signals and its system architecture |
-
2010
- 2010-10-15 EP EP10785120.6A patent/EP2489039B1/en active Active
- 2010-10-15 JP JP2012533682A patent/JP5752134B2/en active Active
- 2010-10-15 WO PCT/FR2010/052192 patent/WO2011045548A1/en active Application Filing
- 2010-10-15 US US13/502,316 patent/US9167367B2/en active Active
- 2010-10-15 BR BR112012008793-2A patent/BR112012008793B1/en active IP Right Grant
- 2010-10-15 KR KR1020127012552A patent/KR101646650B1/en active IP Right Grant
- 2010-10-15 CN CN201080056964.8A patent/CN102656628B/en active Active
Also Published As
Publication number | Publication date |
---|---|
CN102656628B (en) | 2014-08-13 |
EP2489039A1 (en) | 2012-08-22 |
WO2011045548A1 (en) | 2011-04-21 |
KR20120095920A (en) | 2012-08-29 |
BR112012008793B1 (en) | 2021-02-23 |
US9167367B2 (en) | 2015-10-20 |
JP2013508743A (en) | 2013-03-07 |
BR112012008793A2 (en) | 2020-09-15 |
KR101646650B1 (en) | 2016-08-08 |
US20120207311A1 (en) | 2012-08-16 |
JP5752134B2 (en) | 2015-07-22 |
CN102656628A (en) | 2012-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2489039B1 (en) | Optimized low-throughput parametric coding/decoding | |
EP2374123B1 (en) | Improved encoding of multichannel digital audio signals | |
EP2374124B1 (en) | Advanced encoding of multi-channel digital audio signals | |
EP2691952B1 (en) | Allocation, by sub-bands, of bits for quantifying spatial information parameters for parametric encoding | |
EP3427260B1 (en) | Optimized coding and decoding of spatialization information for the parametric coding and decoding of a multichannel audio signal | |
EP2002424B1 (en) | Device and method for scalable encoding of a multichannel audio signal based on a principal component analysis | |
WO2012052676A1 (en) | Improved stereo parametric encoding/decoding for channels in phase opposition | |
WO2017103418A1 (en) | Adaptive channel-reduction processing for encoding a multi-channel audio signal | |
EP2319037B1 (en) | Reconstruction of multi-channel audio data | |
EP2104936A2 (en) | Low-delay transform coding using weighting windows | |
EP2979266B1 (en) | Optimized partial mixing of audio streams encoded by sub-band encoding | |
WO2023165946A1 (en) | Optimised encoding and decoding of an audio signal using a neural network-based autoencoder | |
WO2011073600A1 (en) | Parametric stereo encoding/decoding having downmix optimisation | |
EP2126905B1 (en) | Methods and devices for audio signals encoding and decoding, encoded audio signal | |
EP2489040A1 (en) | Optimized parametric stereo decoding | |
FR2980620A1 (en) | Method for processing decoded audio frequency signal, e.g. coded voice signal including music, involves performing spectral attenuation of residue, and combining residue and attenuated signal from spectrum of tonal components | |
WO2014064379A1 (en) | Detection of a predefined frequency band in a piece of audio content encoded by subbands according to pulse code modulation encoding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PUAI | Public reference made under article 153(3) epc to a published international application that has entered the european phase |
Free format text: ORIGINAL CODE: 0009012 |
|
17P | Request for examination filed |
Effective date: 20120507 |
|
AK | Designated contracting states |
Kind code of ref document: A1 Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR |
|
DAX | Request for extension of the european patent (deleted) | ||
RIN1 | Information on inventor provided before grant (corrected) |
Inventor name: HOANG, THI MINH NGUYET Inventor name: RAGOT, STEPHANE Inventor name: KOVESI, BALAZS |
|
RAP1 | Party data changed (applicant data changed or rights of an application transferred) |
Owner name: ORANGE |
|
17Q | First examination report despatched |
Effective date: 20130909 |
|
REG | Reference to a national code |
Ref country code: DE Ref legal event code: R079 Ref document number: 602010026664 Country of ref document: DE Free format text: PREVIOUS MAIN CLASS: G10L0019000000 Ipc: G10L0019008000 |
|
GRAP | Despatch of communication of intention to grant a patent |
Free format text: ORIGINAL CODE: EPIDOSNIGR1 |
|
RIC1 | Information provided on ipc code assigned before grant |
Ipc: G10L 19/16 20130101ALN20150309BHEP Ipc: G10L 19/008 20130101AFI20150309BHEP Ipc: H04S 3/00 20060101ALI20150309BHEP |
|
INTG | Intention to grant announced |
Effective date: 20150325 |
|
GRAS | Grant fee paid |
Free format text: ORIGINAL CODE: EPIDOSNIGR3 |
|
GRAA | (expected) grant |
Free format text: ORIGINAL CODE: 0009210 |
|
AK | Designated contracting states |
Kind code of ref document: B1 Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR |
|
REG | Reference to a national code |
Ref country code: GB Ref legal event code: FG4D Free format text: NOT ENGLISH |
|
REG | Reference to a national code |
Ref country code: CH Ref legal event code: EP |
|
REG | Reference to a national code |
Ref country code: AT Ref legal event code: REF Ref document number: 742758 Country of ref document: AT Kind code of ref document: T Effective date: 20150815 |
|
REG | Reference to a national code |
Ref country code: IE Ref legal event code: FG4D Free format text: LANGUAGE OF EP DOCUMENT: FRENCH |
|
REG | Reference to a national code |
Ref country code: DE Ref legal event code: R096 Ref document number: 602010026664 Country of ref document: DE |
|
REG | Reference to a national code |
Ref country code: FR Ref legal event code: PLFP Year of fee payment: 6 |
|
REG | Reference to a national code |
Ref country code: LT Ref legal event code: MG4D |
|
REG | Reference to a national code |
Ref country code: AT Ref legal event code: MK05 Ref document number: 742758 Country of ref document: AT Kind code of ref document: T Effective date: 20150812 |
|
REG | Reference to a national code |
Ref country code: NL Ref legal event code: MP Effective date: 20150812 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: LV Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20150812 Ref country code: LT Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20150812 Ref country code: GR Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20151113 Ref country code: NO Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20151112 Ref country code: FI Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20150812 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: PT Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20151214 Ref country code: IS Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20151212 Ref country code: RS Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20150812 Ref country code: HR Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20150812 Ref country code: SE Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20150812 Ref country code: PL Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20150812 Ref country code: AT Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20150812 Ref country code: ES Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20150812 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: NL Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20150812 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: IT Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20150812 Ref country code: EE Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20150812 Ref country code: CZ Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20150812 Ref country code: DK Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20150812 Ref country code: SK Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20150812 |
|
REG | Reference to a national code |
Ref country code: DE Ref legal event code: R097 Ref document number: 602010026664 Country of ref document: DE |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: LU Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20151015 Ref country code: RO Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20150812 |
|
REG | Reference to a national code |
Ref country code: CH Ref legal event code: PL |
|
PLBE | No opposition filed within time limit |
Free format text: ORIGINAL CODE: 0009261 |
|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: MC Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20150812 |
|
26N | No opposition filed |
Effective date: 20160513 |
|
REG | Reference to a national code |
Ref country code: IE Ref legal event code: MM4A |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: CH Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20151031 Ref country code: LI Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20151031 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: SI Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20150812 |
|
REG | Reference to a national code |
Ref country code: FR Ref legal event code: PLFP Year of fee payment: 7 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: IE Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20151015 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: HU Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT; INVALID AB INITIO Effective date: 20101015 Ref country code: SM Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20150812 Ref country code: BG Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20150812 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: CY Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20150812 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: BE Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20151031 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: TR Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20150812 Ref country code: MT Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20150812 |
|
REG | Reference to a national code |
Ref country code: FR Ref legal event code: PLFP Year of fee payment: 8 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: MK Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20150812 |
|
REG | Reference to a national code |
Ref country code: FR Ref legal event code: PLFP Year of fee payment: 9 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: AL Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20150812 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: DE Payment date: 20230920 Year of fee payment: 14 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: GB Payment date: 20240919 Year of fee payment: 15 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: FR Payment date: 20240919 Year of fee payment: 15 |